Model) Retrieval Model)... 18

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Model) Retrieval Model)... 18"

Transcript

1 Πανεπιστήμιο Πατρών Πολυτεχνική Σχολή Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Αποδοτική Ιεραρχημένη Ανάκτηση Κοινωνικού Περιεχομένου με Χρήση Ταξονομιών Ετικετών Κοντοτάσιου Ιωάννα ΑΜ: 600 Επιβλέπων: Καθ. κ. Τριανταφύλλου Παναγιώτης Πάτρα, Ιανουάριος 2012

2

3 Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τον επιβλέποντα καθηγητή μου, Καθηγητή κ. Τριανταφύλλου Παναγιώτη, ο οποίος με τίμησε με τη συνεργασία του, μου έδωσε την ευκαιρία να ασχοληθώ με ένα πολύ ενδιαφέρον αντικείμενο και με την πολύτιμη βοήθεια και συνδρομή του συνέβαλε στην επιτυχή ολοκλήρωση της παρούσας διπλωματικής εργασίας. Ακόμη θα ήθελα να ευχαριστήσω ιδιαίτερα την οικογένειά μου που με στήριξε και συνεχίζει να με στηρίζει στις επιλογές μου, καθώς και τον αρραβωνιαστικό μου Γρηγόρη ο οποίος με βοήθησε τόσο ηθικά όσο και έμπρακτα στην ολοκλήρωση της παρούσας εργασίας. Ιωάννα Κοντοτάσιου, Πάτρα, Ιανουάριος 2012

4

5 Περιεχόμενα 1 Εισαγωγή Πρόβλημα και Σημασία του Στόχος και Συνεισφορά Διπλωματικής Εργασίας Σχετική Βιβλιογραφία Δομή Διπλωματικής Εργασίας Βασική Θεωρία Ανάκτησης Πληροφορίας Εισαγωγή Βασικοί Οροι και Αρχές Μοντέλα Ανάκτησης Πληροφορίας Μοντέλο Ανάκτησης Boole (Boolean Retrieval Model) Μοντέλο Ανάκτησης Διανυσματικού Χώρου (Vector Space Model) Εκτεταμένο Μοντέλο Ανάκτησης Boole (Extended Boolean Retrieval Model) Σύνοψη Top-K Ερωτήματα και Top-K Αλγόριθμοι Εισαγωγή Ανάλυση Τεχνικών Επεξεργασίας Top-K Ερωτημάτων Top-K Αλγόριθμοι Αλγόριθμος Fagin FA Αλγόριθμος Threshold TA Αλγόριθμος Καμίας Τυχαίας Προσπέλασης NRA Σύνοψη

6 6 ΠΕΡΙΕΧ ΟΜΕΝΑ 4 Κίνητρο και Συνεισφορά Περιβάλλοντα Κοινωνικών Μέσων (Social Media Environments SMEs) Κίνητρο Μοντέλο Συστήματος Μοντέλο Ερωτημάτων Συνεισφορά Σύνοψη Ορισμός Ομοιότητας σε Ταξονομίες Ετικετών Εισαγωγή Ομοιότητα βάσει Ταξονομιών Ομοιότητα Μεταξύ Κόμβων Ταξονομίας Ομοιότητα Βάσει Χαμηλότερου Κοινού Προγόνου (LCA) Ομοιότητα Βάσει Βαθμισμένης Καταμέτρησης Ακμών Ομοιότητα Μεταξύ Ερωτήματος και Εγγράφων Σύνοψη Αλγόριθμοι TREATS Αλγόριθμοι Κατωφλίου TREATS-Indexed TREATS-Indexed LCA TREATS-Indexed edge count TREATS-Sorted TREATS-Labelled Τυχαίες Προσπελάσεις για sim LCA Τυχαίες Προσπελάσεις για sim edge count Ανάλυση των Αλγορίθμων TREATS Ορθότητα Βελτιστότητα Σύνοψη Επιδόσεις Αλγορίθμων TREATS Υλοποίηση Αλγορίθμων

7 ΠΕΡΙΕΧ ΟΜΕΝΑ Σύνολα Πειραματικών Δεδομένων Περιγραφή Πειραμάτων Παρουσίαση Αποτελεσμάτων Εκτέλεσης Αποτελέσματα sim edge count Αποτελέσματα sim LCA Σύνοψη Συμπεράσματα και Προοπτικές 93 Βιβλιογραφία 96

8

9 Περίληψη Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές «ΕΙΝΑΙ-ΕΝΑ» ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας. Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου. Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να αποτελούν κόμβους της ταξονομίας). Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin (Fagin s Threshold Algorithms TA). Στην προτεινόμενη προσέγγιση θα καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα, τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια θα κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων.

10

11 Κεφάλαιο 1 Εισαγωγή 1.1 Πρόβλημα και Σημασία του Τα τελευταία χρόνια έχει παρατηρηθεί ραγδαία αύξηση της χρήσης κοινωνικών μέσων και μια συνακόλουθη αύξηση της δημιουργίας κοινωνικού και εμπορικού περιεχομένου. όπως έγγραφα, εικόνες, βίντεο, κτλ. Το γεγονός αυτό έχει δημιουργήσει την ανάγκη στους χρήστες να επισημαίνουν κατάλληλα τέτοιου είδους αντικείμενα, έτσι ώστε να μπορέσουν να τα χρησιμοποιήσουν αποδοτικά μέσω της εύκολης και γρήγορης αναζήτησής τους. Αυτό με την σειρά του δημιούργησε την επιτακτική ανάγκη για εξεύρεση κατάλληλων τεχνικών οι οποίες θα καθιστούν δυνατή αυτού του είδους την αναζήτηση. Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές «ΕΙΝΑΙ-ΕΝΑ» ιεραρχίες λέξεων-κλειδιών που είτε παρέχουν οι χρήστες είτε δημιουργούνται από κάποιον άλλον οργανισμό. Κάθε κόμβος των δενδρικών αυτών δομών αντιστοιχεί σε μία ετικέτα της ταξονομίας. Το πρόβλημα με το οποίο ασχολούμαστε στην παρούσα διπλωματική εργασία έχει να κάνει με την χρήση ταξονομιών ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία ή περισσότερες ετικέτες, σε περιβάλλοντα που είναι ιδιαιτέρως δυναμικά, με την έννοια ότι η προσθαφαίρεση και τροποποίηση των ετικετών από τους χρήστες μπορεί να είναι συνεχής και αντικείμενα μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό κυριαρχικό χα- 3

12 4 Εισαγωγή ρακτηριστικό είναι η αποδοτική ιεραρχημένη ανάκτηση περιεχομένου. Στη σχετική βιβλιογραφία η αποδοτική ιεραρχημένη ανάκτηση περιεχομένου βασίζεται στη δημιουργία και διατήρηση ανεστραμμένων λιστών για κάθε κόμβο της ταξονομίας. Για τον λόγο αυτό, έχει δαπανηθεί αρκετός ερευνητικός χρόνος για την εύρεση τρόπων αποδοτικής ανανέωσης και ανάκτησής τους. Παρόλα αυτά, η διατήρηση τέτοιων λιστών εξακολουθεί να είναι ιδιαιτέρως δαπανηρή σε πόρους. Στόχος της παρούσας διπλωματικής εργασίας είναι η εύρεση εναλλακτικών τεχνικών ταξινομημένης ανάκτησης, έτσι ώστε να μην είναι απαραίτητη η χρήση ανεστραμμένων λιστών. 1.2 Στόχος και Συνεισφορά Διπλωματικής Εργασίας Από τα πρώτα της βήματα, η ταξινομημένη αναζήτηση περιεχομένου, βασίστηκε είτε στην χρήση ταξονομιών (taxonomy-based) είτε στην χρήση λέξεων κλειδιών (keyword-based). Στην δεύτερη περίπτωση, οι μηχανές αναζήτησης είναι εφοδιασμένες με λεξικά όρων (ανεστραμμένες λίστες που περιέχουν του όρους), συναρτήσεις ταξινόμησης (οι οποίες βασίζονται κυρίως σε στατιστικές των όρων) και συναφείς αλγόριθμους ταξινομημένης ανάκτησης [22]. Η παρούσα διπλωματική εργασία έχει ως στόχο την αναζήτηση τεχνικών, μέσω των οποίων θα γίνεται χρήση των γνωστών αυτών μεθόδων, έτσι ώστε οι τεχνικές που θα προταθούν να επωφελούνται από τα θετικά στοιχεία και των δύο. Πιο συγκεκριμένα, στόχο αποτελεί η εκμετάλλευση της γνώσης που είναι διαθέσιμη σε ταξονομίες έτσι ώστε να είναι αποδοτική, τόσο από άποψη ποιότητας αποτελεσμάτων όσο και από άποψη χρόνου εκτέλεσης, η ιεραρχημένη ανάκτηση περιεχομένου σε περιβάλλοντα κοινωνικών μέσων. Συγκεκριμένα επικεντρωνόμαστε την απάντηση ερωτημάτων τύπου top-k. Για την διασφάλιση της αποδοτικής από πλευράς ποιότητας, ανάκτησης προτείνονται δύο συναρτήσεις ο- μοιότητας εγγράφων σε ταξονομίες που βασίζονται σε ευρέως αποδεκτές αρχές μέτρησης ομοιότητας. Για την ανάκτηση των αντικειμένων θα χρησιμοποιηθούν παραλλαγές γνωστών αλγόριθμων, των λεγόμενων αλγορίθμων κατωφλίου του Fagin [13, 14] (TA), στους οποίους όμως δεν παρέχονται οι απαραίτητες

13 Σχετική Βιβλιογραφία 5 ανεστραμμένες λίστες όρων. Αντίθετα, οι λίστες αυτές θα παράγονται δυναμικά και μόνο στο βαθμό που απαιτείται για την εξαγωγή των επιθυμητών αποτελεσμάτων. Με τον τρόπο αυτό αποφεύγεται η ανάγκη δημιουργίας, αποθήκευσης και συντήρησης ανεστραμμένων ευρετηρίων τα οποία θεωρούνται ιδιαιτέρως σημαντικά, αν όχι απαραίτητα, σε περιβάλλοντα κοινωνικών μέσων. Πιο συγκεκριμένα, οι συναρτήσεις ομοιότητας που προτείνονται είναι η sim LCA, που βασίζεται στην εύρεση του χαμηλότερου κοινού προγονικού κόμβου στην ταξονομία, και η sim edge count, που βασίζεται στη μέτρηση του μονοπατιού που ενώνει δύο κόμβους στην ταξονομία. Βάσει αυτών σχεδιάστηκε ο αλγόριθμος TREATS-Index (όπου TREATS: ThREshold Algorithms on TaxonomieS), ο οποίος παράγει δυναμικά και κατ απαίτηση κομμάτι κομμάτι τις ανεστραμμένες λίστες που είναι απαραίτητες για την εξαγωγή των K καλύτερων αποτελεσμάτων. Τον αλγόριθμο TREATS-Index χρησιμοποιούν στην συνέχεια οι δύο παραλλαγές των αλγορίθμων TA, οι TREATS-Labelled και TREATS- Sorted. Ολοι οι προτεινόμενοι αλγόριθμοι υλοποιήθηκαν και με αυτούς πραγματοποιήθηκαν διάφορα πειράματα που χρησιμοποιούν πραγματικά σύνολα δεδομένων. Τα αποτελέσματα παρουσιάζονται και αναλύονται στην παρούσα διπλωματική εργασία. Στόχο των πειραμάτων αποτελεί κυρίως η μέτρηση της απόδοσης των προτεινόμενων αλγορίθμων από πλευράς χρόνου απόκρισης. Η μέτρηση της αποδοτικότητας των συναρτήσεων ομοιότητας από πλευράς ποιότητας αποτελεσμάτων είναι ιδιαιτέρως δύσκολη και πολύπλοκη και συνήθως γίνεται με την χρήση πραγματικών χρηστών που αξιολογούν τα παραγόμενα αποτελέσματα. Παρόλα αυτά, επειδή οι συναρτήσεις ομοιότητας βασίζονται σε καλά μελετημένες αρχές ομοιότητας θεωρείται δεδομένη η ορθότητά τούς. 1.3 Σχετική Βιβλιογραφία Η σχετική βιβλιογραφία πηγάζει από διάφορες ερευνητικές περιοχές. Από την Τεχνητή Νοημοσύνη και τη Ψυχολογία, ως την Ανάκτηση Πληροφορίας και τα Συστήματα Βάσεων Δεδομένων. Καλύπτει βασικά τρεις αλληλένδετους τομείς: Πώς να χρησιμοποιηθούν οι ταξονομίες για να καθοριστούν ομοιότητες, πώς να οικοδομηθούν οι ταξονομίες σε ένα κοινωνικό περιβάλλον, και πως εφαρμόζον-

14 6 Εισαγωγή ται οι top-k αλγόριθμοι αναζήτησης σε παραδοσιακά συστήματα ανάκτησης πληροφορίας και περιβάλλοντα κοινωνικών δικτύων. Ο καθορισμός και ο υπολογισμός της ομοιότητας μεταξύ των κόμβων της ταξονομίας, και ειδικότερα η χρήση των IS-A σχέσεων μεταξύ των εννοιών έχει μελετηθεί πλήρως στο [24] όπου διατυπώθηκε η αρχή της καταμέτρησης ακμών. Συμπληρωματικά, οι [25, 26] εισηγούνται πως η ομοιότητα μεταξύ των εννοιών της ταξονομίας θα πρέπει να βασίζεται στο πληροφοριακό περιεχόμενο της κοινής μεταξύ τους πληροφορίας, όπως το βάθος του ελάχιστου κοινού προγόνου των δύο αυτών εννοιών στην ταξονομία. Αυτό αντιμετώπισε το κύριο μειονέκτημα της τεχνικής της καταμέτρησης ακμών, στην οποία όλες οι ακμές λαμβάνονται υπόψη με τον ίδιο τρόπο, ενώ είναι κοινά αποδεκτό πως ορισμένες ακμές έχουν μεγαλύτερο βάρος (σημασία) από άλλες. Αυτές οι εργασίες, όπως και η [20] αναφέρονται στο Boolean και το εκτεταμένο Boolean μοντέλο. Οι προτεινόμενοι, στις παραπάνω εργασίες, αλγόριθμοι υπολογισμού ομοιότητας επικεντρώνονται κυρίως στην αποδοτικότητα του υπολογισμού των κανονικών μορφών διάζευξης του ερωτήματος Boolean και των τελεστών NOT. Επιπρόσθετα, η χρήση ταξονομιών για τον ορισμό και τον υπολογισμό ομοιότητας μεταξύ εννοιών είναι πολύ διαδεδομένη. Για παράδειγμα, στο [21, 10], αυτό γίνεται με χρήση του λεξικού ταξονομιών (taxonomic dictionary) WordNet. Το [35], επίσης εισηγείται ένα τρόπο υπολογισμού της σημασιολογικής εγγύτητας δύο εννοιών, με χρήση της ταξονομίας του Open Directory Project και του Google Directory. Συμπληρωματικά, οι ερευνητές αποσκοπούν στην δημιουργία ταξονομιών σε περιβάλλοντα κοινωνικών μέσων. Στο [31] ανακτώνται ετικέτες ώστε να δημιουργηθεί μια ταξονομία, βασισμένη στις συχνότητες των ετικετών και εξάγονται υπερσύνολα και υποσύνολα των σχέσεων των ετικετών. Στην πλειονότητα της σχετικής βιβλιογραφίας σε αυτό τον τομέα είτε χρησιμοποιούνται τεχνικές ανάκτησης γνώσης, είτε στατιστικές μέθοδοι για αυτόματη εξαγωγή σχέσεων μεταξύ όρων που φαίνεται να συνυπάρχουν σε ένα σύνολο ετικετών. Στο [32] υιοθετείται το μοντέλο που παρουσιάζεται στο [29] όπου ο όρος X διαδέχεται τον όρο Y σύμφωνα με έναν καλά ορισμένο κανόνα που βασίζεται κυρίως σε εμπειρικά δεδομένα. Στο [31] παρουσιάζεται ένα επίσημο μοντέλο των φολκσονομιών (Folksonomy)

15 Σχετική Βιβλιογραφία 7 σαν ένα σύνολο από τριπλέτες F := {U, T, R}, όπου U, T και R είναι πεπερασμένα σύνολα, τα στοιχεία των οποίων καλούνται αντίστοιχα χρήστες (users), ετικέτες (tags) και πόροι (resources). Βασίζονται στην εφαρμογή του κανόνα ανάκτησης σχέσεων (association mining rule) [4]. Είναι σε θέση να εξάγουν σχέσεις υπερτύπου-υποτύπου δημιουργώντας ένα σημασιολογικό γράφημα. Στην δική μας προσέγγιση, υποθέτουμε ότι για τα περιβάλλοντα των κοινωνικών μέσων υφίστανται οι δενδρικές ταξονομίες, είτε δημιουργούνται χρησιμοποιώντας τεχνικές ανάκτησης από ελεύθερες επισημάνσεις των χρηστών (προσθήκες ετικετών) ή οι έννοιες της ταξονομίας αποτελούν το λεξιλόγιο των ετικετών που χρησιμοποιείται από τους χρήστες. Ακολούθως, εκμεταλλευόμαστε την ταξονομία για τον ορισμό των σχετικών μέτρων ομοιότητας και προτείνουμε σχετικούς αλγορίθμους εύρεσης των K πιο σχετικών αντικειμένων (top-k). Η αναζήτηση εύρεσης των K σχετικότερων αντικειμένων (top-k Query) έχει λάβει αρκετή σημασία αφ ότου δημιουργήθηκαν οι αλγόριθμοι κατωφλίου (TA) [13, 14]. Οι συγκεκριμένοι αλγόριθμοι εφαρμόζονται σε ανεστραμμένες λίστες για κάθε λέξη κλειδί, ταξινομημένες κατά φθίνουσα σειρά βαθμού ομοιότητας. Αυτοί οι αλγόριθμοι προορίζονται για διαφορετικό μοντέλο ανάκτησης πληροφορίας και χρησιμοποιούν ζίγκ-ζάγκ συναθροίσεις (zig-zag joins) ανεστραμμένων λιστών και βαθμολόγηση κάθε εγγράφου κατά τη συνάθροιση, όταν αυτό εντοπισθεί. Καθώς οι προσπελάσεις των λιστών είναι ακριβές πράξεις, η εργασία [8] αποσκοπούσε στην μείωση του εν λόγω κόστους. Αυτό το επιτυγχάνει δίνοντας προτεραιότητα σε ορισμένες λίστες κατά τις σειριακές προσπελάσεις, και εφαρμόζοντας στατιστικό χρονοπρογραμματισμό για την εκτέλεση των τυχαίων προσπελάσεων, ώστε να επιλέγεται το πότε και το για ποια υποψήφια αντικείμενα αυτές θα πραγματοποιηθούν. Στο [5] γίνεται χρήση μιας συνθήκης τερματισμού η οποία λαμβάνει υπόψιν της τις θέσεις των ανεστραμμένων λιστών, από τις οποίες ανακτήθηκαν τα μερικά σκορ, κάτι που οδηγεί σε αρκετά συντομότερο τερματισμό. Η εργασία που είναι, σε μεγάλο βαθμό, πιο σχετική με τη δική μας είναι η [15], στην οποία χρησιμοποιείται το κλασσικό μοντέλο, το οποίο επεκτείνεται με τη χρήση μεταδεδομένων σε πολυδιάστατες ταξονομίες. Σκοπός της εργασίας είναι η χρήση των ταξονομιών συμπληρωματικά στις συνήθεις ανεστραμμένες λίστες

16 8 Εισαγωγή κειμένου, ώστε να βελτιωθούν τα αποτελέσματα της αναζήτησης σε εφαρμογές όπως αναζήτηση βάσει τοποθεσίας ή αναζήτηση προϊόντων. Η προσέγγιση των συγγραφέων απαιτεί επιπλέον ανεστραμμένες λίστες (πέραν των λιστών που χρησιμοποιούνται για τα κλασικά ερωτήματα κείμενου) για κάθε όρο της ταξονομίας. Η θέση κάθε εγγράφου στην ταξονομία παρέχει μια πρόσθετη βαθμολογία η οποία συνδυάζεται με την κλασσική βαθμολογία κειμένου (π.χ. tf idf) και μια στατική βαθμολογία (π.χ. την Pagerank). Αυτό είναι ένα διαφορετικό πρόβλημα. Σε αυτό οι συγγραφείς επικεντρώνονται σε εφαρμογές στις οποίες η γνώση και εκμετάλλευση των ταξονομιών μπορεί να συμπληρώσει τις παραδοσιακές μηχανές αναζήτησης βάσει κειμένου. Επιπρόσθετα γίνεται η παραδοχή ότι κάθε κείμενο εμφανίζεται μόνο σε μια θέση της ταξονομίας, κάτι που δεν ισχύει στο περιβάλλον στο οποίο η παρούσα διπλωματική εργασία απευθύνεται. Σε τέτοια περιβάλλοντα, περιβάλλοντα κοινωνικών μέσων, στα οποία οι χρήστες δύνανται να αναθέσουν αριθμό ετικετών σε κάθε έγγραφο, οι ανεστραμμένες λίστες είναι εξαιρετικά δυναμικές και η συντήρησή τους πολύ δαπανηρή. Τελικώς, η παρούσα εργασία μπορεί να είναι συμπληρωματική στην [15], με την έννοια ότι παρέχει βέλτιστους αλγορίθμους ταξινομημένης ανάκτησης, που χρησιμοποιούν ταξονομίες, οι οποίοι μπορούν να συνδυαστούν και με ευρετήρια όρων (αν ταξινομηθούν κατά docid και χρησιμοποιηθούν zig-zag joins, ή με βάση τον βαθμό ομοιότητας και χρησιμοποιηθούν αλγόριθμοι τύπου TA). Η γνώση που εμπεριέχεται στις ταξονομίες χρησιμοποιείται επίσης και στην εργασία [9], όπου αναπτύσσονται μέθοδοι κατάταξης των εγγράφων σε δεδομένους κόμβους της ταξονομίας και κατάλληλες συναρτήσεις βαθμολόγησης. Στη δική μας προσέγγιση η συσχέτιση των εγγράφων με τους κόμβους της ταξονομίας είναι αυτόματη, δεδομένων της ταξονομίας και των ετικετών των εγγράφων. Αναφορικά με τα ερωτήματα κοινωνικών μέσων ή δικτύων, βρίσκονται επί του παρόντως στο επίκεντρο αρκετών εν εξελίξει ερευνητικών προσπαθειών. Το έργο στο [6] συνέβαλε σε τροποποιήσεις και επεκτάσεις των TA χρησιμοποιώντας ομαδοποίηση (clustering) των αιτούντων και της δημοτικότητάς τους σε κοινωνικά δίκτυα. Στην εν λόγω εργασία λαμβάνεται ως δεδομένη και η εκ των προτέρων ύπαρξη ανεστραμμένων λιστών για κάθε όρο. Στο [3] παρουσιάζον-

17 Δομή Διπλωματικής Εργασίας 9 ται top-k αλγόριθμοι για την επιλογή των πιο σχετικών ετικετών δοθέντος κάποιου εγγράφου, ένα πρόβλημα συμπληρωματικό με το δικό μας. Το [30] βασίζει την επεξεργασία top-k ερωτημάτων σε κοινωνικά δίκτυα, σε πρότυπες συναρτήσεις ομοιότητας που λαμβάνουν υπόψη χαρακτηριστικά, όπως φίλους (και φίλους φίλων) στα δίκτυα αυτά, και ορίζουν ακριβείς σχέσεις ετικετών ως προς έγγραφα και προφίλ χρηστών. Ολες οι εργασίες που αναφέρθηκαν πιο πάνω αποτελούν εργασίες συμπληρωματικές στην παρούσα διπλωματική εργασία. 1.4 Δομή Διπλωματικής Εργασίας Η παρούσα διπλωματική εργασία χωρίζεται σε 8 κεφάλαια. Το κεφάλαιο 1 αποτελεί την εισαγωγή και σε αυτό παρουσιάζεται το κίνητρο μέσω του οποίο προέκυψε η παρούσα διπλωματική εργασία, το κύριο θέμα ενασχόλησης της, καθώς επίσης και μία σύντομη περιγραφή της σχετικής βιβλιογραφίας. Το κεφάλαιο 2 αναφέρει τις βασικές αρχές της ανάκτησης πληροφορίας, οι οποίες χρησιμοποιούνται ως βάση στα περισσότερα συστήματα ανάκτησης περιεχομένου. Το κεφάλαιο 3 περιγράφει τα ερωτήματα εύρεσης καλύτερων K αντικειμένων και τους βασικούς αλγόριθμους με τους οποίους αυτά ανακτώνται στα συστήματα πολυμέσων (αλγόριθμοι κατωφλίου του Fagin TA). Στην συνέχεια, στα κεφάλαια 4, 5 και 6 αναλύεται το σύστημα στο οποίο απευθύνεται η παρούσα εργασία καθώς επίσης και το σύνολο των αλγορίθμων που προτείνονται. Πιο συγκεκριμένα στο κεφάλαιο 5 παρουσιάζονται οι δύο συναρτήσεις ομοιότητας για δενδρικές ταξονομίας ετικετών sim edge count και sim LCA, ενώ στο κεφάλαιο 6 οι αλγόριθμοι TREATS. Ακολούθως, στο κεφάλαιο 7 περιγράφονται τα πειράματα που πραγματοποιήθηκαν για τα διάφορα σύνολα δεδομένων και παρουσιάζονται αναλυτικά τα αποτελέσματα, ενώ παράλληλα αυτά σχολιάζονται και εξηγούνται. Τέλος, στο κεφάλαιο 8 συνοψίζεται η δουλειά που έγινε, εξάγονται συμπεράσματα και αναφέρεται πιθανή μελλοντική έρευνα με την οποία θα μπορούσε να επεκταθεί η δουλειά που πραγματοποιήθηκε.

18

19 Κεφάλαιο 2 Βασική Θεωρία Ανάκτησης Πληροφορίας Στο κεφάλαιο αυτό θα γίνει μία σύντομη εισαγωγή και επεξήγηση των βασικών εννοιών και μεθόδων του κλάδου της ανάκτησης πληροφορίας. Η εισαγωγή αυτή έχει ως στόχο το κτίσιμο του κατάλληλου υποβάθρου έτσι ώστε να είναι ευκολότερη η επεξήγηση και η κατανόηση της συνεισφοράς της παρούσας διπλωματικής εργασίας, των αλγορίθμων TREATS. 2.1 Εισαγωγή Ο όρος Ανάκτηση Πληροφορίας μπορεί να είναι πολύ ευρύς και να αναφέρεται σε πολλές και διαφορετικές περιπτώσεις. Παρόλα αυτά, στον ακαδημαϊκό τομέα, η αναζήτηση πληροφορίας ορίζεται ως η εύρεση υλικού (συνήθως ηλεκτρονικών εγγράφων) μη δομημένης φύσης (συνήθως κειμένου), το οποίο ικανοποιεί κάποια πληροφοριακή ανάγκη, μέσα από μεγάλες συλλογές (που συνήθως είναι αποθηκευμένες σε ηλεκτρονικούς υπολογιστές). Ορισμένη με αυτόν τον τρόπο, η ανάκτηση πληροφορίας υπήρξε μια δραστηριότητα με την οποία απασχολούνταν πολύ λίγοι άνθρωποι, όπως βιβλιοθηκονόμοι, δικηγόροι κτλ. Πλέον και ιδιαίτερα μετά την ευρεία διάδοση του διαδικτύου σε όλα τα φάσματα της καθημερινότητας των ανθρώπων και την ανάπτυξη μέσω αυτού ενός τεραστίου όγκου πληροφορίας, εκατοντάδες εκατομμύρια 11

20 12 Βασική Θεωρία Ανάκτησης Πληροφορίας ανθρώπων κάνουν καθημερινή χρήση της ανάκτησης πληροφορίας όταν πραγματοποιούν μία αναζήτηση στο διαδίκτυο ή όταν ψάχνουν κάποιο στην ηλεκτρονική τους αλληλογραφία. Η αναζήτηση περιεχομένου γρήγορα γίνεται κυρίαρχη μορφή πρόσβασης στην πληροφορία, ξεπερνώντας την παραδοσιακή αναζήτηση τύπου βάσεων δεδομένων (όπου είναι απαραίτητη η γνώση μέρους της πληροφορίας όπως κάποιου κλειδιού για την ανάκτησή της). 2.2 Βασικοί Οροι και Αρχές Τα σύγχρονα συστήματα ανάκτησης πληροφορίας έχουν ως βασικό σκοπό την απάντηση τυχαίων ερωτημάτων. Πιο συγκεκριμένα, ένα τέτοιο σύστημα στοχεύει στο να παρέχει στον χρήστη του έγγραφα, ανακτημένα από μία μεγάλη συλλογή εγγράφων, τα οποία να είναι σχετικά με κάποια ανάγκη του για πληροφορία. Η ανάγκη αυτή του χρήστη μεταβιβάζεται στο σύστημα μέσω μοναδικών ερωτημάτων που παράγονται από τον ίδιο. Η ανάγκη αυτή διαφοροποιείται από κάποιο ερώτημα αφού το δεύτερο είναι στην ουσία η απόδοση της συγκεκριμένης ανάγκης από τον χρήστη έτσι ώστε να επικοινωνήσει την ανάγκη του στο σύστημα. Κάποιο έγγραφο θεωρείται σχετικό με το ερώτημα του χρήστη αν ο χρήστης θεωρεί ότι το συγκεκριμένο έγγραφο του παρέχει την πληροφορία που χρειάζεται. Κατ επέκταση, ένα σύστημα ανάκτησης πληροφορίας θεωρείται αποτελεσματικό (δηλαδή παρέχει ποιοτικά αποτελέσματα αναζήτησης) όταν τα αποτελέσματα που εξάγει εμφανίζουν υψηλά ποσοστά στις δύο παρακάτω μετρικές: Ακρίβεια (Precision) Το ποσοστό των αποτελεσμάτων που επιστράφηκαν και ήταν σχετικά με το ερώτημα που υποβλήθηκε από τον χρήστη. Η ποσοτική μέτρηση της ακρίβειας δίνεται από τον ακόλουθο τύπο: precistion = {relevant documents} {retrieved documents} {retrieved documents} Ανάκληση (Recall) Το ποσοστό των σχετικών εγγράφων που επιστράφηκαν στον χρήστη σε σχέση με τα συνολικά διαθέσιμα σχετικά

21 Βασικοί Οροι και Αρχές 13 Σχήμα 2.1: Τα δύο μέρη μίας ανεστραμμένη λίστας. Συνήθως το λεξικό είναι αποθηκευμένο στην μνήμη μαζί με τους αντίστοιχους δείκτες προς κάθε λίστα εμφανίσεων. Οι λίστες εμφανίσεων αποθηκεύονται στον δίσκο. έγγραφα. Η ποσοτική μέτρηση της ανάκλησης δίνεται από τον παρακάτω τύπο: recall = {relevant documents {retrieved documents} {relevant documents} Για τον υπολογισμό των παραπάνω μετρικών στις πλείστες των περιπτώσεων χρησιμοποιείται η βασικότερη δομή στην ανάκτηση πληροφορίας, το ευρετήριο ή αλλιώς η ανεστραμμένη λίστα (inverted index). Ενα παράδειγμα ανεστραμμένης λίστας παρουσιάζεται στην εικόνα 2.1. Σε αυτήν υπάρχουν δύο διαφορετικές δομές, το λεξικό (dictionary) και η λίστα εμφανίσεων (posting list). Το λεξικό αποτελείται από το σύνολο των δυνατών όρων της συλλογής κειμένων. Για κάθε όρο του λεξικού υπάρχει ένας δείκτης ο οποίος δείχνει σε μία λίστα εμφανίσεων, η οποία αποτελείται από εγγραφές που δηλώνουν ποιος όρος εμφανίζεται σε ποιο έγγραφο της συλλογής. Οι εγγραφές των λιστών εμφανίσεων είναι ταξινομημένες κατά κωδικό κειμένου (documentid docid). Ετσι, στο παράδειγμα της εικόνας 2.1, στο λεξικό υπάρχουν διάφοροι όροι, μερικοί εκ των οποίων είναι οι ανάκτηση, χρήστης και έγγραφο. Για κάθε έναν από αυτούς υπάρχει η αντίστοιχη λίστα εμφανίσεων. Από τις λίστες αυτές βλέπουμε, για παράδειγμα, ότι ο όρος χρήστης εμφανίζεται στα κείμενα με docids 1, 2, 4, 5, 6, 16, κτλ. Σε πολλές περιπτώσεις, στις λίστες εμφανίσεων, για κάθε εγγραφή, αποθηκεύεται, εκτός των άλλων, και ένας δείκτης που δείχνει την ακριβή θέση στην οποία εμφανίζεται ο συγκεκριμένος όρος στο αντίστοιχο κείμενο.

22 14 Βασική Θεωρία Ανάκτησης Πληροφορίας Για να υπάρξει όφελος από την χρήση της δεικτοδότησης κατά την διάρκεια της ανάκτησης, οι ανεστραμμένες λίστες δημιουργούνται εκ των προτέρων και όχι την ώρα που ο χρήστης υποβάλει το ερώτημά του στο σύστημα. Η διαδικασία δημιουργίας τους αποτελείται από τα ακόλουθα βήματα: 1. Συλλογή των προς δεικτοδότηση εγγράφων. 2. Μετατροπή κάθε κειμένου σε μία λίστα λέξεων (tokens). 3. Εφαρμογή γλωσσικής επεξεργασίας στην λίστα των λέξεων, η οποία θα παράξει την αντίστοιχη λίστα κανονικοποιημένων λέξεων. Αυτή η λίστα των κανονικοποιημένων λέξεων (λεξικό) θα αποτελέσει και τους όρους προς δεικτοδότηση. 4. Δεικτοδότηση όλων των εγγράφων, στα οποία εμφανίζεται κάθε όρος, μέσω ενός ανεστραμμένου ευρετηρίου, το οποίο θα αποτελείται από το λεξικό και τις λίστες εμφανίσεων. Σημειώνεται ότι ως είσοδος του βήματος της δεικτοδότησης δίνεται μία λίστα α- πό ζευγάρια του τύπου όρος - docid. Η λίστα αυτή ταξινομείται έτσι ώστε οι όροι να είναι κατά αλφαβητική σειρά. Αν υπάρχουν πολλαπλές εμφανίσεις όρων στα ίδια κείμενα, αυτές συνενώνονται. Στη συνέχεια τα στιγμιότυπα των ίδιων όρων ομαδοποιούνται και τα αποτελέσματα χωρίζονται έτσι ώστε να σχηματίσουν το λεξικό και τις λίστες εμφανίσεων που παρουσιάστηκαν παραπάνω. Οι λίστες εμφανίσεων ταξινομούνται έτσι ώστε οι εγγραφές τους να είναι τοποθετημένες κατά αύξοντα docid. Η διαδικασία αυτή αποτελεί την βάση της αποδοτικότητας της επεξεργασίας των ερωτημάτων. 2.3 Μοντέλα Ανάκτησης Πληροφορίας Στον τομέα της ανάκτησης πληροφορίας έχουν προταθεί και χρησιμοποιούνται διάφορα μοντέλα ανάκτησης. Τα περισσότερα από αυτά μπορούν να κατηγοριοποιηθούν σε μία από τις παρακάτω δύο κατηγορίες: Μοντέλο Ακριβούς Ταιριάσματος Σε αυτή την κατηγορία κάθε ερώτημα που υποβάλλεται παρέχει ακριβή κριτήρια ανάκτησης. Ετσι, όλα τα

23 Μοντέλα Ανάκτησης Πληροφορίας 15 έγγραφα θα πρέπει είτε να ταιριάζουν με τα υποβληθέντα κριτήρια αναζήτησης είτε όχι. Τελικά ως αποτέλεσμα επιστρέφεται ένα σύνολο εγγράφων (το οποίο δεν μπορεί να ταξινομηθεί με κάποιον τρόπο), τα οποία συμφωνούν με τα κριτήρια αναζήτησης με απόλυτο τρόπο. Μοντέλο Καλύτερου Ταιριάσματος Σε αυτή την κατηγορία κάθε ε- ρώτημα που υποβάλλεται περιγράφει τα έγγραφα που ταιριάζουν με ικανοποιητικό ή βέλτιστο τρόπο. Κάθε διαθέσιμο έγγραφο ταιριάζει με το ερώτημα σε κάποιο βαθμό. Ετσι, ως αποτέλεσμα επιστρέφεται μία ταξινομημένη λίστα από έγγραφα. Κάθε ένα από τα παραπάνω μοντέλα παρουσιάζει τόσο θετικά όσο και αρνητικά στοιχεία. Στην πρώτη περίπτωση, το μοντέλο ακριβούς ταιριάσματος μπορεί να υλοποιηθεί του με πολύ αποδοτικό τρόπο και έχει αρκετά μεγάλη του ακρίβεια στις περιπτώσεις που ο χρήστης γνωρίσει ακριβώς τι ψάχνει. Αντίθετα, στα αρνητικά του μοντέλου καταγράφεται το ότι η δημιουργία των δομημένων ερωτημάτων που απαιτεί η χρήση του δεν είναι εύκολη για την πλειονότητα των χρηστών, και ότι όσο αυξάνεται το μέγεθος της συλλογής κειμένων τόσο αυξάνεται και η δυσκολία εφαρμογής τη μεθόδου καθώς και ότι τα αποτελέσματα που παρέχει στον χρήση δεν είναι ταξινομημένα. Στη δεύτερη περίπτωση, το μοντέλο καλύτερου ταιριάσματος παρουσιάζει αρκετά μεγαλύτερη αποτελεσματικότητα από αυτή του ακριβούς ταιριάσματος, είναι ευκολότερο στην χρήση (αφού υποστηρίζει ερωτήματα πλήρους κειμένου) ενώ έχει παρόμοιο κόστος εφαρμογής (σε χρόνο απόκρισης) κυρίως με την υλοποίηση ανεστραμμένων ευρετηρίων. Παρόλα αυτά, σε αρκετές περιπτώσεις η αποτελεσματικότητα δεν είναι όση αυτή του μοντέλου ακριβούς ταιριάσματος ενώ παράλληλα η αναζήτηση πλήρους κειμένου δεν σημαίνει απαραίτητα ότι το σύστημα καταλαβαίνει την φυσική γλώσσα. Οι πιο επιτυχημένες προσεγγίσεις στις μέρες μας συνήθως αποτελούν έναν συνδυασμό των δύο παραπάνω μοντέλων, αφού προσπαθούν να κάνουν χρήση των πλεονεκτημάτων και των δύο.

24 16 Βασική Θεωρία Ανάκτησης Πληροφορίας Σχήμα 2.2: Παράδειγμα Δυαδικών Πράξεων Μοντέλο Ανάκτησης Boole (Boolean Retrieval Model) Το μοντέλο ανάκτησης Boole είναι το πρώτο μοντέλο ανάκτησης πληροφορίας που χρησιμοποιήθηκε και ανήκει στην κατηγορία των μοντέλων ακριβούς ταιριάσματος. Απλοϊκά μπορεί να εξηγηθεί αν το κάθε ερώτημα οριστεί ως ένα σαφές σύνολο εγγράφων. Η εξυπηρέτηση των ερωτήματος βασίζεται στην χρήση ανεστραμμένων ευρετηρίων για κάθε δυνατό όρο του ερωτήματος. Τα ευρετήρια χρησιμοποιούνται κατά την εκτέλεση των ερωτημάτων αναζήτησης [33]. Ετσι για παράδειγμα, ο όρος πληροφορική ορίζει ένα σύνολο από έγγραφα τα οποία έχουν δεικτοδοτήσει με τον όρο πληροφορική. Για την υποβολή πιο πολύπλοκων ερωτημάτων γίνεται χρήση περισσότερων όρων, οι σχέσεις μεταξύ των οποίων ορίζονται μέσω των τελεστών που είναι ορισμένοι στην άλγεβρα του Boole. Ετσι οι όροι των ερωτημάτων και οι αντιστοιχιζόμενες σε αυτούς συλλογές εγγράφων μπορούν να συνδυαστούν για να δημιουργήσουν νέες συλλογές εγγράφων. Η άλγεβρα Boole, ως γνωστόν, αποτελείται από τις τρεις θεμελιώδεις πράξεις: ΚΑΙ (AND), Η (OR) και ΟΧΙ (NOT). Μέσω αυτών ορίζονται, από τον χρήστη ο οποίος υποβάλει το ερώτημα, οι σχέσεις μεταξύ των όρων του ερωτήματος. Ετσι, το σύστημα ανάκτησης επιστρέφει περισσότερο ή λιγότερο γενικά αποτελέσματα. Ενα παράδειγμα φαίνεται στην εικόνα 2.2. Στην προκειμένη περίπτωση όταν ο χρήστης υποβάλει το ερώτημα Η/Υ ΚΑΙ Ιντερνετ θα λάβει ως αποτέλεσμα όλα τα έγγραφα τα οποία περιέχονται στις ανεστραμμένες λίστες

25 Μοντέλα Ανάκτησης Πληροφορίας 17 και των δύο όρων. Αντίθετα στην περίπτωση του ερωτήματος Η/Υ Η Πληροφορική θα επιστραφούν στον χρήστη τα έγγραφα που περιέχονται στις ανεστραμμένες λίστες οποιουδήποτε εκ των δύο όρων. Για την εξυπηρέτηση ενός ερωτήματος το σύστημα ανάκτησης Boole ακολουθεί τα παρακάτω βήματα: 1. Εντοπίζει όλους τους όρους που παίρνουν μέρος στο ερώτημα κάνοντας χρήση του λεξικού. 2. Ανακτά από την μνήμη όλες τις λίστες εμφανίσεων που αντιστοιχούν στους όρους του ερωτήματος. 3. Διασταυρώνει τις λίστες εμφανίσεων σύμφωνα με τους τελεστές που είναι ορισμένοι στο ερώτημα. Η διαδικασία της διασταύρωσης των λιστών είναι ιδιαιτέρως κρίσιμη. Αυτό γιατί είναι αναγκαίο η διασταύρωση των λιστών να μπορεί να γίνει γρήγορα και αποδοτικά έτσι ώστε ο χρήστης να μην χρειαστεί να περιμένει ώρα για να λάβει τα αποτελέσματα του ερωτήματός του. Η συγκεκριμένη διαδικασία πολλές φορές αναφέρεται και ως συνένωση (merging). Το συγκεκριμένο όνομα προκύπτει λόγω της χρήσης του όρου αλγόριθμός συνένωσης (merge alogirhm), ο οποίος παραπέμπει σε μία γενικότερη κατηγορία αλγορίθμων, οι οποίοι χρησιμοποιούνται για τον συνδυασμό πολλαπλών ταξινομημένων λιστών Μοντέλο Ανάκτησης Διανυσματικού Χώρου (Vector Space Model) Αρχικά ο Peter Luhn πρότεινε μια στατιστική προσέγγιση για την αναζήτηση πληροφορίας. Σύμφωνα με τον Luhn, για να πραγματοποιηθεί μια αναζήτηση ο χρήστης θα πρέπει να προετοιμάσει ένα έγγραφο το οποίο θα είναι όμοιο με το έγγραφο που χρειάζεται. Ο βαθμός ομοιότητας του προετοιμασμένου έγγραφου και των εγγράφων της συλλογής, χρησιμοποιείται για την ταξινόμηση των αποτελεσμάτων της αναζήτησης. Ως εκ τούτου, ο Luhn όρισε το κριτήριο ομοιότητας του ως εξής: Οσο περισσότερο δυο αναπαραστάσεις συμφωνούν

26 18 Βασική Θεωρία Ανάκτησης Πληροφορίας σε συγκεκριμένα στοιχεία τους και στις κατανομές τους, τόσο μεγαλύτερη θα είναι η πιθανότητα αυτά να αναπαριστούν παρόμοια πληροφορία.. Ακολουθώντας το παραπάνω κριτήριο ομοιότητας, αρχικά πρέπει να μετρηθεί ο αριθμός των στοιχείων που μοιράζονται τα ερωτήματα και οι δεικτοδοτημένες αναπαραστάσεις των εγγράφων. Ετσι, εάν η δεικτοδοτημένη αναπαράσταση ενός εγγράφου είναι το διάνυσμα d = (d 1, d 2,, d m ), στο οποίο κάθε στοιχείο d k (1 k m) αντιστοιχεί σε έναν δεικτοδοτημένο ορό, και ένα ερώτημα έχει το διάνυσμα ομοιότητας q = (q 1, q 2,, q m ) με τα αντίστοιχα στοιχεία, τότε μια προφανής μετρική ομοιότητας πρόκυπτε από το εσωτερικό γινόμενο των δυο διανυσμάτων: score( d, m q ) = d k q k Τον ορισμό της ομοιότητας που έδωσε ο Luhn χρησιμοποίησε στην συνέχεια ο Gerard Salton και οι συνεργάτες του [28] για να αναπτύξουν το μοντέλο διανυσματικού χώρου. Συγκεκριμένα, όρισαν την δεικτοδοτημένη αναπαράσταση και τα διανύσματα των ερωτημάτων σε έναν πολυδιάστατο ευκλείδειο χώρο όπου κάθε όρος αντιστοιχεί με μια ξεχωριστή διάσταση. Η μέτρηση της ομοιότητας γίνεται συνήθως με τον υπολογισμό του συνημιτόνου της γωνίας των δυο διανυσμάτων d και q. Ο υπολογισμός του συνημιτόνου γίνεται από τον ακόλουθο τύπο: k=1 score( d, q ) = mk=1 d k q k mk=1 mk=1 (d k ) 2 (q k ) Εκτεταμένο Μοντέλο Ανάκτησης Boole (Extended Boolean Retrieval Model) Το μοντέλο ανάκτησης Boole έρχεται σε αντίθεση με τα μοντέλα ταξινομημένης ανάκτησης, όπως το μοντέλο διανυσματικού χώρου, στα οποία οι χρήστες μπορούν αντί για ακριβή γλώσσα σε δομημένα ερωτήματα να χρησιμοποιήσουν ερωτήματα ελεύθερου κειμένου πληκτρολογώντας μία ή περισσότερες λέξεις. Παρόλες τις πολλές προσπάθειες και τα χρόνια ερευνών στον τομέα της ταξινομημένης ανάκτησης, τα περισσότερα συστήματα ανάκτησης πληροφορίας βασίζονται στο μοντέλο της ανάκτησης Boole. Ομως, τα συστήματα αυτά δεν

27 Σύνοψη 19 χρησιμοποιούν μόνο τους βασικούς τελεστές που ορίζει η άλγεβρα Boole διότι αυτή είναι ιδιαιτέρως περιοριστική για τις πληροφοριακές ανάγκες των χρηστών. Αντίθετα, επεκτείνουν το μοντέλο, μετατρέποντάς το στο εκτεταμένο μοντέλο ανάκτησης Boole, το οποίο προτάθηκε για πρώτη φορά από τους [27]. Το εκτεταμένο μοντέλο Boole αποτελεί στην ουσία έναν συνδυασμό του μοντέλου ανάκτησης διανυσματικού χώρου και του απλού μοντέλου ανάκτησης Boole. Η βασική του ιδέα είναι η χρήση του μερικού ταιριάσματος (σε αντίθεση με το βασικό μοντέλο όπου ένα έγγραφο μπορεί είτε να ταιριάζει με ένα ερώτημα είτε όχι) καθώς και η χρήση βαρών για τους όρους των ερωτημάτων. Με αυτόν τον τρόπο ένα έγγραφο μπορεί επιστραφεί στον χρήστη ακόμη και στην περίπτωση που αυτό ταιριάζει μερικώς με κάποιους από τους όρους του ερωτήματος. Επιπρόσθετα, στο εκτεταμένο μοντέλο χρησιμοποιούνται και επιπλέον τελεστές όπως τελεστές εγγύτητας όρων (term proximity). Ο τελεστής εγγύτητας είναι ένας τρόπος μέσω του οποίου καθορίζεται κατά πόσο δύο όροι ενός ερωτήματος πρέπει να εμφανίζονται κοντά στα αντίστοιχα αρχεία ή όχι. Η μέτρηση της απόστασης των δύο όρων μπορεί να γίνει απλά μετρώντας τον αριθμό των λέξεων που παρεμβάλλονται μεταξύ τους. 2.4 Σύνοψη Στο παρόν κεφάλαιο έγινε μία σύντομη αναφορά στις βασικές έννοιες και μεθόδους που χρησιμοποιούνται στην επιστήμη της ανάκτησης πληροφορίας. Πιο συγκεκριμένα εξηγήθηκαν οι έννοιες ακρίβεια και ανάκληση ενώ παράλληλα α- ναλύθηκε η σημασία τους αλλά και ο τρόπος υπολογισμού τους. Παράλληλα, αναλύθηκαν οι δυο βασικές κατηγορίες μοντέλων ανάκτησης πληροφορίας, το μοντέλο ακριβούς και το μοντέλο καλύτερου ταιριάσματος. Καταληκτικά, εξηγήθηκαν ορισμένα βασικά μοντέλα ανάκτησης πληροφορίας το μοντέλο Boole, το διανυσματικό μοντέλο καθώς και του εκτεταμένο μοντέλο Boole.

28

29 Κεφάλαιο 3 Top-K Ερωτήματα και Top-K Αλγόριθμοι Το παρόν κεφάλαιο αφορά τα top-k ερωτήματα και τη σημασία τους. Τα top- K ερωτήματα έχουν περισσότερο νόημα σε συστήματα πολυμέσων, τα οποία αποτελούνται από ασαφή δεδομένα. Στα συστήματα αυτά, για να γίνει εφικτή η απάντηση των ερωτημάτων, χρησιμοποιείται κάποιος αλγόριθμος ανάκτησης, ο λεγόμενος top-k αλγόριθμος. Κάποιοι ιδιαιτέρως αποτελεσματικοί και δημοφιλείς top-k αλγόριθμοι θα περιγραφούν σε αυτό κεφάλαιο. Πρόκειται για τους αλγόριθμους του Fagin [13, 14]. Συγκεκριμένα, θα παρουσιαστεί ο αλγόριθμος του Fagin (Fagin s Algorithm FA) και ο αλγόριθμος κατωφλίου (Threshold Algorithm TA) μαζί με μία παραλλαγή του τον αλγόριθμο καμίας τυχαίας προσπέλασης (No Random Access NRA). Πάνω στους αλγορίθμους του παρόντος κεφαλαίου στηρίζεται και η συνεισφορά της παρούσας διπλωματικής εργασίας, αφού αυτοί χρησιμοποιούνται ως βάση για την ιεραρχημένη ανάκτηση περιεχομένου που προτείνεται. 3.1 Εισαγωγή Τα διαφόρων τύπων πληροφοριακά συστήματα χρησιμοποιούν ποικίλες τεχνικές για ταξινομήσουν τα αποτελέσματα που επιστρέφουν στους χρήστες τους. 21

30 22 Top-K Ερωτήματα και Top-K Αλγόριθμοι Σε μεγάλο ποσοστό εφαρμογών οι τελικοί χρήστες ενδιαφέρονται περισσότερο για τα πιο σημαντικά αποτελέσματα (top-k) των ερωτήσεων που υποβάλλουν αντί για την πιθανότατα τεράστια λίστα αποτελεσμάτων που τα συστήματα είναι σε θέση να παράγουν. Για τον λόγο αυτό αναπτύσσονται νέες εφαρμογές που εγγυούνται την αποδοτική υποστήριξη των top-k ερωτημάτων. Για παράδειγμα, στο διαδίκτυο η αποτελεσματικότητα και η αποδοτικότητα των μηχανών αναζήτησης μεταδεδομένων, οι οποίες συνδυάζουν τις ταξινομήσεις διαφόρων μηχανών αναζήτησης, είναι άμεσα συνδεδεμένες με την αποδοτική ταξινόμηση μεθόδων συνάθροισης (aggregation). Παρόμοιες εφαρμογές υπάρχουν στον τομέα της ανάκτησης πληροφορίας [28] και στον τομέα της εξόρυξης δεδομένων (data mining). Οι περισσότερες από αυτές τις εφαρμογές απαντούν ερωτήματα, συνενώνοντας και συναθροίζοντας πολλαπλές εισόδους, παρέχοντας στους χρήστες τους λίστες top-k αποτελεσμάτων. Μία κοινή τακτική για τον προσδιορισμό των top-k αντικειμένων είναι η βαθμολόγηση όλων των αντικειμένων βάση μίας συνάρτησης βαθμολόγησης (scoring function). Η βαθμολόγηση ενός αντικειμένου δρα ως μία εκτίμηση αυτού σύμφωνα με τα διάφορα χαρακτηριστικά του (π.χ. η τιμή και το μέγεθος ενός σπιτιού με βάση τα δεδομένα ενός μεσιτικού γραφείου). Συνήθως τα αντικείμενα αξιολογούνται βάση πολλαπλών βαθμολογήσεων, οι οποίες συνεισφέρουν στην συνολική τους βαθμολογία. Για τον λόγο αυτό οι συναρτήσεις βαθμολόγησης συνήθως ορίζονται ως συναθροίσεις πολλαπλών μερικών βαθμολογήσεων Ανάλυση Τεχνικών Επεξεργασίας Top-K Ε- ρωτημάτων Η επεξεργασία και κατ επέκταση η απάντηση των top-k ερωτημάτων μπορεί να χωριστεί στις παρακάτω διαστάσεις σχεδίασης [17]: Μοντέλο ερωτημάτων. Οι τεχνικές επεξεργασίας top-k ερωτημάτων κατηγοριοποιούνται βάσει του μοντέλου ερωτημάτων που ορίζουν. Μερικές τεχνικές ορίζουν ένα επιλεκτικό μοντέλο ερωτημάτων, όπου οι βαθμολογίες επισυνάπτονται άμεσα στις βασικές πλειάδες. Άλλες τεχνικές ορίζουν ένα συνενωτικό μοντέλο ερωτήσεων, όπου οι βαθμολογίες προκύπτουν ύστερα από την συνένωση των επιμέρους βαθμολογήσεων. Μία τρίτη κα-

31 Εισαγωγή 23 τηγορία ορίζει ένα συναθροιστικό μοντέλο ερωτημάτων, στο οποίο γίνεται ταξινόμηση ομάδων από πλειάδες. Μέθοδοι προσπέλασης δεδομένων. Οι τεχνικές επεξεργασίας top-k ερωτημάτων κατηγοριοποιούνται ανάλογα με το ποίες μεθόδους προσπέλασης δεδομένων θεωρούν ότι έχουν διαθέσιμες, μέσω των υποκείμενων πηγών δεδομένων, κατά τον ορισμό τους. Για παράδειγμα μερικές τεχνικές θεωρούν ότι διαθέτουν τυχαίες προσπελάσεις ενώ άλλες ότι διαθέτουν μόνο σειριακές προσπελάσεις. Επίπεδο υλοποίησης. Οι τεχνικές επεξεργασίας top-k ερωτημάτων κατηγοριοποιούνται ανάλογα με το επίπεδο συσσωμάτωσής τους με συστήματα βάσεων δεδομένων. Παραδείγματος χάριν, μερικές τεχνικές υλοποιούνται σε επίπεδο εφαρμογής, το οποίο είναι πάνω από το επίπεδο της βάσης δεδομένων, ενώ άλλα υλοποιούνται ως ερωτήματα που εκτελούνται απ ευθείας στην βάση δεδομένων. Αβεβαιότητα δεδομένων και ερωτημάτων. Οι τεχνικές επεξεργασίας top-k ερωτημάτων κατηγοριοποιούνται βάσει της αβεβαιότητας που εμπεριέχεται στα μοντέλα δεδομένων και ερωτημάτων τους. Κάποιες εφαρμογές παρέχουν ακριβή αποτελέσματα ενώ άλλες παρέχουν αποτελέσματα που είναι κατά προσέγγιση τα βέλτιστα ή χρησιμοποιούν μη βέβαια δεδομένα. Συνάρτηση ταξινόμησης. Οι τεχνικές επεξεργασίας top-k ερωτημάτων κατηγοριοποιούνται βάσει των περιορισμών που εισάγουν στις συναρτήσεις ταξινόμησης (βαθμολόγησης) που χρησιμοποιούν. Οι περισσότερες προταθείσες τεχνικές προϋποθέτουν την ύπαρξη μονότονης συνάρτησης ταξινόμησης ενώ αντίθετα πολύ λίγες απευθύνονται σε γενικές συναρτήσεις. Η παραπάνω ανάλυση τεχνικών επεξεργασίας top-k ερωτημάτων, στις επιμέρους διαστάσεις της, βοηθάει στην καλύτερη κατανόηση των διαφόρων παραμέτρων που πρέπει να ξεκαθαριστούν για την υλοποίηση ενός συστήματος απάντησης top-k ερωτημάτων.

32 24 Top-K Ερωτήματα και Top-K Αλγόριθμοι Στην συνέχεια του κεφαλαίου θα ασχοληθούμε με συγκεκριμένους γνωστούς, και ιδιαιτέρως σημαντικούς, αλγορίθμους, που απαντούν top-k ερωτήματα. Αυτοί ασχολούνται κυρίως με τις διαστάσεις του μοντέλου ερωτημάτων, τις μεθόδους προσπέλασης δεδομένων καθώς επίσης και με την διάσταση της συνάρτησης ταξινόμησης. 3.2 Top-K Αλγόριθμοι Τα τελευταία χρόνια με την εκρηκτική ανάπτυξη, τόσο του διαδικτύου όσο και των δυνατοτήτων του υλικού των ηλεκτρονικών υπολογιστών, έχουν αρχίσει να εμφανίζονται νέα συστήματα, τα συστήματα πολυμέσων, στα οποία αποθηκεύεται σύνθετη πληροφορία, όπως έγγραφα, εικόνες και βίντεο. Ως τέτοια συστήματα μπορούν να θεωρηθούν πολλά συστήματα κοινωνικής δικτύωσης όπως Facebook, Flickr, κτλ. Το γεγονός αυτό έχει καταστήσει αναγκαία την δημιουργία μεθόδων μέσω των οποίων αυτή η πληροφορία θα μπορεί να ανακτάται αποδοτικά κατά απαίτηση του εκάστοτε χρήστη. Μία θεμελιώδης διαφορά των νέων αυτών συστημάτων πολυμέσων με τα παραδοσιακά συστήματα, τα οποία είναι κυρίως συστήματα σχεσιακών βάσεων δεδομένων, είναι ότι περιέχουν δεδομένα πολυμέσων, τα οποία είναι εγγενώς ασαφή. Για παράδειγμα το περιεχόμενο μίας εικόνας είναι ασαφές ως προς το πόσο κόκκινη είναι. Δηλαδή η εικόνα δεν είναι απλά κόκκινη ή όχι κόκκινη. Αντίθετα υπάρχει ένας βαθμός του πόσο κόκκινη ή όχι είναι, ο οποίος έχει σύνολο τιμών από 0 (καθόλου κόκκινη) μέχρι 1 (τελείως κόκκινη). Για να γίνει αξιοποίηση τέτοιων ασαφών χαρακτηριστικών των δεδομένων πολυμέσων πρέπει να χρησιμοποιηθεί κάποια συνάρτηση συνάθροισης [13]. Δηλαδή συνεχίζοντας το παράδειγμα της εικόνας, αυτή μπορεί να έχει ως χαρακτηριστικά το πόσο κόκκινη, κίτρινη και μπλε είναι. Για κάθε ένα από αυτά τα ασαφή χαρακτηριστικά η εικόνα έχει κάποια βαθμολογία. Για να αξιολογηθεί η εικόνα συνολικά για το χρώμα της θα πρέπει να συνδυαστούν οι επιμέρους βαθμολογίες της σε κάθε ένα τα επιμέρους χαρακτηριστικά της. Δίνοντας έναν πιο επίσημο ορισμό, μπορούμε να ορίσουμε ως συνάρτηση συνάθροισης την t. Αν x 1, x 2,..., x m (καθένας εκ των οποίων παίρνει έχει σύνολο τιμών [0, 1]) είναι οι βαθμοί ενός αντικειμένου R για καθένα από τα m χα-

33 Top-K Αλγόριθμοι 25 ρακτηριστικά του, τότε t(x 1, x 2,..., x m ) θα είναι η συνολική βαθμολογία του αντικειμένου R. Οσων αφορά το είδος της συνάρτησης συνάθροισης που θα χρησιμοποιηθεί, αυτό εξαρτάται από την εκάστοτε περίπτωση. Εχουν κατά καιρούς προταθεί πολλές διαφορετικές επιλογές ως προς το είδος της συνάρτησης [36, 27]. Μία δημοφιλής επιλογή είναι η συνάρτηση ελάχιστου. Μάλιστα, υπό τους κανόνες της ασαφούς λογικής [34], αν ένα αντικείμενο R έχει βαθμολογία x 1 σε ένα χαρακτηριστικό A 1 και Q 2 σε ένα χαρακτηριστικό A 2, τότε η βαθμολογία της ασαφούς σύζευξης A 1 A 2 είναι min(x 1, x 2 ). Μία άλλη επίσης δημοφιλής συνάρτηση είναι αυτή του μέσου όρου (ή του αθροίσματος αν δεν είναι απαραίτητο το σύνολο τιμών της t να είναι το [0, 1]). Ενα σημαντικό χαρακτηριστικό που πρέπει να έχει η συνάρτηση συνάθροισης για να μπορεί να χρησιμοποιηθεί είναι να είναι μονότονη. Δηλαδή θα πρέπει να είναι t(x 1, x 2,..., x m ) t(x 1, x 2,..., x m) όποτε x i x i, για κάθε 1 i m. Αυτό σημαίνει ότι αν ο βαθμός κάθε χαρακτηριστικού του αντικειμένου R είναι τουλάχιστον όσο μεγάλος όσο αυτός των χαρακτηριστικών του αντικειμένου R, τότε θα πρέπει και ο συνολικός βαθμός του R να τουλάχιστον όσος και αυτός του R. Επιπλέον, στα συστήματα πολυμέσων η έννοια του ερωτήματος είναι διαφορετική από ότι στις παραδοσιακές βάσεις δεδομένων. Για ένα ερώτημα, μία παραδοσιακή βάση δεδομένων επιστρέφει ένα μη ταξινομημένο σύνολο αποτελεσμάτων που ταιριάζει με το ερώτημα (βέβαια αυτό το σύνολο μπορεί να ταξινομηθεί βάση κάποιων χαρακτηριστικών του). Αντίθετα, σε ένα σύστημα πολυμέσων η απάντηση σε ένα ερώτημα είναι μία ταξινομημένη λίστα που περιέχει όλα τα διαθέσιμα αντικείμενα, η οποία είναι ταξινομημένη βάσει της βαθμολογίας των αντικειμένων σε σχέση με το ερώτημα. Ομως ο χρήστης στις περισσότερες περιπτώσεις δεν ενδιαφέρεται να μάθει την βαθμολογία όλων των αντικειμένων για το ερώτημα που υπέβαλε, αλλά μόνο ποια είναι τα σημαντικότερα αποτελέσματα (και πιθανώς ποια είναι η βαθμολογία τους), πχ τα πρώτα 10, 20, 50 κτλ. Ετσι, έχει νόημα το σύστημα πολυμέσων να επιστρέφει μόνο τα σημαντικότερα K αποτελέσματα, δηλαδή να απαντάει ερωτήματα τύπου top-k.

34 26 Top-K Ερωτήματα και Top-K Αλγόριθμοι Αλγόριθμος Fagin FA Στην παρούσα ενότητα περιγράφεται ο αλγόριθμος του Fagin (Fagin s Algorithm FA). Ο FA παρουσιάστηκε στην εργασία [13] και σε αυτόν έχει βασιστεί μεγάλη μερίδα μεταγενέστερων εργασιών στον τομέα των top-k ερωτημάτων. Ο αλγόριθμος υλοποιήθηκε και χρησιμοποιήθηκε στο Garlic [11], ένα πειραματικό σύστημα middleware. Ο FA επιστρέφει ένα ταξινομημένο σύνολο top-k αντικειμένων, τα οποία παρουσιάζουν την μεγαλύτερη βαθμολογία ως προς το υποβληθέν ερώτημα. Η βαθμολογία του κάθε αντικειμένου αποτελείται από την συνάθροιση (aggregation) των βαθμολογιών των αντικειμένων στις m επιμέρους λίστες (L i ). Οπως α- ναφέρθηκε και προηγουμένως η συνάρτηση συνάθροισης t είναι μία μονότονη συνάρτηση. Ο αλγόριθμος αποτελείται από τρεις φάσεις, την φάση της σειριακής προσπέλασης (sorted access), την φάση της τυχαίας προσπέλασης (random access) και την φάση των υπολογισμών. Οι τρεις φάσεις περιγράφονται στην συνέχεια: 1. Εκτέλεση παράλληλων σειριακών προσπελάσεων σε κάθε από τις m λίστες L i. Αυτό σημαίνει ότι αρχικά προσπελαύνεται η πρώτη εγγραφή όλων των m λιστών, στην συνέχεια όλες οι δεύτερες εγγραφές, κτλ. Οι παράλληλες σειριακές προσπελάσεις συνεχίζονται έως ότου συγκεντρωθούν τουλάχιστον k αποτελέσματα που ταιριάζουν με το υποβληθέν ερώτημα. Δηλαδή μέχρι να υπάρξει ένα σύνολο H από τουλάχιστον k αντικείμενα που θα έχουν ανακτηθεί από όλες τις m λίστες. 2. Για κάθε αντικείμενο R που έχει βρεθεί, πραγματοποιείται εκτέλεση τυχαίων προσπελάσεων σε όλες τις L i λίστες, έτσι ώστε να ανακτηθούν οι εγγραφές που λείπουν για αυτά. Για παράδειγμα αν για κάποιο αντικείμενο R i έχουν ανακτηθεί οι εγγραφές μόνο από ένα σύνολο λιστών U found (U found U all, όπου U all το σύνολο όλων των λιστών), τότε θα γίνουν τυχαίες προσπελάσεις σε κάθε μία από τις λίστες του συνόλου U missing (U missing Ufound = U all ), το οποίο περιέχει όλες τις λίστες για τις οποίες δεν έχει ανακτηθεί εγγραφή για το R i. Προφανώς αν ισχύει U found = U all τότε δεν υπάρχει λόγος να πραγματοποιηθούν τυχαίες προσπελάσεις για το R i

35 Top-K Αλγόριθμοι Υπολογισμός της βαθμολογίας t(r) = t(x 1, x 2,..., x m ), όπου t η μονότονη συνάρτηση συνάθροισης που χρησιμοποιείται, για κάθε ένα αντικείμενο R που έχει βρεθεί. Εστω Y ένα σύνολο που περιέχει τα k αντικείμενα που έχουν βρεθεί και έχουν την μεγαλύτερη βαθμολογία t(r) (σε περίπτωση ισοβαθμίας επιλέγεται αυθαίρετα κάποιο από τα ομόβαθμα αντικείμενα). Το αποτέλεσμα είναι ένα βαθμωτό σύνολο {R, t(r) R Y } (τα βαθμωτά σύνολα συχνά παρουσιάζονται ταξινομημένα ανά βαθμολογία). Ο Fagin στο [13] αποδεικνύει ότι ο FA είναι ορθός για κάθε μονότονη συνάρτηση συνάθροισης t, δηλαδή ότι ο αλγόριθμος βρίσκει και επιστρέφει επιτυχώς τα k καλύτερα αποτελέσματα. Με δεδομένο ότι υπάρχουν N αντικείμενα και η σειρά εμφάνισής τους σε κάθε μία από τις m ταξινομημένες λίστες είναι στατιστικά ανεξάρτητη, τότε το κόστος του αλγορίθμου είναι O(N (m 1)/m k 1/m ), με αυθαίρετα μεγάλη πιθανότητα [13]. Μία συνάρτηση συνάθροισης t είναι αυστηρή [13] αν ισχύει ότι t(x 1,..., x m ) = 1 αν x i = 1 για κάθε i. Δηλαδή μία συνάρτηση συνάθροισης είναι αυστηρή αν για να πάρει την μέγιστη δυνατή τιμής της (1), θα πρέπει να παίρνουν αυτή την μέγιστη τιμή και όλες οι μεταβλητές της. Σε κάθε περίπτωση, μία συνάρτηση συνάθροισης που αναπαριστά την σύζευξη θα περίμενε κανείς να είναι αυστηρή. Ο Fagin αποδεικνύει ότι ο FA είναι βέλτιστος (με πολύ μεγάλη πιθανότητα), ανεξαρτήτως της συνάρτησης συνάθροισης που θα χρησιμοποιηθεί, αρκεί αυτή να είναι αυστηρή και η σειρά εμφάνισης των αντικειμένων στις ταξινομημένες λίστες είναι στατιστικά ανεξάρτητη. Παρόλα αυτά υπάρχουν συγκεκριμένες περιπτώσεις όπου ο FA δεν είναι ο βέλτιστος αλγόριθμος. Για παράδειγμα στην περίπτωση της σταθερής συνάρτησης συνάθροισης υπάρχει τετριμμένος αλγόριθμος ο οποίος επιστρέφει τα top-k αποτελέσματα με κόστος O(1). Ακόμη και στην περίπτωση που ο FA είναι βέλτιστος, η βελτιστότητά του ισχύει υπό την έννοια της πολύ μεγάλης πιθανότητας. Το γεγονός αυτό αφήνει ανοιχτή την πιθανότητα, σε συγκεκριμένες περιπτώσεις να υπάρχει κάποιος άλλος αλγόριθμος με αρκετά μικρότερο κόστος. Ενας τέτοιος αλγόριθμος είναι ο TA ο οποίος θα περιγραφεί στην συνέχεια.

36 28 Top-K Ερωτήματα και Top-K Αλγόριθμοι Αλγόριθμος Threshold TA Στην παρούσα ενότητα θα παρουσιαστεί ο αλγόριθμος Threshold (TA) (αλγόριθμος κατωφλίου). Ο TA προτάθηκε από τον Fagin και τους συνεργάτες τους στο [14] και σε συγκεκριμένες περιπτώσεις παρουσιάζει καλύτερη απόδοση από τον FA. Ο TA αποτελείται από τα εξής βήματα: 1. Εκτέλεση παράλληλων σειριακών προσπελάσεων σε κάθε από τις m λίστες L i. Μόλις ένα αντικείμενο R ανακτηθεί με τις σειριακές προσπελάσεις από μία λίστα, πραγματοποίηση τυχαίων προσπελάσεων σε κάθε μία α- πό τις υπόλοιπες λίστες έτσι ώστε να ανακτηθεί η βαθμολογία x i του R σε όλες τις λίστες L i. Στην συνέχεια, υπολογισμός του βαθμού t(r) = t(x 1, x 2,..., x m ) του αντικειμένου R. Αν ο βαθμός του αντικειμένου R είναι ένας από τους k μεγαλύτερους που έχουν υπολογιστεί μέχρι στιγμής, προσωρινή αποθήκευση του R καθώς και του t(r). Σε περίπτωση ισοβαθμίας κρατείται αυθαίρετα ένα από τα ομόβαθμα αντικείμενα και έτσι πάντα στην μνήμη κρατούνται μόνο k αντικείμενα και οι συνολικές τους βαθμολογίες. 2. Για κάθε μία λίστα L i έστω x i ο βαθμός του τελευταίου αντικειμένου που ανακτήθηκε μέσω των σειριακών προσπελάσεων από την λίστα αυτή. Ορισμός του κατωφλίου (threshold) τ ως την t(x 1, x 2,..., x m ). Οταν βρεθούν k αντικείμενα η βαθμολογία των οποίων είναι τουλάχιστον ίση με τ τερματισμός των προσπελάσεων. 3. Εστω Y είναι σύνολο που περιέχει τα k αντικείμενα που έχουν ανακτηθεί και έχουν τις μεγαλύτερες βαθμολογίες. Το αποτέλεσμα του αλγορίθμου θα είναι ένα βαθμωτό σύνολο {R, t(r) R Y }. Ο Fagin και οι συνεργάτες του στο [14] αποδεικνύουν την ορθότητα του παραπάνω αλγορίθμου, δηλαδή ότι ο TA επιστρέφει επιτυχώς τα top-k αντικείμενα για κάθε μονότονη συνάρτηση συνάθροισης t. Σχετικά με την απόδοσή του, δείχνουν ότι η συνθήκη τερματισμού του TA ικανοποιείται το πολύ τόσο αργά όσο και η συνθήκη τερματισμού του FA (δηλαδή χωρίς να χρειάζεται να κάνει

37 Top-K Αλγόριθμοι 29 περισσότερες σειριακές προσπελάσεις από τον FA). Από την άλλη ο TA χρειάζεται περισσότερες τυχαίες προσπελάσεις για να ολοκληρωθεί όμως για την εκτέλεσή του απαιτεί μόνο σταθερό αριθμό από buffers. Επιπλέον στο [14] αποδεικνύεται η κατά περίπτωση βελτιστότητά του αλγορίθμου (instance optimality). Συγκεκριμένα, αναφέρονται δύο ξεχωριστές περιπτώσεις βελτιστότητας. Ο TA είναι κατά περίπτωση βέλτιστος για κάθε μονότονη συνάρτηση συνάθροισης, έναντι όλων των άλλων αλγορίθμων που επιστρέφουν τα top-k αποτελέσματα, αν αυτοί δεν κάνουν τυχαίες υποθέσεις (wild guesses). Ο TA είναι κατά περίπτωση βέλτιστος για κάθε μονότονη συνάρτηση συνάθροισης, έναντι όλων των άλλων αλγορίθμων που επιστρέφουν top-k αποτελέσματα (ακόμη και αν αυτοί κάνουν τυχαίες υποθέσεις), αν δεν υπάρχουν αντικείμενα με την ίδια βαθμολογία σε καμία από τις L i λίστες Αλγόριθμος Καμίας Τυχαίας Προσπέλασης NRA Ο αλγόριθμος TA, παρόλες τις θετικές του πτυχές, απαιτεί έναν μεγάλο αριθμό τυχαίων προσπελάσεων. Ομως υπάρχουν αρκετές περιπτώσεις όπου οι τυχαίες προσπελάσεις δεν είναι επιτρεπτές, μιας και για να πραγματοποιηθούν είναι απαραίτητη η ύπαρξη ειδικών δομών αποθήκευσης ή αλγορίθμων ανάκτησης, έτσι ώστε να ανακτηθεί η επιθυμητή πληροφορία από τις ανεστραμμένες λίστες όπου αυτή είναι αποθηκευμένη. Με αφορμή αυτό το γεγονός ο Fagin και οι συνεργάτες του στο [14] προτείνουν τον αλγόριθμο καμίας τυχαίας προσπέλασης (No Random Access NRA). Ο NRA αντίθετα με τον FA και τον TA επιστρέφει μόνο τα top-k αντικείμενα χωρίς τις βαθμολογίες του κάθε ενός από αυτά. Στην συνέχεια ακολουθεί η περιγραφή του NRA. 1. Εκτέλεση παράλληλων σειριακών προσπελάσεων σε κάθε μία από τις m ανεστραμμένες λίστες L i. Σε κάθε βάθος d (όταν d αντικείμενα έχουν

38 30 Top-K Ερωτήματα και Top-K Αλγόριθμοι προσπελαστεί σειριακά σε κάθε μία από τις λίστες), διατήρηση των ακολούθων: που βρέθηκαν στις αν- Τις τελευταίες τιμές των x (d) 1, x (d) 2,..., x (d) m τίστοιχες λίστες. Για κάθε ένα αντικείμενο R για το οποίο έχουν ανακτηθεί οι τιμές S = S (d) (R) {1,..., m}, οι τιμές W (d) (R) = W S (R) και B (d) (R) = B S (R). Οπου W S (R) και B S (R) είναι το κάτω και πάνω όριο του t(r) αντίστοιχα, αν έχουν ανακτηθεί και ληφθεί υπόψιν S μερικές τιμές του αντικειμένου R. Τα αντικείμενα με την μεγαλύτερη τιμή W (d) που έχουν βρεθεί μέχρι στιγμής (μαζί με τις βαθμολογίες τους). Αν δύο αντικείμενα έχουν την ίδια τιμή W (d) τότε κρατείται το αντικείμενο που έχει μεγαλύτερη τιμή B (d) (αν και αυτές οι τιμές είναι ίσες τότε επιλέγεται αυθαίρετα ένα εκ των δύο αντικειμένων). Αυτή η λίστα των top-k ονομάζεται (d). Εστω M η k-οστή μεγαλύτερη τιμή W (d) στην λίστα T (d) k. T (d) k k 2. Ενα αντικείμενο R ονομάζεται βιώσιμο αν B (d) (R) > M (d) k. Τερματισμός όταν (α) έχουν βρεθεί τουλάχιστον k διαφορετικά αντικείμενα περιέχει τουλάχιστον k αντικείμενα) και (β) δεν υπάρχει κανένα βιώσιμο αντικείμενο που δεν ανήκει στο T (d) k (δηλαδή όταν B (d) M (d) k για κάθε R / T (d) k. Επιστροφή των αντικειμένων της (δηλαδή η λίστα T (d) k λίστας T (d) k. Ο NRA είναι ορθός για κάθε μονότονη συνάρτηση συνάθροισης t. Η εκτέλεσή του, παρόλα αυτά, μπορεί να είναι αρκετά κοστοβόρα. Αυτό συμβαίνει διότι χρειάζεται να διατηρεί αρκετή πληροφορία στην μνήμη, την οποία πρέπει να ενημερώνει σε κάθε βήμα. Συγκεκριμένα, όταν ο NRA εκτελεί σειριακή προσπέλαση σε βάθος t (για 1 t d), η τιμή του B (t) (R) πρέπει να ενημερωθεί για κάθε αντικείμενο R που έχει βρεθεί μέχρι στιγμής. Αυτό μπορεί να χρειαστεί μέχρι και dm ενημερώσεις για κάθε βάθος t, πράγμα το οποίο συναθροίζεται σε Ω(d 2 ) ανανεώσεις μέχρι το βάθος d. Επιπλέον, ο NRA δεν μπορεί να λειτουργήσει με σταθερό αριθμό από buffers. Παρόλα αυτά, για συγκεκριμένες συναρτήσεις

39 Σύνοψη 31 συνάθροισης, όπως η min, και με την χρήση κατάλληλων δομών δεδομένων, η πολυπλοκότητα του αλγορίθμου μπορεί να βελτιωθεί αισθητά. 3.3 Σύνοψη Το παρόν κεφάλαιο αφορούσε τους αλγορίθμους εύρεσης των καλύτερων k αντικειμένων (top-k) σε συστήματα πολυμέσων, τα οποία αποτελούνται από ασαφή δεδομένα. Για να γίνει εφικτή η εύρεση των top-k αντικειμένων, τα αντικείμενα βαθμολογούνται ανάλογα με διάφορα χαρακτηριστικά τους και οι βαθμολογίες αυτές αποθηκεύονται σε ανεστραμμένες λίστες. Η συνολική τιμή κάθε αντικειμένου υπολογίζεται από την συνάθροιση των επιμέρους βαθμολογιών του σε όλες τις λίστες. Για να βρεθεί αποδοτικά η top-k λίστα χρησιμοποιείται κάποιος αλγόριθμος. Στο κεφάλαιο αυτό παρουσιάστηκαν κάποιοι από τους σημαντικότερους αλγορίθμους εύρεσης top-k αντικειμένων, ο αλγόριθμος του Fagin (Fagin s Algorithm FA), ο αλγόριθμος κατωφλίου (Threshold Algorithm TA) και ο αλγόριθμος καμίας τυχαίας προσπέλασης (No Random Access NRA). Στους αλγορίθμους αυτούς βασίζεται η συνεισφορά της παρούσας διπλωματικής εργασίας.

40

41 Κεφάλαιο 4 Κίνητρο και Συνεισφορά 4.1 Περιβάλλοντα Κοινωνικών Μέσων (Social Media Environments SMEs) Τεράστιο ενδιαφέρον τα τελευταία χρόνια απολαμβάνουν τα Περιβάλλοντα Κοινωνικών Μέσων (Social Media Environments SMEs), δηλαδή τα περιβάλλοντα τα οποία διαθέτουν κοινωνικά μέσα. Ο όρος κοινωνικό μέσο, αν και δεν είναι απόλυτα ξεκάθαρος, συνήθως αναφέρεται ως κάποιο είδος μέσου επικοινωνίας το οποίο αλληλεπιδρά με τον χρήστη καθώς του παρέχει πληροφορία. Η αλληλεπίδραση αυτή έγκειται κυρίως στο γεγονός ότι στα κοινωνικά μέσα ο χρήστης δεν είναι απλός αποδέκτης της πληροφορίας, όπως στα παραδοσιακά μέσα, αλλά αντίθετα έχει τη δυνατότητα να κοινωνήσει την άποψή για την πληροφορία πίσω στο μέσο. Πλέον τα κοινωνικά μέσα απαντώνται σε πολλές μορφές, όπως forums, weblogs, social blogs, microblogging, wikis, podcasts, φωτογραφίες, εικόνες, video, ταξινομήσεις και social bookmarking. Ενας τεράστιος αριθμός προϊόντων έχει εμφανιστεί (τα οποία είναι κυρίως συστήματα πολυμέσων), τα οποία καλύπτουν ένα ευρύ πεδίο θεμάτων και συγκεντρώνουν τεράστιες ποσότητες πληροφορίας τόσο από πλευράς μεγέθους όσο και από πλευράς όγκου. Τούτο οφείλεται τόσο στην φύση του περιεχομένου που αποθηκεύουν, πχ βίντεο, εικόνες, κτλ, όσο και στην πληροφορία που επισυνάπτουν οι χρήστες για το περιεχόμενο αυτό. Η πληροφορία που εισάγεται από τους χρήστες είναι σημασιολογικά πλούσια αφού 33

42 34 Κίνητρο και Συνεισφορά την παρέχουν άνθρωποι προσθέτοντας ετικέτες και σχολιάζοντάς το αρχικό περιεχόμενο. Λόγω του μέγεθος της πληροφορίας που αποθηκεύεται στα περιβάλλοντα κοινωνικών μέσων, καθώς και λόγω της ευρείας διάδοσή τους, προκύπτει η άμεση ανάγκη τόσο για οργάνωση των συλλογών των εγγράφων αυτών κάθε αυτών, των ετικετών και των μετα-δεδομένων για αυτά, όσο και για την εξυπηρέτηση ερωτημάτων ομοιότητας/αναζήτησης και ταξινομημένης ανάκτησης του περιεχομένου που διαθέτουν. Η σχετικές έρευνες δείχνουν πως υπάρχουν πολλά που μπορούν να γίνουν α- κόμα [18] στο συγκεκριμένο πεδίο καθώς επίσης και ότι οι ετικέτες που χρησιμοποιούνται στο κοινωνικό περιεχόμενο μπορούν να βελτιώσουν και τα αποτελέσματα αναζητήσεων που πραγματοποιούνται σε διαφορετικά περιβάλλοντα (πέραν των κοινωνικών μέσων) [16, 6, 7]. Αρχικά η αναζήτηση στο διαδίκτυο χωριζόταν σε δυο βασικές κατηγορίες [22]. Πρώτα υπήρχε η αναζήτηση με βάση ταξονομίες. Εκεί οι χρήστες έρχονταν αντιμέτωποι με μια ταξονομία και καλούνταν να αναζητήσουν και να εντοπίσουν τα κατάλληλα τμήματα της ταξονομίας, τα οποία θα αποτελούσαν την αναγκαία για αυτούς πληροφορία. Ακολούθως εμφανίστηκαν οι μηχανές αναζήτησης με βάση τις λέξεις κλειδιά. Αυτές ήταν εφοδιασμένες με λεξικά όρων, συναρτήσεις κατάταξης με βάση στατιστικές όρων και με σχετικούς αλγορίθμους ταξινομημένης ανάκτησης. Παρά το γεγονός πως πολλές πλούσιες και αξιόπιστες ταξονομίες, με πλούσια δομική και σημασιολογική πληροφορία ήταν διαθέσιμες (για παράδειγμα, το ODP project, τα Yahoo Directories, κλπ), οι μηχανές αναζήτησης με βάσει τις λέξεις κλειδιά προσέφεραν μια πιο ευέλικτη και φιλική προς τον χρήστη προσέγγιση, και γι αυτό τελικά αυτό το μοντέλο επικράτησε έναντι του μοντέλου της αναζήτησης βάσει ταξονομιών. Στα SMEs (και τις εφαρμογές του Web 2.0), η αναζήτηση με λέξεις κλειδιά επίσης επικράτησε. Παρόλα αυτά, πολλές μηχανές αναζήτησης σήμερα χρησιμοποιούν ταξονομίες για να βελτιώσουν τα αποτελέσματα της αναζήτησης που παρέχουν. Για παράδειγμα, εμπορικές εφαρμογές, οι οποίες εκμεταλλεύονται την γνώση των ταξονομιών ώστε να βελτιώσουν τα αποτελέσματα στην αναζήτηση προϊόντων είναι διαθέσιμες [1, 2]. Ενα άλλο παράδειγμα είναι η τοπική

43 Κίνητρο 35 αναζήτηση (βλέπε [12] για επεξεργασία ερωτημάτων αναζήτησης που εμπεριέχουν ευρετήρια κειμένου και γεωγραφικές πληροφορίες, χωρίς την χρήση ταξονομιών). Γενικά, οι ταξονομίες τοποθεσιών χρησιμοποιούνται στην τοπική αναζήτηση για να βελτιώσουν τα αποτελέσματα που παρέχουν. Αυτό επιτυγχάνεται λαμβάνοντας υπόψιν την τοποθεσία στην οποία βρίσκεται ο χρήστης που υποβάλει το ερώτημα και την δεδομένη τοποθεσία των αποτελεσμάτων της αναζήτησης. 4.2 Κίνητρο Οι πιο εξελιγμένες μέθοδοι εκτέλεσης ταξινομημένης ανάκτησης εξαρτώνται από την ύπαρξη και χρήση ανεστραμμένων λιστών για κάθε δυνατό όρο/ετικέτα. Ακόμη και έρευνες που επιχειρούν να χρησιμοποιήσουν ταξονομίες (και να τις ενσωματώσουν στις μηχανές αναζήτησης) χτίζουν και διατηρούν ανεστραμμένες λίστες για κάθε όρο της ταξονομίας σε συνδυασμό με τα τα ευρετήρια όρων που διατηρούν [15]. Ετσι στερούνται της πλούσιας σημασιολογικής πληροφορίας που είναι διαθέσιμη στις ταξονομίες και μπορεί να συσχετίσει έγγραφα με όρους ερωτημάτων. Στα πραγματικά περιβάλλοντα, οι ετικέτες συνήθως συσχετίζονται μέσω καλά ορισμένων σημασιολογικών συσχετίσεων. Εγγραφα συσχετίζονται με ετικέτες τόσο άμεσα όσο και έμμεσα. Ενα έγγραφο d στο οποίο έχει δοθεί ως ετικέτα ο όρος t i είναι άμεσα συσχετισμένο με την ετικέτα t i. Επιπλέον, αν ο t i είναι σημασιολογικά συσχετιζόμενος με έναν άλλο όρο/ετικέτα, τον t j, τότε το d επίσης συσχετίζεται με τον t j, αλλά έμμεσα. Αυτού του είδους οι έμμεσες συσχετίσεις δεν αξιοποιούνται στα παραδοσιακά μοντέλα ταξινομημένης ανάκτησης. Για να αντιμετωπιστεί αυτό, χρησιμοποιείται η τεχνική της επέκτασης ερωτήματος (query expansion) (π.χ. προσθήκη συνωνύμων, ετερωνύμων και υπονύμων σε κάθε όρο του ερωτήματος). Ομως, ακόμη κι έτσι προκύπτουν διάφορα προβλήματα. Παρόλο που η επέκταση ερωτήματος αυξάνει την ανάκτηση, μπορεί ταυτόχρονα να μειώσει την ακρίβεια (λόγω του σημασιολογικού θορύβου που υπεισέρχεται) [22]. Επιπλέον, εισάγεται ένα σημαντικό επιπλέον κόστος στην απόδοση της επεξεργασίας των ερωτημάτων. Η αιτία αυτού του επιπλέον κόστους είναι: (α) Ο αριθμός των IOs αυξάνεται αφού περισσότερες

44 36 Κίνητρο και Συνεισφορά ανεστραμμένες λίστες πρέπει να φορτωθούν στην μνήμη και περισσότερες τυχαίες προσπελάσεις θα πρέπει να πραγματοποιηθούν για να εξαχθούν τα top-k αντικείμενα. (β) Οι αλγόριθμοι ανάκτησης (π.χ. οι αλγόριθμοι του Fagin) ε- ίναι υποχρεωμένοι να φτάσουν πιο βαθιά σε κάθε ανεστραμμένη λίστα μέχρι να ικανοποιηθούν οι συνθήκες τερματισμού τους. Επιπλέον, υποστηρίζουμε ότι οι παραδοσιακές προσεγγίσεις της ταξινομημένης ανάκτησης, οι οποίες βασίζονται στην διατήρηση ανεστραμμένων ευρετηρίων για κάθε δυνατό όρο, δεν είναι κατάλληλες για τα περιβάλλοντα κοινωνικών μέσων λόγω του τεράστιου κόστους για την δημιουργία, ταξινόμηση και συντήρησή τους σε τέτοιου είδους δυναμικά περιβάλλοντα. Για παράδειγμα, έστω ένα νέο έγγραφο d στο οποίο δίνεται μία ετικέτα, η t. Προφανώς η ανεστραμμένη λίστα του t θα πρέπει να ενημερωθεί έτσι ώστε να περιέχει και το d αφού είναι άμεσα συσχετιζόμενο με αυτό. Επιπλέον, θα πρέπει το d να προστεθεί σε όλες τις ανεστραμμένες λίστες που είναι σημασιολογικά συσχετιζόμενες με την t (και άρα το d είναι έμμεσα συσχετιζόμενο με τους όρους αυτούς). Οι ενέργειες αυτές είναι ιδιαιτέρως κοστοβόρες και υπάρχουν διάφορες τεχνικές για την αντιμετώπιση του επιπλέον κόστους που προκύπτει από την διατήρηση ανεστραμμένων λιστών [22]. Οι τεχνικές αυτές βασίζονται είτε στην πραγματοποίηση των ενημερώσεων σε μεγάλες παρτίδες (batch updates), έτσι ώστε να μην πληρώνεται αυτό το μεγάλο κόστος για κάθε έγγραφο που ενημερώνεται, εισάγεται ή διαγράφεται, είτε στην δημιουργία συμπληρωματικών ευρετηρίων που περιέχουν τις ενημερώσεις και οι οποίες συμπτύσσονται με τις κυρίως λίστες κατά περιόδους. Το πρόβλημα της πρώτης προσέγγισης είναι το ότι μπορεί να εκτελούνται ερωτήματα με παλιά πληροφορία ενώ της δεύτερης είναι ότι υπεισέρχεται επιπλέον κόστος εκτέλεσης των ερωτημάτων λόγω της προσπέλασης των συμπληρωματικών λιστών. Η α- ναγνώριση του μεγάλου κόστους που εμπεριέχεται στην διατήρηση ευρετηρίων μπορεί να βρεθεί στο [23] όπου επιστήμονες της Google εξηγούν μια δικής τους νέα προσέγγιση στο θέμα. Εχοντας έναυσμα τα παραπάνω, στην παρούσα διπλωματική εργασία ασχολούμαστε με την ανάπτυξη τεχνικών ταξινομημένης ανάκτησης οι οποίες: (α) μπορούν να ενσωματώσουν την σημασιολογική πληροφορία που εμπεριέχεται στις ταξονομίες, (β) μπορούν να παράξουν συναρτήσεις βαθμολόγησης εγγράφου-

45 Μοντέλο Συστήματος 37 ερωτήματος, ο οποίες θα σέβονται την δομή των ταξονομιών και θα υπολογίζουν αποδοτικά (όταν καταστεί ανάγκη) τα top-k αποτελέσματα, (γ) αποφεύγουν τα κόστη σχετικά με την διατήρηση και χρήση ανεστραμμένων ευρετηρίων. Η προσέγγισή μας βασίζεται στην κατάργηση των ανεστραμμένων ευρετηρίων για κάθε όρο, αντί στη βελτιστοποίηση του κόστους από την διατήρησή τους [23]. 4.3 Μοντέλο Συστήματος Στην παρούσα διπλωματική εργασία όταν γίνεται αναφορά σε συστήματα κοινωνικών μέσων (SMEs) εννοούνται περιβάλλοντα τα οποία επιτρέπουν στους χρήστες να διατηρούν κάποιο προφίλ με στοιχεία τους, να μοιράζονται περιεχόμενο κάθε είδους (έγγραφα, εικόνες, βίντεο, κτλ) και να αναθέτουν σε αυτά ετικέτες (tag). Με τον όρο ανάθεση ετικέτας (tagging) εννοούμε την σύνδεση ελεύθερου κειμένου (λέξεων κλειδιών / ετικετών) με αντικείμενα που περιέχονται στο κοινωνικό μέσο ή/και προφίλ άλλων χρηστών. Στο σύστημα που προτείνεται θεωρείται ότι υπάρχουν δεδομένες εξ αρχής ταξονομίες όρων. Για αυτές γίνεται η υπόθεση πως είτε είναι διαθέσιμες, με τις διάφορες κατηγορίες τους (μαζί με τις υποκατηγορίες και τις υπερκατηγορίες τους) να αποτελούν το λεξιλόγιο ετικετών, είτε, εναλλακτικά, πως οι χρήστες καταχωρούν ετικέτες ελεύθερα στα έγγραφα (με ελεύθερο κείμενο) και εξειδικευμένοι αλγόριθμοι ανάκτησης πληροφορίας δημιουργούν τις σχέσεις υπερκατηγορίας και υποκατηγορίας μεταξύ των όρων/ετικετών, κατασκευάζοντας κατ αυτόν τον τρόπο την ταξονομία. Χρησιμοποιώντας μαθηματικούς όρους, ένα στιγμιότυπο του συστήματος περιγράφεται από το σύνολο (U, P, D, T ). Αναλυτικά, υποστηρίζει έναν αριθμό χρηστών U = {u 1, u 2,..., u M }, οι οποίοι έχουν προφίλ P = {p 1, p 2,..., p M } και μοιράζονται ένα σύνολο εγγράφων (περιεχομένου) D = {d 1, d 2,...d R }. Στα προφίλ που ανήκουν στο P και στα έγγραφα που ανήκουν στο D οι χρήστες του συνόλου U μπορούν να αναθέσουν ετικέτες από το σύνολο T = {t 1, t 2,..., t N }. Το σύνολο των ετικετών T αντιστοιχεί στους διάφορους κόμβους της εκάστοτε ταξονομίας. Σημειώνεται ότι, αν και δεν μοντελοποιείται στο σύστημα που περιγράφεται εδώ, οι χρήστες γενικά μπορούν να έχουν κανένα ή περισσότερο προφίλ.

46 38 Κίνητρο και Συνεισφορά Στην προσέγγισή μας, όταν ο χρήστης u αναθέτει τις ετικέτες t 1,..., t k στο έγγραφο d i (ή p j ), το d i (p j ) αυτόματα συνδέεται με τους k κόμβους της ταξονομίας οι οποίοι αντιστοιχούν στις ετικέτες t 1,..., t k. Η διαδικασία αυτή οδηγεί στην δημιουργία ενός σημασιολογικού ευρετηρίου στο οποίο κάθε κόμβος της ταξονομίας συνδέεται σημασιολογικά με διάφορα έγγραφα (ή προφίλ χρηστών) κατ απαίτηση των χρηστών του συστήματος. 4.4 Μοντέλο Ερωτημάτων Στο σύστημα που προτείνεται, το οποίο ακολουθεί το μοντέλο ταξινομημένης ανάκτησης, υποστηρίζονται ερωτήματα κειμένου (λέξεων κλειδιών). Οι λέξεις κλειδιά των ερωτημάτων μπορούν να περιέχουν ετικέτες που έχουν ανατεθεί σε προφίλ χρηστών. Για παράδειγμα κάποιος χρήστης έχει περιγράψει το προφίλ του με μία σειρά ετικετών και στην συνέχεια πραγματοποιεί αναζήτηση με τις ετικέτες αυτές έτσι ώστε να εντοπίσει άλλους χρήστες με παρόμοια ενδιαφέρονται με αυτόν. Ομοίως, οι λέξεις κλειδιά των ερωτημάτων μπορεί να είναι ετικέτες που περιγράφουν έγγραφα. Πιο επίσημα ορίζουμε το T (d) ως το σύνολο όλων των ετικετών που έχουν ανατεθεί στο έγγραφο d. Παρόμοια ορίζουμε το σύνολο D(t) ως το σύνολο των εγγράφων στα οποία έχει δοθεί η ετικέτα t. Το σύστημα υποστηρίζει τα ακόλουθα ερωτήματα: 1. Q1. Ερώτημα τύπου q(d i, d j ), όπου d i, d j D. Οι αλγόριθμοι που προτείνονται (και θα παρουσιαστούν στη συνέχεια) επιστρέφουν τον βαθμό ομοιότητας μεταξύ των εγγράφων d i και d j βάσει των T (d i ) και T (d j ). Αντίστοιχα, ερωτήματα τύπου q(u i, u j ) επιστρέφουν την ομοιότητα του χρήστη u i με τον χρήστη u j βάσει των ετικετών των προφίλ τους. 2. Q2. Ερώτημα τύπου q(u, d), όπου u U και d D, το οποίο επιστρέφει την ομοιότητα μεταξύ των u και d βάσει των p u (το προφίλ του χρήστη u) και T (d). 3. Q3. Ερώτημα τύπου q(d, K), όπου d D και K I (ένας θετικός ακέραιος αριθμός). Το οποίο ερώτημα επιστρέφει τα K πιο σχετικά έγ-

47 Συνεισφορά 39 γραφα με το d βάσει του συνόλου T (d). Αντίστοιχα υποστηρίζονται ερωτήματα τύπου q(u, K), όπου u U και K I, που επιστρέφουν στον χρήστη u τα K πιο σχετικά έγγραφα με βάση το προφίλ του. Τα ερωτήματα του τύπου Q3 είναι πιο γενικά και για τον λόγο αυτό θα ε- στιάσουμε κυρίως σε αυτά. Σημειώνεται πως ένα σύστημα το οποίο απαντάει στα παραπάνω ερωτήματα μπορεί να γίνει η βάση για σύστημα προτάσεων (recommender systems). Τα συστήματα προτάσεων εντάσσονται σε δυο βασικές κατηγορίες, τα συστήματα προτάσεων βάσει περιεχομένου (contentbased) και τα συστήματα προτάσεων συνεργατικού φιλτραρίσματος (collaborative filtering) [19]. Οι προτάσεις βάσει περιεχομένου είναι απλές και βασίζονται στην ταξινομημένη ανάκτηση εγγράφων βάσει λέξεων κλειδιών. Το συνεργατικό φιλτράρισμα μπορεί να υποστηριχθεί έμμεσα με δυο βήματα: αρχικά γίνεται προσδιορισμός των πιο σχετικών χρηστών με το προφίλ κάποιου συγκεκριμένου χρήστη και στη συνέχεια προσδιορίζονται όλα τα έγγραφα που μπορεί να είναι σχετικά με τους χρήστες αυτούς. 4.5 Συνεισφορά Οπως έχει ήδη αναφερθεί, η αναζήτηση στο διαδίκτυο, στα αρχικά της στάδια είχε προσεγγιστεί ως αναζήτηση βασισμένη είτε σε ταξονομίες, είτε σε λέξεις κλειδιά. Στην πορεία της εξέλιξής τους, οι μηχανές αναζήτησης εφοδιάστηκαν με ανεστραμμένες λίστες ευρετηρίων, συναρτήσεις ταξινόμησης (οι οποίες βασίζονταν σε στατιστική όρων) και αντίστοιχους αλγόριθμους ταξινομημένης ανάκτησης ώστε να επιτυγχάνουν πιο αποδοτική ανταπόκριση στις απαιτήσεις των χρηστών τους και στη διαχείριση του ολοένα και αυξανόμενου όγκου περιεχομένου στο οποίο πραγματοποιούσαν τις αναζητήσεις [22]. Με την παρούσα εργασία αναζητείται η χρυσή τομή των παραπάνω προσεγγίσεων και παράλληλα γίνεται προσπάθεια για αξιοποίηση των θετικών χαρακτηριστικών κάθε μιας. Ετσι, από τη μια, αποσκοπούμε στην αξιοποίηση της υφιστάμενης έρευνας στον τομέα των αλγορίθμων ταξινόμησης και στην αξιοποίηση της γνώσης που υπάρχει στις ταξονομίες και τη δομή τους ώστε να αποφευχθεί η ανάγκη χρήσης λιστών εμφανίσεων (ανεστραμμένες λίστες). Με

48 40 Κίνητρο και Συνεισφορά αυτόν τον τρόπο μπορούν να αποφευχθούν οι αντίστοιχες επιβαρύνσεις σε χώρο αποθήκευσης, διαχείρισης, συντήρησης και αναζήτησης στις λίστες (πράγμα ι- διαιτέρως σημαντικό στα περιβάλλοντα των κοινωνικών μέσων). Από την άλλη, επιδιώκουμε τον εμπλουτισμό της σχετική έρευνας στον τομέα της αναζήτησης με βάση τις ταξονομίες με τους βέλτιστους αλγόριθμους ταξινομημένης ανάκτησης που προτείνουμε, καθιστώντας τις ταξονομίες πιο σχετικές με την ταξινομημένη ανάκτηση. Χρησιμοποιούμε την υφιστάμενη γνώση κατά τον ακόλουθο τρόπο: Αρχικά βασιζόμαστε σε γνωστές αρχές για ορισμό της ομοιότητας μεταξύ των κόμβων της ταξονομίας για να εκφράσουμε ορισμούς ομοιότητας κατάλληλους για τα περιβάλλοντα στα οποία εργαζόμαστε και για ερωτήματα αναζήτησης τύπου Q1, Q2, και Q3. Αυτές οι αρχές προέκυψαν από εργασίες που μελέτησαν ζητήματα κατάταξης στα μοντέλα αναζήτησης Boole. Σημαντικό δε σημείο είναι το γεγονός πως η βαθμολογία που αναθέτουμε στα έγγραφα σέβεται τη δομή της ταξονομίας. Αυτό επιτρέπει σε κάθε όρο του ερωτήματος να διασχίσει την ταξονομία, ανάλογα με την συνάρτηση βαθμολόγησης, και κατ ουσία να παράξει ανεστραμμένα ευρετήρια ταξινομημένα ανάλογα με τη βαθμολογία των εγγράφων που αυτά περιέχουν. Κατά συνέπεια, το πιο πάνω καθιστά το περιβάλλον μας φιλικό προς τους αλγόριθμους κατωφλίου του Fagin (ΤΑ). Στη συνέχεια, βασιζόμαστε στους αλγόριθμους κατωφλίου του Fagin (ΤΑ) ώστε να εξάγουμε αλγόριθμους κατάλληλους για ταξινομημένη ανάκτηση σε ένα περιβάλλον χωρίς ανεστραμμένα ευρετήρια ανά ετικέτα. Με αυτό τον τρόπο επιτυγχάνουμε τη γεφύρωση ενός αδιαμφισβήτητου κενού στη βιβλιογραφία, α- ναπτύσσοντας βέλτιστες μεθόδους οι οποίες διευκολύνουν την ταξινομημένη ανάκτηση εκμεταλλευόμενες τη δομή των ταξονομιών και την γνώση που εμπεριέχεται σε αυτές. Ακολούθως παρουσιάζεται μια πιο συγκεκριμένη περιγραφή της συνεισφοράς της παρούσας διπλωματικής εργασίας. Ανάλυση του προβλήματος ορισμού της αναζήτησης βάσει ταξονομιών στα κοινωνικά μέσα και ανάπτυξη ορισμών ομοιότητας που προκύπτουν μέσω της διαδικασίας προσθήκης ετικετών από τους χρήστες. Παρουσίαση του τρόπου με τον οποίο μπορεί να υπολογίζονται ανεστραμ-

49 Συνεισφορά 41 μένα ευρετήρια ταξινομημένα κατά ετικέτα, δεδομένης της δομής της ταξονομίας και της πληροφορίας για τις δραστηριότητες των χρηστών αναφορικά με προσθήκες ετικετών. Βασιζόμενοι στα συγκεκριμένα ευρετήρια μπορούμε να εισάξουμε τους βέλτιστους αλγόριθμους κατωφλίου απ ευθείας στο περιβάλλον των ταξονομιών. Πρόταση ενός συνόλου καινοτόμων αλγορίθμων ταξινομημένης ανάκτησης, τους οποίους ονομάζουμε TREATS (ThREshold Algorithms on TaxonomieS) (Αλγόριθμοι Κατωφλίου σε Ταχονομίες), οι οποίοι εκμεταλλεύονται τη δομή της ταξονομίας και λύνουν βέλτιστα το πρόβλημα της top-k αναζήτησης. Ο TREATS-Random και ο TREATS-Sorted δεν απαιτούν την ύπαρξη οποιωνδήποτε ανεστραμμένων ευρετηρίων. Αντ αυτών η πληροφορία, που θα αποθηκευόταν στα ανεστραμμένα ευρετήρια για τους όρους των ερωτημάτων, δημιουργείται δυναμικά, κατά την εκτέλεση του ερωτήματος, και μόνο μέχρι του σημείου που απαιτείται από τα κριτήρια του κατωφλίου. Αυτοί οι αλγόριθμοι έχουν ένα συγκριτικό πλεονέκτημα απέναντι στους αλγορίθμους κατωφλίου και το επιτυγχάνουν χωρίς τα υψηλά κόστη για δημιουργία, συντήρηση και αποθήκευση που συνεπάγονται τα ανεστραμμένα ευρετήρια (ιδιαίτερα στο εξαιρετικά δυναμικό περιβάλλον των κοινωνικών μέσων). Απόδειξη τόσο της ορθότητας όσο και της βέλτιστης απόδοσης των αλγορίθμων TREATS. Τέλος, υλοποίηση όλων των αλγορίθμων που προτείνονται. Ενός αλγορίθμου που δύναται να κατασκευάσει αποδοτικά ανεστραμμένα ευρετήρια βασιζόμενος στις ομοιότητες με βάση ταξονομίες που προτείνονται και των TA-Sorted και TA-Random, που αποτελούν εκδοχές των αλγορίθμων κατωφλίου (ΤΑ) χρησιμοποιώντας τα συγκεκριμένα ευρετήρια. Πραγματοποιήθηκαν αναλυτικά πειράματα για να μελετηθεί η αποδοτικότητα όλων των αλγορίθμων χρησιμοποιώντας σύνολα δεδομένων βασισμένα σε πραγματικές ταξονομίες με διαφορετικά χαρακτηριστικά. Οι μετρικές α- ξιολόγησης περιλαμβάνουν χρόνους εκτέλεσης των ερωτημάτων, με όλες τις βασικές παραμέτρους τους, όπως και κόστη που σχετίζονται με την

50 42 Κίνητρο και Συνεισφορά προσθήκη και αφαίρεση εγγράφων. 4.6 Σύνοψη Στο παρόν κεφάλαιο παρουσιάστηκε το περιβάλλον ενασχόλησης της διπλωματικής εργασίας, το οποίο περιγράφεται ως περιβάλλον κοινωνικών μέσων. Στη συνέχεια, αναλύθηκε το κίνητρο μου μας οδήγησε στην ενασχόληση με το συγκεκριμένο πρόβλημα και, τέλος, ορίστηκε το μοντέλο του συστήματος που χρησιμοποιήθηκε μαζί με το μοντέλο των ερωτημάτων που αυτό θα απαντάει.

51 Κεφάλαιο 5 Ορισμός Ομοιότητας σε Ταξονομίες Ετικετών Στο παρόν κεφάλαιο θα παρουσιαστεί η προσέγγισή μας για τον ορισμό της ο- μοιότητας σε περιβάλλοντα κοινωνικών μέσων, όπως τα έχουμε ορίσει σε προηγούμενο κεφάλαιο (4.1). Συγκεκριμένα προτείνουμε δύο διαφορετικές συναρτήσεις ομοιότητας, την sim LCA και την sim edge count. Και οι δυο συναρτήσεις βασίζονται σε καλά ορισμένες και εδραιωμένες τεχνικές όπως θα αναλυθεί και ακολούθως. 5.1 Εισαγωγή Τα περιβάλλοντα κοινωνικών μέσων με τα οποία ασχολούμαστε παρουσιάζουν μία ενδιαφέρουσα ιδιότητα: όταν αναθέτονται ετικέτες σε έγγραφα, τότε τα έγγραφα αυτά κατ ουσίαν συνδέονται με τις θεματικές κατηγορίες στις οποίες αντιστοιχούν οι διάφορες ετικέτες. Για παράδειγμα, ένα έγγραφο που αφορά ταξινομημένη ανάκτηση πληροφορίας μπορεί να έχει τις εξής ετικέτες: ταξινομημένη ανάκτηση και ανάκτηση πληροφορίας. Με αυτόν τον τρόπο το έγγραφο αυτό συνδέεται άμεσα με τις δύο θεματικές ενότητες ταξινομημένη ανάκτηση και ανάκτηση πληροφορίας. Στο SME που έχουμε ορίσει στο προηγούμενο κεφάλαιο, οι θεματικές αυτές ενότητες θα αντιστοιχούν σε δύο κόμβους της διαθέσιμης ταξονομίας. 43

52 44 Ορισμός Ομοιότητας σε Ταξονομίες Ετικετών Σχήμα 5.1: Πολλαπλές εμφανίσεις εγγράφων σε ταξονομία Η εμφάνιση του ίδιου εγγράφου σε πολλαπλούς κόμβους της ταξονομίας περιπλέκει την διαδικασία υπολογισμού της ομοιότητας των εγγράφων (διαδικασία απαραίτητη για να μπορέσουν να εξαχθούν τα top-k αποτελέσματα). Ετσι, αρχικός σκοπός της διπλωματικής εργασίας είναι να προτείνει κατάλληλους ορισμούς ομοιότητας που να αντιμετωπίζουν το πρόβλημα της εμφάνισης εγγράφων σε πολλαπλούς κόμβους της ταξονομίας. 5.2 Ομοιότητα βάσει Ταξονομιών Το πρόβλημα του ορισμού της ομοιότητας εμπεριέχει δύο επιμέρους ορισμούς. Αρχικά, αναγκαίος είναι ο ορισμός της ομοιότητας μεταξύ ενός εγγράφου και μίας συγκεκριμένης ετικέτας. Ετσι, δεδομένου ενός όρου ερωτήματος (ετικέτας tag) t, για ένα υποψήφιο έγγραφο d θα μπορεί να υπολογιστεί ο βαθμός ομοιότητας sim(t, d) για όλα τα υποψήφια έγγραφα. Ετσι, τα έγγραφα θα μπορούν να ταξινομηθούν βάσει της ομοιότητας τους με την t. Αφού στα έγγραφα έχουν ανατεθεί ετικέτες και, υποθέτοντας ότι σε ένα έγγραφο d έχει ανατεθεί η ετικέτα t 2, η ομοιότητα sim(d, t 1 ) θα είναι μία συνάρτηση του sim(t 1, t 2 ). Οπότε, στη συνέχεια είναι απαραίτητος ο ορισμός της ομοιότητας μεταξύ οποιονδήποτε δύο ετικετών της ταξονομίας, sim(t i, t j ), για τον ορισμό του οποίου θα χρησιμοποιηθούν καλά εδραιωμένες αρχές που έχουν προταθεί με προηγούμενες έρευνες [24, 26]. Το γεγονός ότι ένα έγγραφο d μπορεί (ορθώς) να είναι συνδεδεμένο με πάνω από μία ετικέτες περιπλέκει τον ορισμό της ομοιότητας. Για να κατανοηθεί το

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΣΠΟΥ ΑΣΤΗΣ: Γιαννόπουλος Γεώργιος ΕΠΙΒΛΕΠΩΝ: Καθ. Ι. Βασιλείου ΒΟΗΘΟΙ: Α. ηµητρίου, Θ. αλαµάγκας Γενικά Οι µηχανές αναζήτησης

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Ποια είναι τα βασικά πλεονεκτήματα ενός παραδοσιακού σχεσιακού συστήματος βάσεων δεδομένων και

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

Στην πράξη ουσιαστικά αντικαθιστά τον παραδοσιακό κατάλογο μιάς Βιβλιοθήκης με όλα τα παραπάνω πλεονεκτήματα.

Στην πράξη ουσιαστικά αντικαθιστά τον παραδοσιακό κατάλογο μιάς Βιβλιοθήκης με όλα τα παραπάνω πλεονεκτήματα. 1 Λειτουργία και χρήση του καταλόγου OPAC. Η Κεντρική Βιβλιοθήκη της Θεολογικής Σχολής μέσα στα πλαίσια που καθορίζει το Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών και προσπαθώντας να ανταποκριθεί στις

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ

Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΔΕΔΟΜΕΝΑ ΑΛΓΟΡΙΘΜΟΙ -ΠΛΗΡΟΦΟΡΙΑ: Δεδομένα: Αναπαράσταση της Πραγματικότητας Μπορούν να γίνουν αντιληπτά με μια από τις αισθήσεις μας Πληροφορία: Προκύπτει από

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ 1 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΚΕΦΑΛΑΙΟ 3ο: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΜΕΡΟΣ 2 ο : ΣΤΟΙΒΑ & ΟΥΡΑ ΙΣΤΟΣΕΛΙΔΑ ΜΑΘΗΜΑΤΟΣ: http://eclass.sch.gr/courses/el594100/ ΣΤΟΙΒΑ 2 Μια στοίβα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Standard Template Library (STL) C++ library

Standard Template Library (STL) C++ library Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Standard Template Library (STL) C++ library Δομές Δεδομένων Μάριος Κενδέα kendea@ceid.upatras.gr Εισαγωγή Η Standard Βιβλιοθήκη προτύπων

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Υλοποίηση των Σχεσιακών Τελεστών. 6/16/2009 Μ.Χατζόπουλος 1

Υλοποίηση των Σχεσιακών Τελεστών. 6/16/2009 Μ.Χατζόπουλος 1 Υλοποίηση των Σχεσιακών Τελεστών 6/16/2009 Μ.Χατζόπουλος 1 Ένα σχεσιακό ΣΔBΔ πρέπει να συμπεριλαμβάνει αλγόριθμους για υλοποίηση των διαφορετικών τύπων των σχεσιακών πράξεων (καθώς και άλλων πράξεων) που

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ

Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ mpompotas@ceid.upatras.gr Εισαγωγή - STL Η Standard Βιβλιοθήκη προτύπων (STL) είναι μια βιβλιοθήκη λογισμικού για την C++ Δημιουργήθηκε

Διαβάστε περισσότερα

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Συμπληρωματικές σημειώσεις για τον μηχανισμό VCG 1 Εισαγωγή στις Συνδυαστικές

Διαβάστε περισσότερα

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Σε ένα σύστημα φιλτραρίσματος πληροφορίας, ή αλλιώς σύστημα έκδοσης/συνδρομής, οι χρήστες εγγράφονται

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ) Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr Βασίλης Κατσάρης, telia.co.gr Σύνοψη Το σύστημα ΕΥΡΗΚΑ

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση μεγιστοποιήσει την πιθανότητά

ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση μεγιστοποιήσει την πιθανότητά ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση: Έστω ότι έχουμε τους παίκτες Χ και Υ. Ο κάθε παίκτης, σε κάθε κίνηση που κάνει, προσπαθεί να μεγιστοποιήσει την πιθανότητά του να κερδίσει. Ο Χ σε κάθε κίνηση που κάνει

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Σχεδίαση Βάσεων Δεδομένων

Σχεδίαση Βάσεων Δεδομένων Σχεδίαση Βάσεων Δεδομένων Δεδομένα κατά Πληροφοριών Data vs. Information 1 Copyright 2013, Oracle and/or its affiliates. All rights reserved. Δεδομένα κατά Πληροφοριών Στόχοι Το μάθημα αυτό καλύπτει τους

Διαβάστε περισσότερα

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι: Χωρική Ανάλυση Ο σκοπός χρήσης των ΣΓΠ δεν είναι μόνο η δημιουργία μίας Β.Δ. για ψηφιακές αναπαραστάσεις των φαινομένων του χώρου, αλλά κυρίως, η βοήθειά του προς την κατεύθυνση της υπόδειξης τρόπων διαχείρισής

Διαβάστε περισσότερα

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun Κ24: Προγραμματισμός Συστήματος - 1η Εργασία, Εαρινό Εξάμηνο 2018 Προθεσμία Υποβολής: Κυριακή 18 Μαρτίου, 23:59 Εισαγωγή Στην εργασία αυτή θα υλοποιήσετε μία μίνι μηχανή αναζήτησης (search engine). Οι

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής Εισαγωγή στις Βάσεις Δεδομένων Εισαγωγή στις Βάσεις Δεδομένων Ορισμός Βάσης Δεδομένων Σύστημα Διαχείρισης Βάσης Δεδομένων ΣΔΒΔ (DBMS) Χαρακτηριστικά προσέγγισης συστημάτων αρχειοθέτησης Χαρακτηριστικά

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η Μονοδιάστατοι Πίνακες Τι είναι ο πίνακας γενικά : Πίνακας είναι μια Στατική Δομή Δεδομένων. Δηλαδή συνεχόμενες θέσεις μνήμης, όπου το πλήθος των θέσεων είναι συγκεκριμένο. Στις θέσεις αυτές καταχωρούμε

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος εδοµένα οµές δεδοµένων και αλγόριθµοι Τα δεδοµένα είναι ακατέργαστα γεγονότα. Η συλλογή των ακατέργαστων δεδοµένων και ο συσχετισµός τους δίνει ως αποτέλεσµα την πληροφορία. Η µέτρηση, η κωδικοποίηση,

Διαβάστε περισσότερα

Πληροφορική & Τηλεπικοινωνίες. K18 - Υλοποίηση Συστημάτων Βάσεων Δεδομένων Εαρινό Εξάμηνο

Πληροφορική & Τηλεπικοινωνίες. K18 - Υλοποίηση Συστημάτων Βάσεων Δεδομένων Εαρινό Εξάμηνο Πληροφορική & Τηλεπικοινωνίες K18 - Υλοποίηση Συστημάτων Βάσεων Δεδομένων Εαρινό Εξάμηνο 2010 2011 Δ. Γουνόπουλος Ι. Ιωαννίδης Άσκηση 2: Υλοποίηση Ευρετηρίου Β+ Δένδρου Προθεσμία: 6 Ιουνίου 2011, 11:59μμ

Διαβάστε περισσότερα

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος Αναστασιάδης Αντώνιος Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης

Διαβάστε περισσότερα

Κατακερματισμός (Hashing)

Κατακερματισμός (Hashing) Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 6: Ο Αντεστραμμένος Κατάλογος Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι Απλά ερωτήματα Επιλογής Ερωτήματα με Ενώσεις πινάκων Ερωτήματα με Παραμετρικά Κριτήρια Ερωτήματα με Υπολογιζόμενα πεδία Απλά ερωτήματα Επιλογής Τα Ερωτήματα μας επιτρέπουν

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1 Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 4 ης διάλεξης 4.1. (α) Αποδείξτε ότι αν η h είναι συνεπής, τότε h(n

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών 6 εκεµβρίου 2008 ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος 2008-09 Παναγιώτα Φατούρου Προγραµµατιστική Εργασία 3 ο Μέρος Ηµεροµηνία Παράδοσης:

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. AeppAcademy.com facebook.com/aeppacademy Γεια. Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. Καλή Ανάγνωση & Καλή Επιτυχία

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Ενδεικτικές Ερωτήσεις Θεωρίας

Ενδεικτικές Ερωτήσεις Θεωρίας Ενδεικτικές Ερωτήσεις Θεωρίας Κεφάλαιο 2 1. Τι καλούμε αλγόριθμο; 2. Ποια κριτήρια πρέπει οπωσδήποτε να ικανοποιεί ένας αλγόριθμος; 3. Πώς ονομάζεται μια διαδικασία που δεν περατώνεται μετά από συγκεκριμένο

Διαβάστε περισσότερα

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή 1 Πίνακας Περιεχομένων 1. Εισαγωγή... 4 1.1 Περιβάλλον Moodle...4 1.2 Χρήση ονόματος χρήστη και κωδικού...4 1.3 Δημιουργία νέου μαθήματος...4 1.3.1

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων - Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a)

Διαβάστε περισσότερα

Τίτλος Πακέτου Certified Computer Expert-ACTA

Τίτλος Πακέτου Certified Computer Expert-ACTA Κωδικός Πακέτου ACTA - CCE - 002 Τίτλος Πακέτου Certified Computer Expert-ACTA Εκπαιδευτικές Ενότητες Επεξεργασία Κειμένου - Word Δημιουργία Εγγράφου Προχωρημένες τεχνικές επεξεργασίας κειμένου & αρχείων

Διαβάστε περισσότερα

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Διοίκησης Συστημάτων Εφοδιασμού Μάθημα: Εισαγωγή στην Εφοδιαστική (Εργαστήριο) Ανάλυση του άρθρου με τίτλο: «Intelligent Decision Support Systems» των Stephanie Guerlain,

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1 Οι πράξεις της συνένωσης Μ.Χατζόπουλος 1 ΠΡΟΜΗΘΕΥΤΗΣ (ΠΡΜ) Κ_Προμ Π_Ονομα Είδος Πόλη 22 Ανδρέου 7 Αθήνα 31 Πέτρου 8 Πάτρα 28 Δέδες 12 Λάρισα 58 Παππάς 7 Αθήνα ΠΡΟΙΟΝ (ΠΡ) Κ_Πρ Πρ_Ονομα Χρώμα Βάρος Π35

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο : Πιθανοτική ανάκτηση πληροφορίας. Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο Βάσεις Δεδομένων Εισαγωγή Ανάλυση Απαιτήσεων Φροντιστήριο 1 ο 16-10-2008 Εισαγωγή - Ορισμοί Βάση Δεδομένων είναι μία συλλογή από σχετιζόμενα αντικείμενα Ένα σύστημα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ)

Διαβάστε περισσότερα