Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing Flat Structure Guided Hypertext Συνολοθεωρητικά Fuzzy Extended Boolean Αλγεβρικά Generalized Vector Latent Semantic Neural Networks Πιθανοτικά Inference Network Belief Network Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 2 1

Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειμένων Q, σύνολο λογικών όψεων ερωτημάτων F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d), συνάρτηση βαθμολόγησης Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 3 Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 4 2

Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 η γεωργική επανάσταση η βιομηχανική επανάσταση η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 5 Παρατήρηση Όλες οι λέξεις κλειδιά δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω ki μία λέξη κλειδί και dj ένα κείμενο. Το βάρος ορίζεται ως w(ki,dj) >= 0 (ή απλούστερα wij) και δηλώνει το πόσο σημαντική είναι η λέξη κλειδί ki σε σχέση με το κείμενο dj. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 6 3

Ορισμός Έστω t αριθμός των keywords και K={k1,,kt} το σύνολο των keywords. Εάν το keyword ki δεν εμφανίζεται στο κείμενο dj τότε w(ki,dj)=0. Διαφορετικά, w(ki,dj) > 0. Άρα σε κάθε κείμενο dj αντιστοιχεί ένα διάνυσμα βαρών (w1,j, w2,j,, wt,j). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 7 Κλασικά Μοντέλα IR Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 8 4

Κλασικά Μοντέλα IR ki ένα keyword (index term) dj ένα κείμενο t συνολικός αριθμός keywords K = {k1, k2,, kt} σύνολο keywords wij >= 0 βάρος μεταξύ ki, dj wij = 0 το ki δε βρίσκεται στο κείμενο dj vec(dj) = (w1j, w2j,, wtj) διάνυσμα που σχετίζεται με το κείμενο dj gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα ki και dj Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 9 Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημαντική (exact semantics) απλός φορμαλισμός q = ka (kb kc) To keyword είναι είτε παρόν είτε απόν wij ε {0,1} Για παράδειγμα q = ka (kb kc) vec(qdnf) = (1,1,1) (1,1,0) (1,0,0) vec(qcc) = (1,1,0) ένα conjunctive component Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 10 5

Boolean Μοντέλο q = ka (kb kc) Ka (1,0,0) (1,1,0) (1,1,1) Kb sim(q,dj) = 1 if vec(qcc) (vec(qcc) ε vec(qdnf)) ( ki, gi(vec(dj)) = gi(vec(qcc))) Kc 0 otherwise Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 11 Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 12 6

Μέθοδοι Υπολογισμού Ομοιότητας Μέθοδοι υπολογισμού ομοιότητας: μετρούν το βαθμό ομοιότητας μεταξύ ενός ερωτήματος και των εγγράφων. Ερώτημα Ομοιότητα Έγγραφα Σημειώστε τη διαφορά με τις μεθόδους που υποστηρίζουν μόνο επακριβή αναζήτηση (exact match). Για παράδειγμα, στο Boolean μοντέλο ένα κείμενο χαρακτηρίζεται είτε σχετικό είτε άσχετο ως προς το ερώτημα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 13 Χρήση Καταλόγων Ερώτημα Κατάλογος Έγγραφα Μηχανισμός υπολογισμού ομοιότητας μεταξύ ερωτήματος και κειμένων της συλλογής. Σύνολο κειμένων με σειρά βαθμού ομοιότητας Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 14 7

Το Βασικό Πρόβλημα Πρόβλημα: Πόσο μοιάζουν δύο έγγραφα; Ιδέα: Όσο περισσότερες κοινές λέξεις έχουν δύο κείμενα, τόσο περισσότερο μοιάζουν. Παράδειγμα: Έστω τα ακόλουθα έγγραφα. Πόσο μοιάζουν μεταξύ τους; d 1 d 2 d 3 ant ant bee dog bee dog hog dog ant dog cat gnu dog eel fox Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 15 Διανυσματικό Μοντέλο: δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). w ij = 1 w ij = 0 αν ο i-οστός όρος εμφανίζεται στο dj διαφορετικά Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 16 8

Διανυσματικό Μοντέλο: δυαδικά βάρη t 3 διάνυσμα εγγράφου d 1 w 31 t 2 w 11 w 21 t 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 17 Διανυσματικό Μοντέλο: δυαδικά βάρη document text terms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog d 1 1 1 d 2 1 1 1 1 d 3 1 1 1 1 1 3 διανύσματα 8 διαστάσεις w ij = 1 αν το dj περιέχει τον i-οστό όρο Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 18 9

Ομοιότητα Εγγράφων Η ομοιότητα μεταξύ δύο εγγράφων υπολογίζεται με βάση τη γωνία που σχηματίζεται μεταξύ των δύο αντίστοιχων διανυσμάτων. Πιο συγκεκριμένα, χρησιμοποιείται το συνημίτονο της γωνίας θ. t 3 θ d 1 d 2 t 2 t 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 19 Μαθηματικές Έννοιες x = (x 1, x 2, x 3,..., x n ) διάνυσμα στο χώρο των n διαστάσεων Μέτρο του x δίνεται με βάση το Πυθαγόρειο θεώρημα x 2 = x 12 + x 22 + x 32 +... + x n 2 Αν x 1 και x 2 είναι διανύσματα: Εσωτερικό Γινόμενο (dot product) δίνεται από: x 1.x 2 = x 11 x 21 + x 12 x 22 + x 13 x 23 +... + x 1n x 2n Συνημίτονο γωνίας μεταξύ των διανυσμάτων x 1 and x 2: x cos (θ) = 1.x 2 x 1 x 2 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 20 10

Παράδειγμα: δυαδικά βάρη ant bee cat dog eel fox gnu hog length d 1 1 1 2 d 2 1 1 1 1 4 d 3 1 1 1 1 1 5 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 21 Παράδειγμα: δυαδικά βάρη Πίνακας ομοιότητα εγγράφων d 1 d 2 d 3 d 1 1 0.71 0 d 2 0.71 1 0.22 d 3 0 0.22 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 22 11

Ομοιότητα Ερωτήματος-Εγγράφου t 3 q d cos(θ) is used as a measure of similarity θ t 2 t 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 23 Ομοιότητα Ερωτήματος-Εγγράφου query q ant dog document text terms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog q 1 1 d 1 1 1 d 2 1 1 1 1 d 3 1 1 1 1 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 24 12

Ομοιότητα Ερωτήματος-Εγγράφου d 1 d 2 d 3 q 1/2 1/ 2 1/ 10 0.5 0.71 0.32 Με βάση το ερώτημα και τα έγγραφα του παραδείγματος το έγγραφο που χαρακτηρίζεται περισσότερο σχετικό ως προς q είναι το d2, μετά το d1 και τέλος το d3. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 25 Χρήση του Διανυσματικού Μοντέλου Ερώτημα με κατώφλι (περιοχής) Για το ερώτημα q το σύστημα επιστρέφει όλα τα έγγραφα που έχουν βαθμό ομοιότητας μεγαλύτερο από κάποιο κατώφλι (π.χ., > 0.6). Ερώτημα top-k Για το ερώτημα q το σύστημα επιστρέφει τα k έγγραφα που έχουν το μεγαλύτερο βαθμό ομοιότητας ως προς το q. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 26 13

Γενίκευση: μη δυαδικά βάρη Το Διανυσματικό Μοντέλο βελτιώνεται με την εισαγωγή επιπλέον πληροφορίας για τον προσδιορισμό των βαρών wij. Μερικές από τις πληροφορίες αυτές είναι οι εξής: Το πλήθος των εγγράφων που περιέχουν τον όρο, Πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο, Το μήκος των εγγράφων. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 27 Διανυσματικό Μοντέλο: μη δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). w ij > 0 w ij = 0 αν ο i-οστός όρος εμφανίζεται στο dj διαφορετικά Η τιμή w ij ορίζεται ως το βάρος του i-οστού όρου στο j-οστό έγγραφο. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 28 14

Προσδιορισμός Βαρών Η γενική μορφή προσδιορισμού των βαρών wij είναι: wij = TFij x IDFi Όπου TFij είναι ένας παράγοντας που εξαρτάται από τη συχνότητα εμφάνισης του i-οστού όρου στο j-οστό έγγραφο. Ο παράγοντας IDFi εξαρτάται από το πλήθος των εγγράφων που περιέχουν τον όρο ti. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 29 Προσδιορισμός Βαρών Στη βιβλιογραφία έχουν προταθεί διάφοροι μαθηματικοί τύποι υπολογισμού των ποσοτήτων TF και IDF (και κατά συνέπεια των βαρών wij). Έστω, N συνολικός αριθμός κειμένων ni αριθμός εγγράφων που περιέχουν τον όρο ti freq(i,j) συχνότητα εμφάνισης του όρου ti στο κείμενο dj Ο κανονικοποιημένος παράγοντας μπορεί να υπολογιστεί ως: TFij = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλους τους όρους που περιέχονται στο dj O παράγοντας IDFi μπορεί να υπολογιστεί ως: IDFi = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 30 15

Διανυσματικό Μοντέλο Πλεονεκτήματα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος Η μερική ταύτιση επιτρέπει την ανάκτηση κειμένων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνημιτόνου (cosine ranking formula) ταξινομεί τα κείμενα με βάση την ομοιότητά τους ως προς το ερώτημα. Μειονεκτήματα: Το μοντέλο υποθέτει ότι οι όροι είναι ανεξάρτητοι μεταξύ τους, κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει γενικά. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 31 16