ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013

Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 4 και 5 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 1

Ανάκτηση πληροφορίας (ΑΠ) Η ανάκτηση πληροφορίας (information retrieval) ασχολείται με την ανάπτυξη μοντέλων και αλγορίθμων για την ανάκτηση εγγράφων από συλλογές κειμένων Αφορά την δεικτοδότηση και ανάκτηση κειμένων Κύριο μέλημα η ανάκτηση σχετικών εγγράφων σε ένα ερώτημα Αλλά και η ανάκτηση από μεγάλες συλλογές με αποδοτικό τρόπο Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 2

Έχοντας σαν είσοδο: Τυπική εργασία ΑΠ Ένα σώμα κειμένων σε φυσική γλώσσα Ένα ερώτημα χρήστη διατυπωμένο σαν κείμενο Ζητείται να βρεθεί: Ένα ταξινομημένο σύνολο εγγράφων που είναι σχετικά με το ερώτημα Η αναζήτηση εγγράφων στον παγκόσμιο ιστό είναι η πιο διαδεδομένη εφαρμογή ΑΠ Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 3

Τι σημαίνει όμως «σχετικά»; Η σχετικότητα (relevance) είναι συχνά υποκειμενική, και μπορεί να περιλαμβάνει: Ίδιο θέμα Χρονική περίοδο (π.χ. πρόσφατη πληροφορία) Αυθεντικότητα (authoritative) (π.χ. να προέρχεται από έγκυρη/έμπιστη πηγή) Να καλύπτει τους σκοπούς του χρήστη Και την προβλεπόμενη χρήση της πληροφορίας Το κύριο κριτήριο συχνά είναι η κάλυψη της πληροφοριακής ανάγκης του χρήστη Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 4

Βασική προσέγγιση Αναζήτηση λέξεων-κλειδιών (keyword search) Η απλούστερη μορφή σχετικότητας είναι το ερώτημα να εμφανίζεται αυτούσιο στο έγγραφο Μια λιγότερη «αυστηρή» μορφή σχετικότητας είναι οι λέξεις του ερωτήματος να εμφανίζονται συχνά στο έγγραφο Χωρίς να μας ενδιαφέρει η σειρά εμφάνισης Χρησιμοποιώντας σύνολο λέξεων (bag of words) Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 5

Προβλήματα λέξεων-κλειδιών Δεν θα ανακτήσουν έγγραφα που περιέχουν συνώνυμα Εστιατόριο φαγάδικο, σουβλατζίδικο, βρώμικο Γράμμα επιστολή Θα ανακτήσουν άσχετα έγγραφα όταν υπάρχει αμφισημία Τα μήλα φρούτα ή παιδικό παιχνίδι; Ποντίκι τρωκτικό ή εξάρτημα Η/Υ; Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 6

Τεχνικές για «έξυπνη» ΑΠ Αξιοποίηση της σημασίας των χρησιμοποιούμενων λέξεων Αξιοποίηση της σειράς των λέξεων στο ερώτημα Προσαρμογή στις ανάγκες του χρήστη μέσω (ημι)αυτόματης ανάδρασης (feedback) Επέκταση αναζήτησης με σχετικούς όρους Εκτέλεση ορθογραφικού ελέγχου Αξιοποίηση της εγκυρότητας της πηγής Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 7

Τυπική αρχιτεκτονική (1) Διεπαφή χρήστη Ανάγκες χρήστη Λειτουργίες κειμένου Κείμενο Ανάδραση χρήστη Λειτουργίες ερωτήματος Ευρετηρίαση Διαχειριστής Βάσης Ανεστραμμένο ευρετήριο Ερώτημα Αναζήτηση Ευρετήριο Ταξινομημένα έγγραφα Ταξινόμηση Ανακτημένα έγγραφα Βάση κειμένων Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 8

Τυπική αρχιτεκτονική (2) Λειτουργίες κειμένου: κατασκευή λέξεων ευρετηρίου Αναγνώριση λέξεων Απομάκρυνση λέξεων (stop-word removal) Λέξεις που δεν βοηθούν στην διάκριση εγγράφων Εύρεση θεμάτων Ευρετηρίαση: κατασκευή ανεστραμμένου ευρετηρίου λέξεων προς έγγραφα Αντιστοιχεί λέξεις-κλειδιά με έγγραφα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 9

Τυπική αρχιτεκτονική (3) Αναζήτηση: ανακτά έγγραφα που περιέχουν έναν όρο αναζήτησης από το ανεστραμμένο ευρετήριο Ταξινόμηση: απόδοση τιμής σχετικότητας σε έγγραφα (αξιολόγηση), με βάση μια μετρική σχετικότητας Διεπαφή χρήστη: διαχειρίζεται την αλληλεπίδραση με τον χρήστη Δέχεται ερωτήματα και απεικονίζει έγγραφα Διαχειρίζεται την ανάδραση Απεικονίζει τα αποτελέσματα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 10

Τυπική αρχιτεκτονική (4) Λειτουργίες ερωτήματος: μετασχηματίζει το ερώτημα για να βελτιωθεί η ανάκτηση Επέκταση του ερωτήματος με χρήση θησαυρού Μετασχηματισμός του ερωτήματος βάσει ανάδρασης Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 11

Μοντελοποίηση ΑΠ (1) Κάθε έγγραφο αναπαριστάται από ένα σύνολο αντιπροσωπευτικών λέξεων-κλειδιών ή όρων ευρετηρίου Ένας όρος ευρετηρίου είναι μια λέξη του εγγράφου που σχετίζεται με το θέμα του κειμένου Μπορεί να είναι μόνο ουσιαστικά Αν υπάρχει αναγνώριση μερών του λόγου Μικρότερο μέγεθος ευρετηρίου Οι μηχανές αναζήτησης χρησιμοποιούν όλες τις λέξεις Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 12

Μοντελοποίηση ΑΠ (2) Όμως, δεν είναι όλες οι λέξεις το ίδιο χρήσιμες για να αναπαραστήσουν το περιεχόμενο ενός εγγράφου Όροι που εμφανίζονται σπάνια επιτρέπουν την ανάκτηση λιγότερων εγγράφων Η «σημαντικότητα» ενός όρου αναπαριστάται από ένα βάρος (weight) Υποθέτοντας έναν όρο k i, ένα έγγραφο d j, και ένα βάρος w ij σχετιζόμενο με το (k i, dj) Το βάρος w ij ποσοτικοποιεί την σημασία του όρου για την αναπαράσταση των περιεχομένων του εγγράφου Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 13

Μοντέλο Μπουλ (Boole) Απλό μοντέλο βασισμένο στην θεωρία συνόλων Τα ερωτήματα εκφράζονται σαν λογικές εκφράσεις (Boolean expressions) Ακριβής σημασιολογία Καλά ορισμένος φορμαλισμός q = k a (k b k c ) Οι όροι είτε υπάρχουν, ή δεν υπάρχουν Οπότε, w ij 0,1 Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 14

Μοντέλο Μπουλ (2) q = k a (k b k c ) 1,1,1 1,1,0 1,0,0 k a (1,0,0) (1,1,0) (1,1,1) k b k c Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 15

Μειονεκτήματα μοντέλου Μπουλ Ανάκτηση βασισμένη σε δυαδική απόφαση Δεν υπάρχει καν η έννοια του μερικού ταιριάσματος Δεν παρέχεται ταξινόμηση των εγγράφων Δεν υπάρχει καν κλίμακα αξιολόγησης Οι λογικές εκφράσεις είναι «άβολες» για τους χρήστες Συχνά οι λογικές εκφράσεις από τους χρήστες είναι απλοϊκές Με αποτέλεσμα την επιστροφή είτε πολύ λίγων, ή πάρα πολλών εγγράφων για ένα τέτοιο ερώτημα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 16

Διανυσματικό μοντέλο (1) Η χρήση δυαδικών βαρών είναι περιοριστική Μη-δυαδικά βάρη επιτρέπουν μερικό ταίριασμα Τα βάρη των όρων μπορούν να χρησιμοποιηθούν στον υπολογισμό βαθμού ομοιότητας (degree of similarity) μεταξύ ενός ερωτήματος και κάθε εγγράφου Επιτρέπουν ταξινόμηση των εγγράφων Με βάση την σχετικότητα, που προκύπτει από την ομοιότητα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 17

Διανυσματικό μοντέλο (2) Υποθέτοντας ένα ερώτημα q, έναν όρο k i, ένα έγγραφο d j, και ένα βάρος w ij w ij > 0 όταν k i d j w iq 0 συσχετισμένο με το ζεύγος k i, q vector d j = w 1j, w 2j,, w tj vector q = w 1q, w 2q,, w tq Κάθε όρος k i σχετίζεται με ένα μοναδιαίο διάνυσμα vec i Τα μοναδιαία διανύσματα vec i και vec j θεωρούνται ορθογώνια υποθέτουμε ότι οι όροι εμφανίζονται ανεξάρτητα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 18

Διανυσματικό μοντέλο (3) Τα t μοναδιαία διανύσματα vec i σχηματίζουν μια ορθοκανονική βάση για τον χώρο των t διαστάσεων Σε αυτό τον χώρο, τα ερωτήματα και τα έγγραφα απεικονίζονται σαν διανύσματα βαρών Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 19

Διανυσματικό μοντέλο (4) j d j θ q similarity q, d i = cos θ = vec d j vec q d j q = w ij w iq d j q Έχοντας w ij > 0, w iq 0 0 similarity q, d j 1 Ένα έγγραφο μπορεί να ανακτηθεί ακόμα και αν ταιριάζει μερικώς με τους όρους του ερωτήματος i Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 20

Διανυσματικό μοντέλο (5) similarity q, d i = w ij w iq d j q Πως υπολογίζουμε τα βάρη w ij και w iq ; Ένα καλό βάρος, πρέπει να λαμβάνει υπ όψιν δύο φαινόμενα: Ποσοτικοποίηση των περιεχομένων των εγγράφων (ομοιότητα) Παράγοντας tf (term frequency), συχνότητα εμφάνισης όρου σε ένα έγγραφο Ποσοτικοποίηση του διαχωρισμού εγγράφων (ανομοιότητα) Παράγοντας idf (inverse document frequency), αντίστροφη συχνότητα κειμένου w ij = tf i, j idf i Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 21

Η μετρική TFIDF Το γινόμενο δύο όρων: Συχνότητας εμφάνισης του όρου (term frequency) Πόσες φορές εμφανίζεται ο όρος k i στο κείμενο d j Αντίστροφης συχνότητας κειμένου idf i = log N n i, όπου N ο συνολικός αριθμός κειμένων της συλλογής, και n i ο αριθμός των κειμένων της συλλογής στα οποία εμφανίζεται ο όρος k i Συχνά κανονικοποιούμε το γινόμενο, με το ευκλείδειο μήκος του διανύσματος: w ij = t k=1 tf i, j idf i tf k, j idf k 2 Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 22

Εύρεση συνεκφερόμενων λέξεων Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας

Συνεκφερόμενες λέξεις Συνεκφερόμενες λέξεις ή «χαλαρά συνώνυμα» (collocations): Λέξεις που συνεκφέρονται πολύ συχνά μαζί στον λόγο Παραδοσιακά, η εξαγωγή συνεκφερόμενων λέξεων γίνεται με την λεξικογραφική προσέγγιση Σύμφωνα με τους Benson και Morton δεν μπορούμε να χειριστούμε ξεχωριστά τα συμμετέχοντα μέρη Επομένως η εξαγωγή τους δεν είναι προβλέψιμη, πρέπει να εξάγονται χειρωνακτικά, και να παρατίθενται σε λεξικά Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 24

Ν-γράμματα Η διαθεσιμότητα ηλεκτρονικών σωμάτων κειμένων, εν μέρει οδήγησε σε προσπάθειες αυτόματης εξαγωγής Από τις πρώτες προσπάθειες ήταν η εξέταση της συχνότητας εμφάνισης σε ν-γράμματα Ακολουθίες από ν-λέξεις Υπόθεση: αν δύο ή περισσότερες λέξεις εμφανίζονται συχνά μαζί, αυτές μπορεί να είναι συνεκφερόμενες Δυστυχώς, η επιλογή των πιο συχνών ν-γραμμάτων δεν είναι πάντα σωστή επιλογή of the, in the, to the, κλπ. Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 25

Εφαρμογή κανόνων Μόνο η συχνότητα εμφάνισης ν-γραμμάτων, δεν οδηγεί πάντα σε συνεκφερόμενες λέξεις Φιλτράρισμα ν-γραμμάτων με βάση μέρη του λόγου Απόδοση μερών του λόγου στις λέξεις Επιλογή ν-γραμμάτων με βάσει κανόνες: ΕΟ, ΟΟ, ΕΕΟ, ΕΟΟ (Ε: επίθετο, Ο: ουσιαστικό) Βελτιωμένα αποτελέσματα σε σχέση με την συχνότητα ν-γραμμάτων Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 26

Μέσος και διασπορά Ο μέσος είναι η αριθμητική μέση τιμή των δεδομένων Αν έχουμε παρατηρήσεις x 1, x 2,, x n τότε ο μέσος είναι: mean = x 1 + x 2 + + x n n Η διακύμανση είναι: variance = x 1 x 2 + x 2 x 2 2 + x n x n 1 Η τυπική απόκλιση είναι: s = variance Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 27

Παράδειγμα (1) «κτύπησε», «πόρτα» Κτύπησε την πόρτα του Κτύπησε δυνατά την πόρτα του Κτύπησε την σιδερένια πόρτα του Κτύπησε την σιδερένια και βαριά πόρτα του Ο αριθμός μεταξύ των λέξεων δεν είναι σταθερός Η απόσταση μεταξύ «κτύπησε» και «πόρτα» μεταβάλλεται ανάλογα την πρόταση mean = 1 + 2 + 2 + 4 4 = 2.25 Αν η λέξη «πόρτα» εμφανιζόταν πριν το «κτύπησε», θα βάζαμε αρνητικό αριθμό Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 28

Παράδειγμα (2) Η διακύμανση εκτιμά πόσο πολύ η κάθε απόσταση αποκλίνει από την μέση τιμή Εκφράζει την απόκλιση της απόστασης μεταξύ των λέξεων variance = 1 2.25 2 + 2 2.25 2 + 2 2.25 2 + 4 2.25 2 3 s = 1.58 = 1.26 Αναζητούμε ζεύγη με χαμηλή διακύμανση = 1.58 Που σημαίνει ότι οι λέξεις εμφανίζονται περίπου στην ίδια μεταξύ τους απόσταση Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 29

Χ-τετράγωνο έλεγχος (1) Χ-τετράγωνο έλεγχος του Pearson (1900) Συγκρίνει τους παρατηρηθέντες και αναμενόμενους αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες: X 2 observed expected 2 = expected Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 30

Χ-τετράγωνο έλεγχος (2) Οι παρατηρηθείσες και αναμενόμενες τιμές μπορούν να εξηγηθούν στο πλαίσιο του hypothesis testing Έχοντας τα παρατηρηθέντα δεδομένα που υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες Μπορούμε να διατυπώσουμε μια μηδενική υπόθεση (null hypothesis) Η αναμενόμενη τιμή είναι η τιμή για την κάθε κατηγορία εάν η μηδενική υπόθεση είναι αληθινή Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 31

Παράδειγμα (1) Δίγραμμα: (ισχυρός, άνδρας) Ορίζουμε ένα παράθυρο λ λέξεων (π.χ. 2) Μετράμε την συχνότητα εμφάνισης του διγράμματος στα κείμενα Έστω: 10 εμφανίσεις του (ισχυρός, άνδρας) 1000 διγράμματα όπου η 2 η λέξη είναι άνδρας, αλλά η 1 η δεν είναι ισχυρός 500 διγράμματα όπου η 1 η λέξη είναι ισχυρός, αλλά η 2 η δεν είναι άνδρας 1500000 διγράμματα που δεν περιέχουν καμιά από τις 2 λέξεις στην κατάλληλη θέση δεδομένου του παραθύρου Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 32

Παράδειγμα (2) Με τις συχνότητες εμφάνισης, μπορούμε να φτιάξουμε τον πίνακα συνάφειας (contingency table) w 1 =ισχυρός w 1 ισχυρός w 2 =άνδρας 10 (ισχυρός άνδρας) 1000 (σεμνός άνδρας) w 2 άνδρας 500 (ισχυρός άνεμος) 1500000 (ασθενής ήχος) Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 33

Παράδειγμα (3) Η μηδενική υπόθεση είναι ότι οι εμφανίσεις του ισχυρός και άνδρας είναι τυχαίες: P ισχυρός = 510/1501510 P Φνδρας = 1010/1501510 P(ισχυρός, άνδρας)=p(ισχυρός)*p(άνδρας)= (510/1,501,510)*(1010/1,501,510)=1013 10 5 X 2 = observed expected 2 expected Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 34

Παράδειγμα (4) Αν ο πίνακας είναι 2 2, υπάρχει απλούστερος τρόπος υπολογισμού: w 1 = stem 1 w 1 stem 1 w 2 = stem 2 f 1 f 2 w 2 stem 2 f 3 f 4 X 2 = N f 1 f 4 f 2 f 3 2 f 1 + f 2 f 1 + f 3 f 2 + f 4 f 3 + f 4, N = f 1 + f 2 + f 3 + f 4 Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 35