Ανάκτηση Πληροφορίας

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1

Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Πιθανότητες και Ανάκτηση Πληροφορίας Στα παραδοσιακά συστήματα IR, το ταίριασμα μεταξύ του query και των κειμένων γίνεται σε ένα σημασιολογικά ανακριβή χώρο όρων δεικτοδότησης. Οι πιθανότητες παρέχουν ένα αξιωματικό σχήμα για αβέβαιο συλλογισμό. Μπορούμε να τις χρησιμοποιήσουμε για να ποσοτικοποιήσουμε την αβεβαιότητα; 4

Βασική Ιδέα Έχουμε μια συλλογή εγγράφων/κειμένων. Ο χρήστης θέτει ένα ερώτημα/query. Αρχικά επιστρέφεται (με κάποιο τρόπο) ένα σύνολο εγγράφων/κειμένων. Ο χρήστης εξετάζει τα έγγραφα/κείμενα αναζητώντας σχετικά έγγραφα/κείμενα (συνήθως, αρκεί να εξετάσει τα 10-20 πρώτα ). Το σύστημα IR χρησιμοποιεί την ανατροφοδότηση (feedback) του χρήστη, ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο εγγράφων/κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων βελτιώνεται. 5

Πιθανοτικό Μοντέλο Στόχος: Η περιγραφή του ιδανικού συνόλου κειμένων να γίνεται πιθανοτικά! να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο! Η μέθοδος κατάταξης (ranking) είναι καίριας σημασίας σε ένα σύστημα IR: Με ποια σειρά παρουσιάζουμε τα κείμενα στον χρήστη; Θέλουμε το «καλύτερο» κείμενο πρώτο!! Ιδέα: κατέταξε τα κείμενα ανάλογα με την πιθανότητα να είναι σχετικά, δεδομένου του query. P(relevant document i, query) 6

Πιθανοτικό Μοντέλο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί! Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Προτάθηκε αρχικά από τους Robertson και Sparck Jones το 1976. 7

Ανεξάρτητες Μεταβλητές και Πιθανότητα υπό Συνθήκη Έστω a και b δύο γεγονότα με πιθανότητες να συμβούν: P(a) και P(b) Ανεξάρτητα Γεγονότα Τα γεγονότα a και b είναι ανεξάρτητα, αν και μόνο αν: P(a b) = P(b) P(a) «ανεξάρτητα» = όταν συμβαίνει το ένα, δεν μας δίνει καμία πληροφορία για το άλλο! Υπό Συνθήκη Πιθανότητα P(a b) είναι η πιθανότητα του a δεδομένου του b: P(a b) = P(a b) / P(b) Τα γεγονότα a 1,..., a n καλούνται υπό συνθήκη ανεξάρτητα, αν και μόνο αν: P(a i a j ) = P(a i ), για όλα τα i και j 8

Παράδειγμα 1 9

Παράδειγμα 2 Ανεξάρτητα γεγονότα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια. Ισχύει: P(a=5 b=3) = P(a=5) = 1/6 Μη ανεξάρτητα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια και t το άθροισμά τους. Τότε ισχύει: t = a + b P(t=8 a=2) = 1/6 P(t=8 a=1) = 0 10

Θεώρημα του Bayes Έστω a και b δύο γεγονότα. P(a b) είναι η πιθανότητα να συμβεί το γεγονός a δεδομένου ότι έχει συμβεί το γεγονός b. Θεώρημα Bayes P(a b) = ( P(b a) P(a) ) / P(b) Ισχύει επίσης ότι: P(a b) P(b) = P(a b) = P(b a) P(a) 11

Θεώρημα Bayes: παράδειγμα 12

Αρχή Πιθανοτικής Βαθμολόγησης Αν η απάντηση ενός συστήματος IR σε κάθε ερώτημα είναι μία λίστα εγγράφων ταξινομημένη με φθίνουσα διάταξη ως προς την πιθανότητα σχετικότητας του κάθε εγγράφου ως προς το χρήστη, όπου οι πιθανότητες υπολογίζονται όσο γίνεται ακριβέστερα με βάση τα δεδομένα που είναι διαθέσιμα, η συνολική αποτελεσματικότητα του συστήματος θα είναι η καλύτερη δυνατή. 13

Πιθανοκρατική Βαθμολόγηση Για ένα δεδομένο ερώτημα, εάν γνωρίζουμε κάποια από τα σχετικά έγγραφα, όροι που εμφανίζονται σε αυτά θα πρέπει να έχουν μεγαλύτερη βαρύτητα κατά την αναζήτηση άλλων σχετικών εγγράφων. Κάνοντας διάφορες παραδοχές σχετικά με την κατανομή των όρων και χρησιμοποιώντας το θεώρημα του Bayes, είναι δυνατόν να υπολογίσουμε τα βάρη αυτά. Van Rijsbergen 14

Βασικές έννοιες μοντέλου 1/4 Η πιθανότητα ένα έγγραφο να είναι σχετικό ως προς το ερώτημα θεωρείται ότι εξαρτάται μόνο: α) από τους όρους που περιέχονται στο έγγραφο και β) από τους όρους που περιέχονται στο ερώτημα. Η σχετικότητα ενός εγγράφου d ως προς το ερώτημα q δεν εξαρτάται από τη σχετικότητα άλλων εγγράφων της συλλογής. Για κάποιο ερώτημα q το σύνολο των σχετικών εγγράφων R είναι το ιδανικό σύνολο που μπορούμε να έχουμε ως απάντηση. 15

Βασικές έννοιες μοντέλου 2/4 Για ένα ερώτημα q και ένα έγγραφο d το πιθανοτικό μοντέλο χρειάζεται μία εκτίμηση για την πιθανότητα P(R d) που δηλώνει την πιθανότητα το έγγραφο d να είναι σχετικό ως προς το ερώτημα. Μέτρο Ομοιότητας (odds of being relevant to q): S(q, d): ομοιότητα του εγγράφου d ως προς το ερώτημα q: πιθανότητα d σχετικό με το ερώτημα P(R d) πιθανότητα d μη σχετικό με το ερώτημα P( R d) = Οι τιμές της S( ) μπορεί να είναι από πολύ μικρές έως πολύ μεγάλες και γι αυτό χρησιμοποιείται συνήθως ο λογάριθμος για την άμβλυνση των διαφορών. 16

Βασικές έννοιες μοντέλου 3/4 P(R d) = ( P(d R) P(R) ) P(d) Άρα, πρέπει να εκτιμήσουμε/υπολογίσουμε αυτές τις πιθανότητες. Πως; Κοιτάμε τους όρους (terms) x i που εμφανίζονται στο d! 17

Βασικές έννοιες μοντέλου 4/4 Ανάκτηση Δυαδικής Ανεξαρτησίας (Binary Independence Retrieval) 1. «Τα βάρη των όρων είναι δυαδικά και οι όροι είναι ανεξάρτητοι μεταξύ τους (η παρουσία ή μη κάποιου όρου δεν επηρεάζει τους υπόλοιπους)». 2. «Το βάρος ενός όρου σε ένα έγγραφο είναι είτε 1 (αν ο όρος περιέχεται στο έγγραφο), είτε 0 (σε διαφορετική περίπτωση)». Όπως και στο Διανυσματικό μοντέλο, η σχετικότητα ενός εγγράφου καθορίζεται από τους όρους που περιέχονται σε αυτό. 18

Naïve Bayes Έστω x = (x 1, x 2,... x n ) το διάνυσμα του εγγράφου d, όπου: x i = 1, αν ο i-οστός όρος περιέχεται στο έγγραφο, x i = 0 διαφορετικά. Η εκτίμηση της πιθανότητας P(d R) γίνεται χρησιμοποιώντας την πιθανότητα P(x R). 1. Αν οι όροι είναι ανεξάρτητοι τότε: P(x R) = P(x 1 R) P(x 2 R)... P(x n R) = P(x 1 R) P(x 2 R)... P(x n R) = Π P(x i R) P(xi R) είναι η πιθανότητα ο όρος x i να βρίσκεται σε ένα έγγραφο που επιλέγεται τυχαία από το σύνολο R. Αντίστοιχα για το P(x i R) Το μοντέλο αυτό είναι γνωστό και ως Naive Bayes. 19

Συνάρτηση Ομοιότητας 2. 20

Συνάρτηση Ομοιότητας 21

Συνάρτηση Ομοιότητας Με λογαρίθμηση της σχέσης και αγνοώντας τους σταθερούς παράγοντες, η συνάρτηση ομοιότητας S prob (q,d) παίρνει τη μορφή: όπου η άθροιση αφορά στους όρους που βρίσκονται και στο ερώτημα και στο έγγραφο. 22

Σχέση με το Διανυσματικό Μοντέλο Στο Διανυσματικό μοντέλο ανάκτησης θεωρήσαμε ότι η i-οστή συνιστώσα του διανύσματος ενός εγγράφου ισούται με την ποσότητα: ενώ το διάνυσμα του ερωτήματος q ισούται με άσσους για τους όρους που ανήκουν στο ερώτημα και μηδενικά διαφορετικά. Τότε, η συνάρτηση ομοιότητας S prob (q,d) ισούται με το εσωτερικό γινόμενο των δύο διανυσμάτων. Αλλάζουμε μόνο τον τρόπο που υπολογίζονται τα βάρη! 23

Αρχική Εκτίμηση των P(x i R) Αρχικά θέτουμε τιμές στις πιθανότητες : όπου: p i = P(x i R) = c r i = P(x i R) = n i / N c είναι μία τυχαία σταθερά (π.χ., 0,5) ίδια για όλους τους όρους (δεν επηρεάζουν) n i είναι το πλήθος των εγγράφων που περιέχουν τον i-οστό όρο N πλήθος εγγράφων συλλογής (document frequency) p i πιθανότητα ότι ένα έγγραφο που επιλέγεται από το ιδανικό σύνολο έχει τον όρο x i r i το ίδιο για το μη ιδανικό 24

Προσαρμογή Τιμών των P(x i R) Είναι προφανές ότι η αυθαίρετη ανάθεση τιμών δεν μπορεί να οδηγεί πάντα σε ικανοποιητικά αποτελέσματα! Για τη βελτίωση της ποιότητας των αποτελεσμάτων οι πρώτες εφαρμογές του Πιθανοτικού μοντέλου χρειαζόταν την παρέμβαση του χρήστη για την αναπροσαρμογή των τιμών. Εναλλακτικά μπορεί να χρησιμοποιηθεί και αυτοματοποιημένος τρόπος: αρχικά εκτελείται το ερώτημα με τις αρχικές εκτιμήσεις. Επιλέγονται τα k καλύτερα έγγραφα. Έστω k i ο αριθμός των εγγράφων που περιέχουν τον i-οστό όρο. Θέτουμε: p i = P(x i R) = k i / k r i = P(x i R) = (n i - k i ) / (N - k) 25

Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα 1. Απλό μοντέλο. 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά. 3. Αρκετοί ερευνητές έχουν υποστηρίξει ότι το πιθανοτικό μοντέλο υπερτερεί του vector space. 26

Πλεονεκτήματα-Μειονεκτήματα Μειονεκτήματα 1. Χρειάζεται να μαντέψουμε το αρχικό σύνολο σχετικών και μη-σχετικών κειμένων. 2. Δεν λαμβάνεται υπόψη η συχνότητα εμφάνισης των όρων στα κείμενα. 3. Οι όροι/keywords θεωρούνται ανεξάρτητοι μεταξύ τους. 27

Ερωτήσεις - Απορίες 28