Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Θεωρία Πιθανοτήτων & Στατιστική

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανάκτηση Πληροφορίας

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Ανάκτηση Πληροφορίας

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΧΡΗΣΗ Η/Υ

Θεωρία Πιθανοτήτων & Στατιστική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Θεωρία Πιθανοτήτων & Στατιστική

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Θεωρία Πιθανοτήτων & Στατιστική

Ανάκτηση Πληροφορίας

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ανάκτηση Πληροφορίας

Πιθανοκρατικό μοντέλο

Ιόνιο Πανεπιστήμιο - Τμήμα Πληροφορικής

Λογική Δημήτρης Πλεξουσάκης Ασκήσεις στον Κατηγορηματικό Λογισμό Τμήμα Επιστήμης Υπολογιστών

Θεωρία Πιθανοτήτων & Στατιστική

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Συστήματα Αυτομάτου Ελέγχου. Ενότητα Α: Γραμμικά Συστήματα

Θεωρία Πιθανοτήτων & Στατιστική

Υπολογιστικά & Διακριτά Μαθηματικά

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Άλγεβρα των Πινάκων (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Στατιστική Επιχειρήσεων Ι

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Ανάκτηση πληροφορίας

Μαθηματικά και Φυσική με Υπολογιστές

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Λογισμός 3 Ασκήσεις. Μιχάλης Μαριάς Τμήμα Α.Π.Θ.

Γενικά Μαθηματικά ΙΙ

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Μαθηματικά. Ενότητα 6: Ασκήσεις Ορίων Συνάρτησης. Σαριαννίδης Νικόλαος Τμήμα Λογιστικής και Χρηματοοικονομικής

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Στατιστική Επιχειρήσεων Ι

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Στατιστική Ι. Ενότητα 3: Πιθανότητες. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Εισαγωγή Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανάκτηση Πληροφορίας

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (2) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Θέματα Συστημάτων Πολυμέσων

Ανάκτηση πληροφορίας

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Ηλεκτρονικοί Υπολογιστές

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ

Θεωρία Πιθανοτήτων & Στατιστική

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Υπολογιστικά Συστήματα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Συνδυαστική Ανάλυση Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

Εισαγωγή στις Τηλεπικοινωνίες

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Μοντελοποίηση Λογικών Κυκλωμάτων

Στατιστική Ι. Ενότητα 5: Θεωρητικές Κατανομές Πιθανότητας. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Θεωρία Πιθανοτήτων & Στατιστική

ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ

Θέματα Συστημάτων Πολυμέσων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Ηλεκτρονικοί Υπολογιστές I

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Τίτλος Μαθήματος: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ

Εισαγωγή στους Αλγορίθμους

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

Στατιστική Επιχειρήσεων

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Συναρτήσεις πολλών μεταβλητών Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Ηλεκτρονικοί Υπολογιστές I

Βέλτιστος Έλεγχος Συστημάτων

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Λογισμός 3. Ενότητα 1: Τοπολογία των Ευκλείδειων χώρων. Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Αυτοματοποιημένη χαρτογραφία

ΣΥΝΑΡΤΗΣΕΙΣ ΠΟΛΛΩΝ ΜΕΤΑΒΛΗΤΩΝ- ΜΕΘΟΔΟΣ ΕΠΙΛΥΣΗΣ ΠΡΟΒΛΗΜΑΤΩΝ

Θεωρία Πιθανοτήτων & Στατιστική

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Υπολογιστικά & Διακριτά Μαθηματικά

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

7 ο ΕΡΓΑΣΤΗΡΙΟ ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Transcript:

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1

Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Πιθανότητες και Ανάκτηση Πληροφορίας Στα παραδοσιακά συστήματα IR, το ταίριασμα μεταξύ του query και των κειμένων γίνεται σε ένα σημασιολογικά ανακριβή χώρο όρων δεικτοδότησης. Οι πιθανότητες παρέχουν ένα αξιωματικό σχήμα για αβέβαιο συλλογισμό. Μπορούμε να τις χρησιμοποιήσουμε για να ποσοτικοποιήσουμε την αβεβαιότητα; 4

Βασική Ιδέα Έχουμε μια συλλογή εγγράφων/κειμένων. Ο χρήστης θέτει ένα ερώτημα/query. Αρχικά επιστρέφεται (με κάποιο τρόπο) ένα σύνολο εγγράφων/κειμένων. Ο χρήστης εξετάζει τα έγγραφα/κείμενα αναζητώντας σχετικά έγγραφα/κείμενα (συνήθως, αρκεί να εξετάσει τα 10-20 πρώτα ). Το σύστημα IR χρησιμοποιεί την ανατροφοδότηση (feedback) του χρήστη, ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο εγγράφων/κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων βελτιώνεται. 5

Πιθανοτικό Μοντέλο Στόχος: Η περιγραφή του ιδανικού συνόλου κειμένων να γίνεται πιθανοτικά! να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο! Η μέθοδος κατάταξης (ranking) είναι καίριας σημασίας σε ένα σύστημα IR: Με ποια σειρά παρουσιάζουμε τα κείμενα στον χρήστη; Θέλουμε το «καλύτερο» κείμενο πρώτο!! Ιδέα: κατέταξε τα κείμενα ανάλογα με την πιθανότητα να είναι σχετικά, δεδομένου του query. P(relevant document i, query) 6

Πιθανοτικό Μοντέλο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί! Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Προτάθηκε αρχικά από τους Robertson και Sparck Jones το 1976. 7

Ανεξάρτητες Μεταβλητές και Πιθανότητα υπό Συνθήκη Έστω a και b δύο γεγονότα με πιθανότητες να συμβούν: P(a) και P(b) Ανεξάρτητα Γεγονότα Τα γεγονότα a και b είναι ανεξάρτητα, αν και μόνο αν: P(a b) = P(b) P(a) «ανεξάρτητα» = όταν συμβαίνει το ένα, δεν μας δίνει καμία πληροφορία για το άλλο! Υπό Συνθήκη Πιθανότητα P(a b) είναι η πιθανότητα του a δεδομένου του b: P(a b) = P(a b) / P(b) Τα γεγονότα a 1,..., a n καλούνται υπό συνθήκη ανεξάρτητα, αν και μόνο αν: P(a i a j ) = P(a i ), για όλα τα i και j 8

Παράδειγμα 1 9

Παράδειγμα 2 Ανεξάρτητα γεγονότα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια. Ισχύει: P(a=5 b=3) = P(a=5) = 1/6 Μη ανεξάρτητα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια και t το άθροισμά τους. Τότε ισχύει: t = a + b P(t=8 a=2) = 1/6 P(t=8 a=1) = 0 10

Θεώρημα του Bayes Έστω a και b δύο γεγονότα. P(a b) είναι η πιθανότητα να συμβεί το γεγονός a δεδομένου ότι έχει συμβεί το γεγονός b. Θεώρημα Bayes P(a b) = ( P(b a) P(a) ) / P(b) Ισχύει επίσης ότι: P(a b) P(b) = P(a b) = P(b a) P(a) 11

Θεώρημα Bayes: παράδειγμα 12

Αρχή Πιθανοτικής Βαθμολόγησης Αν η απάντηση ενός συστήματος IR σε κάθε ερώτημα είναι μία λίστα εγγράφων ταξινομημένη με φθίνουσα διάταξη ως προς την πιθανότητα σχετικότητας του κάθε εγγράφου ως προς το χρήστη, όπου οι πιθανότητες υπολογίζονται όσο γίνεται ακριβέστερα με βάση τα δεδομένα που είναι διαθέσιμα, η συνολική αποτελεσματικότητα του συστήματος θα είναι η καλύτερη δυνατή. 13

Πιθανοκρατική Βαθμολόγηση Για ένα δεδομένο ερώτημα, εάν γνωρίζουμε κάποια από τα σχετικά έγγραφα, όροι που εμφανίζονται σε αυτά θα πρέπει να έχουν μεγαλύτερη βαρύτητα κατά την αναζήτηση άλλων σχετικών εγγράφων. Κάνοντας διάφορες παραδοχές σχετικά με την κατανομή των όρων και χρησιμοποιώντας το θεώρημα του Bayes, είναι δυνατόν να υπολογίσουμε τα βάρη αυτά. Van Rijsbergen 14

Βασικές έννοιες μοντέλου 1/4 Η πιθανότητα ένα έγγραφο να είναι σχετικό ως προς το ερώτημα θεωρείται ότι εξαρτάται μόνο: α) από τους όρους που περιέχονται στο έγγραφο και β) από τους όρους που περιέχονται στο ερώτημα. Η σχετικότητα ενός εγγράφου d ως προς το ερώτημα q δεν εξαρτάται από τη σχετικότητα άλλων εγγράφων της συλλογής. Για κάποιο ερώτημα q το σύνολο των σχετικών εγγράφων R είναι το ιδανικό σύνολο που μπορούμε να έχουμε ως απάντηση. 15

Βασικές έννοιες μοντέλου 2/4 Για ένα ερώτημα q και ένα έγγραφο d το πιθανοτικό μοντέλο χρειάζεται μία εκτίμηση για την πιθανότητα P(R d) που δηλώνει την πιθανότητα το έγγραφο d να είναι σχετικό ως προς το ερώτημα. Μέτρο Ομοιότητας (odds of being relevant to q): S(q, d): ομοιότητα του εγγράφου d ως προς το ερώτημα q: πιθανότητα d σχετικό με το ερώτημα P(R d) πιθανότητα d μη σχετικό με το ερώτημα P( R d) = Οι τιμές της S( ) μπορεί να είναι από πολύ μικρές έως πολύ μεγάλες και γι αυτό χρησιμοποιείται συνήθως ο λογάριθμος για την άμβλυνση των διαφορών. 16

Βασικές έννοιες μοντέλου 3/4 P(R d) = ( P(d R) P(R) ) P(d) Άρα, πρέπει να εκτιμήσουμε/υπολογίσουμε αυτές τις πιθανότητες. Πως; Κοιτάμε τους όρους (terms) x i που εμφανίζονται στο d! 17

Βασικές έννοιες μοντέλου 4/4 Ανάκτηση Δυαδικής Ανεξαρτησίας (Binary Independence Retrieval) 1. «Τα βάρη των όρων είναι δυαδικά και οι όροι είναι ανεξάρτητοι μεταξύ τους (η παρουσία ή μη κάποιου όρου δεν επηρεάζει τους υπόλοιπους)». 2. «Το βάρος ενός όρου σε ένα έγγραφο είναι είτε 1 (αν ο όρος περιέχεται στο έγγραφο), είτε 0 (σε διαφορετική περίπτωση)». Όπως και στο Διανυσματικό μοντέλο, η σχετικότητα ενός εγγράφου καθορίζεται από τους όρους που περιέχονται σε αυτό. 18

Naïve Bayes Έστω x = (x 1, x 2,... x n ) το διάνυσμα του εγγράφου d, όπου: x i = 1, αν ο i-οστός όρος περιέχεται στο έγγραφο, x i = 0 διαφορετικά. Η εκτίμηση της πιθανότητας P(d R) γίνεται χρησιμοποιώντας την πιθανότητα P(x R). 1. Αν οι όροι είναι ανεξάρτητοι τότε: P(x R) = P(x 1 R) P(x 2 R)... P(x n R) = P(x 1 R) P(x 2 R)... P(x n R) = Π P(x i R) P(xi R) είναι η πιθανότητα ο όρος x i να βρίσκεται σε ένα έγγραφο που επιλέγεται τυχαία από το σύνολο R. Αντίστοιχα για το P(x i R) Το μοντέλο αυτό είναι γνωστό και ως Naive Bayes. 19

Συνάρτηση Ομοιότητας 2. 20

Συνάρτηση Ομοιότητας 21

Συνάρτηση Ομοιότητας Με λογαρίθμηση της σχέσης και αγνοώντας τους σταθερούς παράγοντες, η συνάρτηση ομοιότητας S prob (q,d) παίρνει τη μορφή: όπου η άθροιση αφορά στους όρους που βρίσκονται και στο ερώτημα και στο έγγραφο. 22

Σχέση με το Διανυσματικό Μοντέλο Στο Διανυσματικό μοντέλο ανάκτησης θεωρήσαμε ότι η i-οστή συνιστώσα του διανύσματος ενός εγγράφου ισούται με την ποσότητα: ενώ το διάνυσμα του ερωτήματος q ισούται με άσσους για τους όρους που ανήκουν στο ερώτημα και μηδενικά διαφορετικά. Τότε, η συνάρτηση ομοιότητας S prob (q,d) ισούται με το εσωτερικό γινόμενο των δύο διανυσμάτων. Αλλάζουμε μόνο τον τρόπο που υπολογίζονται τα βάρη! 23

Αρχική Εκτίμηση των P(x i R) Αρχικά θέτουμε τιμές στις πιθανότητες : όπου: p i = P(x i R) = c r i = P(x i R) = n i / N c είναι μία τυχαία σταθερά (π.χ., 0,5) ίδια για όλους τους όρους (δεν επηρεάζουν) n i είναι το πλήθος των εγγράφων που περιέχουν τον i-οστό όρο N πλήθος εγγράφων συλλογής (document frequency) p i πιθανότητα ότι ένα έγγραφο που επιλέγεται από το ιδανικό σύνολο έχει τον όρο x i r i το ίδιο για το μη ιδανικό 24

Προσαρμογή Τιμών των P(x i R) Είναι προφανές ότι η αυθαίρετη ανάθεση τιμών δεν μπορεί να οδηγεί πάντα σε ικανοποιητικά αποτελέσματα! Για τη βελτίωση της ποιότητας των αποτελεσμάτων οι πρώτες εφαρμογές του Πιθανοτικού μοντέλου χρειαζόταν την παρέμβαση του χρήστη για την αναπροσαρμογή των τιμών. Εναλλακτικά μπορεί να χρησιμοποιηθεί και αυτοματοποιημένος τρόπος: αρχικά εκτελείται το ερώτημα με τις αρχικές εκτιμήσεις. Επιλέγονται τα k καλύτερα έγγραφα. Έστω k i ο αριθμός των εγγράφων που περιέχουν τον i-οστό όρο. Θέτουμε: p i = P(x i R) = k i / k r i = P(x i R) = (n i - k i ) / (N - k) 25

Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα 1. Απλό μοντέλο. 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά. 3. Αρκετοί ερευνητές έχουν υποστηρίξει ότι το πιθανοτικό μοντέλο υπερτερεί του vector space. 26

Πλεονεκτήματα-Μειονεκτήματα Μειονεκτήματα 1. Χρειάζεται να μαντέψουμε το αρχικό σύνολο σχετικών και μη-σχετικών κειμένων. 2. Δεν λαμβάνεται υπόψη η συχνότητα εμφάνισης των όρων στα κείμενα. 3. Οι όροι/keywords θεωρούνται ανεξάρτητοι μεταξύ τους. 27

Ερωτήσεις - Απορίες 28