Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Πιθανοκρατικό μοντέλο

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Ανάκτηση Πληροφορίας

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Το Πι ανοκρατικό Μοντέ ο

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Ανάκτηση Πληροφορίας

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Ανάκτηση Πληροφορίας

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ανάκτηση Πληροφορίας Εισαγωγή

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2010 ΕΚΦΩΝΗΣΕΙΣ

Θέματα Συστημάτων Πολυμέσων

Αιτιολόγηση με αβεβαιότητα

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

Οι μελέτες φυσικών φαινομένων ή πραγματικών προβλημάτων καταλήγουν είτε σεπροσδιοριστικά

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Μαθηματικά Πληροφορικής Πιθανοτικά Εργαλεία. Υποπροσθετικότητα. Η Πιθανοτική Μέθοδος (The Probabilistic Method)

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Ανάκτηση Πληροφορίας

HMY 795: Αναγνώριση Προτύπων

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Ανάκτηση πληροφορίας

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

Παραδείγματα (2) Διανυσματικοί Χώροι

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Ασκήσεις3 Διαγωνίσιμες Γραμμικές Απεικονίσεις

Ανάκτηση πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

P (A B) = P (AB) P (B) P (A B) = P (A) P (A B) = P (A) P (B)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Μέθοδος μέγιστης πιθανοφάνειας

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

HMY 795: Αναγνώριση Προτύπων

Ανάκτηση Δεδομένων (Information Retrieval)

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 3ο: ΠΙΘΑΝΟΤΗΤΕΣ ΘΕΜΑ Α. α) Τι λέγεται δειγματικός χώρος και τι ενδεχόμενο ενός πειράματος τύχης;

Information Retrieval

Μέρος ΙΙ. Τυχαίες Μεταβλητές

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Πιθανότητες και Στοχαστικές ιαδικασίες Θόρυβος µετρήσεων είκτης Χρηµατιστηρίου Σήµα Πληροφορίας (φωνή, data) Ατµοσφαιρικός Θόρυβος Πως δηµιουργείται

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

Ασκήσεις3 Διαγωνισιμότητα Βασικά σημεία Διαγωνίσιμοι πίνακες: o Ορισμός και παραδείγματα.

ΕΜΒΟΛΙΜΗ ΠΑΡΑΔΟΣΗ ΜΑΘΗΜΑΤΙΚΩΝ. Μερικές βασικές έννοιες διανυσματικού λογισμού

Μέθοδος μέγιστης πιθανοφάνειας

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method)

Information Retrieval

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Μία απεικόνιση από ένα διανυσματικό χώρο V στον εαυτό του, L : V V την ονομάζουμε γραμμικό τελεστή στο V (ή ενδομορφισμό του V ). Ορισμός. L : V V γρα

Διαδικασιακός Προγραμματισμός

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δρ. Π. Νικολαΐδου

1. Financial New Times Year MAXk {FREQij} D D D D

HMY 795: Αναγνώριση Προτύπων

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

Τυχαία μεταβλητή είναι μία συνάρτηση ή ένας κανόνας που αντιστοιχίζει ένα αριθμό σε κάθε αποτέλεσμα ενός πειράματος.

Αν ένα πρόβλημα λύνεται από δύο ή περισσότερους αλγόριθμους, ποιος θα είναι ο καλύτερος; Με ποια κριτήρια θα τους συγκρίνουμε;

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

ΑΠΑΝΤΗΣΕΙΣ ΙΟΥΛΙΟΥ Β. α. ΛΑΘΟΣ, β. ΣΩΣΤΟ, γ. ΣΩΣΤΟ, δ. ΛΑΘΟΣ, ε. ΣΩΣΤΟ, στ. ΣΩΣΤΟ. α = 1 δ. im( f (x) x ) = im - 2βx x = - 4β 8 = 4α - 32β =

Επαναληπτικό Διαγώνισµα Μαθηµατικά Γενικής Παιδείας Γ Λυκείου

Τηλεπικοινωνιακά Συστήματα ΙΙ

Ανάκτηση πληροφορίας

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Τμήμα Πληροφορικής ΑΠΘ

Ασκήσεις μελέτης της 16 ης διάλεξης

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΠΑΝΑΛΗΠΤΙΚΗ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ 5 Ιουλίου 2009

Αθανάσιος Χρ. Τζέμος Τομέας Θεωρητικής Φυσικής. Εντροπία Shannon

P(Ο Χρήστος κερδίζει) = 1 P(Ο Χρήστος χάνει) = 1 P(X > Y ) = 1 2. P(Ο Χρήστος νικά σε 7 από τους 10 αγώνες) = 7

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΡΓΑΣΙΕΣ 4 ου ΚΕΦΑΛΑΙΟΥ. 1 η Ομάδα: Ερωτήσεις πολλαπλής επιλογής

ΓΕΝΙΚΟ ΛΥΚΕΙΟ Λ. ΑΙΔΗΨΟΥ ΣΧΟΛ. ΕΤΟΣ ΓΡΑΠΤΕΣ ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΠΕΡΙΟΔΟΥ ΜΑΪΟΥ ΙΟΥΝΙΟΥ ΑΛΓΕΒΡΑ Α ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Διάλεξη 04: Παραδείγματα Ανάλυσης

HMY 795: Αναγνώριση Προτύπων

ΘΕΜΑ 3 Το ύψος κύματος (σε μέτρα) σε μία συγκεκριμένη θαλάσσια περιοχή είναι τυχαία μεταβλητή X με συνάρτηση πυκνότητας πιθανότητας

Τι (άλλο) θα δούμε σήμερα;

Εξόρυξη πληροφορίας από ιατρικά επιστημονικά κείμενα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Μάθηµα 3 ο b. Από Κοινού Κατανοµή Τυχαίων Μεταβλητών

Επιχειρησιακά Μαθηματικά (1)

Transcript:

Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική Άλγεβρα Πιθανοκρατικό (Probabilistic) που βασίζεται στη Θεωρία Πιθανοτήτων Τα δύο πρώτα μοντέλα έχουν ήδη εξεταστεί. Τονίζεται επίσης, ότι το Διανυσματικό και το Πιθανοκρατικό έχουν σημαντική επικάλυψη αν και στηρίζονται σε εντελώς διαφορετικές θεωρίες. 1

Πιθανοκρατικό Μοντέλο Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Πιθανοκρατικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο εγγράφων. Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά. 2

Ανεξάρτητες Μεταβλητές και Πιθανότητα υπό Συνθήκη Έστω a, και b δύο γεγονότα με πιθανότητες να συμβούν P(a) και P(b) αντίστοιχα. Ανεξάρτητα Γεγονότα Τα γεγονότα a και b είναι ανεξάρτητα αν και μόνο αν: P(a b) = P(b) P(a) Υπό Συνθήκη Πιθανότητα P(a b) είναι η πιθανότητα του a δεδομένου του b. Τα γεγονότα a 1,..., a n καλούνται υπό συνθήκη ανεξάρτητα αν και μόνο αν: P(a i a j ) = P(a i ) για όλα τα i και j Παράδειγμα Ι a είναι η άρνηση του γεγονότος a a a b w x z y b P(a) = x + y P(b) = w + x P(a b) = x / (w + x) P(a b) P(b) = P(a b) = P(b a) P(a) 3

Παράδειγμα ΙΙ Ανεξάρτητα γεγονότα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια. Ισχύει: P(a=5 b=3) = P(a=5) = 1 /6 Μη ανεξάρτητα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια και t το άθροισμά τους. Τότε ισχύει: t = a + b P(t=8 a=2) = 1 /6 P(t=8 a=1) = 0 Θεώρημα του Bayes Έστω a και b δύο γεγονότα. P(a b) είναι η πιθανότητα να συμβεί το γεγονός a δεδομένου ότι έχει συμβεί το γεγονός b. Θεώρημα Bayes P(b a) P(a) P(a b) = P(b) Ισχύει επίσης ότι: P(a b) P(b) = P(a b) = P(b a) P(a) 4

Θεώρημα Bayes: παράδειγμα Example a βάρος πάνω από 100 κιλά b ύψος πάνω από 2 μέτρα. P(a b) = x / (w+x) = x / P(b) P(b a) = x / (x+y) = x / P(a) x = P(a b) > 100 κιλά > 2 μέτρα w x z y Αρχή Πιθανοκρατικής Βαθμολόγησης "If a reference retrieval system s response to each request is a ranking of the documents in the collections in order of decreasing probability of usefulness to the user who submitted the request, where the probabilities are estimated as accurately a possible on the basis of whatever data is made available to the system for this purpose, then the overall effectiveness of the system to its users will be the best that is obtainable on the basis of that data." εάν η απάντηση ενός συστήματος ανάκτησης σε κάθε ερώτημα είναι μία λίστα εγγράφων ταξινομημένη με φθίνουσα διάταξη ως προς την πιθανότητα σχετικότητας του κάθε εγγράφου ως προς το χρήστη, όπου οι πιθανότητες υπολογίζονται όσο γίνεται ακριβέστερα με βάση τα δεδομένα που είναι διαθέσιμα, ησυνολική αποτελεσματικότητα του συστήματος θα είναι η καλύτερη δυνατή W.S. Cooper 5

Πιθανοκρατική Βαθμολόγηση Για ένα δεδομένο ερώτημα, εάν γνωρίζουμε κάποια από τα σχετικά έγγραφα, όροι που εμφανίζονται σε αυτά θα πρέπει να έχουν μεγαλύτερη βαρύτητα κατά την αναζήτηση άλλων σχετικών εγγράφων. Κάνοντας διάφορες παραδοχές σχετικά με την κατανομή των όρων και χρησιμοποιώντας το θεώρημα του Bayes είναι δυνατόν να υπολογίσουμε τα βάρη αυτά. Van Rijsbergen Βασικές Έννοιες Η πιθανότητα ένα έγγραφο να είναι σχετικό ως προς το ερώτημα θεωρείται ότι εξαρτάται μόνο από τους όρους που περιέχονται στο έγγραφο και από τους όρους που περιέχονται στο ερώτημα. Η σχετικότητα ενός εγγράφου d ως προς το ερώτημα q δεν εξαρτάται από τη σχετικότητα άλλων εγγράφων της συλλογής. Για κάποιο ερώτημα q το σύνολο των σχετικών εγγράφων R είναι το ιδανικό σύνολο που μπορούμε να έχουμε ως απάντηση. 6

Βασικές Έννοιες Για ένα ερώτημα q και ένα έγγραφο d το πιθανοκρατικό μοντέλο χρειάζεται μία εκτίμηση για την πιθανότητα P(R d) που δηλώνει την πιθανότητα το έγγραφο d να είναι σχετικό ως προς το ερώτημα. Μέτρο Ομοιότητας: S(q, d), ομοιότητα του εγγράφου d ως προς το ερώτημα q: πιθανότητα d σχετικό P(R d) = πιθανότητα d μη σχετικό P( R d) Οι τιμές της S( ) μπορεί να είναι από πολύ μικρές έως πολύ μεγάλες και γι αυτό χρησιμοποιείται συνήθως ο λογάριθμος για την άμβλυνση των διαφορών. Βασικές Έννοιες S (q, d) = P(R d) P(R d) P(d R) P(R) = P(d R) P(R) θεώρημα Bayes = P(d R) P(d R) x k k μία σταθερά P(d R) είναι η πιθανότητα να διαλέξουμε τυχαία το d από το R. 7

Βασικές Έννοιες Ανάκτηση Δυαδικής Ανεξαρτησίας (binary independence retrieval ) Τα βάρη των όρων είναι δυαδικά και οι όροι είναι ανεξάρτητοι μεταξύ τους (η παρουσίαήμη κάποιου όρου δεν επηρεάζει τους υπόλοιπους). Το βάρος ενός όρου σε ένα έγγραφο είναι είτε 1 (αν ο όρος περιέχεται στο έγγραφο) είτε 0 (σε διαφορετική περίπτωση). Όπως και στο Λογικό αλλά και στο Διανυσματικό μοντέλο, η σχετικότητα ενός εγγράφου καθορίζεται από τους όρους που περιέχονται σε αυτό. Naïve Bayes Έστω x = (x 1, x 2,... x n ) το διάνυσμα του εγγράφου d όπου x i = 1 αν ο i-οστός όρος περιέχεται στο έγγραφο, x i = 0 διαφορετικά. Η εκτίμηση της πιθανότητας P(d R) γίνεται χρησιμοποιώντας την πιθανότητα P(x R) Εάν οι όροι είναι ανεξάρτητοι τότε: P(x R) = P(x 1 R) P(x 2 R)... P(x n R) = P(x 1 R) P(x 2 R)... P(x n R) = P(x i R) P(x i R) είναι η πιθανότητα ο όρος x i να βρίσκεται σε ένα έγγραφο που επιλέγεται τυχαία από το σύνολο R. Το μοντέλο αυτό είναι γνωστό και ως Naive Bayes. 8

Συνάρτηση Ομοιότητας S(q, d) = k P(x i R) P(x i R) Αφού το κάθε x i είναι 0 ή 1 έχουμε: P(x i = 1 R) P(x i = 0 R) S = k x i = 1 P(x i = 1 R) x i = 0 P(x i = 0 R) Συνάρτηση Ομοιότητας Για τους όρους που εμφανίζονται στο ερώτημα θέτουμε: p i = P(x i = 1 R) r i = P(x i = 1 R) Για τους όρους που δεν εμφανίζονται στο ερώτημα έστω: p i = r i όροι με q i = 0 είναι ίσοι με p i /r i = 1 S = k = k p i 1 - p i x i = q i = 1 r i x i = 0, q i = 1 1 - r i p i (1 - r i ) 1 - p i x i = q i = 1 r i (1 - p i ) q i = 1 1 - r i σταθερή ποσότητα για δεδομένο ερώτημα 9

Συνάρτηση Ομοιότητας Με λογαρίθμηση της σχέσης και αγνοώντας σταθερούς παράγοντες η συνάρτηση ομοιότητας S prob (q,d) παίρνει τη μορφή: S prob (q,d) = log (S(q,d)) S prob ( q, d) = pi (1 ri ) log r (1 p ) Όπου η άθροιση αφορά στους όρους που βρίσκονται και στo ερώτημα και στο έγγραφο. i i i Σχέση με το Διανυσματικό Μοντέλο Στο Διανυσματικό μοντέλο ανάκτησης θεωρήστε ότι η i-οστή συνιστώσα του διανύσματος ενός εγγράφου ισούται με την ποσότητα pi (1 ri ) log r (1 p ) ενώ το διάνυσμα του ερωτήματος q ισούται με άσσους για τους όρους που ανήκουν στο ερώτημα και μηδενικά διαφορετικά. Τότε, η συνάρτηση ομοιότητας S prob (q,d) ισούται με το εσωτερικό γινόμενο των δύο διανυσμάτων. i i 10

Αρχική Εκτίμηση των P(x i R) Αρχικά θέτουμε τιμές στις πιθανότητες : όπου: p i = P(x i R) = c r i = P(x i R) = n i / N c είναι μία τυχαία σταθερά (π.χ., 0.5) n i είναι το πλήθος των εγγράφων που περιέχουν τον i- οστό όρο N πλήθος εγγράφων συλλογής Προσαρμογή Τιμών των P(x i R) Είναι προφανές ότι η αυθαίρετη ανάθεση τιμών δεν μπορεί να οδηγεί πάντα σε ικανοποιητικά αποτελέσματα. Για τη βελτίωση της ποιότητας των αποτελεσμάτων οι πρώτες εφαρμογές του Πιθανοκρατικού μοντέλου χρειαζόταν την παρέμβαση του χρήστη για την αναπροσαρμογή των τιμών. Εναλλακτικά μπορεί να χρησιμοποιηθεί και αυτοματοποιημένος τρόπος. Αρχικά εκτελείται το ερώτημα με τις αρχικές εκτιμήσεις. Επιλέγονται τα k καλύτερα έγγραφα. Έστω k i ο αριθμός των εγγράφων που περιέχουν τον i-οστό όρο. Θέτουμε: p i = P(x i R) = k i / k r i = P(x i R) = (n i - k i ) / (N - k) 11

Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα: 1. Απλό μοντέλο 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήματα: 1. Χρειάζεται να μαντέψουμε 2. Δε λαμβάνεται υπ όψιν η συχνότητα εμφάνισης 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα Βιβλιογραφία Maron, M.E. and Kuhns, J.L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the ACM, 7, pp. 216-244, 1960. Robertson, S.E. The Probability Ranking Principle in IR, Journal of Documentation, 33, pp. 294-304, 1977. Fuhr, Ν. Probabilistic Models in Information Retrieval. Computer Journal. 35 (3), pp. 243-55, 1992. Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval, Addison Wesley, 1999. Manning, C.D. and Raghavan, P. and Schutze, H. An Introduction to Information Retrieval, Cambridge University Press, 2007. 12