ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Σχετικά έγγραφα
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας.

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Πιθανοκρατικό μοντέλο

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Information Retrieval

Τι (άλλο) θα δούμε σήμερα;

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ανάκτηση Πληροφορίας

Σύστημα Πλεονάσματος. Αναπαράσταση Πραγματικών Αριθμών. Αριθμητικές Πράξεις σε Αριθμούς Κινητής Υποδιαστολής

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Σύστημα Πλεονάσματος και Αναπαράσταση Αριθμών Κινητής Υποδιαστολής

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Έλεγχος Ανεξαρτησίας x2 του Pearson x2 του Pearson

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Δομές Δεδομένων και Αλγόριθμοι

Τηλεπικοινωνιακά Συστήματα ΙΙ

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Παλαιότερες ασκήσεις

ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Σ. ΖΗΜΕΡΑΣ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών- Χρηματοοικονομικών Μαθηματικών Σάμος

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Value at Risk (VaR) και Expected Shortfall

κ.λπ. Ισχύει πως x = 100. Οι διαφορετικές λύσεις αυτής της εξίσωσης χωρίς κανένα περιορισμό είναι

HMY 795: Αναγνώριση Προτύπων

07_Έλεγχος_Συχνοτήτων. Γούργουλης Βασίλειος Καθηγητής Τ.Ε.Φ.Α.Α. Σ.Ε.Φ.Α.Α. Δ.Π.Θ.

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Θεωρία Λήψης Αποφάσεων

Μέθοδος μέγιστης πιθανοφάνειας

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δυναμική Διατήρηση Γραμμικής Διάταξης

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

P (A B) = P (AB) P (B) P (A B) = P (A) P (A B) = P (A) P (B)

Ηρώων Πολυτεχνείου 9, Ζωγράφου, Αθήνα, Τηλ: , Fax: URL

n ίδια n διαφορετικά n n 0 n n n 1 n n n n 0 4

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

HMY 795: Αναγνώριση Προτύπων

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ

ΤΕΧΝΙΚΗ ΥΔΡΟΛΟΓΙΑ Πιθανοτική προσέγγιση των υδρολογικών μεταβλητών

Οργάνωση Υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στη θεωρία ακραίων τιμών

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

Κρυπτογραφία Δημοσίου Κλειδιού

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Κεφάλαιο 2 ο Βασικές Έννοιες Αλγορίθμων (σελ )

Στοιχεία Θεωρίας Αριθμών & Εφαρμογές στην Κρυπτογραφία

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Λήψη αποφάσεων κατά Bayes

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Θεωρία Υπολογισμού Άρτιοι ΑΜ. Διδάσκων: Σταύρος Κολλιόπουλος. eclass.di.uoa.gr. Περιγραφή μαθήματος

Θεωρία Υπολογισμού Αρτιοι ΑΜ Διδάσκων: Σταύρος Κολλιόπουλος eclass.di.uoa.gr

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Μηχανική Μάθηση: γιατί;

ΣΥΝΘΕΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

HMY 795: Αναγνώριση Προτύπων

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

#(A B) = (#A)(#B). = 2 6 = 1/3,

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Κεφάλαιο 5ο: Ακέραιος προγραμματισμός

Ελίνα Μακρή

HMY 795: Αναγνώριση Προτύπων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Λύσεις θεμάτων επαναληπτικών πανελληνίων εξετάσεων 2014 Στο μάθημα: «Μαθηματικά και Στοιχεία Στατιστικής» Γενικής Παιδείας ΗΜΕΡΗΣΙΑ ΓΕ.Λ.

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Παραδείγματα Απαλοιφή Gauss Απαλοιφή Gauss-Jordan Παραγοντοποίηση LU, LDU

Λύσεις των θεμάτων 22/04/2013. Προσομοίωση 1 Πανελαδικών Εξετάσεων 2013 στα «Μαθηματικά και Στοιχεία Στατιστικής» Γ ΓΕ.Λ και ΕΠΑ.Λ.

Επαναληπτικές Ασκήσεις. Ρίζου Ζωή

Έντυπο Yποβολής Αξιολόγησης ΓΕ

Τυχαία Διανύσματα και Ανεξαρτησία

Transcript:

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο : Πιθανοτική ανάκτηση πληροφορίας.

Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι συναφή με το ερώτημα Τυχαία μεταβλητή Διάταξη με βάση το P= d

Κεφ..2 Αρχή Πιθανοτικής Κατάταξης «Αν η απόκριση ενός συστήματος ανάκτησης πληροφορίας σε κάθε ερώτημα είναι η κατάταξη των εγγράφων κατά φθίνουσα πιθανότητα συνάφειας προς τον χρήστη που υπέβαλε το ερώτημα όπου οι πιθανότητες εκτιμώνται με τον ακριβέστερο δυνατό τρόπο βάσει των όποιων δεδομένων είναι διαθέσιμα στο σύστημα για τον σκοπό αυτό η συλλογική αποτελεσματικότητα είναι η βέλτιστη εφικτή με βάση αυτά τα δεδομένα» [van jsbegen 979] Pobablty ankng Pncle P: deceasng obablty of elevance => best oveall effectveness

Δυαδικό Μοντέλο Ανεξαρτησίας Bnay Indeendence Model BIP Θα αναπαραστήσουμε κάθε έγγραφο d και αντίστοιχα το ερώτημα ως ένα δυαδικό Boolean διάνυσμα M: #όρων M ανν το έγγραφο περιέχει τον όρο Υπόθεση ανεξαρτησίας όρων ndeendence assumton: Οι όροι εμφανίζονται στα έγγραφα ανεξάρτητα ο ένας από τον άλλο Επίσης η συνάφεια ενός εγγράφου είναι ανεξάρτητη από τη συνάφεια των άλλων εγγράφων ανεξαρτησία εγγράφων Κεφ..3

Επειδή μας ενδιαφέρει η διάταξη θα χρησιμοποιήσουμε τη σχετική πιθανότητα - odds 0 Δυαδικό Μοντέλο Ανεξαρτησίας 0 0 0 Από τον κανόνα του Bayes Κεφ..3

Δυαδικό Μοντέλο Ανεξαρτησίας Κεφ..3 0 0 0 Σταθερά για κάθε ερώτημα Εκ των προτέρων πιθανότητα o obablty να ανακτήσουμε συναφές μη συναφές ερώτημα Πρέπει να εκτιμήσουμε αυτήν την ποσότητα Αν έχουμε ανακτήσει ένα συναφές μη συναφές έγγραφο αυτό να έχει αναπαράσταση

Θα χρησιμοποιήσουμε την υπόθεση ανεξαρτησίας των όρων: η παρουσία ή απουσία ενός όρου σε ένα έγγραφο είναι ανεξάρτητη από την παρουσία ή απουσία οποιουδήποτε άλλου όρου Naïve Bayes condtonal ndeendent assumton M 0 0 Δυαδικό Μοντέλο Ανεξαρτησίας M 0 Άρα: Κεφ..3

Δυαδικό Μοντέλο Ανεξαρτησίας 0 0 0 0 0 Αφού τα είναι είτε είτε 0 χωρίζουμε το γινόμενο n 0 Κεφ..3

Δυαδικό Μοντέλο Ανεξαρτησίας Κεφ..3 Για τον όρο ορίζουμε ως την πιθανότητα να εμφανίζεται σε συναφές έγγραφο και ως την πιθανότητα να εμφανίζεται σε μη συναφές έγγραφο 0 Έγγραφο Συναφές = Μη συναφές =0 Όρος εμφανίζεται = Όρος δεν εμφανίζεται = 0

Δυαδικό Μοντέλο Ανεξαρτησίας 0 Κεφ..3 0 0 0 0 0

0 Δυαδικό Μοντέλο Ανεξαρτησίας Αν υποθέσουμε ότι οι όροι που δεν εμφανίζονται στο ερώτημα είναι το ίδιο πιθανό να εμφανίζονται σε συναφή και σε μη συναφή έγγραφα Κεφ..3

Οι όροι του ερωτήματος που εμφανίζονται Οι όροι του ερωτήματος που δεν εμφανίζονται Οι όροι του ερωτήματος που εμφανίζονται στο έγγραφο Όλοι οι όροι 0 0 Δυαδικό Μοντέλο Ανεξαρτησίας Μοιράζουμε το μεσαίο όρο = στα αριστερά και δεξιά είναι οι όροι του ερωτήματος που εμφανίζονται στο έγγραφο Κεφ..3

Σταθερά για κάθε ερώτημα Η μοναδική ποσότητα που πρέπει να εκτιμηθεί Θα χρησιμοποιήσουμε το αυτής της ποσότητας eteval Status Value SV τιμή κατάστασης ανάκτησης SV Δυαδικό Μοντέλο Ανεξαρτησίας Κεφ..3

SV c SV c Τιμή Κατάστασης Ανάκτησης SV Κεφ..3

Τιμή Κατάστασης Ανάκτησης SV Κεφ..3 SV c c Έγγραφο Συναφές = Μη συναφές =0 Όρος εμφανίζεται = Όρος δεν εμφανίζεται = 0 Τα c odd atos έχουν το ρόλο των βαρών σε αυτό το μοντέλο αθροιστικά για κάθε όρο της ερώτησης Για έναν όρο: 0 αν eual odds - η πιθανότητα να εμφανίζεται και να μην εμφανίζεται σε συναφές μη συναφές έγγραφο είναι ½ + αν > - εμφανίζεται σε περισσότερα συναφή και < εμφανίζεται σε λιγότερα μη συναφή Πως θα τα υπολογίσουμε;

Κεφ..3 Θεωρητική Εκτίμηση των SV συντελεστών Για κάθε όρο κατασκευάζουμε έναν πίνακα μετρητών Έστω Ν έγγραφα στη συλλογή S συναφή και ο όρος εμφανίζεται σε συνολικά σε n έγγραφα από τα οποία τα συναφή είναι s Έγγραφα Συναφή = Μη συναφή =0 Συνολικά = s n - s n = 0 S - s N n S s N - n S N - S N Εκτιμήσεις: c s S K N n S s n N n s S s S s s N n S s Αγνοεί τους όρους που δεν εμφανίζονται

Κεφ..3 Εκτίμηση των SV συντελεστών στην πράξη Αν τώρα υποθέσουμε ότι τα μη συναφή έγγραφα είναι περίπου όσα όλη η συλλογή τότε το η πιθανότητα εμφάνισης του όρου σε μη συναφές έγγραφο είναι n/n N n S n s s N n n N n IDF!

Εκτίμηση των SV συντελεστών στην πράξη To πιθανότητά εμφάνισης σε συναφή έγγραφα είναι πιο δύσκολο να εκτιμηθεί Πιθανοί τρόποι εκτίμησης του : Από συναφή έγγραφα αν κάποια από αυτά είναι γνωστά Με μία σταθερά τότε απλώς χρησιμοποιούμε το df wth =0.5 SV Ανάλογο των εμφανίσεων του όρου στη συλλογή έχει προταθεί: /3 + 2/3 df /N N n

Πιθανοτική Ανάδραση Συνάφειας elevance Feedback. Υποθέτουμε κάποιες αρχικές τιμές για τα και - τις οποίες χρησιμοποιούμε για να ανακτήσουμε ένα αρχικό σύνολο συναφών εγγράφων εγγράφων με = 2. Αλληλοεπιδρούμε με το χρήστη για να βελτιώσουμε αυτές τις τιμές: οι χρήστες χαρακτηρίζουν ένα σύνολο έγγραφων V ως συναφή = και μη συναφή = 0 3. Επανα-υπολογίζουμε τα και Ή τα συνδυάζουμε με τις αρχικές μας εκτιμήσεις χρήση Bayesan o: 2 V V 4. Επαναλαμβάνουμε έως σύγκλιση κ: o weght

PP και BIM + Λογικές προσεγγίσεις για τις πιθανότητες - Περιοριστικές υποθέσεις: Ανεξαρτησία όρων Ανεξαρτησία συνάφειας εγγράφων Οι όροι που δεν εμφανίζονται στο ερώτημα δεν επηρεάζουν το αποτέλεσμα Δυαδική αναπαράσταση αγνοούμε tf μήκος εγγράφου κλπ

Στάθμιση ka BM25 BM25 Best Match 25 Αναπτύχθηκε στα πλαίσια του συστήματος ka Πιθανοτικό μη δυαδικό μοντέλο που λαμβάνει υπόψη συχνότητες όρων και μήκη εγγράφων

Αρχικές Εκδοχές του BM25 Εκδοχή : c BM 25v tf = c BIM tf k + tf Εκδοχή 2 απλοποίηση με IDF: c k BM 25 v2 N tf df k tf tf k tunng παράμετρος = 0 no tf

Στάθμιση BM25 με Κανονικοποίηση με το Μήκους Εγγράφου Μεγαλύτερα έγγραφα πιο πιθανόν να έχουν μεγάλες τιμές tf Μεγάλα έγγραφα πλεονασμός vebosty το tf που παρατηρούμε είναι πού μεγάλο γενικότερου σκοπού το tf που παρατηρούμε μπορεί να είναι ακριβές Πρέπει να σταθμίσουμε αυτά τα δύο

Στάθμιση BM25 με Κανονικοποίηση με το Μήκους Εγγράφου Μήκος εγγράφου dl V tf B b b dl avdl avdl: μέσο μήκος εγγράφου στη συλλογή b - Συντελεστής κανονικοποίησης μήκους Κανονικοποίηση tf tf B

ka BM25 SV BM 25 N df k b b k ελέγχει τη διαβάθμιση της συχνότητα όρου tem feuency scalng k = 0 δυαδικό μοντέλο; k = μεγάλο μετράει η καθαρή συχνότητα b ελέγχει την κανονικοποίηση του μήκους εγγράφου b = 0 μη κανονικοποίηση; b = είναι η σχετική συχνότητα πλήρης κανονικοποίηση Συνήθως k στο.2 2 και το b γύρω στο 0.75 tf dl avdl tf Υπάρχουν και εκδοχές του BM25 που συμπεριλαμβάνουν και βάρη στους όρους του ερωτήματος καθώς και ανάδραση συνάφειας. k

ΤΕΛΟΣ τμήματος Κεφαλαίου Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Pabhaka aghavan CS276:Infomaton eteval and Web Seach Stanfod Hnch Schütze and Chstna Loma Stuttgat II class 26