9. Ανάδραση Συνάφειας και Διεύρυνση Ερωτημάτων

Σχετικά έγγραφα
Information Retrieval

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Information Retrieval

8. Η Αξιολόγηση στην Ανάκτηση Πληροφοριών

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας

Ανάκτηση Δεδομένων (Information Retrieval)

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Information Retrieval

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Information Retrieval

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Παλαιότερες ασκήσεις

ΜΥΕ03: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 8: Αξιολόγηση στην Ανάκτηση Πληροφορίας.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

(SEO) - Ανοίγοντας τους ορίζοντες τις ΜΜΕ Ελληνικής τουριστικής επιχείρησης στο ιαδίκτυο

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Ανάκτηση Πληροφορίας

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Πληροφοριακά Συστήματα


Πιθανοκρατικό μοντέλο

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ανάκτηση Πληροφορίας Εισαγωγή

Ανάκτηση πολυμεσικού περιεχομένου

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

SilverPlatter WebSPIRS 4.1.

Ανάκτηση Πληροφορίας

HMY 799 1: Αναγνώριση Συστημάτων

How to register an account with the Hellenic Community of Sheffield.

ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη8α: Αξιολόγηση στην Ανάκτηση Πληροφοριών. Πως ξέρουμε αν τα αποτελέσματα είναι καλά

Ανάκτηση Πληροφορίας

ΜΥΕ03: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 8: Αξιολόγηση στην Ανάκτηση Πληροφορίας.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

Ταξινόμηση: Εισαγωγικά. Ταξινόμηση (Sor ng) Αλγόριθμοι Απλής Ταξινόμησης. Βασικά Βήματα των Αλγορίθμων

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Προχωρημένες Λειτουργίες Επερώτησης Advanced Query Operations

ΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΔΙΚΤΥΑ Η/Υ

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Τεχνικές Εξόρυξης Δεδομένων

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΑΘΗΜΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΒΙΟ003 - Εισαγωγή στη Βιοπληροφορική 1 η Εργαστηριακή Άσκηση. Διαδικτυακές βιβλιογραφικές πηγές (Μοριακής) Βιολογίας και Βιοπληροφορικής

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Information Retrieval

ΔΥΣΚΟΛΙΑ ΣΤΗΝ ΑΝΑΓΝΩΣΗ ΔΥΣΚΟΛΙΑ ΜΕ ΤΗΝ ΟΡΘΟΓΡΑΦΙΑ ΔΥΣΑΝΑΓΝΩΣΤΑ ΓΡΑΜΜΑΤΑ ΧΑΜΗΛΗ ΦΩΝΟΛΟΓΙΚΗ ΕΝΗΜΕΡΟΤΗΤΑ

Προσωπική Aνάπτυξη. Ενότητα 1: Ηγεσία και ενδυνάμωση. Juan Carlos Martínez Director of Projects Development Department

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Έλεγχος ορθογραφίας. Ορισμός γλώσσας

Ο αλγόριθμος PageRank της Google

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Προχωρημένες Λειτουργίες Επερώτησης Advanced Query Operations

Transcript:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 9. Ανάδραση Συνάφειας και Διεύρυνση Ερωτημάτων Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Στο Προηγούμενο Μάθημα Αξιολογώντας μια μηχανή αναζήτησης Μέθοδοι μετροδοκιμής (benchmarks) Ακρίβεια (precision) and ανάκληση (recall) Περιλήψεις αποτελεσμάτων June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

Υπενθύμιση: Αξιολόγηση Μη Καταταγμένης Ανάκτησης Ακρίβεια (Precision): κλάσμα ανακτημένων εγγράφων που είναι συναφή = P(relevant retrieved) Ανάκληση (Recall): κλάσμα συναφών εγγράφων που ανακτώνται = P(retrieved relevant) Relevant Nonrelevant Retrieved True positives (tp) False positives (fp) Not Retrieved False negatives (fn) True negatives (tn) Precision P = tp/(tp + fp) Recall R = tp/(tp + fn) June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

Υπενθύμιση: Ένα Συνδυαστικό Μέτρο: F-measure Ένα συνδυαστικό μέτρο που εκτιμά την αντιστάθμιση μεταξύ ακρίβειας/ανάκλησης είναι το F-measure (σταθμισμένος αρμονικός μέσος weighted harmonic mean): Συνήθως χρησιμοποιείται το ισορροπημένο μέτρο F 1 π.χ., με = 1 ή = ½ Ο αρμονικός μέσος είναι ένας συντηρητικός μέσος όρος F 2 1 ( 2 1 1 (1 ) P R είτε: CJ van Rijsbergen, Information Retrieval 1) PR P R June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4

Σε Αυτό το Μάθημα Βελτίωση αποτελεσμάτων Για υψηλή ανάκληση. Π.χ., αναζήτηση για aircraft δεν ταιριάζει με τη λέξη plane, ούτε το thermodynamic με τη λέξη heat Εναλλακτικές για βελτίωση αποτελεσμάτων Καθολικές μέθοδοι (Global methods) ιεύρυνση ερωτήματος (Query epansion) Thesauri Automatic thesaurus generation Τοπικές μέθοδοι (Local methods) Ανάδραση Συνάφειας (Relevance feedback) Ψευδοανάδραση συνάφειας (Pseudo relevance feedback) June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

Ανάδραση Συνάφειας (Relevance Feedback) Relevance feedback: ανάδραση χρήστη ως προς τη συνάφεια των εγγράφων στο αρχικό σύνολο αποτελεσμάτων Ο χρήστης υποβάλλει ένα (σύντομο, απλό) ερώτημα Ο χρήστης επισημειώνει κάποια αποτελέσματα ως συναφή ή μησυναφή Το σύστημα υπολογίζει μια καλύτερη αναπαράσταση της πληροφοριακής ανάγκης με βάση την ανάδραση Το Relevance feedback μπορεί να συνεχιστεί σε μία ή περισσότερες επαναλήψεις (iterations) Κεφάλαιο 9.1 Ιδέα: είναι δύσκολο να σχηματίσεις ένα καλό ερώτημα όταν δε γνωρίζεις τη συλλογή καλά, άρα επανέλαβε June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

Ανάδραση Συνάφειας (Relevance Feedback) Θα χρησιμοποιούμε τον όρο ad hoc retrieval για να αναφερόμαστε στην απλή ανάκτηση δίχως relevance feedback Στη συνέχεια θα εξετάσουμε τέσσερα παραδείγματα relevance feedback που υποδεικνύουν διαφορετικές οπτικές Κεφάλαιο 9.1 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

Όμοιες Σελίδες June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

Relevance Feedback: Παράδειγμα Κεφάλαιο 9.1.1 Image search engine http://nayana.ece.ucsb.edu/imsearch/imsearch.html June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

Κεφάλαιο 9.1.1 Αποτελέσματα για το Αρχικό Ερώτημα June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

Relevance Feedback Κεφάλαιο 9.1.1 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11

Αποτελέσματα μετά από Relevance Feedback Κεφάλαιο 9.1.1 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

Ad Hoc Αποτελέσματα για το Ερώτημα canine source: Fernando Diaz June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

Ad Hoc Αποτελέσματα για το Ερώτημα canine source: Fernando Diaz June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

Ανάδραση Χρήστη: Επιλογή των Συναφών Αποτελεσμάτων source: Fernando Diaz June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

Αποτελέσματα μετά από Relevance Feedback source: Fernando Diaz June 7, 2016 Ανάκτηση Πληροφοριών, 6ο Εξάμηνο 16

Αρχικό Ερώτημα/Αποτελέσματα Κεφάλαιο 9.1.1 Αρχικό ερώτημα: New space satellite applications + 1. 0.539, 08/13/91, NASA Hasn t Scrapped Imaging Spectrometer + + 2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan 3. 0.528, 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes 4. 0.526, 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget 5. 0.525, 07/24/90, Scientist Who Eposed Global Warming Proposes Satellites for Climate Research 6. 0.524, 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study Climate 7. 0.516, 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada 8. 0.509, 12/02/87, Telecommunications Tale of Two Companies Έπειτα ο χρήστης μαρκάρει τα συναφή έγγραφα με + June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

Κεφάλαιο 9.1.1 Ερώτημα μετά το Relevance Feedback 2.074 new 30.816 satellite 5.991 nasa 4.196 launch 3.516 instrument 3.004 bundespost 2.790 rocket 2.003 broadcast 0.836 oil 15.106 space 5.660 application 5.196 eos 3.972 aster 3.446 arianespace 2.806 ss 2.053 scientist 1.172 earth 0.646 measure June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

Αποτελέσματα για το Epanded Κεφάλαιο 9.1.1 Ερώτημα 2 1. 0.513, 07/09/91, NASA Scratches Environment Gear From Satellite Plan 1 2. 0.500, 08/13/91, NASA Hasn t Scrapped Imaging Spectrometer 3. 0.493, 08/07/89, When the Pentagon Launches a Secret Satellite, Space Sleuths Do Some Spy Work of Their Own 4. 0.493, 07/31/89, NASA Uses Warm Superconductors For Fast Circuit 8 5. 0.492, 12/02/87, Telecommunications Tale of Two Companies 6. 0.491, 07/09/91, Soviets May Adapt Parts of SS-20 Missile For Commercial Use 7. 0.490, 07/12/88, Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket Launchers 8. 0.490, 06/14/90, Rescue of Satellite By Space Agency To Cost $90 Million June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

Βασική Έννοια: Centroid Κεφάλαιο 9.1.1 Το centroid είναι το κέντρο μάζας ενός συνόλου σημείων Θυμηθείτε ότι αναπαριστούμε έγγραφα σαν σημεία σε ένα πολυδιάστατο χώρο Ορισμός: Centroid ( C) όπου C ένα σύνολο από έγγραφα 1 C dc d June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

Αλγόριθμος Rocchio Κεφάλαιο 9.1.1 Ο αλγόριθμος Rocchio χρησιμοποιεί το μοντέλο διανυσματικού χώρου για να επιλέξει ένα relevance feedback ερώτημα Ο Rocchio αναζητεί το ερώτημα q opt που μεγιστοποιεί q opt arg ma[cos( q, ( C q Προσπαθεί να διαχωρίσει έγγραφα μαρκαρισμένα ως συναφή και μη-συναφή Πρόβλημα: δε γνωρίζουμε τα πραγματικά συναφή έγγραφα r )) C cos( q, ( C 1 1 q opt d j C C r d j r nr d nr j C ))] d r j June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

Το Θεωρητικά Βέλτιστο Ερώτημα Κεφάλαιο 9.1.1 o o o o o o Optimal query non-relevant documents o relevant documents June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

Κεφάλαιο 9.1.1 Αλγόριθμος Rocchio 1971 (SMART) Χρησιμοποιείται στην πράξη D r = σύνολο γνωστών συναφών διανυσμάτων (εγγράφων) D nr = σύνολο γνωστών μη συναφών διανυσμάτων 1 1 q q d m 0 j D D ιαφορετικά από C r και C nr r d j D D q m = τροποποιημένο ερώτημα; q 0 = αρχικό ερώτημα; α,β,γ: βάρη (επιλεγμένα με το χέρι ή τίθενται με εμπειρικούς κανόνες) Το νέο ερώτημα πλησιάζει τα συναφή έγγραφα και απομακρύνεται από τα μη συναφή έγγραφα r! nr d j d nr j June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

Κεφάλαιο 9.1.1 Λεπτομέρειες που Χρήζουν Προσοχής Αντιστάθμιση (Tradeoff) των α vs. β/γ Εάν έχουμε πολλά έγγραφα με κρίσεις, θέλουμε υψηλότερο β/γ Ορισμένα βάρη στο διάνυσμα-ερώτημα μπορεί να είναι αρνητικά Αρνητικά βάρη όρων αγνοούνται (τίθενται ίσα με 0) June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

Κεφάλαιο 9.1.1 Relevance Feedback για το Αρχικό Ερώτημα Initial query o o o o o o Revised query known non-relevant documents o known relevant documents June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25

Relevance Feedback για Διανυσματικούς Χώρους Μπορούμε να τροποποιήσουμε το ερώτημα με βάση το relevance feedback και να εφαρμόσουμε το κλασικό μοντέλο διανυσματικού χώρου Χρήση μόνο των εγγράφων που έχουν μαρκαριστεί Το Relevance feedback μπορεί να βελτιώσει ανάκληση (recall) και ακρίβεια (precision) Το Relevance feedback είναι πιο χρήσιμο για την αύξηση του recall σε περιπτώσεις που το recall είναι σημαντικό Κεφάλαιο 9.1.1 Οι χρήστες αναμένεται να εξατάσουν τα αποτελέσματα και να κάνουν επαναλήψεις June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

Θετικό vs. Αρνητικό Feedback Κεφάλαιο 9.1.1 Το θετικό feedback είναι πιο πολύτιμο από το αρνητικό feedback (άρα, θέτουμε <. Π.χ. = 0.25, = 0.75) Πολλά συστήματα επιτρέπουν μόνο θετικό feedback (=0) June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

Doc Το Διανυσματικό Μοντέλο μπορεί να οδηγήσει σε Αντι-διαισθητικά Αποτελέσματα J. Snow & Cholera Query cholera o q1 q1 query cholera o www.ph.ucla.edu/epi/snow.html other documents June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

Διανυσματικοί Χώροι Υψηλών Διαστάσεων Τα ερωτήματα cholera και john snow βρίσκονται μακριά στο διανυσματικό χώρο Πώς μπορεί το έγγραφο John Snow and Cholera να βρίσκεται κοντά και στα δύο; Η διαίσθησή μας για τους χώρους 2 και 3 διαστάσεων δεν ισχύουν για >10,000 διαστάσεις 3 διαστάσεις: Εάν ένα έγγραφο είναι κοντά σε πολλά ερωτήματα, τότε κάποια από αυτά τα ερωτήματα πρέπει να είναι κοντά το ένα στο άλλο εν ισχύει για χώρο υψηλής διάστασης June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

Relevance Feedback: Υποθέσεις Κεφάλαιο 9.1.3 Υ1: Ο χρήστης έχει επαρκή γνώση για το αρχικό ερώτημα Υ2: Τα Relevance prototypes λειτουργούν καλά Η κατανομή των όρων σε συναφή έγγραφα είναι παρόμοια Η κατανομή των όρων σε μη συναφή έγγραφα είναι διαφορετική από αυτή σε συναφή έγγραφα Είτε: όλα τα συναφή έγγραφα είναι κοντά (tightly clustered) σε ένα prototype Ή: Υπάρχουν διαφορετικά prototypes, αλλά τα συναφή έγγραφα έχουν σημαντική επικάλυψη στο λεξικό Οι ομοιότητες μεταξύ σε συναφή και μη συναφή έγγραφα είναι μικρές June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

Παραβίαση της Υ1 Κεφάλαιο 9.1.3 Ο χρήστης δεν έχει επαρκή αρχική γνώση Παραδείγματα: Ορθογραφικά λάθη (Brittany Speers) ιαγλωσσική ΑΠ (hígado) ιαφορές στο λεξιλόγιο χρήστη σε σχέση με το λεξιλόγιο της συλλογής Cosmonaut/astronaut Laptop/netbook June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

Παραβίαση της Υ2 Κεφάλαιο 9.1.3 Υπάρχουν αρκετά relevance prototypes Παραδείγματα: Burma/Myanmar Contradictory government policies Pop stars that worked at Burger King Συχνά: στιγμιότυπα μιας γενικής έννοιας (αιλουροειδή) Η ύπαρξη περιγραφικών κύριων άρθρων μπορεί να βοηθήσει στην επίλυση του προβλήματος Π.χ. Άρθρο για τις θέσεις και απόψεις διαφόρων ομάδων σχετικά με την κατάσταση στη Βιρμανία: μπορεί να παρουσιάζει την ορολογία που χρησιμοποιείται από τις διάφορες ομάδες, συνδέοντας με αυτόν τον τρόπο τις συστάδες εγγράφων June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

Relevance Feedback: Προβλήματα Μεγάλα ερωτήματα είναι μη αποδοτικά για μια τυπική μηχανή ανάκτησης πληροφοριών Μεγάλοι χρόνοι απόκρισης για το χρήστη Υψηλό κόστος για το σύστημα ανάκτησης Μερική λύση: Επαναστάθμιση μόνο ορισμένων σημαντικών όρων Ίσως των 20 κορυφαίων με βάση τη συχνότητα όρου Οι χρήστες συχνά είναι επιφυλακτικοί στο να δώσουν ανάδραση (feedback) ρητά Συχνά είναι δυσκολότερο να κατανοήσουμε γιατί ένα συγκεκριμένο έγγραφο ανακτήθηκε αφού εφαρμοστεί relevance feedback June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

Αξιολόγηση Στρατηγικών Relevance Feedback Κεφάλαιο 9.1.5 Χρήση q 0 και υπολογισμός precision και recall graph Χρήση q m και υπολογισμός precision recall graph Αποτίμηση σε όλα τα έγγραφα στη συλλογή Εντυπωσιακή βελτίωση, όμως κλέβουμε! Εν μέρει λόγω γνωστών συναφών εγγράφων που κατατάσσονται υψηλότερα Πρέπει να γίνει αξιολόγηση ως προς τα έγγραφα που δεν έχει δει ο χρήστης Χρήση εγγράφων από τα εναπομείναντα (σύνολο εγγράφων πλην εκείνων που έχουν αξιολογηθεί συναφή) Τα μέτρα είναι συνήθως μικρότερες από ότι για το αρχικό ερώτημα Όμως είναι πιο ρεαλιστική αξιολόγηση Η σχετική απόδοση μπορεί να συγκριθεί με έγκυρο τρόπο Εμπειρικά, ένας γύρος relevance feedback είναι συχνά πολύ χρήσιμος. ύο γύροι είναι μερικές φορές οριακά χρήσιμοι. June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

Αξιολόγηση Relevance Feedback Κεφάλαιο 9.1.5 εύτερη μέθοδος αποτίμηση μόνο των εγγράφων που ΕΝ βαθμολογήθηκαν από το χρήστη στον πρώτο γύρο Θα μπορούσε να κάνει το relevance feedback να φαίνεται χειρότερο από ότι είναι πραγματικά Μπορεί ακόμη να αποτιμήσει τη σχετική απόδοση αλγορίθμων Πιο ικανοποιητικό χρήση δύο συλλογών, η καθεμιά με τις δικές της relevance assessments q 0 και user feedback από την πρώτη συλλογή q m τρέχει στη δεύτερη συλλογή και μετράται June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35

Αξιολόγηση: Παγίδα Κεφάλαιο 9.1.3 Πραγματική αξιολόγηση της χρησιμότητας πρέπει να συγκρίνει με άλλες μεθόδους που απαιτούν τον ίδιο χρόνο Εναλλακτική για relevance feedback: Ο χρήστης διορθώνει και υποβάλλει ξανά το ερώτημα Οι χρήστες μπορεί να προτιμούν διόρθωση/επαναϋποβολή από το να πρέπει να κρίνουν τη συνάφεια των εγγράφων εν υπάρχει απόδειξη ότι το relevance feedback είναι η βέλτιστη χρήση του χρόνου του χρήστη June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

Relevance Feedback στον Παγκόσμιο Ιστό Ορισμένες μηχανές αναζήτησης προσφέρουν τη δυνατότητα να δει κανείς όμοιες/σχετικές σελίδες (αυτό είναι μια απλουστευμένη μορφή relevance feedback) Google (link-based) Altavista Stanford WebBase Όμως ορισμένες δεν την προσφέρουν, διότι είναι δύσκολο να εξηγηθεί στο μέσο χρήστη: Alltheweb bing Yahoo Ecite είχε αρχικά πραγματικό relevance feedback, όμως το παράτησε λόγω του ότι δε χρησιμοποιείτο Κεφάλαιο 9.1.4 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

Ecite Relevance Feedback Κεφάλαιο 9.1.4 Spink et al. 2000 Μόνο περίπου 4% των query sessions χρηστών χρησιμοποιούν την επιλογή relevance feedback Εκφράζεται με ένα link More like this δίπλα σε κάθε αποτέλεσμα Όμως περίπου 70% χρηστών κοιτούσε μόνο στην πρώτη σελίδα αποτελεσμάτων και δεν έψαχναν περαιτέρω Άρα 4% είναι περίπου 1/8 των ανθρώπων που επέκτειναν την αναζήτηση Relevance feedback βελτίωσε τα αποτελέσματα στο 2/3 των περιπτώσεων June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

Pseudo relevance feedback Κεφάλαιο 9.1.6 Το Pseudo-relevance feedback αυτοματοποιεί το χειροκίνητο μέρος του πραγματικού relevance feedback Pseudo-relevance αλγόριθμος: Ανάκτησε μια καταταγμένη λίστα με αποτελέσματα για το ερώτημα χρήστη Υπέθεσε ότι τα κορυφαία k έγγραφα είναι συναφή Εκτέλεσε relevance feedback (π.χ., Rocchio) ουλεύει καλά κατά μέσο όρο Όμως μπορεί να πάει πολύ άσχημα για κάποια ερωτήματα Πολλαπλές επαναλήψεις μπορεί να προκαλέσουν query drift Γιατί? June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

Διεύρυνση Ερωτήματος (Query Κεφάλαιο 9.2.2 Epansion) Στο relevance feedback, οι χρήστες δίνουν επιπρόσθετο input (συναφές/μη-συναφές) για έγγραφα, που χρησιμοποιείται για την επαναβαθμολόγηση όρων σε έγγραφα Στη διεύρυνση ερωτήματος, οι χρήστες δίνουν επιπρόσθετο input (καλός/άσχημος όρος αναζήτησης) για λέξεις ή φράσεις June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

Query assist Θα περιμένατε ένα τέτοιο feature να αυξάνει τον όγκο ερωτημάτων σε μια μηχανή αναζήτησης; June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

Πώς Εμπλουτίζουμε το Ερώτημα Χρήστη; Κεφάλαιο 9.2.2 Θησαυροί Π.χ. MedLine: physician, syn: doc, doctor, MD, medico Μπορεί να είναι ερώτημα αντί για απλά συνώνυμα Καθολική ανάλυση: (στατική για όλα τα έγγραφα στη συλλογή) Αυτόματη παραγωγή θησαυρού (co-occurrence statistics στατιστικά συνύπαρξης) Βελτίωση με βάση query log mining Είναι κοινό στον Παγκόσμιο Ιστό Τοπική ανάλυση: (δυναμική) Ανάλυση εγγράφων στο σύνολο αποτελεσμάτων June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

Κεφάλαιο 9.2.2 Παράδειγμα Χειροκίνητου Θησαυρού June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

Διεύρυνση Ερωτήματος με Χρήση Θησαυρού Για κάθε όρο t σε ένα ερώτημα, διευρύνουμε το ερώτημα με συνώνυμα και σχετικές λέξεις του t από το θησαυρό feline feline cat Μπορεί να σταθμίσει τους προστιθέμενους όρους λιγότερο από τους αρχικούς όρους ερωτήματος Γενικά αυξάνει το recall Χρησιμοποιείται ευρέως σε πολλά πεδία επιστήμης/μηχανικών Μπορεί να μειώσει σημαντικά το precision, ειδικά για αμφίσημους όρους interest rate interest rate fascinate evaluate Το κόστος δημιουργίας θησαυρού χειροκίνητα είναι πολύ υψηλό Και για την ενημέρωσή του για επιστημονικές αλλαγές Κεφάλαιο 9.2.2 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

Αυτοματοποιημένη Δημιουργία Κεφάλαιο 9.2.3 Θησαυρού Προσπάθεια δημιουργίας θησαυρού αυτόματα, αναλύοντας μια συλλογή εγγράφων Βασική έννοια: ομοιότητα μεταξύ δύο λέξεων Ορισμός 1: ύο λέξεις είναι όμοιες εάν εμφανίζονται μαζί (co-occur) με όμοιες λέξεις Ορισμός 2: ύο λέξεις είναι όμοιες εάν εμφανίζονται σε μια δοθείσα γραμματική σχέση με τις ίδιες λέξεις You can harvest, peel, eat, prepare, etc. apples and pears, so apples and pears must be similar Η αξιοποίηση της συνύπαρξης λέξεων (Co-occurrence) είναι πιο στιβαρή (robust), όμως η χρήση γραμματικών σχέσεων είναι ακριβέστερη (accurate) June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45

Co-occurrence Thesaurus Κεφάλαιο 9.2.3 Ο απλούστερος τρόπος για να υπολογιστεί είναι με βάση ομοιότητες μεταξύ όρων (term-term similarities) στο C = AA T όπου A είναι ένας term-document matri w i,j = (normalized) weight for (t i,d j ) t i M Για κάθε t i, επιλέγουμε όρους με υψηλές τιμές στο C d j N Τι περιέχει ο C εάν ο A είναι ένας term-doc incidence (0/1) matri; June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46

Αυτοματοποιημένη Δημιουργία Θησαυρού: Παράδειγμα Κεφάλαιο 9.2.3 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47

Αυτοματοποιημένη Δημιουργία Κεφάλαιο 9.2.3 Θησαυρού: Συζήτηση Η ποιότητα των συσχετίσεων είναι συνήθως πρόβλημα Η αμφισημία όρων μπορεί να επιφέρει στατιστική συσχέτιση όρων που είναι άσχετοι μεταξύ τους Apple computer Apple red fruit computer Προβλήματα: False positives: Λέξεις που θεωρούνται όμοιες αλλά δεν είναι False negatives: Λέξεις που θεωρούνται ανόμοιες, αλλά είναι όμοιες Αφού οι όροι είναι highly correlated, η διεύρυνση μπορεί να μην ανακτήσει πολλά επιπρόσθετα έγγραφα June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 48

Έμμεσο Relevance Feedback Στον Παγκόσμιο Ιστό, η DirectHit εισήγαγε μια μορφή έμμεσου relevance feedback Η DirectHit κατέτασε υψηλά έγγραφα τα οποία βλέπαν οι χρήστες συχνότερα Τα κλικ σε links υποτίθεται ότι είναι πιθανά συναφή Υποθέτοντας ότι οι εμφανιζόμενες περιλήψεις είναι καλές, κτλ. Καθολικά: εν είναι αναγκαία σχετιζόμενα με το χρήστη ή το ερώτημα Αυτή είναι η γενική περιοχή του clickstream mining Σήμερα το χειριζόμαστε σαν μέρος του machinelearned ranking June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 49

Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαιο 9 MG κεφ. 4.7 MIR κεφ. 5.2 5.4 June 7, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 50