Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση πληροφορίας

Information Retrieval

Ανάκτηση Πληροφορίας

Information Retrieval

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Θα μιλήσουμε για ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 του βιβλίου

Math 6 SL Probability Distributions Practice Test Mark Scheme

8. Η Αξιολόγηση στην Ανάκτηση Πληροφοριών

Information Retrieval

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Αξιολόγηση Ανάκτησης Retrieval Evaluation

( )( ) ( ) ( )( ) ( )( ) β = Chapter 5 Exercise Problems EX α So 49 β 199 EX EX EX5.4 EX5.5. (a)

Matrices and Determinants

ΜΥΕ03: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 8: Αξιολόγηση στην Ανάκτηση Πληροφορίας.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Αξιολόγηση Ανάκτησης Retrieval Evaluation

Αξιολόγηση Ανάκτησης Retrieval Evaluation

Surface Mount Multilayer Chip Capacitors for Commodity Solutions

APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 651 APPENDIX B. BIBLIOGRAPHY 677 APPENDIX C. ANSWERS TO SELECTED EXERCISES 679

PARTIAL NOTES for 6.1 Trigonometric Identities

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Θα μιλήσουμε για ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Βασισμένες στις διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Instruction Execution Times

EE512: Error Control Coding

Ανάκτηση Πληροφορίας

Section 7.6 Double and Half Angle Formulas

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Section 8.3 Trigonometric Equations

Metal Oxide Varistors (MOV) Data Sheet

Αξιολόγηση Ανάκτησης. Διάρθρωση Διάλεξης. Τύποι Αξιολόγησης. Τι εξυπηρετεί η αξιολόγηση Αποτελεσματικότητας; Γιάννης Τζίτζικας άλ ιάλεξη : 2/3

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΟΔΟΝΤΙΑΤΡΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΟΔΟΝΤΙΚΗΣ ΚΑΙ ΑΝΩΤΕΡΑΣ ΠΡΟΣΘΕΤΙΚΗΣ

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Inverse trigonometric functions & General Solution of Trigonometric Equations

ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη8α: Αξιολόγηση στην Ανάκτηση Πληροφοριών. Πως ξέρουμε αν τα αποτελέσματα είναι καλά

(C) 2010 Pearson Education, Inc. All rights reserved.

Assalamu `alaikum wr. wb.

[1] P Q. Fig. 3.1

Ανάκτηση Πληροφορίας

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

derivation of the Laplacian from rectangular to spherical coordinates

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Lecture 21: Scattering and FGR

MSM Men who have Sex with Men HIV -

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Calculating the propagation delay of coaxial cable

Homework 3 Solutions

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Τ.Ε.Φ.Α.Α ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ST5224: Advanced Statistical Theory II

Statistical Inference I Locally most powerful tests

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

CHAPTER 101 FOURIER SERIES FOR PERIODIC FUNCTIONS OF PERIOD

Πτυχιακή Εργασι α «Εκτι μήσή τής ποιο τήτας εικο νων με τήν χρή σή τεχνήτων νευρωνικων δικτυ ων»

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Θέματα Στατιστικής στη γλώσσα R

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Capacitors - Capacitance, Charge and Potential Difference

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Does anemia contribute to end-organ dysfunction in ICU patients Statistical Analysis

Chilisin Electronics Singapore Pte Ltd

Solution Series 9. i=1 x i and i=1 x i.

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

The challenges of non-stable predicates

A Hierarchy of Theta Bodies for Polynomial Systems

( y) Partial Differential Equations

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

the total number of electrons passing through the lamp.

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 9η: Basics of Game Theory Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

CYTA Cloud Server Set Up Instructions

ΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ

Electronic Supplementary Information:

ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΑΓΡΟΤΙΚΗΣ ΟΙΚΟΝΟΜΙΑΣ & ΑΝΑΠΤΥΞΗΣ

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS International General Certificate of Secondary Education

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

TAMIL NADU PUBLIC SERVICE COMMISSION REVISED SCHEMES

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Τελική Εξέταση =1 = 0. a b c. Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. HMY 626 Επεξεργασία Εικόνας

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΜΥΕ03: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 8: Αξιολόγηση στην Ανάκτηση Πληροφορίας.

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ

RC series Thick Film Chip Resistor

Engineering Tunable Single and Dual Optical. Emission from Ru(II)-Polypyridyl Complexes. Through Excited State Design

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

Volume of a Cuboid. Volume = length x breadth x height. V = l x b x h. The formula for the volume of a cuboid is

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 8η: Producer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Πληροφορική & Νέο Λύκειο (Εισαγωγή)

Transcript:

Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών σχετικών κειμένων Ο στόχος είναι να μεγιστοποιηθούν και τα δύο. Συνήθως, η σχετικότητα (Relevance) ενός κειμένου ως προς κάποιο ερώτημα είναι κάτι το υποκειμενικό Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 2 1

Εισαγωγή Μέτρηση Απόδοσης Πόσο καλό είναι ένα σύστημα Συγκρίσεις μεταξύ συστημάτων Τι πρέπει να μετρήσουμε Πόσο είναι ικανοποιημένος ο χρήστης από το αποτέλεσμα Κάλυψη πληροφορίας αποδοτικότητα Τρόπος παρουσίασης Δυσκολία που υπάρχει Αποδοτικό ως προς χρόνο και χώρο Recall τμήμα των σχετικών κειμένων που ανακτώνται Precision τμήμα των ανακτώμενων κειμένων που είναι σχετικά Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 3 Εισαγωγή Πως μετράμε την απόδοση? Test reference collections: TIPSTER/TREC CACM CISI Cystic Fibrosis Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 4 2

Ανάκληση και Ακρίβεια Collection Relevant documents (R) Answer set (A) relevant & retrieved (Ra) Recall = Ra / R Precision = Ra / A Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 5 Περιπτώσεις Ανάκλησης-Ακρίβειας συλλογή εγγράφων συλλογή εγγράφων Α Ar Ar Α R R συλλογή εγγράφων συλλογή εγγράφων Ar Α Ar Α R R Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 6 3

Σχετικότητα Εγγράφων Το σύνολο R δεν είναι γνωστό Relevance: Υποκειμενική Μπορεί να μετρηθεί μέχρι κάποιο βαθμό Πως ένα κείμενο χαρακτηρίζεται ως σχετικό προς το ερώτημα; Σαφής απάντηση σε σαφές ερώτημα Partial Matching Προτείνεται πηγή για περισσότερες πληροφορίες Πληροφορίες για το background Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 7 Precision/ Recall Καμπύλη Precision - Recall trade-off Μετρούμε το Precision σε διαφορετικά επίπεδα Recall precision recall Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 8 4

Precision/ Recall Καμπύλη Είναι δύσκολο να διακρίνουμε ποια από τις παρακάτω καμπύλες είναι η καλύτερη: precision recall Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 9 Παράδειγμα R q Precision d3, d5, d9, d25, d39, = d44, d56, d71, d89, d 120 100 80 60 40 20 0 123 10 20 30 40 50 Recall Rank Doc Rel R ecall P recision 0 0 % 0 % 1 d 123 10 % 100 % 2 d 84 10 % 50 % 3 d 56 20 % 67 % 4 d 6 20 % 50 % 5 d 84 20 % 40 % 6 d 9 30 % 50 % 7 d 511 30 % 43 % 8 d 129 30 % 38 % 9 d 187 30 % 33 % 10 d 25 40 % 40 % 11 d 38 40 % 36 % 12 d 48 40 % 33 % 13 d 250 40 % 31 % 14 d 113 40 % 29 % 15 d 3 50 % 33 % Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 10 5

Μέση Ακρίβεια Μέση ακρίβεια για κάθε επίπεδο ανάκλησης: P( r) = N q i= 1 Pi ( r) N q P(r) - μέση ακρίβεια για το επίπεδο ανάκλησης r. N q - πλήθος ερωτημάτων P i (r) ακρίβεια στο επίπεδο ανάκλησης r για το i-οστό ερώτημα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 11 Επίπεδα Ανάκλησης Η καμπύλη δημιουργείται με 11 επίπεδα recall: 0%, 10%, 20%,, 100% Έστω, j 0,1,2,...,10 το j-ιοστό επίπεδο recall. Τότε, r { } j P( r ) = ma P( r) 1 j rj r rj+ Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 12 6

Παρεμβολή Precision Εφαρμογή παρεμβολής για τα 11 επίπεδα ανάκλησης 120% 100% 80% 60% 40% 20% 0% 0% 20% 40% 60% Recall 80% 100% Iterpolated Level Precision 0% 100% 10% 100% 20% 67% 30% 50% 40% 40% 50% 33% 60% 0% 70% 0% 80% 0% 90% 0% 100% 0% Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 13 Κατώφλια Άλλος τρόπος υπολογισμού: Σταθεροποιούμε τον αριθμό των κειμένων ανά επίπεδο: top 5, top 10, top 20, top 50, top 100, top 500 Μέτρηση του precision για αυτά τα επίπεδα Μέση τιμή Τρόπος να εστιάσουμε σε high precision Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 14 7

Μονότιμες Συνόψεις Average Precision vs Recall είναι χρήσιμες τιμές για την περιγραφή της απόδοσης ενός συστήματος σε ένα σύνολο ερωτημάτων. Πως θα μετρήσουμε την απόδοση για κάθε ερώτημα χωριστά; Single value measures: Average Precision at Seen Relevant Documents; R-Precision; Precision Histograms; Summary Table Statistics. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 15 Αρμονικός Μέσος The harmonic mean combines Recall & Precision into a single number ranging from 0 to 1: 2 F( j) = 1 1 + r( j) P( j) P(j) - precision of j-th document in ranking; r(j) recall of j-th document in ranking; If F(j) = 0 no relevant docs have been retrieved; If F(j) = 1 all ranked docs are relevant; The harmonic mean assumes high value only when both recall & precision are high. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 16 8

E-Measure Combine Precision and Recall into one number and allow user to specify whether s/he is more interested in recall or precision: 2 1+ b E( j) = 1 2 b 1 + r( j) P( j) P(j) precision of j-th document in ranking; r(j) recall of j-th document in ranking; b - measure of relative importance of precision or recall: b > 1 emphasizes precision, b < 1 emphasizes recall Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 17 Μέτρα Προσανατολισμένα στο Χρήστη Different users might have a different interpretation of which document is relevant or not User-oriented measures: Coverage ratio: Novelty ratio: Rk coverage = U R u novelty = Ru + Rk Relative ratio the ratio between the # of relevant docs found and the # of relevant docs the user epected to find Recall effort the ratio between the # of relevant docs the user epected to find and the # of docs eamined in an attempt to find the epected relevant docs. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 18 9

Μέτρα Προσανατολισμένα στο Χρήστη Relevant documents (R) Answer set (A) Relevant Docs known to user (U) Relevant Docs known to user which were retrieved (Rk) Relevant Docs previously unknown to user which were retrieved (Ru) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 19 Συλλογές Αναφοράς TRECcollection (Tet REtrieval Conference) 5.8 GB, >1.5 Million Docs. CACM - computer science 3024 articles. ISI (CISI) library science 1460 docs. Cystic Fibrosis (CF) - medicine 1239 docs. CRAN aeronautics 1400 docs. Time general articles 423 docs. NPL electrical engineering 11429 docs. κλπ Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 20 10

Σύνοψη Βασικά μέτρα αποτίμησης της αποτελεσματικότητας ενός IR συστήματος: Recall & Precision Μονότιμες συνόψεις Εναλλακτικά μέτρα Μέτρα προσανατολισμένα στο χρήστη Συλλογές αναφοράς. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 21 11