Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 8. Η Αξιολόγηση στην Ανάκτηση Πληροφοριών Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων
Σε Αυτό το Μάθημα Πώς γνωρίζουμε ότι τα αποτελέσματά μας είναι καλά; Αξιολογώντας μια μηχανή αναζήτησης Μέθοδοι μετροδοκιμής (benchmarks) Ακρίβεια (precision) and ανάκληση (recall) Περίληψη αποτελεσμάτων Να κάνουμε τα καλά μας αποτελέσματα χρήσιμα στο χρήστη May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2
ΑΞΙΟΛΟΓΗΣΗ ΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3
Μέτρα μιας Μηχανής Αναζήτησης Κεφάλαιο 8.6 Πόσο γρήγορα χτίζει τα ευρετήρια Αριθμός εγγράφων/ώρα (μέσο μήκος εγγράφου) Πόσο γρήγορα εκτελεί αναζήτηση Καθυστέρηση (latency) σαν συνάρτηση του μεγέθους του ευρετηρίου Εκφραστικότητα της γλώσσας επερώτησης υνατότητα έκφρασης πολύπλοκων πληροφοριακών αναγκών Ταχύτητα για πολύπλοκα ερωτήματα Τακτοποιημένη διεπαφή χρήστη (UI) Είναι δωρεάν; May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4
Μέτρα μιας Μηχανής Αναζήτησης Κεφάλαιο 8.6 Όλα τα προηγούμενα κριτήρια είναι μετρήσιμα: μπορούμε να ποσοτικοποιήσουμε την ταχύτητα και το μέγεθος Μπορούμε να κάνουμε την εκφραστικότητα ακριβή (precise) Το βασικό μέτρο: ικανοποίηση χρήστη (user happiness) Τι είναι αυτό; Η ταχύτητα της απόκρισης και το μέγεθος ευρετηρίου είναι παράγοντες Όμως ταχύτατες αλλά άχρηστες απαντήσεις δε θα ικανοποιούν το χρήστη Χρειαζόμαστε ένα τρόπο να ποσοτικοποιήσουμε την ικανοποίηση χρήστη (user happiness) May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5
Μετρώντας την Ικανοποίηση Χρήστη Κεφάλαιο 8.6.2 Θέμα: ποιος είναι ο χρήστης που προσπαθούμε να ικανοποιήσουμε; Εξαρτάται από το την περίπτωση Μηχανή Αναζήτησης Π.Ι. (Web engine): Ο χρήστης βρίσκει αυτό που θέλει και επιστρέφει στη μηχανή αναζήτησης Μπορούμε να μετρήσουμε το ποσοστό χρηστών που επιστρέφουν Ο χρήστης ολοκληρώνει μια εργασία η αναζήτηση ως μέσο, όχι σαν σκοπός είτε: Russell http://dmrussell.googlepages.com/jcdl-talk-june-2007- short.pdf Ιστότοπος Ηλεκτρονικού Εμπορίου (ecommerce site): ο χρήστης βρίσκει αυτό που ψάχνει και το αγοράζει Μετράμε την ικανοποίηση του τελικού χρήστη ή του Ιστότοπου; Μετράμε το χρόνο αγοράς, ή το ποσοστό χρηστών που αγοράζουν; May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6
Μετρώντας την Ικανοποίηση Χρήστη Κεφάλαιο 8.6.2 Επιχειρησιακή Μηχανή Αναζήτησης (Enterprise) (εταιρική, κυβερνητική, ακαδημαϊκή): ενδιαφερόμαστε για την παραγωγικότητα των χρηστών Πόσο χρόνο κερδίζουν οι χρήστες κατά την αναζήτηση πληροφοριών; Πολλά άλλα κριτήρια σχετικά με το εύρος πρόσβασης, τη διασφάλιση των πληροφοριών, κτλ May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7
Ικανοποίηση Χρήστη: Δύσκολο να Μετρηθεί Ο πιο κοινός τρόπος: συνάφεια των αποτελεσμάτων αναζήτησης Όμως πώς μετράται η συνάφεια; Θα παρουσιαστεί μια μεθοδολογία και στη συνέχεια θα εξεταστούν τα προβλήματα που προκύπτουν Η μέτρηση συνάφειας απαιτεί 3 στοιχεία: Κεφάλαιο 8.1 1. Μια συλλογή εγγράφων που θα χρησιμοποιηθεί ως benchmark 2. Ένα σύνολο ερωτημάτων που θα χρησιμοποιηθεί ως benchmark 3. Μια (συνήθως) δυαδική απόφαση είτε Συναφούς ή Μη Συναφούς για κάθε ερώτημα και κάθε έγγραφο Υπάρχει δουλειά για κάτι παραπάνω από δυαδική, αλλά δεν είναι αυτό που συνηθίζεται May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8
Αξιολογώντας ένα Σύστημα ΑΠ Κεφάλαιο 8.1 Σημείωση: η πληροφοριακή ανάγκη μεταφράζεται σε ένα ερώτημα Η συνάφεια εκτιμάται σχετικά με την ανάγκη πληροφόρησης, όχι με το ερώτημα Π.χ., Πληροφοριακή Ανάγκη: Ψάχνω για πληροφορία κατά πόσο η πόση κόκκινου κρασιού είναι αποτελεσματικότερη στη μείωση κινδύνων καρδιακής προσβολής από το λευκό κρασί Ερώτημα: wine red white heart attack effective Αξιολογούμε κατά πόσο το έγγραφο καλύπτει την πληροφοριακή ανάγκη, όχι εάν περιέχει τις λέξεις May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9
Πρότυπες Συλλογές Ελέγχου Κεφάλαιο 8.2 TREC Το Εθνικό Ίδρυμα Προτύπων και Τεχνολογίας (National Institute of Standards and Technology) (NIST) έχει πραγματοποιήσει μια μεγάλη σειρά δοκιμών αξιολόγησης για πολλά χρόνια Η Reuters και άλλες συλλογές ελέγχου χρησιμοποιούνται Καθορίζονται Retrieval tasks Ορισμένες φορές ως ερωτήματα (queries) Αποτιμητές (άνθρωποι) που είναι ειδικοί σημειώνουν για κάθε ερώτημα και κάθε έγγραφο Relevant ή Nonrelevant Ή τουλάχιστον για ένα υποσύνολο των εγγράφων που κάποιο σύστημα επέστρεψε για το ερώτημα May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10
Αξιολόγηση Μη Καταταγμένης Κεφάλαιο 8.3 Ανάκτησης: Ακρίβεια και Ανάκληση Ακρίβεια (Precision): κλάσμα ανακτημένων εγγράφων που είναι συναφή = P(relevant retrieved) Ανάκληση (Recall): κλάσμα συναφών εγγράφων που ανακτώνται = P(retrieved relevant) Relevant Nonrelevant Retrieved True positives (tp) False positives (fp) Not Retrieved False negatives (fn) True negatives (tn) Precision P = tp/(tp + fp) Recall R = tp/(tp + fn) May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11
Να Χρησιμοποιούμε το Μέτρο της Ορθότητας για την Αξιολόγηση; οθέντος ενός ερωτήματος, μια μηχανή αναζήτησης ταξινομεί (classifies) ένα έγγραφο ως Relevant ή Nonrelevant Η ορθότητα (accuracy) μιας μηχανής: το κλάσμα των σωστών αποφάσεων στην ταξινόμηση εγγράφων (tp + tn) / ( tp + fp + fn + tn) Η ορθότητα χρησιμοποιείται συχνά στην αξιολόγηση της ταξινόμησης μέσω μηχανικής μάθησης Γιατί δεν αποτελεί η ορθότητα κατάλληλο μέτρο για τα προβλήματα ΑΠ; Κεφάλαιο 8.3 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12
Κεφάλαιο 8.3 Γιατί δε Χρησιμοποιούμε την Ορθότητα; Πώς να χτίσουμε μια μηχανή αναζήτησης που να έχει ορθότητα 99.9999% με μικρό προϋπολογισμό. Search for: 0 matching results found. Οι χρήστες συστημάτων ΑΠ επιθυμούν πάντα να τους επιστρέφονται κάποια έγγραφα και δείχνουν ανοχή αν διαπιστώσουν κάποια σκουπίδια May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13
Ακρίβεια/Ανάκληση Κεφάλαιο 8.3 Μπορούμε να πετύχουμε υψηλή ανάκληση (αλλά χαμηλή ακρίβεια) ανακτώντας όλα τα έγγραφα για όλα τα ερωτήματα! Η Ανάκληση (Recall) είναι μια μη-φθίνουσα συνάρτηση του αριθμού των ανακτημένων εγγράφων Σε ένα καλό σύστημα, η ακρίβεια μειώνεται είτε καθώς αυξάνεται το πλήθος των ανακτημένων εγγράφων είτε καθώς αυξάνεται η ανάκληση Αυτό δεν είναι κάποιο θεώρημα, αλλά ένα αποτέλεσμα με δυνατά εμπειρικά στοιχεία να το υποστηρίζουν May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14
Κεφάλαιο 8.3 Δυσκολίες στη Χρήση Ακρίβειας/Ανάκλησης Θα πρέπει να υπολογίζεται ο μέσος όρος μιας μεγάλης συλλογής εγγράφων/ερωτημάτων Χρειάζονται κρίσεις συνάφειας από ανθρώπους (human relevance assessments) Όμως οι άνθρωποι δεν είναι αξιόπιστοι αξιολογητές Οι αξιολογήσεις πρέπει να είναι δυαδικές Επηρεάζονται πολύ ανάλογα με τη συλλογή Τα αποτελέσματα δεν ισχύουν από μια περιοχή σε άλλη May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15
Κεφάλαιο 8.3 Ένα Συνδυαστικό Μέτρο: F-measure Ένα συνδυαστικό μέτρο που εκτιμά την αντιστάθμιση μεταξύ ακρίβειας/ανάκλησης είναι το F-measure (σταθμισμένος αρμονικός μέσος weighted harmonic mean): Συνήθως χρησιμοποιείται το ισορροπημένο μέτρο F 1 π.χ., με = 1 ή = ½ Ο αρμονικός μέσος είναι ένας συντηρητικός μέσος όρος F 2 1 ( 2 1 1 (1 ) P R είτε: CJ van Rijsbergen, Information Retrieval 1) PR P R May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16
F 1 και άλλοι Μέσοι Όροι Κεφάλαιο 8.3 Combined Measures 100 80 60 40 20 Minimum Maxim um Arithmetic Geometric Harmonic 0 0 20 40 60 80 100 Precision (Recall fixed at 70%) May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17
Παράδειγμα relevant not relevant retrieved 20 40 60 not 60 1,000,000 1,000,060 retrieved 80 1,000,040 1,000,120 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18
Άσκηση Υπολογίστε ακρίβεια (precision), ανάκληση (recall) και F 1 για το ακόλουθο σύνολο αποτελεσμάτων relevant not relevant retrieved 18 2 not retrieved 82 1,000,000,000 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19
Αξιολόγηση Αποτελεσμάτων Κεφάλαιο 8.4 Καταταγμένης Ανάκτησης Αξιολόγηση αποτελεσμάτων με κατάταξη: Το σύστημα μπορεί να επιστρέψει οποιοδήποτε αριθμό αποτελεσμάτων Επιλέγοντας διάφορα πλήθη των κορυφαίων εγγράφων που επιστράφηκαν (levels of recall), ο αξιολογητής μπορεί να παράγει μια καμπύλη ακρίβειας-ανάκλησης (precision-recall curve) May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20
Καμπύλη Ακρίβειας-Ανάκλησης Κεφάλαιο 8.4 1.0 0.8 Precision 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Recall May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21
Μέσος Όρος για Πολλά Ερωτήματα Κεφάλαιο 8.4 Μια καμπύλη ακρίβειας-ανάκλησης για ένα ερώτημα δεν βοηθά πολύ Πρέπει να εξεταστεί η μέση απόδοση ενός συνόλου ερωτημάτων Όμως υπάρχει ένα τεχνικό θέμα: Οι υπολογισμοί ακρίβειας-ανάκλησης τοποθετούν μερικά σημεία στο γράφημα Πώς καθορίζεται μια τιμή (παρεμβολή interpolation) ανάμεσα στα σημεία; May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22
Ακρίβεια εκ Παρεμβολής Κεφάλαιο 8.4 Ιδέα: εάν η ακρίβεια αυξάνει με την αύξηση της ανάκλησης τοπικά, τότε αυτό πρέπει να το μετρήσουμε Άρα παίρνουμε την υψηλότερη τιμή ακρίβειας που βρίσκεται δεξιά της υπό εξέταση τιμής May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23
Αξιολόγηση Κεφάλαιο 8.4 Τα γραφήματα είναι χρήσιμα, όμως οι χρήστες θέλουν περιληπτικά μέτρα! Ακρίβεια σε κάποιο σταθερό επίπεδο ανάκλησης (Precision at fixed retrieval level) Precision-at-k: Ακρίβεια των k κορυφαίων αποτελεσμάτων Ίσως κατάλληλη για τις περισσότερες αναζητήσεις Π.Ι.: οι χρήστες θέλουν καλά αποτελέσματα στις πρώτες 1-2 σελίδες Όμως: ο μέσος όρος δεν είναι ενδεικτικός και η παράμετρος k είναι αυθαίρετη Μέση ακρίβεια εκ παρεμβολής 11 σημείων (11-point interpolated average precision) Το πιο καθιερωμένο μέτρο στην κοινότητα TREC: παίρνουμε την ακρίβεια σε 11 επίπεδα ανάκλησης από το 0 ως το 1 (0,0, 0,1,... 1,0), χρησιμοποιώντας παρεμβολή (η τιμή για 0 είναι πάντα εκ παρεμβολής!), και παίρνουμε μέσο όρο Αξιολογεί την απόδοση σε όλα τα επίπεδα ανάκλησης May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24
Αντιπροσωπευτική (Καλή) Καμπύλη Κεφάλαιο 8.4 SabIR/Cornell 8A1 11pt precision from TREC 8 (1999) 1 0.8 Precision 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Recall May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25
Άλλα Μέτρα Αξιολόγησης Κεφάλαιο 8.4 Μέση αντιπροσωπευτική ακρίβεια (Mean average precision) (MAP) Μέση τιμή τιμών ακρίβειας που παίρνουμε για το σύνολο των κορυφαίων k εγγράφων που υπάρχουν, κάθε φορά που ανακτάται ένα συναφές έγγραφο Αποφεύγεται η παρεμβολή, χρησιμοποιούνται σταθερά επίπεδα ανάκλησης MAP για ένα σύνολο ερωτημάτων είναι ο μέσος όρος Macro-averaging: κάθε ερώτημα μετρά εξίσου R-precision Εάν είχαμε ένα γνωστό (αν και ημιτελές) σύνολο συναφών εγγράφων μεγέθους Rel, τότε υπολογίζεται η ακρίβεια των κορυφαίων Rel εγγράφων που επιστράφηκαν Ένα τέλειο σύστημα θα έβγαζε 1.0. May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26
Διακύμανση (Variance) Κεφάλαιο 8.4 Για μια συλλογή ελέγχου, είναι σύνηθες ένα σύστημα να μη δουλεύει καλά για ορισμένες πληροφοριακές ανάγκες (π.χ., MAP = 0.1) ενώ πολύ καλά για άλλες (π.χ., MAP = 0.7) Πράγματι, συνήθως η διακύμανση στην απόδοση του ίδιου συστήματος για πολλαπλά ερωτήματα είναι πολύ μεγαλύτερη από τη διακύμανση διαφορετικών συστημάτων στο ίδιο ερώτημα Άρα, υπάρχουν εύκολες και δύσκολες ανάγκες πληροφόρησης! May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27
ΔΗΜΙΟΥΡΓΙΑ ΣΥΛΛΟΓΩΝ ΕΛΕΓΧΟΥ ΓΙΑ ΑΞΙΟΛΟΓΗΣΗ ΑΠ May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28
Συλλογές Ελέγχου Κεφάλαιο 8.5 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29
Από Συλλογές Εγγράφων σε Συλλογές Ελέγχου Χρειάζονται ακόμη Ερωτήματα ελέγχου (Test queries) Αποτιμήσεις συνάφειας (Relevance assessments) Ερωτήματα ελέγχου Πρέπει να είναι σχετικά με τα διαθέσιμα έγγραφα Καλύτερα σχεδιάζονται από ειδικούς του κλάδου Η χρήση τυχαίων όρων γενικά δεν είναι καλή ιδέα Αποτιμήσεις συνάφειας Ανθρώπινοι κριτές, χρονοβόρα διαδικασία Είναι τέτοιες επιτροπές από ανθρώπους τέλειες; Κεφάλαιο 8.5 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30
Στατιστική k για Συμφωνία Μεταξύ Κριτών Στατιστική κ Μέτρηση της συμφωνίας/διαφωνίας μεταξύ κριτών Έχει σχεδιαστεί για κατηγορικές κρίσεις ιορθώνει ένα απλό ποσοστό τυχαίας συμφωνίας Kappa = [ P(A) P(E) ] / [ 1 P(E) ] P(A) ποσοστό φορών που οι κριτές συμφωνούν μεταξύ τους P(E) ποσοστό αναμενόμενης τυχαίας συμφωνίας Κεφάλαιο 8.5 Kappa = 0 για τυχαία συμφωνία, 1 για συμφωνία πάντα May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31
Παράδειγμα Στατιστικής k Κεφάλαιο 8.5 P(A)? P(E)? Πλήθος Εγγράφων Κριτής 1 Κριτής 2 300 Relevant Relevant 70 Nonrelevant Nonrelevant 20 Relevant Nonrelevant 10 Nonrelevant Relevant May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32
Παράδειγμα Στατιστικής k Κεφάλαιο 8.5 P(A) = 370/400 = 0.925 P(nonrelevant) = (10+20+70+70)/800 = 0.2125 P(relevant) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 0.665)/(1-0.665) = 0.776 Kappa > 0.8 = good agreement 0.67 < Kappa < 0.8 -> προσωρινά συμπεράσματα [Carletta 96] Εξαρτάται από το σκοπό της μελέτης Για >2 κριτές: μέσος όρος ζευγών τιμών kappa May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33
TREC Κεφάλαιο 8.2 TREC Ad Hoc task από τα πρώτα 8 TREC είναι κλασικό θέμα ΑΠ 50 λεπτομερείς ανάγκες πληροφόρησης κάθε χρόνο Ανθρώπινες αποτιμήσεις για τα επιστραφόμενα αποτελέσματα Πιο πρόσφατες σχετικές συλλογές: Web track, HARD Ένα ερώτημα TREC (TREC 5) <top> <num> Number: 225 <desc> Description: What is the main function of the Federal Emergency Management Agency (FEMA) and the funding level provided to meet emergencies? Also, what resources are available to FEMA such as people, equipment, facilities? </top> May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34
Άλλες Πρότυπες Συλλογές Ελέγχου Κεφάλαιο 8.2 GOV2 Άλλη συλλογή του TREC/NIST 25 εκατομμύρια ιστοσελίδες Η μεγαλύτερη προσιτή συλλογή Είναι όμως 3 τάξεις μεγέθους μικρότερη από το ευρετήριο των Google/Yahoo/MSN NTCIR Για γλώσσες ανατολικής Ασίας και διαγλωσσική ανάκτηση πληροφοριών (cross-language information retrieval) Cross Language Evaluation Forum (CLEF) Επικεντρωμένη σε ευρωπαϊκές γλώσσες και διαγλωσσική ανάκτηση πληροφοριών Πολλά άλλα May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35
Επίδραση Συμφωνίας Κριτών Κεφάλαιο 8.5 Η επίδραση στην απόλυτη απόδοση μπορεί να είναι σημαντική (0.32 vs 0.39) Όμως η επίδραση στη σχετική κατάταξη διαφορετικών συστημάτων είναι μικρή Ας υποθέσουμε ότι θέλουμε να μάθουμε εάν ο αλγόριθμος Α είναι καλύτερος από τον αλγόριθμο Β Ένα κλασικό πείραμα ΑΠ θα μας δώσει μια αξιόπιστη απάντηση σε αυτή την ερώτηση May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36
Κριτική Απλής Συνάφειας Κεφάλαιο 8.5.1 Συνάφεια vs Οριακή Συνάφεια (Marginal Relevance) Ένα έγγραφο μπορεί να θεωρηθεί περιττό ακόμη και εάν είναι πολύ συναφές ιπλότυπα έγγραφα Η ίδια πληροφορία από διαφορετικές πηγές Η οριακή συνάφεια είναι καλύτερο μέτρο της χρησιμότητας για το χρήστη Η χρήση διακριτών γεγονότων ή οντοτήτων ως μονάδων αξιολόγησης μετρά αμεσότερα την πραγματική συνάφεια Όμως δυσχεραίνει τη δημιουργία συλλογών ελέγχου είτε την αναφορά στο άρθρο του Carbonell May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37
Μπορούμε να Αποφύγουμε τις Κεφάλαιο 8.6.3 Ανθρώπινες Κρίσεις; Όχι υσχεραίνει την πειραματική εργασία Ειδικά για μεγάλη κλίμακα Σε κάποιες πολύ συγκεκριμένες περιπτώσεις, μπορούν να χρησιμοποιηθούν υποκατάστατα Π.χ.: για προσεγγιστική ανάκτηση διανυσματικού χώρου, μπορούμε να συγκρίνουμε τα συνημίτονα των κοντινότερων εγγράφων με αυτά που βρίσκει ένας προσεγγιστικός αλγόριθμος ανάκτησης Όμως εάν έχουμε συλλογές ελέγχου, μπορούμε να τις επαναχρησιμοποιούμε (so long as we don t overtrain too badly) May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38
Αξιολόγηση σε Μεγάλες Μηχανές Αναζήτησης Οι μηχανές αναζήτησεις έχουν συλλογές ελέγχου ερωτημάτων και καταταγμένων (με το χέρι) αποτελεσμάτων Η ανάκληση είναι δύσκολο να μετρηθεί στον Παγκόσμιο Ιστό Οι μηχανές αναζήτησης συχνά μετρούν την ακρίβεια των κορυφαίων k (precision at top k), π.χ., k = 10... Ή μέτρα που επιβραβεύουν τη σωστή ανάκτηση του rank 1 περισσότερο από του rank 10 NDCG (Normalized Cumulative Discounted Gain) Οι μηχανές αναζήτησης χρησιμοποιούν επίσης διαφορετικά μέτρα από τη συνάφεια Καταγραφή πλοήγησης (Clickthrough) ή συχνότητα επιλογής του πρώτου αποτελέσματος εν είναι αξιόπιστη εάν κοιτάμε ένα clickthrough αλλά αρκετά αξιόπιστη όταν συναθροίσουμε αρκετές Μελέτες συμπεριφοράς χρήστη στο εργαστήριο A/B έλεγχοι Κεφάλαιο 8.6.3 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39
Έλεγχοι Α/Β Κεφάλαιο 8.6.3 Σκοπός: ελέγχουμε μία καινοτομία Προαπαιτούμενο: Υπάρχει και λειτουργεί μια μεγάλη μηχανή αναζήτησης Βάζουμε τους περισσότερους χρήστες να χρησιμοποιούν το παλιό σύστημα Ανακατευθύνουμε ένα μικρό ποσοστό κίνησης (π.χ., 1%) στο τροποποιημένο σύστημα που περιλαμβάνει την καινοτομία Αξιολογούμε με ένα αυτοματοποιημένο μέτρο όπως συχνότητα επιλογής πρώτου αποτελέσματος Τώρα μπορούμε ξεκάθαρα να δούμε εάν η καινοτομία βελτιώνει την ικανοποίηση χρήστη Μάλλον πρόκειται για τη μεθοδολογία αξιολόγησης που εμπιστεύονται περισσότερο οι μεγάλες μηχανές αναζήτησης Είναι λιγότερο ισχυρή από άλλες μεθόδους (όπως η πολλαπλή γραμμική παλινδρόμηση - multivariate regression analysis), αλλά είναι πιο εύκολη και κατανοητή May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40
ΠΑΡΟΥΣΙΑΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41
Περιλήψεις Αποτελεσμάτων Κεφάλαιο 8.7 Έχοντας κατατάξει τα έγγραφα που ταιριάζουν με ένα ερώτημα, θέλουμε να παρουσιάσουμε μια λίστα αποτελεσμάτων Συνήθως, μια λίστα τίτλων εγγράφων συν μια σύντομη περίληψη, γνωστό κι ως 10 blue links May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42
Περιλήψεις Κεφάλαιο 8.7 Ο τίτλος συχνά εξάγεται από τα μεταδεδομένα των εγγράφων. Τι κάνουμε με τις περιλήψεις; Αυτή η περιγραφή είναι πολύ σημαντική Ο χρήστης μπορεί να αναγνωρίσει καλά/σχετικά αποτελέσματα με βάση την περιγραφή ύο βασικά είδη: Στατικές (Static) υναμικές (Dynamic) Μια στατική περίληψη (static summary) εγγράφου είναι πάντα η ίδια, ανεξάρτητα από το ερώτημα Μια δυναμική περίληψη (dynamic summary) είναι μια προσπάθεια εξαρτώμενη από το ερώτημα (query-dependent) να εξηγήσει γιατί το έγγραφο ανακτήθηκε από το ερώτημα May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43
Στατικές Περιλήψεις Κεφάλαιο 8.7 Στα περισσότερα συστήματα, η στατική περίληψη είναι υποσύνολο του εγγράφου Απλούστερη ευριστική: οι πρώτες 50 (ή περίπου αυτό μπορεί να αλλάζει) λέξεις του εγγράφου Η περίληψη αποθηκεύεται προσωρινά κατά την ευρετηρίαση Πιο εκλεπτυσμένη: εξαγωγή από κάθε έγγραφο ενός συνόλου σημαντικών προτάσεων ( key sentences) Απλές ευριστικές από Επεξεργασία Φυσικής Γλώσσας (NLP) για βαθμολόγηση κάθε πρότασης Η περίληψη παράγεται από τις προτάσεις με κορυφαίες βαθμολογίες Ακόμη πιο εκλεπτυσμένη: σύνθεση περίληψης με τεχνικές NLP Σπάνια χρησιμοποιείται στην ΑΠ, δείτε δουλειές σε δημιουργία περιλήψεων κειμένων (text summarization) May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44
Δυναμικές Περιλήψεις Κεφάλαιο 8.7 Παρουσίαση ενός ή περισσότερων παραθύρων ( windows ) μέσα στο έγγραφο που περιέχουν πολλούς όρους ερωτήματος KWIC snippets: Keyword in Context presentation 45 May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45
Τεχνικές για Δυναμικές Περιλήψεις Κεφάλαιο 8.7 Εύρεση μικρών παραθύρων (windows) στο έγγραφο που περιέχουν τους όρους ερωτήματος Απαιτεί γρήγορη ανάκτηση παραθύρων από μια κρυφή μνήμη όπου τοποθετούνται έγγραφα Βαθμολόγηση κάθε παραθύρου ως προς το ερώτημα Χρήση διάφορων χαρακτηριστικών, όπως μέγεθος παραθύρου, θέση στο έγγραφο, κτλ. Συνδυασμός χαρακτηριστικών με κάποια συνάρτηση βαθμολόγησης Προκλήσεις στην αξιολόγηση: κρίνοντας περιλήψεις Ευκολότερο να γίνουν συγκρίσεις ανά δύο, παρά δυαδικές αξιολογήσεις συνάφειας May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46
Quicklinks Για ένα ερώτημα πλοήγησης (navigational query) όπως united airlines η ανάγκη πληροφόρησης του χρήστη μάλλον ικανοποιείται στο www.united.com Τα Quicklinks παρέχουν τρόπους πλοήγησης σε αυτή τη home page May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47
May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 48
Εναλλακτικές Παρουσιάσεις Αποτελεσμάτων; May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 49
Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαιο 8 MIR κεφάλαιο 3 MG 4.5 Carbonell and Goldstein 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries. SIGIR 21. May 24, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 50