Ανάκτηση Πληροφορίας

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #13 Αξιολόγηση Συστηµάτων IR Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1

Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 3

Γιατί Αξιολόγηση; Υπάρχουν πολλά µοντέλα/αλγόριθµοι/συστήµατα ανάκτησης πληροφορίας Ποιο είναι το καλύτερο; Ποια είναι η καλύτερη προσέγγιση ως προς: Τη συνάρτηση βαθµολόγησης σχετικότητας (εσωτερικό γινόµενο, συνηµίτονο, ) Επιλογή όρων (αποµάκρυνση stopwords, stemming ) Στάθµιση όρων (TF, TF-IDF, ) Πόσο χαµηλά στη λίστα κατάταξης αποτελεσµάτων πρέπει να κοιτάξει ένας χρήστης για να βρει µερικά/όλα τα σχετικά έγγραφα; 2 4

Παράδειγµα Αξιολόγησης Με δεδοµένο σχήµα στάθµισης όρων, από όλα τα σχήµατα κατάταξης αποτελεσµάτων που είναι συµβατά µε αυτό, ποιο έχει την καλύτερη επίδοση; Πρέπει να συγκρίνουµε 16 διαφορετικά σχήµατα Για δίκαιη σύγκριση: Η αξιολόγηση πρέπει να γίνει στην ίδια συλλογή κειµένων Η αξιολόγηση πρέπει να γίνει στο ίδιο σύνολο ερωτήσεων Όλες οι προσεγγίσεις πρέπει να αξιολογηθούν µε βάση τις ίδιες µετρήσεις 3 υσκολίες στην Αξιολόγηση Συστηµάτων IR Η αποτελεσµατικότητα έχει να κάνει µε την σχετικότητα των ανακτηµένων αντικειµένων Συνήθως, η σχετικότητα δεν είναι δυαδική αλλά συνεχής Ακόµα και αν είναι δυαδική, µπορεί να είναι δύσκολο να αποφασίσει κάποιος Από την πλευρά του χρήστη η σχετικότητα Εξαρτάται από την κρίση του συγκεκριµένου χρήστη Σχετίζεται µε τις τρέχουσες ανάγκες του χρήστη Εξαρτάται από την αντίληψη και συµπεριφορά του χρήστη Αλλάζει µε το χρόνο 4 5

Human Labeled Corpora (Gold Standard) Επιλέγεται ένα corpus κειµένων Συλλέγεται ένα σύνολο ερωτήσεων για το corpus Ένας ή περισσότεροι άνθρωποι-ειδικοί κρίνουν σχολαστικά όλα τα σχετικά κείµενα για το κάθε query Συνήθως υιοθετείται κρίση δυαδικής σχετικότητας Απαιτεί σηµαντικό κόπο για µεγάλα corpora/queries 5 Ανάκληση και Ακρίβεια (Recall and Precision) Entire document collection Relevant documents Retrieved documents relevant irrelevant retrieved & irrelevant retrieved & relevant retrieved Not retrieved & irrelevant not retrieved but relevant not retrieved Αριθµός σχετικών κειµένων που ανακτήθηκαν ανάκληση = Συνολικός αριθµός σχετικών κειµένων ακρίβεια = Αριθµός σχετικών κειµένων που ανακτήθηκαν Συνολικός αριθµός κειµένων που ανακτήθηκαν 6 6

Ο Καθορισµός της Ανάκλησης είναι ύσκολος Precision vs. Recall: Ακρίβεια = Η ικανότητα ανάκτησης των πιο σχετικών κειµένων στις πρώτες θέσεις της κατάταξης Ανάκληση = Η ικανότητα εύρεσης όλων των σχετικών κειµένων στο corpus Ο συνολικός αριθµός σχετικών κειµένων µερικές φορές δεν είναι διαθέσιµος ειγµατοληψία από τη συλλογή και εκτίµηση σχετικότητας για αυτά τα δείγµατα Εφαρµογή διαφορετικών αλγορίθµων ανάκτησης στην ίδια συλλογή για το ίδιο query. Το ολικό άθροισµα των σχετικών κειµένων θεωρείται το σύνολο των σχετικών κειµένων 7 Καµπύλη Recall/Precision Η ανάκληση και η ακρίβεια είναι αντιστρόφως ανάλογες Μετρούµε την ακρίβεια σε διαφορετικά επίπεδα ανάκλησης x precision x x x recall 8 7

Recall vs. Precision Βρίσκονται σχετικά κείµενα αλλά χάνονται πολλά επίσης σχετικά Το ιδανικό 1 Precision 0 Recall 1 Επιστρέφονται τα περισσότερα σχετικά κείµενα αλλά και πολλά µη-σχετικά 9 Παράδειγµα n doc # relevant 1 588 x 2 589 x 3 576 4 590 x 5 986 6 592 x 7 984 8 988 9 578 10 985 11 103 12 591 13 772 x 14 990 Συνολικός αριθµός σχετικών κειµένων = 6 Έλεγχος κάθε νέου σηµείου ανάκλησης: R=1/6=0.167; P=1/1=1 R=2/6=0.333; P=2/2=1 R=3/6=0.5; P=3/4=0.75 R=4/6=0.667; P=4/6=0.667 R=5/6=0.833; p=5/13=0.38 Έλλειψη ενός σχετικού κειµένου Η ανάκληση δεν φτάνει ποτέ στο 100% 10 8

Παρεµβολή σε Καµπύλες Recall/Precision Παρεµβολή µιας τιµής ακρίβειας για κάθε standard επίπεδο ανάκλησης: r j {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0} r 0 = 0.0, r 1 = 0.1,, r 10 =1.0 Η τιµής ακρίβειας που παρεµβάλλεται στο j standard επίπεδο ανάκλησης είναι η µέγιστη γνωστή ακρίβεια µεταξύ των επιπέδων ανάκλησης j και j +1: P(r j ) =max P(r) r j r r j+1 11 Παράδειγµα Precision 1.0 0.8 0.6 0.4 0.2 0.2 0.4 0.6 0.8 1.0 Recall 12 9

Μέση Καµπύλη Recall/Precision ηµιουργία µέσου όρου επίδοσης σε ένα µεγάλο σύνολο queries Υπολογισµός µέσης ακρίβειας σε κάθε standard επίπεδο ανάκλησης για όλα τα queries Σχεδίαση µέσων καµπυλών precision/recall για την συνολική αξιολόγηση συστηµάτων σε ένα corpus κειµένων/queries Μέσος όρος: Micro-average: µέσος όρος σε όλα τα queries Macro-average: µέσος όρος του precision/recall σε κάθε query 13 Πώς Συγκρίνουµε ύο ή Περισσότερα Συστήµατα Η καµπύλη που βρίσκεται πιο κοντά στην πάνω δεξιά γωνία υποδεικνύει την καλύτερη επίδοση 1 Precision 0.8 0.6 0.4 0.2 0 NoStem Stem Recall 14 1 0

Καµπύλη Recall/Precision Είναι δύσκολο να διακρίνουµε ποια από τις παρακάτω καµπύλες είναι η καλύτερη: precision recall 15 Παράδειγµα 16 1 1

Document Cutoff Levels Άλλος τρόπος αξιολόγησης: Σταθεροποιούµε τον αριθµό των κειµένων ανά επίπεδο: top 5, top 10, top 20, top 50, top 100, top 500 Μέτρηση της ακρίβειας για αυτά τα επίπεδα Μέση τιµή Τρόπος να εστιάσουµε στον αλγόριθµο κατάταξης αποτελεσµάτων 17 R- Precision Η ακρίβεια στην θέση R των αποτελεσµάτων που κατατάσσονται σύµφωνα µε την σχετικότητά τους για ένα query που έχει R σχετικά κείµενα n doc # relevant 1 588 x 2 589 x 3 576 4 590 x 5 986 6 592 x 7 984 8 988 9 578 10 985 11 103 12 591 13 772 x 14 990 R = # σχετικών docs = 6 R-Precision = 4/6 = 0.67 18 1 2

Ιστογράµµατα Ακρίβειας Χρησιµοποιούνται για την σύγκριση δύο αλγορίθµων ανάκτησης RP A (i) και RP B (i) Τιµές R-Precision των αλγορίθµων A & B για το i query RP A / B (i) = RP A (i) RP B (i) Αν RP A/B (i) = 0, οι δύο αλγόριθµοι είναι ισοδύναµοι Αν RP A/B (i) > 0, ο αλγόριθµος Α έχει καλύτερη επίδοση R-Precision A/B 0.8 0.3-0.2-0.7 1 2 3 4 5 6 7 8 9 10-1.2 Query # 19 F-Measure Μέτρηση της επίδοσης που συνδυάζει την ανάκληση και την ακρίβεια Προτάθηκε πρώτη φορά από τον van Rijbergen, 1979 Αρµονικό µέσο ανάκλησης και ακρίβειας: F = 2PR = P + R 1 + 1 R P Σε σύγκριση µε το αριθµητικό µέσο, πρέπει και η ακρίβεια και η ανάκληση να είναι υψηλές για να είναι και το αρµονικό µέσο υψηλό 2 20 10

E-Measure (Παραµετροποιηµένο F-Measure) Παραλλαγή του F-measure που επιτρέπει σταθµισµένη έµφαση στην ακρίβεια έναντι της ανάκλησης: (1+ β E = 2 )PR (1+ β 2 ) = β β 2 P + R 2 Η τιµή του β ελέγχει το trade-off: β = 1: Ίδιο βάρος σε ακρίβεια και ανάκληση (E=F). β > 1: Η ακρίβεια µετρά περισσότερο β < 1: Η ανάκληση µετρά περισσότερο R + 1 P 21 Fallout Rate Προβλήµατα µε την ακρίβεια και την ανάκληση: Ο αριθµός των µη-σχετικών κειµένων στη συλλογή δεν λαµβάνεται υπόψη Η ανάκληση δεν ορίζεται όταν δεν υπάρχει κανένα σχετικό κείµενο στη συλλογή Η ακρίβεια δεν ορίζεται όταν δεν ανακτάται κανένα κείµενο Αριθµός µη - σχετικών κειµένων που ανακτήθηκαν Fallout = Συνολικός αριθµός µη - σχετικών κειµένων στη συλλογή 22 14

Μέση Ακρίβεια Χωρίς Παρεµβολή Πρωταρχική µέθοδος αξιολόγησης για την εργασία κατάταξης αποτελεσµάτων στο ΤREC Τα συστήµατα υποτίθεται ότι επιστρέφουν µία λίστα κατάταξης αποτελεσµάτων Καθορισµός της ακρίβειας σε κάθε θέση της λίστας όπου υπάρχει σχετικό κείµενο Πρόσθεση των αριθµών και διαίρεση δια το συνολικό αριθµό σχετικών κειµένων Μπορεί να περιορίζεται στα πρώτα N κείµενα (π.χ. στο TREC χρησιµοποιούνται τα πρώτα 1000) 23 False alarms / missed detections Χρησιµοποιούνται παραδοσιακά σε εφαρµογές Topic Detection and Tracking Relevant Irrelevant (targets) (non-target) False alarm correct retrieved correct Missed detection not retrieved Number of Missed Detections P miss = Number of Targets Number of False Alarms P fa = Number of Non - Targets 24 15

Μετρήσεις Υποκειµενικής Σχετικότητας Novelty Ratio: Το ποσοστό των κειµένων που ανακτήθηκαν και κρίθηκαν σχετικά από τον χρήστη και τα οποία προηγουµένως δεν τα ήξερε Ικανότητα να βρεθεί νέα πληροφορία σε ένα θέµα Coverage Ratio: Το ποσοστό των σχετικών κειµένων που ανακτήθηκαν σε σχέση µε το συνολικό αριθµό σχετικών κειµένων που ήταν γνωστά στο χρήστη πριν την αναζήτηση Σχετικό όταν ο χρήστης θέλει να βρει κείµενα τα οποία έχει δει προηγουµένως (π.χ., τον ισολογισµό του έτους 2000) User effort: Η εργασία που απαιτείται από τον χρήστη για το σχηµατισµό της ερώτησης, την διενέργεια της αναζήτησης και του ελέγχου των αποτελεσµάτων Response time: Το χρονικό διάστηµα µεταξύ της λήψης της ερώτησης του χρήστη και της παρουσίασης των αποτελεσµάτων 25 Μετρήσεις µε Βάση το Χρήστη Relevant documents (R) Answer set (A) Relevant Docs known to user (U) Relevant Docs known to user which were retrieved (Rk) Relevant Docs previously unknown to user which were retrieved (Ru) 26 16

Αξιολόγηση Μηχανής Αναζήτησης στο Web Αντιπροσωπευτικό σύνολο queries (π.χ. από πραγµατικούς χρήστες) Τα κείµενα βαθµολογούνται από 1 έως 2-1: spam, broken link 0: unrelated 1: related 2: good and relevant Τα κείµενα σταθµίζονται ανάλογα µε τη θέση τους στη λίστα αποτελεσµάτων 27 Μετρήσεις για Μηχανές Αναζήτησης Πόσο γρήγορα δηµιουργεί το index Αριθµός κειµένων ανά ώρα Μέσος όρος µεγέθους κειµένων Πόσο γρήγορα διενεργεί την αναζήτηση Καθυστέρηση ως συνάρτηση του µεγέθους του index Εκφραστικότητα στη γλώσσα των queries Ταχύτητα σε πολύπλοκα queries 28 17

Μετρήσεις για Μηχανές Αναζήτησης Όλα τα προηγούµενα κριτήρια είναι µετρήσιµα Μπορούµε να ποσοτικοποιήσουµε την ταχύτητα, το µέγεθος και µπορούµε να ορίσουµε ακριβώς την εκφραστικότητα Η πιο βασική µέτρηση είναι η ικανοποίηση του χρήστη Πώς µετράται η ικανοποίηση; Η ταχύτητα απόκρισης και το µέγεθος του index είναι σηµαντικοί παράγοντες ικανοποίησης αλλά 29 δεν αρκούν Μέτρηση Ικανοποίησης Χρήστη Ποιος είναι ο χρήστης που προσπαθούµε να ικανοποιήσουµε; Εξαρτάται από την εφαρµογή Web engine: όταν οι χρήστες βρίσκουν αυτό που θέλουν ξαναχρησιµοποιούν τη µηχανή Μπορούµε να µετρήσουµε τον αριθµό των χρηστών που επιστρέφουν στη µηχανή ecommerce site: οι χρήστες βρίσκουν αυτό που θέλουν και κάνουν µία αγορά Μετράµε την ικανοποίηση του χρήστη ή του ecommerce site; Μετράµε το χρόνο που χρειάστηκε κάποιος για να αγοράσει ή το ποσοστό των χρηστών που έγιναν αγοραστές; 30 18

Μέτρηση Ικανοποίησης Χρήστη Enterprise (company/govt/academic): Νοιάζονται για την παραγωγικότητα του χρήστη Πόσο χρόνο γλυτώνουν οι χρήστες µου όταν ψάχνουν για πληροφορίες; Πολλά άλλα κριτήρια έχουν να κάνουν µε το εύρος της πρόσβασης, την ασφαλή πρόσβαση κ.ά. 31 Benchmarking Η αναλυτική αξιολόγηση επίδοσης είναι δύσκολη για συστήµατα ανάκτησης κειµένων επειδή πολλά χαρακτηριστικά όπως η σχετικότητα, κατανοµή λέξεων, κτλ. είναι δύσκολο να περιγραφούν µε µαθηµατική ακρίβεια Η επίδοση ενός συστήµατος µετράται έχοντας ως βάση ένα δεδοµένο σύνολο κειµένων, queries, και κρίσεων σχετικότητας (benchmarking) Τα δεδοµένα επίδοσης έχουν αξία µόνο για το συγκεκριµένο περιβάλλον στο οποίο αξιολογήθηκε το σύστηµα 32 19

Benchmarks Μία συλλογή benchmark περιέχει: Ένα σύνολο από κείµενα και queries/θέµατα Μία λίστα σχετικών κειµένων για κάθε query Standard συλλογές παραδοσιακής IR: Smart collection: ftp://ftp.cs.cornell.edu/pub/smart TREC: http://trec.nist.gov/ Standard document collection Algorithm under test Retrieved result Evaluation Precision and recall Standard queries Standard result 33 Benchmarking Προβλήµατα Τα δεδοµένα επίδοσης έχουν αξία µόνο για το συγκεκριµένο benchmark Η δηµιουργία ενός benchmark corpus είναι δύσκολη και επίπονη εργασία εν έχουν αναπτυχθεί αρκετά benchmark web corpora εν υπάρχουν benchmark corpora για όλες τις γλώσσες 34 20

Πρώτες Συλλογές Ελέγχου Τα πρώτα πειράµατα έγιναν στην συλλογή SMART η οποία είναι αρκετά µικρή (ftp://ftp.cs.cornell.edu/pub/smart) Collection Name Number Of Documents Number Of Queries CACM 3,204 64 1.5 CISI 1,460 112 1.3 CRAN 1,400 225 1.6 MED 1,033 30 1.1 TIME 425 83 1.5 Raw Size (Mbytes) Οι περισσότερες συλλογές είναι διαθέσιµες: http://www.sigir.org 35 The TREC Benchmark TREC: Text REtrieval Conference (http://trec.nist.gov) Ετήσιο συνέδριο από το 1992, συνδιοργανώνεται από το National Institute of Standards and Technology (NIST) και την DARPA Στους συµµετέχοντες δίνονται κοµµάτια ενός συνόλου από κείµενα και TOPICS (από τα οποία πρέπει να βγουν τα queries) ιαφορετικά στάδια για την εκπαίδευση και τον έλεγχο των συστηµάτων Οι συµµετέχοντες υποβάλλουν τις τιµές P/R για τα τελικά κείµενα και ερωτήσεις ελέγχου και τα αποτελέσµατα παρουσιάζονται στο συνέδριο 36 21

Επιδιώξεις των ΤRECs Παροχή ενός κοινού πεδίου σύγκρισης διαφορετικών τεχνικών ανάκτησης πληροφορίας Ίδια σύνολα κειµένων και ερωτήσεων και ίδια µέθοδος αξιολόγησης ηµιουργία κοινών πηγών και εµπειρίας στην ανάπτυξη ενός benchmark Με ισχυρή χορηγία από την αµερικάνικη κυβέρνηση για την ανάπτυξη µεγάλων benchmark συλλογών Ενθάρρυνση της συµµετοχής τόσο από την βιοµηχανία όσο και τον ακαδηµαϊκό χώρο Ανάπτυξη νέων τεχνικών αξιολόγησης, ιδιαίτερα για νέες εφαρµογές Ανάκτηση, routing/filtering, µη-αγγλικές συλλογές, web-based συλλογές, question answering 37 Πλεονεκτήµατα των TRECs Συλλογές µεγάλης κλίµακας (σε σύγκριση µε µερικά MB της συλλογής SMART) Παροχή κρίσεων σχετικότητας Υπό συνεχή ανάπτυξη και βελτίωση µε την υποστήριξη της αµερικανικής κυβέρνησης Ευρεία συµµετοχή: TREC 1: 28 papers 360 pages. TREC 4: 37 papers 560 pages. TREC 7: 61 papers 600 pages. TREC 8: 74 papers. 38 22

TREC Tasks Ad hoc: Θέτονται νέες ερωτήσεις σε ένα στατικό σύνολο δεδοµένων Routing: Θέτονται ίδιες ερωτήσεις σε πληροφορία που συνεχώς αλλάζει Νέα tasks προστίθενται µετά το TREC 5 Interactive, multilingual, natural language, multiple database merging, filtering, very large corpus (20 GB, 7.5 million documents), question answering 39 Χαρακτηριστικά της Συλλογής TREC Και µικρά και µεγάλα κείµενα (από µερικές εκατοντάδες έως πάνω από χίλιες διαφορετικές λέξεις σε ένα κείµενο) Πηγές των κειµένων: WSJ Wall Street Journal articles (1986-1992) 550 M AP Associate Press Newswire (1989) 514 M ZIFF Computer Select Disks (Ziff-Davis Publishing) 493 M FR Federal Register 469 M DOE Abstracts from Department of Energy reports 190 M 40 20

είγµα Κειµένου (σε SGML) <DOC> <DOCNO> WSJ870324-0001 </DOCNO> <HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL> <DD> 03/24/87</DD> <SO> WALL STREET JOURNAL (J) </SO> <IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN> <DATELINE> NEW YORK </DATELINE> <TEXT> John Blair & Co. is close to an agreement to sell its TV station advertising representation operation and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc. executive, industry sources said. Industry sources put the value of the proposed acquisition at more than $100 million.... </TEXT> </DOC> 41 είγµα Query (σε SGML) <top> <head> Tipster Topic Description <num> Number: 066 <dom> Domain: Science and Technology <title> Topic: Natural Language Processing <desc> Description: Document will identify a type of natural language processing technology which is being developed or marketed in the U.S. <narr> Narrative: A relevant document will identify a company or institution developing or marketing a natural language processing technology, identify the technology, and identify one of more features of the company's product. <con> Concept(s): 1. natural language processing ;2. translation, language, dictionary <fac> Factor(s): <nat> Nationality: U.S.</nat> </fac> <def> Definitions(s): 42 </top> 24

Χαρακτηριστικά του TREC Και τα κείµενα και τα queries περιέχουν πολλά διαφορετικά είδη πληροφορίας (πεδία) Η δηµιουργία τυπικών queries (Boolean, Vector Space, κτλ.) είναι ευθύνη του συστήµατος Ένα σύστηµα µπορεί να είναι πολύ καλό στη εύρεση σχετικών κειµένων και στη κατάταξή τους ως προς τη σχετικότητα, όµως αν δεν δηµιουργεί καλά queries από το θέµα, το τελικό P/R θα είναι φτωχό 43 Αξιολόγηση στα TRECs Summary table statistics: Αριθµός θεµάτων, αριθµός κειµένων που ανακτήθηκαν, αριθµός σχετικών κειµένων Recall-precision average: Μέσος όρος ακρίβειας σε 11 επίπεδα ανάκλησης (0 έως 1 µε βήµα 0.1) Document level average: Μέσος όρος ακρίβειας όταν ανακτώνται 5, 10,.., 100, 1000 κείµενα Average precision histogram: ιαφορά του R- precision για ένα topic από τον µέσο όρο του R- precision όλων των συστηµάτων για αυτό το topic 44 25