Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών ΗΥ-6 Συστήµατα Ανάκτησης Πληροφοριών 7-8 Εαρινό Εξάµηνο Άσκηση Λύσεις ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Θεωρείστε µια συλλογή αξιολόγησης που αποτελείται από έγγραφα {d,, d }. Η συλλογή αξιολόγησης περιλαµβάνει µια επερώτηση ; για την οποία γνωρίζουµε ότι τα έγγραφα της συλλογής που είναι συναφή µε αυτήν είναι, συγκεκριµένα τα {d, d, d 8, d 9, d }. Θέλουµε να αξιολογήσουµε την αποτελεσµατικότητα τριών συστηµάτων S, S και S. Για το λόγο αυτό υποβάλλουµε σε κάθε σύστηµα την επερώτηση q και λαµβάνουµε τις εξής απαντήσεις: Ans(S,q) = < d, d, d 8, d, d 9, d 7, d 8, d 6, d, d > Ans(S,q) = < d 9, d 7, d, d 6, d, d, d 8, d, d, d 8, d 9, d > Ans(S,q) = < d 8, d, d, d, d > Το αριστερότερο στοιχείο της κάθε απάντησης παριστάνει το υψηλότερα διαβαθµισµένο έγγραφο, αυτό που το σύστηµα υπολόγισε ως το πιο συναφές µε την επερώτηση q. Συγκρίνετε τα τρία αυτά συστήµατα ως προς τα εξής µέτρα: (α) Ακρίβεια (Precision). (β) Ανάκληση (), (γ) F-Measure, (δ) R-Ακρίβεια (R-Precision) και (ε) Fallout. ώστε τα συγκεντρωτικά στοιχεία σε ένα πίνακα της µορφής: System Precision F-Measure R-Precision Fallout S S S Ranking of Systems Σχολιάστε το αποτέλεσµα της σύγκρισης. Λύση (α) Precision - To S επιστρέφει συνολικά έγγραφα εκ των οποίων τα είναι συναφή εποµένως Precision( S ) = =. - To S επιστρέφει συνολικά έγγραφα εκ των οποίων τα είναι συναφή εποµένως Precision( S ) = =.7 - To S επιστρέφει συνολικά έγγραφα εκ των οποίων τα είναι συναφή εποµένως Precision( S ) = =.6 (β) Το πλήθος των συνολικών συναφών εγγράφων για την επερώτηση q είναι.

- Το S επιστρέφει συναφή, εποµένως ( S ) = =.8 - Το S επιστρέφει συναφή, εποµένως ( S ) = = - Το S επιστρέφει συναφή, εποµένως ( S ) = =.6 (γ) F-Measure Ως F-Measure ορίζεται το αρµονικό µέσο της ανάκλησης και της ακρίβειας. Συγκεκριµένα : ipir F Measure= = P+ R + P R P( S) R( S)..8.6 - F Measure( S) = i i. P( S) R( S) = i i +.+.8 =. = P( S) R( S).7.8 - F Measure( S) = i i.89 P( S) R( S) = i i +.7+ =.7 = P( S) R( S).6.6.7 - F Measure( S) = i i.6 P( S) R( S) = i i +.6+.6 =. = (δ) R-Precision R-Precision είναι η ακρίβεια ενός συστήµατος στην R-θέση της διάταξης των αποτελεσµάτων όπου R είναι το πλήθος των συναφών εγγράφων για µια επερώτηση. Εδώ το συνολικό πλήθος των συναφών εγγράφων για την επερώτηση q είναι. (R=) R Precision( S) = Precision( S ) = = =. R Precision( S) = Precision( S ) position= = =. R Precision( S) = Precision( S ) position= = =.6 - position - - (ε) Fallout Το Fallout είναι το πλήθος των µη συναφών εγγράφων που έχει ανακτήσει το σύστηµα για µία επερώτηση q προς το συνολικό πλήθος των µη συναφών εγγράφων. Το συνολικό πλήθος των µη συναφών εγγράφων για την επερώτηση q είναι. - Το S επιστρέφει 6 µη συναφή έγγραφα, άρα - Το S επιστρέφει 7 µη συναφή έγγραφα, άρα - Το S επιστρέφει µη συναφή έγγραφα, άρα 6 Fallout( S ) = =. 7 Fallout( S ) = =.67 Fallout( S ) = =. Συγκεντρωτικά ο πίνακας έχει ως εξής :

System Precision F-Measure R-Precision Fallout S..8... S.7.89..67 S.6.6.6.6. Ranking of Systems <S,S,S> <S,S,S> <S,S,S> <S,S,S> <S,S,S> Precision: Και τα συστήµατα έχουν τιµές ακρίβειας πολύ µικρότερες από. Αυτό σηµαίνει ότι και τα συστήµατα επιστρέφουν εκτός από συναφή έγγραφα και αρκετά µη-συναφή. Ωστόσο το τρίτο σύστηµα υπερέχει επειδή το 6 % των εγγράφων που περιέχει είναι συναφή. Από την άλλη τα άλλα επιστρέφουν περισσότερα µη συναφή έγγραφα. Τυπικά το S είναι καλύτερο από το S. Οι τιµές είναι λογικές αν αναλογιστούµε ότι το S επιστρέφει µόνο συναφή έγγραφα (σε αντίθεση µε, για τα S, S αντίστοιχα) όµως επιστρέφει µόνο µη συναφή. : Όπως φαίνεται και από τις τιµές της ανάκλησης του πίνακα το καλύτερο σύστηµα όσον αφορά την ανάκληση είναι το S το οποίο επιστρέφει όλα τα συναφή έγγραφα της συλλογής. Ακολουθεί το S και τελευταίο είναι το S. F-Measure: Χρησιµοποιώντας το F-Measure µπορούµε να προσδιορίσουµε ποιο σύστηµα υπερέχει κοιτάζοντας το και τόσο από την σκοπιά της ακρίβειας όσο και από την σκοπιά της ανάκλησης. Αυτό διότι ένα σύστηµα έχει υψηλό F-Measure όταν έχει υψηλό και υψηλό Precision. Έτσι το S είναι προτιµητέο επειδή συνδυάζει παράλληλα υψηλές τιµές για και Precision. Ακολουθεί το S και τελευταίο είναι το S. R-Precision: Το Καλύτερο σύστηµα από πλευράς R-ακρίβειας είναι το S επειδή επιστρέφει όλα τα συναφή έγγραφα που έχει ανακτήσει στις πρώτες θέσεις. Ακολουθεί το S και τέλος το S. Παρατηρούµε εδώ ότι αν και τα S και S επιστρέφουν περισσότερα συναφή έγγραφα από το S, εντούτοις δεν τα επιστρέφουν στην αρχή της διάταξης. Το S αντίθετα επιστρέφει πρώτα τα συναφή έγγραφα και γι αυτό είναι προτιµότερο από πλευράς R-ακρίβειας. Fallout: Το S είναι το σύστηµα το οποίο επιστρέφει τα λιγότερα µη-συναφή έγγραφα και άρα είναι προτιµότερο από πλευράς Fallout. Ακολουθεί το S και µετά το S. Άσκηση Σχεδιάστε τις καµπύλες ακρίβειας/ανάκλησης (P/R curves) των συστηµάτων της προηγούµενης άσκησης. Για κάθε σύστηµα δώστε γραφήµατα: ένα που να απεικονίζει τα P/R σηµεία όπως προκύπτουν από τις απαντήσεις και ένα χρησιµοποιώντας κανονικοποιηµένα επίπεδα ανάκλησης (standard recall levels). Αν βλέπατε µόνο αυτά τα τα γραφήµατα (και όχι τις απαντήσεις) θα µπορούσατε να επιλέξετε το καλύτερο σύστηµα; Ένας εναλλακτικός τρόπος αξιολόγησης της αποτελεσµατικότητας ενός συστήµατος είναι οι καµπύλες -Fallout. Ορίζονται ανάλογα µε τις καµπύλες Precision-, µόνο που τώρα ο άξονας Χ έχει τιµές Fallout, ενώ ο Υ έχει τιµές. Σχεδιάστε τις καµπύλες -Fallout των συστηµάτων της προηγούµενης άσκησης. Λύση Precision/ Curves S Υπολογίζουµε τα σηµεία για κάθε συναφές έγγραφο στα αποτελέσµατα του συστήµατος. Το S ανακτά συνολικά έγγραφα ο Συναφές: ( S ) = =. Precision( S ) = =

ο Συναφές: ο Συναφές: ο Συναφές: ( S ) = =. ( S ) = =.6 ( S ) = =.8 Precision( S ) = =.667 Precision( S ) = =. 9 Precision( S ) = =. Επίσης χρησιµοποιούµε τα καθιερωµένα επίπεδα ανάκλησης {.,.,.,.,.,.,.6,.7,.8,.9,.},8 S Precision,6,,,,,,,,,6,7,8,9, Real Interpolated S Το S ανακτά συνολικά έγγραφα ο Συναφές: ο Συναφές: ο Συναφές: ο Συναφές: ο Συναφές: Και εποµένως: ( S ) = =. ( S ) = =. ( S ) = =.6 ( S ) = =.8 ( S ) = = Precision( S ) = =. Precision( S ) = =. 9 Precision( S ) = =. Precision( S ) = =.6 Precision( S ) = =.7

S Precision,8,6,,,,,,,,,6,7,8,9, Real Interpolated S Το S ανακτά συνολικά έγγραφα ο Συναφές: ο Συναφές: ο Συναφές: ( S ) = =. ( S ) = =. ( S ) = =.6 Precision( S ) = = Precision( S ) = = Precision( S ) = = S Precision,8,6,,,,,,,,,6,7,8,9, Real Interpolated Εάν θέλουµε να διαλέξουµε ένα σύστηµα κοιτώντας µόνο τις P/R curves τότε σίγουρα θα θέλαµε ένα γράφηµα το οποίο θα έχει υψηλές τιµές ακρίβειας για υψηλές τιµές ανάκλησης. Εποµένως ως καλύτερο σύστηµα µπορούµε να επιλέξουµε αυτό του οποίου η καµπύλη προσεγγίζει αυτή την συµπεριφορά. Εναλλακτικά µπορούµε να επιλέξουµε αυτό του οποίου

το εµβαδό (η περιοχή κάτω και δεξιά από την καµπύλη) είναι µεγαλύτερο µιας και µεγαλύτερο εµβαδόν σηµαίνει µεγαλύτερες τιµές ακρίβειας και ανάκλησης. Systems Comparison Precision,9,8,7,6,,,,,,,,,,,,6,7,8,9, S S S Εποµένως φαίνεται ότι το προτιµότερο σύστηµα είναι το S. /Fallout Curves S ο Συναφές: ο Συναφές: ο Συναφές: ο Συναφές: ( S ) = =. ( S ) = =. ( S ) = =.6 ( S ) = =.8 Fallout( S ) = = Fallout( S ) = =.67 6 Fallout( S ) = =. 6 Fallout( S ) = =. S,9,8,7,6,,,,,,,,,,,6,7,8,9 Fallout R/F point

S ο Συναφές: ο Συναφές: ο Συναφές: ο Συναφές: ο Συναφές: ( S ) = =. ( S ) = =. ( S ) = =.6 ( S ) = =.8 ( S ) = = Fallout( S ) = =.67 7 Fallout( S ) = =.67 7 Fallout( S ) = =.67 7 Fallout( S ) = =.67 7 Fallout( S ) = =.67 S,9,8,7,6,,,,,,,,,,,6,7,8,9 R/F point Fallout S ο Συναφές: ο Συναφές: ο Συναφές: ( S ) = =. ( S ) = =. ( S ) = =.6 Fallout( S ) = = Fallout( S ) = = Fallout( S ) = = S,9,8,7,6,,,,,,,,,,,6,7,8,9 R/F point Fallout

Ένα καλό σύστηµα έχει χαµηλές τιµές Fallout (ιδανικά ) για όλες τιµές του ενώ το πρέπει να προσεγγίζει το. Έτσι λοιπόν θεωρούµε ένα σύστηµα καλό όταν οι τιµές που παίρνει στον άξονα των Χ (Fallout) είναι όσο το δυνατόν χαµηλότερες (και άρα ανακτά πολύ µικρό πλήθος από µη συναφή έγγραφα) όσο οι τιµές που παίρνει στον άξονα των Y () είναι όσο γίνεται µεγαλύτερες (και άρα ανακτά µεγάλο πλήθος από συναφών εγγράφων). Για παράδειγµα ένα ιδανικό σύστηµα έχει = & Fallout=. Έτσι λοιπόν κοιτώντας τις καµπύλες /Fallout µπορούµε εύκολα να καταλήξουµε στο ίδιο συµπέρασµα που καταλήξαµε κοιτώντας τις /Fallout καµπύλες, ότι δηλαδή το σύστηµα S έχει καλύτερη συµπεριφορά σε σχέση µε τα άλλα επειδή επιστρέφει τα συναφή έγγραφα πρώτα. Άσκηση Θεωρείστε ότι έχουµε µια συλλογή αξιολόγησης που αποτελείται από ένα σύνολο εγγράφων V και ένα σύνολο επερωτήσεων Q. Για κάθε ζεύγος q u Q V έχει οριστεί το label ( u ) q i, το οποίο εκφράζει τη συνάφεια του u i ως προς το σε µία κλίµακα από το έως το (,,,,,) όπου =χειρότερο,, =καλύτερο. Έστω ότι θέλουµε να αξιολογήσουµε την απόκριση ενός συστήµατος σε µία επερώτηση q. Έστω ότι τα κορυφαία k στοιχεία της απόκρισης είναι το διατεταγµένο σύνολο διάθεση µας τα εξής µέτρα:, i u,..., u k. Για την αξιολόγηση του έχουµε στην (α) (β) (γ) k i= labelq ( ui ) M ( k) = ( ) k M ( k) = ( labelq ( ui ) ) log ( i+ ) i= k labelq ( ui ) M ( k) = ( ) log ( i+ ) i= Σχολιάστε σύντοµα το κάθε ένα. Συγκρίνετε τα και δικαιολογείστε ποιο θα χρησιµοποιούσατε. Στηρίξτε τις απόψεις δίνοντας µικρά παραδείγµατα. Λύση (α) Παρατηρούµε ότι για κάθε έγγραφο η τιµή που θα προστίθεται στο συνολικό άθροισµα θα είναι {,,, 7,, }. Εποµένως εάν η απάντηση έχει µη συναφή έγγραφα τότε αυτά δεν θα συνεισφέρουν καθόλου στο γενικό άθροισµα ενώ εάν έγγραφο είναι πολύ καλό (δηλαδή label ( u ) = ) συνεισφέρει πολύ περισσότερο από άλλα λιγότερο σχετικά στο γενικό q i άθροισµα. Εποµένως βλέπουµε ότι αυτό το µέτρο πριµοδοτεί ιδιαίτερα τα πολύ συναφή έγγραφα κάτι το οποίο είναι γενικά θεµιτό. Όµως δεν λαµβάνει υπ όψιν του καθόλου την διάταξη των εγγράφων. Συγκεκριµένα το ίδιο θα συνεισφέρει στο γενικό άθροισµα ένα πολύ καλό έγγραφο είτε εµφανίζεται στην πρώτη είτε εµφανίζεται στην τελευταία θέση του διατεταγµένου συνόλου. Έτσι για παράδειγµα έστω ότι έχουµε τις διατεταγµένες απαντήσεις

ans =,,,, και ans =,,,, (όπου αντί για έγγραφα έχουν τοποθετηθεί τα αντίστοιχα labelq ( u i ) ). Τόσο η ans όσο και η ans έχουν πολύ καλά έγγραφα και κακά. Όµως η πρώτη απάντηση είναι σαφώς καλύτερη από την δεύτερη αφού επιστρέφει τα καλά έγγραφα πρώτα σε αντίθεση µε τη άλλη που τα επιστρέφει στο τέλος. Κι όµως το µέτρο M µας δίνει M () = ( + + + + ) = 6 για την ans M () = ( + + + + ) = 6 για την ans (β) Το δεύτερο µέτρο που έχουµε στην διάθεση µας παρατηρούµε ότι πλέον λαµβάνει υπ όψιν την θέση στην οποία εµφανίζεται το κάθε έγγραφο. Συγκεκριµένα η βαθµολογία του κάθε εγγράφου διαιρείται µε ένα συντελεστή log ( ) i+. Εποµένως το πρώτο έγγραφο θα διαιρεθεί µε log (), το δεύτερο µε log () κ.ο.κ. Έτσι πλέον ένα έγγραφο που εµφανίζεται στις πρώτες θέσεις της διάταξης συνεισφέρει περισσότερο από ένα έγγραφο που βρίσκεται σε κάποια θέση πιο µετά. Ωστόσο βλέπουµε ότι πλέον τα έγγραφα ανάλογα µε την βαθµολογία τους παίρνουν τιµές : {-,,,,,}. Έτσι λοιπόν τα πολύ καλά έγγραφα δεν πριµοδοτούντε λίγο παραπάνω (όπως µε το µέτρο M ), Για παράδειγµα έστω οι απαντήσεις: ans =,,,, και ans =,,,,. Αν χρησιµοποιήσουµε το µέτρο M θα βρούµε ότι M () = ( +.6 + +. +.9) =. για την ans M () = ( + + +.7 +.) =.7 για την ans Παρατηρούµε πόσο κοντά είναι οι τιµές του µέτρου M για τις απαντήσεις και µάλιστα θεωρεί την απάντηση ans καλύτερη (η οποία το πιο συναφές έγγραφο που περιέχει είναι ένα βαθµού στην η θέση της διάταξης) από την ans (η οποία περιέχει έγγραφα βαθµού στις θέσεις, ). (γ) Το τρίτο µέτρο λαµβάνει υπ όψιν την θέση στην οποία βρίσκεται ένα έγγραφο αφού διαιρεί µε ένα συντελεστή log ( i+ ) (όπως και το µέτρο M ). Επίσης κάθε έγγραφο συνεισφέρει εκθετικά µε τιµές {,,, 7,, } (όπως και το µέτρο M ). Έτσι τα πολύ συναφή έγγραφα συνεισφέρουν περισσότερο στο άθροισµα απ ότι τα λιγότερο συναφή. Τέλος τα µη συναφή έγγραφα δεν καταστρέφουν το γενικό άθροισµα µειώνοντας το. Εποµένως το M φαίνεται να συνδυάζει τα προτερήµατα των παραπάνω. Έστω για παράδειγµα οι απαντήσεις ans =,,,, και ans =,,,, Χρησιµοποιώντας το µέτρο M έχουµε: M () = ( +.89 +. +.9 +.6) =.8 για την ans M () = ( +.6 +. +. +.99) = 7.7 για την ans Εποµένως το µέτρο M είναι καλύτερο από πλευράς συνάφειας αλλά δεν λαµβάνει υπ όψιν την θέση που βρίσκεται ένα έγγραφο ενώ το µέτρο M λαµβάνει υπ όψιν του τις θέσεις στις οποίες βρίσκονται τα έγγραφα αλλά δεν είναι τόσο καλό από πλευράς συνάφειας. Τέλος το M συνδυάζει τα πλεονεκτήµατα και των παραπάνω και έτσι είναι η καταλληλότερη επιλογή.

Άσκηση { Έστω ότι η συλλογή αξιολόγησης αποτελείται από έγγραφα d,..., d } και γνωρίζουµε ότι υπάρχουν έγγραφα της συλλογής, συγκεκριµένα τα { d, d, d }, που είναι συναφή µε την επερώτηση q. Θέλουµε να αξιολογήσουµε την αποτελεσµατικότητα τριών συστηµάτων S, S και S τα οποία επιστρέφουν ως απάντηση έγγραφα συνοδευµένα από ένα βαθµό συνάφειας. Υποβάλλουµε σε κάθε σύστηµα την επερώτηση q και λαµβάνουµε τις εξής απαντήσεις: Ans( S, q) = d, d, d d, d Ans( S, q) = d, d, d { } = { } Η απάντηση {, },, Ans( S, q) d, d, d, d 8 d d8 d d σηµαίνει ότι τα d, d8 ισοβαθµούν στην πρώτη θέση (άρα έλαβαν το µεγαλύτερο βαθµό συνάφειας). Η απάντηση { } d, d, d d, d σηµαίνει ότι το d έλαβε το µεγαλύτερο βαθµό, ενώ µετά ακολουθεί µια οµάδα από έγγραφα τα οποία ισοβαθµούν και στο τέλος της κατάταξης βρίσκεται το d. Για κάθε ένα από τα συστήµατα απαντήστε στα ακόλουθα ερωτήµατα: (α) Ποια είναι η R-Ακρίβεια (R-Precision); (β) Ποιο είναι το αναµενόµενο µήκος αναζήτησης για να βρούµε συναφή; Λύση (α) Η R-ακρίβεια είναι η ακρίβεια στην R θέση της διάταξης, όπου R είναι το πλήθος των συναφών εγγράφων. Εδώ έχουµε R= εποµένως S Στην η θέση της διάταξης των αποτελεσµάτων παρατηρούµε ότι µπορεί να υπάρχουν d, d d ). Επιπλέον παρατηρούµε ότι µέσα σε αυτά τα διαφορετικά έγγραφα ({ } έγγραφα υπάρχει ένα (το d ) το οποίο είναι συναφές µε την επερώτηση q. Εποµένως οι διαφορετικές θέσεις στις οποίες µπορεί να βρίσκεται το d µπορεί να µας δώσουν διαφορετικές τιµές για την R-ακρίβεια του συστήµατος S. Συγκεκριµένα: R Precision( S) = =.667 όταν το d βρίσκεται στην η ή στην η θέση R Precision( S) = =. όταν το d βρίσκεται σε κάποια από τις θέσεις { η, η,, η } Συνολικά οι διαφορετικές θέσεις στις οποίες µπορεί να βρίσκεται το d είναι και Σε από αυτές τις θέσεις R Precision( S) = =.667 Σε από αυτές τις θέσεις R Precision( S) = =. Εποµένως συνολικά R Precision( S) = i + i = + = =.6 66 66 66

S Εδώ παρατηρούµε ότι στην η θέση της διάταξης συναντάµε το ο συναφές έγγραφο εποµένως: R Precision( S) = = S Στην η θέση της διάταξης συναντάµε το έγγραφο d. Μέχρι εκείνη τη θέση έχουµε ήδη δει ένα συναφές έγγραφο ( d ) και ένα µη συναφές ( d 8 ). Εποµένως: R Precision( S) = =.667 (β) Το αναµενόµενο µήκος αναζήτησης είναι το πλήθος των µη συναφών εγγράφων που πρέπει να αναζητήσουµε προκειµένου να έχουµε ένα συγκεκριµένο πλήθος συναφών εγγράφων. Θέλουµε το µήκος αναζήτησης για να έχουµε συναφή έγγραφα. S Στην απάντηση του συστήµατος S το ο συναφές έγγραφο ( d ) παρατηρούµε ότι µπορεί να βρίσκεται σε κάποια από τις θέσεις { η, η,, η }. Εποµένως ανάλογα µε την θέση που θα βρίσκεται το δεύτερο συναφές έγγραφο µπορεί να έχουµε διαφορετικό µήκος αναζήτησης. Συγκεκριµένα: Εάν το d βρίσκεται στην η θέση τότε το SearchLength( S ) = Εάν το d βρίσκεται στην η θέση τότε το SearchLength( S ) = Εάν το d βρίσκεται στην η θέση τότε το SearchLength( S ) = Εποµένως + +... + SearchLength( S) = =. S Το δεύτερο συναφές έγγραφο το συναντάµε στην η θέση και εποµένως SearchLength( S ) = S Το δεύτερο συναφές έγγραφο το συναντάµε στην η θέση και εποµένως έχουµε ήδη δει ένα µη συναφές. Εποµένως ( ) SearchLength S =