6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Σχετικά έγγραφα
Information Retrieval

Τι (άλλο) θα δούμε σήμερα;

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

Information Retrieval

Information Retrieval

ΜΥΕ003: Ανάκτηση Πληροφορίας

Information Retrieval

Information Retrieval

Ανάκτηση Πληροφορίας

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Περίληψη διαβάθμισης

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Ανάκτηση Πληροφορίας

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

1. Financial New Times Year MAXk {FREQij} D D D D

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εισαγωγή στον Προγραμματισμό

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Πιθανοκρατικό μοντέλο

Ανάκτηση Δεδομένων (Information Retrieval)

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Information Retrieval

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Δομές Δεδομένων και Αλγόριθμοι

Εισαγωγή στους Υπολογιστές

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΘΕΜΑΤΑ ΤΕΛΙΚΗΣ ΦΑΣΗΣ

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

Ανάκτηση πληροφορίας

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Information Retrieval

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εισαγωγή στην επιστήμη των υπολογιστών

Συνοπτική Μεθοδολογία Ασκήσεων IP Fragmentation. Ασκήσεις στο IP Fragmentation

Ανάκτηση Πληροφορίας

LALING/PLALING :

Εφαρμοσμένα Μαθηματικά ΙΙ

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

Δομημένος Προγραμματισμός (ΤΛ1006)

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Συµπίεση Ευρετηρίου. Term weighting. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Ανάκτηση Πληροφορίας

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

Ανάκτηση Πληροφορίας

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

K24 Ψηφιακά Ηλεκτρονικά 6: Πολυπλέκτες/Αποπολυπλέκτες

Πράξεις με δυαδικούς αριθμούς

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στην Πληροφορική. Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς. Αντώνης Σταµατάκης

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

Ανάκτηση Πληροφορίας

Προγραμματισμός Η/Υ (ΤΛ2007 )

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Ανάκτηση πολυμεσικού περιεχομένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit!

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013

Πράξεις με δυαδικούς αριθμούς

Λυμένες ασκήσεις στροφορμής

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

Ανασκόπηση-Μάθημα 12 Συναρτήσεις πολλών μεταβλητών-καμπύλες-πολικές συντεταγμένες

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Information Retrieval

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Transcript:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Περίληψη 5 ου Μαθήματος Στατιστικά συλλογής και λεξικού: Νόμοι Heap και Zipf Συμπίεση λεξικού για ευρετήρια Boole Το λεξικό σαν αλφαριθμητικό, αποθήκευση κατά μπλοκ, front coding Συμπίεση λιστών καταχώρησης: κωδικοποίηση κενών, κωδικοί ελεύθεροι προθεμάτων (prefix-unique codes) Κωδικοί Variable-Byte και Γάμμα collection (text, xml markup etc) 3,600.0 MB collection (text) 960.0 Term-doc incidence matrix 40,000.0 postings, uncompressed (32-bit words) 400.0 postings, uncompressed (20 bits) 250.0 postings, variable byte encoded 116.0 postings, encoded 101.0 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

Σημερινό Μάθημα (Κεφάλαια 6.2-6.4.3) Ανάκτηση με κατάταξη (Ranked retrieval) Βαθμολόγηση εγγράφων (Scoring documents) Συχνότητα όρου (Term frequency) Στατιστικά συλλογής (Collection statistics) Τρόποι στάθμισης (Weighting schemes) Βαθμολόγηση διανυσματικού χώρου (Vector space scoring) May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

Ανάκτηση με Κατάταξη Κεφάλαιο 6 Μέχρι τώρα, όλα τα ερωτήματα ήταν Boole Ένα έγγραφο είτε ταιριάζει με το ερώτημα είτε όχι Καλός τρόπος ανάκτησης για χρήστες που γνωρίζουν επακριβώς τις ανάγκες τους και τη συλλογή δεδομένων Επίσης καλό για εφαρμογές: Οι εφαρμογές μπορούν εύκολα να διαχειριστούν χιλιάδες αποτελέσματα εν είναι όμως καλός για την πλειοψηφία των χρηστών Οι περισσότεροι χρήστες δεν είναι ικανοί να γράφουν ερωτήματα Boole (ή και εάν είναι, το θεωρούν επίπονο) Οι περισσότεροι χρήστες δεν επιθυμούν να εξετάζουν χιλιάδες αποτελεσμάτων που είναι ισοδύναμα μεταξύ τους Αυτό ισχύει ειδικά για την αναζήτηση στον Παγκόσμιο Ιστό May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4

Το Πρόβλημα της Ανάκτησης Boole Κεφάλαιο 6 Τα ερωτήματα Boole συχνά επιστρέφουν πολύ λίγα (=0) ή πάρα πολλά (χιλιάδες) αποτελέσματα Query 1: standard user dlink 650 200,000 hits Query 2: standard user dlink 650 no card found : 0 hits Χρειάζονται ιδιαίτερες ικανότητες για να διατυπωθεί ένα ερώτημα που να επιστρέφει ένα διαχειρίσιμο αριθμό αποτελεσμάτων Το AND φέρνει πολύ λίγα, ενώ το OR πάρα πολλά May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

Μοντέλα Ανάκτησης με Κατάταξη Κεφάλαιο 6 Αντί για ένα σύνολο εγγράφων που ικανοποιεί το ερώτημα, στην ανάκτηση με κατάταξη (ranked retrieval), το σύστημα επιστρέφει μια κατάταξη των (κορυφαίων) εγγράφων στη συλλογή για το δοθέν ερώτημα Ερωτήματα ελεύθερου κειμένου (free text queries): αντί για μια γλώσσα επερώτησης με τελεστές και εκφράσεις, το ερώτημα του χρήστη είναι απλά μία ή μερικές λέξεις Ενώ αυτές είναι δύο διακριτές/διαφορετικές επιλογές, στην πράξη η ανάκτηση με κατάταξη έχει συσχετιστεί με ερωτήματα ελεύθερου κειμένου και αντίστροφα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

Έλλειψη Προβλήματος Λίγων ή Πάρα Πολλών Αποτελεσμάτων Κεφάλαιο 6 Όταν ένα σύστημα παράγει ένα σύνολο αποτελεσμάτων με κατάταξη (ranked result set), τα τεράστια σύνολα αποτελεσμάτων δεν αποτελούν πρόβλημα Απλά εμφανίζονται τα top k ( 10) αποτελέσματα ε δυσκολεύεται ο χρήστης Προϋπόθεση: ο αλγόριθμος κατάταξης δουλεύει καλά May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

Στάθμιση (Scoring): Η Βάση της Κεφάλαιο 6 Ανάκτησης με Κατάταξη Επιθυμούμε να επιστρέψουμε τα έγγραφα με μια σειρά που είναι η πιθανότερη να είναι χρήσιμη στο χρήστη Πώς μπορούμε να κατατάξουμε τα έγγραφα μιας συλλογής ως προς ένα ερώτημα; Θα αναθέτουμε σε κάθε έγγραφο μια βαθμολογία (score) π.χ. στο διάστημα [0, 1] Αυτή η βαθμολογία δείχνει πόσο καλά «ταιριάζουν» έγγραφο και ερώτημα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

Βαθμολογίες Ταιριάσματος Κεφάλαιο 6 Ερωτήματος-Εγγράφου Χρειαζόμαστε έναν τρόπο ανάθεσης βαθμολογίας σε ένα ζεύγος ερωτήματος-εγγράφου Ας ξεκινήσουμε με ένα ερώτημα που περιέχει έναν όρο Εάν ο όρος του ερωτήματος δεν υπάρχει στο έγγραφο: η βαθμολογία είναι 0 Όσο συχνότερα εμφανίζεται ο όρος ερωτήματος στο έγγραφο, τόσο υψηλότερη (θα έπρεπε να) είναι η βαθμολογία Θα εξετάσουμε διάφορες εναλλακτικές λύσεις για αυτό May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

Κεφάλαιο 6 Πρώτη Προσπάθεια: Jaccard Coefficient Θυμόμαστε από το μάθημα 3: ένα ευρέως χρησιμοποιούμενο μέτρο που δείχνει την τομή δύο συνόλων A και B jaccard(a,b) = A B / A B jaccard(a,a) = 1 jaccard(a,b) = 0 if A B = 0 Τα A και B δε χρειάζεται απαραίτητα να έχουν το ίδιο πλήθος στοιχείων Πάντα παράγει ένα αριθμό μεταξύ 0 και 1 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

Jaccard Coefficient: Παράδειγμα Κεφάλαιο 6 Βαθμολόγησης Ποια είναι η βαθμολογία ταιριάσματος ερωτήματος-εγγράφου με χρήση της Jaccard coefficient για καθένα από τα παρακάτων έγγραφα; Query: ides of march Document 1: caesar died in march Document 2: the long march May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11

Ζητήματα από τη Χρήση της Jaccard Κεφάλαιο 6 ε λαμβάνει υπόψιν τη συχνότητα όρου (term frequency) (πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο) Οι σπάνιοι όροι μιας συλλογής περιέχουν περισσότερο πληροφοριακό περιεχόμενο από ότι οι συχνοί όροι Η Jaccard δε λαμβάνει κάτι τέτοιο υπόψιν Χρειαζόμαστε έναν πιο εκλεπτυσμένο τρόπο κανονικοποίησης με βάση το μήκος Αργότερα σε αυτό το μάθημα θα χρησιμοποιήσουμε A B / A... αντί για A B / A B (Jaccard) για κανονικοποίηση του μήκος B May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

Υπενθύμιση (1 ο Μάθημα): Μήτρα Σύμπτωσης Όρων-Εγγράφων Κεφάλαιο 6.2 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0 Κάθε έγγραφο αναπαρίσταται με ένα δυαδικό διάνυσμα {0,1} V May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

Πίνακας Συχνοτήτων Όρων Κεφάλαιο 6.2 Λαμβάνουμε υπόψιν το πλήθος εμφανίσεων κάθε όρου σε ένα έγγραφο Κάθε έγγραφο είναι ένα διάνυσμα αριθμών (πλήθη εμφανίσεων όρων) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 1 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

Σάκος Λέξεων (Bag of Words) Η διανυσματική αναπαράσταση δε λαμβάνει υπόψιν τη σειρά εμφάνισης όρων σε έγγραφα John is quicker than Mary και Mary is quicker than John έχουν τα ίδια διανύσματα Αυτό το μοντέλο αναπαράστασης λέγεται σάκος λέξεων (bag of words) Υπό μία έννοια, αυτό είναι ένα βήμα προς τα πίσω: το ευρετήριο θέσης (positional index) είχε τη δυνατότητα να διακρίνει αυτά τα δύο έγγραφα Θα δούμε αργότερα σε αυτό το μάθημα πώς μπορούμε να χρησιμοποιήσουμε πληροφορία θέσης Για τώρα: χρησιμοποιούμε το μοντέλο σάκου λέξεων May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

Συχνότητα Όρου tf (term frequency) Η συχνότητα tf t,d ενός όρου t σε ένα έγγραφο d ορίζεται ως το πλήθος εμφανίσεων του t στο d Επιθυμούμε να χρησιμοποιήσουμε τη συχνότητα tf όταν υπολογίζουμε τη βαθμολόγηση ταιριάσματος ερωτήματος-εγγράφου. Όμως πώς; Η απλή συχνότητα όρου δεν είναι αυτό που θέλουμε: Ένα έγγραφο με 10 εμφανίσεις όρου είναι πιο σχετικό από ότι ένα έγγραφο με 1 εμφάνιση του όρου Όμως δεν είναι 10 φορές πιο σχετικό Η σχετικότητα (relevance) δεν αυξάνεται αναλογικά με τη συχνότητα εμφάνισης όρου ΣΗΜ: Συχνότητα (frequency) = πλήθος στην ΑΠ May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16

Στάθμιση Log-frequency Κεφάλαιο 6.2 Το βάρος log frequency ενός όρου t στο d είναι w t,d 0 0, 1 1, 2 1.3, 10 2, 1000 4, κτλ. Η βαθμολογία ενός ζεύγους έγγραφουερωτήματος: άθροισμα όλων των βαρών των όρων t τόσο στο ερώτημα q και στο έγγραφο d: Βαθμολογία 1 log 10 tf t,d, if tf t,d 0, otherwise t q d (1 log tf t, d ) Η βαθμολογία είναι 0 εάν κανείς όρος δεν υπάρχει στο έγγραφο 0 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

Κεφάλαιο 6.2.1 Συχνότητα Εγγράφων (Document Frequency) Σπάνιοι όροι περιέχουν περισσότερο πληροφοριακό περιεχόμενο από συχνούς όρους Θυμηθείτε τις stop words Ας θεωρήσουμε έναν όρο ερωτήματος που είναι σπάνιος στη συλλογή εγγράφων (π.χ., arachnocentric) Ένα έγγραφο που περιέχει τον όρο αυτό, είναι πολύ πιθανό σε είναι σχετικό με το ερώτημα arachnocentric Επιθυμούμε υψηλό βάρος για σπάνιους όρους όπως το arachnocentric May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

Συχνότητα Εγγράφων (συνέχεια) Κεφάλαιο 6.2.1 Οι συχνοί όροι περιέχουν λιγότερο πληροφοριακό περιεχόμενο από σπάνιους όρους Ας θεωρήσουμε έναν όρο ερωτήματος που είναι συχνός σε μια συλλογή (π.χ., high, increase, line) Ένα έγγραφο που περιέχει τέτοιο όρο είναι πιο πιθανό να είναι σχετικό από κάποιο έγγραφο που δεν τον περιέχει Όμως δεν είναι βέβαιος δείκτης ότι είναι σχετικό Για συχνούς όρους, θέλουμε υψηλά βάρη για όρους όπως high, increase, και line Αλλά χαμηλότερα βάρη από ότι για σπάνιους όρους Θα χρησιμοποιήσουμε τη συχνότητα εγγράφων - document frequency (df) για αυτό το σκοπό May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

Βάρος idf Κεφάλαιο 6.2.1 Η df t είναι η συχνότητα εγγράφου (document frequency) του όρου t: το πλήθος εγγράφων που περιέχουν τον όρο t Η df t είναι αντίστροφο μέτρο του πληροφοριακού περιεχομένου του όρου t df t N Ορίζουμε την αντίστροφη συχνότητα εγγράφων idf (inverse document frequency) του όρου t idf log ( N/df ) t 10 t Χρησιμοποιούμε log (N/df t ) αντί για N/df t ώστε να ελαφρύνουμε την επίδραση του idf Θα δούμε ότι η βάση του λογάριθμου δεν επηρεάζει την κατάταξη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

Παράδειγμα idf, έστω N=1M Κεφάλαιο 6.2.1 term df t idf t calpurnia 1 6 animal 100 4 sunday 1,000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 idf log ( N/df t 10 t ) Υπάρχει μία idf τιμή για κάθε όρο t σε μια συλλογή May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

Επίδραση του idf στην Κατάταξη Έχει (;) το idf επίδραση στην κατάταξη για ερωτήματα ενός όρου, όπως iphone Το idf δεν έχει επίδραση στην κατάταξη τέτοιων ερωτημάτων Το idf επηρεάζει την κατάταξη εγγράφων για ερωτήματα τουλάχιστον δύο όρων Για το ερώτημα capricious person, το idf βάρος κάνει τις εμφανίσεις του capricious να μετρούν πολύ περισσότερο στην τελική κατάταξη από ότι οι εμφανίσεις του person May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

Collection vs. Document frequency Κεφάλαιο 6.2.1 Η συχνότητα συλλογής (collection frequency) του t είναι το πλήθος εμφανίσεων του t στη συλλογή, μετρώντας πολλαπλές εμφανίσεις Παράδειγμα: Word Collection frequency Document frequency insurance 10440 3997 try 10422 8760 Ποια λέξη είναι καλύτερος όρος αναζήτησης (και θα έπρεπε να έχει υψηλότερο βάρος); May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

Στάθμιση tf-idf Κεφάλαιο 6.2.2 Το tf-idf βάρος ενός όρου είναι το γινόμενο του tf βάρους και του idf βάρους w log(1 tf ) log t, d 10 ( N / df t, d t ) Είναι η καλύτερη από τις γνωστές μεθόδους στάθμισης στην ΑΠ Σημείωση: η παύλα - στο tf-idf είναι ενωτικό (hyphen), όχι το πλην! Εναλλακτικές ονομασίες: tf.idf, tf x idf Αυξάνεται με το πλήθος των εμφανίσεων σε ένα έγγραφο Αυξάνεται με τη σπανιότητα του όρου στη συλλογή May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

Κεφάλαιο 6.2.2 Βαθμολόγηση Εγγράφου ως προς Ερώτημα Υπάρχουν πολλές παραλλαγές Πώς υπολογίζεται το tf (με/χωρίς λογάριθμο) Κατά πόσο οι όροι του ερωτήματος έχουν βάρη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25

Πίνακας Δυαδικών Τιμών Συχνοτήτων Βαρών Κεφάλαιο 6.3 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 Κάθε έγγραφο αναπαρίσταται σαν ένα διάνυσμα πραγματικών τιμών από tf-idf βάρη R V May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

Διάνυσμα Εγγράφου Κεφάλαιο 6.3 Καταλήγουμε σε ένα μοντέλο διανυσματικού χώρου V διαστάσεων ( V -dimensional vector space) Οι όροι είναι οι άξονες του χώρου Τα έγγραφα είναι σημεία ή διανύσματα του χώρου Ιδιαίτερα υψηλή διάσταση: δεκάδες εκατομμυρίων διαστάσεις όταν μιλάμε για μηχανές αναζήτησης του Παγκόσμιου Ιστού Πρόκειται για πολύ αραιά διανύσματα οι περισσότερες τιμές είναι μηδενικές May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

Τα Ερωτήματα ως Διανύσματα Κεφάλαιο 6.3 Βασική ιδέα 1: Ας κάνουμε το ίδιο για τα ερωτήματα: τα αναπαριστούμε σαν διανύσματα στο χώρο Βασική ιδέα 2: Κατάταξη των εγγράφων με βάση την εγγύτητά τους στο ερώτημα στο χώρο αυτό Εγγύτητα (proximity) = ομοιότητα διανυσμάτων Εγγύτητα το αντίστροφο της απόστασης Θυμηθείτε: Το κάνουμε αυτό για να ξεφύγουμε από το Boolean μοντέλο ανάκτησης Αντίθετα: κατατάσουμε πιο σχετικά έγγραφα υψηλότερα από λιγότερο σχετικά έγγραφα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

Τυπικός Ορισμός Εγγύτητας Κεφάλαιο 6.3 Πρώτη προσέγγιση: η απόσταση μεταξύ δύο σημείων ( = η απόσταση μεταξύ των τελικών σημείων δύο διανυσμάτων) Ευκλείδια απόσταση (Euclidean distance)? Η ευκλείδια απόσταση δεν είναι καλή ιδέα...... διότι η ευκλείδια απόσταση είναι μεγάλη για διανύσματα διαφορετικού μήκους May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

Γιατί η Απόσταση είναι Κακή Ιδέα Κεφάλαιο 6.3 Η ευκλείδια απόσταση μεταξύ του q και του d 2 είναι μεγάλη ακόμη κι αν η κατανομή των όρων στο q και η κατανομή των όρων στο d 2 είναι πολύ όμοια May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

Κεφάλαιο 6.3 Χρήση της Γωνίας αντί της Απόστασης Ας σκεφτούμε το εξής: ας πάρουμε ένα έγγραφο d και ας το επικολλήσουμε στον εαυτό του (ας το διπλασιάσουμε) έστω d το νέο έγγραφο Σημασιολογικά τα d και d έχουν το ίδιο περιεχόμενο Η ευκλείδια απόσταση μεταξύ των δύο εγγράφων μπορεί να είναι αρκετά μεγάλη Η γωνία μεταξύ δύο εγγράφων είναι 0, που αντιστοιχεί στη μέγιστη ομοιότητα Βασική ιδέα: Ας κατατάξουμε τα έγγραφα με βάση τη γωνία τους με το ερώτημα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

Από Γωνίες σε Συνημίτονα Κεφάλαιο 6.3 Οι δύο ακόλουθες έννοιες είναι ισοδύναμες Κατάταξη εγγράφων σε αύξουσα σειρά γωνιών μεταξύ ερωτήματος και εγγράφου Κατάταξη εγγράφων σε φθίνουσα σειρά συνημιτόνου: cosine(query, document) Η συνάρτηση συνημίτονο (cosine) είναι μονοτονικά φθίνουσα συνάρτηση στο διάστημα [0 o, 180 o ] May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

Από Γωνίες σε Συνημίτονα Κεφάλαιο 6.3 Όμως πώς και γιατί θα πρέπει να υπολογίσουμε συνημίτονα; May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

Κανονικοποίηση Μήκους Κεφάλαιο 6.3 Ένα διάνυσμα μπορεί να κανονικοποιηθεί ως προς το μήκος διαιρώντας κάθε συντεταγμένη του με το μήκος (χρησιμοποιώντας την L 2 norm) Η διαίρεση ενός διανύσματος με την L 2 norm του το κάνει διάνυσμα μοναδιαίου μήκους (unit length vector), δηλαδή βρίσκεται στην επιφάνεια της μοναδιαίας υπερσφαίρας Το αποτέλεσμα για τα δύο έγγραφα d και d (το d έχει επικολληθεί στον εαυτό του) από προηγουμένως: έχουν ίδια διανύσματα μετά την κανονικοποίηση x 2 Άρα τώρα μεγάλα και μικρά έγγραφα έχουν συγκρίσιμα βάρη i x 2 i May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

cosine(query, document) May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35 Κεφάλαιο 6.3 V i i V i i V i i i d q q d d d q q d q d q d q 1 2 1 2 1 ), cos( Dot product Unit vectors q i είναι το tf-idf βάρος του όρου i στο ερώτημα d i είναι το tf-idf βάρος του όρου i στο έγγραφο cos(q,d) είναι η συνημιτονοειδής ομοιότητα (cosine similarity) του q και του d ή, ισοδύναμα, το συνημίτονο της γωνίας μεταξύ q και d

Το Συνημίτονο για Κανονικοποιημένα Διανύσματα Για κανονικοποιημένα διανύσματα, η συνημιτονοειδής ομοιότητα (cosine similarity) είναι απλά το εσωτερικό γινόμενο: για κανονικοποιημένα q, d May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

Η Συνημιτονοειδής Ομοιότητα Γραφικά May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

Η Συνημιτονοειδής Ομοιότητα Μεταξύ 3 Εγγράφων Κεφάλαιο 6.3 Πόσο όμοια είναι τα βιβλία SaS: Sense and Sensibility PaP: Pride and Prejudice, and WH: Wuthering Heights? term SaS PaP WH affection 115 58 20 jealous 10 7 11 gossip 2 0 6 wuthering 0 0 38 Term frequencies (counts) Σημείωση: Για απλότητα, δε θα χρησιμοποιήσουμε idf βάρη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

Συνέχεια Παραδείγματος Κεφάλαιο 6.3 Log frequency weighting term SaS PaP WH affection 3.06 2.76 2.30 jealous 2.00 1.85 2.04 gossip 1.30 0 1.78 wuthering 0 0 2.58 After length normalization term SaS PaP WH affection 0.789 0.832 0.524 jealous 0.515 0.555 0.465 gossip 0.335 0 0.405 wuthering 0 0 0.588 cos(sas,pap) 0.789 0.832 + 0.515 0.555 + 0.335 0.0 + 0.0 0.0 0.94 cos(sas,wh) 0.79 cos(pap,wh) 0.69 Γιατί έχουμε cos(sas,pap) > cos(sas,wh)? May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

Υπολογισμός Βαθμολογιών Κεφάλαιο 6.3 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

Παραλλαγές Σταθμίσεων tf-idf Κεφάλαιο 6.4 Οι στήλες με επικεφαλίδα n είναι ακρώνυμα για τρόπους στάθμισης Γιατί η βάση του λογάριθμου στο idf δεν παίζει ρόλο; May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

Η Στάθμιση Μπορεί να αλλάζει από Έγγραφα σε Ερωτήματα Πολλές μηχανές αναζήτησης επιτρέπουν διαφορετικούς τρόπους στάθμισης για ερωτήματα vs. έγγραφα Σημειογραφία SMART: δηλώνει το συνδυασμό που χρησιμοποιείται από τη μηχανή, και συμβολίζεται με ddd.qqq, χρησιμοποιώντας ακρώνυμα του προηγούμενου πίνακα Ένας πολύ κλασικός τρόπος στάθμισης: lnc.ltc Έγγραφο: Κεφάλαιο 6.4 logarithmic tf (l as first character), no idf and cosine normalization Ερώτημα: Είναι κακή ιδέα; logarithmic tf (l in leftmost column), idf (t in second column), no normalization May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

Κεφάλαιο 6.4 Παράδειγμα tf-idf: lnc.ltc Έγγραφο : car insurance auto insurance Ερώτημα: best car insurance Term Query Document Pro d tfraw tf-wt df idf wt n liz e tf-raw tf-wt wt n liz e auto 0 0 5000 2.3 0 0 1 1 1 0.52 0 best 1 1 50000 1.3 1.3 0.34 0 0 0 0 0 car 1 1 10000 2.0 2.0 0.52 1 1 1 0.52 0.27 insurance 1 1 1000 3.0 3.0 0.78 2 1.3 1.3 0.68 0.53 Άσκηση: πόσο είναι το N, το πλήθος εγγράφων? Score = 0+0+0.27+0.53 = 0.8 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

Περίληψη Κατάταξης στο Μοντέλο Διανυσματικού Χώρου Αναπαράσταση ερωτήματος σαν tf-idf διάνυσμα με βάρη (weighted tf-idf vector) Αναπαράσταση κάθε εγγράφου ως tf-idf διάνυσμα με βάρη Υπολογισμός του cosine similarity score για τα διανύσματα ερωτήματος και εγγράφου Κατάταξη εγγράφων ως προς το ερώτημα με βάση το score Επιστρέφονται τα top K (π.χ., K = 10) αποτελέσματα (έγγραφα) στο χρήστη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαια 6.2-6.4.3 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45