Μοντέλα Ανάκτησης Ι (Retrieval Models)



Σχετικά έγγραφα
HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

1. Financial New Times Year MAXk {FREQij} D D D D

Ανάκτηση Πληροφορίας

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Information Retrieval

Επεξεργασία Ερωτήσεων

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Επεξεργασία Ερωτήσεων

Τι (άλλο) θα δούμε σήμερα;

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

Ανάκτηση Πληροφορίας

Part B. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Το εσωτερικό ενός Σ Β

Επεξεργασία Ερωτήσεων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Γ2.1 Στοιχεία Αρχιτεκτονικής. Γ Λυκείου Κατεύθυνσης

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Πιθανοκρατικό μοντέλο

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ανάκτηση Πληροφορίας

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ανάκτηση Πληροφορίας

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Πληροφορική 2. Αλγόριθμοι

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Εργαστήριο Σημασιολογικού Ιστού

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

11 ΣΥΝΗΘΕΙΣ ΔΙΑΦΟΡΙΚΕΣ ΕΞΙΣΩΣΕΙΣ

ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΕΠΙΜΕΛΕΙΑ : ΑΥΓΕΡΙΝΟΣ ΒΑΣΙΛΗΣ

Λογική Δημήτρης Πλεξουσάκης Ασκήσεις στον Κατηγορηματικό Λογισμό Τμήμα Επιστήμης Υπολογιστών


Κεφάλαιο 2: Διανυσματικός λογισμός συστήματα αναφοράς

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

i=1 i=1 i=1 (x i 1, x i +1) (x 1 1, x k +1),

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Διάλεξη 04: Παραδείγματα Ανάλυσης

ΕΝΟΤΗΤΑ 1: ΟΡΙΣΜΟΣ ΠΕΔΙΟ ΟΡΙΣΜΟΥ ΠΡΑΞΕΙΣ ΣΥΝΑΡΤΗΣΕΩΝ ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ ΒΑΣΙΚΩΝ ΣΥΝΑΡΤΗΣΕΩΝ ΛΥΜΕΝΑ ΘΕΜΑΤΑ ΘΕΜΑ Α

Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

HMY 795: Αναγνώριση Προτύπων

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Ανάκτηση Πληροφορίας

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Παλαιότερες ασκήσεις

4.3. Γραµµικοί ταξινοµητές


Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

a ) a ) = lim f( a + h u ) f( a ) = lim (2) h = 0 f( a + h u ) f( a ) hdf( a )( u ) lim = 0 lim u ) f( a + h lim = 0 u ) = 0 lim = Df( a )( u ) lim

DISTINCT, LIKE, NULL, AND, OR, BETWEEN

ΤΕΧΝΙΚΗ ΜΗΧΑΝΙΚΗ Ι ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ- ΥΝΑΜΕΙΣ ΣΤΟ ΕΠΙΠΕ Ο ΚΑΙ ΣΤΟ

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

1 ης εργασίας ΕΟ Υποδειγματική λύση

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι

Information Retrieval

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΦΥΕ 14 Διανύσματα. 1 Περιγραφή διανυσμάτων στο χώρο Γεωμετρική περιγραφή: Τα διανύσματα περιγράφονται σαν προσανατολισμένα ευθύγραμμα

ψ φ2 = k χ φ2 = 4k χ φ1 = χ φ1 + χ φ2 + 3 = 4(k 1 + k 2 + 1) + 1 ψ φ1 = ψ φ1 + χ φ2 = k k = (k 1 + k 2 + 1) + 1

Σχέσεις. ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΗΥ-150. Προγραμματισμός

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΗΥ-150. Προγραμματισμός

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης Ι (Rerieval Models) Εισαγωγή στα Μοντέλα Άντλησης Κατηγορίες Μοντέλων Απόλυτο και Κάλλιστο (ή Βέλτιστο) Ταίριασμα (Exac vs Bes Mach) Τα κλασσικά μοντέλα ανάκτησης Το Boolean Μοντέλο Στατιστικά Μοντέλα - Βάρυνση Όρων Το Διανυσματικό Μοντέλο Το Εκτεταμένο Boolean μοντέλο (Exended Boolean Model) Γιάννης Τζίτζικας ιάλεξη : 3 Ημερομηνία : -3-006 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 Αναπαράσταση Εγγράφων: Πως βλέπουμε ένα έγγραφο; Πως βλέπουμε ένα έγγραφο; Ως έχει (full ex); Αγνοώνταςλέξειςπουδενφέρουννόημα(π.χ. τα άρθρα) ; Ως σάκο (bag) όρων ευρετηρίου (bag of index erms), δηλαδή αγνοώντας τη σειρά με την οποία εμφανίζονται οι λέξεις στο κείμενο; Ως σύνολο όρων ευρετηρίου (se of Index erms) Ως δομημένο έγγραφο (π.χ. hyerex, XML) Η απάντηση σε αυτό το ερώτημα θα καθορίσει τη μορφή του ευρετηρίου που πρέπει να κατασκευάσουμε. Ηαπάντησησεαυτότοερώτημαείναισυνυφασμένηκαι με το μοντέλο ανάκτησης που πρόκειται χρησιμοποιήσουμε. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 3 Μοντέλα Ανάκτησης Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {,0}), ή συνεχής(π.χ. [0,]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που μπορεί να έχει ένας χρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους D: παράσταση εγγράφων D={ F(d) d D} Q: παράσταση επερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: D x Q [True/False] συνεχής R: D x Q [0,] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 4 Τα τμήματα της αρχιτεκτονικής που εμπλέκονται Κατηγορίες Μοντέλων Ανάκτησης (Ι) user need logical vie Query user feedback Oeraions query rerieved docs ranked docs Searching Ranking User Inerface Tex Oeraions logical vie invered file Indexing Index CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 5 Tex Tex Corus Κλασσικά Μοντέλα Boolean Model Διανυσματικό (Vecor Sace) Πιθανοκρατικό (Probabilisic) Συνολοθεωρητικά (se heoreic) Εκτεταμένο Boolean (Exended Boolean Model) Fuzzy Model (Ασαφές Μοντέλο) Διανυσματικά (στατιστικά/αλγεβρικά) Γενικευμένο Διανυσματικό (Generalized Vecor Sace Model) Laen Semanic Indexing (Λανθάνων/Άδηλος/Υποβόσκων σημασιολογικός ευρετηριασμός) Μοντέλο Νευρωνικού Δικτύου (Neural Neork Model) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 6

Κατηγορίες Μοντέλων Ανάκτησης (ΙΙ) Μια Ταξινομία των Μοντέλων Ανάκτησης Πιθανοκρατικά (Probabilisic) Inference Neork Model (Μοντέλο Δικτύου Επαγωγών) Belief Neork Model (Μοντέλο Δικτύου Πεποιθήσεων) Classic Models boolean vecor robabilisic Se Theoreic Fuzzy Exended Boolean Μοντέλα Βασισμένα στη Λογική Rerieval: Algebraic Generalized Vecor La. Semanic Index Neural Neorks Μοντέλα Δομημένου Κειμένου (Srucured Tex Rerieval Models) Non-Overlaing Liss Proximal Nodes Μοντέλα Ανάκτησης XML Εγγράφων Srucured Models Non-Overlaing Liss Proximal Nodes Probabilisic Inference Neork Belief Neork CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 7 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 8 Exac vs. Bes Mach Rerieval Models Exac-mach (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Bes-mach (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι (στο βαθμό συνάφειας) μπορούμε να ελέγξουμε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης E.g., bes-mach query language ha incororaes exac-mach oeraors Informaion Rerieval Models Boolean Rerieval Model Βελτίων = συγκριτικός του αγαθός CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 9 Boolean Rerieval Model Έγγραφο = σύνολο λέξεων κλειδιών (keyords) Επερώτηση = Boolean έκφραση λέξεων κλειδιών (AND,OR, NOT, παρενθέσεις) πχ επερώτησης (( Cree AND Greece) OR (Oia AND Sanorini)) AND Hoel AND-NOT Hilon (( Cree & Greece) (Oia & Sanorini)) & Hoel &! Hilon Απάντηση= σύνολο εγγράφων απουσία διάταξης Παράσταση εγγράφων κατά το Boolean Model k k. k d d d n n n n i,j {0,} K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου: i,j = αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς i,j =0) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006

Boolean Rerieval Model: Formally K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου: i,j = αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q = k and ( k or no k3)) δηλαδή q = k ( k k3)) q DNF = (k k k3) (k k k3) (k k k3) q DNF = (,,) (,,0) (,0,0) R(d,q)= True αν υπάρχει συζευκτική συνιστώσα του q με λέξεις των οποίων τα βάρη είναι τα ίδια με αυτά των αντίστοιχων λέξεων του εγγράφου d False, αλλιώς Boolean Rerieval Model: Ισοδύναμος ορισμός Αποτίμηση επερωτήσεων (με χρήση λογικής) ένα κείμενο d είναι μια σύζευξη όρων, όπου όρος μια λέξη σε θετική ή αρνητική μορφή (σε θετική αν εμφανίζεται στο κείμενο, αλλιώς σε αρνητική) μια επερώτηση q είναι μια οποιαδήποτε λογική έκφραση R(d,q)=True if and only if d =q δηλαδή αν κάθε ερμηνεία που αληθεύει το d αληθεύει και το q CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 3 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 4 Boolean Rerieval Model: Ένας εναλλακτικός τρόπος ορισμού Μπορούμε να ορίσουμε ως ερμηνεία μιας λέξης (του Κ) το σύνολο των εγγράφων που την περιέχουν. Άρα η ερμηνεία είναι μια συνάρτηση Ι: K D που ορίζεται ως εξής: I(k) = { d d περιέχει τη λέξη κ} Έστω Ε το σύνολο των λογικών εκφράσεων με λέξεις από το σύνολο Κ. Μπορούμε να επεκτείνουμε μια ερμηνεία Ι του Κ σε μια ερμηνεία J τουεωςεξής J() = I() J(e e ) = J(e) J(e ) J(e e ) = J(e) J(e ) J(e e ) = J(e) \ J(e ) Ηαπάντησημιαςεπερώτησηςq (κατά το Boolean μοντέλο) είναι η εξής: ans(q) = J(q) Οι αδυναμίες του Boolean μοντέλου Η αδυναμία ελέγχου του μεγέθους της απάντησης Παράδειγμα: Anser( Chea Tickes Heraklion ) = Anser( Chea Tickes) = 000 Anser( Chea Heraklion) = 000 Anser( Tickes Heraklion ) = 000 Άρα είτε παίρνουμε μια απάντηση με ένα έγγραφο είτε ένα σύνολο 000 εγγράφων. :( CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 5 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 6 Οι αδυναμίες του Boolean μοντέλου Άκαμπτο: AND σημαίνει όλα, OR σημαίνει οποιοδήποτε Δυσκολίες Ο έλεγχος του μεγέθους της απάντησης All mached documens ill be reurned Ικανοποιητική ακρίβεια (recision) συχνά σημαίνει απαράδεκτη ανάκληση (recall) Η διατύπωση των επερωτήσεων είναι δύσκολη για πολλούς χρήστες Η έκφραση σύνθετων πληροφοριακών αναγκών είναι δύσκολη Δεν μας λέει πώς να διατάξουμε την απάντηση All mached documens logically saisfy he query Τα μοντέλα κατάταξης (ranking models) έχουν αποδειχτεί καλύτερα στην πράξη Η υποστήριξη ανάδρασης συνάφειας δεν είναι εύκολη If a documen is idenified by he user as relevan or irrelevan, ho should he query by modified? [Τώραδουλεύουμεσεαυτό] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 7 Τα θετικά του Boolean μοντέλου Προβλέψιμο, εύκολα εξηγήσιμο Αποτελεσματικό όταν γνωρίζεις ακριβώς τι ψάχνεις και τι περιέχει ησυλλογή Αποδοτική υλοποίηση CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 8

Κοινά χαρακτηριστικά των Στατιστικών Μοντέλων Έγγραφο: σάκος (bag) λέξεων Bag = se ha allos mulile occurences of he same elemen So e vie a documen as an unordered se of ords ih frequencies Στατιστικά Μοντέλα Επερώτηση: Σύνολο όρων με προαιρετικά βάρη: Weighed query erms: q=<daabase 0.5, ex 0.8, informaion 0.> Uneighed query erms: q=<daabase ex informaion > No Boolean condiions secified in he query Απάντηση: Διατεταγμένο σύνολο συναφών εγγράφων υπολογίζεται βάσει των συχνοτήτων εμφάνισης των λέξεων στα έγγραφα και στις επερωτήσεις CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 0 Στατιστικά Μοντέλα: Κρίσιμα Ερωτήματα Πώς να καθορίζουμε τη σπουδαιότητα ενός όρου σε ένα έγγραφο και στα πλαίσια ολόκληρης της συλλογής; Πώς να καθορίζουμε το βαθμό ομοιότητας μεταξύ ενός εγγράφου και μιας επερώτησης; Informaion Rerieval Models Vecor Sace Model (Διανυσματικό Μοντέλο) (το πιο διαδεδομένο μοντέλο ανάκτησης) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 Διανυσματικό Μοντέλο: Εισαγωγή Παράσταση εγγράφων στο Διανυσματικό Μοντέλο K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με ένα διάνυσμα d j =(,j,,,j ) όπου i,j [0,] (πχ i,j =0.3) Μια επερώτηση q παριστάνεται με ένα διάνυσμα q=(,q,,,q ) όπου πάλι i,q [0,] k k. k d d d n n n n i,j [0,] R(d,q) εκφράζει το βαθμό ομοιότητας των διανυσμάτων d και q K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου: i,j το βάρος της λέξης k i για το κείμενο d j CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 3 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 4

Βάρη Όρων: Συχνότητα όρου (f) Οι πιο συχνοί όροι σε ένα έγγραφο είναι πιο σημαντικοί (υποδηλώνουν το περιεχόμενο του) freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j Κανονικοποίηση f ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j Παράδειγμα: Έστω το έγγραφο d = a a a a b b b c c c c freq a = 4, f a = 4/4= freq b = 3, f b = 3/4=0.75 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 5 Παράδειγμα d = { a a a b c } d = { a a a d e } d3 = { a a a f g} Το a λαμβάνει το μεγαλύτερο βάρος (άρα το μεγαλύτερο f) σε κάθε έγγραφο Ας σκεφτούμε ολόκληρη τη συλλογή. Μας επιτρέπει το a να διακρίνουμε τα κείμενα; Αν όχι μήπως δεν θα έπρεπε να λαμβάνει το μεγαλύτερο βάρος; Αν η συλλογή είχε μόνο αυτά τα 3 έγγραφα (και ήταν σταθερή) θα μπορούσαμε ακόμα και να αγνοήσουμε πλήρως τον όρο a από το ευρετήριο. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 6 Βάρη Όρων: Αντίστροφη Συχνότητα Εγγράφων (Inverse Documen Frequency) Ιδέα: Όροι που εμφανίζονται σε πολλά διαφορετικά έγγραφα έχουν μικρή διακριτική ικανότητα df i = documen frequency of erm i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse documen frequency of erm i := log (N/ df i ) (N: συνολικό πλήθος εγγράφων) Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ο λογάριθμος ελαφραίνει το βάρος του idf σε σχέση με το f Παράδειγμα: Έστω Ν=0 και df comuer =0, df arisole =, Τότε, N/df comuer =0/0=, N/df arisole =0/=5 Τότε, idf comuer =log() =0, idf arisole =log(5)=.3 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 7 TF-IDF Weighing (βάρυνση TF-IDF) k k. k d d d n n n n ij = f ij idf i = f ij log (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το f-idf δουλεύει πολύ καλά στην πράξη. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 8 Παράδειγμα υπολογισμού TF-IDF Διάνυσμα Επερώτησης Έστω ένα έγγραφο που περιέχει όρους με τις εξής συχνότητες: Α(3), Β(), C(), πχ. d= A B A B C A Υποθέστε ότι η συλλογή περιέχει 0.000 έγγραφα και οι συχνότητες κειμένου (documen frequencies) αυτών των όρων είναι: Α(50), Β(300), C(50) Τότε: Α: f=3/3; idf = log(0000/50)= 5.3; f-idf=5.3 B: f=/3; idf = log(0000/300)= ; f-idf=.3 C: f=/3; idf = log(0000/50)= 3.7; f-idf=. Τα διανύσματα των επερωτήσεων θεωρούνται ως έγγραφα και επίσης βαρύνονται με f-idf Μια επερώτηση δεν συγκροτείται πάντα από λίγες λέξεις. Μια επερώτηση μπορεί να έιναι μια παράγραφος κειμένου (ή ένα ολόκληρο έγγραφο) Εναλλακτικά, ο χρήστης μπορεί να δώσει τα βάρη των όρων της επερώτησης k k. k d d d n n n q q q n q i,j [0,] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 9 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 30

Διανυσματικό Μοντέλο: K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με ένα διάνυσμα d j =(,j,,,j ) όπου i,j = f ij idf i Μια επερώτηση q παριστάνεται με ένα διάνυσμα q=(,q,,,q ) όπου πάλι i,q = f iq idf i R(d,q) =? Διανυσματικό Μοντέλο: Μέτρο Ομοιότητας Examle: D = T + 3T + 5T 3 D = 3T + 7T + T 3 Q = 0T + 0T + T 3 T 3 D = T + 3T + 5T 3 5 Q = 0T + 0T + T 3 3 T D = 3T + 7T + T 3 T 7 Is D or D more similar o Q? Ho o measure he degree of similariy? Disance? Angle? Projecion? CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 3 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 3 Μέτρο Ομοιότητας: Εσωτερικό Γινόμενο (inner roduc) Η ομοιότητα μεταξύ των διανυσμάτων d και q ορίζεται ως το εσωτερικό τους γινόμενο: sim( dj, q) = dj q = ij iq i= όπου ij το βάρος του όρου i στο έγγραφο j και iq το βάρος του όρου i στην επερώτηση Για δυαδικά (0/) διανύσματα το εσωτερικό γινόμενο είναι ο αριθμός των mached query erms in he documen (άρα το μέγεθος της τομής) Για βεβαρημένα διανύσματα, είναι το άθροισμα των γινομένων των βαρών των mached erms CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 33 Binary: Παράδειγμα d =,,, 0,,, 0 q =, 0,, 0, 0,, sim(d, q) = 3 rerieval daabase archiecure comuer ex managemen informaion Weighed: D = T + 3T + 5T 3 D = 3T + 7T + T 3 Q = 0T + 0T + T 3 sim(d, Q) = *0 + 3*0 + 5* = 0 sim(d, Q) = 3*0 + 7*0 + * = Size of vecor = size of vocabulary = 7 0 means corresonding erm no found in documen or query D = T + 3T + 5T 3 D = 3T + 7T + T 3 7 T CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 34 5 T 3 Q = 0T + 0T + T 3 3 T Ιδιότητες του Εσωτερικού Γινομένου Μέτρο Ομοιότητας Συνημίτονου (Cosine) Το εσωτερικό γινόμενο δεν είναι φραγμένο (unbounded) ευνοεί (μεροληπτεί) μεγάλα έγγραφα με μεγάλο πλήθος διαφορετικών όρων μετρά το πλήθος των όρων που κάνουν mach, αλλά αγνοεί αυτούς που δεν κάνουν mach Μετρά το συνημίτονο της γωνίας μεταξύ των διανυσμάτων 3 Εσωτερικό γινόμενο κανονικοποιημένο βάσει του μήκους των διανυσμάτων CosSim(d j, q) = d d j j q q = i = ( ij ij i = i = θ D iq ) θ iq Q D D = T + 3T + 5T 3 CosSim(D, Q) = 0 / (4+9+5)(0+0+4) = 0.8 D = 3T + 7T + T 3 CosSim(D, Q) = / (9+49+)(0+0+4) = 0.3 Q = 0T + 0T + T 3 D is 6 imes beer han D using cosine similariy bu only 5 imes beer using inner roduc. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 35 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 36

Διανυσματικό Μοντέλο: Παρατηρήσεις Πλεονεκτήματα Λαμβάνει υπόψη τις τοπικές (f) και καθολικές (idf) συχνότητες όρων Παρέχει μερικό ταίριασμα (arial maching) και διατεταγμένα αποτελέσματα Τείνει να δουλεύει καλά στην πράξη, παράτιςαδυναμίεςτου Αποδοτική υλοποίηση για μεγάλες συλλογές εγγράφων Αδυναμίες Απουσία Σημασιολογίας (π.χ. σημασίας λέξεων) Απουσία Συντακτικής Πληροφορίας (π.χ. δομή φράσης, σειρά λέξεων, εγγύτητα λέξεων) Υπόθεση Ανεξαρτησίας Όρων (π.χ. αγνοεί τα συνώνυμα) Έλλειψη ελέγχου ala Boolean model (π.χ. δεν μπορούμε να απαιτήσουμε την παρουσία ενός όρου στο έγγραφο) Given a o-erm query q= A B, may refer a documen conaining A frequenly bu no B, over a documen ha conains boh A and B bu boh less frequenly CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 37 Περίληψη του Διανυσματικού Μοντέλου K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου ij = f ij idf i = f ij log (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(,q,,,q ) όπου iq = f iq idf i = f iq log (N/ df i ) R(d j,q) = CosSim(d j, q) = d j q d j q CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 38 = i = i ( ij ij = i = iq ) iq Υπολογισμός του βαθμού συνάφειας Απλοϊκή Υλοποίηση ) Φτιάξε το f-idf διάνυσμα για κάθε έγγραφο dj hs συλλογής (έστω V το λεξιλόγιο) ) Φτιάξε το f-idf διάνυσμα q της επερώτησης 3) Για κάθε έγγραφο d j του D Υπολόγισε το σκορ s j = cossim(d j, q) 4) Διέταξε τα έγγραφα σε φθίνουσα σειρά 5) Παρουσίασε τα έγγραφα στο χρήστη Χρονική πολυπλοκότητα του βήματος (3): O( V D ) Πολύ ακριβό αν τα V και D είναι μεγάλα! V = 0,000; D = 00,000; V D =,000,000,000 Υπολογισμός του βαθμού συνάφειας Καλύτερη (γρηγορότερη) Υλοποίηση Ένας όρος που δεν εμφανίζεται και στην επερώτηση και στο έγγραφο δεν επηρεάζει το βαθμό ομοιότητας συνημίτονου Το γινόμενο των βαρών είναι 0 και άρα δεν συνεισφέρει στο εσωτερικό γινόμενο Συνήθως η επερώτηση είναι μικρή, άρα το διάνυσμα της είναι εξαιρετικά «αραιό» => Μπορούμε να χρησιμοποιήσουμε ένα ευρετήριο ώστε να υπολογίσουμε το βαθμό ομοιότητας μόνο εκείνων των εγγράφων που περιέχουν τουλάχιστον έναν όρο της επερώτησης. 3) Για κάθε έγγραφο d j του D Υπολόγισε το σκορ s j = cossim(d j, q) 3 ) Για κάθε έγγραφο d j που περιέχει τουλάχιστον έναν όρο του query Υπολόγισε το σκορ s j = cossim(d j, q) Απλοϊκό Καλύτερο CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 39 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 40 Υπολογισμός του βαθμού συνάφειας Καλύτερη (γρηγορότερη) Υλοποίηση (ΙΙ) Q = k k k n D D B D D B D n D nb Ας υποθέσουμε ότι ένας όρος της επερώτησηςεμφανίζεταισεb έγγραφα Τότε η χρονική πολυπλοκότητα είναι O( Q B) Informaion Rerieval Models Exended Boolean Model Το κόστος αυτό είναι συνήθως πολύ μικρότερο του κόστους του απλοϊκού τρόπου (που είχε πολυπλοκότητα Ο( V D ), διότι: Q << V, δηλαδή ο αριθμός των λέξεων στην επερώτησης είναι πολύ μικρότερος του συνολικού αριθμού των λέξεων, και B << D, δηλαδή το πλήθος των έγγράφων που έχουν μια λέξη είναι πολύ μικρότερο του πλήθους των εγγράφων της συλλογής. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 4

Exended Boolean Model Κίνητρο Το Boolean model είναι απλό και κομψό αλλά δεν παρέχει κατάταξη (διαβάθμιση των συναφών εγγράφων) Προσέγγιση Επέκταση του Boolean model με βάρυνση όρων και μερικό ταίριασμα Σκεπτικό / Κίνητρο Έστω q = k x ky. Σύμφωνα με το Boolean model ένα έγγραφο που περιέχει μόνο ένα από τα k x, k y είναι μη-συναφές, και μάλιστα τόσο μη-συναφές, όσο ένα έγγραφο που δεν περιέχει κανένα από τους όρους. Συνδιασμός χαρακτηριστικών του Vecor model και ιδιοτήτων της Boolean algebra [Salon, Fox, and Wu, 983] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 43 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 44 Έστω ότι έχουμε μόνο δύο όρους k x, k y Μπορούμε να θεωρήσουμε κάθε όρο ως μια διάσταση Άρα έγγραφα και επερωτήσεις απεικονίζονται στο D χώρο. Ένα έγγραφο d j τοποθετείται βάσει των, βαρών x,j και y,j. Έστω ότι τα βάρη αυτά είναι κανονικοποιημένα στο [0,], π.χ. : Ηγενικήιδεά (0,) (,) d j+ k y d j (0,) (,) k y d j+ x,j = f x,j idf x y,j = f y,j idf y Για συντομία έστω x = x,j και y = y,j Άρα οι συντεταγμένες του dj είναι οι (x,y) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 45 (0,0) (,0) k x Έστω q OR =k x v k y Το σημείο (0,0) είναι η θέση προς αποφυγή. Άραμπορούμεναθεωρήσουμετην απόσταση του dj απόαυτότοσημείο ως το βαθμό ομοιότητας d j (0,0) (,0) k x Έστω q AND =k x Λ k y Το σημείο (,) είναι η πιο επιθυμητή θέση. Άραμπορούμεναθεωρήσουμετο συμπλήρωμα της απόστασης του dj από αυτό το σημείο ως βαθμό ομοιότητας CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 46 Ηγενικήιδεά(ΙΙ) (0,) (,) d j+ k y d j (0,) (,) k y d j+ Γενικεύοντας την ιδέα (για > όρους) Μπορούμε να γενικεύσουμε το προηγούμενο μοντέλο χρησιμοποιώντας την Ευκλείδεια απόσταση στον -διάστατο χώρο Αυτό μπορεί να γίνει χρησιμοποιώντας -norms που γενικεύουν την έννοια της απόστασης, όπου. (0,0) (,0) k x Le q OR =k x v k y x + y sim( q OR, d) = d j (0,0) (,0) k x Le q AND =k x Λ k y ( x) + ( y) sim( q AND, d) = Διαζευκτικές επερωτήσεις q OR = k V k V.. V km Συζευκτικές επερωτήσεις q AND = k Λ k Λ... Λ km sim sim ( x x x + +... + m qor, d) m = ( ( x x ) +... + ( m) qand, d) m = ( for normalisaion o [0,]) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 47 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 48

Ισομετρικές καμπύλες ( x + y ) Μερικές ενδιαφέρουσες ιδιότητες L L L x + y = ( x + y ) = max( x, y) = Μεταβάλλοντας το, μπορούμε να κάνουμε το μοντέλο να συμπεριφέρεται όπως το Vecor, το Fuzzy (που θα δούμε στο επόμενο μάθημα), ή ενδιάμεσα σε αυτά τα δυο. Αν = τότε (Vecor like) sim(q OR,dj) = sim(q AND,dj) = x +... + xm m Αν = τότε (Fuzzy like) sim(q OR,dj) = max (x i ) sim(q AND,dj) = min (x i ) Ερώτηση: Που πήγαν οι όροι της επερώτησης; CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 49 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 50 Σύνθετες επερωτήσεις Έστω q = (k Λ k) V k3 Εφαρμόζουμε τους ορισμούς σεβόμενοι τη σειρά, εδώ: ( x x ) ( ) + / ( ( ) ) + x 3 sim( q, d ) = Μερικές Παρατηρήσεις Είναι αρκετά ισχυρό μοντέλο με ενδιαφέρουσες ιδιότητες Η επιμεριστική ιδιότητα δεν ισχύει: q = (k k) k3 q = (k k3) (k k3) sim(q,dj) sim(q,dj) Έστω q = (k V k) Λ k3 K and k should be used as in a vecor sysem bu he resence of k3 is required CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 5 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 5 Διάρθρωση Εισαγωγή στα Μοντέλα Άντλησης Κατηγορίες Μοντέλων Απόλυτο και Κάλλιστο (ή Βέλτιστο) Ταίριασμα (Exac vs Bes Mach) Τα κλασσικά μοντέλα ανάκτησης Το Boolean Μοντέλο Στατιστικά Μοντέλα - Βάρυνση Όρων Το Διανυσματικό Μοντέλο Το Εκτεταμένο Boolean μοντέλο (Exended Boolean Model) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 53