Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Σχετικά έγγραφα
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Ανάκτηση Πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

1. Financial New Times Year MAXk {FREQij} D D D D

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Ανάκτηση Πληροφορίας

Vector Model vs. Boolean Model CS-463 Information Retrieval Spring Costas Vandikas

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-570: Στατιστική Επεξεργασία Σήµατος. ιδάσκων : Α. Μουχτάρης. εύτερη Σειρά Ασκήσεων.

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Information Retrieval

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση πληροφορίας

Πιθανοκρατικό μοντέλο

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΙΚΤΥΩΤΟ ΜΟΝΤΕΛΟ (Network Model) Μαθ. # 15

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Τι (άλλο) θα δούμε σήμερα;

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

The challenges of non-stable predicates

Multi-dimensional Central Limit Theorem

Multi-dimensional Central Limit Theorem

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

ΜΕΘΟΔΟΙ ΑΕΡΟΔΥΝΑΜΙΚΗΣ

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Ανάκτηση Πληροφορίας

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

Βάσεις Δεδομένων ΙΙ Ενότητα 9

Ανάκτηση Πληροφορίας

derivation of the Laplacian from rectangular to spherical coordinates

ΗΥ537: Έλεγχος Πόρων και Επίδοση σε Ευρυζωνικά Δίκτυα,

Sequent Calculi for the Modal µ-calculus over S5. Luca Alberucci, University of Berne. Logic Colloquium Berne, July 4th 2008

4.6 Autoregressive Moving Average Model ARMA(1,1)

ST5224: Advanced Statistical Theory II

α & β spatial orbitals in

xp X (x) = k 3 10 = k 3 10 = 8 3

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΜΟΣ Εντολές επιλογής και αποφάσεων 1 ο Φύλλο Εργασιών Εισαγωγικές ασκήσεις για την εντολή if ΑΠΑΝΤΗΣΕΙΣ

X = {(x 1, x 2 ) x 1 + 2x 2 = 0}.

1. Για καθένα από τους ακόλουθους διανυσματικούς χώρους βρείτε μια βάση και τη διάσταση. 3. U x y z x y z x y. {(,, ) } a b. c d

VBA ΣΤΟ WORD. 1. Συχνά, όταν ήθελα να δώσω ένα φυλλάδιο εργασίας με ασκήσεις στους μαθητές έκανα το εξής: Version ΗΜΙΤΕΛΗΣ!!!!

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

8.324 Relativistic Quantum Field Theory II

Λιμνοποτάμιο Περιβάλλον και Οργανισμοί

Παλαιότερες ασκήσεις

Estimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University

Test Data Management in Practice

IF(Ingerchange Format) [7] IF C-STAR(Consortium for speech translation advanced research ) [8] IF 2 IF

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Παραδείγματα (2) Διανυσματικοί Χώροι

HY335Α Δίκτυα Υπολογιστών Xειμερινό Εξάμηνο Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών. Routing Algorithms. Network Layer.

Instruction Execution Times

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ανάκτηση Πληροφορίας (Information Retrieval IR)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

2. N-gram IDF. DEIM Forum 2016 A1-1. N-gram IDF IDF. 5 N-gram. N-gram. N-gram. N-gram IDF.

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Every set of first-order formulas is equivalent to an independent set

TMA4115 Matematikk 3

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΗ ΟΜΑΔΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ & ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ (DB-NET)

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας.

Ανάκτηση Πληροφορίας

A Sequential Experimental Design based on Bayesian Statistics for Online Automatic Tuning. Reiji SUDA,

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Fractional Colorings and Zykov Products of graphs

The Simply Typed Lambda Calculus

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Λογική Δημήτρης Πλεξουσάκης Ασκήσεις στον Κατηγορηματικό Λογισμό Τμήμα Επιστήμης Υπολογιστών

ΠΤΥΧΙΑΚΗ/ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ασκήσεις μελέτης της 19 ης διάλεξης

Προσωπική Aνάπτυξη. Ενότητα 2: Διαπραγμάτευση. Juan Carlos Martínez Director of Projects Development Department

8.1 The Nature of Heteroskedasticity 8.2 Using the Least Squares Estimator 8.3 The Generalized Least Squares Estimator 8.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Transcript:

ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006

Outlne Prevous Semester Exercses Set Theory Vector Model Extended Boolean Model IR System Implementaton Approach Boolean Model Vector Model CS-463 Unversty of Crete Sprng 2006 2

Set Theory Exercse - Εκφώνηση Υποθέστε ένα μοντέλο ανάκτησης στο οποίο τα έγγραφα και οι επερωτήσεις είναι υποσύνολα του λεξιλογίου Κ. Έστω οι ακόλουθες τρεις συναρτήσεις κατάταξης: R(d) = d / R2(d) = d / d R3(d) = d / d Σχολιάστε τις διαφορές των διατάξεων που προκύπτουν από αυτές τις τρεις συναρτήσεις και δικαιολογήστε την απάντηση σας. CS-463 Unversty of Crete Sprng 2006 3

Set Theory Exercse - Λύση = a b R (d) = d / R 2 (d) = d / d R 3 (d) = d / d d = a /2 /= /2 d 2 = a c /2 /2 /3 d 3 = a c d /2 /3 /4 d 4 = a b c 2/2= 2/3 2/3 Προκύπτουσα διάταξη εγγράφων <d 4 {d d 2 d 3 }> <d d 4 d 2 d 3 > <d 4 d d 2 d 3 > (a) (a b) / (a b) = (a) / (a b) = /2 CS-463 Unversty of Crete Sprng 2006 4

Set Theory - Συμπεράσματα Κάθε συνάρτηση δίνει διαφορετική διάταξη R Το είναι πάντα το ίδιο επομένως δεν λαμβάνονται υπόψη οι λέξεις του κάθε εγγράφου που δεν ταιριάζουν με την επερώτηση R 2 Ο παρανομαστής είναι πάντα διαφορετικός άρα λαμβάνει υπόψη το μέγεθος του κάθε αρχείου και κατ επέκταση το ποσοστό του εγγράφου στο οποίο δεν έχουμε ταίριασμα R 3 Λαμβάνει υπόψη όχι μόνο το ποσοστό του εγγράφου στο οποίο δεν έχουμε ταίριασμα αλλά και το ποσοστό της επερώτησης στο οποίο δεν έγινε ταίριασμα. CS-463 Unversty of Crete Sprng 2006 5

Vector Model Exercse - Εκφώνηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο : «New York Tmes» Έγγραφο 2: «New Tmes» Έγγραφο 3: «Fnancal Tmes» Έγγραφο 4: «Hgh Hgh Tmes» Έγγραφο 5: «New Fnancal Tmes». Δώστε τη διανυσματική παράσταση του κάθε εγγράφου με βάρη TF-IDF (για ευκολία θεωρήστε ότι IDF=N/DF και όχι IDF=log(N/DF)). Θεωρείστε ότι η θέση της κάθε λέξης στα διανύσματα γίνεται αλφαβητικά. 2. Θεωρείστε την επερώτηση =«hgh fnancal». Υπολογίστε το TF-IDF διάνυσμα αυτής της επερώτησης και δώστε την διάταξη των εγγράφων που θα επιστρέψει ένα σύστημα που βασίζεται στο διανυσματικό μοντέλο. 3. Θεωρείστε τις επερωτήσεις 3 =«hgh AND fnancal» 4 =«hgh OR fnancal» και δώστε τις απαντήσεις που θα επιστρέψει ένα σύστημα που βασίζεται στο Extended Boolean μοντέλο. CS-463 Unversty of Crete Sprng 2006 6

Vector Model Exercse Ερώτημα ο Fnancal Hgh New Tmes York MAX k {FREQ } D D 2 D 3 D 4 2 2 D 5 DF 2 3 5 IDF 5/2 5/=5 5/3 5/5= 5/=5 Term Occurrence Table FREQ = το πλήθος των εμφανίσεων του όρου στο έγγραφο N=5 IDF=N/DF MAXk{FREQ} = συχνότητα της λέξης με τη μέγιστη συχνότητα στο κείμενο CS-463 Unversty of Crete Sprng 2006 7

Vector Model Exercse Ερώτημα ο D D 2 D 3 D 4 D 5 DF Fnancal Hgh New Tmes York MAX k {FREQ } /*(5/3)=66 /*(5/5)= /*(5/)=5 /*(5/3)=66 /*(5/5)= /*(5/2)=25 /*(5/5)= 2/2*(5/)=5 /2*(5/5)=05 2 /*(5/2)=25 /*(5/3)=66 /*(5/5)= 2 3 5 IDF 5/2=25 5/=5 5/3=66 5/5= 5/=5 Term Weght Table TF =FREQ /MAX k {FREQ } W =TF *IDF Συχνότητα/MAXk{FREQ}*IDF CS-463 Unversty of Crete Sprng 2006 8

Vector Model Exercse Ερώτημα 2 ο Fnancal Hgh New Tmes York Q2 = hgh fnancal *5/2=25 *5/=5 IDF 5/2=25 5/=5 5/3=66 5/5= 5/=5 *d=(5/25000)*(005/35)=0 *d2=(5/25000)*(005/30)=0 *d3=(5/25000)*(5/2000)=25/4 *d4=(5/25000)*(050/20)=25 *d5=(5/25000)*(5/205/30)=25/4 Άρα η διάταξη των εγγράφων που θα επιστρέψει η ερώτηση Q είναι: D 4 D 3 D 5 CS-463 Unversty of Crete Sprng 2006 9

Extended Boolean Model Exercse Ερώτημα 3 ο D D 2 D 3 D 4 D 5 Fnancal Hgh New Tmes York /*(5/3)=66 /*(5/5)= *(5/)=5 /*(5/3)=66 /*(5/5)= /*(5/2)=25 /*(5/5)= 2/2*(5/)=5 /2*(5/5)=05 /*(5/2)=25 /*(5/3)=66 /*(5/5)= Κανονικοποίηση των διανυσμάτων maxidf=5: d =(005/35)/5=(00/3/5) d2 =(005/30)/5=(00/3/50) d3 =(5/2000)/5=(/200/50) d4 =(050/20)/5=(00/00) d5 =(5/205/30)/5=(/20/3/50) CS-463 Unversty of Crete Sprng 2006 0

Extended Boolean Model Exercse Ερώτημα 3 ο Q 3 = hgh AND fnancal Sm(3d )=-srt(((-0)^2+(-0)^2)/2)=0 Sm(3d2 )=-srt(((-0)^2+(-0)^2)/2)=0 Sm(3d3 )=-srt(((-/2)^2+(-0)^2)/2)=0.2 Sm(3d4 )=-srt(((-0)^2+(-)^2)/2)=0.29 Sm(3d5 )=-srt(((-/2)^2+(-0)^2)/2)=0.2 Άρα η διάταξη των εγγράφων που θα επιστρέψει η ερώτηση Q 3 είναι: D 4 D 3 D 5 CS-463 Unversty of Crete Sprng 2006

Extended Boolean Model Exercse Ερώτημα 3 ο Q 4 = hgh OR fnancal Sm(4d )=srt((0^2+0^2)/2)=0 Sm(4d2 )=srt((0^2+0^2)/2)=0 Sm(4d3 )=srt(((/2)^2+0^2)/2)=/(2srt(2)) Sm(4d4 )=srt((0^2+^2)/2)=/(2srt(2)) Sm(4d5 )=srt(((/2)^2+0^2)/2)=/(2srt(2)) Άρα η διάταξη των εγγράφων που θα επιστρέψει η ερώτηση Q 4 είναι: D 4 D 3 D 5 CS-463 Unversty of Crete Sprng 2006 2

IR System Implementaton A uck starter s approach Ths sketch s retreval model ndependent Does not have a crawler (we suppose that the Text Database s flled somehow) CS-463 Unversty of Crete Sprng 2006 3

IR System Implementaton TextDatabase WordReader StopWordTreeSet Keyword KeywordTreeSet Document DocumentTreeSet CS-463 Unversty of Crete Sprng 2006 4

CS-463 Unversty of Crete Sprng 2006 5 IR System Implementaton SearchEngne getrelevantdocuments: Boolean model getdocumentrankngs = = 0 )) ( ) ( ( ) ( ) ( cc dnf cc cc g d g k d sm r r r r r αν = = = = = t t t w w w w d d d sm 2 2 ) ( r r r r df f w = l l fre fre f max = n N df log =

Demonstraton CS-463 Unversty of Crete Sprng 2006 6

Implementaton Insght The man dea n nformaton retreval systems s the attempt to vectorze the nformaton by uantfyng t s structural elements. Most vectorzaton processes run teratvely Ths means that you can take advantage of each teratve cycle and store nformaton that may be reused later. CS-463 Unversty of Crete Sprng 2006 7

Questons CS-463 Unversty of Crete Sprng 2006 8