ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006
Outlne Prevous Semester Exercses Set Theory Vector Model Extended Boolean Model IR System Implementaton Approach Boolean Model Vector Model CS-463 Unversty of Crete Sprng 2006 2
Set Theory Exercse - Εκφώνηση Υποθέστε ένα μοντέλο ανάκτησης στο οποίο τα έγγραφα και οι επερωτήσεις είναι υποσύνολα του λεξιλογίου Κ. Έστω οι ακόλουθες τρεις συναρτήσεις κατάταξης: R(d) = d / R2(d) = d / d R3(d) = d / d Σχολιάστε τις διαφορές των διατάξεων που προκύπτουν από αυτές τις τρεις συναρτήσεις και δικαιολογήστε την απάντηση σας. CS-463 Unversty of Crete Sprng 2006 3
Set Theory Exercse - Λύση = a b R (d) = d / R 2 (d) = d / d R 3 (d) = d / d d = a /2 /= /2 d 2 = a c /2 /2 /3 d 3 = a c d /2 /3 /4 d 4 = a b c 2/2= 2/3 2/3 Προκύπτουσα διάταξη εγγράφων <d 4 {d d 2 d 3 }> <d d 4 d 2 d 3 > <d 4 d d 2 d 3 > (a) (a b) / (a b) = (a) / (a b) = /2 CS-463 Unversty of Crete Sprng 2006 4
Set Theory - Συμπεράσματα Κάθε συνάρτηση δίνει διαφορετική διάταξη R Το είναι πάντα το ίδιο επομένως δεν λαμβάνονται υπόψη οι λέξεις του κάθε εγγράφου που δεν ταιριάζουν με την επερώτηση R 2 Ο παρανομαστής είναι πάντα διαφορετικός άρα λαμβάνει υπόψη το μέγεθος του κάθε αρχείου και κατ επέκταση το ποσοστό του εγγράφου στο οποίο δεν έχουμε ταίριασμα R 3 Λαμβάνει υπόψη όχι μόνο το ποσοστό του εγγράφου στο οποίο δεν έχουμε ταίριασμα αλλά και το ποσοστό της επερώτησης στο οποίο δεν έγινε ταίριασμα. CS-463 Unversty of Crete Sprng 2006 5
Vector Model Exercse - Εκφώνηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο : «New York Tmes» Έγγραφο 2: «New Tmes» Έγγραφο 3: «Fnancal Tmes» Έγγραφο 4: «Hgh Hgh Tmes» Έγγραφο 5: «New Fnancal Tmes». Δώστε τη διανυσματική παράσταση του κάθε εγγράφου με βάρη TF-IDF (για ευκολία θεωρήστε ότι IDF=N/DF και όχι IDF=log(N/DF)). Θεωρείστε ότι η θέση της κάθε λέξης στα διανύσματα γίνεται αλφαβητικά. 2. Θεωρείστε την επερώτηση =«hgh fnancal». Υπολογίστε το TF-IDF διάνυσμα αυτής της επερώτησης και δώστε την διάταξη των εγγράφων που θα επιστρέψει ένα σύστημα που βασίζεται στο διανυσματικό μοντέλο. 3. Θεωρείστε τις επερωτήσεις 3 =«hgh AND fnancal» 4 =«hgh OR fnancal» και δώστε τις απαντήσεις που θα επιστρέψει ένα σύστημα που βασίζεται στο Extended Boolean μοντέλο. CS-463 Unversty of Crete Sprng 2006 6
Vector Model Exercse Ερώτημα ο Fnancal Hgh New Tmes York MAX k {FREQ } D D 2 D 3 D 4 2 2 D 5 DF 2 3 5 IDF 5/2 5/=5 5/3 5/5= 5/=5 Term Occurrence Table FREQ = το πλήθος των εμφανίσεων του όρου στο έγγραφο N=5 IDF=N/DF MAXk{FREQ} = συχνότητα της λέξης με τη μέγιστη συχνότητα στο κείμενο CS-463 Unversty of Crete Sprng 2006 7
Vector Model Exercse Ερώτημα ο D D 2 D 3 D 4 D 5 DF Fnancal Hgh New Tmes York MAX k {FREQ } /*(5/3)=66 /*(5/5)= /*(5/)=5 /*(5/3)=66 /*(5/5)= /*(5/2)=25 /*(5/5)= 2/2*(5/)=5 /2*(5/5)=05 2 /*(5/2)=25 /*(5/3)=66 /*(5/5)= 2 3 5 IDF 5/2=25 5/=5 5/3=66 5/5= 5/=5 Term Weght Table TF =FREQ /MAX k {FREQ } W =TF *IDF Συχνότητα/MAXk{FREQ}*IDF CS-463 Unversty of Crete Sprng 2006 8
Vector Model Exercse Ερώτημα 2 ο Fnancal Hgh New Tmes York Q2 = hgh fnancal *5/2=25 *5/=5 IDF 5/2=25 5/=5 5/3=66 5/5= 5/=5 *d=(5/25000)*(005/35)=0 *d2=(5/25000)*(005/30)=0 *d3=(5/25000)*(5/2000)=25/4 *d4=(5/25000)*(050/20)=25 *d5=(5/25000)*(5/205/30)=25/4 Άρα η διάταξη των εγγράφων που θα επιστρέψει η ερώτηση Q είναι: D 4 D 3 D 5 CS-463 Unversty of Crete Sprng 2006 9
Extended Boolean Model Exercse Ερώτημα 3 ο D D 2 D 3 D 4 D 5 Fnancal Hgh New Tmes York /*(5/3)=66 /*(5/5)= *(5/)=5 /*(5/3)=66 /*(5/5)= /*(5/2)=25 /*(5/5)= 2/2*(5/)=5 /2*(5/5)=05 /*(5/2)=25 /*(5/3)=66 /*(5/5)= Κανονικοποίηση των διανυσμάτων maxidf=5: d =(005/35)/5=(00/3/5) d2 =(005/30)/5=(00/3/50) d3 =(5/2000)/5=(/200/50) d4 =(050/20)/5=(00/00) d5 =(5/205/30)/5=(/20/3/50) CS-463 Unversty of Crete Sprng 2006 0
Extended Boolean Model Exercse Ερώτημα 3 ο Q 3 = hgh AND fnancal Sm(3d )=-srt(((-0)^2+(-0)^2)/2)=0 Sm(3d2 )=-srt(((-0)^2+(-0)^2)/2)=0 Sm(3d3 )=-srt(((-/2)^2+(-0)^2)/2)=0.2 Sm(3d4 )=-srt(((-0)^2+(-)^2)/2)=0.29 Sm(3d5 )=-srt(((-/2)^2+(-0)^2)/2)=0.2 Άρα η διάταξη των εγγράφων που θα επιστρέψει η ερώτηση Q 3 είναι: D 4 D 3 D 5 CS-463 Unversty of Crete Sprng 2006
Extended Boolean Model Exercse Ερώτημα 3 ο Q 4 = hgh OR fnancal Sm(4d )=srt((0^2+0^2)/2)=0 Sm(4d2 )=srt((0^2+0^2)/2)=0 Sm(4d3 )=srt(((/2)^2+0^2)/2)=/(2srt(2)) Sm(4d4 )=srt((0^2+^2)/2)=/(2srt(2)) Sm(4d5 )=srt(((/2)^2+0^2)/2)=/(2srt(2)) Άρα η διάταξη των εγγράφων που θα επιστρέψει η ερώτηση Q 4 είναι: D 4 D 3 D 5 CS-463 Unversty of Crete Sprng 2006 2
IR System Implementaton A uck starter s approach Ths sketch s retreval model ndependent Does not have a crawler (we suppose that the Text Database s flled somehow) CS-463 Unversty of Crete Sprng 2006 3
IR System Implementaton TextDatabase WordReader StopWordTreeSet Keyword KeywordTreeSet Document DocumentTreeSet CS-463 Unversty of Crete Sprng 2006 4
CS-463 Unversty of Crete Sprng 2006 5 IR System Implementaton SearchEngne getrelevantdocuments: Boolean model getdocumentrankngs = = 0 )) ( ) ( ( ) ( ) ( cc dnf cc cc g d g k d sm r r r r r αν = = = = = t t t w w w w d d d sm 2 2 ) ( r r r r df f w = l l fre fre f max = n N df log =
Demonstraton CS-463 Unversty of Crete Sprng 2006 6
Implementaton Insght The man dea n nformaton retreval systems s the attempt to vectorze the nformaton by uantfyng t s structural elements. Most vectorzaton processes run teratvely Ths means that you can take advantage of each teratve cycle and store nformaton that may be reused later. CS-463 Unversty of Crete Sprng 2006 7
Questons CS-463 Unversty of Crete Sprng 2006 8