Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης βασισμένα σε: Θεωρία Ασαφών Συνόλων (Fuzzy Se-based Rerieval Models) Νευρωνικά Δίκτυα (Neural Nework Rerieval Model) Μοντέλα Ανάκτησης IΙ (Rerieval Models) Λανθάνουσα Σημασιολογική Ευρετηρίαση (LSI - Laen Semanic Indexing) Γιάννης Τζίτζικας ιάλεξη : 4 Ημερομηνία : 3-006 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 Μοντέλα Βασισμένα στη Θεωρία Ασαφών Συνόλων (Fuzzy Se-based Rerieval Models) Informaion Rerieval Models Fuzzy Se-based Rerieval Model Κίνητρο Επέκταση του Boolean model με μερικό ταίριασμα (και άρα με δυνατότητας διαβάθμισης των στοιχείων των απαντήσεων) Έχουν προταθεί αρκετά μοντέλα που βασίζονται σε fuzzy ses. Εδώ θα δούμε δύο: Ένα απλό μοντέλο που βασίζεται σε f-idf και fuzzy heory Το μοντέλο που προτάθηκε στο [Ogawa, Moria, and Kobayashi (99)] CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 4 Background: Fuzzy Se Theory [Zadeh 965] Framework for represening classes whose boundaries are no well defined Key idea is o inroduce he noion of a degree of membership associaed wih he elemens of a se This degree of membership varies from 0 o and allows modeling he noion of marginal membership Thus, membership is now a gradual noion, conrary o he crispy noion enforced by classic Boolean logic U: universe of discourse A fuzzy subse A of U is characerized by a membership funcion μ A (u) : U [0,] which associaes wih each elemen u of U a number μ A (u) in [0,] Le A and B be wo fuzzy subses of U, and A be he complemen of A. Then, μ A (u) - μ A (u) μ A B (u) max(μ A (u), μ B (u)) μ A B (u) min(μ A (u), μ B (u)) CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 5 A Simple Rerieval Model based on Fuzzy Theory Παράσταση εγγράφων k k. k d w w w d w w w d n w n w n w n w i,j [0,] K{k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j (w,j,,w,j ) όπου w i,j το βάρος της λέξης k i για το κείμενο d j για παράδειγμα w i,j f ij idf i CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 6
A Simple Rerieval Model based on Fuzzy Theory Boolean Queries and Ranking Funcion Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q nd ( k or no k3)) δηλαδή q k ( k k3)) R(dj,q) μ q (dj), άρα είναι ο βαθμός συμμετοχής του dj στο σύνολο που προσδιορίζεται από τη λογική έκφραση q. Μπορούμε να υπολογίσουμε το R(dj,q) βάσει των κανόνων της θεωρίας των Fuzzy ses, θεωρώντας ότι R(dj,i) μ i (dj) w i,j Για παράδειγμα R(dj, v ) max (R(dj, ), R(dj, )) max (wj, wj). R(dj, ) min (R(dj, ), R(dj, )) min (wj, wj). A Simple Rerieval Model based on Fuzzy Theory Παρατηρήσεις Έστω q k x ky. Σύμφωνα με το Boolean model ένα έγγραφο που περιέχει μόνο έναv από τους όρους k x, k y είναι μη-συναφές, και μάλιστα τόσο μησυναφές, όσο ένα έγγραφο που δεν περιέχει κανένα από τους όρους. Ερώτηση: Τι συμβαίνει εδώ; Απάντηση: Το ίδιο Έστω q k x v ky. Σύμφωνα με το Boolean model ένα έγγραφο που περιέχει και τους δύο όρους (k x, k y ) είναι το ίδιο συναφές, με ένα έγγραφο που περιέχει έναν από τους όρους. Ερώτηση: Τι συμβαίνει εδώ; Απάντηση:... Άρα το παρόν μοντέλο διαβαθμίζει τα στοιχεία της απάντησης του q k x v ky (κάτι που δεν είναι δυνατό με το Boolean Μοντέλο). Το παρόν είναι μια ειδική περίπτωση του Εxended Boolean Model (συγκεκριμένα αντιστοιχεί στην περίπτωση που p ). CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 7 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 8 Fuzzy Se Rerieval Model [Ogawa, Moria, and Kobayashi,99] [Ogawa, Moria, and Kobayashi,99] Εδώ θα δούμε το μοντέλο που προτάθηκε στο [Ogawa,Moria, Kobayashi,99) Βασική Ιδέα: Έγγραφα και επερωτήσεις παριστάνονται σε σύνολα όρων ευρετηρίου (εδώ δεν έχουμε βάρη) Κάθε όρος συσχετίζεται με ένα fuzzy se Κάθε έγγραφο έχει ένα degree of membership σε αυτό το fuzzy se Παράδειγμα: Έστω επερώτηση qαυτοκίνητο Έστω έγγραφο d που δεν περιέχει τη λέξη αυτοκίνητο αλλά περιέχει τη λέξη «όχημα». Αν υπάρχουν πολλά έγγραφα που περιέχουν και τις δυο λέξεις, τότε, υπάρχει ισχυρή συσχέτιση των δυο αυτών λέξεων, και > άρα το d μπορεί να θεωρηθεί συναφές με την επερώτηση q. Η παραπάνω ιδέα θεμελιώνεται με Fuzzy Theory CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 0 Fuzzy Se Rerieval Model Μορφή Ευρετηρίου: όπως και στο Boolean model. w i,j {0,} k k. k d w w w d w w w d n w n w n w n K{k,,k }: σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j (w,j,,w,j ) όπου: w i,j αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς w i,j 0) Βάσει αυτού του πίνακα θα δημιουργήσουμε έναν πίνακα συσχέτισης όρων (για να καταχωρήσουμε σχέσεις όπως «αυτοκίνητο» «όχημα») CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 Fuzzy Se Rerieval Model Πίνακας Συσχέτισης (correlaion marix) και εγγύτητα όρων k k. k k c c c k c c c k c n c n c n c(i,l) n(i,l) ni + nl - n(i,l) where: n(i,l): number of docs which conain boh ki and kl ni: number of docs which conain ki nl: number of docs which conain kl Πχ n(i,l)0 > c(i,l)0 n(i,l)3, n3, nl9 > c(i,l)0.3 n(i,l)3, n3, nl30 > c(i,l)0. n(i,l)3, n3, nl3 > c(i,l) Έτσι έχουμε ορίσει ποσοτικά την εγγύτητα (proximiy) μεταξύ των όρων CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006
Fuzzy Se Rerieval Model Fuzzy Informaion Rerieval Σε κάθε όρο ki αντιστοιχούμε ένα fuzzy se με χαρ/κή συνάρτηση μ i Οι συντελεστές συσχέτισης μας επιτρέπουν να ορίσουμε το βαθμό συμμετοχής ενός εγγράφου dj στα fuzzy σύνολα των όρων. Για παράδειγμα έστω ότι το έγγραφο dj δεν περιέχει τον όρο ki Αν το έγγραφο dj περιέχει έναν όρο k w που σχετίζεται ισχυρά με τον k i τότε θα έχουμε c(i,w) ~ και άρα θα μπορούσαμε να θεωρήσουμε ότι μ i (j) ~. Με άλλα λόγια, αν και ο όρος ki δεν εμφανίζεται στο dj, εντούτοις περιγράφει το περιεχόμενο του dj Fuzzy Se Rerieval Model Fuzzy Informaion Rerieval Έστω q σε DNF q c v v ck Σύμφωνα με τη fuzzy se heory: μ q (j) max(μ c (j),, μ ck (j)) Παρά ταύτα, εδώ προτείνεται η χρήση αθροίσματος αντί του του μεγίστου. R(dj,q) μ q (dj) Σ μ cc (dj) για κάθε συζευκτική συνιστώσα cc του q DNF μ i (j) Σ c(i,w) k w dj Άθροισμα του βαθμού συσχέτισης του ki με τους όρους που εμφανίζονται στο dj - Π ( - c(i,w)) k w dj Βασίζεται στο: ( A ) c c i Ai c c Ai Ω ( Ai ) Ω A i CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 3 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 4 Fuzzy Se Rerieval Model Παράδειγμα q ka (kb kc) vec(q dnf ) (,,) + (,,0) + (,0,0) vec(cc) + vec(cc) + vec(cc3) Fuzzy Se Rerieval Model Παράδειγμα (II) q ka (kb kc) vec(q dnf ) (,,) + (,,0) + (,0,0) vec(cc) + vec(cc) + vec(cc3) cc3 D(ka) D(kb) cc cc μ q (dj) μ cc+cc+cc3 (dj) - Π ( - μ cci (dj))..3 - (- [,,]) ( - [,,0]) ( - [,0,0] ) D(kc) CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 5 μ a (dj) μ b (dj) μ c (dj)) μ a (dj) μ b (dj) (-μ c (dj))) μ a (dj) (- μ b (dj)) (-μ c (dj))) CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 6 Fuzzy Se Rerieval Model Σύνοψη K{k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j (w,j,,w,j ) όπου: w i,j αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς w i,j 0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q nd ( k or no k3)) δηλαδή q k ( k k3)) q DNF (k k k3) (k k k3) (k k k3) q DNF (,,) (,,0) (,0,0) Fuzzy Se Rerieval Model Γενικά σχόλια Έχουν συζητηθεί κυρίως στο χώρο της fuzzy heory Δεν έχουμε επαρκή αποτελέσματα πειραματικής αξιολόγησης για να τα αντιπαραβάλλουμε με τα προηγούμενα μοντέλα R(dj,q) μ q (dj) Σ μ cc (dj) για κάθε συζευκτική συνιστώσα cc του q DNF μ ki (dj) - Π ( - c(ki,kw)) k w dj c(ki,kj) καθορίζεται από την συνεμφάνιση των όρων ki και kj στη συλλογή CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 7 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 8
Μοντέλο Ανάκτησης Νευρωνικού Δικτύου Informaion Rerieval Models Neural Nework Model (Μοντέλο Νευρωνικού Δικτύου) Στα κλασσικά μοντέλα ανάκτησης πληροφοριας: τα έγγραφα και οι επερωτήσεις ευρετηριάζονται από όρους η ανάκτηση βασίζεται στο ταίριασμα όρων Ηιδέα: Είναι γνωστό ότι τα Νευρωνικά Δίκτυα είναι καλοί paern machers CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 0 Human Brain is a Neural Nework The human brain is composed of billions of neurons ( million millions of nodes where each node has one housands edges) Each neuron can be viewed as a small processing uni A neuron is simulaed by inpu signals and emis oupu signals in reacion A chain reacion of propagaing signals is called a spread acivaion process As a resul of spread acivaion, he brain migh command he body o ake physical reacions Neural Neworks A neural nework is an oversimplified represenaion of he neuron inerconnecions in he human brain: nodes are processing unis edges are synapic connecions he srengh of a propagaing signal is modelled by a weigh assigned o each edge he sae of a node is defined by is acivaion level depending on is acivaion level, a node migh issue an oupu signal CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 Neural Nework for IR Neural Nework for IR Query [From he wory Wilkinson & Hingson, SIGIR 9] Documen Documens k k d d j d j+ d N Δίκτυο τριών επιπέδων Τα σήματα διαδίδονται (propagae) στο δίκτυο οστάδιοδιάδοσης: Query issue he firs signals These signals propagae accross he nework o reach he documen nodes o στάδιο διάδοσης: Documen nodes migh hemselves generae new signals which affec he documen erm nodes Documen erm nodes migh respond wih new signals of heir own, and so on Query Documen k k Documen s d d j d j+ d N Μιας κατεύθυνσης Διπλής κατεύθυνσης CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 3 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 4
Μετάδοση σημάτων Μετάδοση σημάτων Μέγιστη τιμή σήματος (άρα κάνουμε κανονικοποίηση) Οι όροι της επερώτησης εκπέμπουν το αρχικό σήμα ίσο με Πρέπει να καθορίσουμε τα βάρη των ακόλουθων ακμών: τωνακμώναπότουςόρουςεπέρώτησηςστους όρους εγγράφων (query > ) των ακμών από τους όρους εγγράφων στους κόμβους εγγράφων ( > docs) Iniial acivaion level Query Documen k k Documens d d j d j+ d N Σημείωση: τα αρχικά kai όπως στο διανυσματικό μοντέλο (f-idf) CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 5 Αυτή η κανονικοποίηση μπορεί να γίνει βάζοντας αυτά τα βάρη πάνω στις ακμές CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 6 Μετάδοση σημάτων (II) Μετάδοση σημάτων (III) Query Documen Documens Query Documen Documens Iniial acivaion level k d d j d j+ Άθροιση σημάτων. Άρα το acivaion level στο dj (μετά τον ο γύρο), είναι: Iniial acivaion level k d d j d j+ Άθροιση σημάτων. Άρα το acivaion level στο dj (μετά τον ο γύρο), είναι: k Σημείωση: τα αρχικά kai όπως στο διανυσματικό μοντέλο (f-idf) CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 7 d N w iq w ij The ranking of he classic Vecor Space Model! k (λειτουργία ανάλογη της ανάδρασης συνάφειας) CS-463, Informaion A minimum Rerieval hreshold Sysems should be enforced Yannis Tzizikas, o avoid U. of spurious Cree, Spring signal 006 generaion 8 d N w iq w ij Η ανάκτηση μπορεί να βελτιωθεί αν επιτρέψουμε στους κόμβους των εγγράφων να εκπέμψουν σήμα Μοντέλο Νευρωνικού Δικτύου: Επίλογος Model provides an ineresing formulaion of he IR problem Model has no been esed exensively I is no clear he improvemens ha he model migh provide Informaion Rerieval Models Laen Semanic Indexing (LSI) Λανθάνουσα Σημασιολογική Ευρετηρίαση CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 9
Σκεπτικό / Κίνητρο Classic IR migh lead o poor rerieval due o: relevan documens ha do no conain a leas one index erm are no rerieved A documen ha shares conceps wih anoher documen known o be relevan migh be of ineres The user informaion need is more relaed o conceps and ideas han o index We wan o capure he conceps insead of he words. Conceps are refleced in he words. However: One erm may have muliple meanings (polysemy) Differen may have he same meaning (synonymy) LSI: The approach LSI approach ries o overcome he deficiencies of erm-maching rerieval by reaing he unreliabiliy of observed erm-documen associaion daa as a saisical problem. The goal is o find effecive models o represen he relaionship beween and documens. Hence a se of, which is by iself incomplee and unreliable, will be replaced by some se of eniies which are more reliable indicans. CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 3 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 3 Γιατί λέγεται Laen Διότι γίνεται η υπόθεση ότι υπάρχει μια «λανθάνουσα» δομή στον τρόπο χρήσης των λέξεων στα έγγραφα Το LSI αξιοποιεί στατιστικές τεχνικές για την εκτίμηση της LSI: The idea The key idea is o map documens and queries ino a lower dimensional space (i.e., composed of higher level conceps which are fewer in number han he index ) Rerieval in he reduced concep space migh be superior o rerieval in he space of index Bu how o learn he conceps from daa? CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 33 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 34.0.5.0 B Μείωση Διαστάσεων και Διακριτική Ικανότητα (μπορεί να έχουμε μείωση της διακριτικής ικανότητας, μπορεί όμως και όχι) Παράδειγμα προβολής διαστάσεων σε μία........... A w discriminaing projecion 0.5 0.5.0.5.0 0.5 0.5.0.5.0 w CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 35.0.5.0 B.......... A SVD (Singular Value Decomposiion) LSI is based on SVD (Singular Value Decomposiion) So SVD is applied o derive he laen semanic srucure model. Wha is SVD? A dimensionaliy reducion echnique For more abou marices and SVD see: The Marix Cookbook hp://www.imm.du.dk/pubdb/views/edoc_download.php/374/pdf/imm374.pdf hp://kwon3d.com/heory/jkinem/svd.hml hp://mahworld.wolfram.com/singularvaluedecomposiion.hml hp://www.cs.u.ee/~oomas_l/linalg/lin/node3.hml#section00030000000000 0000 (ΤΟ CHECK THESE) CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 36
Definiions : oal number of index d: oal number of documens (Xij): be a erm-documen marix wih rows and d columns To each elemen of his marix is assigned a weigh associaed wih he pair [ki,dj] The weigh can be freqij (or based on a f-idf weighing scheme) X d d. d d k w w w d k w w w d k w w w d w i,j [0,] Laen Semanic Indexing: Ο τρόπος : oal number of index d: oal number of documens documens X x d documens X^ T0 x m T Singular Value Decomposiion S m x m k x k D 0 0 S m x d Selec firs k (<m) singular values D k x d mmin(,d) x d x k CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 37 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 38 SVD : oal number of index d: oal number of documens The same documens X x d documens X^ T0 x m T Singular Value Decomposiion S D 0 0 m x m m x d mmin(,d) Selec firs k (<m) singular values S D k x k k x d SVD of he erm-by-documen marix X: X T0S0D0 ' If he singular values of S 0 are ordered by size, we only keep he firs k larges values and ge a reduced model: Xˆ X TSD' doesn exacly mach X and i ges closer as more and more singular values are kep This is wha we wan. We don wan perfec fi since we hink some of 0 s in X should be and vice versa. I reflecs he major associaive paerns in he daa, and ignores he smaller, less imporan influence and noise. x d x k CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 39 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 40 LSI Paper example erm-documen Marix Index in ialics CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 4 Weigh number of occurrences CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 4
T 0 S 0 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 43 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 44 D 0 SVD wih minor dropped TS define coordinaes for documens in laen space CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 45 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 46 Παρατηρήσεις Τρόπος Σύγκρισης Όρων και Εγγράφων Ηπαράμετροςk (<m) πρέπει να είναι: large enough o allow fiing he characerisics of he daa small enough o filer ou he non-relevan represenaional deails Τρόπος σύγκρισης όρων: he do produc (or cosine) beween wo row vecors reflecs he exen o which wo have a similar paern of occurrence across he se of documen. documens x d documens Τρόπος σύγκρισης δύο εγγράφων: do produc (or cosine) beween wo column vecors x d CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 47 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 48
Τρόπος Σύγκρισης Όρων και Εγγράφων Τρόπος σύγκρισης όρων: he do produc (or cosine) beween wo row vecors reflecs he exen o which wo have a similar paern of occurrence across he se of documen. Τρόπος σύγκρισης δύο εγγράφων: do produc (or cosine) beween wo column vecors x d x d Xˆ documens X^ documens X^ -0.5 0.0 0.5.0.5 Graphed in Two Dimensions sysem user EPS response ime compuer survey inerface human graph rees minors -.0 -.5 -.0-0.5 0.0 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 49 CS-463, Informaion Rerieval Sysems LSA.SVD.dimTrmVecors[,] Yannis Tzizikas, U. of Cree, Spring 006 50-0.5 0.0 0.5.0.5 Documens and graph m3 m4 rees minors m survey m c response c5ime user compuer inerface c c3 human EPS sysem c4 -.0 -.5 -.0-0.5 0.0 CS-463, Informaion Rerieval Sysems LSA.SVD.dimTrmVecors[,] Yannis Tzizikas, U. of Cree, Spring 006 5 Change in Tex Correlaion Correlaions beween ex in raw daa c c c c4 c5 m m m3 m4 c.000 c -0.9.000 c3 0.000 0.000.000 c4 0.000 0.000 0.47.000 c5-0.333 0.577 0.000-0.309.000 m -0.74-0.30-0.3-0.6-0.74.000 m -0.58-0.447-0.36-0.39-0.58 0.674.000 m3-0.333-0.577-0.408-0.309-0.333 0.5 0.775.000 m4-0.333-0.9-0.408-0.309-0.333-0.74 0.58 0.556.000 Correlaions in wo-dimensional space c c c c4 c5 m m m3 m4 c.000 c 0.90.000 c3.000 0.9.000 c4 0.998 0.884 0.998.000 c5 0.84 0.990 0.844 0.809.000 m -0.858-0.568-0.856-0.887-0.445.000 m -0.853-0.56-0.85-0.883-0.438.000.000 m3-0.85-0.559-0.850-0.88-0.435.000.000.000 m4-0.8-0.497-0.809-0.845-0.368 0.996 0.997 0.997.000 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 5 Laen Semanic Indexing: Ranking Ηεπερώτησηq του χρήστη μοντελοποιείται ως ένα ψευδοέγγραφο στον αρχικό πίνακα Χ X d d. d d q k w w w d w q k w w w d w q k w w w d w q LSI: Συμπεράσματα Laen semanic indexing provides an ineresing concepualizaion of he IR problem I allows reducing he complexiy of he underline represenaional framework which migh be explored, for insance, wih he purpose of inerfacing wih he user Problems If new documens are added hen we have o recompue X^ CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 53 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 54
LSI: Παρατηρήσεις Wha is he common and difference beween PCA (Principle Componen Analysis) and SVD? Boh are relaed o sandard eigenvalue-eigenvecor, o remove noise and ge he mos imporan info. PCA is on covariance marix and SVD works on original marix. Επισκόπηση των Μοντέλων Ανάκτησης που έχουμε εξετάσει μέχρι τώρα CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 55 Ταξινομία Μοντέλων που εξετάσαμε Ταξινομία Μοντέλων που εξετάσαμε Se Theoreic Se Theoreic Classic Models Fuzzy Exended Boolean Classic Models Fuzzy Exended Boolean boolean vecor probabilisic Algebraic Generalized Vecor La. Semanic Index Neural Neworks boolean vecor probabilisic Algebraic Generalized Vecor La. Semanic Index Neural Neworks Probabilisic Probabilisic Inference Nework Belief Nework Inference Nework Belief Nework Parial Maching CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 57 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 58 Ταξινομία Μοντέλων που εξετάσαμε Βάσει της εκφραστικής τους ικανότητας (incomplee) Classic Models Se Theoreic Fuzzy Exended Boolean Exended Boolean Belief Nework boolean vecor probabilisic Algebraic Generalized Vecor La. Semanic Index Neural Neworks Fuzzy Inference Nework Neural Nework Probabilisic Boolean Queries Inference Nework Belief Nework Boolean Vecor Probabilisic Parial Maching CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 59 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 60
Αργότερα Άλλοι τύποι Μοντέλων Ανάκτησης που θα δούμε αργότερα Μοντέλα Ανάκτησης Πληροφοριών από Ιστοσελίδες Έμφαση στους συνδέσμους Μοντέλα Ανάκτησης Πολυμέσων Μοντέλα Ανάκτησης βασισμένα στις Πιθανότητες Μοντέλα Ανάκτησης Δομημένων Εγγράφων (π.χ. XML) Μοντέλα Βασισμένα στη Λογική Carlo Meghini and Umbero Sraccia, A Relevance Terminological Logic for Informaion Rerieval,Proceedings of SIGIR'96, Zurich, Swizerland, 996 CS-463, Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Spring 006 6