Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Σχετικά έγγραφα
Part B. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

Ανάκτηση Πληροφορίας

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ανάκτηση Πληροφορίας

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Reminders: linear functions

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

derivation of the Laplacian from rectangular to spherical coordinates

Abstract Storage Devices

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Section 8.3 Trigonometric Equations

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

w o = R 1 p. (1) R = p =. = 1

TMA4115 Matematikk 3

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Numerical Analysis FMN011

Ψηφιακή Επεξεργασία Εικόνας

A Note on Intuitionistic Fuzzy. Equivalence Relation

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

( ) 2 and compare to M.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2)

EE512: Error Control Coding

Finite Field Problems: Solutions

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

The ε-pseudospectrum of a Matrix

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Démographie spatiale/spatial Demography

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

2 Composition. Invertible Mappings

Matrices and Determinants

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

The Simply Typed Lambda Calculus

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Srednicki Chapter 55

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Fractional Colorings and Zykov Products of graphs

Ανάκτηση Πληροφορίας

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Statistical Inference I Locally most powerful tests

Homomorphism in Intuitionistic Fuzzy Automata

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Part C. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete PART (C): CS-463,Spring 05 PART (A)

Ανάκτηση Πληροφορίας (Information Retrieval IR)

C.S. 430 Assignment 6, Sample Solutions

Second Order RLC Filters

Approximation of distance between locations on earth given by latitude and longitude

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

ST5224: Advanced Statistical Theory II

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Section 7.6 Double and Half Angle Formulas

4.6 Autoregressive Moving Average Model ARMA(1,1)

2. THEORY OF EQUATIONS. PREVIOUS EAMCET Bits.

Homework 3 Solutions

Areas and Lengths in Polar Coordinates

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

Other Test Constructions: Likelihood Ratio & Bayes Tests

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

Areas and Lengths in Polar Coordinates

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

Tridiagonal matrices. Gérard MEURANT. October, 2008

Elements of Information Theory

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

Υπολογιστική Φυσική Στοιχειωδών Σωματιδίων

Commutative Monoids in Intuitionistic Fuzzy Sets

Every set of first-order formulas is equivalent to an independent set

6.3 Forecasting ARMA processes

Section 9.2 Polar Equations and Graphs

Example Sheet 3 Solutions

Right Rear Door. Let's now finish the door hinge saga with the right rear door

Homomorphism of Intuitionistic Fuzzy Groups

Μηχανική Μάθηση Hypothesis Testing

CHAPTER 101 FOURIER SERIES FOR PERIODIC FUNCTIONS OF PERIOD

Lecture 2. Soundness and completeness of propositional logic

Jordan Form of a Square Matrix

Congruence Classes of Invertible Matrices of Order 3 over F 2

Matrices and vectors. Matrix and vector. a 11 a 12 a 1n a 21 a 22 a 2n A = b 1 b 2. b m. R m n, b = = ( a ij. a m1 a m2 a mn. def

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

The challenges of non-stable predicates

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Uniform Convergence of Fourier Series Michael Taylor

Parametrized Surfaces

Math 6 SL Probability Distributions Practice Test Mark Scheme

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης IΙ (Retrieval Models) Γιάννης Τζίτζικας ιάλεξη : 4 Ημερομηνία : -3-2008 CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete Διάρθρωση Μοντέλα Ανάκτησης βασισμένα σε: Θεωρία Ασαφών Συνόλων (Fuzzy Set-based Retrieval Models) Νευρωνικά Δίκτυα (Neural Netork Retrieval Model) Λανθάνουσα Σημασιολογική Ευρετηρίαση (LSI - Latent Semantic Indexing) CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 2

Information Retrieval Models Fuzzy Set-based Retrieval Model Κίνητρο Μοντέλα Βασισμένα στη Θεωρία Ασαφών Συνόλων (Fuzzy Set-based Retrieval Models) Επέκταση του Boolean model με μερικό ταίριασμα (και άρα με δυνατότητες διαβάθμισης των στοιχείων των απαντήσεων) το Εκτεταμένο Λογικό Μοντέλο (Extended Boolean Model) που είδαμε, είναι επίσης μια προσπάθεια προς την ίδια κατεύθυνση Έχουν προταθεί αρκετά μοντέλα που βασίζονται σε fuzzy sets. Εδώ θα δούμε δύο: Ένα απλό μοντέλο που βασίζεται σε TF-IDF και fuzzy theory Το μοντέλο που προτάθηκε στο [Ogaa, Morita, and Kobayashi, 99] CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 4

Background: Fuzzy Set Theory [Zadeh 965] Frameork for representing classes hose boundaries are not ell defined Key idea is to introduce the notion of a degree of membership associated ith the elements of a set This degree of membership varies from 0 to and allos modeling the notion of marginal membership Thus, membership is no a gradual notion, contrary to the crispy notion enforced by classic Boolean logic U: universe of discourse A fuzzy subset A of U is characterized by a membership function μ A (u) : U [0,] hich associates ith each element u of U a number μ A (u) in [0,] Let A and B be to fuzzy subsets of U, and A be the complement of A. Then, μ A (u) = - μ A (u) μ A B (u) = max(μ A (u), μ B (u)) μ A B (u) = min(μ A (u), μ B (u)) CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 5 A Simple Retrieval Model based on Fuzzy Theory Παράσταση εγγράφων k k 2. k t d 2 t d 2 2 22 t2 : : : : : : : : d n n 2n tn i,j [0,] K={k,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,, t,j ) όπου i,j το βάρος της λέξης k i για το κείμενο d j για παράδειγμα i,j = tf ij idf i CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 6

A Simple Retrieval Model based on Fuzzy Theory Boolean Queries and Ranking Function Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q = k and ( k2 or not k3)) δηλαδή q = k ( k2 k3)) R(dj,q) = μ q (dj), άρα είναι ο βαθμός συμμετοχής του dj στο σύνολο που προσδιορίζεται από τη λογική έκφραση q. Μπορούμε να υπολογίσουμε το R(dj,q) βάσει των κανόνων της θεωρίας των Fuzzy sets, θεωρώντας ότι R(dj,ti) = μ ti (dj) = i,j Για παράδειγμα R(dj, t v t2) = max (R(dj, t), R(dj, t2)) = max (j, 2j). R(dj, t t2) = min (R(dj, t), R(dj, t2)) = min (j, 2j). CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 7 A Simple Retrieval Model based on Fuzzy Theory Παρατηρήσεις Έστω q = k x ky. Σύμφωνα με το Boolean model ένα έγγραφο που περιέχει μόνο έναv από τους όρους k x, k y είναι μη-συναφές, και μάλιστα τόσο μησυναφές, όσο ένα έγγραφο που δεν περιέχει κανένα από τους 2 όρους. Ερώτηση: Τι συμβαίνει εδώ; Απάντηση: Το ίδιο Έστω q = k x v ky. Σύμφωνα με το Boolean model ένα έγγραφο που περιέχει και τους δύο όρους (k x, k y ) είναι το ίδιο συναφές, με ένα έγγραφο που περιέχει έναν από τους 2 όρους. Ερώτηση: Τι συμβαίνει εδώ; Απάντηση:... Άρα το παρόν μοντέλο διαβαθμίζει τα στοιχεία της απάντησης του q = k x v ky (κάτι που δεν είναι δυνατό με το Boolean Μοντέλο). Το παρόν είναι μια ειδική περίπτωση του Εxtended Boolean Model (συγκεκριμένα αντιστοιχεί στην περίπτωση που p = ). CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 8

[Ogaa, Morita, and Kobayashi,99] Fuzzy Set Retrieval Model [Ogaa, Morita, and Kobayashi,99] Εδώ θα δούμε το μοντέλο που προτάθηκε στο [Ogaa,Morita, Kobayashi,99) Βασική Ιδέα: Έγγραφα και επερωτήσεις παριστάνονται με σύνολα όρων ευρετηρίου (εδώ δεν έχουμε βάρη στο [0,]) Κάθε όρος συσχετίζεται με ένα fuzzy set Κάθε έγγραφο έχει ένα degree of membership σε αυτό το fuzzy set Παράδειγμα: Έστω επερώτηση q=αυτοκίνητο Έστω έγγραφο d που δεν περιέχει τη λέξη αυτοκίνητο αλλά περιέχει τη λέξη «όχημα». Αν υπάρχουν πολλά έγγραφα που περιέχουν και τις δυο λέξεις, τότε, υπάρχει ισχυρή συσχέτιση των δυο αυτών λέξεων, και => άρα το d μπορεί να θεωρηθεί συναφές με την επερώτηση q. Η παραπάνω ιδέα θεμελιώνεται με Fuzzy Theory CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 0

Fuzzy Set Retrieval Model Μορφή Ευρετηρίου: όπως και στο Boolean model. i,j {0,} k k 2. k t d 2 t d 2 2 22 t2 : : : : : : : : d n n 2n tn K={k,,k t }: σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,, t,j ) όπου: i,j = αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς i,j =0) Βάσει αυτού του πίνακα θα δημιουργήσουμε έναν πίνακα συσχέτισης όρων (για να καταχωρήσουμε σχέσεις όπως «αυτοκίνητο» «όχημα») CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete Fuzzy Set Retrieval Model Πίνακας Συσχέτισης (correlation matrix) και εγγύτητα όρων k k 2. k t k c c 2 c t k 2 c 2 c 22 c t2 : : : : : : : : k t c n c 2n c tn c(i,l) = n(i,l) ni + nl - n(i,l) here: n(i,l): number of docs hich contain both ki and kl ni: number of docs hich contain ki nl: number of docs hich contain kl Πχ n(i,l)=0 => c(i,l)=0 n(i,l)=3, ni=3, nl=9 => c(i,l)=0.3 n(i,l)=3, ni=3, nl=30 => c(i,l)=0. n(i,l)=3, ni=3, nl=3 => c(i,l)= Έτσι έχουμε ορίσει ποσοτικά την εγγύτητα (proximity) μεταξύ των όρων (συγκεκριμένα την συνεμφάνισή τους στα έγγραφα της συλλογής) CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 2

Fuzzy Set Retrieval Model Fuzzy Information Retrieval Σε κάθε όρο ki αντιστοιχίζουμε ένα fuzzy set με χαρ/κή συνάρτηση μ i Οι συντελεστές συσχέτισης μας επιτρέπουν να ορίσουμε το βαθμό συμμετοχής ενός εγγράφου dj στα fuzzy σύνολα των όρων. Για παράδειγμα έστω ότι το έγγραφο dj δεν περιέχει τον όρο ki Αν το έγγραφο dj περιέχει έναν όρο k που σχετίζεται ισχυρά με τον k i τότε θα έχουμε c(i,) ~ και άρα θα μπορούσαμε να θεωρήσουμε ότι μ i (j) ~. Με άλλα λόγια, αν και ο όρος ki δεν εμφανίζεται στο dj, εντούτοις περιγράφει το περιεχόμενο του dj μ i (j) = Σ c(i,) k dj Άθροισμα του βαθμού συσχέτισης του ki με τους όρους που εμφανίζονται στο dj = - Π ( - c(i,)) k dj Βασίζεται στο: ( A i ) c = A i c A i = Ω- ( A i ) c = Ω- A i c CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 3 Fuzzy Set Retrieval Model Fuzzy Information Retrieval Έστω q σε DNF q = cc v v cck, όπου cci είναι μια συζευκτική συνιστώσα Σύμφωνα με τη fuzzy set theory: μ q (j)= max(μ cc (j),, μ cck (j)) Παρά ταύτα, εδώ προτείνεται η χρήση αθροίσματος αντί του του μεγίστου. R(dj,q) = μ q (dj) = Σ μ cc (dj) για κάθε συζευκτική συνιστώσα cc του q DNF CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 4

Fuzzy Set Retrieval Model Παράδειγμα q = ka (kb kc) vec(q dnf ) = (,,) + (,,0) + (,0,0) = vec(cc) + vec(cc2) + vec(cc3) cc3 D(ka) D(kb) cc2 cc D(kc) // documents containing the term kc CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 5 Fuzzy Set Retrieval Model Παράδειγμα (II) q = ka (kb kc) vec(q dnf ) = (,,) + (,,0) + (,0,0) = vec(cc) + vec(cc2) + vec(cc3) μ q (dj) = μ cc+cc2+cc3 (dj) = - Π ( - μ cci (dj)) i=..3 = - (- [,,]) ( - [,,0]) ( - [,0,0] ) μ a (dj) μ b (dj) μ c (dj)) μ a (dj) μ b (dj) (-μ c (dj))) μ a (dj) (- μ b (dj)) (-μ c (dj))) CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 6

Fuzzy Set Retrieval Model Σύνοψη K={k,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,, t,j ) όπου: i,j = αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q = k and ( k2 or not k3)) δηλαδή q = k ( k2 k3)) q DNF = (k k2 k3) (k k2 k3) (k k2 k3) q DNF = (,,) (,,0) (,0,0) R(dj,q) = μ q (dj) = Σ μ cc (dj) για κάθε συζευκτική συνιστώσα cc του q DNF μ ki (dj) = - Π ( - c(ki,k)) k dj c(ki,kj) καθορίζεται από την συνεμφάνιση των όρων ki και kj στη συλλογή CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 7 Fuzzy Set Retrieval Model Γενικά σχόλια Έχουν συζητηθεί κυρίως στο χώρο της fuzzy theory Δεν έχουμε επαρκή αποτελέσματα πειραματικής αξιολόγησης για να τα αντιπαραβάλλουμε με τα προηγούμενα μοντέλα CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 8

Information Retrieval Models Neural Netork Model (Μοντέλο Νευρωνικού Δικτύου) Μοντέλο Ανάκτησης Νευρωνικού Δικτύου Στα κλασσικά μοντέλα ανάκτησης πληροφοριας: τα έγγραφα και οι επερωτήσεις ευρετηριάζονται από όρους η ανάκτηση βασίζεται στο ταίριασμα όρων Ηιδέα: Είναι γνωστό ότι τα Νευρωνικά Δίκτυα είναι καλοί pattern matchers CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 20

Human Brain is a Neural Netork The human brain is composed of billions of neurons ( million millions of nodes here each node has one thousands edges) Each neuron can be vieed as a small processing unit A neuron is stimulated by input signals and emits output signals in reaction A chain reaction of propagating signals is called a spread activation process As a result of spread activation, the brain might command the body to take physical reactions CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 2 Neural Netorks A neural netork is an oversimplified representation of the neuron interconnections in the human brain: nodes are processing units edges are synaptic connections the strength of a propagating signal is modelled by a eight assigned to each edge the state of a node is defined by its activation level depending on its activation level, a node might issue an output signal CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22

Neural Netork for IR Query Terms [From the ork by Wilkinson & Hingston, SIGIR 9] Document Documents Terms k d k a k b k a k b k c d j d j+ k c k t d N Μιας κατεύθυνσης Διπλής κατεύθυνσης CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 Neural Netork for IR Δίκτυο τριών επιπέδων Τα σήματα διαδίδονται (propagate) στο δίκτυο οστάδιοδιάδοσης: Query terms issue the first signals These signals propagate accross the netork to reach the document nodes 2o στάδιο διάδοσης: Document nodes might themselves generate ne signals hich affect the document term nodes Document term nodes might respond ith ne signals of their on, and so on Query Terms k a k b k c Documen t Terms k k a k b k c k t Documen ts d d j d j+ d N CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24

Μετάδοση σημάτων Μέγιστη τιμή σήματος = (άρα κάνουμε κανονικοποίηση) Οι όροι της επερώτησης εκπέμπουν το αρχικό σήμα ίσο με Πρέπει να καθορίσουμε τα βάρη των ακόλουθων ακμών: τωνακμώναπότουςόρουςεπέρώτησηςστους όρους εγγράφων (query terms => terms) των ακμών από τους όρους εγγράφων στους κόμβους εγγράφων (terms => docs) CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 Μετάδοση σημάτων Query Terms Document Terms Documents Initial activation level k a k b k c k k a k b k c d d j d j+ k t d N iq = iq t 2 iq i= ij = ij t i= 2 ij Σημείωση: τα αρχικά iq kai ij όπως στο διανυσματικό μοντέλο (tf-idf) Αυτή η κανονικοποίηση μπορεί να γίνει βάζοντας αυτά τα βάρη πάνω στις ακμές CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 26

Μετάδοση σημάτων (II) Query Terms Document Terms Documents Initial activation level k a k b k c k k a k b k c d d j d j+ Άθροιση σημάτων. Άρα το activation level στο dj (μετά τον ο γύρο), είναι: iq = iq t 2 iq i= k t d N Σημείωση: τα αρχικά iq kai ij όπως στο διανυσματικό μοντέλο (tf-idf) ij = ij t i= 2 ij t i= iq ij The ranking of the classic Vector Space Model! CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 27 Μετάδοση σημάτων (III) Query Terms Document Terms Documents Initial activation level k a k b k c k k a k b k c d d j d j+ Άθροιση σημάτων. Άρα το activation level στο dj (μετά τον ο γύρο), είναι: iq = iq t 2 iq i= k t ij CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 28 = ij t i= 2 ij d N t i= iq ij Η ανάκτηση μπορεί να βελτιωθεί αν επιτρέψουμε στους κόμβους των εγγράφων να εκπέμψουν σήμα (λειτουργία ανάλογη της ανάδρασης συνάφειας) A minimum threshold should be enforced to avoid spurious signal generation

Μοντέλο Νευρωνικού Δικτύου: Επίλογος Model provides an interesting formulation of the IR problem Model has not been tested extensively It is not clear the improvements that the model might provide CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 29 Information Retrieval Models Latent Semantic Indexing (LSI) Λανθάνουσα Σημασιολογική Ευρετηρίαση

Σκεπτικό / Κίνητρο Classic IR might lead to poor retrieval due to: relevant documents that do not contain at least one index term are not retrieved A document that shares concepts ith another document knon to be relevant might be of interest The user information need is more related to concepts and ideas than to index terms We ant to capture the concepts instead of the ords. Concepts are reflected in the ords. Hoever: One term may have multiple meanings (polysemy) Different terms may have the same meaning (synonymy) CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 3 LSI: The approach LSI approach tries to overcome the deficiencies of term-matching retrieval by treating the unreliability of observed term-document association data as a statistical problem. The goal is to find effective models to represent the relationship beteen terms and documents. Hence a set of terms, hich is by itself incomplete and unreliable, ill be replaced by some set of entities hich are more reliable indicants. CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 32

Γιατί λέγεται Latent Διότι γίνεται η υπόθεση ότι υπάρχει μια «λανθάνουσα» δομή στον τρόπο χρήσης των λέξεων στα έγγραφα Το LSI αξιοποιεί στατιστικές τεχνικές για την εκτίμηση της CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 33 LSI: The idea The key idea is to map documents and queries into a loer dimensional space (i.e., composed of higher level concepts hich are feer in number than the index terms) Retrieval in the reduced concept space might be superior to retrieval in the space of index terms But ho to learn the concepts from data? CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 34

2.0 B Μείωση Διαστάσεων και Διακριτική Ικανότητα (μπορεί να έχουμε μείωση της διακριτικής ικανότητας, μπορεί όμως και όχι) Παράδειγμα προβολής 2 διαστάσεων σε μία....5.5......0.0...... 0.5 0.5.0.. A.5 2.0 0.5 0.5.0.5 2.0 CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 35...... A discriminating projection 2.0 B..... SVD (Singular Value Decomposition) LSI is based on SVD (Singular Value Decomposition) So SVD is applied to derive the latent semantic structure model. What is SVD? A dimensionality reduction technique For more about matrices and SVD see: The Matrix Cookbook http://.imm.dtu.dk/pubdb/vies/edoc_donload.php/3274/pdf/imm3274.pdf http://kon3d.com/theory/jkinem/svd.html http://mathorld.olfram.com/singularvaluedecomposition.html http://.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-- understanding.html CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 36

Definitions t: total number of index terms d: total number of documents (Xij): be a term-document matrix ith t ros and d columns To each element of this matrix is assigned a eight ij associated ith the pair [ki,dj] The eight ij can be freqij (or based on a tf-idf eighting scheme) X d d 2. d d k 2 d k 2 2 22 d2 : : : : : : : : k t t 2t dt i,j [0,] CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 38 Latent Semantic Indexing: Ο τρόπος t: total number of index terms d: total number of documents terms documents X = t x d T0 t x m Singular Value Decomposition S m x m D 0 0 m x d m=min(t,d) documents Select first k (<m) singular values terms X^ = T k x k S D k x d t x d t x k CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 39

t: total number of index terms d: total number of documents terms documents X = t x d T0 t x m Singular Value Decomposition S m x m D 0 0 m x d m=min(t,d) documents Select first k (<m) singular values The same terms X^ = T k x k S D k x d t x d t x k CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 40 SVD SVD of the term-by-document matrix X: 0S0D0 ' If the singular values of S 0 are ordered by size, e only keep the first k largest values and get a reduced model: Xˆ X = T X = TSD' doesn t exactly match X and it gets closer as more and more singular values are kept This is hat e ant. We don t ant perfect fit since e think some of 0 s in X should be and vice versa. It reflects the major associative patterns in the data, and ignores the smaller, less important influence and noise. CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 4

LSI Paper example Index terms in italics CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 42 term-document Matrix Weight = number of occurrences CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 43

T 0 CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 44 S 0 CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 45

D 0 CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 46 SVD ith minor terms dropped TS define coordinates for documents in latent space CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 47

Παρατηρήσεις Ηπαράμετροςk (<m) πρέπει να είναι: large enough to allo fitting the characteristics of the data small enough to filter out the non-relevant representational details CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48 Τρόπος Σύγκρισης Όρων και Εγγράφων Τρόπος σύγκρισης 2 όρων: the dot product (or cosine) beteen to ro vectors reflects the extent to hich to terms have a similar pattern of occurrence across the set of document. terms documents t x d documents Τρόπος σύγκρισης δύο εγγράφων: dot product (or cosine) beteen to column vectors terms t x d CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 49

Τρόπος Σύγκρισης Όρων και Εγγράφων Τρόπος σύγκρισης 2 όρων: the dot product (or cosine) beteen to ro vectors reflects the extent to hich to terms have a similar pattern of occurrence across the set of document. terms Xˆ documents X^ t x d documents Τρόπος σύγκρισης δύο εγγράφων: dot product (or cosine) beteen to column vectors terms X^ t x d CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 50 Terms Graphed in To Dimensions -0.5 0.0 0.5.0.5 system user EPS response time computer survey interface human graph trees minors -2.0 -.5 -.0-0.5 0.0 LSA2.SVD.2dimTrmVectors[,] CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 5

Documents and Terms -0.5 0.0 0.5.0.5 system c2 c4 c3 user survey response c5time computer interface c human EPS m4 graph m3 trees minors m2 m -2.0 -.5 -.0-0.5 0.0 LSA2.SVD.2dimTrmVectors[,] CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 52 Change in Text Correlation Correlations beteen text in ra data c c2 c2 c4 c5 m m2 m3 m4 c.000 c2-0.92.000 c3 0.000 0.000.000 c4 0.000 0.000 0.472.000 c5-0.333 0.577 0.000-0.309.000 m -0.74-0.302-0.23-0.6-0.74.000 m2-0.258-0.447-0.36-0.239-0.258 0.674.000 m3-0.333-0.577-0.408-0.309-0.333 0.522 0.775.000 m4-0.333-0.92-0.408-0.309-0.333-0.74 0.258 0.556.000 Correlations in to-dimensional space c c2 c2 c4 c5 m m2 m3 m4 c.000 c2 0.90.000 c3.000 0.92.000 c4 0.998 0.884 0.998.000 c5 0.842 0.990 0.844 0.809.000 m -0.858-0.568-0.856-0.887-0.445.000 m2-0.853-0.562-0.85-0.883-0.438.000.000 m3-0.852-0.559-0.850-0.88-0.435.000.000.000 m4-0.8-0.497-0.809-0.845-0.368 0.996 0.997 0.997.000 CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 53

Latent Semantic Indexing: Ranking Ηεπερώτησηq του χρήστη μοντελοποιείται ως ένα ψευδοέγγραφο στον αρχικό πίνακα Χ X d d 2. d d q k 2 d q k 2 2 22 d2 q2 : : : : : : : : k t t 2t dt qt CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 54 LSI: Συμπεράσματα Latent semantic indexing provides an interesting conceptualization of the IR problem It allos reducing the complexity of the underline representational frameork hich might be explored, for instance, ith the purpose of interfacing ith the user Problems If ne documents are added then e have to recompute X^ CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 55

LSI: Παρατηρήσεις What is the common and difference beteen PCA (Principle Component Analysis) and SVD? Both are related to standard eigenvalue-eigenvector, to remove noise and get the most important info. PCA is on covariance matrix and SVD orks on original matrix. CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 56 Επισκόπηση των Μοντέλων Ανάκτησης που έχουμε εξετάσει μέχρι τώρα

Ταξινομία Μοντέλων που εξετάσαμε Set Theoretic Classic Models boolean vector probabilistic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Netorks Probabilistic Inference Netork Belief Netork CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 58 Ταξινομία Μοντέλων που εξετάσαμε Set Theoretic Classic Models boolean vector probabilistic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Netorks Probabilistic Inference Netork Belief Netork Partial Matching CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 59

Ταξινομία Μοντέλων που εξετάσαμε Set Theoretic Classic Models boolean vector probabilistic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Netorks Probabilistic Boolean Queries Inference Netork Belief Netork Partial Matching CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 60 Βάσει της εκφραστικής τους ικανότητας (incomplete) Extended Boolean Belief Netork Fuzzy Inference Netork Neural Netork Boolean Vector Probabilistic CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 6

Άλλοι τύποι Μοντέλων Ανάκτησης που ενδεχομένως να προλάβουμε να δούμε αργότερα Μοντέλα Ανάκτησης Πληροφοριών από Ιστοσελίδες Έμφαση στους συνδέσμους Μοντέλα Ανάκτησης Πολυμέσων Μοντέλα Ανάκτησης βασισμένα στις Πιθανότητες Μοντέλα Ανάκτησης Δομημένων Εγγράφων (π.χ. XML) Μοντέλα Βασισμένα στη Λογική CS-463, Information Retrieval Systems Yannis Tzitzikas, U. of Crete 62