Information Integration from the

Transcript

1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Ενότητα Information Integration from the Information Retrieval (IR) perspective Διδάσκων: Γιάννης Τζίτζικας Στόχοι αυτής της ενότητας Να δούμε πως το πρόβλημα της ενοποίησης και της διαχείρισης μεγάλων όγκων πληροφοριών προσεγγίζεται στο χώρο της ανάκτησης πληροφοριών και ιστοαναζήτησης Να δούμε διάφορες τεχνικές που έχουν επιτυχημένα εφαρμοστεί εκεί. Αργότερα (σε επόμενα μαθήματα) ) θα δούμε πως κάποιες από αυτές μπορούν εφαρμοστούν σε βάσεις δεδομένων Να καλύψουμε κάποιες βασικές γνώσεις από το χώρο της ανάκτησης πληροφοριών (για όσους δεν έχουν παρακολουθήσει το μάθημα ΗΥ463) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 2

2 Outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 3 Information Retrieval and Information Integration A general note From its nature IR deals with uncontrolled collections of documents and aims at providing uniform word-based access and retrieval services Key point The problem of integration (e.g. of the various documents) and the provision of useful retrieval services is approached by defining best match retrieval models. So the key notion here is ranking. Apart from that, several topics in the context of distributed IR (e.g. source selection, result aggregation) are related to the information integration problem. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 4

3 The Information Retrieval Approach an extremely brief introduction for more refer to CS463 ( hy463) Information Retrieval (IR) in brief outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 6

4 Information Retrieval Basic Processes Documents indexing language query formulation Information need indexing process process d1 q Preprocessing (text operations) stemming stopwords weighting scheme Some Cases (regarding the indexing language): full text without stop words stems without positions doc = set of words doc = bag of words => weights structure preprocessing query language operators query expansion presentation of results user feedback (e.g. relevance feedback) exploration of results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 7 Information Retrieval Basic Processes and Related Components & Artifacts CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 8

5 Information Retrieval Basic Processes and Related Components & Artifacts Source: Arasu et. al.: Searching the Web. ACM Trans. Internet Techn, 2001 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 9 Information Retrieval The Retrieval Process From the User Side Web Searching today state-less user submits a free text query A ranked set of hits (pages, docs, etc) are computed They are presented linearly [user not satisfied] Exploratory Web Searching session-based user submits a free text query A ranked set of hits (pages, docs, etc) are computed Τheir static metadata are loaded Active Dimensions and zoom points are computed and ranked (based on preferences) The hits, the dimensions and the zoom points are visualized The user explores (restricts) the information space by selecting zoom (in/out/side) id points, expressing preferences and by synthesizing various views [user not finished exploration] [user not satisfied] Recall Faceted Dynamic Taxonomies CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 10

6 Information Retrieval The Retrieval Process From the User Side> Exploratory Web Searching Dimension based on dynamic metadata extracted from the top-k resources Dimensions based on static metadata CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 11 Information Retrieval Retrieval Models Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {1,0}), ή συνεχής (π.χ. [0,1]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που μπορεί να έχει ένας χρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους D: παράσταση εγγράφων D={ F(d) d D} Q: παράσταση επερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: DxQ [True/False] συνεχής R: D x Q [0,1] CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 12

7 Information Retrieval Retrieval Models indexing language Objective: Define how relevance is defined, i.e. Relevance(d1,q)=? d1 q Web-based based Ranking (link analysis-based ranking) Extended Boolean Fuzzy Some Retrieval Models for Texts Belief Network Inference Network Boolean Neural Network Vector Space Probabilistic more expressive less expressive PageRank HITS Salsa Collaborative-based Ranking Recommendation Algorithms CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 13 Information Retrieval Some Classical Retrieval Models Retrieval: Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14

8 Information Retrieval Retrieval Models: Exact vs. Best Match Exact-match (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Best-match (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι αώφλ(στο οβαθμό συνάφειας) άφεας) μπορούμε να ελέγξουμε ε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης E.g., best-match query language that incorporates exact-match operators CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 Information Retrieval TF*IDF Weighting Scheme Έστω όρος ki και έγγραφο dj freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j tf ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j df i = document frequency of term i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse document frequency of term i := log 2 (N/ df i ) όπου N το συνολικό πλήθος εγγράφων Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ο λογάριθμος ελαφραίνει το βάρος του idf σε σχέση με το tf CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 16

9 Information Retrieval TF*IDF Weighting Scheme Η λογική δομή ενός ευρετηρίου k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w ij = tf ij idf i = tf ij log 2 (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το tf-idf δουλεύει πολύ καλά στην πράξη. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 17 Information Retrieval Retrieval Models: The Vector Space Model (VSM) K={k 1,,k t} : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου w ij = tf ij idf i = tf ij log 2 (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(w 1,q,,w t,q ) όπου w iq = tf iq idf i = tf iq log 2 (N/ df i ) R(d j,q) = r d r d j j r r q q = i = 1 t t ( w w ij ij 2 w t i = 1 i = 1 iq w ) iq 2 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 18

10 Information Retrieval Retrieval Models> Okapi BM25 Sim 25 (d,q) idf(t) = tf d,tt k = 1.2 b = d : BM : length of N df(t) term (as = we frequency d (in terms) avgdl :average document length t(x) : termsof x t t(q) tf d,t (k + 1) idf(t) d tf d,t + k (1 b + b ) avgdl defined (as we it previously defined ) it previously ) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 19 Information Retrieval Retrieval Models for the Web Αξιοποιούν τη δομή του Ιστού (συγκεκριμένα τους συνδέσμους) Γράφος του Ιστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο G=(V,E) Διαγράφουμε τους κυκλικούς συνδέσμους (αυτοσυνδέσμους self-hyperlinks) Οι πολλαπλοί σύνδεσμοι (από μια σελίδα p σε μια q) καταπίπτουν σε έναν σύνδεσμο (p,q) in E CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 20

11 Information Retrieval Retrieval Models for the Web HITS (Hyperlink-Induced Topic Search) Αλγόριθμος που προτάθηκε από τον Kleinberg το Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριμένο θέμα (topic), αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής (αμοιβαίως οριζόμενες και αναδρομικές) προτάσεις: Hubs point to lots of authorities. Authorities are pointed to by lots of hubs. Hubs Authorities Hubs and Authorities tend to form a bipartite graph (nodes can be partitioned into 2 groups such that there are no links between the nodes of the same group): CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 21 Information Retrieval Retrieval Models for the Web HITS>Authorities and Hubs Authorities are pages that are recognized as providing significant, trustworthy, and useful informationonatopic on a topic. Α simple measure of authority could be in(p) However in-degree treats all links as equal. Should links from pages that are themselves authoritative count more? Hubs are index pages that provide lots of useful links to relevant content pages (topic authorities). Παραδείγματα Hub pages για ανάκτηση πληροφοριών: u.ac.jp/member/kita/nlp/ir.html Α simple measure for identifying hubs could be out(p) in(a) A out(a) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22

12 Information Retrieval Retrieval Models for the Web HITS> First steps of the algorithm Εντοπίζει τα hubs και τα authorities για ένα συγκεκριμένο θέμα (topic) που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση (base set) Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και authorities. S R R = ans(q) ( { out( p) p R} ) ( { in( p) p }) S : = R R CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 Information Retrieval Retrieval Models for the Web HITS> Iterative Algorithm Use an iterative algorithm to slowly converge on a mutually reinforcing set of hubs and authorities. Maintain i for each page p S: Authority score: a(p) (vector a) Hub score: h(p) (vector h) Initialize all a(p)=h(p) = 1 Maintain normalized scores: p S a( p) 2 = 1 p S h( p) 2 = 1 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24

13 Information Retrieval Retrieval Models for the Web HITS> Update Rules Authorities are pointed to by lots of good hubs: a ( p ) = h ( q ) q in( p) Hubs point to lots of good authorities: a(4) = h(1) + h(2) + h(3) h( p) = a( q) q out( p) h(4) = a(5) + a(6) + a(7) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 Information Retrieval Retrieval Models for the Web HITS> The algorithm Initialize for all p S: a(p)=h(p) = 1 For i = 1 to k: For all p S: For all p S: a( p) = (update auth. scores) q in( ( p ) h( q) (update hub scores) h ( p ) = a ( q ) q out( p) For all p S: a(p)=a(p)/c 2 (normalize a) c = For all p S: a( p) p S h(p)= h(p)/c c: 2 c = h h ( p ) (normalizel h) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 26

14 Information Retrieval Retrieval Models for the Web HITS> Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο (fixpoint). Define A to be the adjacency matrix for the subgraph defined by S. A ij = 1 for i S, j S iff i j Authority vector, a, converges to the principal eigenvector of A T A Hub vector, h, converges to the principal i eigenvector of AA T Στην πράξη, 20 επαναλήψεις συνήθως επαρκούν. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 27 Information Retrieval Retrieval Models for the Web PageRank Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google (Brin & Page, 1998). Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους (authority). Εφαρμόζεται σε όλες τις σελίδες του ιστού (δεν περιορίζεται ρζ στη γειτονιά των σελίδων της απάντησης μιας επερώτησης) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 28

15 Information Retrieval Retrieval Models for the Web PageRank: Η αρχική έκδοση Μπορούμε να εκλάβουμε τη βαθμολόγηση ως μια διαδικασία ροής «κύρους». Η ροή γίνεται μέσω των συνδέσμων (και έχει την ίδια κατεύθυνση με αυτούς) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 29 Information Retrieval Retrieval Models for the Web PageRank: Example of Fixpoint CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 30

16 Information Retrieval Retrieval Models for the Web PageRank: Random Surfer Model (Μοντέλο Τυχαίου Περιηγητή) Ο PageRank μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» (random surfer) ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν με πιθανότητα Ε(p) κάνει ένα άλμα σε μια τυχαία σελίδα, αλλιώς (με πιθανότητα 1-E(p)) επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το R(p) εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή Σημείωση: Τα τυχαία άλματα αποτρέπουν την «παγίδευση» του περιηγητή σε καταβόθρες ή σε σελίδες που δεν έχουν εξερχόμενους συνδέσμους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 31 Information Retrieval Retrieval Models for the Web PageRank: The Algorithm Let S be the total set of pages. Let p S: p E(p) = α/ S (for some 0<α<1,, e.g. 0.15) ) Initialize p S: R(p) = 1/ S Until ranks do not change (much) (convergence) g For each p S: R( q) R ( p ) = + E ( p ) out ( q) q in( p) For each p S: R(p) ) = R (p)/c (normalize) c = R ( p) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 32

17 Information Retrieval Retrieval Models for the Web PageRank: Speed of Convergence Early experiments on Google used 322 million links. PageRank algorithm converged (within small tolerance) in about 52 iterations. ti Number of iterations required for convergence is empirically O(log n) (where n is the number of links). Therefore calculation is quite efficient. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 33 Information Retrieval Retrieval Models for the Web Personalized PageRank Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PageRank, τροποποιώντας κατάλληλα το Ε (ώστε να μην περιγράφει μια ομοιόμορφη κατανομή) Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» α σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν p= τότε Ε(p)=α αλλιώς E(p)=0 // ευνοεί τις ιστοσελίδες που είναι κοντά (στο γράφο) στην ιστοσελίδα // του μαθήματος ΗΥ463 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 34

18 Information Retrieval Retrieval Models and Web Search Engines In practice complex retrieval models are used which combine several sources of evidence (topic relevance, PageRank, query logs, etc). A hybrid retrieval model that t combines relevance with query-independent d scores can have the form: Score(d,q) = a g(d) + (1 a) Sim(d,q) 0 a 1 Query-independent d score (e.g. PageRank score) Scoring function of a best match retrieval model CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 35 Databases Information Retrieval Retrieval Models > (Effectiveness) Evaluation Procedure Πρόβλημα: Πως μπορούμε να κρίνουμε αν μια συνάρτηση βαθμολόγησης (γενικά ένα retrieval model) είναι καλύτερη από μια άλλη; Τρόπος: 1) Επέλεξε ένα συγκεκριμένο σύνολο εγγράφων C (κατά προτίμηση του ίδιου γνωστικού πεδίου). 2) Διατύπωσε ένα σύνολο επερωτήσεων για αυτά Q 3) Βρες έναν ή περισσότερους ειδικούς (experts) του γνωστικού πεδίου, και βάλε τους να μαρκάρουν τα συναφή έγγραφα για κάθε ερώτηση Συνήθως, οι κρίσεις τους είναι (Συναφές, Μη-Συναφές).Αρα το αποτέλεσμα της διαδικασίας δ αυτής είναι ένα σύνολο από πλειάδες της μορφής: (c,q,relevant) ή (c,q,irrelevant), όπου c C, q Q. 4) Χρησιμοποίησε αυτή τη συλλογή για την αξιολόγηση της αποτελεσματικότητας ενός ΣΑΠ (Συστήματος Ανάκτησης Πληροφοριών) Βάζουμε το ΣΑΠ να ευρετηριάσει τη συλλογή C, κατόπιν του στέλνουμε επερωτήσεις από το Q και αξιολογούμε τις αποκρίσεις του βάσει των κρίσεων που έχουν κάνει ήδη οι ειδικοί. Δυσκολίες: Η παραπάνω μέθοδος απαιτεί μεγάλη ανθρώπινη προσπάθεια για μεγάλες συλλογές εγγράφων/επερωτήσεων. TREC CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 36

19 Information Retrieval Retrieval Models > Evaluation Measures Effectiveness Evaluation Assumes an evaluation collection Some retrieval effectiveness Measures Precision Recall F-Measure (and E-Measure) Fallout Precision-Recall Curves R-Precision i and Histograms Expected Search Length... User Oriented Measures Novelty Ratio Coverage Ratio User Effort Efficiency Response Time Storage Space Requirements (main memory, disk space) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 37 Information Retrieval Retrieval Models > Evaluation Measures Συλλογή εγγράφων Ε Σ Σ: Συναφή (με το ερώτημα q) (μας τα έχουν δώσει οι ειδικοί) Ε Σ Ακρίβεια = Ε P(recision) Ε: Ευρεθέντα (από το υπό αξιολόγηση σύστημα ανάκτησης πληροφοριών) Ε Σ Ανάκληση = Σ R(ecall) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 38

20 Information Retrieval Retrieval Models > Evaluation Measures> Single-valued (they ignore order) F-Measure Μέτρο που λαμβάνει υπόψη την Ακρίβεια και την Ανάκληση. Είναι το αρμονικό μέσο (harmonic mean) της ανάκλησης και ακρίβειας. Δίνει υψηλό βαθμό εάν και τα δύο έχουν υψηλή τιμή. 2PR 2 F = = 1 P + R 1 + Ε-Measure Παραλλαγή του F measure που μας επιτρέπει να δώσουμε περισσότερη έμφαση (βάρος) στην ακρίβεια. Η τιμή του β ρυθμίζει το trade-off. R P E = 2 2 ( 1 + β ) PR (1 + β ) = 2 2 β 1 β P + R + R P CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 39 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Έστω Συναφή =6 n doc # relevant Recall Precision x R=1/6=0.167; P=1/1= x R=2/6=0.333; P=2/2= x R=3/6=0.5; P=3/4= x R=4/6=0.667; P=4/6= Missing one relevant document Never reach x R=5/6=0.833; P=5/13= % recall Pre ecision Recall CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 40

21 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Precision 1.0 Interpolating ti a Recall/Precision i Curve real interpolated 0.8 R=0.167; P=1 R=0.333; P=1 0.6 R=0.5; P= R=0.667; P=0.667 R= ; P= Recall Σημείωση: Από τα 5 ζεύγη (Ρ,R) που είχαμε ε πήγαμε σα11 στα CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 41 Information Retrieval Retrieval Models > Evaluation Measures R-Precision: Η ακρίβεια στην R θέση της διάταξης της απάντησης μιας επερώτησης που έχει R (στο πλήθος) συναφή έγγραφα n doc # relevant x x x x x R = # of relevant docs = x R-Precision=4/6=067 = 0.67 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 42

22 Information Retrieval Retrieval Models > Reporting Evaluation Results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 43 Information Retrieval Index Structures Aim: Enable efficient term-based access (i.e. fast evaluation of queries) Key Index Structures and Associated Taks Inverted files (plus algorithms for gradual index creation) Suffix trees and suffix arrays (for phrase queries) Signature files Index structures for multimedia (e.g. metric trees) Other useful (for the retrieval process) algorithms String pattern matching algorithms (including algs for Edit distance algorithms) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 44

23 Information Retrieval Index Structures> Inverted File Main Mem mory Disk Space requirement O( n) n :size of text in words Space requirement O(n) Document Collection Vocabulary Posting File cached textual d 1 word df pos (docid: tf),.. contents of docs d 2 Free games Indexing chat 1 (d Free games 3 :1) d 3 Free games free 2 (d 1 :1), (d 2 :2) Chat online games 2 (d 1 :1), (d 2 :2) Here for simplicity frequency in docs online 1 (d 3 :1) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 45 Information Retrieval The Retrieval Process (assuming Inverted Files) Query pre processing: Tokenization, case folding, stopwords elimination, stemming Vocabulary Search: Locate each query term t at the vocabulary Retrieval of occurrences: Fetch the posting list I(t) of each query term t from the posting file Manipulation of occurrences: The occurrences are processed to extract information (extracting docids, counting frequencies) A scoring function assigns scores to the documents as an estimate for their relevance to the query (i.e VSM, Okapi BM25) The documents are sorted in decreasing score order and the results are returned to the user (either all or the top K) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 46

24 Information Retrieval Index Structures> Suffix Tries (for fast evaluation of phrasal queries) This is a text. A text has many words. Words are made from letters. letters. made from letters. Words are made from letters. words. Words are made from letters. many words. Words are made from letters. text has many words. Words are made from letters. text. A text has many words. Words are made from letters. Suffix Trie l d a m n t e x t. 11 w o r d s CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 47 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) Κύρια σημεία: Δομή ευρετηρίου που βασίζεται στο hashing Μικρή χωρική επιβάρυνση (10%-20% του μεγέθους των κειμένων) Αναζήτηση = σειριακή αναζήτηση στο αρχείο υπογραφών Κατάλληλη για όχι πολύ μεγάλα κείμενα Ευρετηρίαση Χρήση hash function που αντιστοιχεί λέξεις κειμένου σε bit masks των Β bits Διαμέριση του κειμένου σε blocks των b λέξεων το καθένα Bit mask of a block = Bitwise OR of the bits masks of all words in the block Bit masks are then concatenated Αναζήτηση λέξης w: 1/ W := h(w) (we hash the word to a bit mask W) 2/ Compare W with all bit masks Bi of all text blocks If (W & Bi = W), the text block i is candidate (may contain the word w) 3/ For all candidate text blocks, perform an online traversal to verify that the word w is actually there CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48

25 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) b=3 ( 3 words per block) B=6 (bit masks of 6 bits) Text Block 1 Block 2 Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Signature Files Text Signature Signature Function h(text)= h(many)= h(words)= h(made)= h(letters)= Σχεδιαστικοί στόχοι: Μείωσε την πιθανότητα εμφάνισης false drops Κράτησε το μέγεθος του αρχείου υπογραφών μικρό δεν έχουμε κανένα false drop αν b=1 και Β=log Γιατί Bitwise-OR? 2 (V) Παράμετροι: Β (το μέγεθος μγ των bit mask) L (L<B) to πλήθος των bit που είναι 1 (σε κάθε h(w)) The (space)-(false drop probability) tradeoff: 10% space overhead => 2% false drop probability 20% space overhead => 0.046% false drop probability CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 49 Information Retrieval Index Structures> For Metric Spaces Κίνητρο Ανάκτηση πολυμέσων. Εδώ δεν έχουμε λέξεις. Μπορεί όμως να έχουμε ορίσει μια συνάρτηση απόστασης και ο σκοπός μας είναι να απαντήσουμε ερωτήσεις της μορφής: βρες όλα τα αντικείμενα σε απόσταση ε από το Q βρες όλα τα τμήματα των αντικειμένων σε απόσταση ε από το Q βρες τα 5 κοντινότερα αντικείμενα στο Q Σύμπαν αντικειμένων U (πχ το σύνολο όλων των εικόνων 512x512) Συλλογή αντικειμένων C={o 1,,o N }, C U Συνάρτηση Απόστασης (ομοιότητας,..,συνάφειας) D: U x U [0,1] καθορίζεται από έναν ειδικό του πεδίου (μπορεί να υπολογίζεται από ένα πρόγραμμα) Επερώτηση: αντικείμενο Q (Q U) και ανοχή (tolerance) ε Απάντηση επερώτησης:ans(q, ε)={ o C D(o,Q) ε } Σκοπός: Γρήγορος υπολογισμός του ans(q, ε) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 50

26 Information Retrieval Index Structures> For Metric Spaces Μία προσέγγιση είναι να χρησιμοποιήσουμε features (feature-based multimedia indexing and retrieval). Μία άλλη είναι να χρησιμοποιήσουμε τεχνικές ευρετηρίασης που εφαρμόζονται κατευθείαν στις αποστάσεις (άρα παρακάμπτουμε την ανάγκη επιλογής features) Η γενική ιδέα Υπολογίζουμε τις αποστάσεις μεταξύ των αντικειμένων (όχι κατά ανάγκη μεταξύ όλων) μια φορά, φτιάχνουμε μια κατάλληλη δομή δεδομένων, και εν συνεχεία την αξιοποιούμε κατά την αποτίμηση των επερωτήσεων (για να μειώσουμε το πλήθος των αποστάσεων που απαιτείται να υπολογίσουμε εκείνη την ώρα) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 51 Information Retrieval Index Structures> Metric Trees (Α) tree indexes for discrete distance functions, i.e. for functions that deliver a small set of values Burkhard-Keller Tree (BKT) [Buthard et al 73] Fixed Query Tree (FQT) [Baeza-Yates 94] (Β) tree indexes for continuous distance functions i.e. for functions where the set of alternatives is infinite or very large Vantage Point-Trees (VTPs) Multi-Vantage-Point trees (MVTs) Voronoi Trees (VTs) M-trees (MT). (C) not tree-based indexes. AESA (Approximating Eliminating Search Algorithm) LAESA (for linear AESA). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 52

27 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Είναι δυαδικά δένδρα Τρόπος κατασκευής Επιλέγουμε ένα στοιχείο κεντρικό (pivot). Υπολογίζουμε τον μέσο όρο Μ των αποστάσεων από αυτό το σημείο Τα στοιχεία με απόσταση μικρότερη ή ίση του Μ εισάγονται στο αριστερό υποδένδρο, ενώ τα υπόλοιπα στο δεξί Συνεχίζουμε αναδρομικά Τρόπος αναζήτησης. Έστω επερώτηση (Q,ε) 1/ Μετράμε την απόσταση του Q από το pivot p, δηλαδή d(q,p) 2/ Αν d(q,p)-ε <= Μ πάμε στο αριστερό υποδέντρο. Αν d(q,p) +ε > Μ πάμε στο δεξί υποδέντρο (ενδέχεται να μπούμε και στα δύο υποδένδρα) 3/ Επιστρέφουμε τα στοιχεία που έχουν απόσταση <= ε από το Q 2.9 u7 u >3.1 >2.9 u9 4 >4 u15 u6 u8 u3 >2.5 u14 u4 u10 u1 u13 u2 u12 u (η ορθότητα εξασφαλίζεται από τις ιδιότητες των μετρικών συναρτήσεων) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 53 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Επιδόσεις Χώρος: O(n) Χρόνος κατασκευής: απαιτούνται O(n logn) ) υπολογισμοί αποστάσεων (διότι (δό το δέντρο είναι ισοζυγισμένο) Κόστος αναζήτησης: O (log n) υπολογισμοί απόστασης αν το ε είναι σχετικά μικρό Αλλες τεχνικές (για μετρικούς χώρους) AESA(Approximating i Eliminating i Search Algorithm) Βασίζεται σε έναν πίνακα με n(n-1)/2 προϋπολογισμένες αποστάσεις, άρα καταλαμβάνει χώρο O(n 2 ). Όμως οι πειραματικά μετρούμενοι χρόνοι αναζήτησης είναι πολύ καλοί O(1). CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 54

28 Information Integration from the IR Perspective CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 55 Information Integration from the IR Perspective Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 56

29 Information Integration from the IR Perspective Aspects One corpus of documents (i.e. one system) We have already explained how preprocessing (e.g. stemming) as well the weighting (e.g. IDF) allow a system to be less vulnerable to the morphological variations of words and to distinguish words with high discrimination power. Several Corpi of Documents (or several IR systems in general, e.g. Meta Search Web Engines) Basic Processes Source Selection Query Translation Forwarding Result Aggregation Presentation of Results Meta-Web Search Engines CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 57 Integration from the DB world and the IR world The web search engines approach (crawling, link analysis, log analysis, etc) The meta-search approach CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 58

30 Virtual Integration in the IR World Apart from its application for the Web, this approach is also useful for tackling the Hidden Web Visible Web: Information can be copied (crawled) and accessed by conventional search engines like Google or AltaVista Hidden Web: Information hidden from conventional engines. - No arbitrary crawl of the data (e.g., ACM library) Can NOT - Updated too frequently to be crawled (e.g., buy.com) Index (promptly) - Larger than Visible Web (2-50 times) Searched by - Created by yprofessionals Valuable Federated Search Federated Search is a feature used to beat Google by search engines like - Web: Uncooperative information sources CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 59 Aspects of Information Integration Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning Increased Volumes of Data Mining Advanced Ranking (best match queries) Customizable Ranking (preferences) Efficient Computation of Top-K Answer Exploration/Visualization/Clustering li i /Cl i (to support decision making) requires results to Artifacts Tasks Extra Sources Workloads Social Perspective... that can be used

31 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) query Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 61 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) answer Information Integration Source Description Source Selection ans1 ans2 ans3 ans4 ans5 Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 62

32 Information Integration from the IR Perspective DIR > Source Selection Σκοπός Η επιλογή των υποκείμενων πηγών στις οποίες θα προωθηθεί η επερώτηση Κίνητρο Η αναζήτηση σε κάθε συλλογή (ήτοι σε όλες τις υποκείμενες πηγές) μπορεί: να είναι ακριβή σε χρόνο (αφού μπορεί να έχουμε εκατοντάδες συλλογές) να είναι ακριβή σε χρήμα (η αναζήτηση μπορεί να έχει χρηματικό κόστος) να καθορίσει την αποτελεσματικότητα (effectiveness) της ανάκτησης Μερικές Προσεγγίσεις Επιλογή Όλων (των υποκείμενων πηγών) ) Επιλογή από το Χρήστη Χειρονακτική Ομαδοποίηση και Επιλογή Πηγών Επιλογή Πηγής βάσει Κανόνων (Rule-based) Επιλογή Πηγής βάσει κατανομής συναφών εγγράφων (Relevant Document Distribution (RDD)) Επιλογή Πηγής με Επερώτηση Βολιδοσκόπησης λδ Επιλογή Πηγής με Διανύσματα Πηγών CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 63 Information Integration from the IR Perspective DIR > Source Selection Επιλογή Όλων (κανένας περιορισμός) Επιλογή από το χρήση (π.χ. στις μεταμηχανές αναζήτησης) Θεματική οργάνωση συλλογών (χειρονακτική) Οργανώνουμε τις υποκείμενες πηγές/συστήματα θεματικά πχ μαθηματικά, φυσική, ειδήσεις, κλπ Ο χρήστης επιλέγει τη θεματική κατηγορία και ανάλογα προωθείται η επερώτηση προβλήματα χρονοβόρα διαδικασία, ευάλωτη σε ασυνέπειες/παραλείψεις, δεν θα δουλέψει καλά για μη-συνηθισμένες επερωτήσεις Επιλογή βάσει Κανόνων Τα περιεχόμενα κάθε συλλογής περιγράφονται σε μια Βάση Γνώσης. Ένα Σύστημα Κανόνων επιλέγει τις πηγές για κάθε εισερχόμενη επερώτηση. Αδυναμίες: κόστος συγγραφής κανόνων και ανάγκη συντήρησης των κανόνων (αν οι συλλογές είναι δυναμικές) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 64

33 Information Integration from the IR Perspective DIR > Source Selection Κατανομή Συναφών Εγγράφων (Relevant Document Distribution (RDD)) Γενική ιδέα: Φτιάξε μια βάση με επερωτήσεις και την πιθανή κατανομή των συναφών εγγράφων σε κάθε συλλογή (με κάποιο τρόπο) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 65 Information Integration from the IR Perspective DIR > Source Selection Για κάθε νέα επερώτηση q που λαμβάνει το σύστημα Βρίσκουμε τις κ πιο κοντινές επερωτήσεις στη βάση (similar past queries) Από τις κατανομές τους, εκτιμούμε πόσα συναφή έγγραφα με την νέα επερώτηση έχει κάθε πηγή Αποφασίζουμε πόσα έγγραφα να ζητήσουμε από κάθε συλλογή (αν 0 δεν στέλνουμε επερώτηση ) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 66

34 Information Integration from the IR Perspective DIR > Source Selection Επερώτηση Βολιδοσκόπησης (Query Probing) Στέλνουμε μια επερώτηση βολιδοσκόπησης σε κάθε συλλογή (που μπορεί να περιλαμβάνει μερικούς από τους όρους της επερώτησης) κάθε συλλογή απαντά με στατιστικές πληροφορίες πχ: μέγεθος συλλογής, πόσα έγγραφα έχουν τον κάθε όρο, πόσα έγγραφα έχουν όλους τους όρους της επερώτησης, κλπ βάσει αυτών των στοιχείων επιλέγουμε την πηγή Υποθέσεις η επεξεργασία των επερωτήσεων βολιδοσκόπησης είναι πολύ φθηνότερη περιέχουν λίγους όρους, δεν χρειάζεται να υπολογίσουμε βαθμούς συνάφειας ή να διατάξουμε τα έγγραφα ως προς τη συνάφεια τους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 67 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors (Διανύσματα Πηγών) IRS1=<0.4, 0.3,, 0.8> IRS2=<0.1, 0.9,, 0.4> IRS3=<0 <0.8, 0.5,, 0.2> IRS1 IRS2 IRS3 IRS4 IRS5 Βλέπουμε κάθε συλλογή ως ένα μεγάλο έγγραφο Φτιάχνουμε ένα δά διάνυσμα για κάθε συλλογή (τύπου ύ TF-IDF) με τις εξής διαφορές: tfij: j συνολικές εμφανίσεις του όρου i στη συλλογή j idfi: log(n/ni), όπου Ν το πλήθος των συλλογών, και ni το πλήθος των συλλογών που έχουν τον όρο i CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 68

35 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors Τρόπος Επιλογής Πηγής Με την έλευση μιας επερώτηση q στη μεταμηχανή υπολογίζουμε το βαθμό ομοιότητας με το διάνυσμα κάθε συλλογής (π.χ. χ ομοιότητα συνημίτονου) Διατάσσουμε τις συλλογές (βάσει των παραπάνω βαθμών) και επιλέγουμε τις κορυφαίες Μια αδυναμία: Μπορεί ο βαθμός ομοιότητας με μία συλλογή να είναι μεγάλος, αλλά να μην υπάρχει κανένα έγγραφο εκεί με μεγάλο βαθμό συνάφειας Ένας τρόπος αντιμετώπισης: Για κάθε συλλογή φτιάξε Ν/Β διανύσματα, δηλαδή ένα διάνυσμα για κάθε Β έγγραφα της συλλογής (αντί για μόνο 1) Αν Β=11 τότε ο server είναι σαν να έχει το ευρετήριο όλων των συστημάτων Αν Β=Ν τότε έχουμε ένα διάνυσμα για κάθε συλλογή CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 69 Result Aggregation CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 70

36 Information Integration from the IR Perspective DIR > Result Aggregation Σκοπός Συγκρότηση της τελικής απάντησης από τις απαντήσεις που έδωσαν οι πηγές στις οποίες προωθήθηκε η επερώτηση Γενικές Κατηγορίες Τεχνικών Συγκρότησης answer =? ans1 ans2 ans3 ans4 ans5 Ολοκληρωμένες (Integrated) Απομονωμένες (Isolated) IRS1 IRS2 IRS3 IRS4 IRS5 Μερικά Σχόλια Αν οι απαντήσεις είναι σύνολα (άρα όχι διατάξεις) τότε το πρόβλημα είναι πιο εύκολο. Αν όμως οι απαντήσεις είναι διατεταγμένες (αποτέλεσμα χρήσης μοντέλων βέλτιστου ταιριάσματος) τότε η ενοποίηση αποτελεσμάτων είναι πιο δύσκολη αφού οι διατάξεις/σκορ δεν είναι πάντα συγκρίσημες (αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). Συχνά μας αρκεί η εύρεση των κορυφαίων στοιχείων της ενοποιημένης διάταξης CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 71 Κατηγορίες Στρατηγικών Ενοποίησης Διατάξεων (A) Ολοκληρωμένες Τεχνικές (Integrated) Οι πηγές παρέχουν επιπρόσθετη πληροφορία που χρησιμοποιείται κατά την ενοποίηση Αδυναμίες: Μπορούμε να πούμε ότι έχουν στενότερο πεδίο εφαρμογής - απαιτούν συμφωνία μεταξύ των πηγών (e.g. protocol). Επίσης συχνά λαμβάνουν υπόψη τους μέτρα όπως Precision/Recall, τα οποία δεν είναι πάντα «αντικειμενικά» ή συγκρίσιμα. (B) Απομονωμένες Μέθοδοι (Isolated) Δεν απαιτούν καμία επιπλέον πληροφορία από τις πηγές (άρα μπορούν να εφαρμοστούν και στις μετα-μηχανές αναζήτησης) Είναι ανεξάρτητες των τεχνικών ευρετηρίασης και των μοντέλων ανάκτησης των υποκείμενων συστημάτων, άρα κατάλληλες για δυναμικά περιβάλλοντα όπου υπάρχουν πολλά συστήματα των οποίων η λειτουργία εξελίσσεται συχνά και απρόβλεπτα Σχετικές τεχνικές: round robin interleaving, score-based, Rank Aggregation Methods (Borda, Condorcet), download d and re-index the contents of the objects CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 72

37 DIR > Result Aggregation Round Robin interleaving & Score-based Round Robin Interleaving (δηλαδή merge sort) // isolated Παράδειγμα: ans1(q) = <d10,d2, d30, d7> ans2(q) = <d4, d12, d5, d9> ANS(q) = < {d10,d4}, {d2,d12}, {d30,d5}, {d7,d9}> Προβλήματα στην πραγματικότητα όλα τα έγγραφα του ans1(q) μπορεί να είναι καλύτερα (πιο συναφή) από το 1ο στοιχείο της ans2(q) Score-based Παράδειγμα: ans1(q) = < (d3,0.8), (d2,0.7) > ans2(q) = < (d5,0.6), (d6,0.3) > ans3(q) = < (d4,0.9) > ANS(q) = < d4, d3, d2, d5, d6> Προβλήματα τα σκορ διαφορετικών συστημάτων δεν είναι συγκρίσιμα (κανονικοποιημένα), αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 73 DIR > Result Aggregation Weighted Score-based Weighted Score-based Λαμβάνουμε υπόψη το σκορ της πηγής που υπολογίσαμε όταν κάναμε Επιλογή Πηγής (source selection) Πχ Score(IRS1) = 0.9 // υπολογίστηκε στη φάση επιλογής πηγής Score(IRS2) = 0.5 // υπολογίστηκε στη φάση επιλογής πηγής ans1(q) = <(d1, 0.7)> ans2(q) = <(d2, 0.9)> ANS(q) = < (d1, 0.63), (d2, 0.45)> // 0.63 = 0.9*0.7 Εδώ πολλαπλασιάσαμε το σκορ της πηγής με το σκορ των εγγράφων. Υπάρχουν και άλλες παραλλαγές (π.χ. [Callan94,95]) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 74

38 DIR > Result Aggregation Downlοad and re-index/re-score (isolated) Downlοad and re-index/re-score Εδώ ανακτούμε τα έγγραφα των απαντήσεων κάθε πηγής, τα επαναευρετηριάζουμε και επαναυπολογίζουμε το βαθμό συνάφειας τους Μειονέκτημα Χρονοβόρα διαδικασία ans1 ans2 IRS1 Vector Space Model IRS4 Extended Boolean Model CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 75 DIR > Result Aggregation Global term statistics (integrated) Μπορούμε να κάνουμε συγκρίσιμα τα σκορ διαφορετικών συστημάτων αν επιβάλουμε τα ίδια στατιστικά στοιχεία σε όλα τα συστήματα (global statistics) Τα στατιστικά αυτά στοιχεία μπορούν να αποκτηθούν στη φάση της επιλογής πηγής (πχ χ Διανύσματα Πηγής, Probe Queries, ) Αποτίμηση Επερωτήσεων σε 2 φάσεις στην 1η συλλέγονται τα στατιστικά (o server στέλνει την επερώτηση και οι πηγές απαντούν με τα στατιστικά των όρων που περιέχονται στην επερώτηση) στην 2η ο server στέλνει σε κάθε πηγή την επερώτηση μαζί με τα καθολικά στατιστικά των όρων της κάθε πηγή αποτιμά την επερώτηση με τα καθολικά στατιστικά και επιστρέφει την απάντηση η Ο server λαμβάνει έτοιμα σκορ και απλά τα ενοποιεί (merge sort) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 76

39 (cont) q= Hotels Crete idf(hotels)= log(2000/400) idf(crete)= log(2000/105) ans = score-based merging of ans1 ans2 ans1 ans2 S1 S2 S1 S2 S1 S2 S1 S2 N1 = 1000 N2 = 1000 N1Hotels = 300 N2Hotels = 100 N1Crete = 100 N2Crete = 5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 77 Rank kaggregation Συνάθροιση Διατάξεων (no scores are available)

40 Information Integration from the IR Perspective Rank Aggregation > Outline Το πρόβλημα και διάφορες εφαρμογές του Τρόποι Συνάθροισης Διατάξεων Plurality Borda Condorcet Kemeny Επιθυμητές Ιδιότητες Τεχνικών Συνάθροισης Διατάξεων Το Θεώρημα του Ανέφικτου του Arrow Παραδείγματα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 79 Ενοποίηση Διατάξεων: Rank Aggregation (or Meta-Ranking) Διατύπωση του Προβλήματος D: ένα σύνολο αντικειμένων (π.χ. εγγράφων, πλειάδων,..) S1, Sk: Sk ένα σύνολο (γραμμικών) ώ διατάξεων του D (άρα εδώ δεν έχουμε σκορ) ) Σκοπός: Εφαρμογές Ενοποίηση των διατάξεων S1,..Sk σε μία Ενοποίηση αποτελεσμάτων σε μεσολαβητές (mediators) και μεταμηχανές αναζήτησης (meta search engines), καθώς και αρκετές άλλες, π.χ. συγκρότηση ιδανικής διάταξης για αξιολόγηση αυτόματων τεχνικών διαβάθμισης Α possible metaphor: elections Objects Candidates Sources Electors Ordering by a system Elector s voting ticket Fused ordering Election list CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 80

41 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία) O υποψήφιος με τις περισσότερες πρώτες θέσεις είναι ο νικητής. Έστω 6 πηγές (S1,,S6) και 4 σελίδες a,b,c,d. Κάθε σύστημα επιστρέφει μια γραμμική διάταξη των σελίδων: S1: <a,c,d,b> S2: <a,b,c,d> S3: <b,c,a,b> S4: <b,a,d,c> S5: <a,d,c,b> S6: <c,a,b,d> Μετράμε πόσες πρώτες θέσεις κατέλαβε κάθε σελίδα a: 3 b: 2 c: 1 d: 0 Άρα η τελική κατάταξη είναι η <a,b,c,d>,, CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 81 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> πρωτιές: a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d (που ήταν τελευταίο στην ενοποιημένη διάταξη) 3 συστήματα <a,c,b> 6 συστήματα <a,c,b> 3 συστήματα <b,c,a> 5 συστήματα <b,c, a> 2 συστήματα <c,b,a> 5 συστήματα <c,b,a> 2 συστήματα <b,c,a> 4 συστήματα <c,b,a> a:9 b:10 c:11 Τελική διάταξη: <c,b,a> Αντίστροφη της αρχικής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 82

42 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d Τελική διάταξη: <c,b,a> Απόσυρση του a Τελική διάταξη: <d,c,b> Απόσυρση του b Τελική διάταξη: <d,c,a> Απόσυρση του c Τελική διάταξη: <d,b,a> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 83 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Borda [Jean-Charles Borda 1770] The votes of an object o V ( o) = r i ( o) i= i 1....kk r ( o) : the position of the object The fused ordering Μ is derived by ordering the objects in ascending order wrt to their votes Reinvented (for the context of Meta-Searching) in [Tzitzikas 2001] o in the ordering of system i S i Example: S1 : < o1, o2, o S2 : < o1, o3, o S : < o, o, o > > > V ( o V ( o V ( o ) = = 4 ) = = 8 ) = = 6 M : o < o1, o3, 2 > If each source S r ( o i j i returns an ordered subset i i, if o j Oi position of o j in O ) = F + 1 otherwise O of Obj. where F = max{ O1,..., Ok } Γιατί; CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 84

43 Ενοποίηση Διατάξεων κατά Borda Βαθμός Συμφωνίας The distance between two orderings i and j: dist( i, j) = ri ( o) rj ( o) o O Footrule distance The mean distance of the fused ordering 0 The level l of agreement of fthe fused ordering 0: Dem = i =.. dist(0, i) 1 k k linear transformation C Dem LA = C C: max possible mean distance Dem inversion transformation LA = C C > 1,e.g.C = 2 High level may drive the user to read only the very first documents since probably they are the more relevant Low level may drive the user to read more documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 85 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Condorcet [1785] Condorcet: the winner is a candidate that defeats every other candidate in pairwise majority-rule election S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> a:b 2:1 // τo a νικά το b δύο φορές (και χάνει μία) a:c 2:1 // τo a νικά το c δύο φορές (και χάνει μία) Αρα η τελική κατάταξη κατά Condorset είναι: <a,b,c> Άλλο παράδειγμα S1: <a,b,c>, S2: <b,c,a>, S3: <c,a,b> a:b 2:1 // άρα το b δεν μπορεί να είναι o νικητής a:c 1:2 // άρα το a δεν μπορεί να είναι o νικητής c:b 1:2 // άρα το c δεν μπορεί να είναι o νικητής ηής Δεν υπάρχει πάντα Condorset νικητής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 86

44 Borda vs Condorcet S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> Borda a: = 5 b: = 6 c: = 7 Borda ordering: <a,b,c> Condorset a:b 2:1 a:c 2:1 Condorset ordering: <a,b,c> Borda (1770) Member of French Academy of Sciences. Noted for work in hydraulics, optics, navigation instrument. Purpose: Reforming the election procedure of French Academy.Criticize plurality method Condorcet (1785) Viewed Borda as an enemy. Finding best ordering by hypothesis testing. Switch to propose Condorcet winner CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 87 Borda Condorcet S1: <a,b,c,d,e> S2: <b,c,e,d,a> S3: <e,a,b,c,d> S4: <a,b,d,e,c> S5: <b,a,d,e,c> Borda Condorset a: = 11 a:b 3:2 b: = 9 a:c 4:1 c: = a:d 4:1 d: = 19 a:e :3:2 e: = 17 Condorset winner a Borda winner : b CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 88

45 Prurality Borda Condorcet 1st 2nd 3rd 49 votes x y z 48 votes y z x 3 votes z y x Prurality winner: x Borda winner: y Condorcet: z> x CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 89 Condorcet and Order Θεωρείστε την περίπτωση τριών υποψηφίων (a,b,c) a b c a 5 7 b 8 2 c 6 11 Έχουμε συνοψίσει τις διατάξεις που έδωσαν οι εκλέκτορες κατασκευάζοντας έναν πίνακα C, όπου το C[i,j] εκφράζει πόσες φορές το i νικά το j Μπορούμε να υπολογίσουμε τη στήριξη (support) κάθε πιθανής γραμμικής διάταξης αθροίζοντας τη στήριξη της κάθε συσχέτισής της. <a,b,c> has support 25 a>b:8, a>c:6, b>c:11 <b,c,a> has support 23 b>a:5, c>a:7, b>c:11 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 90

46 Ενοποίηση Διατάξεων (Rank Aggregation) Συναρτήσεις Απόστασης μεταξύ Διατάξεων Notations: Obj: the set of all objects t: an ordered list of a subset S of Obj (i.e. S Obj) e.g. t = [x1 > x2... > xd] where xi S t(i): the position of the element i in the ordered list t t : the number of elements in t We can say that a list t is full: if t = Obj partial: if t < Obj CS562 Yannis Tzitzikas, U. of Crete 91 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Let ta and tb be two full lists Spearman s Footrule Distance Kendall tau distance dist F Obj ( ta, tb) = ta( i) tb( i) It counts the number of pairwise disagreements between the two lists (πλήθος των διαφωνιών στη δά διάταξη ζευγαριών ) dist K ( ta, tb) = {( i, j) i < j, ta( i) < ta( j), tb( i) > tb( j)} Example Let Obj = {A,B,C,D,E}, and let ta, tb be two full lists over Obj Spearman s Footrule Distance: C dist F (ta, tb ) = = 6 Kendall tau distance: dist K (ta, tb ) = {(A,C), (B.D), (B,E), (D,E)} = 4 CS562 Yannis Tzitzikas, U. of Crete 92 i= ta A E D B tb C A B D E

47 Ενοποίηση Διατάξεων κατά Kemeny (1959) (Kemeny developed BASIC language) Kemeny Optimal Aggregation Η καλύτερη ενοποιημένη διάταξη είναι εκείνη που απέχει το λιγότερο από όλες τις διατάξεις (βάσει της απόστασης Kendall tau) Έστω n διατάξεις: r1, r2,, rn Ενοποιημένη διάταξη r = arg r min( dist K (r,ri)) We can say that Kemeny Optimal Aggregation r reconciles Borda and Condorcet methods CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 93 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Η εύρεση της βέλτιστης ενοποιημένης διάταξης (κατά Kemeny) είναι ακριβή (πρόβλημα NP-hard) Η βέλτιστη ενοποιημένη η διάταξη ως προς την footrule απόσταση είναι στο P. Let dist_k: Kendall tau distance dist_f: Spearman s Footrule Distance For any full lists ta, tb it holds: dist_k(ta,tb) dist_f(ta,tb) 2 dist_k(ta,tb) So we get a 2-approximation to Kemeny-optimality It follows that if σ is the Kemeny optimal aggregation of a set of full lists τ 1,, τ k, while σ optimizes the footrule aggregation then, dist_k(σ, τ 1,, τ k ) 2 dist_k(σ, τ 1,, τ k ) CS562 Yannis Tzitzikas, U. of Crete 94

Δείτε περισσότερα