Information Integration from the

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Information Integration from the"

Transcript

1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Ενότητα Information Integration from the Information Retrieval (IR) perspective Διδάσκων: Γιάννης Τζίτζικας Στόχοι αυτής της ενότητας Να δούμε πως το πρόβλημα της ενοποίησης και της διαχείρισης μεγάλων όγκων πληροφοριών προσεγγίζεται στο χώρο της ανάκτησης πληροφοριών και ιστοαναζήτησης Να δούμε διάφορες τεχνικές που έχουν επιτυχημένα εφαρμοστεί εκεί. Αργότερα (σε επόμενα μαθήματα) ) θα δούμε πως κάποιες από αυτές μπορούν εφαρμοστούν σε βάσεις δεδομένων Να καλύψουμε κάποιες βασικές γνώσεις από το χώρο της ανάκτησης πληροφοριών (για όσους δεν έχουν παρακολουθήσει το μάθημα ΗΥ463) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 2

2 Outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 3 Information Retrieval and Information Integration A general note From its nature IR deals with uncontrolled collections of documents and aims at providing uniform word-based access and retrieval services Key point The problem of integration (e.g. of the various documents) and the provision of useful retrieval services is approached by defining best match retrieval models. So the key notion here is ranking. Apart from that, several topics in the context of distributed IR (e.g. source selection, result aggregation) are related to the information integration problem. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 4

3 The Information Retrieval Approach an extremely brief introduction for more refer to CS463 ( hy463) Information Retrieval (IR) in brief outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 6

4 Information Retrieval Basic Processes Documents indexing language query formulation Information need indexing process process d1 q Preprocessing (text operations) stemming stopwords weighting scheme Some Cases (regarding the indexing language): full text without stop words stems without positions doc = set of words doc = bag of words => weights structure preprocessing query language operators query expansion presentation of results user feedback (e.g. relevance feedback) exploration of results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 7 Information Retrieval Basic Processes and Related Components & Artifacts CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 8

5 Information Retrieval Basic Processes and Related Components & Artifacts Source: Arasu et. al.: Searching the Web. ACM Trans. Internet Techn, 2001 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 9 Information Retrieval The Retrieval Process From the User Side Web Searching today state-less user submits a free text query A ranked set of hits (pages, docs, etc) are computed They are presented linearly [user not satisfied] Exploratory Web Searching session-based user submits a free text query A ranked set of hits (pages, docs, etc) are computed Τheir static metadata are loaded Active Dimensions and zoom points are computed and ranked (based on preferences) The hits, the dimensions and the zoom points are visualized The user explores (restricts) the information space by selecting zoom (in/out/side) id points, expressing preferences and by synthesizing various views [user not finished exploration] [user not satisfied] Recall Faceted Dynamic Taxonomies CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 10

6 Information Retrieval The Retrieval Process From the User Side> Exploratory Web Searching Dimension based on dynamic metadata extracted from the top-k resources Dimensions based on static metadata CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 11 Information Retrieval Retrieval Models Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {1,0}), ή συνεχής (π.χ. [0,1]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που μπορεί να έχει ένας χρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους D: παράσταση εγγράφων D={ F(d) d D} Q: παράσταση επερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: DxQ [True/False] συνεχής R: D x Q [0,1] CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 12

7 Information Retrieval Retrieval Models indexing language Objective: Define how relevance is defined, i.e. Relevance(d1,q)=? d1 q Web-based based Ranking (link analysis-based ranking) Extended Boolean Fuzzy Some Retrieval Models for Texts Belief Network Inference Network Boolean Neural Network Vector Space Probabilistic more expressive less expressive PageRank HITS Salsa Collaborative-based Ranking Recommendation Algorithms CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 13 Information Retrieval Some Classical Retrieval Models Retrieval: Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14

8 Information Retrieval Retrieval Models: Exact vs. Best Match Exact-match (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Best-match (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι αώφλ(στο οβαθμό συνάφειας) άφεας) μπορούμε να ελέγξουμε ε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης E.g., best-match query language that incorporates exact-match operators CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 Information Retrieval TF*IDF Weighting Scheme Έστω όρος ki και έγγραφο dj freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j tf ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j df i = document frequency of term i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse document frequency of term i := log 2 (N/ df i ) όπου N το συνολικό πλήθος εγγράφων Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ο λογάριθμος ελαφραίνει το βάρος του idf σε σχέση με το tf CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 16

9 Information Retrieval TF*IDF Weighting Scheme Η λογική δομή ενός ευρετηρίου k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w ij = tf ij idf i = tf ij log 2 (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το tf-idf δουλεύει πολύ καλά στην πράξη. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 17 Information Retrieval Retrieval Models: The Vector Space Model (VSM) K={k 1,,k t} : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου w ij = tf ij idf i = tf ij log 2 (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(w 1,q,,w t,q ) όπου w iq = tf iq idf i = tf iq log 2 (N/ df i ) R(d j,q) = r d r d j j r r q q = i = 1 t t ( w w ij ij 2 w t i = 1 i = 1 iq w ) iq 2 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 18

10 Information Retrieval Retrieval Models> Okapi BM25 Sim 25 (d,q) idf(t) = tf d,tt k = 1.2 b = d : BM : length of N df(t) term (as = we frequency d (in terms) avgdl :average document length t(x) : termsof x t t(q) tf d,t (k + 1) idf(t) d tf d,t + k (1 b + b ) avgdl defined (as we it previously defined ) it previously ) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 19 Information Retrieval Retrieval Models for the Web Αξιοποιούν τη δομή του Ιστού (συγκεκριμένα τους συνδέσμους) Γράφος του Ιστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο G=(V,E) Διαγράφουμε τους κυκλικούς συνδέσμους (αυτοσυνδέσμους self-hyperlinks) Οι πολλαπλοί σύνδεσμοι (από μια σελίδα p σε μια q) καταπίπτουν σε έναν σύνδεσμο (p,q) in E CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 20

11 Information Retrieval Retrieval Models for the Web HITS (Hyperlink-Induced Topic Search) Αλγόριθμος που προτάθηκε από τον Kleinberg το Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριμένο θέμα (topic), αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής (αμοιβαίως οριζόμενες και αναδρομικές) προτάσεις: Hubs point to lots of authorities. Authorities are pointed to by lots of hubs. Hubs Authorities Hubs and Authorities tend to form a bipartite graph (nodes can be partitioned into 2 groups such that there are no links between the nodes of the same group): CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 21 Information Retrieval Retrieval Models for the Web HITS>Authorities and Hubs Authorities are pages that are recognized as providing significant, trustworthy, and useful informationonatopic on a topic. Α simple measure of authority could be in(p) However in-degree treats all links as equal. Should links from pages that are themselves authoritative count more? Hubs are index pages that provide lots of useful links to relevant content pages (topic authorities). Παραδείγματα Hub pages για ανάκτηση πληροφοριών: u.ac.jp/member/kita/nlp/ir.html Α simple measure for identifying hubs could be out(p) in(a) A out(a) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22

12 Information Retrieval Retrieval Models for the Web HITS> First steps of the algorithm Εντοπίζει τα hubs και τα authorities για ένα συγκεκριμένο θέμα (topic) που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση (base set) Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και authorities. S R R = ans(q) ( { out( p) p R} ) ( { in( p) p }) S : = R R CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 Information Retrieval Retrieval Models for the Web HITS> Iterative Algorithm Use an iterative algorithm to slowly converge on a mutually reinforcing set of hubs and authorities. Maintain i for each page p S: Authority score: a(p) (vector a) Hub score: h(p) (vector h) Initialize all a(p)=h(p) = 1 Maintain normalized scores: p S a( p) 2 = 1 p S h( p) 2 = 1 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24

13 Information Retrieval Retrieval Models for the Web HITS> Update Rules Authorities are pointed to by lots of good hubs: a ( p ) = h ( q ) q in( p) Hubs point to lots of good authorities: a(4) = h(1) + h(2) + h(3) h( p) = a( q) q out( p) h(4) = a(5) + a(6) + a(7) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 Information Retrieval Retrieval Models for the Web HITS> The algorithm Initialize for all p S: a(p)=h(p) = 1 For i = 1 to k: For all p S: For all p S: a( p) = (update auth. scores) q in( ( p ) h( q) (update hub scores) h ( p ) = a ( q ) q out( p) For all p S: a(p)=a(p)/c 2 (normalize a) c = For all p S: a( p) p S h(p)= h(p)/c c: 2 c = h h ( p ) (normalizel h) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 26

14 Information Retrieval Retrieval Models for the Web HITS> Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο (fixpoint). Define A to be the adjacency matrix for the subgraph defined by S. A ij = 1 for i S, j S iff i j Authority vector, a, converges to the principal eigenvector of A T A Hub vector, h, converges to the principal i eigenvector of AA T Στην πράξη, 20 επαναλήψεις συνήθως επαρκούν. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 27 Information Retrieval Retrieval Models for the Web PageRank Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google (Brin & Page, 1998). Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους (authority). Εφαρμόζεται σε όλες τις σελίδες του ιστού (δεν περιορίζεται ρζ στη γειτονιά των σελίδων της απάντησης μιας επερώτησης) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 28

15 Information Retrieval Retrieval Models for the Web PageRank: Η αρχική έκδοση Μπορούμε να εκλάβουμε τη βαθμολόγηση ως μια διαδικασία ροής «κύρους». Η ροή γίνεται μέσω των συνδέσμων (και έχει την ίδια κατεύθυνση με αυτούς) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 29 Information Retrieval Retrieval Models for the Web PageRank: Example of Fixpoint CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 30

16 Information Retrieval Retrieval Models for the Web PageRank: Random Surfer Model (Μοντέλο Τυχαίου Περιηγητή) Ο PageRank μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» (random surfer) ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν με πιθανότητα Ε(p) κάνει ένα άλμα σε μια τυχαία σελίδα, αλλιώς (με πιθανότητα 1-E(p)) επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το R(p) εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή Σημείωση: Τα τυχαία άλματα αποτρέπουν την «παγίδευση» του περιηγητή σε καταβόθρες ή σε σελίδες που δεν έχουν εξερχόμενους συνδέσμους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 31 Information Retrieval Retrieval Models for the Web PageRank: The Algorithm Let S be the total set of pages. Let p S: p E(p) = α/ S (for some 0<α<1,, e.g. 0.15) ) Initialize p S: R(p) = 1/ S Until ranks do not change (much) (convergence) g For each p S: R( q) R ( p ) = + E ( p ) out ( q) q in( p) For each p S: R(p) ) = R (p)/c (normalize) c = R ( p) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 32

17 Information Retrieval Retrieval Models for the Web PageRank: Speed of Convergence Early experiments on Google used 322 million links. PageRank algorithm converged (within small tolerance) in about 52 iterations. ti Number of iterations required for convergence is empirically O(log n) (where n is the number of links). Therefore calculation is quite efficient. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 33 Information Retrieval Retrieval Models for the Web Personalized PageRank Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PageRank, τροποποιώντας κατάλληλα το Ε (ώστε να μην περιγράφει μια ομοιόμορφη κατανομή) Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» α σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν p= τότε Ε(p)=α αλλιώς E(p)=0 // ευνοεί τις ιστοσελίδες που είναι κοντά (στο γράφο) στην ιστοσελίδα // του μαθήματος ΗΥ463 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 34

18 Information Retrieval Retrieval Models and Web Search Engines In practice complex retrieval models are used which combine several sources of evidence (topic relevance, PageRank, query logs, etc). A hybrid retrieval model that t combines relevance with query-independent d scores can have the form: Score(d,q) = a g(d) + (1 a) Sim(d,q) 0 a 1 Query-independent d score (e.g. PageRank score) Scoring function of a best match retrieval model CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 35 Databases Information Retrieval Retrieval Models > (Effectiveness) Evaluation Procedure Πρόβλημα: Πως μπορούμε να κρίνουμε αν μια συνάρτηση βαθμολόγησης (γενικά ένα retrieval model) είναι καλύτερη από μια άλλη; Τρόπος: 1) Επέλεξε ένα συγκεκριμένο σύνολο εγγράφων C (κατά προτίμηση του ίδιου γνωστικού πεδίου). 2) Διατύπωσε ένα σύνολο επερωτήσεων για αυτά Q 3) Βρες έναν ή περισσότερους ειδικούς (experts) του γνωστικού πεδίου, και βάλε τους να μαρκάρουν τα συναφή έγγραφα για κάθε ερώτηση Συνήθως, οι κρίσεις τους είναι (Συναφές, Μη-Συναφές).Αρα το αποτέλεσμα της διαδικασίας δ αυτής είναι ένα σύνολο από πλειάδες της μορφής: (c,q,relevant) ή (c,q,irrelevant), όπου c C, q Q. 4) Χρησιμοποίησε αυτή τη συλλογή για την αξιολόγηση της αποτελεσματικότητας ενός ΣΑΠ (Συστήματος Ανάκτησης Πληροφοριών) Βάζουμε το ΣΑΠ να ευρετηριάσει τη συλλογή C, κατόπιν του στέλνουμε επερωτήσεις από το Q και αξιολογούμε τις αποκρίσεις του βάσει των κρίσεων που έχουν κάνει ήδη οι ειδικοί. Δυσκολίες: Η παραπάνω μέθοδος απαιτεί μεγάλη ανθρώπινη προσπάθεια για μεγάλες συλλογές εγγράφων/επερωτήσεων. TREC CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 36

19 Information Retrieval Retrieval Models > Evaluation Measures Effectiveness Evaluation Assumes an evaluation collection Some retrieval effectiveness Measures Precision Recall F-Measure (and E-Measure) Fallout Precision-Recall Curves R-Precision i and Histograms Expected Search Length... User Oriented Measures Novelty Ratio Coverage Ratio User Effort Efficiency Response Time Storage Space Requirements (main memory, disk space) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 37 Information Retrieval Retrieval Models > Evaluation Measures Συλλογή εγγράφων Ε Σ Σ: Συναφή (με το ερώτημα q) (μας τα έχουν δώσει οι ειδικοί) Ε Σ Ακρίβεια = Ε P(recision) Ε: Ευρεθέντα (από το υπό αξιολόγηση σύστημα ανάκτησης πληροφοριών) Ε Σ Ανάκληση = Σ R(ecall) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 38

20 Information Retrieval Retrieval Models > Evaluation Measures> Single-valued (they ignore order) F-Measure Μέτρο που λαμβάνει υπόψη την Ακρίβεια και την Ανάκληση. Είναι το αρμονικό μέσο (harmonic mean) της ανάκλησης και ακρίβειας. Δίνει υψηλό βαθμό εάν και τα δύο έχουν υψηλή τιμή. 2PR 2 F = = 1 P + R 1 + Ε-Measure Παραλλαγή του F measure που μας επιτρέπει να δώσουμε περισσότερη έμφαση (βάρος) στην ακρίβεια. Η τιμή του β ρυθμίζει το trade-off. R P E = 2 2 ( 1 + β ) PR (1 + β ) = 2 2 β 1 β P + R + R P CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 39 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Έστω Συναφή =6 n doc # relevant Recall Precision x R=1/6=0.167; P=1/1= x R=2/6=0.333; P=2/2= x R=3/6=0.5; P=3/4= x R=4/6=0.667; P=4/6= Missing one relevant document Never reach x R=5/6=0.833; P=5/13= % recall Pre ecision Recall CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 40

21 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Precision 1.0 Interpolating ti a Recall/Precision i Curve real interpolated 0.8 R=0.167; P=1 R=0.333; P=1 0.6 R=0.5; P= R=0.667; P=0.667 R= ; P= Recall Σημείωση: Από τα 5 ζεύγη (Ρ,R) που είχαμε ε πήγαμε σα11 στα CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 41 Information Retrieval Retrieval Models > Evaluation Measures R-Precision: Η ακρίβεια στην R θέση της διάταξης της απάντησης μιας επερώτησης που έχει R (στο πλήθος) συναφή έγγραφα n doc # relevant x x x x x R = # of relevant docs = x R-Precision=4/6=067 = 0.67 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 42

22 Information Retrieval Retrieval Models > Reporting Evaluation Results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 43 Information Retrieval Index Structures Aim: Enable efficient term-based access (i.e. fast evaluation of queries) Key Index Structures and Associated Taks Inverted files (plus algorithms for gradual index creation) Suffix trees and suffix arrays (for phrase queries) Signature files Index structures for multimedia (e.g. metric trees) Other useful (for the retrieval process) algorithms String pattern matching algorithms (including algs for Edit distance algorithms) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 44

23 Information Retrieval Index Structures> Inverted File Main Mem mory Disk Space requirement O( n) n :size of text in words Space requirement O(n) Document Collection Vocabulary Posting File cached textual d 1 word df pos (docid: tf),.. contents of docs d 2 Free games Indexing chat 1 (d Free games 3 :1) d 3 Free games free 2 (d 1 :1), (d 2 :2) Chat online games 2 (d 1 :1), (d 2 :2) Here for simplicity frequency in docs online 1 (d 3 :1) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 45 Information Retrieval The Retrieval Process (assuming Inverted Files) Query pre processing: Tokenization, case folding, stopwords elimination, stemming Vocabulary Search: Locate each query term t at the vocabulary Retrieval of occurrences: Fetch the posting list I(t) of each query term t from the posting file Manipulation of occurrences: The occurrences are processed to extract information (extracting docids, counting frequencies) A scoring function assigns scores to the documents as an estimate for their relevance to the query (i.e VSM, Okapi BM25) The documents are sorted in decreasing score order and the results are returned to the user (either all or the top K) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 46

24 Information Retrieval Index Structures> Suffix Tries (for fast evaluation of phrasal queries) This is a text. A text has many words. Words are made from letters. letters. made from letters. Words are made from letters. words. Words are made from letters. many words. Words are made from letters. text has many words. Words are made from letters. text. A text has many words. Words are made from letters. Suffix Trie l d a m n t e x t. 11 w o r d s CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 47 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) Κύρια σημεία: Δομή ευρετηρίου που βασίζεται στο hashing Μικρή χωρική επιβάρυνση (10%-20% του μεγέθους των κειμένων) Αναζήτηση = σειριακή αναζήτηση στο αρχείο υπογραφών Κατάλληλη για όχι πολύ μεγάλα κείμενα Ευρετηρίαση Χρήση hash function που αντιστοιχεί λέξεις κειμένου σε bit masks των Β bits Διαμέριση του κειμένου σε blocks των b λέξεων το καθένα Bit mask of a block = Bitwise OR of the bits masks of all words in the block Bit masks are then concatenated Αναζήτηση λέξης w: 1/ W := h(w) (we hash the word to a bit mask W) 2/ Compare W with all bit masks Bi of all text blocks If (W & Bi = W), the text block i is candidate (may contain the word w) 3/ For all candidate text blocks, perform an online traversal to verify that the word w is actually there CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48

25 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) b=3 ( 3 words per block) B=6 (bit masks of 6 bits) Text Block 1 Block 2 Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Signature Files Text Signature Signature Function h(text)= h(many)= h(words)= h(made)= h(letters)= Σχεδιαστικοί στόχοι: Μείωσε την πιθανότητα εμφάνισης false drops Κράτησε το μέγεθος του αρχείου υπογραφών μικρό δεν έχουμε κανένα false drop αν b=1 και Β=log Γιατί Bitwise-OR? 2 (V) Παράμετροι: Β (το μέγεθος μγ των bit mask) L (L<B) to πλήθος των bit που είναι 1 (σε κάθε h(w)) The (space)-(false drop probability) tradeoff: 10% space overhead => 2% false drop probability 20% space overhead => 0.046% false drop probability CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 49 Information Retrieval Index Structures> For Metric Spaces Κίνητρο Ανάκτηση πολυμέσων. Εδώ δεν έχουμε λέξεις. Μπορεί όμως να έχουμε ορίσει μια συνάρτηση απόστασης και ο σκοπός μας είναι να απαντήσουμε ερωτήσεις της μορφής: βρες όλα τα αντικείμενα σε απόσταση ε από το Q βρες όλα τα τμήματα των αντικειμένων σε απόσταση ε από το Q βρες τα 5 κοντινότερα αντικείμενα στο Q Σύμπαν αντικειμένων U (πχ το σύνολο όλων των εικόνων 512x512) Συλλογή αντικειμένων C={o 1,,o N }, C U Συνάρτηση Απόστασης (ομοιότητας,..,συνάφειας) D: U x U [0,1] καθορίζεται από έναν ειδικό του πεδίου (μπορεί να υπολογίζεται από ένα πρόγραμμα) Επερώτηση: αντικείμενο Q (Q U) και ανοχή (tolerance) ε Απάντηση επερώτησης:ans(q, ε)={ o C D(o,Q) ε } Σκοπός: Γρήγορος υπολογισμός του ans(q, ε) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 50

26 Information Retrieval Index Structures> For Metric Spaces Μία προσέγγιση είναι να χρησιμοποιήσουμε features (feature-based multimedia indexing and retrieval). Μία άλλη είναι να χρησιμοποιήσουμε τεχνικές ευρετηρίασης που εφαρμόζονται κατευθείαν στις αποστάσεις (άρα παρακάμπτουμε την ανάγκη επιλογής features) Η γενική ιδέα Υπολογίζουμε τις αποστάσεις μεταξύ των αντικειμένων (όχι κατά ανάγκη μεταξύ όλων) μια φορά, φτιάχνουμε μια κατάλληλη δομή δεδομένων, και εν συνεχεία την αξιοποιούμε κατά την αποτίμηση των επερωτήσεων (για να μειώσουμε το πλήθος των αποστάσεων που απαιτείται να υπολογίσουμε εκείνη την ώρα) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 51 Information Retrieval Index Structures> Metric Trees (Α) tree indexes for discrete distance functions, i.e. for functions that deliver a small set of values Burkhard-Keller Tree (BKT) [Buthard et al 73] Fixed Query Tree (FQT) [Baeza-Yates 94] (Β) tree indexes for continuous distance functions i.e. for functions where the set of alternatives is infinite or very large Vantage Point-Trees (VTPs) Multi-Vantage-Point trees (MVTs) Voronoi Trees (VTs) M-trees (MT). (C) not tree-based indexes. AESA (Approximating Eliminating Search Algorithm) LAESA (for linear AESA). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 52

27 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Είναι δυαδικά δένδρα Τρόπος κατασκευής Επιλέγουμε ένα στοιχείο κεντρικό (pivot). Υπολογίζουμε τον μέσο όρο Μ των αποστάσεων από αυτό το σημείο Τα στοιχεία με απόσταση μικρότερη ή ίση του Μ εισάγονται στο αριστερό υποδένδρο, ενώ τα υπόλοιπα στο δεξί Συνεχίζουμε αναδρομικά Τρόπος αναζήτησης. Έστω επερώτηση (Q,ε) 1/ Μετράμε την απόσταση του Q από το pivot p, δηλαδή d(q,p) 2/ Αν d(q,p)-ε <= Μ πάμε στο αριστερό υποδέντρο. Αν d(q,p) +ε > Μ πάμε στο δεξί υποδέντρο (ενδέχεται να μπούμε και στα δύο υποδένδρα) 3/ Επιστρέφουμε τα στοιχεία που έχουν απόσταση <= ε από το Q 2.9 u7 u >3.1 >2.9 u9 4 >4 u15 u6 u8 u3 >2.5 u14 u4 u10 u1 u13 u2 u12 u (η ορθότητα εξασφαλίζεται από τις ιδιότητες των μετρικών συναρτήσεων) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 53 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Επιδόσεις Χώρος: O(n) Χρόνος κατασκευής: απαιτούνται O(n logn) ) υπολογισμοί αποστάσεων (διότι (δό το δέντρο είναι ισοζυγισμένο) Κόστος αναζήτησης: O (log n) υπολογισμοί απόστασης αν το ε είναι σχετικά μικρό Αλλες τεχνικές (για μετρικούς χώρους) AESA(Approximating i Eliminating i Search Algorithm) Βασίζεται σε έναν πίνακα με n(n-1)/2 προϋπολογισμένες αποστάσεις, άρα καταλαμβάνει χώρο O(n 2 ). Όμως οι πειραματικά μετρούμενοι χρόνοι αναζήτησης είναι πολύ καλοί O(1). CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 54

28 Information Integration from the IR Perspective CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 55 Information Integration from the IR Perspective Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 56

29 Information Integration from the IR Perspective Aspects One corpus of documents (i.e. one system) We have already explained how preprocessing (e.g. stemming) as well the weighting (e.g. IDF) allow a system to be less vulnerable to the morphological variations of words and to distinguish words with high discrimination power. Several Corpi of Documents (or several IR systems in general, e.g. Meta Search Web Engines) Basic Processes Source Selection Query Translation Forwarding Result Aggregation Presentation of Results Meta-Web Search Engines CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 57 Integration from the DB world and the IR world The web search engines approach (crawling, link analysis, log analysis, etc) The meta-search approach CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 58

30 Virtual Integration in the IR World Apart from its application for the Web, this approach is also useful for tackling the Hidden Web Visible Web: Information can be copied (crawled) and accessed by conventional search engines like Google or AltaVista Hidden Web: Information hidden from conventional engines. - No arbitrary crawl of the data (e.g., ACM library) Can NOT - Updated too frequently to be crawled (e.g., buy.com) Index (promptly) - Larger than Visible Web (2-50 times) Searched by - Created by yprofessionals Valuable Federated Search Federated Search is a feature used to beat Google by search engines like - Web: Uncooperative information sources CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 59 Aspects of Information Integration Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning Increased Volumes of Data Mining Advanced Ranking (best match queries) Customizable Ranking (preferences) Efficient Computation of Top-K Answer Exploration/Visualization/Clustering li i /Cl i (to support decision making) requires results to Artifacts Tasks Extra Sources Workloads Social Perspective... that can be used

31 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) query Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 61 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) answer Information Integration Source Description Source Selection ans1 ans2 ans3 ans4 ans5 Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 62

32 Information Integration from the IR Perspective DIR > Source Selection Σκοπός Η επιλογή των υποκείμενων πηγών στις οποίες θα προωθηθεί η επερώτηση Κίνητρο Η αναζήτηση σε κάθε συλλογή (ήτοι σε όλες τις υποκείμενες πηγές) μπορεί: να είναι ακριβή σε χρόνο (αφού μπορεί να έχουμε εκατοντάδες συλλογές) να είναι ακριβή σε χρήμα (η αναζήτηση μπορεί να έχει χρηματικό κόστος) να καθορίσει την αποτελεσματικότητα (effectiveness) της ανάκτησης Μερικές Προσεγγίσεις Επιλογή Όλων (των υποκείμενων πηγών) ) Επιλογή από το Χρήστη Χειρονακτική Ομαδοποίηση και Επιλογή Πηγών Επιλογή Πηγής βάσει Κανόνων (Rule-based) Επιλογή Πηγής βάσει κατανομής συναφών εγγράφων (Relevant Document Distribution (RDD)) Επιλογή Πηγής με Επερώτηση Βολιδοσκόπησης λδ Επιλογή Πηγής με Διανύσματα Πηγών CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 63 Information Integration from the IR Perspective DIR > Source Selection Επιλογή Όλων (κανένας περιορισμός) Επιλογή από το χρήση (π.χ. στις μεταμηχανές αναζήτησης) Θεματική οργάνωση συλλογών (χειρονακτική) Οργανώνουμε τις υποκείμενες πηγές/συστήματα θεματικά πχ μαθηματικά, φυσική, ειδήσεις, κλπ Ο χρήστης επιλέγει τη θεματική κατηγορία και ανάλογα προωθείται η επερώτηση προβλήματα χρονοβόρα διαδικασία, ευάλωτη σε ασυνέπειες/παραλείψεις, δεν θα δουλέψει καλά για μη-συνηθισμένες επερωτήσεις Επιλογή βάσει Κανόνων Τα περιεχόμενα κάθε συλλογής περιγράφονται σε μια Βάση Γνώσης. Ένα Σύστημα Κανόνων επιλέγει τις πηγές για κάθε εισερχόμενη επερώτηση. Αδυναμίες: κόστος συγγραφής κανόνων και ανάγκη συντήρησης των κανόνων (αν οι συλλογές είναι δυναμικές) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 64

33 Information Integration from the IR Perspective DIR > Source Selection Κατανομή Συναφών Εγγράφων (Relevant Document Distribution (RDD)) Γενική ιδέα: Φτιάξε μια βάση με επερωτήσεις και την πιθανή κατανομή των συναφών εγγράφων σε κάθε συλλογή (με κάποιο τρόπο) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 65 Information Integration from the IR Perspective DIR > Source Selection Για κάθε νέα επερώτηση q που λαμβάνει το σύστημα Βρίσκουμε τις κ πιο κοντινές επερωτήσεις στη βάση (similar past queries) Από τις κατανομές τους, εκτιμούμε πόσα συναφή έγγραφα με την νέα επερώτηση έχει κάθε πηγή Αποφασίζουμε πόσα έγγραφα να ζητήσουμε από κάθε συλλογή (αν 0 δεν στέλνουμε επερώτηση ) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 66

34 Information Integration from the IR Perspective DIR > Source Selection Επερώτηση Βολιδοσκόπησης (Query Probing) Στέλνουμε μια επερώτηση βολιδοσκόπησης σε κάθε συλλογή (που μπορεί να περιλαμβάνει μερικούς από τους όρους της επερώτησης) κάθε συλλογή απαντά με στατιστικές πληροφορίες πχ: μέγεθος συλλογής, πόσα έγγραφα έχουν τον κάθε όρο, πόσα έγγραφα έχουν όλους τους όρους της επερώτησης, κλπ βάσει αυτών των στοιχείων επιλέγουμε την πηγή Υποθέσεις η επεξεργασία των επερωτήσεων βολιδοσκόπησης είναι πολύ φθηνότερη περιέχουν λίγους όρους, δεν χρειάζεται να υπολογίσουμε βαθμούς συνάφειας ή να διατάξουμε τα έγγραφα ως προς τη συνάφεια τους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 67 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors (Διανύσματα Πηγών) IRS1=<0.4, 0.3,, 0.8> IRS2=<0.1, 0.9,, 0.4> IRS3=<0 <0.8, 0.5,, 0.2> IRS1 IRS2 IRS3 IRS4 IRS5 Βλέπουμε κάθε συλλογή ως ένα μεγάλο έγγραφο Φτιάχνουμε ένα δά διάνυσμα για κάθε συλλογή (τύπου ύ TF-IDF) με τις εξής διαφορές: tfij: j συνολικές εμφανίσεις του όρου i στη συλλογή j idfi: log(n/ni), όπου Ν το πλήθος των συλλογών, και ni το πλήθος των συλλογών που έχουν τον όρο i CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 68

35 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors Τρόπος Επιλογής Πηγής Με την έλευση μιας επερώτηση q στη μεταμηχανή υπολογίζουμε το βαθμό ομοιότητας με το διάνυσμα κάθε συλλογής (π.χ. χ ομοιότητα συνημίτονου) Διατάσσουμε τις συλλογές (βάσει των παραπάνω βαθμών) και επιλέγουμε τις κορυφαίες Μια αδυναμία: Μπορεί ο βαθμός ομοιότητας με μία συλλογή να είναι μεγάλος, αλλά να μην υπάρχει κανένα έγγραφο εκεί με μεγάλο βαθμό συνάφειας Ένας τρόπος αντιμετώπισης: Για κάθε συλλογή φτιάξε Ν/Β διανύσματα, δηλαδή ένα διάνυσμα για κάθε Β έγγραφα της συλλογής (αντί για μόνο 1) Αν Β=11 τότε ο server είναι σαν να έχει το ευρετήριο όλων των συστημάτων Αν Β=Ν τότε έχουμε ένα διάνυσμα για κάθε συλλογή CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 69 Result Aggregation CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 70

36 Information Integration from the IR Perspective DIR > Result Aggregation Σκοπός Συγκρότηση της τελικής απάντησης από τις απαντήσεις που έδωσαν οι πηγές στις οποίες προωθήθηκε η επερώτηση Γενικές Κατηγορίες Τεχνικών Συγκρότησης answer =? ans1 ans2 ans3 ans4 ans5 Ολοκληρωμένες (Integrated) Απομονωμένες (Isolated) IRS1 IRS2 IRS3 IRS4 IRS5 Μερικά Σχόλια Αν οι απαντήσεις είναι σύνολα (άρα όχι διατάξεις) τότε το πρόβλημα είναι πιο εύκολο. Αν όμως οι απαντήσεις είναι διατεταγμένες (αποτέλεσμα χρήσης μοντέλων βέλτιστου ταιριάσματος) τότε η ενοποίηση αποτελεσμάτων είναι πιο δύσκολη αφού οι διατάξεις/σκορ δεν είναι πάντα συγκρίσημες (αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). Συχνά μας αρκεί η εύρεση των κορυφαίων στοιχείων της ενοποιημένης διάταξης CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 71 Κατηγορίες Στρατηγικών Ενοποίησης Διατάξεων (A) Ολοκληρωμένες Τεχνικές (Integrated) Οι πηγές παρέχουν επιπρόσθετη πληροφορία που χρησιμοποιείται κατά την ενοποίηση Αδυναμίες: Μπορούμε να πούμε ότι έχουν στενότερο πεδίο εφαρμογής - απαιτούν συμφωνία μεταξύ των πηγών (e.g. protocol). Επίσης συχνά λαμβάνουν υπόψη τους μέτρα όπως Precision/Recall, τα οποία δεν είναι πάντα «αντικειμενικά» ή συγκρίσιμα. (B) Απομονωμένες Μέθοδοι (Isolated) Δεν απαιτούν καμία επιπλέον πληροφορία από τις πηγές (άρα μπορούν να εφαρμοστούν και στις μετα-μηχανές αναζήτησης) Είναι ανεξάρτητες των τεχνικών ευρετηρίασης και των μοντέλων ανάκτησης των υποκείμενων συστημάτων, άρα κατάλληλες για δυναμικά περιβάλλοντα όπου υπάρχουν πολλά συστήματα των οποίων η λειτουργία εξελίσσεται συχνά και απρόβλεπτα Σχετικές τεχνικές: round robin interleaving, score-based, Rank Aggregation Methods (Borda, Condorcet), download d and re-index the contents of the objects CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 72

37 DIR > Result Aggregation Round Robin interleaving & Score-based Round Robin Interleaving (δηλαδή merge sort) // isolated Παράδειγμα: ans1(q) = <d10,d2, d30, d7> ans2(q) = <d4, d12, d5, d9> ANS(q) = < {d10,d4}, {d2,d12}, {d30,d5}, {d7,d9}> Προβλήματα στην πραγματικότητα όλα τα έγγραφα του ans1(q) μπορεί να είναι καλύτερα (πιο συναφή) από το 1ο στοιχείο της ans2(q) Score-based Παράδειγμα: ans1(q) = < (d3,0.8), (d2,0.7) > ans2(q) = < (d5,0.6), (d6,0.3) > ans3(q) = < (d4,0.9) > ANS(q) = < d4, d3, d2, d5, d6> Προβλήματα τα σκορ διαφορετικών συστημάτων δεν είναι συγκρίσιμα (κανονικοποιημένα), αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 73 DIR > Result Aggregation Weighted Score-based Weighted Score-based Λαμβάνουμε υπόψη το σκορ της πηγής που υπολογίσαμε όταν κάναμε Επιλογή Πηγής (source selection) Πχ Score(IRS1) = 0.9 // υπολογίστηκε στη φάση επιλογής πηγής Score(IRS2) = 0.5 // υπολογίστηκε στη φάση επιλογής πηγής ans1(q) = <(d1, 0.7)> ans2(q) = <(d2, 0.9)> ANS(q) = < (d1, 0.63), (d2, 0.45)> // 0.63 = 0.9*0.7 Εδώ πολλαπλασιάσαμε το σκορ της πηγής με το σκορ των εγγράφων. Υπάρχουν και άλλες παραλλαγές (π.χ. [Callan94,95]) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 74

38 DIR > Result Aggregation Downlοad and re-index/re-score (isolated) Downlοad and re-index/re-score Εδώ ανακτούμε τα έγγραφα των απαντήσεων κάθε πηγής, τα επαναευρετηριάζουμε και επαναυπολογίζουμε το βαθμό συνάφειας τους Μειονέκτημα Χρονοβόρα διαδικασία ans1 ans2 IRS1 Vector Space Model IRS4 Extended Boolean Model CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 75 DIR > Result Aggregation Global term statistics (integrated) Μπορούμε να κάνουμε συγκρίσιμα τα σκορ διαφορετικών συστημάτων αν επιβάλουμε τα ίδια στατιστικά στοιχεία σε όλα τα συστήματα (global statistics) Τα στατιστικά αυτά στοιχεία μπορούν να αποκτηθούν στη φάση της επιλογής πηγής (πχ χ Διανύσματα Πηγής, Probe Queries, ) Αποτίμηση Επερωτήσεων σε 2 φάσεις στην 1η συλλέγονται τα στατιστικά (o server στέλνει την επερώτηση και οι πηγές απαντούν με τα στατιστικά των όρων που περιέχονται στην επερώτηση) στην 2η ο server στέλνει σε κάθε πηγή την επερώτηση μαζί με τα καθολικά στατιστικά των όρων της κάθε πηγή αποτιμά την επερώτηση με τα καθολικά στατιστικά και επιστρέφει την απάντηση η Ο server λαμβάνει έτοιμα σκορ και απλά τα ενοποιεί (merge sort) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 76

39 (cont) q= Hotels Crete idf(hotels)= log(2000/400) idf(crete)= log(2000/105) ans = score-based merging of ans1 ans2 ans1 ans2 S1 S2 S1 S2 S1 S2 S1 S2 N1 = 1000 N2 = 1000 N1Hotels = 300 N2Hotels = 100 N1Crete = 100 N2Crete = 5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 77 Rank kaggregation Συνάθροιση Διατάξεων (no scores are available)

40 Information Integration from the IR Perspective Rank Aggregation > Outline Το πρόβλημα και διάφορες εφαρμογές του Τρόποι Συνάθροισης Διατάξεων Plurality Borda Condorcet Kemeny Επιθυμητές Ιδιότητες Τεχνικών Συνάθροισης Διατάξεων Το Θεώρημα του Ανέφικτου του Arrow Παραδείγματα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 79 Ενοποίηση Διατάξεων: Rank Aggregation (or Meta-Ranking) Διατύπωση του Προβλήματος D: ένα σύνολο αντικειμένων (π.χ. εγγράφων, πλειάδων,..) S1, Sk: Sk ένα σύνολο (γραμμικών) ώ διατάξεων του D (άρα εδώ δεν έχουμε σκορ) ) Σκοπός: Εφαρμογές Ενοποίηση των διατάξεων S1,..Sk σε μία Ενοποίηση αποτελεσμάτων σε μεσολαβητές (mediators) και μεταμηχανές αναζήτησης (meta search engines), καθώς και αρκετές άλλες, π.χ. συγκρότηση ιδανικής διάταξης για αξιολόγηση αυτόματων τεχνικών διαβάθμισης Α possible metaphor: elections Objects Candidates Sources Electors Ordering by a system Elector s voting ticket Fused ordering Election list CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 80

41 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία) O υποψήφιος με τις περισσότερες πρώτες θέσεις είναι ο νικητής. Έστω 6 πηγές (S1,,S6) και 4 σελίδες a,b,c,d. Κάθε σύστημα επιστρέφει μια γραμμική διάταξη των σελίδων: S1: <a,c,d,b> S2: <a,b,c,d> S3: <b,c,a,b> S4: <b,a,d,c> S5: <a,d,c,b> S6: <c,a,b,d> Μετράμε πόσες πρώτες θέσεις κατέλαβε κάθε σελίδα a: 3 b: 2 c: 1 d: 0 Άρα η τελική κατάταξη είναι η <a,b,c,d>,, CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 81 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> πρωτιές: a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d (που ήταν τελευταίο στην ενοποιημένη διάταξη) 3 συστήματα <a,c,b> 6 συστήματα <a,c,b> 3 συστήματα <b,c,a> 5 συστήματα <b,c, a> 2 συστήματα <c,b,a> 5 συστήματα <c,b,a> 2 συστήματα <b,c,a> 4 συστήματα <c,b,a> a:9 b:10 c:11 Τελική διάταξη: <c,b,a> Αντίστροφη της αρχικής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 82

42 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d Τελική διάταξη: <c,b,a> Απόσυρση του a Τελική διάταξη: <d,c,b> Απόσυρση του b Τελική διάταξη: <d,c,a> Απόσυρση του c Τελική διάταξη: <d,b,a> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 83 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Borda [Jean-Charles Borda 1770] The votes of an object o V ( o) = r i ( o) i= i 1....kk r ( o) : the position of the object The fused ordering Μ is derived by ordering the objects in ascending order wrt to their votes Reinvented (for the context of Meta-Searching) in [Tzitzikas 2001] o in the ordering of system i S i Example: S1 : < o1, o2, o S2 : < o1, o3, o S : < o, o, o > > > V ( o V ( o V ( o ) = = 4 ) = = 8 ) = = 6 M : o < o1, o3, 2 > If each source S r ( o i j i returns an ordered subset i i, if o j Oi position of o j in O ) = F + 1 otherwise O of Obj. where F = max{ O1,..., Ok } Γιατί; CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 84

43 Ενοποίηση Διατάξεων κατά Borda Βαθμός Συμφωνίας The distance between two orderings i and j: dist( i, j) = ri ( o) rj ( o) o O Footrule distance The mean distance of the fused ordering 0 The level l of agreement of fthe fused ordering 0: Dem = i =.. dist(0, i) 1 k k linear transformation C Dem LA = C C: max possible mean distance Dem inversion transformation LA = C C > 1,e.g.C = 2 High level may drive the user to read only the very first documents since probably they are the more relevant Low level may drive the user to read more documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 85 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Condorcet [1785] Condorcet: the winner is a candidate that defeats every other candidate in pairwise majority-rule election S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> a:b 2:1 // τo a νικά το b δύο φορές (και χάνει μία) a:c 2:1 // τo a νικά το c δύο φορές (και χάνει μία) Αρα η τελική κατάταξη κατά Condorset είναι: <a,b,c> Άλλο παράδειγμα S1: <a,b,c>, S2: <b,c,a>, S3: <c,a,b> a:b 2:1 // άρα το b δεν μπορεί να είναι o νικητής a:c 1:2 // άρα το a δεν μπορεί να είναι o νικητής c:b 1:2 // άρα το c δεν μπορεί να είναι o νικητής ηής Δεν υπάρχει πάντα Condorset νικητής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 86

44 Borda vs Condorcet S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> Borda a: = 5 b: = 6 c: = 7 Borda ordering: <a,b,c> Condorset a:b 2:1 a:c 2:1 Condorset ordering: <a,b,c> Borda (1770) Member of French Academy of Sciences. Noted for work in hydraulics, optics, navigation instrument. Purpose: Reforming the election procedure of French Academy.Criticize plurality method Condorcet (1785) Viewed Borda as an enemy. Finding best ordering by hypothesis testing. Switch to propose Condorcet winner CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 87 Borda Condorcet S1: <a,b,c,d,e> S2: <b,c,e,d,a> S3: <e,a,b,c,d> S4: <a,b,d,e,c> S5: <b,a,d,e,c> Borda Condorset a: = 11 a:b 3:2 b: = 9 a:c 4:1 c: = a:d 4:1 d: = 19 a:e :3:2 e: = 17 Condorset winner a Borda winner : b CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 88

45 Prurality Borda Condorcet 1st 2nd 3rd 49 votes x y z 48 votes y z x 3 votes z y x Prurality winner: x Borda winner: y Condorcet: z> x CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 89 Condorcet and Order Θεωρείστε την περίπτωση τριών υποψηφίων (a,b,c) a b c a 5 7 b 8 2 c 6 11 Έχουμε συνοψίσει τις διατάξεις που έδωσαν οι εκλέκτορες κατασκευάζοντας έναν πίνακα C, όπου το C[i,j] εκφράζει πόσες φορές το i νικά το j Μπορούμε να υπολογίσουμε τη στήριξη (support) κάθε πιθανής γραμμικής διάταξης αθροίζοντας τη στήριξη της κάθε συσχέτισής της. <a,b,c> has support 25 a>b:8, a>c:6, b>c:11 <b,c,a> has support 23 b>a:5, c>a:7, b>c:11 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 90

46 Ενοποίηση Διατάξεων (Rank Aggregation) Συναρτήσεις Απόστασης μεταξύ Διατάξεων Notations: Obj: the set of all objects t: an ordered list of a subset S of Obj (i.e. S Obj) e.g. t = [x1 > x2... > xd] where xi S t(i): the position of the element i in the ordered list t t : the number of elements in t We can say that a list t is full: if t = Obj partial: if t < Obj CS562 Yannis Tzitzikas, U. of Crete 91 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Let ta and tb be two full lists Spearman s Footrule Distance Kendall tau distance dist F Obj ( ta, tb) = ta( i) tb( i) It counts the number of pairwise disagreements between the two lists (πλήθος των διαφωνιών στη δά διάταξη ζευγαριών ) dist K ( ta, tb) = {( i, j) i < j, ta( i) < ta( j), tb( i) > tb( j)} Example Let Obj = {A,B,C,D,E}, and let ta, tb be two full lists over Obj Spearman s Footrule Distance: C dist F (ta, tb ) = = 6 Kendall tau distance: dist K (ta, tb ) = {(A,C), (B.D), (B,E), (D,E)} = 4 CS562 Yannis Tzitzikas, U. of Crete 92 i= ta A E D B tb C A B D E

47 Ενοποίηση Διατάξεων κατά Kemeny (1959) (Kemeny developed BASIC language) Kemeny Optimal Aggregation Η καλύτερη ενοποιημένη διάταξη είναι εκείνη που απέχει το λιγότερο από όλες τις διατάξεις (βάσει της απόστασης Kendall tau) Έστω n διατάξεις: r1, r2,, rn Ενοποιημένη διάταξη r = arg r min( dist K (r,ri)) We can say that Kemeny Optimal Aggregation r reconciles Borda and Condorcet methods CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 93 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Η εύρεση της βέλτιστης ενοποιημένης διάταξης (κατά Kemeny) είναι ακριβή (πρόβλημα NP-hard) Η βέλτιστη ενοποιημένη η διάταξη ως προς την footrule απόσταση είναι στο P. Let dist_k: Kendall tau distance dist_f: Spearman s Footrule Distance For any full lists ta, tb it holds: dist_k(ta,tb) dist_f(ta,tb) 2 dist_k(ta,tb) So we get a 2-approximation to Kemeny-optimality It follows that if σ is the Kemeny optimal aggregation of a set of full lists τ 1,, τ k, while σ optimizes the footrule aggregation then, dist_k(σ, τ 1,, τ k ) 2 dist_k(σ, τ 1,, τ k ) CS562 Yannis Tzitzikas, U. of Crete 94

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Other Test Constructions: Likelihood Ratio & Bayes Tests

Other Test Constructions: Likelihood Ratio & Bayes Tests Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :

Διαβάστε περισσότερα

The Simply Typed Lambda Calculus

The Simply Typed Lambda Calculus Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and

Διαβάστε περισσότερα

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions SCHOOL OF MATHEMATICAL SCIENCES GLMA Linear Mathematics 00- Examination Solutions. (a) i. ( + 5i)( i) = (6 + 5) + (5 )i = + i. Real part is, imaginary part is. (b) ii. + 5i i ( + 5i)( + i) = ( i)( + i)

Διαβάστε περισσότερα

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 26 Διάθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Web Searching I: History and Basic Notions, Crawling II: Link

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Approximation of distance between locations on earth given by latitude and longitude

Approximation of distance between locations on earth given by latitude and longitude Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth

Διαβάστε περισσότερα

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible. B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Statistical Inference I Locally most powerful tests

Statistical Inference I Locally most powerful tests Statistical Inference I Locally most powerful tests Shirsendu Mukherjee Department of Statistics, Asutosh College, Kolkata, India. shirsendu st@yahoo.co.in So far we have treated the testing of one-sided

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C): CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part A Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 3 Date : 1-3- ιάρθρωση PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Διαβάστε περισσότερα

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

C.S. 430 Assignment 6, Sample Solutions

C.S. 430 Assignment 6, Sample Solutions C.S. 430 Assignment 6, Sample Solutions Paul Liu November 15, 2007 Note that these are sample solutions only; in many cases there were many acceptable answers. 1 Reynolds Problem 10.1 1.1 Normal-order

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Reminders: linear functions

Reminders: linear functions Reminders: linear functions Let U and V be vector spaces over the same field F. Definition A function f : U V is linear if for every u 1, u 2 U, f (u 1 + u 2 ) = f (u 1 ) + f (u 2 ), and for every u U

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου

Διαβάστε περισσότερα

Fractional Colorings and Zykov Products of graphs

Fractional Colorings and Zykov Products of graphs Fractional Colorings and Zykov Products of graphs Who? Nichole Schimanski When? July 27, 2011 Graphs A graph, G, consists of a vertex set, V (G), and an edge set, E(G). V (G) is any finite set E(G) is

Διαβάστε περισσότερα

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =? Teko Classes IITJEE/AIEEE Maths by SUHAAG SIR, Bhopal, Ph (0755) 3 00 000 www.tekoclasses.com ANSWERSHEET (TOPIC DIFFERENTIAL CALCULUS) COLLECTION # Question Type A.Single Correct Type Q. (A) Sol least

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Block Ciphers Modes. Ramki Thurimella

Block Ciphers Modes. Ramki Thurimella Block Ciphers Modes Ramki Thurimella Only Encryption I.e. messages could be modified Should not assume that nonsensical messages do no harm Always must be combined with authentication 2 Padding Must be

Διαβάστε περισσότερα

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος

Διαβάστε περισσότερα

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required) Phys460.nb 81 ψ n (t) is still the (same) eigenstate of H But for tdependent H. The answer is NO. 5.5.5. Solution for the tdependent Schrodinger s equation If we assume that at time t 0, the electron starts

Διαβάστε περισσότερα

derivation of the Laplacian from rectangular to spherical coordinates

derivation of the Laplacian from rectangular to spherical coordinates derivation of the Laplacian from rectangular to spherical coordinates swapnizzle 03-03- :5:43 We begin by recognizing the familiar conversion from rectangular to spherical coordinates (note that φ is used

Διαβάστε περισσότερα

Parallel and Distributed IR

Parallel and Distributed IR Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη η και Κατανεμημένη η ΑΠ Γιάννης

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Section 8.3 Trigonometric Equations

Section 8.3 Trigonometric Equations 99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.

Διαβάστε περισσότερα

ST5224: Advanced Statistical Theory II

ST5224: Advanced Statistical Theory II ST5224: Advanced Statistical Theory II 2014/2015: Semester II Tutorial 7 1. Let X be a sample from a population P and consider testing hypotheses H 0 : P = P 0 versus H 1 : P = P 1, where P j is a known

Διαβάστε περισσότερα

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Partial Differential Equations in Biology The boundary element method. March 26, 2013 The boundary element method March 26, 203 Introduction and notation The problem: u = f in D R d u = ϕ in Γ D u n = g on Γ N, where D = Γ D Γ N, Γ D Γ N = (possibly, Γ D = [Neumann problem] or Γ N = [Dirichlet

Διαβάστε περισσότερα

EE512: Error Control Coding

EE512: Error Control Coding EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Εισαγωγή στην ανάλυση συνδέσμων

Εισαγωγή στην ανάλυση συνδέσμων Εισαγωγή στην ανάλυση συνδέσμων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μαρία Χαλκίδη Why link analysis? Why link analysis? The web is not just a collection of documents its hyperlinks are important!

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηριασμός, Αποθήκευση και Οργάνωση Αρχείων Κειμένων (Indexing,

Διαβάστε περισσότερα

Elements of Information Theory

Elements of Information Theory Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure

Διαβάστε περισσότερα

w o = R 1 p. (1) R = p =. = 1

w o = R 1 p. (1) R = p =. = 1 Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών ΗΥ-570: Στατιστική Επεξεργασία Σήµατος 205 ιδάσκων : Α. Μουχτάρης Τριτη Σειρά Ασκήσεων Λύσεις Ασκηση 3. 5.2 (a) From the Wiener-Hopf equation we have:

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS Ralf Schenkel, Tom Crecelious, Mouna Kacimi, Sebastian Michel, Thomas Neumann, Josiane Xavier Parreira, Gerhard Weikum ΠΡΟΒΛΗΜΑ Εύρεση ενός αποτελεσματικού

Διαβάστε περισσότερα

Matrices and Determinants

Matrices and Determinants Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z

Διαβάστε περισσότερα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Gemini,, Applications Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Εαρινό Εξάμηνο 2011-2012 Table of contents 1 Table of contents 1 2 Table of contents 1 2 3 Table of contents

Διαβάστε περισσότερα

TMA4115 Matematikk 3

TMA4115 Matematikk 3 TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας 2008-2009 1

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας 2008-2009 1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 Στατιστικά Κειμένου Text Statistics CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 1 Διάρθρωση Συχνότητα Εμφάνισης

Διαβάστε περισσότερα

Srednicki Chapter 55

Srednicki Chapter 55 Srednicki Chapter 55 QFT Problems & Solutions A. George August 3, 03 Srednicki 55.. Use equations 55.3-55.0 and A i, A j ] = Π i, Π j ] = 0 (at equal times) to verify equations 55.-55.3. This is our third

Διαβάστε περισσότερα

Example Sheet 3 Solutions

Example Sheet 3 Solutions Example Sheet 3 Solutions. i Regular Sturm-Liouville. ii Singular Sturm-Liouville mixed boundary conditions. iii Not Sturm-Liouville ODE is not in Sturm-Liouville form. iv Regular Sturm-Liouville note

Διαβάστε περισσότερα

2 Composition. Invertible Mappings

2 Composition. Invertible Mappings Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,

Διαβάστε περισσότερα

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω 0 1 2 3 4 5 6 ω ω + 1 ω + 2 ω + 3 ω + 4 ω2 ω2 + 1 ω2 + 2 ω2 + 3 ω3 ω3 + 1 ω3 + 2 ω4 ω4 + 1 ω5 ω 2 ω 2 + 1 ω 2 + 2 ω 2 + ω ω 2 + ω + 1 ω 2 + ω2 ω 2 2 ω 2 2 + 1 ω 2 2 + ω ω 2 3 ω 3 ω 3 + 1 ω 3 + ω ω 3 +

Διαβάστε περισσότερα

Math 6 SL Probability Distributions Practice Test Mark Scheme

Math 6 SL Probability Distributions Practice Test Mark Scheme Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry

Διαβάστε περισσότερα

Παλαιότερες ασκήσεις

Παλαιότερες ασκήσεις Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY6 - Συστήµατα Ανάκτησης Πληροφοριών Παλαιότερες ασκήσεις η Σειρά Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Άσκηση ( η σειρά ασκήσεων

Διαβάστε περισσότερα

Inverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- -----------------

Inverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- ----------------- Inverse trigonometric functions & General Solution of Trigonometric Equations. 1. Sin ( ) = a) b) c) d) Ans b. Solution : Method 1. Ans a: 17 > 1 a) is rejected. w.k.t Sin ( sin ) = d is rejected. If sin

Διαβάστε περισσότερα

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 1 State vector space and the dual space Space of wavefunctions The space of wavefunctions is the set of all

Διαβάστε περισσότερα

4.6 Autoregressive Moving Average Model ARMA(1,1)

4.6 Autoregressive Moving Average Model ARMA(1,1) 84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013 Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering

Διαβάστε περισσότερα

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Systems Πανεπιστήμιο Κρήτης, Άνοιξη Γιάννης Τζίτζικας Lecture : 1 Date : 22-2- Title : Administration εδοµένα Το Αντικείµενο του Μαθήµατος Μια συλλογή

Διαβάστε περισσότερα

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R + Chapter 3. Fuzzy Arithmetic 3- Fuzzy arithmetic: ~Addition(+) and subtraction (-): Let A = [a and B = [b, b in R If x [a and y [b, b than x+y [a +b +b Symbolically,we write A(+)B = [a (+)[b, b = [a +b

Διαβάστε περισσότερα

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018 Journal of rogressive Research in Mathematics(JRM) ISSN: 2395-028 SCITECH Volume 3, Issue 2 RESEARCH ORGANISATION ublished online: March 29, 208 Journal of rogressive Research in Mathematics www.scitecresearch.com/journals

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 10η 1 Αποτίμηση επίδοσης Μηχανών Αναζήτησης 2 Sec. 8.6 Μέτρα επίδοσης μιας μηχανής αναζήτησης Πόσο γρήγορα εκτελεί την διαδικασία

Διαβάστε περισσότερα

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Chapter 6: Systems of Linear Differential. be continuous functions on the interval Chapter 6: Systems of Linear Differential Equations Let a (t), a 2 (t),..., a nn (t), b (t), b 2 (t),..., b n (t) be continuous functions on the interval I. The system of n first-order differential equations

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ» ΜΕΤΑΠΤΥΧΙΑΚΗ ΙΑΤΡΙΒΗ ΤΟΥ ΕΥΘΥΜΙΟΥ ΘΕΜΕΛΗ ΤΙΤΛΟΣ Ανάλυση

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth. Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2

Διαβάστε περισσότερα

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Main source: Discrete-time systems and computer control by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 A Brief History of Sampling Research 1915 - Edmund Taylor Whittaker (1873-1956) devised a

Διαβάστε περισσότερα

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE) EPL 603 TOPICS IN SOFTWARE ENGINEERING Lab 5: Component Adaptation Environment (COPE) Performing Static Analysis 1 Class Name: The fully qualified name of the specific class Type: The type of the class

Διαβάστε περισσότερα

Congruence Classes of Invertible Matrices of Order 3 over F 2

Congruence Classes of Invertible Matrices of Order 3 over F 2 International Journal of Algebra, Vol. 8, 24, no. 5, 239-246 HIKARI Ltd, www.m-hikari.com http://dx.doi.org/.2988/ija.24.422 Congruence Classes of Invertible Matrices of Order 3 over F 2 Ligong An and

Διαβάστε περισσότερα

DEIM Forum 2014 A8-1, 606 8501 E-mail: {tsukuda,ohshima,kato,tanaka}@dl.kuis.kyoto-u.ac.jp 1 2,, 1. Google 1 Yahoo 2 Bing 3 Web Web BM25 [1] HITS [2] PageRank [3] Web 1 [4] 1http://www.google.com 2http://www.yahoo.com

Διαβάστε περισσότερα

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science. Bayesian statistics DS GA 1002 Probability and Statistics for Data Science http://www.cims.nyu.edu/~cfgranda/pages/dsga1002_fall17 Carlos Fernandez-Granda Frequentist vs Bayesian statistics In frequentist

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #14 Αναζήτηση στο Web Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 2: Μέτρηση Αποτελεσματικότητας Συστημάτων Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

CMOS Technology for Computer Architects

CMOS Technology for Computer Architects CMOS Technology for Computer Architects Iakovos Mavroidis Giorgos Passas Manolis Katevenis Lecture 13: On chip SRAM Technology FORTH ICS / EURECCA & UoC GREECE ABC A A E F A BCDAECF A AB C DE ABCDAECF

Διαβάστε περισσότερα

Homework 3 Solutions

Homework 3 Solutions Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For

Διαβάστε περισσότερα

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks P2P 1,a) 1 1 1 P2P P2P P2P P2P A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks NARISHIGE Yuki 1,a) ABE Kota 1 ISHIBASHI Hayato 1 MATSUURA Toshio 1

Διαβάστε περισσότερα