Information Integration from the
|
|
- Πανόπτης Παπαδόπουλος
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Ενότητα Information Integration from the Information Retrieval (IR) perspective Διδάσκων: Γιάννης Τζίτζικας Στόχοι αυτής της ενότητας Να δούμε πως το πρόβλημα της ενοποίησης και της διαχείρισης μεγάλων όγκων πληροφοριών προσεγγίζεται στο χώρο της ανάκτησης πληροφοριών και ιστοαναζήτησης Να δούμε διάφορες τεχνικές που έχουν επιτυχημένα εφαρμοστεί εκεί. Αργότερα (σε επόμενα μαθήματα) ) θα δούμε πως κάποιες από αυτές μπορούν εφαρμοστούν σε βάσεις δεδομένων Να καλύψουμε κάποιες βασικές γνώσεις από το χώρο της ανάκτησης πληροφοριών (για όσους δεν έχουν παρακολουθήσει το μάθημα ΗΥ463) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 2
2 Outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 3 Information Retrieval and Information Integration A general note From its nature IR deals with uncontrolled collections of documents and aims at providing uniform word-based access and retrieval services Key point The problem of integration (e.g. of the various documents) and the provision of useful retrieval services is approached by defining best match retrieval models. So the key notion here is ranking. Apart from that, several topics in the context of distributed IR (e.g. source selection, result aggregation) are related to the information integration problem. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 4
3 The Information Retrieval Approach an extremely brief introduction for more refer to CS463 ( hy463) Information Retrieval (IR) in brief outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 6
4 Information Retrieval Basic Processes Documents indexing language query formulation Information need indexing process process d1 q Preprocessing (text operations) stemming stopwords weighting scheme Some Cases (regarding the indexing language): full text without stop words stems without positions doc = set of words doc = bag of words => weights structure preprocessing query language operators query expansion presentation of results user feedback (e.g. relevance feedback) exploration of results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 7 Information Retrieval Basic Processes and Related Components & Artifacts CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 8
5 Information Retrieval Basic Processes and Related Components & Artifacts Source: Arasu et. al.: Searching the Web. ACM Trans. Internet Techn, 2001 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 9 Information Retrieval The Retrieval Process From the User Side Web Searching today state-less user submits a free text query A ranked set of hits (pages, docs, etc) are computed They are presented linearly [user not satisfied] Exploratory Web Searching session-based user submits a free text query A ranked set of hits (pages, docs, etc) are computed Τheir static metadata are loaded Active Dimensions and zoom points are computed and ranked (based on preferences) The hits, the dimensions and the zoom points are visualized The user explores (restricts) the information space by selecting zoom (in/out/side) id points, expressing preferences and by synthesizing various views [user not finished exploration] [user not satisfied] Recall Faceted Dynamic Taxonomies CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 10
6 Information Retrieval The Retrieval Process From the User Side> Exploratory Web Searching Dimension based on dynamic metadata extracted from the top-k resources Dimensions based on static metadata CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 11 Information Retrieval Retrieval Models Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {1,0}), ή συνεχής (π.χ. [0,1]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που μπορεί να έχει ένας χρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους D: παράσταση εγγράφων D={ F(d) d D} Q: παράσταση επερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: DxQ [True/False] συνεχής R: D x Q [0,1] CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 12
7 Information Retrieval Retrieval Models indexing language Objective: Define how relevance is defined, i.e. Relevance(d1,q)=? d1 q Web-based based Ranking (link analysis-based ranking) Extended Boolean Fuzzy Some Retrieval Models for Texts Belief Network Inference Network Boolean Neural Network Vector Space Probabilistic more expressive less expressive PageRank HITS Salsa Collaborative-based Ranking Recommendation Algorithms CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 13 Information Retrieval Some Classical Retrieval Models Retrieval: Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14
8 Information Retrieval Retrieval Models: Exact vs. Best Match Exact-match (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Best-match (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι αώφλ(στο οβαθμό συνάφειας) άφεας) μπορούμε να ελέγξουμε ε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης E.g., best-match query language that incorporates exact-match operators CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 Information Retrieval TF*IDF Weighting Scheme Έστω όρος ki και έγγραφο dj freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j tf ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j df i = document frequency of term i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse document frequency of term i := log 2 (N/ df i ) όπου N το συνολικό πλήθος εγγράφων Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ο λογάριθμος ελαφραίνει το βάρος του idf σε σχέση με το tf CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 16
9 Information Retrieval TF*IDF Weighting Scheme Η λογική δομή ενός ευρετηρίου k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w ij = tf ij idf i = tf ij log 2 (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το tf-idf δουλεύει πολύ καλά στην πράξη. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 17 Information Retrieval Retrieval Models: The Vector Space Model (VSM) K={k 1,,k t} : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου w ij = tf ij idf i = tf ij log 2 (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(w 1,q,,w t,q ) όπου w iq = tf iq idf i = tf iq log 2 (N/ df i ) R(d j,q) = r d r d j j r r q q = i = 1 t t ( w w ij ij 2 w t i = 1 i = 1 iq w ) iq 2 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 18
10 Information Retrieval Retrieval Models> Okapi BM25 Sim 25 (d,q) idf(t) = tf d,tt k = 1.2 b = d : BM : length of N df(t) term (as = we frequency d (in terms) avgdl :average document length t(x) : termsof x t t(q) tf d,t (k + 1) idf(t) d tf d,t + k (1 b + b ) avgdl defined (as we it previously defined ) it previously ) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 19 Information Retrieval Retrieval Models for the Web Αξιοποιούν τη δομή του Ιστού (συγκεκριμένα τους συνδέσμους) Γράφος του Ιστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο G=(V,E) Διαγράφουμε τους κυκλικούς συνδέσμους (αυτοσυνδέσμους self-hyperlinks) Οι πολλαπλοί σύνδεσμοι (από μια σελίδα p σε μια q) καταπίπτουν σε έναν σύνδεσμο (p,q) in E CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 20
11 Information Retrieval Retrieval Models for the Web HITS (Hyperlink-Induced Topic Search) Αλγόριθμος που προτάθηκε από τον Kleinberg το Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριμένο θέμα (topic), αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής (αμοιβαίως οριζόμενες και αναδρομικές) προτάσεις: Hubs point to lots of authorities. Authorities are pointed to by lots of hubs. Hubs Authorities Hubs and Authorities tend to form a bipartite graph (nodes can be partitioned into 2 groups such that there are no links between the nodes of the same group): CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 21 Information Retrieval Retrieval Models for the Web HITS>Authorities and Hubs Authorities are pages that are recognized as providing significant, trustworthy, and useful informationonatopic on a topic. Α simple measure of authority could be in(p) However in-degree treats all links as equal. Should links from pages that are themselves authoritative count more? Hubs are index pages that provide lots of useful links to relevant content pages (topic authorities). Παραδείγματα Hub pages για ανάκτηση πληροφοριών: u.ac.jp/member/kita/nlp/ir.html Α simple measure for identifying hubs could be out(p) in(a) A out(a) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22
12 Information Retrieval Retrieval Models for the Web HITS> First steps of the algorithm Εντοπίζει τα hubs και τα authorities για ένα συγκεκριμένο θέμα (topic) που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση (base set) Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και authorities. S R R = ans(q) ( { out( p) p R} ) ( { in( p) p }) S : = R R CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 Information Retrieval Retrieval Models for the Web HITS> Iterative Algorithm Use an iterative algorithm to slowly converge on a mutually reinforcing set of hubs and authorities. Maintain i for each page p S: Authority score: a(p) (vector a) Hub score: h(p) (vector h) Initialize all a(p)=h(p) = 1 Maintain normalized scores: p S a( p) 2 = 1 p S h( p) 2 = 1 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24
13 Information Retrieval Retrieval Models for the Web HITS> Update Rules Authorities are pointed to by lots of good hubs: a ( p ) = h ( q ) q in( p) Hubs point to lots of good authorities: a(4) = h(1) + h(2) + h(3) h( p) = a( q) q out( p) h(4) = a(5) + a(6) + a(7) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 Information Retrieval Retrieval Models for the Web HITS> The algorithm Initialize for all p S: a(p)=h(p) = 1 For i = 1 to k: For all p S: For all p S: a( p) = (update auth. scores) q in( ( p ) h( q) (update hub scores) h ( p ) = a ( q ) q out( p) For all p S: a(p)=a(p)/c 2 (normalize a) c = For all p S: a( p) p S h(p)= h(p)/c c: 2 c = h h ( p ) (normalizel h) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 26
14 Information Retrieval Retrieval Models for the Web HITS> Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο (fixpoint). Define A to be the adjacency matrix for the subgraph defined by S. A ij = 1 for i S, j S iff i j Authority vector, a, converges to the principal eigenvector of A T A Hub vector, h, converges to the principal i eigenvector of AA T Στην πράξη, 20 επαναλήψεις συνήθως επαρκούν. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 27 Information Retrieval Retrieval Models for the Web PageRank Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google (Brin & Page, 1998). Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους (authority). Εφαρμόζεται σε όλες τις σελίδες του ιστού (δεν περιορίζεται ρζ στη γειτονιά των σελίδων της απάντησης μιας επερώτησης) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 28
15 Information Retrieval Retrieval Models for the Web PageRank: Η αρχική έκδοση Μπορούμε να εκλάβουμε τη βαθμολόγηση ως μια διαδικασία ροής «κύρους». Η ροή γίνεται μέσω των συνδέσμων (και έχει την ίδια κατεύθυνση με αυτούς) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 29 Information Retrieval Retrieval Models for the Web PageRank: Example of Fixpoint CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 30
16 Information Retrieval Retrieval Models for the Web PageRank: Random Surfer Model (Μοντέλο Τυχαίου Περιηγητή) Ο PageRank μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» (random surfer) ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν με πιθανότητα Ε(p) κάνει ένα άλμα σε μια τυχαία σελίδα, αλλιώς (με πιθανότητα 1-E(p)) επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το R(p) εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή Σημείωση: Τα τυχαία άλματα αποτρέπουν την «παγίδευση» του περιηγητή σε καταβόθρες ή σε σελίδες που δεν έχουν εξερχόμενους συνδέσμους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 31 Information Retrieval Retrieval Models for the Web PageRank: The Algorithm Let S be the total set of pages. Let p S: p E(p) = α/ S (for some 0<α<1,, e.g. 0.15) ) Initialize p S: R(p) = 1/ S Until ranks do not change (much) (convergence) g For each p S: R( q) R ( p ) = + E ( p ) out ( q) q in( p) For each p S: R(p) ) = R (p)/c (normalize) c = R ( p) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 32
17 Information Retrieval Retrieval Models for the Web PageRank: Speed of Convergence Early experiments on Google used 322 million links. PageRank algorithm converged (within small tolerance) in about 52 iterations. ti Number of iterations required for convergence is empirically O(log n) (where n is the number of links). Therefore calculation is quite efficient. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 33 Information Retrieval Retrieval Models for the Web Personalized PageRank Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PageRank, τροποποιώντας κατάλληλα το Ε (ώστε να μην περιγράφει μια ομοιόμορφη κατανομή) Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» α σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν p= τότε Ε(p)=α αλλιώς E(p)=0 // ευνοεί τις ιστοσελίδες που είναι κοντά (στο γράφο) στην ιστοσελίδα // του μαθήματος ΗΥ463 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 34
18 Information Retrieval Retrieval Models and Web Search Engines In practice complex retrieval models are used which combine several sources of evidence (topic relevance, PageRank, query logs, etc). A hybrid retrieval model that t combines relevance with query-independent d scores can have the form: Score(d,q) = a g(d) + (1 a) Sim(d,q) 0 a 1 Query-independent d score (e.g. PageRank score) Scoring function of a best match retrieval model CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 35 Databases Information Retrieval Retrieval Models > (Effectiveness) Evaluation Procedure Πρόβλημα: Πως μπορούμε να κρίνουμε αν μια συνάρτηση βαθμολόγησης (γενικά ένα retrieval model) είναι καλύτερη από μια άλλη; Τρόπος: 1) Επέλεξε ένα συγκεκριμένο σύνολο εγγράφων C (κατά προτίμηση του ίδιου γνωστικού πεδίου). 2) Διατύπωσε ένα σύνολο επερωτήσεων για αυτά Q 3) Βρες έναν ή περισσότερους ειδικούς (experts) του γνωστικού πεδίου, και βάλε τους να μαρκάρουν τα συναφή έγγραφα για κάθε ερώτηση Συνήθως, οι κρίσεις τους είναι (Συναφές, Μη-Συναφές).Αρα το αποτέλεσμα της διαδικασίας δ αυτής είναι ένα σύνολο από πλειάδες της μορφής: (c,q,relevant) ή (c,q,irrelevant), όπου c C, q Q. 4) Χρησιμοποίησε αυτή τη συλλογή για την αξιολόγηση της αποτελεσματικότητας ενός ΣΑΠ (Συστήματος Ανάκτησης Πληροφοριών) Βάζουμε το ΣΑΠ να ευρετηριάσει τη συλλογή C, κατόπιν του στέλνουμε επερωτήσεις από το Q και αξιολογούμε τις αποκρίσεις του βάσει των κρίσεων που έχουν κάνει ήδη οι ειδικοί. Δυσκολίες: Η παραπάνω μέθοδος απαιτεί μεγάλη ανθρώπινη προσπάθεια για μεγάλες συλλογές εγγράφων/επερωτήσεων. TREC CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 36
19 Information Retrieval Retrieval Models > Evaluation Measures Effectiveness Evaluation Assumes an evaluation collection Some retrieval effectiveness Measures Precision Recall F-Measure (and E-Measure) Fallout Precision-Recall Curves R-Precision i and Histograms Expected Search Length... User Oriented Measures Novelty Ratio Coverage Ratio User Effort Efficiency Response Time Storage Space Requirements (main memory, disk space) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 37 Information Retrieval Retrieval Models > Evaluation Measures Συλλογή εγγράφων Ε Σ Σ: Συναφή (με το ερώτημα q) (μας τα έχουν δώσει οι ειδικοί) Ε Σ Ακρίβεια = Ε P(recision) Ε: Ευρεθέντα (από το υπό αξιολόγηση σύστημα ανάκτησης πληροφοριών) Ε Σ Ανάκληση = Σ R(ecall) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 38
20 Information Retrieval Retrieval Models > Evaluation Measures> Single-valued (they ignore order) F-Measure Μέτρο που λαμβάνει υπόψη την Ακρίβεια και την Ανάκληση. Είναι το αρμονικό μέσο (harmonic mean) της ανάκλησης και ακρίβειας. Δίνει υψηλό βαθμό εάν και τα δύο έχουν υψηλή τιμή. 2PR 2 F = = 1 P + R 1 + Ε-Measure Παραλλαγή του F measure που μας επιτρέπει να δώσουμε περισσότερη έμφαση (βάρος) στην ακρίβεια. Η τιμή του β ρυθμίζει το trade-off. R P E = 2 2 ( 1 + β ) PR (1 + β ) = 2 2 β 1 β P + R + R P CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 39 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Έστω Συναφή =6 n doc # relevant Recall Precision x R=1/6=0.167; P=1/1= x R=2/6=0.333; P=2/2= x R=3/6=0.5; P=3/4= x R=4/6=0.667; P=4/6= Missing one relevant document Never reach x R=5/6=0.833; P=5/13= % recall Pre ecision Recall CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 40
21 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Precision 1.0 Interpolating ti a Recall/Precision i Curve real interpolated 0.8 R=0.167; P=1 R=0.333; P=1 0.6 R=0.5; P= R=0.667; P=0.667 R= ; P= Recall Σημείωση: Από τα 5 ζεύγη (Ρ,R) που είχαμε ε πήγαμε σα11 στα CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 41 Information Retrieval Retrieval Models > Evaluation Measures R-Precision: Η ακρίβεια στην R θέση της διάταξης της απάντησης μιας επερώτησης που έχει R (στο πλήθος) συναφή έγγραφα n doc # relevant x x x x x R = # of relevant docs = x R-Precision=4/6=067 = 0.67 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 42
22 Information Retrieval Retrieval Models > Reporting Evaluation Results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 43 Information Retrieval Index Structures Aim: Enable efficient term-based access (i.e. fast evaluation of queries) Key Index Structures and Associated Taks Inverted files (plus algorithms for gradual index creation) Suffix trees and suffix arrays (for phrase queries) Signature files Index structures for multimedia (e.g. metric trees) Other useful (for the retrieval process) algorithms String pattern matching algorithms (including algs for Edit distance algorithms) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 44
23 Information Retrieval Index Structures> Inverted File Main Mem mory Disk Space requirement O( n) n :size of text in words Space requirement O(n) Document Collection Vocabulary Posting File cached textual d 1 word df pos (docid: tf),.. contents of docs d 2 Free games Indexing chat 1 (d Free games 3 :1) d 3 Free games free 2 (d 1 :1), (d 2 :2) Chat online games 2 (d 1 :1), (d 2 :2) Here for simplicity frequency in docs online 1 (d 3 :1) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 45 Information Retrieval The Retrieval Process (assuming Inverted Files) Query pre processing: Tokenization, case folding, stopwords elimination, stemming Vocabulary Search: Locate each query term t at the vocabulary Retrieval of occurrences: Fetch the posting list I(t) of each query term t from the posting file Manipulation of occurrences: The occurrences are processed to extract information (extracting docids, counting frequencies) A scoring function assigns scores to the documents as an estimate for their relevance to the query (i.e VSM, Okapi BM25) The documents are sorted in decreasing score order and the results are returned to the user (either all or the top K) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 46
24 Information Retrieval Index Structures> Suffix Tries (for fast evaluation of phrasal queries) This is a text. A text has many words. Words are made from letters. letters. made from letters. Words are made from letters. words. Words are made from letters. many words. Words are made from letters. text has many words. Words are made from letters. text. A text has many words. Words are made from letters. Suffix Trie l d a m n t e x t. 11 w o r d s CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 47 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) Κύρια σημεία: Δομή ευρετηρίου που βασίζεται στο hashing Μικρή χωρική επιβάρυνση (10%-20% του μεγέθους των κειμένων) Αναζήτηση = σειριακή αναζήτηση στο αρχείο υπογραφών Κατάλληλη για όχι πολύ μεγάλα κείμενα Ευρετηρίαση Χρήση hash function που αντιστοιχεί λέξεις κειμένου σε bit masks των Β bits Διαμέριση του κειμένου σε blocks των b λέξεων το καθένα Bit mask of a block = Bitwise OR of the bits masks of all words in the block Bit masks are then concatenated Αναζήτηση λέξης w: 1/ W := h(w) (we hash the word to a bit mask W) 2/ Compare W with all bit masks Bi of all text blocks If (W & Bi = W), the text block i is candidate (may contain the word w) 3/ For all candidate text blocks, perform an online traversal to verify that the word w is actually there CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48
25 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) b=3 ( 3 words per block) B=6 (bit masks of 6 bits) Text Block 1 Block 2 Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Signature Files Text Signature Signature Function h(text)= h(many)= h(words)= h(made)= h(letters)= Σχεδιαστικοί στόχοι: Μείωσε την πιθανότητα εμφάνισης false drops Κράτησε το μέγεθος του αρχείου υπογραφών μικρό δεν έχουμε κανένα false drop αν b=1 και Β=log Γιατί Bitwise-OR? 2 (V) Παράμετροι: Β (το μέγεθος μγ των bit mask) L (L<B) to πλήθος των bit που είναι 1 (σε κάθε h(w)) The (space)-(false drop probability) tradeoff: 10% space overhead => 2% false drop probability 20% space overhead => 0.046% false drop probability CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 49 Information Retrieval Index Structures> For Metric Spaces Κίνητρο Ανάκτηση πολυμέσων. Εδώ δεν έχουμε λέξεις. Μπορεί όμως να έχουμε ορίσει μια συνάρτηση απόστασης και ο σκοπός μας είναι να απαντήσουμε ερωτήσεις της μορφής: βρες όλα τα αντικείμενα σε απόσταση ε από το Q βρες όλα τα τμήματα των αντικειμένων σε απόσταση ε από το Q βρες τα 5 κοντινότερα αντικείμενα στο Q Σύμπαν αντικειμένων U (πχ το σύνολο όλων των εικόνων 512x512) Συλλογή αντικειμένων C={o 1,,o N }, C U Συνάρτηση Απόστασης (ομοιότητας,..,συνάφειας) D: U x U [0,1] καθορίζεται από έναν ειδικό του πεδίου (μπορεί να υπολογίζεται από ένα πρόγραμμα) Επερώτηση: αντικείμενο Q (Q U) και ανοχή (tolerance) ε Απάντηση επερώτησης:ans(q, ε)={ o C D(o,Q) ε } Σκοπός: Γρήγορος υπολογισμός του ans(q, ε) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 50
26 Information Retrieval Index Structures> For Metric Spaces Μία προσέγγιση είναι να χρησιμοποιήσουμε features (feature-based multimedia indexing and retrieval). Μία άλλη είναι να χρησιμοποιήσουμε τεχνικές ευρετηρίασης που εφαρμόζονται κατευθείαν στις αποστάσεις (άρα παρακάμπτουμε την ανάγκη επιλογής features) Η γενική ιδέα Υπολογίζουμε τις αποστάσεις μεταξύ των αντικειμένων (όχι κατά ανάγκη μεταξύ όλων) μια φορά, φτιάχνουμε μια κατάλληλη δομή δεδομένων, και εν συνεχεία την αξιοποιούμε κατά την αποτίμηση των επερωτήσεων (για να μειώσουμε το πλήθος των αποστάσεων που απαιτείται να υπολογίσουμε εκείνη την ώρα) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 51 Information Retrieval Index Structures> Metric Trees (Α) tree indexes for discrete distance functions, i.e. for functions that deliver a small set of values Burkhard-Keller Tree (BKT) [Buthard et al 73] Fixed Query Tree (FQT) [Baeza-Yates 94] (Β) tree indexes for continuous distance functions i.e. for functions where the set of alternatives is infinite or very large Vantage Point-Trees (VTPs) Multi-Vantage-Point trees (MVTs) Voronoi Trees (VTs) M-trees (MT). (C) not tree-based indexes. AESA (Approximating Eliminating Search Algorithm) LAESA (for linear AESA). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 52
27 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Είναι δυαδικά δένδρα Τρόπος κατασκευής Επιλέγουμε ένα στοιχείο κεντρικό (pivot). Υπολογίζουμε τον μέσο όρο Μ των αποστάσεων από αυτό το σημείο Τα στοιχεία με απόσταση μικρότερη ή ίση του Μ εισάγονται στο αριστερό υποδένδρο, ενώ τα υπόλοιπα στο δεξί Συνεχίζουμε αναδρομικά Τρόπος αναζήτησης. Έστω επερώτηση (Q,ε) 1/ Μετράμε την απόσταση του Q από το pivot p, δηλαδή d(q,p) 2/ Αν d(q,p)-ε <= Μ πάμε στο αριστερό υποδέντρο. Αν d(q,p) +ε > Μ πάμε στο δεξί υποδέντρο (ενδέχεται να μπούμε και στα δύο υποδένδρα) 3/ Επιστρέφουμε τα στοιχεία που έχουν απόσταση <= ε από το Q 2.9 u7 u >3.1 >2.9 u9 4 >4 u15 u6 u8 u3 >2.5 u14 u4 u10 u1 u13 u2 u12 u (η ορθότητα εξασφαλίζεται από τις ιδιότητες των μετρικών συναρτήσεων) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 53 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Επιδόσεις Χώρος: O(n) Χρόνος κατασκευής: απαιτούνται O(n logn) ) υπολογισμοί αποστάσεων (διότι (δό το δέντρο είναι ισοζυγισμένο) Κόστος αναζήτησης: O (log n) υπολογισμοί απόστασης αν το ε είναι σχετικά μικρό Αλλες τεχνικές (για μετρικούς χώρους) AESA(Approximating i Eliminating i Search Algorithm) Βασίζεται σε έναν πίνακα με n(n-1)/2 προϋπολογισμένες αποστάσεις, άρα καταλαμβάνει χώρο O(n 2 ). Όμως οι πειραματικά μετρούμενοι χρόνοι αναζήτησης είναι πολύ καλοί O(1). CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 54
28 Information Integration from the IR Perspective CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 55 Information Integration from the IR Perspective Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 56
29 Information Integration from the IR Perspective Aspects One corpus of documents (i.e. one system) We have already explained how preprocessing (e.g. stemming) as well the weighting (e.g. IDF) allow a system to be less vulnerable to the morphological variations of words and to distinguish words with high discrimination power. Several Corpi of Documents (or several IR systems in general, e.g. Meta Search Web Engines) Basic Processes Source Selection Query Translation Forwarding Result Aggregation Presentation of Results Meta-Web Search Engines CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 57 Integration from the DB world and the IR world The web search engines approach (crawling, link analysis, log analysis, etc) The meta-search approach CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 58
30 Virtual Integration in the IR World Apart from its application for the Web, this approach is also useful for tackling the Hidden Web Visible Web: Information can be copied (crawled) and accessed by conventional search engines like Google or AltaVista Hidden Web: Information hidden from conventional engines. - No arbitrary crawl of the data (e.g., ACM library) Can NOT - Updated too frequently to be crawled (e.g., buy.com) Index (promptly) - Larger than Visible Web (2-50 times) Searched by - Created by yprofessionals Valuable Federated Search Federated Search is a feature used to beat Google by search engines like - Web: Uncooperative information sources CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 59 Aspects of Information Integration Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning Increased Volumes of Data Mining Advanced Ranking (best match queries) Customizable Ranking (preferences) Efficient Computation of Top-K Answer Exploration/Visualization/Clustering li i /Cl i (to support decision making) requires results to Artifacts Tasks Extra Sources Workloads Social Perspective... that can be used
31 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) query Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 61 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) answer Information Integration Source Description Source Selection ans1 ans2 ans3 ans4 ans5 Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 62
32 Information Integration from the IR Perspective DIR > Source Selection Σκοπός Η επιλογή των υποκείμενων πηγών στις οποίες θα προωθηθεί η επερώτηση Κίνητρο Η αναζήτηση σε κάθε συλλογή (ήτοι σε όλες τις υποκείμενες πηγές) μπορεί: να είναι ακριβή σε χρόνο (αφού μπορεί να έχουμε εκατοντάδες συλλογές) να είναι ακριβή σε χρήμα (η αναζήτηση μπορεί να έχει χρηματικό κόστος) να καθορίσει την αποτελεσματικότητα (effectiveness) της ανάκτησης Μερικές Προσεγγίσεις Επιλογή Όλων (των υποκείμενων πηγών) ) Επιλογή από το Χρήστη Χειρονακτική Ομαδοποίηση και Επιλογή Πηγών Επιλογή Πηγής βάσει Κανόνων (Rule-based) Επιλογή Πηγής βάσει κατανομής συναφών εγγράφων (Relevant Document Distribution (RDD)) Επιλογή Πηγής με Επερώτηση Βολιδοσκόπησης λδ Επιλογή Πηγής με Διανύσματα Πηγών CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 63 Information Integration from the IR Perspective DIR > Source Selection Επιλογή Όλων (κανένας περιορισμός) Επιλογή από το χρήση (π.χ. στις μεταμηχανές αναζήτησης) Θεματική οργάνωση συλλογών (χειρονακτική) Οργανώνουμε τις υποκείμενες πηγές/συστήματα θεματικά πχ μαθηματικά, φυσική, ειδήσεις, κλπ Ο χρήστης επιλέγει τη θεματική κατηγορία και ανάλογα προωθείται η επερώτηση προβλήματα χρονοβόρα διαδικασία, ευάλωτη σε ασυνέπειες/παραλείψεις, δεν θα δουλέψει καλά για μη-συνηθισμένες επερωτήσεις Επιλογή βάσει Κανόνων Τα περιεχόμενα κάθε συλλογής περιγράφονται σε μια Βάση Γνώσης. Ένα Σύστημα Κανόνων επιλέγει τις πηγές για κάθε εισερχόμενη επερώτηση. Αδυναμίες: κόστος συγγραφής κανόνων και ανάγκη συντήρησης των κανόνων (αν οι συλλογές είναι δυναμικές) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 64
33 Information Integration from the IR Perspective DIR > Source Selection Κατανομή Συναφών Εγγράφων (Relevant Document Distribution (RDD)) Γενική ιδέα: Φτιάξε μια βάση με επερωτήσεις και την πιθανή κατανομή των συναφών εγγράφων σε κάθε συλλογή (με κάποιο τρόπο) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 65 Information Integration from the IR Perspective DIR > Source Selection Για κάθε νέα επερώτηση q που λαμβάνει το σύστημα Βρίσκουμε τις κ πιο κοντινές επερωτήσεις στη βάση (similar past queries) Από τις κατανομές τους, εκτιμούμε πόσα συναφή έγγραφα με την νέα επερώτηση έχει κάθε πηγή Αποφασίζουμε πόσα έγγραφα να ζητήσουμε από κάθε συλλογή (αν 0 δεν στέλνουμε επερώτηση ) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 66
34 Information Integration from the IR Perspective DIR > Source Selection Επερώτηση Βολιδοσκόπησης (Query Probing) Στέλνουμε μια επερώτηση βολιδοσκόπησης σε κάθε συλλογή (που μπορεί να περιλαμβάνει μερικούς από τους όρους της επερώτησης) κάθε συλλογή απαντά με στατιστικές πληροφορίες πχ: μέγεθος συλλογής, πόσα έγγραφα έχουν τον κάθε όρο, πόσα έγγραφα έχουν όλους τους όρους της επερώτησης, κλπ βάσει αυτών των στοιχείων επιλέγουμε την πηγή Υποθέσεις η επεξεργασία των επερωτήσεων βολιδοσκόπησης είναι πολύ φθηνότερη περιέχουν λίγους όρους, δεν χρειάζεται να υπολογίσουμε βαθμούς συνάφειας ή να διατάξουμε τα έγγραφα ως προς τη συνάφεια τους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 67 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors (Διανύσματα Πηγών) IRS1=<0.4, 0.3,, 0.8> IRS2=<0.1, 0.9,, 0.4> IRS3=<0 <0.8, 0.5,, 0.2> IRS1 IRS2 IRS3 IRS4 IRS5 Βλέπουμε κάθε συλλογή ως ένα μεγάλο έγγραφο Φτιάχνουμε ένα δά διάνυσμα για κάθε συλλογή (τύπου ύ TF-IDF) με τις εξής διαφορές: tfij: j συνολικές εμφανίσεις του όρου i στη συλλογή j idfi: log(n/ni), όπου Ν το πλήθος των συλλογών, και ni το πλήθος των συλλογών που έχουν τον όρο i CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 68
35 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors Τρόπος Επιλογής Πηγής Με την έλευση μιας επερώτηση q στη μεταμηχανή υπολογίζουμε το βαθμό ομοιότητας με το διάνυσμα κάθε συλλογής (π.χ. χ ομοιότητα συνημίτονου) Διατάσσουμε τις συλλογές (βάσει των παραπάνω βαθμών) και επιλέγουμε τις κορυφαίες Μια αδυναμία: Μπορεί ο βαθμός ομοιότητας με μία συλλογή να είναι μεγάλος, αλλά να μην υπάρχει κανένα έγγραφο εκεί με μεγάλο βαθμό συνάφειας Ένας τρόπος αντιμετώπισης: Για κάθε συλλογή φτιάξε Ν/Β διανύσματα, δηλαδή ένα διάνυσμα για κάθε Β έγγραφα της συλλογής (αντί για μόνο 1) Αν Β=11 τότε ο server είναι σαν να έχει το ευρετήριο όλων των συστημάτων Αν Β=Ν τότε έχουμε ένα διάνυσμα για κάθε συλλογή CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 69 Result Aggregation CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 70
36 Information Integration from the IR Perspective DIR > Result Aggregation Σκοπός Συγκρότηση της τελικής απάντησης από τις απαντήσεις που έδωσαν οι πηγές στις οποίες προωθήθηκε η επερώτηση Γενικές Κατηγορίες Τεχνικών Συγκρότησης answer =? ans1 ans2 ans3 ans4 ans5 Ολοκληρωμένες (Integrated) Απομονωμένες (Isolated) IRS1 IRS2 IRS3 IRS4 IRS5 Μερικά Σχόλια Αν οι απαντήσεις είναι σύνολα (άρα όχι διατάξεις) τότε το πρόβλημα είναι πιο εύκολο. Αν όμως οι απαντήσεις είναι διατεταγμένες (αποτέλεσμα χρήσης μοντέλων βέλτιστου ταιριάσματος) τότε η ενοποίηση αποτελεσμάτων είναι πιο δύσκολη αφού οι διατάξεις/σκορ δεν είναι πάντα συγκρίσημες (αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). Συχνά μας αρκεί η εύρεση των κορυφαίων στοιχείων της ενοποιημένης διάταξης CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 71 Κατηγορίες Στρατηγικών Ενοποίησης Διατάξεων (A) Ολοκληρωμένες Τεχνικές (Integrated) Οι πηγές παρέχουν επιπρόσθετη πληροφορία που χρησιμοποιείται κατά την ενοποίηση Αδυναμίες: Μπορούμε να πούμε ότι έχουν στενότερο πεδίο εφαρμογής - απαιτούν συμφωνία μεταξύ των πηγών (e.g. protocol). Επίσης συχνά λαμβάνουν υπόψη τους μέτρα όπως Precision/Recall, τα οποία δεν είναι πάντα «αντικειμενικά» ή συγκρίσιμα. (B) Απομονωμένες Μέθοδοι (Isolated) Δεν απαιτούν καμία επιπλέον πληροφορία από τις πηγές (άρα μπορούν να εφαρμοστούν και στις μετα-μηχανές αναζήτησης) Είναι ανεξάρτητες των τεχνικών ευρετηρίασης και των μοντέλων ανάκτησης των υποκείμενων συστημάτων, άρα κατάλληλες για δυναμικά περιβάλλοντα όπου υπάρχουν πολλά συστήματα των οποίων η λειτουργία εξελίσσεται συχνά και απρόβλεπτα Σχετικές τεχνικές: round robin interleaving, score-based, Rank Aggregation Methods (Borda, Condorcet), download d and re-index the contents of the objects CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 72
37 DIR > Result Aggregation Round Robin interleaving & Score-based Round Robin Interleaving (δηλαδή merge sort) // isolated Παράδειγμα: ans1(q) = <d10,d2, d30, d7> ans2(q) = <d4, d12, d5, d9> ANS(q) = < {d10,d4}, {d2,d12}, {d30,d5}, {d7,d9}> Προβλήματα στην πραγματικότητα όλα τα έγγραφα του ans1(q) μπορεί να είναι καλύτερα (πιο συναφή) από το 1ο στοιχείο της ans2(q) Score-based Παράδειγμα: ans1(q) = < (d3,0.8), (d2,0.7) > ans2(q) = < (d5,0.6), (d6,0.3) > ans3(q) = < (d4,0.9) > ANS(q) = < d4, d3, d2, d5, d6> Προβλήματα τα σκορ διαφορετικών συστημάτων δεν είναι συγκρίσιμα (κανονικοποιημένα), αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 73 DIR > Result Aggregation Weighted Score-based Weighted Score-based Λαμβάνουμε υπόψη το σκορ της πηγής που υπολογίσαμε όταν κάναμε Επιλογή Πηγής (source selection) Πχ Score(IRS1) = 0.9 // υπολογίστηκε στη φάση επιλογής πηγής Score(IRS2) = 0.5 // υπολογίστηκε στη φάση επιλογής πηγής ans1(q) = <(d1, 0.7)> ans2(q) = <(d2, 0.9)> ANS(q) = < (d1, 0.63), (d2, 0.45)> // 0.63 = 0.9*0.7 Εδώ πολλαπλασιάσαμε το σκορ της πηγής με το σκορ των εγγράφων. Υπάρχουν και άλλες παραλλαγές (π.χ. [Callan94,95]) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 74
38 DIR > Result Aggregation Downlοad and re-index/re-score (isolated) Downlοad and re-index/re-score Εδώ ανακτούμε τα έγγραφα των απαντήσεων κάθε πηγής, τα επαναευρετηριάζουμε και επαναυπολογίζουμε το βαθμό συνάφειας τους Μειονέκτημα Χρονοβόρα διαδικασία ans1 ans2 IRS1 Vector Space Model IRS4 Extended Boolean Model CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 75 DIR > Result Aggregation Global term statistics (integrated) Μπορούμε να κάνουμε συγκρίσιμα τα σκορ διαφορετικών συστημάτων αν επιβάλουμε τα ίδια στατιστικά στοιχεία σε όλα τα συστήματα (global statistics) Τα στατιστικά αυτά στοιχεία μπορούν να αποκτηθούν στη φάση της επιλογής πηγής (πχ χ Διανύσματα Πηγής, Probe Queries, ) Αποτίμηση Επερωτήσεων σε 2 φάσεις στην 1η συλλέγονται τα στατιστικά (o server στέλνει την επερώτηση και οι πηγές απαντούν με τα στατιστικά των όρων που περιέχονται στην επερώτηση) στην 2η ο server στέλνει σε κάθε πηγή την επερώτηση μαζί με τα καθολικά στατιστικά των όρων της κάθε πηγή αποτιμά την επερώτηση με τα καθολικά στατιστικά και επιστρέφει την απάντηση η Ο server λαμβάνει έτοιμα σκορ και απλά τα ενοποιεί (merge sort) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 76
39 (cont) q= Hotels Crete idf(hotels)= log(2000/400) idf(crete)= log(2000/105) ans = score-based merging of ans1 ans2 ans1 ans2 S1 S2 S1 S2 S1 S2 S1 S2 N1 = 1000 N2 = 1000 N1Hotels = 300 N2Hotels = 100 N1Crete = 100 N2Crete = 5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 77 Rank kaggregation Συνάθροιση Διατάξεων (no scores are available)
40 Information Integration from the IR Perspective Rank Aggregation > Outline Το πρόβλημα και διάφορες εφαρμογές του Τρόποι Συνάθροισης Διατάξεων Plurality Borda Condorcet Kemeny Επιθυμητές Ιδιότητες Τεχνικών Συνάθροισης Διατάξεων Το Θεώρημα του Ανέφικτου του Arrow Παραδείγματα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 79 Ενοποίηση Διατάξεων: Rank Aggregation (or Meta-Ranking) Διατύπωση του Προβλήματος D: ένα σύνολο αντικειμένων (π.χ. εγγράφων, πλειάδων,..) S1, Sk: Sk ένα σύνολο (γραμμικών) ώ διατάξεων του D (άρα εδώ δεν έχουμε σκορ) ) Σκοπός: Εφαρμογές Ενοποίηση των διατάξεων S1,..Sk σε μία Ενοποίηση αποτελεσμάτων σε μεσολαβητές (mediators) και μεταμηχανές αναζήτησης (meta search engines), καθώς και αρκετές άλλες, π.χ. συγκρότηση ιδανικής διάταξης για αξιολόγηση αυτόματων τεχνικών διαβάθμισης Α possible metaphor: elections Objects Candidates Sources Electors Ordering by a system Elector s voting ticket Fused ordering Election list CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 80
41 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία) O υποψήφιος με τις περισσότερες πρώτες θέσεις είναι ο νικητής. Έστω 6 πηγές (S1,,S6) και 4 σελίδες a,b,c,d. Κάθε σύστημα επιστρέφει μια γραμμική διάταξη των σελίδων: S1: <a,c,d,b> S2: <a,b,c,d> S3: <b,c,a,b> S4: <b,a,d,c> S5: <a,d,c,b> S6: <c,a,b,d> Μετράμε πόσες πρώτες θέσεις κατέλαβε κάθε σελίδα a: 3 b: 2 c: 1 d: 0 Άρα η τελική κατάταξη είναι η <a,b,c,d>,, CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 81 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> πρωτιές: a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d (που ήταν τελευταίο στην ενοποιημένη διάταξη) 3 συστήματα <a,c,b> 6 συστήματα <a,c,b> 3 συστήματα <b,c,a> 5 συστήματα <b,c, a> 2 συστήματα <c,b,a> 5 συστήματα <c,b,a> 2 συστήματα <b,c,a> 4 συστήματα <c,b,a> a:9 b:10 c:11 Τελική διάταξη: <c,b,a> Αντίστροφη της αρχικής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 82
42 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d Τελική διάταξη: <c,b,a> Απόσυρση του a Τελική διάταξη: <d,c,b> Απόσυρση του b Τελική διάταξη: <d,c,a> Απόσυρση του c Τελική διάταξη: <d,b,a> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 83 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Borda [Jean-Charles Borda 1770] The votes of an object o V ( o) = r i ( o) i= i 1....kk r ( o) : the position of the object The fused ordering Μ is derived by ordering the objects in ascending order wrt to their votes Reinvented (for the context of Meta-Searching) in [Tzitzikas 2001] o in the ordering of system i S i Example: S1 : < o1, o2, o S2 : < o1, o3, o S : < o, o, o > > > V ( o V ( o V ( o ) = = 4 ) = = 8 ) = = 6 M : o < o1, o3, 2 > If each source S r ( o i j i returns an ordered subset i i, if o j Oi position of o j in O ) = F + 1 otherwise O of Obj. where F = max{ O1,..., Ok } Γιατί; CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 84
43 Ενοποίηση Διατάξεων κατά Borda Βαθμός Συμφωνίας The distance between two orderings i and j: dist( i, j) = ri ( o) rj ( o) o O Footrule distance The mean distance of the fused ordering 0 The level l of agreement of fthe fused ordering 0: Dem = i =.. dist(0, i) 1 k k linear transformation C Dem LA = C C: max possible mean distance Dem inversion transformation LA = C C > 1,e.g.C = 2 High level may drive the user to read only the very first documents since probably they are the more relevant Low level may drive the user to read more documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 85 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Condorcet [1785] Condorcet: the winner is a candidate that defeats every other candidate in pairwise majority-rule election S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> a:b 2:1 // τo a νικά το b δύο φορές (και χάνει μία) a:c 2:1 // τo a νικά το c δύο φορές (και χάνει μία) Αρα η τελική κατάταξη κατά Condorset είναι: <a,b,c> Άλλο παράδειγμα S1: <a,b,c>, S2: <b,c,a>, S3: <c,a,b> a:b 2:1 // άρα το b δεν μπορεί να είναι o νικητής a:c 1:2 // άρα το a δεν μπορεί να είναι o νικητής c:b 1:2 // άρα το c δεν μπορεί να είναι o νικητής ηής Δεν υπάρχει πάντα Condorset νικητής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 86
44 Borda vs Condorcet S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> Borda a: = 5 b: = 6 c: = 7 Borda ordering: <a,b,c> Condorset a:b 2:1 a:c 2:1 Condorset ordering: <a,b,c> Borda (1770) Member of French Academy of Sciences. Noted for work in hydraulics, optics, navigation instrument. Purpose: Reforming the election procedure of French Academy.Criticize plurality method Condorcet (1785) Viewed Borda as an enemy. Finding best ordering by hypothesis testing. Switch to propose Condorcet winner CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 87 Borda Condorcet S1: <a,b,c,d,e> S2: <b,c,e,d,a> S3: <e,a,b,c,d> S4: <a,b,d,e,c> S5: <b,a,d,e,c> Borda Condorset a: = 11 a:b 3:2 b: = 9 a:c 4:1 c: = a:d 4:1 d: = 19 a:e :3:2 e: = 17 Condorset winner a Borda winner : b CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 88
45 Prurality Borda Condorcet 1st 2nd 3rd 49 votes x y z 48 votes y z x 3 votes z y x Prurality winner: x Borda winner: y Condorcet: z> x CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 89 Condorcet and Order Θεωρείστε την περίπτωση τριών υποψηφίων (a,b,c) a b c a 5 7 b 8 2 c 6 11 Έχουμε συνοψίσει τις διατάξεις που έδωσαν οι εκλέκτορες κατασκευάζοντας έναν πίνακα C, όπου το C[i,j] εκφράζει πόσες φορές το i νικά το j Μπορούμε να υπολογίσουμε τη στήριξη (support) κάθε πιθανής γραμμικής διάταξης αθροίζοντας τη στήριξη της κάθε συσχέτισής της. <a,b,c> has support 25 a>b:8, a>c:6, b>c:11 <b,c,a> has support 23 b>a:5, c>a:7, b>c:11 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 90
46 Ενοποίηση Διατάξεων (Rank Aggregation) Συναρτήσεις Απόστασης μεταξύ Διατάξεων Notations: Obj: the set of all objects t: an ordered list of a subset S of Obj (i.e. S Obj) e.g. t = [x1 > x2... > xd] where xi S t(i): the position of the element i in the ordered list t t : the number of elements in t We can say that a list t is full: if t = Obj partial: if t < Obj CS562 Yannis Tzitzikas, U. of Crete 91 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Let ta and tb be two full lists Spearman s Footrule Distance Kendall tau distance dist F Obj ( ta, tb) = ta( i) tb( i) It counts the number of pairwise disagreements between the two lists (πλήθος των διαφωνιών στη δά διάταξη ζευγαριών ) dist K ( ta, tb) = {( i, j) i < j, ta( i) < ta( j), tb( i) > tb( j)} Example Let Obj = {A,B,C,D,E}, and let ta, tb be two full lists over Obj Spearman s Footrule Distance: C dist F (ta, tb ) = = 6 Kendall tau distance: dist K (ta, tb ) = {(A,C), (B.D), (B,E), (D,E)} = 4 CS562 Yannis Tzitzikas, U. of Crete 92 i= ta A E D B tb C A B D E
47 Ενοποίηση Διατάξεων κατά Kemeny (1959) (Kemeny developed BASIC language) Kemeny Optimal Aggregation Η καλύτερη ενοποιημένη διάταξη είναι εκείνη που απέχει το λιγότερο από όλες τις διατάξεις (βάσει της απόστασης Kendall tau) Έστω n διατάξεις: r1, r2,, rn Ενοποιημένη διάταξη r = arg r min( dist K (r,ri)) We can say that Kemeny Optimal Aggregation r reconciles Borda and Condorcet methods CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 93 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Η εύρεση της βέλτιστης ενοποιημένης διάταξης (κατά Kemeny) είναι ακριβή (πρόβλημα NP-hard) Η βέλτιστη ενοποιημένη η διάταξη ως προς την footrule απόσταση είναι στο P. Let dist_k: Kendall tau distance dist_f: Spearman s Footrule Distance For any full lists ta, tb it holds: dist_k(ta,tb) dist_f(ta,tb) 2 dist_k(ta,tb) So we get a 2-approximation to Kemeny-optimality It follows that if σ is the Kemeny optimal aggregation of a set of full lists τ 1,, τ k, while σ optimizes the footrule aggregation then, dist_k(σ, τ 1,, τ k ) 2 dist_k(σ, τ 1,, τ k ) CS562 Yannis Tzitzikas, U. of Crete 94
HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση
Διαβάστε περισσότεραHΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη
Διαβάστε περισσότεραHΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση
Διαβάστε περισσότεραParallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών
Διαβάστε περισσότεραΠανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing
Διαβάστε περισσότεραΠανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα
Διαβάστε περισσότεραParallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραOther Test Constructions: Likelihood Ratio & Bayes Tests
Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :
Διαβάστε περισσότεραThe Simply Typed Lambda Calculus
Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and
Διαβάστε περισσότεραSCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions
SCHOOL OF MATHEMATICAL SCIENCES GLMA Linear Mathematics 00- Examination Solutions. (a) i. ( + 5i)( i) = (6 + 5) + (5 )i = + i. Real part is, imaginary part is. (b) ii. + 5i i ( + 5i)( + i) = ( i)( + i)
Διαβάστε περισσότεραWeb Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 26 Διάθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Web Searching I: History and Basic Notions, Crawling II: Link
Διαβάστε περισσότεραΠροτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό
Διαβάστε περισσότεραApproximation of distance between locations on earth given by latitude and longitude
Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth
Διαβάστε περισσότεραPhysical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.
B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική
Διαβάστε περισσότεραStatistical Inference I Locally most powerful tests
Statistical Inference I Locally most powerful tests Shirsendu Mukherjee Department of Statistics, Asutosh College, Kolkata, India. shirsendu st@yahoo.co.in So far we have treated the testing of one-sided
Διαβάστε περισσότεραΠανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a
Διαβάστε περισσότεραPart A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):
CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part A Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 3 Date : 1-3- ιάρθρωση PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια
Διαβάστε περισσότεραΘα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)
Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο
Διαβάστε περισσότεραΠανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a
Διαβάστε περισσότερα4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)
Διαβάστε περισσότεραΕυρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι
Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας (Information Retrieval IR)
Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου
Διαβάστε περισσότεραΦροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:
Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ
Διαβάστε περισσότεραC.S. 430 Assignment 6, Sample Solutions
C.S. 430 Assignment 6, Sample Solutions Paul Liu November 15, 2007 Note that these are sample solutions only; in many cases there were many acceptable answers. 1 Reynolds Problem 10.1 1.1 Normal-order
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων
Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η
Διαβάστε περισσότεραReminders: linear functions
Reminders: linear functions Let U and V be vector spaces over the same field F. Definition A function f : U V is linear if for every u 1, u 2 U, f (u 1 + u 2 ) = f (u 1 ) + f (u 2 ), and for every u U
Διαβάστε περισσότεραΠρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου
Διαβάστε περισσότεραFractional Colorings and Zykov Products of graphs
Fractional Colorings and Zykov Products of graphs Who? Nichole Schimanski When? July 27, 2011 Graphs A graph, G, consists of a vertex set, V (G), and an edge set, E(G). V (G) is any finite set E(G) is
Διαβάστε περισσότεραANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?
Teko Classes IITJEE/AIEEE Maths by SUHAAG SIR, Bhopal, Ph (0755) 3 00 000 www.tekoclasses.com ANSWERSHEET (TOPIC DIFFERENTIAL CALCULUS) COLLECTION # Question Type A.Single Correct Type Q. (A) Sol least
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
Διαβάστε περισσότεραΔομές Ευρετηρίου: Διάρθρωση Διάλεξης
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and
Διαβάστε περισσότεραΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ
ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and
Διαβάστε περισσότεραBlock Ciphers Modes. Ramki Thurimella
Block Ciphers Modes Ramki Thurimella Only Encryption I.e. messages could be modified Should not assume that nonsensical messages do no harm Always must be combined with authentication 2 Padding Must be
Διαβάστε περισσότεραDISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS
DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος
Διαβάστε περισσότεραPhys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)
Phys460.nb 81 ψ n (t) is still the (same) eigenstate of H But for tdependent H. The answer is NO. 5.5.5. Solution for the tdependent Schrodinger s equation If we assume that at time t 0, the electron starts
Διαβάστε περισσότεραderivation of the Laplacian from rectangular to spherical coordinates
derivation of the Laplacian from rectangular to spherical coordinates swapnizzle 03-03- :5:43 We begin by recognizing the familiar conversion from rectangular to spherical coordinates (note that φ is used
Διαβάστε περισσότεραParallel and Distributed IR
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη η και Κατανεμημένη η ΑΠ Γιάννης
Διαβάστε περισσότεραΛύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος
Διαβάστε περισσότεραSection 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
Διαβάστε περισσότεραST5224: Advanced Statistical Theory II
ST5224: Advanced Statistical Theory II 2014/2015: Semester II Tutorial 7 1. Let X be a sample from a population P and consider testing hypotheses H 0 : P = P 0 versus H 1 : P = P 1, where P j is a known
Διαβάστε περισσότεραPartial Differential Equations in Biology The boundary element method. March 26, 2013
The boundary element method March 26, 203 Introduction and notation The problem: u = f in D R d u = ϕ in Γ D u n = g on Γ N, where D = Γ D Γ N, Γ D Γ N = (possibly, Γ D = [Neumann problem] or Γ N = [Dirichlet
Διαβάστε περισσότεραEE512: Error Control Coding
EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3
Διαβάστε περισσότεραQuery-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer
Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων
Διαβάστε περισσότεραΔομές Ευρετηρίου: Διάρθρωση Διάλεξης
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and
Διαβάστε περισσότεραΕισαγωγή στην ανάλυση συνδέσμων
Εισαγωγή στην ανάλυση συνδέσμων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μαρία Χαλκίδη Why link analysis? Why link analysis? The web is not just a collection of documents its hyperlinks are important!
Διαβάστε περισσότεραΔομές Ευρετηρίου: Διάρθρωση Διάλεξης
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηριασμός, Αποθήκευση και Οργάνωση Αρχείων Κειμένων (Indexing,
Διαβάστε περισσότεραElements of Information Theory
Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure
Διαβάστε περισσότεραw o = R 1 p. (1) R = p =. = 1
Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών ΗΥ-570: Στατιστική Επεξεργασία Σήµατος 205 ιδάσκων : Α. Μουχτάρης Τριτη Σειρά Ασκήσεων Λύσεις Ασκηση 3. 5.2 (a) From the Wiener-Hopf equation we have:
Διαβάστε περισσότεραΔομές Ευρετηρίου: Διάρθρωση Διάλεξης
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and
Διαβάστε περισσότεραEFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS
EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS Ralf Schenkel, Tom Crecelious, Mouna Kacimi, Sebastian Michel, Thomas Neumann, Josiane Xavier Parreira, Gerhard Weikum ΠΡΟΒΛΗΜΑ Εύρεση ενός αποτελεσματικού
Διαβάστε περισσότεραMatrices and Determinants
Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z
Διαβάστε περισσότεραΣυστήματα Ανάκτησης Πληροφοριών ΗΥ-463
ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009
Διαβάστε περισσότεραΕργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της
Διαβάστε περισσότεραCHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS
CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =
Διαβάστε περισσότεραΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται
Διαβάστε περισσότεραΔιαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη
Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου
Διαβάστε περισσότεραHY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems
HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη
Διαβάστε περισσότεραGemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών
Gemini,, Applications Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Εαρινό Εξάμηνο 2011-2012 Table of contents 1 Table of contents 1 2 Table of contents 1 2 3 Table of contents
Διαβάστε περισσότεραTMA4115 Matematikk 3
TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet
Διαβάστε περισσότεραPosting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το
Διαβάστε περισσότεραΔιάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας 2008-2009 1
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 Στατιστικά Κειμένου Text Statistics CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 1 Διάρθρωση Συχνότητα Εμφάνισης
Διαβάστε περισσότεραSrednicki Chapter 55
Srednicki Chapter 55 QFT Problems & Solutions A. George August 3, 03 Srednicki 55.. Use equations 55.3-55.0 and A i, A j ] = Π i, Π j ] = 0 (at equal times) to verify equations 55.-55.3. This is our third
Διαβάστε περισσότεραExample Sheet 3 Solutions
Example Sheet 3 Solutions. i Regular Sturm-Liouville. ii Singular Sturm-Liouville mixed boundary conditions. iii Not Sturm-Liouville ODE is not in Sturm-Liouville form. iv Regular Sturm-Liouville note
Διαβάστε περισσότερα2 Composition. Invertible Mappings
Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,
Διαβάστε περισσότεραω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω
0 1 2 3 4 5 6 ω ω + 1 ω + 2 ω + 3 ω + 4 ω2 ω2 + 1 ω2 + 2 ω2 + 3 ω3 ω3 + 1 ω3 + 2 ω4 ω4 + 1 ω5 ω 2 ω 2 + 1 ω 2 + 2 ω 2 + ω ω 2 + ω + 1 ω 2 + ω2 ω 2 2 ω 2 2 + 1 ω 2 2 + ω ω 2 3 ω 3 ω 3 + 1 ω 3 + ω ω 3 +
Διαβάστε περισσότεραMath 6 SL Probability Distributions Practice Test Mark Scheme
Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry
Διαβάστε περισσότεραΠαλαιότερες ασκήσεις
Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY6 - Συστήµατα Ανάκτησης Πληροφοριών Παλαιότερες ασκήσεις η Σειρά Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Άσκηση ( η σειρά ασκήσεων
Διαβάστε περισσότεραInverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- -----------------
Inverse trigonometric functions & General Solution of Trigonometric Equations. 1. Sin ( ) = a) b) c) d) Ans b. Solution : Method 1. Ans a: 17 > 1 a) is rejected. w.k.t Sin ( sin ) = d is rejected. If sin
Διαβάστε περισσότεραLecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3
Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 1 State vector space and the dual space Space of wavefunctions The space of wavefunctions is the set of all
Διαβάστε περισσότερα4.6 Autoregressive Moving Average Model ARMA(1,1)
84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή
Διαβάστε περισσότεραJesse Maassen and Mark Lundstrom Purdue University November 25, 2013
Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering
Διαβάστε περισσότεραΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems
ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Systems Πανεπιστήμιο Κρήτης, Άνοιξη Γιάννης Τζίτζικας Lecture : 1 Date : 22-2- Title : Administration εδοµένα Το Αντικείµενο του Μαθήµατος Μια συλλογή
Διαβάστε περισσότεραk A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +
Chapter 3. Fuzzy Arithmetic 3- Fuzzy arithmetic: ~Addition(+) and subtraction (-): Let A = [a and B = [b, b in R If x [a and y [b, b than x+y [a +b +b Symbolically,we write A(+)B = [a (+)[b, b = [a +b
Διαβάστε περισσότεραSCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018
Journal of rogressive Research in Mathematics(JRM) ISSN: 2395-028 SCITECH Volume 3, Issue 2 RESEARCH ORGANISATION ublished online: March 29, 208 Journal of rogressive Research in Mathematics www.scitecresearch.com/journals
Διαβάστε περισσότεραInformation Retrieval
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 10η 1 Αποτίμηση επίδοσης Μηχανών Αναζήτησης 2 Sec. 8.6 Μέτρα επίδοσης μιας μηχανής αναζήτησης Πόσο γρήγορα εκτελεί την διαδικασία
Διαβάστε περισσότεραChapter 6: Systems of Linear Differential. be continuous functions on the interval
Chapter 6: Systems of Linear Differential Equations Let a (t), a 2 (t),..., a nn (t), b (t), b 2 (t),..., b n (t) be continuous functions on the interval I. The system of n first-order differential equations
Διαβάστε περισσότεραΘέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006
ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ» ΜΕΤΑΠΤΥΧΙΑΚΗ ΙΑΤΡΙΒΗ ΤΟΥ ΕΥΘΥΜΙΟΥ ΘΕΜΕΛΗ ΤΙΤΛΟΣ Ανάλυση
Διαβάστε περισσότεραΘα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.
Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2
Διαβάστε περισσότεραMain source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1
Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 A Brief History of Sampling Research 1915 - Edmund Taylor Whittaker (1873-1956) devised a
Διαβάστε περισσότεραEPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)
EPL 603 TOPICS IN SOFTWARE ENGINEERING Lab 5: Component Adaptation Environment (COPE) Performing Static Analysis 1 Class Name: The fully qualified name of the specific class Type: The type of the class
Διαβάστε περισσότεραCongruence Classes of Invertible Matrices of Order 3 over F 2
International Journal of Algebra, Vol. 8, 24, no. 5, 239-246 HIKARI Ltd, www.m-hikari.com http://dx.doi.org/.2988/ija.24.422 Congruence Classes of Invertible Matrices of Order 3 over F 2 Ligong An and
Διαβάστε περισσότεραDEIM Forum 2014 A8-1, 606 8501 E-mail: {tsukuda,ohshima,kato,tanaka}@dl.kuis.kyoto-u.ac.jp 1 2,, 1. Google 1 Yahoo 2 Bing 3 Web Web BM25 [1] HITS [2] PageRank [3] Web 1 [4] 1http://www.google.com 2http://www.yahoo.com
Διαβάστε περισσότεραBayesian statistics. DS GA 1002 Probability and Statistics for Data Science.
Bayesian statistics DS GA 1002 Probability and Statistics for Data Science http://www.cims.nyu.edu/~cfgranda/pages/dsga1002_fall17 Carlos Fernandez-Granda Frequentist vs Bayesian statistics In frequentist
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #14 Αναζήτηση στο Web Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης
Διαβάστε περισσότεραΑνάκτηση πληροφορίας
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 2: Μέτρηση Αποτελεσματικότητας Συστημάτων Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό
Διαβάστε περισσότεραCMOS Technology for Computer Architects
CMOS Technology for Computer Architects Iakovos Mavroidis Giorgos Passas Manolis Katevenis Lecture 13: On chip SRAM Technology FORTH ICS / EURECCA & UoC GREECE ABC A A E F A BCDAECF A AB C DE ABCDAECF
Διαβάστε περισσότεραHomework 3 Solutions
Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For
Διαβάστε περισσότεραA Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks
P2P 1,a) 1 1 1 P2P P2P P2P P2P A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks NARISHIGE Yuki 1,a) ABE Kota 1 ISHIBASHI Hayato 1 MATSUURA Toshio 1
Διαβάστε περισσότερα