Information Integration from the

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Information Integration from the"

Transcript

1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Ενότητα Information Integration from the Information Retrieval (IR) perspective Διδάσκων: Γιάννης Τζίτζικας Στόχοι αυτής της ενότητας Να δούμε πως το πρόβλημα της ενοποίησης και της διαχείρισης μεγάλων όγκων πληροφοριών προσεγγίζεται στο χώρο της ανάκτησης πληροφοριών και ιστοαναζήτησης Να δούμε διάφορες τεχνικές που έχουν επιτυχημένα εφαρμοστεί εκεί. Αργότερα (σε επόμενα μαθήματα) ) θα δούμε πως κάποιες από αυτές μπορούν εφαρμοστούν σε βάσεις δεδομένων Να καλύψουμε κάποιες βασικές γνώσεις από το χώρο της ανάκτησης πληροφοριών (για όσους δεν έχουν παρακολουθήσει το μάθημα ΗΥ463) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 2

2 Outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 3 Information Retrieval and Information Integration A general note From its nature IR deals with uncontrolled collections of documents and aims at providing uniform word-based access and retrieval services Key point The problem of integration (e.g. of the various documents) and the provision of useful retrieval services is approached by defining best match retrieval models. So the key notion here is ranking. Apart from that, several topics in the context of distributed IR (e.g. source selection, result aggregation) are related to the information integration problem. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 4

3 The Information Retrieval Approach an extremely brief introduction for more refer to CS463 (http://www.csd.uoc.gr/~hy463) hy463) Information Retrieval (IR) in brief outline Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 6

4 Information Retrieval Basic Processes Documents indexing language query formulation Information need indexing process process d1 q Preprocessing (text operations) stemming stopwords weighting scheme Some Cases (regarding the indexing language): full text without stop words stems without positions doc = set of words doc = bag of words => weights structure preprocessing query language operators query expansion presentation of results user feedback (e.g. relevance feedback) exploration of results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 7 Information Retrieval Basic Processes and Related Components & Artifacts CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 8

5 Information Retrieval Basic Processes and Related Components & Artifacts Source: Arasu et. al.: Searching the Web. ACM Trans. Internet Techn, 2001 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 9 Information Retrieval The Retrieval Process From the User Side Web Searching today state-less user submits a free text query A ranked set of hits (pages, docs, etc) are computed They are presented linearly [user not satisfied] Exploratory Web Searching session-based user submits a free text query A ranked set of hits (pages, docs, etc) are computed Τheir static metadata are loaded Active Dimensions and zoom points are computed and ranked (based on preferences) The hits, the dimensions and the zoom points are visualized The user explores (restricts) the information space by selecting zoom (in/out/side) id points, expressing preferences and by synthesizing various views [user not finished exploration] [user not satisfied] Recall Faceted Dynamic Taxonomies CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 10

6 Information Retrieval The Retrieval Process From the User Side> Exploratory Web Searching Dimension based on dynamic metadata extracted from the top-k resources Dimensions based on static metadata CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 11 Information Retrieval Retrieval Models Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {1,0}), ή συνεχής (π.χ. [0,1]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που μπορεί να έχει ένας χρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους D: παράσταση εγγράφων D={ F(d) d D} Q: παράσταση επερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: DxQ [True/False] συνεχής R: D x Q [0,1] CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 12

7 Information Retrieval Retrieval Models indexing language Objective: Define how relevance is defined, i.e. Relevance(d1,q)=? d1 q Web-based based Ranking (link analysis-based ranking) Extended Boolean Fuzzy Some Retrieval Models for Texts Belief Network Inference Network Boolean Neural Network Vector Space Probabilistic more expressive less expressive PageRank HITS Salsa Collaborative-based Ranking Recommendation Algorithms CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 13 Information Retrieval Some Classical Retrieval Models Retrieval: Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14

8 Information Retrieval Retrieval Models: Exact vs. Best Match Exact-match (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Best-match (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι αώφλ(στο οβαθμό συνάφειας) άφεας) μπορούμε να ελέγξουμε ε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης E.g., best-match query language that incorporates exact-match operators CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 Information Retrieval TF*IDF Weighting Scheme Έστω όρος ki και έγγραφο dj freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j tf ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j df i = document frequency of term i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse document frequency of term i := log 2 (N/ df i ) όπου N το συνολικό πλήθος εγγράφων Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ο λογάριθμος ελαφραίνει το βάρος του idf σε σχέση με το tf CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 16

9 Information Retrieval TF*IDF Weighting Scheme Η λογική δομή ενός ευρετηρίου k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w ij = tf ij idf i = tf ij log 2 (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το tf-idf δουλεύει πολύ καλά στην πράξη. CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 17 Information Retrieval Retrieval Models: The Vector Space Model (VSM) K={k 1,,k t} : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου w ij = tf ij idf i = tf ij log 2 (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(w 1,q,,w t,q ) όπου w iq = tf iq idf i = tf iq log 2 (N/ df i ) R(d j,q) = r d r d j j r r q q = i = 1 t t ( w w ij ij 2 w t i = 1 i = 1 iq w ) iq 2 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 18

10 Information Retrieval Retrieval Models> Okapi BM25 Sim 25 (d,q) idf(t) = tf d,tt k = 1.2 b = d : BM : length of N df(t) term (as = we frequency d (in terms) avgdl :average document length t(x) : termsof x t t(q) tf d,t (k + 1) idf(t) d tf d,t + k (1 b + b ) avgdl defined (as we it previously defined ) it previously ) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 19 Information Retrieval Retrieval Models for the Web Αξιοποιούν τη δομή του Ιστού (συγκεκριμένα τους συνδέσμους) Γράφος του Ιστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο G=(V,E) Διαγράφουμε τους κυκλικούς συνδέσμους (αυτοσυνδέσμους self-hyperlinks) Οι πολλαπλοί σύνδεσμοι (από μια σελίδα p σε μια q) καταπίπτουν σε έναν σύνδεσμο (p,q) in E CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 20

11 Information Retrieval Retrieval Models for the Web HITS (Hyperlink-Induced Topic Search) Αλγόριθμος που προτάθηκε από τον Kleinberg το Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριμένο θέμα (topic), αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής (αμοιβαίως οριζόμενες και αναδρομικές) προτάσεις: Hubs point to lots of authorities. Authorities are pointed to by lots of hubs. Hubs Authorities Hubs and Authorities tend to form a bipartite graph (nodes can be partitioned into 2 groups such that there are no links between the nodes of the same group): CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 21 Information Retrieval Retrieval Models for the Web HITS>Authorities and Hubs Authorities are pages that are recognized as providing significant, trustworthy, and useful informationonatopic on a topic. Α simple measure of authority could be in(p) However in-degree treats all links as equal. Should links from pages that are themselves authoritative count more? Hubs are index pages that provide lots of useful links to relevant content pages (topic authorities). Παραδείγματα Hub pages για ανάκτηση πληροφοριών: u.ac.jp/member/kita/nlp/ir.html Α simple measure for identifying hubs could be out(p) in(a) A out(a) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22

12 Information Retrieval Retrieval Models for the Web HITS> First steps of the algorithm Εντοπίζει τα hubs και τα authorities για ένα συγκεκριμένο θέμα (topic) που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση (base set) Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και authorities. S R R = ans(q) ( { out( p) p R} ) ( { in( p) p }) S : = R R CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 Information Retrieval Retrieval Models for the Web HITS> Iterative Algorithm Use an iterative algorithm to slowly converge on a mutually reinforcing set of hubs and authorities. Maintain i for each page p S: Authority score: a(p) (vector a) Hub score: h(p) (vector h) Initialize all a(p)=h(p) = 1 Maintain normalized scores: p S a( p) 2 = 1 p S h( p) 2 = 1 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24

13 Information Retrieval Retrieval Models for the Web HITS> Update Rules Authorities are pointed to by lots of good hubs: a ( p ) = h ( q ) q in( p) Hubs point to lots of good authorities: a(4) = h(1) + h(2) + h(3) h( p) = a( q) q out( p) h(4) = a(5) + a(6) + a(7) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 Information Retrieval Retrieval Models for the Web HITS> The algorithm Initialize for all p S: a(p)=h(p) = 1 For i = 1 to k: For all p S: For all p S: a( p) = (update auth. scores) q in( ( p ) h( q) (update hub scores) h ( p ) = a ( q ) q out( p) For all p S: a(p)=a(p)/c 2 (normalize a) c = For all p S: a( p) p S h(p)= h(p)/c c: 2 c = h h ( p ) (normalizel h) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 26

14 Information Retrieval Retrieval Models for the Web HITS> Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο (fixpoint). Define A to be the adjacency matrix for the subgraph defined by S. A ij = 1 for i S, j S iff i j Authority vector, a, converges to the principal eigenvector of A T A Hub vector, h, converges to the principal i eigenvector of AA T Στην πράξη, 20 επαναλήψεις συνήθως επαρκούν. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 27 Information Retrieval Retrieval Models for the Web PageRank Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google (Brin & Page, 1998). Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους (authority). Εφαρμόζεται σε όλες τις σελίδες του ιστού (δεν περιορίζεται ρζ στη γειτονιά των σελίδων της απάντησης μιας επερώτησης) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 28

15 Information Retrieval Retrieval Models for the Web PageRank: Η αρχική έκδοση Μπορούμε να εκλάβουμε τη βαθμολόγηση ως μια διαδικασία ροής «κύρους». Η ροή γίνεται μέσω των συνδέσμων (και έχει την ίδια κατεύθυνση με αυτούς) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 29 Information Retrieval Retrieval Models for the Web PageRank: Example of Fixpoint CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 30

16 Information Retrieval Retrieval Models for the Web PageRank: Random Surfer Model (Μοντέλο Τυχαίου Περιηγητή) Ο PageRank μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» (random surfer) ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν με πιθανότητα Ε(p) κάνει ένα άλμα σε μια τυχαία σελίδα, αλλιώς (με πιθανότητα 1-E(p)) επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το R(p) εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή Σημείωση: Τα τυχαία άλματα αποτρέπουν την «παγίδευση» του περιηγητή σε καταβόθρες ή σε σελίδες που δεν έχουν εξερχόμενους συνδέσμους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 31 Information Retrieval Retrieval Models for the Web PageRank: The Algorithm Let S be the total set of pages. Let p S: p E(p) = α/ S (for some 0<α<1,, e.g. 0.15) ) Initialize p S: R(p) = 1/ S Until ranks do not change (much) (convergence) g For each p S: R( q) R ( p ) = + E ( p ) out ( q) q in( p) For each p S: R(p) ) = R (p)/c (normalize) c = R ( p) p S CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 32

17 Information Retrieval Retrieval Models for the Web PageRank: Speed of Convergence Early experiments on Google used 322 million links. PageRank algorithm converged (within small tolerance) in about 52 iterations. ti Number of iterations required for convergence is empirically O(log n) (where n is the number of links). Therefore calculation is quite efficient. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 33 Information Retrieval Retrieval Models for the Web Personalized PageRank Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PageRank, τροποποιώντας κατάλληλα το Ε (ώστε να μην περιγράφει μια ομοιόμορφη κατανομή) Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» α σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν p=www.csd.uoc.gr/~hy463 τότε Ε(p)=α αλλιώς E(p)=0 // ευνοεί τις ιστοσελίδες που είναι κοντά (στο γράφο) στην ιστοσελίδα // του μαθήματος ΗΥ463 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 34

18 Information Retrieval Retrieval Models and Web Search Engines In practice complex retrieval models are used which combine several sources of evidence (topic relevance, PageRank, query logs, etc). A hybrid retrieval model that t combines relevance with query-independent d scores can have the form: Score(d,q) = a g(d) + (1 a) Sim(d,q) 0 a 1 Query-independent d score (e.g. PageRank score) Scoring function of a best match retrieval model CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 35 Databases Information Retrieval Retrieval Models > (Effectiveness) Evaluation Procedure Πρόβλημα: Πως μπορούμε να κρίνουμε αν μια συνάρτηση βαθμολόγησης (γενικά ένα retrieval model) είναι καλύτερη από μια άλλη; Τρόπος: 1) Επέλεξε ένα συγκεκριμένο σύνολο εγγράφων C (κατά προτίμηση του ίδιου γνωστικού πεδίου). 2) Διατύπωσε ένα σύνολο επερωτήσεων για αυτά Q 3) Βρες έναν ή περισσότερους ειδικούς (experts) του γνωστικού πεδίου, και βάλε τους να μαρκάρουν τα συναφή έγγραφα για κάθε ερώτηση Συνήθως, οι κρίσεις τους είναι (Συναφές, Μη-Συναφές).Αρα το αποτέλεσμα της διαδικασίας δ αυτής είναι ένα σύνολο από πλειάδες της μορφής: (c,q,relevant) ή (c,q,irrelevant), όπου c C, q Q. 4) Χρησιμοποίησε αυτή τη συλλογή για την αξιολόγηση της αποτελεσματικότητας ενός ΣΑΠ (Συστήματος Ανάκτησης Πληροφοριών) Βάζουμε το ΣΑΠ να ευρετηριάσει τη συλλογή C, κατόπιν του στέλνουμε επερωτήσεις από το Q και αξιολογούμε τις αποκρίσεις του βάσει των κρίσεων που έχουν κάνει ήδη οι ειδικοί. Δυσκολίες: Η παραπάνω μέθοδος απαιτεί μεγάλη ανθρώπινη προσπάθεια για μεγάλες συλλογές εγγράφων/επερωτήσεων. TREC CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 36

19 Information Retrieval Retrieval Models > Evaluation Measures Effectiveness Evaluation Assumes an evaluation collection Some retrieval effectiveness Measures Precision Recall F-Measure (and E-Measure) Fallout Precision-Recall Curves R-Precision i and Histograms Expected Search Length... User Oriented Measures Novelty Ratio Coverage Ratio User Effort Efficiency Response Time Storage Space Requirements (main memory, disk space) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 37 Information Retrieval Retrieval Models > Evaluation Measures Συλλογή εγγράφων Ε Σ Σ: Συναφή (με το ερώτημα q) (μας τα έχουν δώσει οι ειδικοί) Ε Σ Ακρίβεια = Ε P(recision) Ε: Ευρεθέντα (από το υπό αξιολόγηση σύστημα ανάκτησης πληροφοριών) Ε Σ Ανάκληση = Σ R(ecall) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 38

20 Information Retrieval Retrieval Models > Evaluation Measures> Single-valued (they ignore order) F-Measure Μέτρο που λαμβάνει υπόψη την Ακρίβεια και την Ανάκληση. Είναι το αρμονικό μέσο (harmonic mean) της ανάκλησης και ακρίβειας. Δίνει υψηλό βαθμό εάν και τα δύο έχουν υψηλή τιμή. 2PR 2 F = = 1 P + R 1 + Ε-Measure Παραλλαγή του F measure που μας επιτρέπει να δώσουμε περισσότερη έμφαση (βάρος) στην ακρίβεια. Η τιμή του β ρυθμίζει το trade-off. R P E = 2 2 ( 1 + β ) PR (1 + β ) = 2 2 β 1 β P + R + R P CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 39 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Έστω Συναφή =6 n doc # relevant Recall Precision x R=1/6=0.167; P=1/1= x R=2/6=0.333; P=2/2= x R=3/6=0.5; P=3/4= x R=4/6=0.667; P=4/6= Missing one relevant document Never reach x R=5/6=0.833; P=5/13= % recall Pre ecision Recall CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 40

21 Information Retrieval Retrieval Models > Evaluation Measures> PR-Curves Precision 1.0 Interpolating ti a Recall/Precision i Curve real interpolated 0.8 R=0.167; P=1 R=0.333; P=1 0.6 R=0.5; P= R=0.667; P=0.667 R= ; P= Recall Σημείωση: Από τα 5 ζεύγη (Ρ,R) που είχαμε ε πήγαμε σα11 στα CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 41 Information Retrieval Retrieval Models > Evaluation Measures R-Precision: Η ακρίβεια στην R θέση της διάταξης της απάντησης μιας επερώτησης που έχει R (στο πλήθος) συναφή έγγραφα n doc # relevant x x x x x R = # of relevant docs = x R-Precision=4/6=067 = 0.67 CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 42

22 Information Retrieval Retrieval Models > Reporting Evaluation Results CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 43 Information Retrieval Index Structures Aim: Enable efficient term-based access (i.e. fast evaluation of queries) Key Index Structures and Associated Taks Inverted files (plus algorithms for gradual index creation) Suffix trees and suffix arrays (for phrase queries) Signature files Index structures for multimedia (e.g. metric trees) Other useful (for the retrieval process) algorithms String pattern matching algorithms (including algs for Edit distance algorithms) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 44

23 Information Retrieval Index Structures> Inverted File Main Mem mory Disk Space requirement O( n) n :size of text in words Space requirement O(n) Document Collection Vocabulary Posting File cached textual d 1 word df pos (docid: tf),.. contents of docs d 2 Free games Indexing chat 1 (d Free games 3 :1) d 3 Free games free 2 (d 1 :1), (d 2 :2) Chat online games 2 (d 1 :1), (d 2 :2) Here for simplicity frequency in docs online 1 (d 3 :1) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 45 Information Retrieval The Retrieval Process (assuming Inverted Files) Query pre processing: Tokenization, case folding, stopwords elimination, stemming Vocabulary Search: Locate each query term t at the vocabulary Retrieval of occurrences: Fetch the posting list I(t) of each query term t from the posting file Manipulation of occurrences: The occurrences are processed to extract information (extracting docids, counting frequencies) A scoring function assigns scores to the documents as an estimate for their relevance to the query (i.e VSM, Okapi BM25) The documents are sorted in decreasing score order and the results are returned to the user (either all or the top K) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 46

24 Information Retrieval Index Structures> Suffix Tries (for fast evaluation of phrasal queries) This is a text. A text has many words. Words are made from letters. letters. made from letters. Words are made from letters. words. Words are made from letters. many words. Words are made from letters. text has many words. Words are made from letters. text. A text has many words. Words are made from letters. Suffix Trie l d a m n t e x t. 11 w o r d s CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 47 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) Κύρια σημεία: Δομή ευρετηρίου που βασίζεται στο hashing Μικρή χωρική επιβάρυνση (10%-20% του μεγέθους των κειμένων) Αναζήτηση = σειριακή αναζήτηση στο αρχείο υπογραφών Κατάλληλη για όχι πολύ μεγάλα κείμενα Ευρετηρίαση Χρήση hash function που αντιστοιχεί λέξεις κειμένου σε bit masks των Β bits Διαμέριση του κειμένου σε blocks των b λέξεων το καθένα Bit mask of a block = Bitwise OR of the bits masks of all words in the block Bit masks are then concatenated Αναζήτηση λέξης w: 1/ W := h(w) (we hash the word to a bit mask W) 2/ Compare W with all bit masks Bi of all text blocks If (W & Bi = W), the text block i is candidate (may contain the word w) 3/ For all candidate text blocks, perform an online traversal to verify that the word w is actually there CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48

25 Information Retrieval Index Structures> Signature Files (query evaluation through scanning) b=3 ( 3 words per block) B=6 (bit masks of 6 bits) Text Block 1 Block 2 Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Signature Files Text Signature Signature Function h(text)= h(many)= h(words)= h(made)= h(letters)= Σχεδιαστικοί στόχοι: Μείωσε την πιθανότητα εμφάνισης false drops Κράτησε το μέγεθος του αρχείου υπογραφών μικρό δεν έχουμε κανένα false drop αν b=1 και Β=log Γιατί Bitwise-OR? 2 (V) Παράμετροι: Β (το μέγεθος μγ των bit mask) L (L<B) to πλήθος των bit που είναι 1 (σε κάθε h(w)) The (space)-(false drop probability) tradeoff: 10% space overhead => 2% false drop probability 20% space overhead => 0.046% false drop probability CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 49 Information Retrieval Index Structures> For Metric Spaces Κίνητρο Ανάκτηση πολυμέσων. Εδώ δεν έχουμε λέξεις. Μπορεί όμως να έχουμε ορίσει μια συνάρτηση απόστασης και ο σκοπός μας είναι να απαντήσουμε ερωτήσεις της μορφής: βρες όλα τα αντικείμενα σε απόσταση ε από το Q βρες όλα τα τμήματα των αντικειμένων σε απόσταση ε από το Q βρες τα 5 κοντινότερα αντικείμενα στο Q Σύμπαν αντικειμένων U (πχ το σύνολο όλων των εικόνων 512x512) Συλλογή αντικειμένων C={o 1,,o N }, C U Συνάρτηση Απόστασης (ομοιότητας,..,συνάφειας) D: U x U [0,1] καθορίζεται από έναν ειδικό του πεδίου (μπορεί να υπολογίζεται από ένα πρόγραμμα) Επερώτηση: αντικείμενο Q (Q U) και ανοχή (tolerance) ε Απάντηση επερώτησης:ans(q, ε)={ o C D(o,Q) ε } Σκοπός: Γρήγορος υπολογισμός του ans(q, ε) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 50

26 Information Retrieval Index Structures> For Metric Spaces Μία προσέγγιση είναι να χρησιμοποιήσουμε features (feature-based multimedia indexing and retrieval). Μία άλλη είναι να χρησιμοποιήσουμε τεχνικές ευρετηρίασης που εφαρμόζονται κατευθείαν στις αποστάσεις (άρα παρακάμπτουμε την ανάγκη επιλογής features) Η γενική ιδέα Υπολογίζουμε τις αποστάσεις μεταξύ των αντικειμένων (όχι κατά ανάγκη μεταξύ όλων) μια φορά, φτιάχνουμε μια κατάλληλη δομή δεδομένων, και εν συνεχεία την αξιοποιούμε κατά την αποτίμηση των επερωτήσεων (για να μειώσουμε το πλήθος των αποστάσεων που απαιτείται να υπολογίσουμε εκείνη την ώρα) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 51 Information Retrieval Index Structures> Metric Trees (Α) tree indexes for discrete distance functions, i.e. for functions that deliver a small set of values Burkhard-Keller Tree (BKT) [Buthard et al 73] Fixed Query Tree (FQT) [Baeza-Yates 94] (Β) tree indexes for continuous distance functions i.e. for functions where the set of alternatives is infinite or very large Vantage Point-Trees (VTPs) Multi-Vantage-Point trees (MVTs) Voronoi Trees (VTs) M-trees (MT). (C) not tree-based indexes. AESA (Approximating Eliminating Search Algorithm) LAESA (for linear AESA). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 52

27 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Είναι δυαδικά δένδρα Τρόπος κατασκευής Επιλέγουμε ένα στοιχείο κεντρικό (pivot). Υπολογίζουμε τον μέσο όρο Μ των αποστάσεων από αυτό το σημείο Τα στοιχεία με απόσταση μικρότερη ή ίση του Μ εισάγονται στο αριστερό υποδένδρο, ενώ τα υπόλοιπα στο δεξί Συνεχίζουμε αναδρομικά Τρόπος αναζήτησης. Έστω επερώτηση (Q,ε) 1/ Μετράμε την απόσταση του Q από το pivot p, δηλαδή d(q,p) 2/ Αν d(q,p)-ε <= Μ πάμε στο αριστερό υποδέντρο. Αν d(q,p) +ε > Μ πάμε στο δεξί υποδέντρο (ενδέχεται να μπούμε και στα δύο υποδένδρα) 3/ Επιστρέφουμε τα στοιχεία που έχουν απόσταση <= ε από το Q 2.9 u7 u >3.1 >2.9 u9 4 >4 u15 u6 u8 u3 >2.5 u14 u4 u10 u1 u13 u2 u12 u (η ορθότητα εξασφαλίζεται από τις ιδιότητες των μετρικών συναρτήσεων) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 53 Information Retrieval Index Structures> Metric Trees > Vantage-Point-Trees (VTPs) Επιδόσεις Χώρος: O(n) Χρόνος κατασκευής: απαιτούνται O(n logn) ) υπολογισμοί αποστάσεων (διότι (δό το δέντρο είναι ισοζυγισμένο) Κόστος αναζήτησης: O (log n) υπολογισμοί απόστασης αν το ε είναι σχετικά μικρό Αλλες τεχνικές (για μετρικούς χώρους) AESA(Approximating i Eliminating i Search Algorithm) Βασίζεται σε έναν πίνακα με n(n-1)/2 προϋπολογισμένες αποστάσεις, άρα καταλαμβάνει χώρο O(n 2 ). Όμως οι πειραματικά μετρούμενοι χρόνοι αναζήτησης είναι πολύ καλοί O(1). CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 54

28 Information Integration from the IR Perspective CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 55 Information Integration from the IR Perspective Information Retrieval and Information Integration A general note Information Retrieval (IR) in brief The Basic Processes (Indexing, Retrieval) Ranking Methods (Retrieval Models) Index Structures Aspects of Information Integration and IR Over one corpus of documents Over distributed copri (or systems): Distributed Information Retrieval The Basic Processes and Key Tasks CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 56

29 Information Integration from the IR Perspective Aspects One corpus of documents (i.e. one system) We have already explained how preprocessing (e.g. stemming) as well the weighting (e.g. IDF) allow a system to be less vulnerable to the morphological variations of words and to distinguish words with high discrimination power. Several Corpi of Documents (or several IR systems in general, e.g. Meta Search Web Engines) Basic Processes Source Selection Query Translation Forwarding Result Aggregation Presentation of Results Meta-Web Search Engines CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 57 Integration from the DB world and the IR world The web search engines approach (crawling, link analysis, log analysis, etc) The meta-search approach CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 58

30 Virtual Integration in the IR World Apart from its application for the Web, this approach is also useful for tackling the Hidden Web Visible Web: Information can be copied (crawled) and accessed by conventional search engines like Google or AltaVista Hidden Web: Information hidden from conventional engines. - No arbitrary crawl of the data (e.g., ACM library) Can NOT - Updated too frequently to be crawled (e.g., buy.com) Index (promptly) - Larger than Visible Web (2-50 times) Searched by - Created by yprofessionals Valuable Federated Search Federated Search is a feature used to beat Google by search engines like - Web: Uncooperative information sources CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 59 Aspects of Information Integration Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning Increased Volumes of Data Mining Advanced Ranking (best match queries) Customizable Ranking (preferences) Efficient Computation of Top-K Answer Exploration/Visualization/Clustering li i /Cl i (to support decision making) requires results to Artifacts Tasks Extra Sources Workloads Social Perspective... that can be used

31 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) query Information Integration Source Description Source Selection Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 61 Information Integration from the IR Perspective Distributed Information Retrieval (DIR) answer Information Integration Source Description Source Selection ans1 ans2 ans3 ans4 ans5 Query Rewriting Fusion, Cleaning IRS1 IRS2 IRS3 IRS4 IRS5 UofCrete UofAthens UofPatras CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 62

32 Information Integration from the IR Perspective DIR > Source Selection Σκοπός Η επιλογή των υποκείμενων πηγών στις οποίες θα προωθηθεί η επερώτηση Κίνητρο Η αναζήτηση σε κάθε συλλογή (ήτοι σε όλες τις υποκείμενες πηγές) μπορεί: να είναι ακριβή σε χρόνο (αφού μπορεί να έχουμε εκατοντάδες συλλογές) να είναι ακριβή σε χρήμα (η αναζήτηση μπορεί να έχει χρηματικό κόστος) να καθορίσει την αποτελεσματικότητα (effectiveness) της ανάκτησης Μερικές Προσεγγίσεις Επιλογή Όλων (των υποκείμενων πηγών) ) Επιλογή από το Χρήστη Χειρονακτική Ομαδοποίηση και Επιλογή Πηγών Επιλογή Πηγής βάσει Κανόνων (Rule-based) Επιλογή Πηγής βάσει κατανομής συναφών εγγράφων (Relevant Document Distribution (RDD)) Επιλογή Πηγής με Επερώτηση Βολιδοσκόπησης λδ Επιλογή Πηγής με Διανύσματα Πηγών CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 63 Information Integration from the IR Perspective DIR > Source Selection Επιλογή Όλων (κανένας περιορισμός) Επιλογή από το χρήση (π.χ. στις μεταμηχανές αναζήτησης) Θεματική οργάνωση συλλογών (χειρονακτική) Οργανώνουμε τις υποκείμενες πηγές/συστήματα θεματικά πχ μαθηματικά, φυσική, ειδήσεις, κλπ Ο χρήστης επιλέγει τη θεματική κατηγορία και ανάλογα προωθείται η επερώτηση προβλήματα χρονοβόρα διαδικασία, ευάλωτη σε ασυνέπειες/παραλείψεις, δεν θα δουλέψει καλά για μη-συνηθισμένες επερωτήσεις Επιλογή βάσει Κανόνων Τα περιεχόμενα κάθε συλλογής περιγράφονται σε μια Βάση Γνώσης. Ένα Σύστημα Κανόνων επιλέγει τις πηγές για κάθε εισερχόμενη επερώτηση. Αδυναμίες: κόστος συγγραφής κανόνων και ανάγκη συντήρησης των κανόνων (αν οι συλλογές είναι δυναμικές) CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 64

33 Information Integration from the IR Perspective DIR > Source Selection Κατανομή Συναφών Εγγράφων (Relevant Document Distribution (RDD)) Γενική ιδέα: Φτιάξε μια βάση με επερωτήσεις και την πιθανή κατανομή των συναφών εγγράφων σε κάθε συλλογή (με κάποιο τρόπο) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 65 Information Integration from the IR Perspective DIR > Source Selection Για κάθε νέα επερώτηση q που λαμβάνει το σύστημα Βρίσκουμε τις κ πιο κοντινές επερωτήσεις στη βάση (similar past queries) Από τις κατανομές τους, εκτιμούμε πόσα συναφή έγγραφα με την νέα επερώτηση έχει κάθε πηγή Αποφασίζουμε πόσα έγγραφα να ζητήσουμε από κάθε συλλογή (αν 0 δεν στέλνουμε επερώτηση ) q1 q2 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 KB q3 S1 S2 S3 S4 S5 IRS1 IRS2 IRS3 IRS4 IRS5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 66

34 Information Integration from the IR Perspective DIR > Source Selection Επερώτηση Βολιδοσκόπησης (Query Probing) Στέλνουμε μια επερώτηση βολιδοσκόπησης σε κάθε συλλογή (που μπορεί να περιλαμβάνει μερικούς από τους όρους της επερώτησης) κάθε συλλογή απαντά με στατιστικές πληροφορίες πχ: μέγεθος συλλογής, πόσα έγγραφα έχουν τον κάθε όρο, πόσα έγγραφα έχουν όλους τους όρους της επερώτησης, κλπ βάσει αυτών των στοιχείων επιλέγουμε την πηγή Υποθέσεις η επεξεργασία των επερωτήσεων βολιδοσκόπησης είναι πολύ φθηνότερη περιέχουν λίγους όρους, δεν χρειάζεται να υπολογίσουμε βαθμούς συνάφειας ή να διατάξουμε τα έγγραφα ως προς τη συνάφεια τους CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 67 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors (Διανύσματα Πηγών) IRS1=<0.4, 0.3,, 0.8> IRS2=<0.1, 0.9,, 0.4> IRS3=<0 <0.8, 0.5,, 0.2> IRS1 IRS2 IRS3 IRS4 IRS5 Βλέπουμε κάθε συλλογή ως ένα μεγάλο έγγραφο Φτιάχνουμε ένα δά διάνυσμα για κάθε συλλογή (τύπου ύ TF-IDF) με τις εξής διαφορές: tfij: j συνολικές εμφανίσεις του όρου i στη συλλογή j idfi: log(n/ni), όπου Ν το πλήθος των συλλογών, και ni το πλήθος των συλλογών που έχουν τον όρο i CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 68

35 Information Integration from the IR Perspective DIR > Source Selection> Source Vectors Τρόπος Επιλογής Πηγής Με την έλευση μιας επερώτηση q στη μεταμηχανή υπολογίζουμε το βαθμό ομοιότητας με το διάνυσμα κάθε συλλογής (π.χ. χ ομοιότητα συνημίτονου) Διατάσσουμε τις συλλογές (βάσει των παραπάνω βαθμών) και επιλέγουμε τις κορυφαίες Μια αδυναμία: Μπορεί ο βαθμός ομοιότητας με μία συλλογή να είναι μεγάλος, αλλά να μην υπάρχει κανένα έγγραφο εκεί με μεγάλο βαθμό συνάφειας Ένας τρόπος αντιμετώπισης: Για κάθε συλλογή φτιάξε Ν/Β διανύσματα, δηλαδή ένα διάνυσμα για κάθε Β έγγραφα της συλλογής (αντί για μόνο 1) Αν Β=11 τότε ο server είναι σαν να έχει το ευρετήριο όλων των συστημάτων Αν Β=Ν τότε έχουμε ένα διάνυσμα για κάθε συλλογή CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 69 Result Aggregation CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 70

36 Information Integration from the IR Perspective DIR > Result Aggregation Σκοπός Συγκρότηση της τελικής απάντησης από τις απαντήσεις που έδωσαν οι πηγές στις οποίες προωθήθηκε η επερώτηση Γενικές Κατηγορίες Τεχνικών Συγκρότησης answer =? ans1 ans2 ans3 ans4 ans5 Ολοκληρωμένες (Integrated) Απομονωμένες (Isolated) IRS1 IRS2 IRS3 IRS4 IRS5 Μερικά Σχόλια Αν οι απαντήσεις είναι σύνολα (άρα όχι διατάξεις) τότε το πρόβλημα είναι πιο εύκολο. Αν όμως οι απαντήσεις είναι διατεταγμένες (αποτέλεσμα χρήσης μοντέλων βέλτιστου ταιριάσματος) τότε η ενοποίηση αποτελεσμάτων είναι πιο δύσκολη αφού οι διατάξεις/σκορ δεν είναι πάντα συγκρίσημες (αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). Συχνά μας αρκεί η εύρεση των κορυφαίων στοιχείων της ενοποιημένης διάταξης CS Motivation for Ranking in Databases Yannis Tzitzikas, U. of Crete 71 Κατηγορίες Στρατηγικών Ενοποίησης Διατάξεων (A) Ολοκληρωμένες Τεχνικές (Integrated) Οι πηγές παρέχουν επιπρόσθετη πληροφορία που χρησιμοποιείται κατά την ενοποίηση Αδυναμίες: Μπορούμε να πούμε ότι έχουν στενότερο πεδίο εφαρμογής - απαιτούν συμφωνία μεταξύ των πηγών (e.g. protocol). Επίσης συχνά λαμβάνουν υπόψη τους μέτρα όπως Precision/Recall, τα οποία δεν είναι πάντα «αντικειμενικά» ή συγκρίσιμα. (B) Απομονωμένες Μέθοδοι (Isolated) Δεν απαιτούν καμία επιπλέον πληροφορία από τις πηγές (άρα μπορούν να εφαρμοστούν και στις μετα-μηχανές αναζήτησης) Είναι ανεξάρτητες των τεχνικών ευρετηρίασης και των μοντέλων ανάκτησης των υποκείμενων συστημάτων, άρα κατάλληλες για δυναμικά περιβάλλοντα όπου υπάρχουν πολλά συστήματα των οποίων η λειτουργία εξελίσσεται συχνά και απρόβλεπτα Σχετικές τεχνικές: round robin interleaving, score-based, Rank Aggregation Methods (Borda, Condorcet), download d and re-index the contents of the objects CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 72

37 DIR > Result Aggregation Round Robin interleaving & Score-based Round Robin Interleaving (δηλαδή merge sort) // isolated Παράδειγμα: ans1(q) = <d10,d2, d30, d7> ans2(q) = <d4, d12, d5, d9> ANS(q) = < {d10,d4}, {d2,d12}, {d30,d5}, {d7,d9}> Προβλήματα στην πραγματικότητα όλα τα έγγραφα του ans1(q) μπορεί να είναι καλύτερα (πιο συναφή) από το 1ο στοιχείο της ans2(q) Score-based Παράδειγμα: ans1(q) = < (d3,0.8), (d2,0.7) > ans2(q) = < (d5,0.6), (d6,0.3) > ans3(q) = < (d4,0.9) > ANS(q) = < d4, d3, d2, d5, d6> Προβλήματα τα σκορ διαφορετικών συστημάτων δεν είναι συγκρίσιμα (κανονικοποιημένα), αφού εξαρτώνται από τα στατιστικά της συλλογής του κάθε συστήματος (e.g. idf). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 73 DIR > Result Aggregation Weighted Score-based Weighted Score-based Λαμβάνουμε υπόψη το σκορ της πηγής που υπολογίσαμε όταν κάναμε Επιλογή Πηγής (source selection) Πχ Score(IRS1) = 0.9 // υπολογίστηκε στη φάση επιλογής πηγής Score(IRS2) = 0.5 // υπολογίστηκε στη φάση επιλογής πηγής ans1(q) = <(d1, 0.7)> ans2(q) = <(d2, 0.9)> ANS(q) = < (d1, 0.63), (d2, 0.45)> // 0.63 = 0.9*0.7 Εδώ πολλαπλασιάσαμε το σκορ της πηγής με το σκορ των εγγράφων. Υπάρχουν και άλλες παραλλαγές (π.χ. [Callan94,95]) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 74

38 DIR > Result Aggregation Downlοad and re-index/re-score (isolated) Downlοad and re-index/re-score Εδώ ανακτούμε τα έγγραφα των απαντήσεων κάθε πηγής, τα επαναευρετηριάζουμε και επαναυπολογίζουμε το βαθμό συνάφειας τους Μειονέκτημα Χρονοβόρα διαδικασία ans1 ans2 IRS1 Vector Space Model IRS4 Extended Boolean Model CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 75 DIR > Result Aggregation Global term statistics (integrated) Μπορούμε να κάνουμε συγκρίσιμα τα σκορ διαφορετικών συστημάτων αν επιβάλουμε τα ίδια στατιστικά στοιχεία σε όλα τα συστήματα (global statistics) Τα στατιστικά αυτά στοιχεία μπορούν να αποκτηθούν στη φάση της επιλογής πηγής (πχ χ Διανύσματα Πηγής, Probe Queries, ) Αποτίμηση Επερωτήσεων σε 2 φάσεις στην 1η συλλέγονται τα στατιστικά (o server στέλνει την επερώτηση και οι πηγές απαντούν με τα στατιστικά των όρων που περιέχονται στην επερώτηση) στην 2η ο server στέλνει σε κάθε πηγή την επερώτηση μαζί με τα καθολικά στατιστικά των όρων της κάθε πηγή αποτιμά την επερώτηση με τα καθολικά στατιστικά και επιστρέφει την απάντηση η Ο server λαμβάνει έτοιμα σκορ και απλά τα ενοποιεί (merge sort) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 76

39 (cont) q= Hotels Crete idf(hotels)= log(2000/400) idf(crete)= log(2000/105) ans = score-based merging of ans1 ans2 ans1 ans2 S1 S2 S1 S2 S1 S2 S1 S2 N1 = 1000 N2 = 1000 N1Hotels = 300 N2Hotels = 100 N1Crete = 100 N2Crete = 5 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 77 Rank kaggregation Συνάθροιση Διατάξεων (no scores are available)

40 Information Integration from the IR Perspective Rank Aggregation > Outline Το πρόβλημα και διάφορες εφαρμογές του Τρόποι Συνάθροισης Διατάξεων Plurality Borda Condorcet Kemeny Επιθυμητές Ιδιότητες Τεχνικών Συνάθροισης Διατάξεων Το Θεώρημα του Ανέφικτου του Arrow Παραδείγματα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 79 Ενοποίηση Διατάξεων: Rank Aggregation (or Meta-Ranking) Διατύπωση του Προβλήματος D: ένα σύνολο αντικειμένων (π.χ. εγγράφων, πλειάδων,..) S1, Sk: Sk ένα σύνολο (γραμμικών) ώ διατάξεων του D (άρα εδώ δεν έχουμε σκορ) ) Σκοπός: Εφαρμογές Ενοποίηση των διατάξεων S1,..Sk σε μία Ενοποίηση αποτελεσμάτων σε μεσολαβητές (mediators) και μεταμηχανές αναζήτησης (meta search engines), καθώς και αρκετές άλλες, π.χ. συγκρότηση ιδανικής διάταξης για αξιολόγηση αυτόματων τεχνικών διαβάθμισης Α possible metaphor: elections Objects Candidates Sources Electors Ordering by a system Elector s voting ticket Fused ordering Election list CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 80

41 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία) O υποψήφιος με τις περισσότερες πρώτες θέσεις είναι ο νικητής. Έστω 6 πηγές (S1,,S6) και 4 σελίδες a,b,c,d. Κάθε σύστημα επιστρέφει μια γραμμική διάταξη των σελίδων: S1: <a,c,d,b> S2: <a,b,c,d> S3: <b,c,a,b> S4: <b,a,d,c> S5: <a,d,c,b> S6: <c,a,b,d> Μετράμε πόσες πρώτες θέσεις κατέλαβε κάθε σελίδα a: 3 b: 2 c: 1 d: 0 Άρα η τελική κατάταξη είναι η <a,b,c,d>,, CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 81 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> πρωτιές: a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d (που ήταν τελευταίο στην ενοποιημένη διάταξη) 3 συστήματα <a,c,b> 6 συστήματα <a,c,b> 3 συστήματα <b,c,a> 5 συστήματα <b,c, a> 2 συστήματα <c,b,a> 5 συστήματα <c,b,a> 2 συστήματα <b,c,a> 4 συστήματα <c,b,a> a:9 b:10 c:11 Τελική διάταξη: <c,b,a> Αντίστροφη της αρχικής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 82

42 Ενοποίηση Διατάξεων (Rank Aggregation) Plurality Ranking (Απλή Πλειοψηφία)>Κάποια προβλήματα 3 συστήματα <a,c,d,b> 6 συστήματα <a,d,c,b> 3 συστήματα <b,c,d,a> 5 συστήματα <b,d, c, a> 2 συστήματα <c,b,d,a> 5 συστήματα <c,d,b,a> 2 συστήματα <d,b,c,a> 4 συστήματα <d,c,b,a> a:9 b:8 c:7 d:6 Τελική διάταξη: <a,b,c,d> Απόσυρση του d Τελική διάταξη: <c,b,a> Απόσυρση του a Τελική διάταξη: <d,c,b> Απόσυρση του b Τελική διάταξη: <d,c,a> Απόσυρση του c Τελική διάταξη: <d,b,a> CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 83 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Borda [Jean-Charles Borda 1770] The votes of an object o V ( o) = r i ( o) i= i 1....kk r ( o) : the position of the object The fused ordering Μ is derived by ordering the objects in ascending order wrt to their votes Reinvented (for the context of Meta-Searching) in [Tzitzikas 2001] o in the ordering of system i S i Example: S1 : < o1, o2, o S2 : < o1, o3, o S : < o, o, o > > > V ( o V ( o V ( o ) = = 4 ) = = 8 ) = = 6 M : o < o1, o3, 2 > If each source S r ( o i j i returns an ordered subset i i, if o j Oi position of o j in O ) = F + 1 otherwise O of Obj. where F = max{ O1,..., Ok } Γιατί; CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 84

43 Ενοποίηση Διατάξεων κατά Borda Βαθμός Συμφωνίας The distance between two orderings i and j: dist( i, j) = ri ( o) rj ( o) o O Footrule distance The mean distance of the fused ordering 0 The level l of agreement of fthe fused ordering 0: Dem = i =.. dist(0, i) 1 k k linear transformation C Dem LA = C C: max possible mean distance Dem inversion transformation LA = C C > 1,e.g.C = 2 High level may drive the user to read only the very first documents since probably they are the more relevant Low level may drive the user to read more documents CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 85 Ενοποίηση Διατάξεων (Rank Aggregation) Ενοποίηση Διατάξεων κατά Condorcet [1785] Condorcet: the winner is a candidate that defeats every other candidate in pairwise majority-rule election S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> a:b 2:1 // τo a νικά το b δύο φορές (και χάνει μία) a:c 2:1 // τo a νικά το c δύο φορές (και χάνει μία) Αρα η τελική κατάταξη κατά Condorset είναι: <a,b,c> Άλλο παράδειγμα S1: <a,b,c>, S2: <b,c,a>, S3: <c,a,b> a:b 2:1 // άρα το b δεν μπορεί να είναι o νικητής a:c 1:2 // άρα το a δεν μπορεί να είναι o νικητής c:b 1:2 // άρα το c δεν μπορεί να είναι o νικητής ηής Δεν υπάρχει πάντα Condorset νικητής! CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 86

44 Borda vs Condorcet S1: <a,b,c> S2: <b,a,c> S2: <c,a,b> Borda a: = 5 b: = 6 c: = 7 Borda ordering: <a,b,c> Condorset a:b 2:1 a:c 2:1 Condorset ordering: <a,b,c> Borda (1770) Member of French Academy of Sciences. Noted for work in hydraulics, optics, navigation instrument. Purpose: Reforming the election procedure of French Academy.Criticize plurality method Condorcet (1785) Viewed Borda as an enemy. Finding best ordering by hypothesis testing. Switch to propose Condorcet winner CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 87 Borda Condorcet S1: <a,b,c,d,e> S2: <b,c,e,d,a> S3: <e,a,b,c,d> S4: <a,b,d,e,c> S5: <b,a,d,e,c> Borda Condorset a: = 11 a:b 3:2 b: = 9 a:c 4:1 c: = a:d 4:1 d: = 19 a:e :3:2 e: = 17 Condorset winner a Borda winner : b CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 88

45 Prurality Borda Condorcet 1st 2nd 3rd 49 votes x y z 48 votes y z x 3 votes z y x Prurality winner: x Borda winner: y Condorcet: z> x CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 89 Condorcet and Order Θεωρείστε την περίπτωση τριών υποψηφίων (a,b,c) a b c a 5 7 b 8 2 c 6 11 Έχουμε συνοψίσει τις διατάξεις που έδωσαν οι εκλέκτορες κατασκευάζοντας έναν πίνακα C, όπου το C[i,j] εκφράζει πόσες φορές το i νικά το j Μπορούμε να υπολογίσουμε τη στήριξη (support) κάθε πιθανής γραμμικής διάταξης αθροίζοντας τη στήριξη της κάθε συσχέτισής της. <a,b,c> has support 25 a>b:8, a>c:6, b>c:11 <b,c,a> has support 23 b>a:5, c>a:7, b>c:11 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 90

46 Ενοποίηση Διατάξεων (Rank Aggregation) Συναρτήσεις Απόστασης μεταξύ Διατάξεων Notations: Obj: the set of all objects t: an ordered list of a subset S of Obj (i.e. S Obj) e.g. t = [x1 > x2... > xd] where xi S t(i): the position of the element i in the ordered list t t : the number of elements in t We can say that a list t is full: if t = Obj partial: if t < Obj CS562 Yannis Tzitzikas, U. of Crete 91 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Let ta and tb be two full lists Spearman s Footrule Distance Kendall tau distance dist F Obj ( ta, tb) = ta( i) tb( i) It counts the number of pairwise disagreements between the two lists (πλήθος των διαφωνιών στη δά διάταξη ζευγαριών ) dist K ( ta, tb) = {( i, j) i < j, ta( i) < ta( j), tb( i) > tb( j)} Example Let Obj = {A,B,C,D,E}, and let ta, tb be two full lists over Obj Spearman s Footrule Distance: C dist F (ta, tb ) = = 6 Kendall tau distance: dist K (ta, tb ) = {(A,C), (B.D), (B,E), (D,E)} = 4 CS562 Yannis Tzitzikas, U. of Crete 92 i= ta A E D B tb C A B D E

47 Ενοποίηση Διατάξεων κατά Kemeny (1959) (Kemeny developed BASIC language) Kemeny Optimal Aggregation Η καλύτερη ενοποιημένη διάταξη είναι εκείνη που απέχει το λιγότερο από όλες τις διατάξεις (βάσει της απόστασης Kendall tau) Έστω n διατάξεις: r1, r2,, rn Ενοποιημένη διάταξη r = arg r min( dist K (r,ri)) We can say that Kemeny Optimal Aggregation r reconciles Borda and Condorcet methods CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 93 Αποστάσεις μεταξύ διατάξεων Spearman s Footrule and Kendall tau distances Η εύρεση της βέλτιστης ενοποιημένης διάταξης (κατά Kemeny) είναι ακριβή (πρόβλημα NP-hard) Η βέλτιστη ενοποιημένη η διάταξη ως προς την footrule απόσταση είναι στο P. Let dist_k: Kendall tau distance dist_f: Spearman s Footrule Distance For any full lists ta, tb it holds: dist_k(ta,tb) dist_f(ta,tb) 2 dist_k(ta,tb) So we get a 2-approximation to Kemeny-optimality It follows that if σ is the Kemeny optimal aggregation of a set of full lists τ 1,, τ k, while σ optimizes the footrule aggregation then, dist_k(σ, τ 1,, τ k ) 2 dist_k(σ, τ 1,, τ k ) CS562 Yannis Tzitzikas, U. of Crete 94

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C): CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part A Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 3 Date : 1-3- ιάρθρωση PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 26 Διάθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Web Searching I: History and Basic Notions, Crawling II: Link

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο

Διαβάστε περισσότερα

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible. B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές

Διαβάστε περισσότερα

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος

Διαβάστε περισσότερα

Εισαγωγή στην ανάλυση συνδέσμων

Εισαγωγή στην ανάλυση συνδέσμων Εισαγωγή στην ανάλυση συνδέσμων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μαρία Χαλκίδη Why link analysis? Why link analysis? The web is not just a collection of documents its hyperlinks are important!

Διαβάστε περισσότερα

Parallel and Distributed IR

Parallel and Distributed IR Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη η και Κατανεμημένη η ΑΠ Γιάννης

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

EE512: Error Control Coding

EE512: Error Control Coding EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Elements of Information Theory

Elements of Information Theory Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS Ralf Schenkel, Tom Crecelious, Mouna Kacimi, Sebastian Michel, Thomas Neumann, Josiane Xavier Parreira, Gerhard Weikum ΠΡΟΒΛΗΜΑ Εύρεση ενός αποτελεσματικού

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

w o = R 1 p. (1) R = p =. = 1

w o = R 1 p. (1) R = p =. = 1 Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών ΗΥ-570: Στατιστική Επεξεργασία Σήµατος 205 ιδάσκων : Α. Μουχτάρης Τριτη Σειρά Ασκήσεων Λύσεις Ασκηση 3. 5.2 (a) From the Wiener-Hopf equation we have:

Διαβάστε περισσότερα

2 Composition. Invertible Mappings

2 Composition. Invertible Mappings Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =

Διαβάστε περισσότερα

TMA4115 Matematikk 3

TMA4115 Matematikk 3 TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth. Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Math 6 SL Probability Distributions Practice Test Mark Scheme

Math 6 SL Probability Distributions Practice Test Mark Scheme Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry

Διαβάστε περισσότερα

Inverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- -----------------

Inverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- ----------------- Inverse trigonometric functions & General Solution of Trigonometric Equations. 1. Sin ( ) = a) b) c) d) Ans b. Solution : Method 1. Ans a: 17 > 1 a) is rejected. w.k.t Sin ( sin ) = d is rejected. If sin

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω 0 1 2 3 4 5 6 ω ω + 1 ω + 2 ω + 3 ω + 4 ω2 ω2 + 1 ω2 + 2 ω2 + 3 ω3 ω3 + 1 ω3 + 2 ω4 ω4 + 1 ω5 ω 2 ω 2 + 1 ω 2 + 2 ω 2 + ω ω 2 + ω + 1 ω 2 + ω2 ω 2 2 ω 2 2 + 1 ω 2 2 + ω ω 2 3 ω 3 ω 3 + 1 ω 3 + ω ω 3 +

Διαβάστε περισσότερα

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Gemini,, Applications Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Εαρινό Εξάμηνο 2011-2012 Table of contents 1 Table of contents 1 2 Table of contents 1 2 3 Table of contents

Διαβάστε περισσότερα

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Systems Πανεπιστήμιο Κρήτης, Άνοιξη Γιάννης Τζίτζικας Lecture : 1 Date : 22-2- Title : Administration εδοµένα Το Αντικείµενο του Μαθήµατος Μια συλλογή

Διαβάστε περισσότερα

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας 2008-2009 1

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας 2008-2009 1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 Στατιστικά Κειμένου Text Statistics CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 1 Διάρθρωση Συχνότητα Εμφάνισης

Διαβάστε περισσότερα

4.6 Autoregressive Moving Average Model ARMA(1,1)

4.6 Autoregressive Moving Average Model ARMA(1,1) 84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ» ΜΕΤΑΠΤΥΧΙΑΚΗ ΙΑΤΡΙΒΗ ΤΟΥ ΕΥΘΥΜΙΟΥ ΘΕΜΕΛΗ ΤΙΤΛΟΣ Ανάλυση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #14 Αναζήτηση στο Web Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Main source: Discrete-time systems and computer control by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1 A Brief History of Sampling Research 1915 - Edmund Taylor Whittaker (1873-1956) devised a

Διαβάστε περισσότερα

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE) EPL 603 TOPICS IN SOFTWARE ENGINEERING Lab 5: Component Adaptation Environment (COPE) Performing Static Analysis 1 Class Name: The fully qualified name of the specific class Type: The type of the class

Διαβάστε περισσότερα

( ) 2 and compare to M.

( ) 2 and compare to M. Problems and Solutions for Section 4.2 4.9 through 4.33) 4.9 Calculate the square root of the matrix 3!0 M!0 8 Hint: Let M / 2 a!b ; calculate M / 2!b c ) 2 and compare to M. Solution: Given: 3!0 M!0 8

Διαβάστε περισσότερα

Homework 3 Solutions

Homework 3 Solutions Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For

Διαβάστε περισσότερα

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks P2P 1,a) 1 1 1 P2P P2P P2P P2P A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks NARISHIGE Yuki 1,a) ABE Kota 1 ISHIBASHI Hayato 1 MATSUURA Toshio 1

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις

Διαβάστε περισσότερα

Μηχανική Μάθηση Hypothesis Testing

Μηχανική Μάθηση Hypothesis Testing ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΛΑΜΑΤΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΜΟΝΑΔΩΝ ΥΓΕΙΑΣ ΚΑΙ ΠΡΟΝΟΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Συστήματα Διαχείρισης Βάσεων Δεδομένων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Φροντιστήριο 9: Transactions - part 1 Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών Tutorial on Undo, Redo and Undo/Redo

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Démographie spatiale/spatial Demography

Démographie spatiale/spatial Demography ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ Démographie spatiale/spatial Demography Session 1: Introduction to spatial demography Basic concepts Michail Agorastakis Department of Planning & Regional Development Άδειες Χρήσης

Διαβάστε περισσότερα

Problem Set 3: Solutions

Problem Set 3: Solutions CMPSCI 69GG Applied Information Theory Fall 006 Problem Set 3: Solutions. [Cover and Thomas 7.] a Define the following notation, C I p xx; Y max X; Y C I p xx; Ỹ max I X; Ỹ We would like to show that C

Διαβάστε περισσότερα

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Μοντέλα Ανάκτησης Ι (Retrieval Models) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης Ι (Rerieval Models) Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Συστήματα Διαχείρισης Βάσεων Δεδομένων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Φροντιστήριο 5: Tutorial on External Sorting Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών TUTORIAL ON EXTERNAL SORTING

Διαβάστε περισσότερα

Advanced Subsidiary Unit 1: Understanding and Written Response

Advanced Subsidiary Unit 1: Understanding and Written Response Write your name here Surname Other names Edexcel GE entre Number andidate Number Greek dvanced Subsidiary Unit 1: Understanding and Written Response Thursday 16 May 2013 Morning Time: 2 hours 45 minutes

Διαβάστε περισσότερα

Αντισταθμιστική ανάλυση

Αντισταθμιστική ανάλυση Αντισταθμιστική ανάλυση Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή δεδομένων Δ : Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Παράδειγμα: Θυμηθείτε το πρόβλημα

Διαβάστε περισσότερα

substructure similarity search using features in graph databases

substructure similarity search using features in graph databases substructure similarity search using features in graph databases Aleksandros Gkogkas Distributed Management of Data Laboratory intro Θα ενασχοληθούμε με το πρόβλημα των ερωτήσεων σε βάσεις γραφημάτων.

Διαβάστε περισσότερα

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάµηνο 1 η Σειρά Ασκήσεων (Αξιολόγηση Αποτελεσµατικότητας Ανάκτησης) Άσκηση 1 (4 βαθµοί) Θεωρείστε

Διαβάστε περισσότερα

Example of the Baum-Welch Algorithm

Example of the Baum-Welch Algorithm Example of the Baum-Welch Algorithm Larry Moss Q520, Spring 2008 1 Our corpus c We start with a very simple corpus. We take the set Y of unanalyzed words to be {ABBA, BAB}, and c to be given by c(abba)

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011 Διάρκεια Διαγωνισμού: 3 ώρες Απαντήστε όλες τις ερωτήσεις Μέγιστο Βάρος (20 Μονάδες) Δίνεται ένα σύνολο από N σφαιρίδια τα οποία δεν έχουν όλα το ίδιο βάρος μεταξύ τους και ένα κουτί που αντέχει μέχρι

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Οικονομία Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών Τέλος Ενότητας Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί

Διαβάστε περισσότερα

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Πληροφορικής Εξεταστική Επιτροπή από την Χαρά Παπαγεωργίου

Διαβάστε περισσότερα

ΜΥΥ105: Εισαγωγή στον Προγραμματισμό. Αναζήτηση και Ταξινόμηση Χειμερινό Εξάμηνο 2016

ΜΥΥ105: Εισαγωγή στον Προγραμματισμό. Αναζήτηση και Ταξινόμηση Χειμερινό Εξάμηνο 2016 ΜΥΥ105: Εισαγωγή στον Προγραμματισμό Αναζήτηση και Ταξινόμηση Χειμερινό Εξάμηνο 2016 Αναζήτηση και Ταξινόμηση Βασικές λειτουργίες σε προγράμματα Αναζήτηση (searching): Βρες ένα ζητούμενο στοιχείο σε μια

Διαβάστε περισσότερα

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α.  Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α 2 ειδήσεις από ελληνικές εφημερίδες: 1. Τα Νέα, 13-4-2010, Σε ανθρώπινο λάθος αποδίδουν τη συντριβή του αεροσκάφους, http://www.tanea.gr/default.asp?pid=2&artid=4569526&ct=2 2. Τα Νέα,

Διαβάστε περισσότερα

Second Order Partial Differential Equations

Second Order Partial Differential Equations Chapter 7 Second Order Partial Differential Equations 7.1 Introduction A second order linear PDE in two independent variables (x, y Ω can be written as A(x, y u x + B(x, y u xy + C(x, y u u u + D(x, y

Διαβάστε περισσότερα

Συντακτικές λειτουργίες

Συντακτικές λειτουργίες 2 Συντακτικές λειτουργίες (Syntactic functions) A. Πτώσεις και συντακτικές λειτουργίες (Cases and syntactic functions) The subject can be identified by asking ποιος (who) or τι (what) the sentence is about.

Διαβάστε περισσότερα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014 Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining Το Web Mining στοχεύει στην

Διαβάστε περισσότερα

6.3 Forecasting ARMA processes

6.3 Forecasting ARMA processes 122 CHAPTER 6. ARMA MODELS 6.3 Forecasting ARMA processes The purpose of forecasting is to predict future values of a TS based on the data collected to the present. In this section we will discuss a linear

Διαβάστε περισσότερα

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1. Exercises 0 More exercises are available in Elementary Differential Equations. If you have a problem to solve any of them, feel free to come to office hour. Problem Find a fundamental matrix of the given

Διαβάστε περισσότερα

Exercises to Statistics of Material Fatigue No. 5

Exercises to Statistics of Material Fatigue No. 5 Prof. Dr. Christine Müller Dipl.-Math. Christoph Kustosz Eercises to Statistics of Material Fatigue No. 5 E. 9 (5 a Show, that a Fisher information matri for a two dimensional parameter θ (θ,θ 2 R 2, can

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

ΑΛΓΟΡΙΘΜΟΙ  Άνοιξη I. ΜΗΛΗΣ ΑΛΓΟΡΙΘΜΟΙ http://eclass.aueb.gr/courses/inf161/ Άνοιξη 216 - I. ΜΗΛΗΣ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΑΛΓΟΡΙΘΜΟΙ - ΑΝΟΙΞΗ 216 - Ι. ΜΗΛΗΣ 9 DP II 1 Dynamic Programming ΓΕΝΙΚΗ ΙΔΕΑ 1. Ορισμός υπο-προβλήματος/ων

Διαβάστε περισσότερα

AVL-trees C++ implementation

AVL-trees C++ implementation Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ AVL-trees C++ implementation Δομές Δεδομένων Μάριος Κενδέα 31 Μαρτίου 2015 kendea@ceid.upatras.gr Εισαγωγή (1/3) Δυαδικά Δένδρα Αναζήτησης:

Διαβάστε περισσότερα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Ηλεκτρονική Υγεία Ενότητα: Use Case - an example of ereferral workflow Αν. καθηγητής Αγγελίδης Παντελής e-mail: paggelidis@uowm.gr Τμήμα Μηχανικών Πληροφορικής

Διαβάστε περισσότερα

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Η προβολή επιστημονικών θεμάτων από τα ελληνικά ΜΜΕ : Η κάλυψή τους στον ελληνικό ημερήσιο τύπο Σαραλιώτου

Διαβάστε περισσότερα

Newman Modularity Newman [4], [5] Newman Q Q Q greedy algorithm[6] Newman Newman Q 1 Tabu Search[7] Newman Newman Newman Q Newman 1 2 Newman 3

Newman Modularity Newman [4], [5] Newman Q Q Q greedy algorithm[6] Newman Newman Q 1 Tabu Search[7] Newman Newman Newman Q Newman 1 2 Newman 3 DEWS2007 D3-6 y yy y y y y yy / DC 7313194 341 E-mail: yfktamura,mori,kuroki,kitakamig@its.hiroshima-cu.ac.jp, yymakoto@db.its.hiroshima-cu.ac.jp Newman Newman Newman Newman Newman A Clustering Algorithm

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας ΠΕΡΙΛΗΨΗ Αριστείδης Κοσιονίδης Η κατανόηση των εννοιών ενός επιστημονικού πεδίου απαιτεί

Διαβάστε περισσότερα

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ» ΓΔΩΠΟΝΗΚΟ ΠΑΝΔΠΗΣΖΜΗΟ ΑΘΖΝΩΝ ΣΜΗΜΑ ΑΞΙΟΠΟΙΗΗ ΦΤΙΚΩΝ ΠΟΡΩΝ & ΓΕΩΡΓΙΚΗ ΜΗΥΑΝΙΚΗ ΣΟΜΕΑ ΕΔΑΦΟΛΟΓΙΑ ΚΑΙ ΓΕΩΡΓΙΚΗ ΥΗΜΕΙΑ ΕΙΔΙΚΕΤΗ: ΕΦΑΡΜΟΓΕ ΣΗ ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ΣΟΤ ΦΤΙΚΟΤ ΠΟΡΟΤ «ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ

Διαβάστε περισσότερα

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1,

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, 2015-01-19 Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΝΕΡΓΟ ΦΙΛΤΡΟ ΔΙΑΚΟΠΤΙΚΟΥ ΠΗΝΙΟΥ ( Switched Inductor Variable Filter ) Ευτυχία Ιωσήφ Λεμεσός, Μάιος 2016 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα