Napster ( ): διαμοιρασμός MP3

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Napster ( ): διαμοιρασμός MP3"

Transcript

1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 HΥ46 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μέρος Γ Συστήματα Ομοτίμων (Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών Συστήματα Ομοτίμων (Peer-to-Peer Systems) Γιάννης Τζίτζικας ιάλεξη : 6-7 Ημερομηνία :, CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 Κίνητρο Διάρθρωση Τύποι Ομότιμων Συστημάτων Υβριδικά Αποκεντρωμένα Ιεραρχικά Δομημένα Διαφορές με Κατανεμημένη Ανάκτηση Ομότιμα Συστήματα και Ανάκτηση Πληροφοριών Ομότιμα Συστήματα: Κίνητρο Αξιοποίηση των ελεύθερων πόρων συστημάτων προσβάσιμων μέσω Internet για την επίλυση μεγάλων προβλημάτων (π.χ. SETI@home) δημιουργία συστημάτων πιο κλιμακόσιμων δημιουργία συστημάτων με μεγαλύτερη διαθεσιμότητα κατάργηση μονοπωλίων στην διάθεση της πληροφορίας αυτό-οργάνωση αντί κεντρικής διαχείρισης (και εξόδων αυτής) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PP: Εφαρμογές Instant Messaging Collaboration File Sharing Napster Kazaa Groupware Peer-to-Peer Applications Others Computation Resource Utilisation SETI@home Storage Bandwidth CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ομότιμα Συστήματα ης Γενιάς: Υβριδικά Napster Ονομάζονται και Υβριδικά Ομότιμα Συστήματα (Hybrid PP systems) διότι υπάρχει ένας κεντρικός εξυπηρετητής Napster (998-00): διαμοιρασμός MP Napster server : register (user, files) : lookup (x) : peer has x peer peer 4: download x.mp Μπορούμε να τα δούμε ως publish-subscribe systems: ο ιδιοκτήτης ενός αρχείο το διαθέτει με ένα όνομα x, οι άλλοι χρήστες μπορούν να αναζητήσουν το x, να βρουν ένα αντίγραφο και να το κατεβάσουν CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 6

2 Google (Client-Server) vs. Napster (PP) Και οι δυο εφαρμογές έχουν την ίδια κλίματα εκατομμύρια αναζητήσεις ημερησίως Terabytes δεδομένων Google Στηρίζεται σε περίπου μηχανές το στήσιμο μιας τέτοια εφαρμογής έχει μεγάλο κόστος (μόνο μια μεγάλη επιχείρηση μπορεί να κάνει τέτοια επένδυση) Napster ο server χρησιμοποιεί μόνο 00 μηχανές το κόστος αποθήκευσης και μεταφοράς των μουσικών αρχείων χρεώνεται στις μηχανές των χρηστών του συστήματος (γι αυτό ονομάζεται PP) μικρό κόστος CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Τα Πλεονεκτήματα των Ομοτίμων Συστημάτων Διαμερισμός πόρων αποθηκευτικών οι εκατομμύρια χρήστες του Napster αποθηκεύουν τα αρχεία, όχι ο εξυπηρετητής επικοινωνίας το κατέβασμα αρχείων γίνεται μεταξύ των χρηστών, ο εξυπηρετητής δεν παρεμβάλλεται εισαγωγής στοιχείων οι χρήστες του Napster εισάγουν τα αρχεία στο σύστημα οι χρήστες του Napster τα κατηγοριοποιούν Δίδαγμα: Η αποκέντρωση επιτρέπει τη δημιουργία εφαρμογών παγκόσμιας κλίμακας χωρίς την ανάγκη μεγάλων επενδύσεων αλλά με την αξιοποίηση των πόρων που ήδη υπάρχουν CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ομότιμα Συστήματα ης Γενιάς: Υβριδικά Napster Ομότιμα Συστήματα ης Γενιάς: Υβριδικά SETI@home Σκοπός: Διαμοιρασμός υπολογιστικών πόρων (αξιοποίηση των περιόδων αδράνειας των εγγεγραμμένων ΗΥ) upload results Επεξεργασία δεδομένων όταν ο ΗΥ είναι αδρανής Download raw data upload results Download raw data Επεξεργασία δεδομένων όταν ο ΗΥ είναι αδρανής A central point of failure CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ομότιμα Συστήματα ης Γενιάς: Αποκεντρωμένα GNUTELLA Δεν υπάρχει κανένας κεντρικός εξυπηρετητής Ονομάζονται και Αποκεντρωμένα (Decentralized PP systems), Αδόμητα (Unstructured PP systems), Pure PP systems Gnutella (999-now): Ομότιμα Συστήματα ης Γενιάς: Αποκεντρωμένα GNUTELLA Δεν υπάρχει κανένας κεντρικός εξυπηρετητής Ονομάζονται και Αποκεντρωμένα (Decentralized PP systems), Αδόμητα (Unstructured PP systems), Pure PP systems Gnutella (999-now): q CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006

3 Ομότιμα Συστήματα ης Γενιάς: Αποκεντρωμένα GNUTELLA Κατακλυσμός Μηνυμάτων (Message Flooding or Gossiping) Ομότιμα Συστήματα ης Γενιάς: Αποκεντρωμένα GNUTELLA Κατακλυσμός Μηνυμάτων (Message Flooding) q q CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ομότιμα Συστήματα ης Γενιάς: Αποκεντρωμένα GNUTELLA Τα μυνήματα έχουν ένα TTL (time-to-live) tag q TTL = Επίσης, τα μηνύματα έχουν ένα ID για την αποτροπή κυκλικών αποστολών CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring GNUTELLA: The protocol Ping Used to actively discover hosts on the network. A servent receiving a Ping descriptor is expected to respond with one or more Pong descriptors. Pong The response to a Ping. Includes the address of a connected Gnutella servent and information regarding the amount of data it is making available to the network. Query The primary mechanism for searching the distributed network. A servent receiving a Query descriptor will respond with a QueryHit if a match is found against its local data set. QueryHit The response to a Query. This descriptor provides the recipient with enough information to acquire the data matching the corresponding Query. Push A mechanism that allows a firewalled servent to contribute file-based data to the network. CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring GNUTELLA: The protocol Napster vs. Gnutella Συνήθως κάθε κόμβος προωθεί μια επερώτηση σε C γείτονες (συνήθως C=) Τυπική τιμή TTL=7 (πειράματα έδειξαν ότι η διάμετρος του Gnutella δικτύου είναι συνήθως 7) Napster (υπάρχει κεντρικός εξυπηρετητής) single point of failure στόχος νομικής επίθεσης Gnutella (δεν υπάρχει κεντρικός εξυπηρετητής) δεν υπάρχει single point of failure δεν μπορεί να γίνει εύκολα στόχος νομικής επίθεσης δεν απαιτεί καμία επένδυση δεν έχει κόστος διαχείρισης (administration) self-organizing system however, free-riders may occur CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 8

4 GNUTELLA: Επιδόσεις Επιδόσεις Χρόνος αναζήτησης: Σχετικά μικρός Πλήθος Μηνυμάτων: Μεγάλο Κόστος αποθήκευσης: Μικρό (κάθε κόμβος γνωρίζει μόνο τους διπλανούς του) Κόστος ενημέρωσης: Μικρό (γείτονες) Ανθεκτικότητα σε σφάλματα: Μεγάλη Ομότιμα Συστήματα ης Γενιάς Πρωτότυπα ερευνητικά συστήματα: Chord (MIT), CAN (Berkeley), OceanStore/Tapestry (Berkeley), Farsite (MSR), Spinglass/Pepper (Cornell), Pastry/PAST (Rice, MSR), Viceroy (Hebrew U), P-Grid (EPFL), PP-Net (Magdeburg), Pier (Berkeley), Peers (Stanford), Kademlia (NYU), Bestpeer (Singapore), YouServ (IBM Almaden), Hyperion (Toronto), Piazza (UW Seattle), PlanetP (Rutgers), SkipNet (MSR), Μπορούμε να διακρίνουμε μεγάλες κατηγορίες Ιεραρχικά Ομότιμα Συστήματα (Hierarchical PP systems) Π.χ. Το σύστημα Kazaa Δομημένα Ομότιμα Συστήματα (Structured PP systems) Π.χ. το σύστημα Chord CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ιεραρχικά Ομότιμα Συστήματα (Hierarchical PP Systems) Συστήματα: Morpheus, Kazaa, Limewire, JXTA Search, Gnutella 0.6 Ιεραρχικά Ομότιμα Συστήματα (Hierarchical PP Systems) Συνδυασμός Napster και Gnutella Hubs (or SuperPeers) Gnutella-style Leaf nodes CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 Napster-style Napster-style Napster-style CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 Ιεραρχικά Ομότιμα Συστήματα (Hierarchical PP Systems).. Searching relies on message-passing between nodes. A query generated by a client node and is routed to a hub, from one hub to another, or from a hub to a leaf node. A response message ( queryhit ) is generated by a leaf node and routed back along the query path in reverse direction. Messages also include a TTL tag 4: peer 8 has x : peer 8 has x Ιεραρχικά Ομότιμα Συστήματα (Hierarchical PP Systems) Επιδόσεις Χρόνος αναζήτησης: Πολύ μικρός Πλήθος Μηνυμάτων: Μικρό Κόστος αποθήκευσης: Μικρό στα φύλλα, Μεγάλο στους εξυπηρετητές ευρετηρίου Κόστος ενημέρωσης: Μικρό Ανθεκτικότητα σε σφάλματα: Μικρή :lookup(x) :lookup(x) 5: download x 8 9 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 4

5 Δομημένα Ομότιμα Συστήματα (Structured PP Systems) Σκοπός: Γρήγορη εύρεση του κόμβου που περιέχει ένα κλειδί χωρίς τη χρήση κεντρικού εξυπηρετητή και ανταλλάσσοντας λίγα μηνύματα Εύκολο κομμάτι: κατανομή ευρετηρίου σε όλους τους κόμβους Δύσκολο: κατανομή ευρετηρίου σε όλους τους κόμβους με τέτοιο τρόπο ώστε να έχουμε γρήγορη αναζήτηση Συστήματα Freenet, Chord, CAN, Pastry, Tapestry, FreeNet, P-Grid, CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Δομημένα Ομότιμα Συστήματα Κοινά χαρακτηριστικά των δομημένων ομότιμων συστημάτων κάθε κόμβος διατηρεί ένα μικρό τμήμα του καθολικού ευρετηρίου (πίνακας δρομολόγησης) οι αναζητήσεις γίνονται με προώθηση μηνυμάτων προς τη «σωστή» κατεύθυνση Διαφορετικές Προσεγίσεις FreeNet: caching πληροφορίας ευρετηρίου κατά μήκος των μονοπατιών αναζήτησης Chord: κατασκευή ενός κατανεμημένου πίνακα κατακερματισμού (Distributed Hash Table, DHT) CAN: Δρομολόγηση βάσει d-διάστατου χώρου P-Grid: κατανομή ενός δυαδικού δένδρου αναζήτησης CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Το Πρόβλημα του Εντοπισμού Πόρου (Resource Location)..86 Singing in the Rain SR.mp «Υπάρχω» stelios.mp.8.78 p k d..86 Singing in the Rain SR.mp..86 «Υπάρχω» stelios.mp.8.78 Singing in the Rain SingRain.mp Freenet: Σύστημα για δημοσίευση και ανάκτηση δεδομένων με έμφαση στην ανωνυμία (και των συγγραφέων και των αναγνωστών) Τα κλειδιά και τα δεδομένα αποθηκεύονται κρυπτογραφημένα Μοιάζει με: Gnutella + cache at each node Singing in the Rain SingRain.mp Έστω peer με δνση p που αποθηκεύει στοιχείο d που χαρακτηρίζεται από το κλειδί k Ζητούμενο: Δοθέντος k (ή συνθήκης πάνω στο k) εντόπισε τον peer που έχει το d, δηλαδή βρες το ζεύγος ευρετηρίου (k,p). (άρα το ευρετήριο μας αποτελείται από ζεύγη της μορφής (k,p)) Κρίσιμο ερώτημα: Πως μπορούμε να (α) φτιάξουμε, (β) συντηρήσουμε και (γ) να χρησιμοποιήσουμε ένα τέτοιο ευρετήριο χωρίς κεντρικό έλεγχο; CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Freenet: Cache Freenet: Τρόπος Εντοπισμού Πόρου p k d..86 Singing in the Rain SR.mp..86 «Υπάρχω» stelios.mp.8.78 One UOne.mp.6.86 Dog song..86 «Υπήρξα».8.7 Pop Singing in the Rain «Υπάρχω» Τμήμα του καθολικού ευρετηρίου Αντίγραφα κάποιων αντικειμένων Έλευση επερώτησης k Αν η έγγραφή (p,k,d) είναι στη κρυφή μνήμη επέστρεψε το d Αλλιώς προώθησε την επερώτηση στον κόμβο που έχει το πιο όμοιο κλειδί Η διαδικασία αυτή συνεχίζεται με αυτόν τον τρόπο έως ότου ευρεθεί το αναζητούμενο ή το TTL φτάσει την τιμή 0. Έλευση απάντησης (k,p,d) Η τριάδα εισάγεται στην κρυφή μνήμη Ηπαλαιότερηεγγραφή (least recently used) διαγράφεται από την κρυφή μνήμη Παρατηρήσεις Οι δρομολογήσεις που κάνουν οι κόμβου βελτιώνονται συν το χρόνο Οι κόμβοι τείνουν να έχουν στην κρυφή τους μνήμη εγγραφές με παρόμοια κλειδιά (άρα επιτυγχάνεται ένα είδος ομαδοποίησης) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 0

6 Freenet Freenet: Εισαγωγή Νέου Πόρου k? // dist(k,k)= low k? hit k? hit k? k? hit k? Υπολογίζουμε το κλειδί του νέου πόρου Φτιάχνεται η εγγραφή εισαγωγής και στέλνεται στον γείτονα με το πιο κοντινό κλειδί Κάθε κόμβος που λαμβάνει το νέο κλειδί, ελέγχει αν το κλειδί αυτό υπάρχει ήδη αν ναι, έχουμε σύγκρουση (collision), και άρα ο αρχικός κόμβος πρέπει να προτείνει ένα νέο κλειδί αν όχι, δρομολόγηση στον επόμενο κόμβο με τον ίδιο τρόπο Αν TTL=0 και δεν είχαμε καμία σύγκρουση, τότε η τριάδα αποθηκεύεται σε όλους τους κόμβους του μονοπατιού που ακολουθήθηκε CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 Chord (Distributed Hash Tables (DHT)) Chord Κατακερματισμός (Hashing) κλειδιών (k)και διευθύνσεων (p) σε δυαδικά κλειδιά με m-bits π.χ. m=6, h(«υπάρχω»)=, h( )= Τα δυαδ. κλειδιά τοποθετούνται σε έναν κύκλο modulo ^m Για m=8, κυκλική διάταξη των αριθμών 0 55 Ένα κλειδί k εκχωρείται στον πρώτο κόμβο p τ.ω. h(p) >= h(k) 0 peers P={p,,p0} 5 keys K={k,,k5} m=6, mod m = mod 6 =[0..6] { h(pi) pi P} = {, 8,4,,, 8,4,48,5,56} { h(ki) ki K} = {0, 4, 0, 8, 54} Αυτός ο κόμβος λέγεται successor(k) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Chord : Απλός τρόπος εντοπισμού κόμβων Έστω ότι κάθε κόμβος p ξέρει την δνση μόνο του επόμενου του ( του p με h(p ) > h(p)) // ask node n to find the successor of id n.find_successor(id) if (id in (n; successor]) return successor; else // forward the query around the circle return successor.find_successor(id); Chord : Ένας πιο γρήγορος τρόπος εντοπισμού κόμβων με Πίνακες Δρομολόγησης Επιπλέον πληροφορία δρομολόγησης για επιτάχυνση Κάθε κόμβος n έχει έναν πίνακα δρομολόγησης με m εγγραφές οι m αυτοί κόμβοι έχουν εκθετικά αυξανόμενη απόσταση από τον n Η i εγγραφή του πίνακα έχει την δνση του πρώτου κόμβου με κλειδί μεγαλύτερο ή ίσο με n+ i- finger[i] = successor (n + i- ) => Number of messages linear in the number of nodes! CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 6

7 Chord : Παράδειγμα Πίνακα Δρομολόγησης Finger table: finger[i] = successor (n + i- ) Chord: Εντοπισμός Πόρου με Πίνακες Δρομολόγησης Έστω μια επερώτηση k προς έναν κόμβο n Ο n κοιτάζει τον πίνακα δρομολόγησης του και βρίσκει τον μικρότερο peer με κλειδί μεγαλύτερο αυτού της επερώτησης. Αν δεν υπάρχει τέτοιος peer, τότε ο ίδιος είναι υπεύθυνος για το κ (και άρα το ζητούμενο βρέθηκε) Αλλιώς προωθεί την επερώτηση n=8 finger[] = succ(n+) = succ(9) = 4 finger[] = succ(n+) = succ(0) = 4 finger[] = succ(n+4) = succ() = 4 finger[4] = succ(n+8) = succ(6) = finger[5] = succ(n+6) = succ(4) = finger[6] = succ(n+) = succ(40) = 4 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Αφού οι εγγραφές των πινάκων δρομολόγησης είναι εκθετικά αύξουσες, η αναζήτηση (με μεγάλη πιθανότητα) λαμβάνει λογαριθμικό χρόνο. CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Chord: Πλήθος μηνυμάτων: Ο(log N) Chord: Είσοδος νέου κόμβου Ν8 Ν4 Ο νέος κόμβος πρέπει να φτιάξει τον πίνακα δρομολόγησης του Το κόστος κατασκευής του είναι αυτό της αναζήτησης Οι άλλοι κόμβοι πρέπει να ενημερώσουν τους δικούς τους πίνακες Εύρεση με ανταλλαγή τριών μηνυμάτων Search in finger table for the nodes which most immediatly precedes id Invoke find_successor from that node => Number of messages O(log N) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Chord : Περίληψη Βασικά σημεία: Κάθε κόμβος αποθηκεύει πληροφορία για μικρό αριθμό κόμβων (m) Κάθε κόμβος ξέρει περισσότερα για τους κοντινούς του όρους (απ ότι για τους μακρινούς) Επιδόσεις Χρόνος αναζήτησης: O(log n) (με μεγάλη πιθανότητα) Πλήθος Μηνυμάτων: O(log n) (επιλεκτική δρομολόγηση μηνυμάτων) Κόστος αποθήκευσης: O(log n) (πίνακας δρομολόγησης) Κόστος εισόδου/εξόδου κόμβου: O(log^ n) Κόστος ενημέρωσης: μικρό (περίπου σαν το κόστος αναζήτησης) Chord CAN Chord software 000 lines of C++ code, Library to be linked with the application, provides a lookup(key) function: yields the IP address of the node responsible for the key, Notifies the node of changes in the set of keys the node is responsible for CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 4

8 Δομημένα Ομότιμα Συστήματα CAN (Content Addressable Network) Βασίζεται στον κατακερματισμό κλειδιών στον κ-διάστατο Καρτεσιανό χώρο (torus) (συνήθως κ=-0) Κλειδί = σημείο του κ-διάστατου χώρου κδιαστάσεις, Hash(key) = (x,, xk) Κάθε κόμβος είναι υπεύθυνος για ένα κομμάτι του χώρου, μία ζώνη Αποθηκεύει το ευρετήριο των αντικειμένων των οποίων οι συντεταγμένες εμπίπτουνστηνζώνητου Κάθε κόμβος αποθηκεύει τις διευθύνσεις των κόμβων των διπλανών ζωνών Εύρεση πόρου = δρομολόγηση στις ζώνες Δομημένα Ομότιμα Συστήματα CAN Π.χ. για D, 4 peers A, B, C, D B (0-0.5, 0.5-) C (0.5-, 0.5-) A (0-0.5, 0-0.5) D (0.5-, 0-0.5) 0 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Δομημένα Ομότιμα Συστήματα CAN ΕίσοδοςενόςνέουκόμβουΕ Δομημένα Ομότιμα Συστήματα CAN Ο Ε θέλει να ανακτήσει το αντικείμενο με συντεταγμένες (0., 0.) C (0.5-, 0.75-) C (0.5-, 0.75-) B (0-0.5, 0.5-) B (0-0.5, 0.5-) Ε (0.5-, ) Ε (0.5-, ) A (0-0.5, 0-0.5) D (0.5-, 0-0.5) A (0-0.5, 0-0.5) D (0.5-, 0-0.5) 0 0 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Δομημένα Ομότιμα Συστήματα CAN Αυξάνοντας τις διαστάσεις μειώνεται το μήκος του μονοπατιού αναζήτησης αυξάνεται το πλήθος των γειτόνων που πρέπει κάθε κόμβος να αποθηκεύει Πολυπλοκότητα αναζήτησης n κόμβοι, κ διαστάσεις O( k k n) Δομημένα Ομότιμα Συστήματα CAN Περίληψη Βασικά σημεία: Κάθε κόμβος αποθηκεύει πληροφορία για ένα τμήμα του διανυσματικού χώρου και γνωρίζει τις δνσεις των διπλανών του κόμβων Επιδόσεις Χρόνος αναζήτησης: O(k n /k ) (με μεγάλη πιθανότητα) Πλήθος Μηνυμάτων: O(k n /k ) (επιλεκτική δρομολόγηση μηνυμάτων) Κόστος αποθήκευσης: O(k) (πίνακας δρομολόγησης) Κόστος ενημέρωσης: μικρό (περίπου σαν το κόστος αναζήτησης) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

9 Περίληψη Ομότιμων Συστημάτων Έστω ότι στην Ελλάδα κατοικούν 000 άτομα και κάθε ένας τους έχει ένα τηλέφωνο Τρόποι εύρεσης του τηλεφώνου ενός κυρίου Χ Napster-style Εύρεση τηλεφώνου τηλεφωνώντας στο 8 του ΟΤΕ Gnutella-style Εύρεση τηλεφώνου ρωτώντας όποιον βρούμε μπροστά μας (κ.ο.κ) Kazaa-style Δεν υπάρχει ΟΤΕ για όλη την Ελλάδα, αλλά κάθε νομός έχει έναν τοπικό ΟΤΕ. Τηλεφωνούμε στον τοπικό και αν αυτός δεν το έχει, επικοινωνεί με τους υπόλοιπους τοπικούς ΟΤΕ Περίληψη Ομότιμων Συστημάτων Freenet-style Κάθε ένας έχει μια ατζέντα περιορισμένου μεγέθους. Εύρεση τηλεφώνου τηλεφωνώντας σε αυτόν που έχει το πλησιέστερο όνομα (π.χ. λεξικογραφικά), κ.ο.κ. Όταν εν τέλει βρεθεί, ενημερώνουμε την ατζέντα μας. Chord-style Κάθε κάτοικος έχει μια ατζέντα με 0 τηλέφωνα (0 = log 04) Η εύρεση του τηλεφώνου του κυρίου Χ θα γίνει με 0 τηλεφωνήματα CAN-style Κάθε ένας ξέρει το τηλέφωνο των γειτόνων του αν όλοι οι Έλληνες ζουν σε μονοκατοικίες τότε κάθε ένας έχει 4 γείτονες (Βορ,Νοτ,Α,Δ) αν όλοι οι Έλληνες ζουν σε πολυκατοικία τότε κάθε ένας έχει 6 γείτονες Για να τηλεφωνήσω σε κάποιον πρέπει να ξέρω που είναι το σπίτι του και τηλεφωνώ στο γείτονα μου που είναι προς εκείνη την κατεύθυνση (κ.ο.κ) Αν όλοι μένουν σε μονοκατοικίες τότε * SQRT(000) = 64 τηλεφωνήματα Αν όλοι μένουν σε μια πολυκατοικία τότε * CubicRoot(000) = * 0 τηλεφωνήματα CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Τι διαφέρει η Ανάκτηση σε PP συστήματα από την Κατανεμημένη Ανάκτηση; Η ανάκτηση πληροροφιών σε συστήματα ομοτίμων είναι μια περίπτωση κατανεμημένης ανάκτησης Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems) & IR Ιδιαιτερότητες των ομότιμων συστημάτων: Υπερβολικά μεγάλος αριθμός πηγών (peers) Μεγαλύτερη αυτονομία πηγών Έλλειψη Σταθερότητας, Ελέγχου, Προβλεψιμότητας (not stable, controllable, unpredictable) Επιτακτική ανάγκη για μείωση του κόστους επικοινωνίας Lecture : 7 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Αρχιτεκτονικές Ομότιμων Συστημάτων PP and IR: Περίπτωση: Kατηγοριοποιημένα Έγγραφα : register (user, files) Napster server : lookup (x) : peer has x peer peer 4: download docx.mp q Έστω ότι κάθε έγγραφο είναι ταξινομημένο σε μια κατηγορία ενός ελεγχόμενου ευρετηρίου (ODP, Yahoo!). Ο χρήστης κάνει αναζήτηση δίνοντας μια κατηγορία Gnutella-style έγγραφο mp αρχείο κατηγορία εγγράφου τίτλος του mp αρχείου Napster-style Napster-style Napster-style CAN (Content Addressable Network) Chord (Distributed Hash Table -DHT) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Άρα μπορούμε να φτιάξουμε ένα ομότιμο σύστημα τύπου Napster (Hybrid PP) τύπου Gnutella (Pure PP) τύπου Κazaa (Hierarchical PP) τύπου Freenet (Structured PP) τύπου Chord (Structured PP) τύπου CAN (Structured PP) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

10 PP and Statistical IR PP and Statistical IR Τυπικό Ευρετήριο PP Τυπικό Ευρετήριο IRS (document partitioning) p k d..86 Singing in the Rain SR.mp..86 «Υπάρχω» stelios.mp.8.78 Singing in the Rain SingRain.mp Τυπικό Ευρετήριο PP Τυπικό Ευρετήριο IRS (term partitioning) p k d..86 Singing in the Rain SR.mp..86 «Υπάρχω» stelios.mp.8.78 Singing in the Rain SingRain.mp P P cold P <5,> cold <4,> hot <5,> <6,> hot <4,> in <6,> in cold <,> <,> not not <5,> <4,> hot <,> pease <,> <4,> pease <5,> <6,> pease <,> <,> porridge <,> <4,> porridge <5,> <6,> porridge <,> <,> pot <,> pot <6,> the <,> the <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring cold <,> <4,> <5,> P hot <,> <4,> <5,> <6,> in <,> <6,> not <4,> <5,> P pease <,> <,> <,> <4,> <5,> <6,> porridge <,> <,> <,> <4,> <5,> <6,> pot <,> <6,> P the <,> <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PP and IR: Ανεστραμμένα Ευρετήρια (Napster-style) Ένας κεντρικός εξυπηρετητής αποθηκεύει όλα τα ανεστραμμένα ευρετήρια των κόμβων () () () (4) Global Index Napster server : register (user, files) : lookup (x) () : peer has x peer peer αδυναμίες: o εξυπηρετητής χρειάζεται πολύ χώρο χρονοβόρο upload των ευρετηρίων στον εξυπηρετητή, το κόστος αποτίμησης επερωτήσεων πάει εξ ολοκλήρου στον εξυπηρετητή Google, χωρίς το crawling (συλλογή σελίδων) και έχοντας έτοιμα κομμάτια του 4: download docx.mp ευρετηρίου CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PP and IR: (Gnutella-style) Κάθε κόμβος συντηρεί το ανεστραμμένο ευρετήριο των εγγράφων του. Αποτίμηση επερωτήσεων με κατακλυσμό μηνυμάτων Αδυναμίες πολλά μηνύματα IDF =? Local Invert. Local IndexInvert. Index CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PP and IR: (Gnutella-style) Παραλλαγές του Kατακλυσμού μηνυμάτων BFS: Breadth First Search (=Gnutella) RBFS: κάθε κόμβος προωθεί ένα μήνυμα σε ένα τυχαίο ποσοστό (π.χ. 0%) των γνωστών του κόμβων + πιθανοκρατικός αλγόριθμος - μπορεί το μήνυμα να μην πάει σε κόμβους που έχουν συναφή αντικείμενα -Random Walker: κάθε κόμβος προωθεί ένα μήνυμα σε έναν τυχαία επιλεγμένο κόμβο από τους γνωστούς του k-random Walkers: κάθε κόμβος προωθεί ένα μήνυμα σε κ τυχαία επιλεγμένους κόμβους από τους γνωστούς του + λιγότερα μηνύματα από το RDFS APS: Adaptive Probabilistic Search CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PP and IR (Freenet-style) Κάθε κόμβος: (α) συντηρεί το ανεστραμμένο ευρετήριο των εγγράφων του. (β) φτιάχνει ένα προφίλ των γειτόνων του βασισμένο στις επερωτήσεις του παρελθόντος (γ) έχει μια φόρμουλα βαθμολόγησης κόμβων που τη χρησιμοποιεί για επιλεκτική δρομολόγηση Local Invert. Local IndexInvert. Index CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Local Invert Index

11 PP and IR (Freenet-style) Προφίλ Γειτόνων βάσει των προηγούμενων απαντήσεων Local Invert. Local IndexInvert. Index p q ans(q)..86 Singing in the Rain «Υπάρχω».8.78 One UOne.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 LRU (Least Recently Used) deletion policy Το προφίλ είναι τριάδες της μορφής (pj,q, ans(pj,q) ) όπου pj ένας γείτονας, q μια επερώτηση που απήντησε αυτός ο γείτονας, και ans(pj,q) το μέγεθος της απάντησης LRU update policy CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Προφίλ Γειτόνων και Δρομολόγηση: >RES (περισσότερα αποτελέσματα) Προφίλ Γειτόνων και Δρομολόγηση: >RES και ομοιότητα επερωτήσεων p q ans(q)..86 Singing in the Rain «Υπάρχω».8.78 One UOne.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 Σκορ(..86 )=6 Σκορ(.8.7 )=8 p q ans(q)..86 Singing in the Rain «Υπάρχω».8.78 One UOne.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 Για την δρομολόγηση μιας επερώτησης επιλέγονται εκείνοι οι γείτονες που έχει δώσει τα περισσότερα αποτελέσματα στο παρελθόν ( >RES) (συγκεκριμένα στις προηγούμενες m επερωτήσεις) Το σκορ ενός γείτονα pj είναι Score(pj) = Σ { ans(pj,qj) qj answered by pj in the past} CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Για την δρομολόγηση μιας επερώτησης q επιλέγονται εκείνοι οι γείτονες που έχoυν δώσει τα περισσότερα αποτελέσματα στο παρελθόν ( >RES) σε επερωτήσεις που είναι κοντινές με το q CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Προφίλ Γειτόνων και Δρομολόγηση: >RES και ομοιότητα επερωτήσεων Το σκορ ενός γείτονα pj δοθείσας επερώτησης q, είναι: >RES Score(pj) = Σ { ans(pj,qj) qj answered by pj in the past} >RES και ομοιότητα επερωτήσεων Score(pj,q) = Σ { ans(pj,qj) *sim(qj, q) α qj answered by pj in the past} Προφίλ Γειτόνων και Δρομολόγηση: >RES και ομοιότητα επερωτήσεων p q ans(q)..86 Singing in the Rain «Υπάρχω».8.78 One UOne.mp Dog song «Υπήρξα» Pop Singing in the Rain «Υπάρχω» 7 q =Singing q = Special Dog Song sim(qj, q): Π.χ. ομοιότητα συνημίτονου α: παράμετρος για το καθορισμό της σπουδαιότητας μεταξύ συνάφειας και μεγέθους απάντησης CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Πότε αυτή η προσέγγιση είναι καλή; Απ: Όταν τα έγγραφα του κάθε κόμβου είναι σημασιολογικά κοντινά Ποια η διαφορά με το Freenet? Επειδή αυτό όμως δεν συμβαίνει πάντα η επερώτηση προωθείται και σε έναν τυχαία επιλεγμένο γείτονα. // επίσης για την εκκίνηση του συστήματος CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

12 Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα (Kazaa-style IR) Γενική Ιδέα: Κάνουμε ό,τι και στην κατανεμημένη, απλά εδώ έχουμε πολλούς μεσίτες Κάθε μεσίτης (εδώ super-peer) έχει μια περιγραφή των περιεχομένων των υποκείμενων κόμβων Επιλογή Πηγής Ενοποίηση Αποτελεσμάτων Hubs Leaf nodes CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη: Επιλογή Πηγής με Διανύσματα Πηγών IRS=<0.4, 0.,, 0.8> IRS=<0., 0.9,, 0.4> IRS=<0.8, 0.5,, 0.> IRS IRS IRS IRS4 IRS5 Βλέπουμε κάθε συλλογή ως ένα μεγάλο έγγραφο Φτιάχνουμε ένα διάνυσμα για κάθε συλλογή (τύπου TF-IDF) tfij: συνολικές εμφανίσεις του όρου i στη συλλογή j idfi: log(n/ni), όπου Ν το πλήθος των συλλογών, και ni το πλήθος των συλλογών που έχουν τον όρο i Υπολογίζουμε το βαθμό ομοιότητας κάθε νέας επερώτησης με το διάνυσμα κάθε συλλογής (π.χ. ομοιότητα συνημίτονου) Διατάσσουμε τις συλλογές και επιλέγουμε τις κορυφαίες Εναλλακτικά: Αντί για ένα, μπορούμε να περιγράφουμε κάθε πηγή με Κ διανύσματα CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα (Kazaa-style IR) Περιγραφή των περιεχομένων των φύλλων Ανάγκη για μείωση του αποθηκευτικού χώρου στα Hubs???? Hubs Leaf nodes Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα Επιλογές / Λεξιλόγια των υποκείμενων κόμβων + συχνότητες εμφάνισης τους (δεν ξέρουμε το καθολικό λεξιλόγιο για να φτιάξουμε το διάνυσμα πηγής) / Λεξιλόγια των υποκείμενων κόμβων / Λέξεις που εμφανίζονται πάνω από φορά + συχνότητες τους λόγω του νόμου του Ziph, οαπαιτούμενος αποθηκευτικός χώρος μειώνεται στο μισό? CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα (Kazaa-style IR) Περιγραφή των περιεχομένων των άλλων Hub? HUBS Desr? Leaves Descr. Leaves Descr. Leaves Descr. Leaves Descr. Hubs Leaf nodes Ανάκτηση Κειμένων σε Ιεραρχικά Ομότιμα Συστήματα A Client node sends its query to each of its connecting hubs. A hub that receives the query uses its resource selection algorithm to rank and select one or more neighboring leaf nodes as well as hubs, and routes the query to them if the message s TTL hasn t reached 0. A leaf node that receives the query message uses its document retrieval algorithm to generate a relevance ranking of its documents and responds with a queryhit message to include a list of top-ranked documents. Each top-level hub (the hub that connects directly to the client node that issues the request) collects the queryhit messages and uses its result merging algorithm to merge the documents retrieved from multiple leaf nodes into a single, integrated ranked list and returns it to the client node. If the client node issues the request to more than one hub, then it also needs to merge results returned by multiple toplevel hubs. ΗπεριγραφήενόςHUB είναι η ένωση των περιγραφών των υποκείμενων του κόμβων (Πρόβλημα: χώρος) Καταγραφή προηγούμενων επερωτήσεων που έχουν απαντηθεί π.χ. >RES και ομοιότητα επερώτησης CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 7

13 PP and IR: Το σύστημα PlanetP Local Invert. Local Index Invert. Index PlanetP Local Invert. Local Index Invert. Index PP and IR: Το σύστημα PlanetP καθολικό ανεστραμμένο ευρετήριο όλων των κόμβων? OXI. Ανάγκη για μια πιο συνοπτική περιγραφή Local Invert. Local IndexInvert. Index CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PP and IR: Το σύστημα PlanetP Επιλογή Πηγής??? Θυμηθείτε: Κατανομή Συναφών Εγγράφων (Relevant document distribution (RDD)) Διανύσματα Πηγών Το λεξιλόγιο κάθε κόμβου (όχιοιλίστεςτωνεμφανίσεων) περιγράφεται με ένα Bloom φίλτρο Επανάληψη: Signature files b= ( words per block) B=6 (bit masks of 6 bits) Text Block Block Block Block 4 This is a text. A text has many words. Words are made from letters. Text Signature ~ SIGNATURE FILES Signature Function h(text)= 0000 h(many)= 0000 h(words)=0000 h(made)= 0000 h(letters)=0000 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Bloom filters [Burton Bloom 970] Συμπαγής Κωδικοποίηση Συνόλων Ένα σύνολο κωδικοποιείται σε ένα δυαδικό διάνυσμα με των m-bits κ συναρτήσεις κατακερματισμού h, h,, hk, με πεδίο τιμών το {,..,m} Κωδικοποίηση στοιχείου: BF({α}) = διάνυσμα με άσσους στις θέσεις h(α), h(α),, hk(α) Κωδικοποίηση συνόλου: BF({α, α}) = BF({α}) ΒΙΤwiseOR BF({α}) m=4, k= Bloom filters: Παράδειγμα hash("apples") = hash("apples") = hash("apples") = {apples}= Πως βρίσκω αν ένα στοιχείο b ανήκει στο σύνολο A? / Υπολογίζω το BloomFilter του b / ΚοιτάζωανοιάσσοιτουBF(b) υπάρχουν στο BF(A) Αν όχι, τότε σίγουρα το b δεν ανήκει στο Α Αν ναι, τότε ανήκει αλλά μπορεί και να μην ανήκει (false positive) Όσο μεγαλύτερο είναι το m, τόσο μικρότερη η πιθανότητα για false positives CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring hash("plums") = hash("plums") = hash("plums") = 8 {apples, plums}= CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

14 Περιγραφή των λεξιλογίων με Bloom filters PP and IR: Το σύστημα PlanetP P: P: P: P: 0000 P: 0000 Κάθε pi κατασκευάζει το bloom filter bi του δικού του λεξιλογίου και στο στέλνει στο υπόλοιπο δίκτυο με τεχνικές flooding/gossiping P P cold P <5,> cold <4,> hot <5,> <6,> hot <4,> in <6,> in cold <,> <,> not not <5,> <4,> hot <,> pease <,> <4,> pease <5,> <6,> pease <,> <,> porridge <,> <4,> porridge <5,> <6,> porridge <,> <,> pot <,> pot <6,> the <,> the <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring P: 0000 P: 0000 P: 0000 P: 0000 Κάθε pi ξέρει τα bloom filters όλων των άλλων κόμβων Έτσι κάθε pi μπορεί να βρεί τους κόμβους που έχουν έναν συγκεκριμένο όρο (άρα μπορεί να προσεγγίσει το καθολικό ευρετήριο) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Bloom filters in PlanetP: Πόσο μεγάλα είναι; AP89 Collection (Associated Press articles of 989 from TREC): 84,678 documents, 9,60 words, collection size 66 MB Num. Peers Memory used (MB) % of collection size % % % 000 Nodes: => about 4500 terms per peer Bloom filters with less than 5% false positives => Bloom filter size for the vocabulary of one peer: 4.6 KB Total size of bloom filters of peers : 4.6 MBytes Γιατί το μέγεθος αυξάνει με το πλήθος των κόμβων; PlanetP: Τρόπος ενημέρωσης των κόμβων (Gossiping algorithms) ΗμετάδοσητωνBloom filters σε όλο το δίκτυο καθώς και η ενημέρωση των κόμβων (για νέα δεδομένα, είσοδο/έξοδο κόμβων) μπορεί να γίνει με ποικίλους αλγορίθμους gossiping: rumoring algorithm anti-entropy algorithm partial anti-entropy algorithm. CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring (Gossiping algorithms) Rumoring (φημολογία) (Gossiping algorithms) anti-entropy Ο p έχει μια αλλαγή: κάθε Χ δευτερόλεπτα, o p στέλνει ένα μήνυμα με την αλλαγή σε έναν τυχαία επιλεγμένο κόμβο p Αν ο p δεν ήξερε αυτήν την πληροφορία. τότε αρχίζει να κάνει ό,τι και ο p O p σταματάει να στέλνει μηνύματα μόνο αν n συνεχόμενοι κόμβοι του πουν ότι ήταν ήδη ενήμεροι της αλλαγής. Έχω μία αλλαγή! p p rumor rumor rumor rumor Κάθε Χ δευτερόλεπτα, κάθε κόμβος επιλέγει τυχαία έναν άλλο κόμβο (από το καθολικό του ευρετήριο) καιτουζητάεινα του στείλει μια περίληψη το δικού του καθολικού ευρετήριο. Αν διαπιστώσει ότι δεν είναι ενημερωμένος, του ζητάει ό,τι χρειάζεται. Purpose: The algorithm allows to avoid the possibility of rumors dying out before reaching everyone P x pull global index summary P y CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

15 PP and IR: Το σύστημα PlanetP PlanetP: Επιλογή Κόμβου P: P: Pn: 0000 P: P: Pn: 0000 P: P: Pn: 0000 P: P: Pn: 0000 Local Invert. Local IndexInvert. Index q P: P: Pn: 0000? / Βαθμολόγηση κόμβων βάσει της πιθανότητας να έχουν έγγραφα συναφή με την q / Επιλογή των κόμβων που θα επερωτηθούν και ενοποίηση των αποτελεσμάτων που θα επιστρέψουν P: P: Pn: 0000 P: P: Pn: 0000 Inverse Peer Frequency (IPF) of a term t = IPF(t) := total number of peers / peers that contain the term t Score(pj,q) = Σ { IPF(t) t q, t Bfilter(pj) } CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring PlanetP: Αποτελεσματικότητα & Επιδόσεις (Chord-style) Η αποτελεσματικότητα προσεγγίζει αυτήν που θα είχαμε αν κάθε κόμβος είχε ολόκληρο το ευρετήριο Τα μηνύματα φτάνουν σε 0%-40% περισσότερους κόμβους σε σχέση με την περίπτωση όπου κάθε κόμβος γνώριζε ακριβώς το καθολικό ευρετήριο Gossiping rate /second => PlanetP can propagate a Bloom filter containing 000 terms in less than 40 secs for a community of 000 peers. This requires an average of 4KB/s per peer. Ποια είναι εδώ τα κλειδιά? CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring (Chord-style) (Chord-style): Κάθε όρος είναι ένα κλειδί Περίπτωση (Ι): Κάθε όρος είναι ένα κλειδί Το ευρετήριο κατανέμεται βάσει των όρων (άρα έχουμε term-partitioning: θυμηθείτε την παράλληλη Α.Π. ) Αδυναμία: Η ενημέρωση των ευρετηρίων είναι ακριβή: Εισαγωγή ενός νέου εγγράφου: Για κάθε λέξη του εγγράφου, πρέπει να βρούμε τον κόμβο που είναι υπεύθυνος για αυτήν την λέξη και να του στείλουμε την ανεστραμμένη λίστα in <,> <6,> pot <,> <6,> pease <,> <,> <,> <4,> <5,> <6,> cold <,> <4,> <5,> hot <,> <4,> <5,> <6,> P P cold hot in not pease porridge <,> <4,> <5,> <,> <4,> <5,> <6,> <,> <6,> <4,> <5,> <,> <,> <,> <4,> <5,> <,> <,> <,> <4,> <5,> <,> <6,> <6,> <6,> pot P the <,> <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring not <4,> <5,> the <,> <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

16 (Chord-style) Αποτίμηση επερώτησης q βρίσκουμε κάθε κόμβο που έχει τουλάχιστον έναν όρο του q (χρησιμοποιώντας τους πίνακες δρομολόγησης) Σενάριο : κάθε ένας από αυτούς τους κόμβος υπολογίζει τα μερικά σκορ και τα στέλνει στον ερωτώντα (αφού του στείλουμε και την επερώτηση) Σενάριο : κάθε ένας από αυτούς τους κόμβους επιστρέφει τις ανεστραμμένες λίστες [-] Ανταλλαγή πολλών μηνυμάτων για επερωτήσεις με πολλούς όρους P P cold hot in not pease <,> <4,> <,> <4,> <5,> <6,> <,> <6,> <4,> <5,> <5,> <,> <,> <,> <4,> <5,> porridge <,> <,> <,> <4,> <5,> <6,> pot <,> <6,> P the <,> <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring <6,> (Chord-style) Υπόθεση: Έστω ότι το σύστημα λαμβάνει πολύ συχνά επερωτήσεις με όρους Περίπτωση (ΙΙ): Θεωρούμε ως κλειδί κάθε ζευγάρι όρων Αν η επερώτηση έχει όρους, τότε ένας μόνο κόμβος θα έχει όλο το κομμάτι του ευρετηρίου που χρειαζόμαστε Άραέτσιέχουμελίγαμηνύματα Π.χ. q= Hotels Crete Ξέρω ότι υπάρχει ένας κόμβος που έχει τις ανεστραμμένες λίστες και των δυο όρων, άρα ο κόμβος αυτός μπορεί να αποτιμήσει πλήρως την επερώτηση Αδυναμία: V * ( V -) κλειδιά, άρα η ανεστραμμένη λίστα κάθε λέξης είναι αποθηκευμένη V - φορές P P P Hotels [.inverted list for Hotels. ] Crete [ inverted list for Crete ] Hotels [.inverted list for Hotels. ] Cefalonia [ inverted list for Cefalonia ] Crete [.inverted list for Crete. ] Cefalonia [ inverted list for Cefalonia ] Η είσοδος ενός νέου εγγράφου είναι ακόμα πιο ακριβή CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Περίπτωση (ΙΙΙ): Θεωρούμε ως κλειδιά τα διανύσματα των εγγράφων Ερ: Ποια προσέγγιση δομημένων συστημάτων είναι κατάλληλη για την παράσταση διανυσμάτων (Chord ή CAN) ; Απ: Η προσέγγιση του CAN διότι βλέπει τον χώρο των κλειδιών ως ένα κ- διάστατο χώρο Document Partitioning: Ο υπολογισμός των καθολικών στατιστικών (IDF) απαιτεί επικοινωνία Άραδιαμερίζουμεταέγγραφαστους κόμβους βάσει των διανυσμάτων τους. (άρα document-partitioning (θυμηθείτε την Παράλληλη Α.Π. )) Ερ: Τι κερδίζουμε διαμερίζοντας τα έγγραφα όπως το CAN? Απ: Τα κοντινά (ως προς το μέτρο συνημίτονου) έγγραφα τοποθετούνται στον ίδιο ή σε κοντινούς κόμβους. cold hot pease porridge P <,> <,> <,> <,> <,> <,> cold hot in not pease porridge pot the P <4,> <4,> <,> <4,> <,> <4,> <,> <4,> <,> <,> cold hot in not pease porridge pot the P <5,> <5,> <6,> <6,> <5,> <5,> <6,> <5,> <6,> <6,> <6,> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring (CΑΝ-style) Ερ: Πόσες διαστάσεις έχουν τα διανύσματα των εγγράφων; Απ: Συνήθως πολλές (π.χ ) Ερ: Πόσους γείτονες έχει μια περιοχή k-διάστατου χώρου; Απ: κατά μέσο όρο κ Για κ= έχω Για κ= έχω 4 Για κ= έχω 6 Για κ=0.000 έχω 0.000! (CΑΝ-style). Το σύστημα psearch Μείωση των διαστάσεων των διανυσμάτων για (Ι) Μείωση του αριθμού των γειτόνων που πρέπει να γνωρίζει (αποθηκεύει) ένας κόμβος. (ΙΙ) Ομαδοποίηση εγγράφων Αξιοποίηση συνωνύμων, συνεμφανιζόμενων λέξέων, μείωση θορύβου Τρόπος μείωσης διαστάσεων: Latent Semantic Indexing CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

17 Επανάληψη: Latent Semantic Indexing: t: total number of index terms d: total number of documents terms documents X = t x d T0 t x m Singular Value Decomposition * * * S * * m x m D 0 0 m x d m=min(t,d) Επανάληψη LSI: Paper example Index terms in italics terms documents X^ = T Select first k (<m) singular values * * * * S * D k x k k x d t x d t x k CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη LSI: term-document Matrix Επανάληψη LSI: T 0,S 0,D 0 T 0 S 0 D 0 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Επανάληψη LSI: SVD with minor terms dropped TS define coordinates for documents in latent space (CΑΝ-style). Το σύστημα psearch Διάσταση διανυσμάτων μετά την εφαρμογή LSI: Φτιάχνουμε ένα CAN με διαστάσεις όσες των διανυσμάτων (μετά το LSI). Εισαγωγή ενός νέου εγγράφου: Φτιάχνεται το «semantic διάνυσμα» του εγγράφου (βάσει των διαστάσεων που προέκυψαν από την εφαρμογή του LSI) και εισάγεται στον κατάλληλο κόμβο Είσοδοςμιαςνέαςεπερώτησης Φτιάχνεται το semantic διάνυσμα της επερώτησης και δρομολογείται στον κατάλληλο κόμβο Μόλις φτάσει στον κόμβο, διαδίδεται στους γείτονες σε απόσταση ρ Το ρ μπορεί να δίδεται μαζί με την αρχική επερώτηση CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 0

18 (CΑΝ-style). Το σύστημα psearch (CΑΝ-style). Το σύστημα psearch Επερώτηση B (0-0.5, 0.5-) C (0.5-, 0.75-) Ε (0.5-, ) q Ο υπολογισμός του LSI απαιτεί Καθολικά στατιστικά (IDF) Επίσηςόλοιοικόμβοιπρέπειναγνωρίζουντηνβάσητου σημασιολογικού χώρου (για να υπολογίζουμε τα σημασιολογικά διανύσματα των νέων εγγράφων). Τα παραπάνω πρέπει να διαδοθούν σε όλους τους κόμβους. 0 A (0-0.5, 0-0.5) D (0.5-, 0-0.5) Το πρόβλημα των διαστάσεων 00 LSI διαστάσεις. Αν έχω λίγους κόμβους τότε η πραγματική διάσταση του CAN ειναι μικρότερη γιατί δεν υπάρχουν αρκετοί κόμβοι. Έτσι πολλές διαστάσεις παραμένουν αδιαμέριστες, μεγαλώνοντας έτσι το μήκος του μονοπατιού αναζήτησης. CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CAN & Multiple Realities Ένας τρόπος αύξησης της ευρωστίας / ανθεκτικότητας είναι να θεωρήσουμε Πολλαπλές Πραγματικότητες (Multiple Realities) Δεν έχουμε αλλά m διαφορετικά συστήματα συντεταγμένων Κάθε κόμβος έχει μια ζώνη για κάθε σύστημα συντεταγμένων Έτσι έχουμε m αντίγραφα ευρετηρίου Μείωση του μήκους του μονοπατιού αναζήτησης (επιλέγεται το σύστημα συντεταγμένων βάσει του οποίου η αναζητούμενη ζώνη είναι εγγύτερα) (CΑΝ-style). Το σύστημα psearch Διαμερισμός των διανυσμάτων σε πολλά διανύσματα μικρότερης διάστασης (x,, x n ) => (x,, x n ), (x n+,, x n ), (x n+,, x n ) Τα πρώτα διανύσματα αποθηκεύονται σε ένα CAN Τα δεύτερα σε ένα CAN, κ.ο.κ Το διάνυσμα μιας επερώτησης επίσης διαμερίζεται σε διανύσματα μικρότερης διάστασης : o q q o CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring (CΑΝ-style). Το σύστημα psearch: Σύνοψη Φτιάχνουμε ένα ευρετήριο όπου κάθε έγγραφο δεν περιγράφεται από το διάνυσμα του, αλλά από το διάνυσμα που προκύπτει αν πρώτα εφαρμόσουμε Latent Semantic Indexing διανύσματα μικρότερης διάστασης, ομαδοποίηση εγγράφων Τα ευρετήριο αυτό διανέμεται στους κόμβους. Το κλειδί του κάθε εγγράφου είναι το διάνυσμα του (μετά την εφαρμογή του LSI). // Αυτό θα τοποθετήσει στον ίδιο κόμβο εννοιολογικά συναφή έγγραφα Ο υπολογισμός των διανυσμάτων απαιτεί καθολικά στατιστικά (άρα υπάρχει ανάγκη επικοινωνίας). Επίσης πρέπει να συμφωνηθεί η βάση των διανυσμάτων. Μπορεί να χρησιμοποιηθεί και για πολυμέσα (θυμηθείτε Featurebased Multimedia Indexing). CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ενοποίηση Αποτελεσμάτων & Ομότιμα Συστήματα answer =? ans ans ans ans4 ans5 IRS IRS IRS IRS4 IRS5 Τεχνικές Ενοποίησης Αποτελεσμάτων Round Robin Inter-leaving Score-based (~ merge sort) καλή αν τα σκορ υπολογίζονται βάσει των καθολικών στατιστικών Weighted-score based Έστω di προερχόμενο από μια πηγή Sj score(di) = score(sj,di) * score(sj) Λαμβάνοντας υπόψη μόνο τις διατάξεις και όχι τα σκορ (ενοποίηση διατάξεων) Borda, Condorcet, Kemeny, Arrow s Impossibility Theorem CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring

19 Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (Ι): Οι κόμβοι δεν έχουν στη διάθεση τους καθολικά στατιστικά Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙ): Οι κόμβοι μπορούν να προσεγγίσουν τα καθολικά στατιστικά q Local Invert. Local Index Invert. Index P: P: P: P: Pn: 0000 Pn: 0000 P: P: Pn: 0000 P: P: P: Pn: 0000 P: Pn: 0000 Local Invert. Local Index Invert. Index P: P: Pn: 0000 Gnutella-like systems (document-partitioning): Ενοποίηση: Round-robin interleaving, Score-based, Rank-Aggregation Συστήματα βασισμένα σε προφίλ γειτόνων και >RES Ενοποίηση: Weighted score-based Π.χ. PlanetP (κάθε κόμβος μπορεί να προσεγγίσει το καθολικό ευρετήριο) Ενοποίηση: Weighted score-based (καλύτερο από το προφίλ γειτόνων, λιγότερα μηνύματα) CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙΙ): Οι κόμβοι έχουν στη διάθεση τους τα καθολικά στατιστικά in <,> <6,> pot <,> <6,> not <4,> <5,> pease <,> <,> <,> <4,> <5,> cold <,> <4,> <5,> hot <,> <4,> <5,> <6,> Π.χ. Chord-like (term-partitioning) ο κόμβος που είναι υπεύθυνος για έναν όρο γνωρίζει τις συχνότητες εμφάνισης του καθώςκαιτοπλήθοςτωνκόμβωνπουέχουνέγγραφαπουπεριέχουναυτόντονόρο Ενοποίηση: απλό Score-based είναι μια χαρά κάθε κόμβος υπολογίζει partial scores, ο ερωτών τα αθροίζει και παράγει την τελική διάταξη CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 the <,> <6,> <6,> Ενοποίηση Αποτελεσμάτων σε Ομότιμα Συστήματα (ΙΙΙ): Οι κόμβοι έχουν στη διάθεση τους τα καθολικά στατιστικά Έστω σύστημα όπως το Chord, στο οποίο τα κλειδιά είναι οι όροι και το οποίο συνολικά έχει έγγραφα Η ανεστραμμένη λίστα ενός όρου έχει το πολύ αναφορές σε έγγραφα (έστω ότι κατά μέσο όρο έχει αναφορές) Έστω ότι ο p λαμβάνει επερώτηση q με 5 όρους. Κάθε όρος της q (μαζί με βάρος του στο q) θα προωθηθεί στον υπεύθυνο κόμβο για τον όρο αυτό Κάθε ένας από τους 5 κόμβους θα διατάξει τα έγγραφα βάσει του όρου αυτού και θα επιστρέψει μια λίστα μερικών αποτελεσμάτων το πολύ τριάδες (p, docid, score) κάτα μέσο όρο O p θα λάβει αυτές τις 5 λίστες και θα αθροίσει τα μερικά σκορ score(doci) = score(doci) + + score5(doci) Άρα 5* τριάδες ακεραίων πρέπει να μεταφερθούν στο δίκτυο TotalBytes = 50Κ * * 4 = 600 ΚΒ Ερώτηση: Αν ο p θέλειναβρειμόνοτακορυφαίακ(π.χ. κ=0) έγγραφα. Πως μπορούμε να ελαχιστοποιήσουμε την πληροφορία που πρέπει να μεταφέρουμε; CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 Top-k Rank Aggregation Έχουμε Ν αντικείμενα και τους βαθμούς τους βάσει m διαφορετικών κριτηρίων. Έχουμε έναν τρόπο να συνδυάζουμε τα m σκορ κάθε αντικειμένου σε ένα ενοποιημένο σκορ π.χ. min, avg, sum Στόχος: Βρες τα κ αντικείμενα με το υψηλότερο ενοποιημένο σκορ. Εφαρμογές: Υπολογισμός των κορυφαίων-κ στοιχείων της απάντησης ενός ΣΑΠ που βασίζεται στο διανυσματικό μοντέλο (τα m κριτήρια είναι οι m όροι της επερώτησης) ενός μεσίτη πάνω από m Συστήματα Ανάκτησης Πληροφοριών μιας επερώτησης σε μια Βάση Πολυμέσων κριτήρια: χρώμα, μορφή, υφή, Άλλο ένα παράδειγμα εφαρμογής Ενοποίηση απαντήσεων σε Μεσολαβητές (middleware) έστω μια υπηρεσία εύρεσης εστιατορίων βάσει τριών κριτηρίων: τιμή γεύματος απόσταση από ένα σημείο κατάταξη εστιατορίου όπου ο χρήστης μπορεί να ορίσει τον επιθυμητό τρόπο υπολογισμού του ενοποιημένου σκορ ενός εστιατορίου π.χ. Σκορ= Τιμή*0.5 + Stars* *DistanceFromHome ηυπηρεσίααυτήυλοποιείταιμεχρήσητριώναπομακρυσμένωνυπηρεσιών (α) getrestaurantsbyprice (b) getrestaurantsbystars (c) getrestaurantsbydistance Πως μπορώ να ελαχιστοποιήσω το πλήθος των στοιχείων που πρέπει να διαβάσω από την απάντηση της κάθε υπηρεσίας, προκειμένου να βρω τα κορυφαία 5 εστιατόρια; CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 4

20 Εύρεση των κ-κορυφαίων Απλοϊκός Αλγόριθμος / Ανέκτησε ολόκληρες τις m λίστες / Υπολόγισε το ενοποιημένο σκορ του κάθε αντικειμένου / Ταξινόμησε τα αντικείμενα βάσει του σκορ και επέλεξε τα πρώτα κ Εύρεση των κ-κορυφαίων Παράδειγμα: Απλοϊκός Τρόπος S = < Α 0.9, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > S = < B.0, E 0.8, F 0.7, Α 0.7, C 0.5, H 0.5, G 0.5 > S = < Α 0.8, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > Παρατηρήσεις Κόστος γραμμικό ως προς το μήκος των λιστών Δεν αξιοποιεί το γεγονός ότι οι λίστες είναι ταξινομημένες CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Ο Απλοϊκός Τρόπος Score(Α) = =.4 Score(B) = = Score(C) = =. Score(E) = =. Score(F) = =.7 Score(G) = =.5 Score(H) = =.5 Τελική διάταξη: < A, E, C, B, F, G, H> CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων Πιο Αποδοτικοί Αλγόριθμοι Γενική ιδέα: Άρχισε να διαβάζεις τις διατάξεις από την κορυφή. Προσπάθησε να καταλάβεις πότε πρέπει να σταματήσεις. Αλγόριθμοι Fagin Algorithm (FA) [Fagin 999, J. CSS 58] Threshold Algorithm (ΤΑ) [Fagin et al., PODS 00] Υποθέσεις Υποθέτουμε ότι έχουμε στη διάθεση μας τρόπους πρόσβασης στα αποτελέσματα μιας πηγής: Σειριακή πρόσβαση στις διατάξεις: φθίνουσα ως προς το σκορ Τυχαία προσπέλαση: Δυνατότητα εύρεσης του σκορ ενός αντικειμένου με μία πρόσβαση Συναρτήσεις βαθμολόγησης (σκορ) Τα σκορ ανήκουν στο διάστημα [0,] Η συνάρτηση ενοποιημένου σκορ είναι μονότονη αν όλα (m) τα σκορ ενός αντικειμένου Α είναι μεγαλύτερα ή ίσα των αντίστοιχων σκορ ενός αντικειμένου Β, τότε σίγουρα το ενοποιημένο σκορ του Α είναι μεγαλύτερο ή ίσο του σκορ του Β CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων ΟΑλγόριθμοςτουFagin (FA) [999].α/ Κάνε σειριακή ανάκτηση αντικειμένων από κάθε λίστα (αρχίζοντας από την κορυφή), έως ότου η τομή των αντικειμένων από κάθε λίστα να έχει κ αντικείμενα.β/ Για κάθε αντικείμενο που ανακτήθηκε (στο.α) συνέλεξε τα σκορ που λείπουν (με χρήση του μηχανισμού τυχαίας προσπέλασης) / Υπολόγισε το ενοποιημένο σκορ του κάθε αντικειμένου / Ταξινόμησε τα αντικείμενα βάσει του ενοποιημένου σκορ και επέλεξε τα πρώτα κ Σχόλια Αξιοποιεί(α) τογεγονόςότιοιλίστεςείναιταξινομημένεςκαι(β) ότιησυνάρτηση ενοποίησης είναι μονότονη [-] Το πλήθος των αντικειμένων που θα ανακτηθούν μπορεί να είναι μεγάλο CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring Εύρεση των κ-κορυφαίων Παράδειγμα: Αλγόριθμος του Fagin (FA) S = < Α 0.9, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > S = < B.0, E 0.8, F 0.7, Α 0.7, C 0.5, H 0.5, G 0.5 > S = < Α 0.8, C 0.8, E 0.7, B 0.5, F 0.5, G 0.5, H 0.5 > Έστω ότι θέλω το Top- Το Ε εμφανίζεται σε όλες (μονοτονία => δεν μπορεί κάποιο δεξιότερο του Ε να είναι καλύτερο του Ε Το Ε δεν είναι σίγουρα ο νικητής. Υποψήφιοι νικητές = {A, B, C, E, F}. Κάνουμε τυχαίες προσπελάσεις για vα βρούμε τα σκορ που μας λείπουν getscore(s,a), getscore(s,b), getscore(s,b), getscore(s,c), Πράγματι, top-= {Α} Εύρεση των κ-κορυφαίων ΟΑλγόριθμοςΤΑ(Threshold Algorithm) [Fagin et al. 00] Ιδέα: Υπολόγισε το μέγιστο σκορ που μπορεί να έχει ένα αντικείμενο που δεν έχουμε συναντήσει ακόμα. / Κάνε σειριακή ανάκτηση αντικειμένων από κάθε λίστα (αρχίζοντας από την κορυφή) και με χρήση τυχαίας προσπέλασης βρες όλα τα σκορ κάθε αντικειμένου / Ταξινόμησε τα αντικείμενα (βάσει του ενοποιημένου σκορ) και κράτησε τα καλύτερα κ / Σταμάτησε την σειριακή ανάκτηση όταν τα σκορ των παραπάνω κ αντικειμένων δεν μπορεί να είναι μικρότερα του μέγιστου πιθανού σκορ των απαρατήρητων αντικειμένων (threshold). CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring CS46 - Information Retrieval Yannis Tzitzikas, U. of Crete, Spring 006 0

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μέρος Γ Συστήματα Ομοτίμων (Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μέρος Γ Συστήματα Ομοτίμων (Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γιάννης Τζίτζικας ιάλεξη : 17b Ημερομηνία : 30-5-007 Μέρος Γ Συστήματα

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems) & IR

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems) & IR Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ανάκτηση Πληροφοριών & Συστήματα Ομοτίμων (Peer-to-Peer Systems)

Διαβάστε περισσότερα

(Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών

(Peer-to-Peer Systems) και Ανάκτηση Πληροφοριών Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γιάννης Τζίτζικας άλ ιάλεξη : Ημερομηνία : Μέρος Γ Συστήματα Ομοτίμων

Διαβάστε περισσότερα

Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών

Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών CS463 - Information Retrieval Yannis Tzitzikas, U.

Διαβάστε περισσότερα

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα

Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα Τα Peer-To-Peer προσελκύουν το ενδιαφέρον Ακαδημαϊκά Προσπάθειες International Workshop on P2P Computing Global and P2P Computing

Διαβάστε περισσότερα

Parallel and Distributed IR

Parallel and Distributed IR Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη η και Κατανεμημένη η ΑΠ Γιάννης

Διαβάστε περισσότερα

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα. Συστήματα Peer-to-Peer (P2P)

Κατανεμημένα Συστήματα. Συστήματα Peer-to-Peer (P2P) Κατανεμημένα Συστήματα Συστήματα Peer-to-Peer (P2P) Κωνσταντίνος Αντωνής 2011 Σκοπός Τα P2P είναι κατανεμημένες αρχιτεκτονικές που σχεδιάζονται με σκοπό τη διαμοίραση πόρων (περιεχομένου, αποθηκευτικού

Διαβάστε περισσότερα

Peer-to-Peer Technology

Peer-to-Peer Technology Peer-to-Peer Technology Συστήµατα Peer to Peer Καταργούν την αρχιτεκτονική Client-Server Στηρίζονται στην οµότιµη και εθελοντική συµπεριφορά των διαφόρων κόµβων Client Server Συστήµατα Peer to Peer Καταργούν

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

P2P αρχιτεκτονικές. για Υλοποίηση Επιχειρησιακών Μοντέλων για Η- Εμπόριο. S3 Laboratory - Τεχνολογία Ηλεκτρονικού Εμπορίου

P2P αρχιτεκτονικές. για Υλοποίηση Επιχειρησιακών Μοντέλων για Η- Εμπόριο. S3 Laboratory - Τεχνολογία Ηλεκτρονικού Εμπορίου P2P αρχιτεκτονικές για Υλοποίηση Επιχειρησιακών Μοντέλων για Η- Εμπόριο P2P αρχιτεκτονική P2P δικτύωση: νέα μορφή προγραμματισμού κατανεμημένων εφαρμογών P2P δίκτυα: διαθέτουν κόμβους που αλληλεπιδρούν

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Ομότιμα συστήματα p2p systems ΠΡΙΝΕΑ ΜΑΡΙΑ 10 ΕΞΑΜΗΝΟ

Ομότιμα συστήματα p2p systems ΠΡΙΝΕΑ ΜΑΡΙΑ 10 ΕΞΑΜΗΝΟ Ομότιμα συστήματα p2p systems ΠΡΙΝΕΑ ΜΑΡΙΑ 10 ΕΞΑΜΗΝΟ ΠΕΡΙΛΗΨΗ P2P Εναλλακτική λύση των παραδοσιακών συστημάτων κεντρικών Η/Υ Κυριότερα συστήματα:napster κ Gnutella Μελέτη μέτρησης συστημάτων (μέτρηση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Σε ένα σύστημα φιλτραρίσματος πληροφορίας, ή αλλιώς σύστημα έκδοσης/συνδρομής, οι χρήστες εγγράφονται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης Τζίτζικας CS463 - Information Retrieval Systems Yannis Tzitzikas,

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks P2P 1,a) 1 1 1 P2P P2P P2P P2P A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks NARISHIGE Yuki 1,a) ABE Kota 1 ISHIBASHI Hayato 1 MATSUURA Toshio 1

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ασκήσεις.

Κατανεμημένα Συστήματα Ασκήσεις. Κατανεμημένα Συστήματα Ασκήσεις 2016-2017 http://www.cslab.ece.ntua.gr/courses/distrib Άσκηση 1 3 διεργασίες, η P1, η P2 και η P3 στέλνουν μεταξύ τους multicast μηνύματα. Σε περίπτωση που θέλουμε να εξασφαλίσουμε:

Διαβάστε περισσότερα

Standard Template Library (STL) C++ library

Standard Template Library (STL) C++ library Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Standard Template Library (STL) C++ library Δομές Δεδομένων Μάριος Κενδέα kendea@ceid.upatras.gr Εισαγωγή Η Standard Βιβλιοθήκη προτύπων

Διαβάστε περισσότερα

Διπλωματική Εργασία. Ανάπτυξη και Πειραματισμός Αλγορίθμων Αναζήτησης Πόρων σε Διομότιμα Συστήματα (Peer-to-Peer networks)

Διπλωματική Εργασία. Ανάπτυξη και Πειραματισμός Αλγορίθμων Αναζήτησης Πόρων σε Διομότιμα Συστήματα (Peer-to-Peer networks) Τεχνολογικό Εκπαιδευτικό Ίδρυμα Κρήτης Τμήμα Εφαρμοσμένης Πληροφορικής και Πολυμέσων Διπλωματική Εργασία Ανάπτυξη και Πειραματισμός Αλγορίθμων Αναζήτησης Πόρων σε Διομότιμα Συστήματα (Peer-to-Peer networks)

Διαβάστε περισσότερα

ιαχείριση εδομένων σε Συστήματα Ομότιμων Κόμβων

ιαχείριση εδομένων σε Συστήματα Ομότιμων Κόμβων Εισαγωγή ιαχείριση εδομένων σε Συστήματα Ομότιμων Κόμβων Μεγάλος αριθμός από κόμβους (συνήθως υπολογιστές στην «άκρη» του διαδικτύου) Συμμετέχουν στον υπολογισμό Προσφέροντας πόρους (π.χ., μουσικά αρχεία)

Διαβάστε περισσότερα

KLEE: A Framework for Distributed top-k Query Algorithms

KLEE: A Framework for Distributed top-k Query Algorithms KLEE: A Framework for Distributed top-k Query Algorithms Sebastian Michel Peter Triantafillou Gerhard Weikum VLDB 2005 Αντικείμενο της εργασίας Η εργασία αναφέρεται στο πρόβλημα των top-k queries που αφορούν

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα. Javascript LCR example

Κατανεμημένα Συστήματα. Javascript LCR example Κατανεμημένα Συστήματα Javascript LCR example Javascript JavaScript All JavaScript is the scripting language of the Web. modern HTML pages are using JavaScript to add functionality, validate input, communicate

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Αρχιτεκτονική υπολογιστών

Αρχιτεκτονική υπολογιστών 1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Αρχιτεκτονική υπολογιστών Ενότητα 4 : Κρυφή Μνήμη Καρβούνης Ευάγγελος Δευτέρα, 30/11/2015 Χαρακτηριστικά Θέση Χωρητικότητα Μονάδα Μεταφοράς

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Ενοποίηση

Διαβάστε περισσότερα

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα). Κ08 Δομές Δεδομένων και Τεχνικές Προγραμματισμού Διδάσκων: Μανόλης Κουμπαράκης Εαρινό Εξάμηνο 2017-2018. Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη

Ευρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη Ευρετήρια Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βασικές έννοιες Οι μηχανισμοί δεικτοδότησης χρησιμοποιούνται για να επιταχύνουν την προσπέλαση σε επιθυμητά δεδομένα. π.χ., author catalog in library

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

ΤΕΙ Πειραιά, Τμήμα Ηλεκτρονικής. Δίκτυα P2P. Χαράλαμπος Ζ. Πατρικάκης

ΤΕΙ Πειραιά, Τμήμα Ηλεκτρονικής. Δίκτυα P2P. Χαράλαμπος Ζ. Πατρικάκης Δίκτυα P2P Χαράλαμπος Ζ. Πατρικάκης Δημιουργώντας μια εφαρμογή Δημιουργία προγραμμάτων τα οποία: Τρέχουν σε (διαφορετικά) τερματικά συστήματα Επικοινωνούν πάνω από το δίκτυο π.χ. το λογισμικό του εξυπηρετητή

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Κατακερματισμός Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Λεξικό Dictionary Ένα λεξικό (dictionary) είναι ένας αφηρημένος τύπος δεδομένων (ΑΤΔ) που διατηρεί

Διαβάστε περισσότερα

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1 Κατακερματισμός 4/3/2009 Μ.Χατζόπουλος 1 H ιδέα που βρίσκεται πίσω από την τεχνική του κατακερματισμού είναι να δίνεται μια συνάρτησης h, που λέγεται συνάρτηση κατακερματισμού ή παραγωγής τυχαίων τιμών

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τµήµα Πληροφορικής Φθινοπωρινό Εξάµηνο 2016 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4 Διδάσκων: E. Μαρκάκης Υλοποίηση LRU Cache Στην εργασία αυτή ζητείται να υλοποιήσετε σε Java τις βασικές

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ

Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ Δομές Δεδομένων Standard Template Library (STL) 23/3/2017 ΜΠΟΜΠΟΤΑΣ ΑΓΟΡΑΚΗΣ mpompotas@ceid.upatras.gr Εισαγωγή - STL Η Standard Βιβλιοθήκη προτύπων (STL) είναι μια βιβλιοθήκη λογισμικού για την C++ Δημιουργήθηκε

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα

Πληροφοριακά Συστήματα Πληροφοριακά Συστήματα Ανακτώντας Πληροφορία και Γνώση στον Παγκόσμιο Ιστό Γιάννης Τζίτζικας Επίκουρος Καθηγητής Τμήματος Επιστήμης Υπολογιστών και Συνεργαζόμενος Ερευνητής του ΙΤΕ-ΙΠ 3 Απριλίου 2015 Διάρθρωση

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Βασικές έννοιες. Κατανεμημένα Συστήματα 1

Βασικές έννοιες. Κατανεμημένα Συστήματα 1 Βασικές έννοιες Κατανεμημένα Συστήματα 1 lalis@inf.uth.gr Ορισμός κατανεμημένου συστήματος Ένα σύστημα από ξεχωριστές ενεργές οντότητες (ονομάζονται «κόμβοι» ή «διεργασίες») που εκτελούνται ταυτόχρονα/ανεξάρτητα

Διαβάστε περισσότερα

Στόχοι και αντικείμενο ενότητας. Πέρασμα Πίνακα σε Συνάρτηση (συν.) Πέρασμα Πίνακα σε Συνάρτηση. #8.. Ειδικά Θέματα Αλγορίθμων

Στόχοι και αντικείμενο ενότητας. Πέρασμα Πίνακα σε Συνάρτηση (συν.) Πέρασμα Πίνακα σε Συνάρτηση. #8.. Ειδικά Θέματα Αλγορίθμων Στόχοι και αντικείμενο ενότητας Πέρασμα Πίνακα σε Συνάρτηση #8.. Ειδικά Θέματα Αλγορίθμων Προβλήματα Αναζήτησης Γραμμική Αναζήτηση (Linear Search) Ενημέρωση Μέτρηση Δυαδική Αναζήτηση (Binary Search) Προβλήματα

Διαβάστε περισσότερα

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Cuckoo Hashing Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο β Πολυτεχνείο Πρόβλημα (ADT) Λεξικού υναμικά μεταβαλλόμενη συλλογή αντικειμένων που αναγνωρίζονται με «κλειδί» (π.χ.

Διαβάστε περισσότερα

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ανασκόπηση Προβλήματος και Προκαταρκτικών Λύσεων Bit Διανύσματα Τεχνικές Κατακερματισμού & Συναρτήσεις

Διαβάστε περισσότερα

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible. B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs

Διαβάστε περισσότερα

Επίπεδο δικτύου IP Forwading κτλ

Επίπεδο δικτύου IP Forwading κτλ Επίπεδο δικτύου IP Forwading κτλ (IP για που το έβαλες) Εργαστήριο Δικτύων Υπολογιστών 2014-2015 Τμήμα Μηχανικών Η/Υ και Πληροφορικής Επίπεδο δικτύου (Network layer) Επίπεδο εφαρμογής (Application layer):

Διαβάστε περισσότερα

Topics in Database Systems: Data Management in Peer-to-Peer Systems

Topics in Database Systems: Data Management in Peer-to-Peer Systems ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Topics in Database Systems: Data Management in Peer-to-Peer Systems ASSIGNMENT 9: Peer-to-peer Systems Due: June 17, 2005 ιδάσκουσα: Ε. Πιτουρά ΜΑΡΓΑΡΙΤΗ ΣΠΥΡΙ

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Βασικές έννοιες. Κατανεμημένα Συστήματα 1

Βασικές έννοιες. Κατανεμημένα Συστήματα 1 Βασικές έννοιες Κατανεμημένα Συστήματα 1 lalis@inf.uth.gr Ορισμός κατανεμημένου συστήματος Ένα σύστημα από ξεχωριστές ενεργές οντότητες (ονομάζονται «κόμβοι» ή «διεργασίες») που εκτελούνται ταυτόχρονα/ανεξάρτητα

Διαβάστε περισσότερα

ΑΝΑΖΗΤΗΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ ΑΔΟΜΗΤΑ ΔΙΚΤΥΑ ΟΜΟΤΙΜΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

ΑΝΑΖΗΤΗΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ ΑΔΟΜΗΤΑ ΔΙΚΤΥΑ ΟΜΟΤΙΜΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην ΑΝΑΖΗΤΗΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ ΑΔΟΜΗΤΑ ΔΙΚΤΥΑ ΟΜΟΤΙΜΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Πληροφορικής Εξεταστική Επιτροπή

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing)

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ανασκόπηση Προβλήματος και Προκαταρκτικών Λύσεων Bit-Διανύσματα

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΔΙΔΑΚΤΙΚΗΣ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΔΙΔΑΚΤΙΚΗΣ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑ ΔΙΔΑΚΤΙΚΗΣ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΑΤΕΥΘΥΝΣΗ : ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ & ΔΙΚΤΥΑ Διπλωματική Εργασία Μελέτη των Μηχανισμών ασφάλειας που εφαρμόζονται

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

SEMANTIC DATA CACHING AND REPLACEMENT

SEMANTIC DATA CACHING AND REPLACEMENT SEMANTIC DATA CACHING AND REPLACEMENT Paper By: Shaul Dar, Michael J. Franklin, Bjorn Jonsson, Divesh Srivastava, Michael Tan Appeared: VLDB conference 1996 Presented by: Βασίλης Φωτόπουλος Agenda 1. Data-Shipping

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Δρομολόγηση (Routing)

Δρομολόγηση (Routing) Δρομολόγηση (Routing) Περίληψη Flooding Η Αρχή του Βέλτιστου και Δυναμικός Προγραμματισμός ijkstra s Algorithm Αλγόριθμοi Δρομολόγησης Link State istance Vector Δρομολόγηση σε Κινητά Δίκτυα Δρομολόγηση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα