Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer



Σχετικά έγγραφα
DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Ανάκτηση Πληροφορίας

Βάσεις Δεδομένων ΙΙ Ενότητα 5

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Κεφ.11: Ευρετήρια και Κατακερματισμός

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Πληροφορική 2. Δομές δεδομένων και αρχείων

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Δυναμικός Κατακερματισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Βάσεις Δεδομένων ΙΙ Ενότητα 6

Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Πίνακες Κατακερματισμού. Hash Tables. Προγραμματισμός II 1

Πιθανοκρατικό μοντέλο

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Ανάκτηση Δεδομένων (Information Retrieval)

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Πληροφοριακά Συστήματα

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

Πανεπιστήμιο Ιωαννίνων Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής. ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Advanced Data Indexing

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΗΥ486 - Αρχές Κατανεμημένου Υπολογισμού Εαρινό Εξάμηνο Δεύτερη Προγραμματιστική Εργασία

Βάσεις Δεδομένων 2. Φροντιστήριο Αλγόριθμοι Επεξεργασίας και Βελτιστοποίησης Επερωτήσεων. Ημερ: 27/5/2008 Ακ.Έτος

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1

Εαρινό Εξάμηνο

Δομές Δεδομένων. Ενότητα 7: Άλλες παραλλαγές Συνδεδεμένων Λιστών-Παράσταση Αραιού Πολυωνύμου με Συνδεδεμένη Λίστα. Καθηγήτρια Μαρία Σατρατζέμη

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

Advanced Data Indexing

KLEE: A Framework for Distributed top-k Query Algorithms

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΗΜΟΣΙΩΝ ΕΠΕΝ ΥΣΕΩΝ & ΕΣΠΑ ΕΘΝΙΚΗ ΑΡΧΗ ΣΥΝΤΟΝΙΣΜΟΥ ΕΙ ΙΚΗ ΥΠΗΡΕΣΙΑ Ο.Π.Σ.

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική II. Ενότητα 6 : Δομές αρχείων. Δρ. Γκόγκος Χρήστος

Οδηγίες Χρήσης της MySQL

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

εντρικά Ευρετήρια έντρα Αναζήτησης

Φροντιστήριο Αποθήκευση σε δίσκο, βασικές οργανώσεις αρχείων κατακερματισμός και δομές ευρετηρίων για αρχεία

Επερωτήσεις σύζευξης με κατάταξη

Ο ΑΤΔ Λεξικό. Σύνολο στοιχείων με βασικές πράξεις: Δημιουργία Εισαγωγή Διαγραφή Μέλος. Υλοποιήσεις

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Πρωτόκολλα Ελέγχου προσπέλασης μέσου

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Alternative to Balanced Trees, Comms of the ACM, 33(6), June 1990,

ΤΕΙ Πειραιά, Τμήμα Ηλεκτρονικής. Δίκτυα P2P. Χαράλαμπος Ζ. Πατρικάκης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Advanced Data Indexing

Detecting Duplicates over Distributed Data Sources. Δημήτρης Σουραβλιάς

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Μανουσόπουλος Χρήστος

Αγαπητοί συνεργάτες, O P E N T E C H N O L O G Y S E R V I C E S

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Κινητά και Διάχυτα Συστήματα. Ενότητα # 6: Εφαρμογές DHT Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Standard Template Library (STL) C++ library

Δρομολόγηση (Routing)

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Social Web: lesson #4

Τεχνολογία Πολυμέσων. Ενότητα # 16: Πολυεκπομπή Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Transcript:

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων πάνω σε ένα Ρ2Ρ δίκτυο Περιορισμοί: Μικρή μνήμη στους κόμβους Περιορισμένο bandwidth του δικτύου Σκοπός: καλύτερη διαχείριση του ευρετηρίου περιορισμός του όγκου πληροφορίας που διακινείται

Προσεγγίσεις Σε παλιότερες εργασίες διακρίνονται 2 προσεγγίσεις της λύσης του προβλήματος: HDK (Highly Discriminative Keys) ευρετηριοποίηση όρων ή συνδυασμών όρων (keys) που εμφανίζονται συχνά με βάση ένα κατώφλι DFmax DCT (Distributed Cache Table) caching των αποτελεσμάτων των πιο συχνών επερωτήσεων

Προσεγγίσεις (συνέχεια) Παρούσα προσέγγιση: συνδυασμός HDK και DCT. Στόχος: μείωση του χώρου που καταλαμβάνεται με την HDK περιορισμός των broadcast εκπομπών επερωτήσεων που είναι σπάνιες (κέρδος στο bandwidth).

Ιδέα Κάθε κόμβος: διατηρεί ένα τμήμα Di της συνολικής συλλογής D και δημιουργεί ένα ευρετήριο πάνω σε αυτό συμμετέχει στην συντήρηση και αποθήκευση του global ευρετηρίου το οποίο αφορά όλη τη συλλογή Global ευρετήριο: αποτελείται από ζεύγη της μορφής (k, PL(k)), όπου k το κλειδί και PL(k) η αντίστοιχη posting list Ηκάθεposting list διατηρεί αναφορές για το πολύ DFmax έγγραφα.

Ιδέα (συνέχεια) Κάθε κόμβος Pi είναι υπεύθυνος για τη συντήρηση των κλειδιών που του έχουν ανατεθεί από τον κατανεμημένο πίνακα κατακερματισμού (DHT) Αρχικά, κάθε κόμβος κάνει την τοπική ευρετηριοποίηση και εισάγει τα κλειδιά που προκύπτουν στο δίκτυο Όταν λαμβάνει μια επερώτηση αρχίζει να την αναλύει σε υποσύνολα, ανάλογα με τους όρους που περιέχει (υποερωτήματα)

Ιδέα (συνέχεια) Για κάθε υποερώτημα q ο κόμβος ελέγχει αν το q σχετίζεται με κάποια posting list, ώστε να ανανεώσει την αναμενόμενη πιθανότητα χρήσης (EPU) Η EPU είναι μια μετρική του μοντέλου που δείχνει πόσο συχνό είναι ένα ερώτημα

Ιδέα (συνέχεια) Αν η EPU ξεπερνάει κάποιο κατώφλι EPUmin τότε το q θα πρέπει όπως λέμε να γίνει ενεργό κλειδί (κλειδί που αναζητείται συχνά) Oπότε δημιουργούμε και ευρετηριοποιούμε το νέο κλειδί και ενημερώνουμε τους κόμβους που έχουν έγγραφα που περιέχουν το νέο κλειδί Χρήση του μηχανισμού ONM (Opportunistic Notification Mechanism)

Μηχανισμός ONM Ιδέα: Shower multicast, δηλαδή η broadcast μετάδοση σπάει σε multicast sessions τα οποία κάθε φόρα ψαλιδίζουν τα έγγραφα με χαμηλή συχνότητα εμφάνισης των όρων Σκοπός: Αποτελεσματικότερη ενημέρωση των κόμβων-αποφυγή πλημμύρας Αναλυτική περιγραφή στο: A.Datta et al. Range Queries in Trie- Structured Overlays in P2P (2005)

Φιλτράρισμα Για τον περιορισμό του πλήθους και του μεγέθους των κλειδιών εφαρμόζουμε φιλτράρισμα με βάση: Το μέγιστο μέγεθος ενός κλειδιού (smax) Την ιδιότητα ένα κλειδί να είναι discriminative ή όχι Discriminative ονομάζεται ένα κλειδί k αν df(k) DFmax όπου DFmax μια παράμετρος του μοντέλου

Ιδιότητα DKs Ιδιότητα των discriminative κλειδιών(dks): Κάθε κλειδί που περιέχει ένα DK μικρότερου μεγέθους έχει και αυτό την ιδιότητα να είναι DK Πως μπορούμε να εκμεταλλευτούμε αυτή την ιδιότητα των DKs ώστε να μειώσουμε το μέγεθος του ευρετηρίου???

Αλγόριθμος ευρετηριοποίησης Ο αλγόριθμος τρέχει όταν ένα νέο κλειδί k γίνεται ενεργό Τότε κάθε κόμβος που έχει έγγραφα που περιέχουν όρους του k κάνει αναζήτηση στην τοπική συλλογή εγγράφων Αν το αποτέλεσμα δεν είναι κενό στέλνει τη λίστα των εγγράφων που έχουν ranking πάνω από minrank στον κόμβο που είναι υπεύθυνος για το k

Αλγόριθμος επεξεργασίας επερώτησης Σε κάθε κόμβο που τίθεται ένα ερώτημα q: Αναλύεται το αρχικό q σε υποκλειδιά k Για κάθε υποκλειδί k: Αυξάνουμε το EPU(k) Αν το k υπάρχει, ανακτούμε την posting list του Αν όχι, μετράμε το EPU(k) Αν ξεπερνά το κατώφλι EPUmin, τότε το δημιουργούμε και το προσθέτουμε στη λίστα νέων κλειδιών Αν έχει συχνότητα εμφάνισης μικρότερη από DFmax, διαγράφουμε όλα τα νέα κλειδιά k που προέκυψαν και για τα οποία ισχύει k k Τέλος, γίνεται ενημέρωση του DHT με χρήση του ΟΝΜ

Παράδειγμα Το παράδειγμα που ακολουθεί είναι από παρουσίαση του Gleb Skobeltsyn Infoscale 07, June 6-8, 2007 Suzhou, China

Παράδειγμα peer?abc nothing?abc nothing nothing nothing a b c abc ab bc ac +1 +1 +1popular DF max Single term index is generated Process abc 1) Probe P abc 2) Probe P ab P bc and P ac 3) Probe P a P b and P c 4) Obtain top-df max results for a, b and c (ranked w.r.t a, b and c respectively) 5) Contact peers in the list, re-rank the obtained results w.r.t abc 6) Output top-10 Inc. the QF for ab, bc and ac Activate (index) ac

Παράδειγμα (συνέχεια) peer?abc nothing abc?abc nothing nothing ab bc ac +1 +1 +1 a b c Single term index is generated and ac is indexed Process abc 1) Probe P abc 2) Probe P ab P bc and P ac obtain the result for ac 3) Probe P b and obtain the result for b 4) Contact all peers in the list to re-rank the obtained results w.r.t abc 5) Output top-10 Inc. the QF for ab, bc and ac

Scalability Με την παρούσα προσέγγιση το σύστημα είναι scalable αφού: περιορίζουμε την τηλεπικοινωνιακή κίνηση με τη χρήση του ΟΝΜ κρατάμε χαμηλό το πλήθος των κλειδιών με χρήση του φιλτραρίσματος οι posting lists που διακινούνται στο δίκτυο φράσσονται από την παράμετρο DFmax

Πείραμα 1 Χρήση συνόλου επερωτήσεων που είχαν τεθεί στην Wikipedia Οι επερωτήσεις αυτές τέθηκαν στη μηχανή του Google και ανακτήθηκαν τα top-20 αποτελέσματα Κατόπιν, τα ίδια ερωτήματα τέθηκαν στο παρόν μοντέλο και έγινε έλεγχος επικάλυψης των αποτελεσμάτων με το Google Επικάλυψη σε ποσοστό έως και 80% Για μέγεθος κλειδιού >3 δεν παρατηρήθηκε ουσιαστική βελτίωση

Πείραμα 1 (συνέχεια)

Πείραμα 2 Μέτρηση του αριθμού των παραγόμενων κλειδιών κατά τη διάρκεια της επεξεργασίας των επερωτήσεων Παράμετροι DFmax= 100, EPUmin=4/(2*Μ) και smax=3 Μείωση του αριθμού των παραγόμενων κλειδιών σε σχέση με την HDK Συγκρίσεις επικάλυψης αντίστοιχες με το 1ο πείραμα, αλλά με τη μηχανή ανάκτησης Terrier Εξίσου ικανοποιητικά αποτελέσματα

Πείραμα 2 (συνέχεια)

Κριτική Πλεονεκτήματα Μείωση του αριθμού των αποθηκευμένων κλειδιών Μείωση της τηλεπικοινωνιακής κίνησης στο δίκτυο Scalability Μειονεκτήματα Δύσκολη υλοποίηση Χρήση επερωτήσεων της Wikipedia για evaluation

Ερώτηση Πώς μπορούμε να εκμεταλλευτούμε την ιδιότητα των DKs: κάθε κλειδί που περιέχει ένα DK μικρότερου μεγέθους έχει και αυτό την ιδιότητα να είναι DK, ώστε να μειώσουμε το μέγεθος του ευρετηρίου???

Ευχαριστώ για την προσοχή σας Ερωτήσεις???