DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

Σχετικά έγγραφα
Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

SEMANTIC DATA CACHING AND REPLACEMENT

ΑΝΑΖΗΤΗΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΕ ΑΔΟΜΗΤΑ ΔΙΚΤΥΑ ΟΜΟΤΙΜΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

KLEE: A Framework for Distributed top-k Query Algorithms

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Ανάκτηση Πληροφορίας

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Πέτσιος Στέφανος Κων/νος Α.Μ. #47. Οι απαντήσεις του paper:

Περίληψη Λαμπρόπουλος

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 7α: SQL (NULL, Διαίρεση) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Εργαστήριο Βάσεων Δεδομένων. Δικαιώματα Χρηστών Προβολές

Τεχνολογία Πολιτισμικού Λογισμικού

Advanced Data Indexing

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εργαστήριο Βάσεων Δεδομένων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing)

Differential equations

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Ανάκτηση Πληροφορίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΕΣΔ 232: ΟΡΓΑΝΩΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΗ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Ακαδημαϊκό Έτος , Εαρινό Εξάμηνο. Εργαστηριακή Άσκηση 4 7/02/2012

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

CYTA Cloud Server Set Up Instructions

SilverPlatter WebSPIRS 4.1.

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

Approximation of distance between locations on earth given by latitude and longitude

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

1. ΕΙΣΑΓΩΓΗ P2P Peers Load Balancing Peers Decentralization Scalability range search) Unstructured P2P συστήματα

Ψηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Διαχείριση Πολιτισμικών Δεδομένων

Chapter 6 BLM Answers

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

derivation of the Laplacian from rectangular to spherical coordinates

Ανάκτηση Πληροφορίας

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Τεχνολογία Πολιτισμικού Λογισμικού

Δίκτυα Επικοινωνιών ΙΙ: OSPF Configuration

Problem Set 9 Solutions. θ + 1. θ 2 + cotθ ( ) sinθ e iφ is an eigenfunction of the ˆ L 2 operator. / θ 2. φ 2. sin 2 θ φ 2. ( ) = e iφ. = e iφ cosθ.


ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

Appendix to On the stability of a compressible axisymmetric rotating flow in a pipe. By Z. Rusak & J. H. Lee

ΖΕΡΔΑΛΗΣ ΣΩΤΗΡΙΟΣ ΤΟ ΟΥΤΙ ΣΤΗ ΒΕΡΟΙΑ (1922-ΣΗΜΕΡΑ) ΘΕΣΣΑΛΟΝΙΚΗ

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method)

ΣΤΥΛΙΑΝΟΥ ΣΟΦΙΑ

Κατανεµηµένα Συστήµατα Καστίδου Γεωργία Α.Μ. 49 5η Οµάδα Ασκήσεων

Test Data Management in Practice

6. MAXIMUM LIKELIHOOD ESTIMATION

Εργαστήριο Σημασιολογικού Ιστού

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

ΜΑΡΙΝΑ Ε. ΜΠΙΣΑΚΗ. Τκήκα Δθαξκνζκέλωλ Μαζεκαηηθώλ Παλεπηζηήκην Κξήηεο Τ.Θ , Ηξάθιεην, Κξήηε

C.S. 430 Assignment 6, Sample Solutions

Affiliate Marketing. Σωτηρόπουλος Γιώργος Co-founder & Client Services Director

Example Sheet 3 Solutions

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ST5224: Advanced Statistical Theory II

ΠΕΡΙΕΧΟΜΕΝΑ. Μάρκετινγκ Αθλητικών Τουριστικών Προορισμών 1

Homework 3 Solutions

2 Composition. Invertible Mappings

Skyline Queries in P2P Systems

Σχεδιασμός Βάσεων Δεδομένων

ECE Spring Prof. David R. Jackson ECE Dept. Notes 2

Συστηματική Συλλογή Δεδομένων από Υπηρεσίες Κοινωνικής Δικτύωσης για χρήση σε εφαρμογές μεταφορών

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

ΔΙΑΧΕΙΡΙΣΗ ΕΤΕΡΟΓΕΝΩΝ ΜΕΤΑΒΛΗΤΩΝ. Πολυκριτήρια Ανάλυση Αποφάσεων

If we restrict the domain of y = sin x to [ π, π ], the restrict function. y = sin x, π 2 x π 2

JOURNAL OF APPLIED SCIENCES Electronics and Information Engineering TP (2011)

Cryptography and Network Security Chapter 13. Fifth Edition by William Stallings

ΗΜΥ 220: ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι Ακαδημαϊκό έτος Εαρινό Εξάμηνο Κατ οίκον εργασία αρ. 2

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 8η: Producer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ. Επιλέγει όλες τις πλειάδες, από μια σχέση R, που ικανοποιούν τη συνθήκη επιλογής.

Solutions to Exercise Sheet 5

Constrained Query Personalization

Τεχνολογίες Παγκόσμιου Ιστού. 1η διάλεξη

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Έκθεση των πιλοτικών δράσεων πρόληψης των αποβλήτων στην περιοχή Ηρακλείου, Κρήτης (ΕΣΔΑΚ)

Βάσεις Δεδομένων. Βασίλειος Βεσκούκης Εισαγωγή στη γλώσσα SQL (Structured Query Language) Η γλώσσα SQL

Αναζήτηση σε Γράφους. Μανόλης Κουμπαράκης. ΥΣ02 Τεχνητή Νοημοσύνη 1

If we restrict the domain of y = sin x to [ π 2, π 2

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

Ζητήματα Τυποποίησης στην Ορολογία - ο ρόλος και οι δράσεις της Επιτροπής Ορολογίας ΤΕ21 του ΕΛΟΤ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Κρήτης

Επερωτήσεις σύζευξης με κατάταξη

Εαρινό Εξάμηνο

Τμήμα Πληροφορικής ΑΠΘ

Μελέτη Aποδοτικών Tρόπων Διαχείρισης Profiles σε Συστήματα Publish/Subscribe

Χρήσιμες Ρυθμίσεις του Windows 7 στον Η/Υ σας

Βάσεις Περιβαλλοντικών Δεδομένων

Σχέσεις, Ιδιότητες, Κλειστότητες

CHAPTER 101 FOURIER SERIES FOR PERIODIC FUNCTIONS OF PERIOD

Transcript:

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος

Agenda 1. Ορισμός του προβλήματος 2. Naïve προσεγγίσεις 3. Παρατήρηση-Λύση 4. Meta-Index & Cache management

Ορισμός του Προβλήματος Δεδομένουμιαςσυλλογήςαπόdocuments D που είναι κατανεμημένη σε ένα σύνολο από peers (π i ) που σχηματίζουν ένα structured P2P (DHT enable) Εύρεση ενός efficient indexing mechanism για να μπορούν να γίνονται resolve multi-keywords queries. Efficient: Να γίνεται efficient χρήση του BW του δικτύου To storage κάθε π i είναι περιορισμένο (άνω φραγμένο).

Agenda 1. Ορισμός του προβλήματος 2. Naïve προσεγγίσεις 3. Παρατήρηση-Λύση 4. Meta-Index & Cache management

Single-term inverted lists (I) An inverted lists contain document ids. (h(t 1 ), {I 1,I 2 }) {I 1,I 2 } (h(t 2 ), {I 2,I 3 }) (h(t 3 ), {I 4,I 5 }) {I 2 } Query: T 1 AND T 2

Single-term inverted lists (II) An inverted lists contain document digests. (h(t 1 ), {I 1,I 2 }) (h(t 2 ), {I 2,I 3 }) (h(t 3 ), {I 4,I 5 }) {I 2 } {I 2 } OR Query: T 1 AND T 2

Agenda 1. Ορισμός του προβλήματος 2. Naïve προσεγγίσεις 3. Παρατήρηση-Λύση 4. Meta-Index & Cache management

Παρατήρηση Τα single-term inverted indexes που περιέχουν document references δεν είναι scalable, απαιτούν μεγάλο BW κατά το query processing λόγω της μεταφορά Posting lists κατά το intersection. Τα single-term inverted indexes που περιέχουν document references και document digests επιλύουν το πρόβλημα της scalability με αντίτιμο το storage cost. Και οι δύο προτεινόμενες λύσεις κάνουν static indexing για όλους τους terms που εμφανίζονται στην document collection, ακόμα και για αυτούς που δεν χρησιμοποιούνται σχεδόν ποτέ στην επίλυση των ερωτήσεων.

Πρόταση-Λύση Indexing = Caching Κάθε π i κάνει επιλεγμένα cache set of past query results για queries που υποβάλλει ο ίδιος στο δίκτυο. Γίνεται μια on the fly δημιουργία από indexes τα οποία είναι adapt στο query load. Αρχικά μια query προσπαθεί να γίνει resolve μέσω της Distributed cache, αν όχι τότε επιλύεται μέσω Broadcast.

Query-Subsumption Δοθέν μιας ερώτησης q θέλουμε να βρούμε στις caches των π i έστω μια q τ.ω ηq να εμπεριέχεται στην q. Μια ερώτηση q κάνει subsume μια q εάν η q εμπεριέχεται στην q, ήτοι το RS(q) εμπεριέχεται στο RS(q ). Query Subsumption εάν έχουμε κάνει cache τα SR των a και cd.

Agenda 1. Ορισμός του προβλήματος 2. Naïve προσεγγίσεις 3. Παρατήρηση-Λύση 4. Meta-index & Cache management

Indexing & Caching strategy Πωςέναςπ i θα εντοπίζει εάν η q που υποβάλλει μπορεί να γίνει resolve μέσω των distributed caches στο δίκτυο? Κάθε π i τρέχει 2 services: 1. Meta-index service: αποθηκεύει index items προς τις caches. 2. Cache service: απαντά μια q μέσω μιας cached q. Το meta-index service υλοποιείται πάνω στον DHT μηχανισμό του P2P δικτύου.

Meta-index service Index Update: Αν ένας π i κάνει cache μια q, διαφημίζει αυτό το γεγονός στο meta-index service: Εισάγει μια tuple {q, address(π i )} σε έναν peer που είναι υπεύθυνος για έναν random selective term της q. Lookup: Έστω ότι η q=t 1 &t 2 & &t n υποβάλλεται στο δίκτυο από τον π i. Οπ i κάνει hash σε κάθε ένα από τα term t i της q ζητώντας από τον αντίστοιχο peer να βρει στο meta-index του μια cached q που μπορεί να κάνει subsumed την q. Οι q επιστρέφονται πίσω στον π i (εάν υπάρχουν) ο οποίος επιλέγει μια εξ αυτών randomly.

Meta-index example q= acd acd is submitted at π orig acd cd 1. π orig looks up the metaindex: contacts peers π a, π c and π d * π orig π c π RS( cd ) 2. π a, π c and π d response with known locations of caches subsuming q Legend: metaindex cache a 3. π orig randomly selects a cache from the obtained list. Assume cd is picked. π a 4. RS(q) is sent to π orig * interactions with π d are not shown 14 / 25

Cache Management: Define optimization problem Ένα vocabulary T=t 1,t 2 t m : όλοι οι terms στο query load L. Μια query q=t 1,t 2 t n : q στο 2 T Ένα document d=t 1,t 2 t r : d στο 2 T Ένα document d ικανοποιεί μια query q <=> d εμπεριέχει q Θεωρούμε ότι κάνουμε cache ένα σύνολο από q i ανήκουν Ω υποσύνολο του L. Cachhit function: cachehit(q) = 1, εάν υπάρχει cached q που κάνει resolve την q. cachehit(q)=0, διαφορετικά. Optimization problem: βρες τις cached q ανήκουν Ω τ.ω: Ω=argmax Σ qi in L cachehit(q i )*p(q i ) Storage constrained: S Ω = Σ qi in Ω RS(q i ) <S 0

Cache Management: Solution Για κάθε q ορίζεται ένα προσεγγιστικό profit το οποίο δείχνει και την αξία που έχει η q για να μπει στην cache ή όχι. bfreq(q i ): είναι το πλήθος των broadcasts που έχει πρόσφατα παρατηρηθεί για κάθε q i υποσύνολο της q. Δεν έχει νόημα να κάνω cache μια q αν όλα τα υποσύνολα της υπάρχουν στις caches των peers του δικτύου, μιας και η q και οποιαδήποτε q υπερσύνολο της q (αν εμφανιστεί) μπορεί να γίνει resolve από είδη cached queries.