Detecting Duplicates over Distributed Data Sources. Δημήτρης Σουραβλιάς

Σχετικά έγγραφα
Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Ο ΑΤΔ Λεξικό. Σύνολο στοιχείων με βασικές πράξεις: Δημιουργία Εισαγωγή Διαγραφή Μέλος. Υλοποιήσεις

Data Stream Summarization to Avoid Overlap

2. Για να δημιουργήσουμε το πρώτο ή κάθε νέο Backup set πατάμε στο εικονίδιο και εμφανίζεται ο Wizard του Backup set

7.1 Επίπεδο δικτύου. Ερωτήσεις. λέξεις κλειδιά:

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Πληροφορική 2. Δομές δεδομένων και αρχείων

Ερωτήματα κορυφογραμμής υποχώρων σε συστήματα ομότιμων κόμβων

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Διάλεξη 6: Εκλογή Προέδρου σε Σύγχρονους Δακτύλιους. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Super Scratch Programming Adventure

Startup Guide Backup365. Οδηγός γρήγορης εγκατάστασης και εκκίνησης. Για να δοκιμάσετε την υπηρεσία θα πρέπει να ακoλουθήσατε τα παρακάτω βήματα:

Επερωτήσεις σύζευξης με κατάταξη

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Εαρινό Εξάμηνο

Δίκτυα ΙΙ. Κεφάλαιο 7

ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Διάλεξη 19: Κατανομή Πόρων Κόψιμο Τούρτας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ 7ο ΚΕΦΑΛΑΙΟ

HY-486 Αρχές Κατανεμημένου Υπολογισμού Εαρινό Εξάμηνο

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πρωτόκολλα Ελέγχου προσπέλασης μέσου

Σύβακας Σταύρος ΠΕ19,MSc. IT ΣΥΒΑΚΑΣ ΣΤΑΥΡΟΣ ΕΡΩΤΗΜΑΤΑ

Δομές Δεδομένων. Ενότητα 12: Κατακερματισμός: Χειρισμός Συγκρούσεων. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Δίκτυα Υπολογιστών I Εργαστήρια

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Ερώτηση 1 η μεταγωγής κυκλώματος? : Ποια είναι τα κύρια χαρακτηριστικά της. Ερώτηση 2 η : Ποια είναι τα κύρια χαρακτηριστικά της μεταγωγής μηνύματος?

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

Search and Replication in Unstructured Peer-to-Peer Networks

7.9 ροµολόγηση. Ερωτήσεις

Αλγόριθμοι και πολυπλοκότητα: 4 η σειρά ασκήσεων ΣΗΜΜΥ - Ε.Μ.Π.

Εργαστήριο 4 Πρωτόκολλα Δρομολόγησης


Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΚΕΦΑΛΑΙΟ 4. Τεχνική Ανίχνευσης του. Πτυχιακή Εργασία Σελίδα 95

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Αρχές Δικτύων Επικοινωνιών. Επικοινωνίες Δεδομένων Μάθημα 4 ο

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ανάκτηση πολυμεσικού περιεχομένου

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΑΘΗΜΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Β ΛΥΚΕΙΟΥ

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

ΗΥ335 - Δίκτυα Υπολογιστών Χειμερινό εξάμηνο Φροντιστήριο Ασκήσεις στο TCP

Αρχειοθέτηση Εγγράφων

Άσκηση 2. Αν συμβούν 2 duplicate ACKs αντί για timeout τι γίνεται σε αυτή την περίπτωσή;

ΗΥ240: Δομές Δεδομένων Εαρινό Εξάμηνο Ακαδημαϊκό Έτος 2017 Διδάσκουσα: Παναγιώτα Φατούρου Προγραμματιστική Εργασία - 2o Μέρος

Θέμα: Ανάπτυξη Βασικής Πλατφόρμας για Υπηρεσίες με Βάση το Προφίλ και τη Θέση (Profile & Location Based Services)

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Cookies Γραμμή βοηθείας Ενημέρωση-Επαγρύπνηση Γραμμή παράνομου περιεχομένου

Κεφ.11: Ευρετήρια και Κατακερματισμός

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

max 17x x 2 υπό 10x 1 + 7x 2 40 x 1 + x 2 5 x 1, x 2 0.

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Δομές Δεδομένων και Αλγόριθμοι

Συστήματα Peer To Peer (P2P Systems) Γαλάνης Δημήτριος Παπαδημητρίου Χριστίνα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Οργάνωση Η/Υ. Γιώργος Δημητρίου. Μάθημα 8 ο Μερική Επικάλυψη. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Κινητά και Διάχυτα Συστήματα. Ενότητα # 6: Εφαρμογές DHT Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Πανεπιστήμιο Πειραιώς, Τμήμα Πληροφορικής

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Τμήμα Πληροφορικής ΑΠΘ

Επικοινωνία με μηνύματα. Κατανεμημένα Συστήματα 1

Πληροφορική 2. Βάσεις Δεδομένων (Databases)

ΕΡΓΑΣΙΑ 3. Παίζοντας Sudoku. Ημερομηνία Ανάρτησης: 16/03/2018 Ημερομηνία Παράδοσης: 03/04/2018, 09:00

Στόχοι και αντικείμενο ενότητας

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Εγγυημένη ποιότητα υπηρεσίας

Improving the performance of TCP in the case of packet reordering. Στρατάκη Μαρία

ΑΡΧΗ 1ης ΣΕΛΙΔΑΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΤΑΞΗ / ΤΜΗΜΑ : Γ ΛΥΚΕΙΟΥ ΔΙΑΓΩΝΙΣΜΑ ΠΕΡΙΟΔΟΥ : ΑΠΡΙΛΙΟΣ 2018 ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ : 7 (ΕΠΤΑ)

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιμότητα. Παύλος Εφραιμίδης V1.1,

Δομές Αναζήτησης. εισαγωγή αναζήτηση επιλογή. εισαγωγή. αναζήτηση

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 13: Παραλλαγές Μηχανών Turing και Περιγραφή Αλγορίθμων

Προγραμματισμός διαδικτυακών εφαρμογών με PHP

Σχεδίαση Βάσεων Δεδομένων

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Δυναμικά Σύνολα. Δυναμικό σύνολο. Tα στοιχεία του μεταβάλλονται μέσω εντολών εισαγωγής και διαγραφής. διαγραφή. εισαγωγή

Διαχείριση Δεδομένων

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Δίκτυα ΙΙ Τομέας Πληροφορικής,

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Εγκατάσταση του SEPADesktop Client. Λήψη. ΣΕΠΑ Σύλλογος Εκτελωνιστών Πειραιώς-Αθηνών

ΟΡΓΑΝΩΣΗ ΚΑΙ ΣΧΕΔΙΑΣΗ Η/Υ

Transcript:

Detecting Duplicates over Distributed Data Sources Δημήτρης Σουραβλιάς

Δομή παρουσίασης Εισαγωγή Ορισμός του προβλήματος Παράδειγμα Αρχιτεκτονικές ανίχνευσης διπλότυπων Γενικές παρατηρήσεις Αναφορές DMOD Laboratory, University of Ioannina 2

Εισαγωγή Ένα σημαντικό ποσοστό των δεδομένων που ανήκουν σε ένα σύνολο δεδομένων είναι διπλότυπα στοιχεία (duplicate items) Η ανίχνευση και εξάλειψη διπλότυπων στοιχείων αποτελεί σημαντική λειτουργία για λόγους: αποθήκευσης επικοινωνιακού φόρτου ποιότητας υπηρεσιών προς τον χρήστη DMOD Laboratory, University of Ioannina 3

Εισαγωγή Παραδείγματα διπλότυπων: έγγραφα (documents) που ανήκουν σε ίδια ή διαφορετικές συλλογές γεγονότα που προωθούνται στο συνδρομητή ενός συστήματος έκδοσης/συνδρομής από έναν ή περισσότερους εκδότες αποτελέσματα που δίνονται στο χρήστη που υποβάλλει μια ερώτηση με όρους σε μια μηχανή αναζήτησης αποτελέσματα από διαφορετικές μηχανές αναζήτησης που τροφοδοτούν μια μεταμηχανή αναζήτησης Τα διπλότυπα δεδομένα κάνουν αισθητή την παρουσία τους στο διαδίκτυο: «Το 30% των σελίδων στο διαδίκτυο είναι διπλότυπα ή (σχεδόν) διπλότυπα» DMOD Laboratory, University of Ioannina 4

Εισαγωγή Για την ανίχνευση και εξάλειψη διπλότυπων δεδομένων σε ένα σύστημα υπάρχουν 2 στρατηγικές: 1 η στρατηγική: Στη δομή ευρετηρίασης εισάγουμε μόνο μοναδικά δεδομένα Η εξάλειψη γίνεται πριν την εισαγωγή δεδομένων στη δομή 2 η στρατηγική: Στη δομή ευρετηρίασης εισάγουμε όλα τα δεδομένα και η εξάλειψη γίνεται αφού υποβάλλει ο χρήστης ένα ερώτημα στο σύστημα Η εξάλειψη γίνεται πριν την προώθηση δεδομένων στο χρήστη DMOD Laboratory, University of Ioannina 5

Ορισμός του προβλήματος Θεωρούμε Ν απομακρυσμένους ιστόχωρους (sites). Σε κάθε ιστόχωρο τα δεδομένα φτάνουν μέσω μιας αδιάλειπτης, ανεξάρτητης ροής δεδομένων S i, i = 1,, N Κάθε στοιχείο στο S i παίρνει μια τιμή από το πεδίο ορισμού ακεραίων [D] = {0,..., D 1} Έστω S = S 1 S 2... S N η ένωση των κατανεμημένων ροών δεδομένων (πολυσύνολο) και U το σύνολο των μοναδικών δεδομένων, δηλαδή U S Στόχος μας είναι να προωθούμε στο χρήστη τα στοιχεία του U και μόνο αυτά DMOD Laboratory, University of Ioannina 6

Παράδειγμα DMOD Laboratory, University of Ioannina 7

Δομή παρουσίασης Εισαγωγή Ορισμός του προβλήματος Παράδειγμα Αρχιτεκτονικές ανίχνευσης διπλότυπων Γενικές παρατηρήσεις Αναφορές DMOD Laboratory, University of Ioannina 8

Αρχιτεκτονικές ανίχνευσης διπλότυπων (1) Ιεραρχικό σχήμα Κάθε πηγή δεδομένων διατηρεί μια δομή ευρετηρίασης τοπικά, όπου αποθηκεύονται τα k πιο πρόσφατα δεδομένα της ροής της Ο χρήστης ζητά να προωθηθούν σε αυτόν τα μοναδικά δεδομένα στο σύνολο των δεδομένων που παράγονται από τις κατανεμημένες πηγές Το σύστημα συνενώνει (merge) τα δεδομένα μεταξύ διαφορετικών πηγών δεδομένων και τρέχει σε κάθε επίπεδο τον αλγόριθμο ανίχνευσης διπλότυπων Πρόβλημα: Ποιες πηγές δεδομένων θα επιλέξω σε κάθε επίπεδο ιεραρχίας; Αυτές με τις πιο κοντινές τοποθεσίες στο δίκτυο Αυτές με τη μεγαλύτερη επικάλυψη DMOD Laboratory, University of Ioannina 9

Αρχιτεκτονικές ανίχνευσης διπλότυπων (1) Select distinct id From S1, S2, S3, S4 Within 2 hours; DMOD Laboratory, University of Ioannina 10

Αρχιτεκτονικές ανίχνευσης διπλότυπων (2) Ιεραρχικό σχήμα με χρήση συντονιστών (coordinators) Για κάθε ομάδα πηγών δεδομένων υπάρχει ένας συντονιστής που διατηρεί μια δομή ευρετηρίασης για το σύνολο των δεδομένων των πηγών Οι συντονιστές επικοινωνούν μεταξύ τους και ανταλλάσουν μοναδικά δεδομένα Ο κάθε συντονιστής μπορεί να στέλνει τη δομή που διατηρεί σε κάθε πηγή για την οποία είναι υπεύθυνος και διπλότυπα δεδομένα να εξαλείφονται τοπικά Πρόβλημα: Κάθε πότε θα στέλνει ο συντονιστής τη δομή ευρετηρίασης; DMOD Laboratory, University of Ioannina 11

Αρχιτεκτονικές ανίχνευσης διπλότυπων (2) Select distinct id From S1, S2, S3, S4 Within 2 hours; DMOD Laboratory, University of Ioannina 12

Αρχιτεκτονικές ανίχνευσης διπλότυπων (3) Ανάθεση συγκεκριμένου συνόλου δεδομένων σε κάθε κόμβο Το [D] διαχωρίζεται σε μη επικαλυπτόμενα υποσύνολα D 1, D 2,..., D M Για κάθε D i είναι υπεύθυνος ο κόμβος j, με i [1, M] και j [1, N] Όταν ένα νέο δεδομένο φτάσει στο σύστημα, τότε με χρήση μιας συνάρτησης κατακερματισμού h αποθηκεύεται στη δομή ευρετηρίασης του κόμβου που κατακερματίζεται Πρόβλημα: Πώς διαχωρίζω αποδοτικά το πεδίο ορισμού DMOD Laboratory, University of Ioannina 13

Δομή παρουσίασης Εισαγωγή Ορισμός του προβλήματος Παράδειγμα Αρχιτεκτονικές ανίχνευσης διπλότυπων Γενικές παρατηρήσεις Αναφορές DMOD Laboratory, University of Ioannina 14

Γενικές παρατηρήσεις Τα θέματα που καλούμαστε να αντιμετωπίσουμε για την επιλογή της κατάλληλης κατανεμημένης αρχιτεκτονικής: Η αποδοτική ομαδοποίηση των πηγών δεδομένων Η ανάθεση συντονιστών στις ομάδες πηγών Η επιλογή της κατάλληλης θέσης για τις δομές ευρετηρίασης/περιληπτικές δομές π.χ. τοπικά σε κάθε πηγή ή στους συντονιστές Η πολυπλοκότητα αυξάνεται αν θέσουμε περισσότερους περιορισμούς π.χ. τα δεδομένα φτάνουν στο σύστημα ακολουθώντας το μοντέλο κυλιόμενου παραθύρου DMOD Laboratory, University of Ioannina 15

Αναφορές 1. Cormode Graham, Muthukrishnan S., Zhuang Wei. What s Different: Distributed, Continuous Monitoring of Duplicate-Resilient Aggregates on Data Streams. In ICDE, 2006. 2. Wang Xiaowei, Zhang Qiang, Jia Yan. Efficiently Filtering Duplicates over Distributed Data Streams. In Proc. of the International Conference on Computer Science and Software Engineering, 2008. 3. Xia Tian, Jin Cheqing, Zhou Xiaofang and Zhou Aoying. Filtering Duplicate Items over Distributed Data Streams. In WAIM, 2005. DMOD Laboratory, University of Ioannina 16

Ευχαριστώ! DMOD Laboratory, University of Ioannina 17