Επερωτήσεις σύζευξης με κατάταξη

Σχετικά έγγραφα
Παραδοτέο Π.4.1. Διαχείριση πληροφορίας σε μεγάλης κλίμακας πληροφορικά συστήματα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΑΝΕΜΗΜΕΝΑ ΣΥΣΤΗΜΑΤΑ Εαρινό Εξάμηνο

ΕΝΗΜΕΡΩΣΗ ΔΕΔΟΜΕΝΩΝ. UPDATE products SET prod_fpa=19 WHERE prod_fpa=23; SELECT prod_descr,purchase,purchase_date FROM products WHERE prod_fpa=9;

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

ΔΙΑΧΕΊΡΙΣΗ ΡΟΏΝ ΔΕΔΟΜΈΝΩΝ

Α/Α Υποέργου: Ε1 07 Τίτλος: ConServ: Δίκτυα Υπηρεσιών με Βάση τα Συμφραζόμενα: Διαχείριση, Δυναμική Προσαρμοστικότητα και Επεξεργασία Ερωτήσεων

Πληροφοριακά Συστήματα Διοίκησης

ΜΕΛΕΤΗ ΣΧΕΔΙΑΣΗ ΕΦΑΡΜΟΓΗΣ ΣΕ ΥΠΟΛΟΓΙΣΤΙΚΟ ΝΕΦΟΣ (CLOUD COMPUTING) ΜΕ ΕΜΦΑΣΗ ΣΤΗΝ ΚΑΤΑΣΚΕΥΗ ΔΕΝΤΡΩΝ.

SEMANTIC DATA CACHING AND REPLACEMENT

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Βελτιστοποίηση γενικών συνδέσεων σε συστήματα Spark

EPL 660: Lab 4 Introduction to Hadoop

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αποδοτική επεξεργασία ερωτημάτων κατάταξης στο Map/Reduce

KLEE: A Framework for Distributed top-k Query Algorithms

Πληροφοριακά Συστήματα Διοίκησης

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Detecting Duplicates over Distributed Data Sources. Δημήτρης Σουραβλιάς

Τμήμα Πληροφορικής ΑΠΘ

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Επεξεργασία Ερωτήσεων

Βάσεις δεδομένων. Π. Φιτσιλής

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Επεξεργασία Ερωτήσεων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

Επεξεργασία Ερωτήσεων

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων

Information Technology for Business

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ

Δίκτυα Υπολογιστών Firewalls. Χάρης Μανιφάβας

MapReduce Εισαγωγή. MapReduce. ηµήτρης Λεβεντέας

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Max /Min Online Aggregation in the Cloud

ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΡΩΤΗΜΑΤΟΣ

Περιεχόμενα. 1 Κόμβοι 2. 2 Εργασίες 2. 3 Γραφήματα 4. 4 Αιτήσεις 7. 5 Αδρανείς Λογαριασμοί Στατιστικά 11

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΕΚΠΑΙΔΕΥΣΗ ΚΑΙ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗ» ΕΘΝΙΚΟ ΣΤΡΑΤΗΓΙΚΟ ΠΛΑΙΣΙΟ ΑΝΑΦΟΡΑΣ ΕΣΠΑ ΔΡΑΣΗ «ΑΡΙΣΤΕΙΑ»

Cloud Computing & Data Management (Υπολογιστικά Νέφη & Διαχείριση Δεδομένων)

ΕΣΔ 232: ΟΡΓΑΝΩΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΗ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Ακαδημαϊκό Έτος , Εαρινό Εξάμηνο. Εργαστηριακή Άσκηση 4 7/02/2012

Σχεσιακή Άλγεβρα Relational Algebra

Πληροφοριακά Συστήµατα

Τεχνικές Εξόρυξης Δεδομένων

ΣΧΕΣΙΑΚΟ ΜΟΝΤΕΛΟ Relational Model. SQL Μαθ. #11

SQL Data Manipulation Language

Διάλεξη 13: Γλώσσα Επεξεργασίας Δεδομένων/ Data Manipulation Language (SQL DML) I. Διδάσκων: Παναγιώτης Ανδρέου

Βάσεις Δεδομένων (Databases)

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Μανουσόπουλος Χρήστος

Ιατρική Πληροφορική. Δρ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ. Ε. Χρήσιμοι Σύνδεσμοι

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ακ. έτος , 9ο Εξάμηνο ΗΜ&ΜΥ Ν. Κοζύρης Εξαμηνιαία Εργασία. Εισαγωγή στο MapReduce και στις βάσεις NoSQL

Ραγδαία τεχνολογική εξέλιξη

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Ανάκτηση Πληροφορίας

Φροντιστήριο Ομαδικής Εργασίας ΗΥ360. Αυγουστάκη Αργυρώ

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΧΡΗΣΤΟΣ Θ. ΔΟΥΛΚΕΡΙΔΗΣ

ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη

ΑΤΟΜΙΚΟ ΑΝΔΡΩΝ ΟΛΥΜΠΙΑΚΟΥ ΤΟΞΟΥ ΓΥΡΟΣ ΚΑΤΑΤΑΞΗΣ

ΗΥ360 Αρχεία και Βάσεις Δεδομένων. Φροντιστήριο στην Σχεσιακή Άλγεβρα.

Speed-0 Παρουσίαση Φυσικού Αντικειμένου

Διδάσκων: Νεκτάριος Κοζύρης, καθηγητής

Βάσεις Δεδομένων Ενότητα 1

Από τα Δεδομένα στην Πληροφορία: Διδακτικό Σενάριο για Εισαγωγή στη Γλώσσα SQL. Σ. Φίλου Β. Βασιλάκης

Χρήση της PostgreSQL σε Συστήματα Διοδίων στην Ελλάδα. Μπούζου Ιωάννα 26/06/2013

Ανάκτηση Πληροφορίας σε Νέφη Υπολογιστών

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

FROM TESTOTA.REGISTRY

Manual Χρήσης της εφαρμογής PK Data Software 1.2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

Lecture 14: SQL DML I

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2013

Διδάσκων: Νεκτάριος Κοζύρης, καθηγητής

ΗΥ360: Αρχεία και Βάσεις Δεδομένων Διδάσκων: Πλεξουσάκης Δημήτρης. Φροντιστήριο Σχεσιακή Άλγεβρα Δημητράκη Κατερίνα

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Διοίκηση Παραγωγής και Υπηρεσιών

SQL Data Manipulation Language

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

Performing Spatial Joins

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Μαζικός Παραλληλισμός λ με Map - Reduce. Μοντέλο Θέματα υλοποίησης Παραδείγματα διαχείρισης δεδομένων

Σχεδιασμός Βάσεων Δεδομένων

Ακολουθεί η πλήρης ανάλυση της παραµετροποίησης χωρισµένη στις αντίστοιχες ενότητες µε αυτές του module Customization Tools. :

ΗΥ460 Συστήματα Διαχείρισης Βάσεων Δεδομένων Χειμερινό Εξάμηνο 2018 Project

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Μανουσόπουλος Χρήστος

Παραδοτέο Π.4.2. Μέθοδοι για παραγωγή στατιστικών και συνόψεων δεδομένων

Information Technology for Business

ΣΧΟΛΙΑ και ΑΠΑΝΤΗΣΕΙΣ ΤΗΣ INTELEN

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εργαστήριο Σημασιολογικού Ιστού

Hellenic European Law Concordance

Transcript:

Επερωτήσεις σύζευξης με κατάταξη

Επερωτήσεις κατάταξης Top-K queries Οι επερωτήσεις κατάταξης επιστρέφουν τις k απαντήσεις που ταιριάζουν καλύτερα με τις προτιμήσεις του χρήστη.

Επερωτήσεις κατάταξης Top-K queries Η κατάταξη (ranking) των πλειάδων (tuples) γίνεται με βάση κάποιο συναθροισμένο score (aggregated score) που προκύπτει όταν μια συνάρτηση f (scoring function) εφαρμοστεί σε ορισμένα γνωρίσματα του πίνακα (scoring attributes) SELECT * FROM PRODUCTS WHERE Category = Laptop ORDER BY Price ASC LIMIT 2; ID Category Model Price 1 Laptop Acer Aspire ES1-111M 255,00 2 Laptop HP - r100 nv 239,00 3 Tablet Dell Venue 11 Pro 4G 974,70 4 Laptop Asus F553MA-SX418H 308,90 5 Smartphone HTC One M9 611,98 6 Tablet Crystal Audio TAB-722 39,90 7 Laptop HP - Stream - 13-c010nv 239,90

Επερωτήσεις σύζευξης Source: Ilyas, Ihab F., George Beskales, and Mohamed A. Soliman. "A survey of top-k query processing techniques in relational database systems." ACM Computing Surveys (CSUR) 40.4 (2008): 11.

Επερωτήσεις σύζευξης με κατάταξη Απλός τρόπος υπολογισμού επερώτησης σύζευξης με κατάταξη: Ανάκτηση της λίστας των φθηνότερων σπιτιών και των φθηνότερων σχολείων Σύζευξη με βάση την τοποθεσία Υπολογισμός του κόστους σπιτιού-διδάκτρων για κάθε πλειάδα που προέκυψε από τη σύζευξη και κατάταξη με βάση το κόστος

Επερωτήσεις σύζευξης με κατάταξη Προβλήματα: Τα top-k αποτελέσματα επιστρέφονται στον χρήστη μόνο αφού ολοκληρωθεί η σύζευξη όλων των πλειάδων. Για μεγάλο αριθμό σπιτιών και σχολείων της ίδιας τοποθεσίας, η επεξεργασία αυτής της επερώτησης με τον παραδοσιακό τρόπο έχει μεγάλο κόστος καθώς απαιτεί τη σύζευξη και κατάταξη μεγάλου όγκου δεδομένων.

Επερωτήσεις σύζευξης με κατάταξη σε κατανεμημένες βάσεις δεδομένων Το κέρδος αυξάνεται όταν αυξάνεται το άθροισμα του ποσού που πληρώνει ο πελάτης και της έκπτωσης που προσφέρει ο προμηθευτής. Σε αυτό το σενάριο, ο διευθυντής πωλήσεων αναζητά: τις 2 πιο κερδοφόρες πωλήσεις για οποιοδήποτε προϊόν (Q1) τις 2 πιο κερδοφόρες πωλήσεις για το προϊόν CPU Source: Doulkeridis, Christos, et al. "Processing of rank joins in highly distributed systems." Data Engineering (ICDE), 2012 IEEE 28th International Conference on. IEEE, 2012.

Επερωτήσεις σύζευξης με κατάταξη σε κατανεμημένες βάσεις δεδομένων Προβλήματα: Οι πλειάδες δεν μπορούν να διαβαστούν επαναληπτικά αρκετές κυκλικές διαδρομές (round trip) στο δίκτυο που έχουν μεγάλο κόστος ακόμα και για σχετικά μικρό αριθμό servers. Ο αριθμός των πλειάδων που πρέπει να προσκομιστούν και να συζευχτούν για τον υπολογισμό του ζητούμενου αποτελέσματος, μπορεί να είναι σημαντικά μεγαλύτερος από την τιμή k που ζητήθηκε από τον χρήστη.

Hadoop - MapReduce Source: T. White. Hadoop - The Definitive Guide. O Reilly, 2012.

MapReduce Απλός αλγόριθμος σύζευξης με κατάταξη Για κάθε επερώτηση σύζευξης με κατάταξη, απαιτείται η ανάγνωση ολόκληρου του συνόλου των δεδομένων. Η κατανομή του φόρτου στις Reduce συναρτήσεις είναι ανάλογη της ανομοιομορφίας των δεδομένων. Για τεράστια σύνολα δεδομένων, τα προβλήματα αυτά εντείνονται καθώς οι χρόνοι επεξεργασίας των επερωτήσεων μεγαλώνουν σημαντικά και οι απαιτήσεις σε υπολογιστικούς πόρους αυξάνονται.

Αντικείμενο έρευνας Η βελτίωση των σταδίων του υπολογιστικού μοντέλου MapReduce με στόχο την αύξηση της απόδοσης του μοντέλου για επερωτήσεις σύζευξης με κατάταξη σε μεγάλα και κατανεμημένα σύνολα δεδομένων, με ταυτόχρονη διατήρηση της επεκτασιμότητας.

Αντικείμενο έρευνας Συγκεκριμένα για την επεξεργασία επερωτήσεων σύζευξης με κατάταξη ενσωματώνουμε στο μοντέλο MapReduce: Τη χρήση συνόψεων δεδομένων (π.χ. ιστογράμματα) για την προσεγγιστική πρόβλεψη των δεδομένων που παράγουν τις Top-K joined πλειάδες. Τεχνική Early Termination που προσφέρει γρήγορα αποτελέσματα χωρίς να πραγματοποιηθεί επεξεργασία του συνόλου των δεδομένων. Τεχνική Load Balancing που εξασφαλίζει ίση κατανομή φόρτου ανάμεσα στους Reducers.

Συνόψεις δεδομένων Εξαγωγή στατιστικών στοιχείων από τα input data sets σε μορφή ιστογραμμάτων Υπολογισμός ορίων στις τιμές των scoring attributes για κάθε data set που συμμετέχει στο join query (score-bound estimation) Source: Doulkeridis, Christos, et al. "Processing of rank joins in highly distributed systems." Data Engineering (ICDE), 2012 IEEE 28th International Conference on. IEEE, 2012.

Συναφείς εργασίες RanKloud: Σύστημα που βασίζεται στο Hadoop και χρησιμοποιεί το μοντέλο MapReduce. Η κεντρική ιδέα είναι η χρήση της δειγματοληψίας για τον εντοπισμό των «χρήσιμων» δεδομένων κατά την επεξεργασία μίας επερώτησης σύζευξης με κατάταξη. Το σύστημα αυτό υλοποιεί επίσης και τεχνική load balancing. Επερωτήσεις σύζευξης σε NoSQL βάσεις δεδομένων: Πρόκειται για ένα σύνολο αλγορίθμων που συνδυάζουν το MapReduce και το HBase για την αποδοτικότερη επεξεργασία των επερωτήσεων ως προς το χρόνο και την κατανάλωση εύρους ζώνης του δικτύου.

Διεξαγωγή πειραμάτων Σε Hadoop cluster. Με χρήση μεγάλων συνόλων δεδομένων ομοιόμορφης κατανομής (uniform) και ανομοιόμορφης (skewed) κατανομής. Σύγκριση των υλοποιημένων MapReduce jobs με τους αλγορίθμους RanKloud και την προσέγγιση NoSQL.

Διεξαγωγή πειραμάτων Ο στόχος των πειραμάτων είναι η σύγκριση της αποδοτικότητας των προτεινόμενων βελτιώσεων σε σχέση με τις υπάρχουσες προσεγγίσεις ως προς : το χρόνο επεξεργασίας των επερωτήσεων την επεκτασιμότητα των δεδομένων το βαθμό ομοιομορφίας

Αναφορές 1. Doulkeridis, Christos, et al. "Processing of rank joins in highly distributed systems." Data Engineering (ICDE), 2012 IEEE 28th International Conference on. IEEE, 2012. 2. Ilyas, Ihab F., George Beskales, and Mohamed A. Soliman. "A survey of top-k query processing techniques in relational database systems." ACM Computing Surveys (CSUR) 40.4 (2008): 11. 3. T. White. Hadoop - The Definitive Guide. O Reilly, 2012. 4. Candan, K. Selcuk, et al. "RanKloud: scalable multimedia data processing in server clusters." MultiMedia, IEEE 18.1 (2011): 64-77. 5. Ntarmos, Nikos, Ioannis Patlakas, and Peter Triantafillou. "Rank join queries in NoSQL databases." Proceedings of the VLDB Endowment 7.7 (2014): 493-504.