Συνόψεις για Δεδομένα XML με Ετερογενές Περιεχόμενο



Σχετικά έγγραφα
MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Μία Γρήγορη Προσεγγιστική Μέθοδος για Πιθανοτικές Wavelet Συνόψεις

Ανάκτηση Πληροφορίας

Semantic-based Querying of Tree-Structured Data. Οργάνωση εδοµένων µε ενδρικές οµές

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Το εσωτερικό ενός Σ Β

14/10/2005. <id, ts, x, y> (online). (single-pass). Potamias-abstract.pdf

Διδάσκων: Παναγιώτης Ανδρέου

Προσεγγιστικοί Αλγόριθμοι

Μεγίστου Σφάλµατος. Παναγιώτης Καρράς. Αθήνα, 26 Αυγούστου 2005

Πρόλογος. Πρόλογος 13. Πώς χρησιμοποείται αυτό το βιβλίο 17

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Κεφάλαιο Αλφαριθμητικές Σειρές Χαρακτήρων (Strings) (Διάλεξη 20) 1) Strings στη C

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Επεξεργασία Ερωτήσεων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Πίνακας περιεχοµένων

Προσομοίωση Συστημάτων

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Εισαγωγή Ορισμός Frequency moments

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Επεξεργασία Ερωτήσεων

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Επεξεργασία Ερωτήσεων

ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΟΥ

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Ομαδοποίηση ΙΙ (Clustering)

Κεφάλαιο 11 Ένωση Ξένων Συνόλων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

IBM DB2, Microsoft SQL Server. Εαρινό Εξάμηνο

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

KLEE: A Framework for Distributed top-k Query Algorithms

Σχέσεις. ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Προσεγγιστικοί Αλγόριθμοι

Προγραμματισμός ΙΙ Εαρινό εξάμηνο Εργασία 3 Βιβλιοθήκη για λειτουργίες σε γράφους

Διάλεξη 11: Δέντρα Ι - Εισαγωγή σε Δενδρικές Δομές Δεδομένων

3. Επερώτηση XML Εγγράφων: Η Γλώσσα XPath

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Πληροφοριακά Συστήματα Διοίκησης

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ II. χειμερινό εξάμηνο & εαρινό εξάμηνο (σε κίτρινο υπόβαθρο)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

Εξατοµίκευση Ερωτήσεων σε Βάσεις εδοµένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αντικειμενοστρεφής Προγραμματισμός

Κατ οίκον Εργασία 4 Σκελετοί Λύσεων

Επεξεργασία Ερωτήσεων

Ελαφρύτατες διαδρομές

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Στοίβες με Δυναμική Δέσμευση Μνήμης

Επίλυση 1 ης Εργασίας. Παραδόθηκαν: 11/12 15%

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Ο Σ ο β ι ε τ ι κ ό ς Κ ρ υ π τ α λ γ ό ρ ι θ μ ο ς G O S T

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δρ. Π. Νικολαΐδου

Δομές δεδομένων. Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διάλεξη 11: Δέντρα Ι Εισαγωγή σε Δενδρικές Δομές Δεδομένων

Δομές Δεδομένων Εργαστηριακή Άσκηση Γκόγκος Νίκος Α.Μ.: 4973 Έτος: 3 ο gkogkos@ceid.upatras.gr. Εισαγωγικά:

Certified Data Base Designer (CDBD)

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Περιεχόμενα. Περιεχόμενα

Κεφάλαιο Αλφαριθµητικές Σειρές Χαρακτήρων (Strings)

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Διάλεξη 2: Επανάληψη Προγραμματισμού Συμβολοσειρές (strings) Διδάσκων: Παναγιώτης Ανδρέου

Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ιαφάνειες παρουσίασης #9 (α)

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής. Ακαδημαϊκό Έτος

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Παραδοτέο Π.4.3. Μέθοδοι εύρεσης ομοιότητας χρηστών υπερχώρων δεδομένων

Αλγόριθμοι Ταξινόμησης Μέρος 4

Πληροφορική 2. Δομές δεδομένων και αρχείων

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

Πληροφοριακά Συστήματα Διοίκησης

1.1 Συστήματα Βάσεων Δεδομένων Κλασικές καί Σύγχρονες Εφαρμογές Σ ύ ν ο ψ η Ασκήσεις και Ερωτήσεις Ε πανάληψ ης...

Εγχειρίδιο του πίνακα χαρακτήρων

Εισαγωγή στους Αλγορίθμους

Μαθήματα Διατμηματικού Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσε

Κεφάλαιο 10 Ψηφιακά Λεξικά

Transcript:

are needed to see this picture. Συνόψεις για Δεδομένα XML με Ετερογενές Περιεχόμενο Άλκης Πολυζώτης UC Santa Cruz Μίνως Γαροφαλάκης Intel Research, Berkeley Ανακεφαλαίωση QuickTime and a Ησυνόψιση είναι σημαντικό κομμάτι της διαχείρισης δεδομένων Βελτιστοποίηση ερωτήσεων Προσεγγιστικές απαντήσεις Ανεύρεση προτύπων Συνόψεις VTreeSketch οµή + Τιμές Ετερογενές περιεχόμενο

QuickTime and a are needed to see this picture. Συνόψιση XML Δεδομένων QuickTime and a are needed to see this picture. QuickTime and a are needed to see this picture. Αρκετά KBs XML Synopsis Ερώτηση Q Αποτέλεσμα R Προσεγγίζει XML Data Ερώτηση Q Αποτέλεσμα R Αρκετά MBs R υπολογίζεται πιο γρήγορα! Εφαρµογή: Εκτίμηση Επιλεκτικότητας Ηβελτιστοποίηση βασίζεται σε παράγοντες επιλεκτικότητας Π.χ.: //author[name= Tova ]/paper θα χρειαστεί //author, //name, //paper, //author/paper, Οι ακριβεις τιμές είναι μη πρακτικές => Εκτίμηση! XML Synopsis COUNT(Q) Επιλεκτικότητα S XML Data COUNT(Q) Επιλεκτικότητα S 2

Παράδειγμα Βιβλιογραφικά δεδομένα <entry> <year>996</year> <author>n.alon</author> <author>y.matias</author> <author>m.szegedy</author> <title>the space complexity of approximating the frequency moments </title> <abstract>.</abstract> </entry> Ερώτηση entry[year>2000][author= Matias ]/abstract[ ftcontains stream data ] υσκολίες/προκλήσεις QuickTime and a are needed to see this picture. Ετερογένεια περιεχόμενου ενδρική δομή, αριθμητικές τιμές, αλφαριθμητικά, κείμενο Ετερογένεια συνθηκών οµικές, εύρους, sub-string, term queries Συσχέτιση δομής/τιμών Κατανομή χώρου συνόψισης μεταξύ: Δομής/Τιμών Τιμώνδιαφορετικώντύπων 3

are needed to see this picture. Λύση: VTreeSketch (XCluster) QuickTime and a Συνόψεις για δενδρικά XML δεδομένα Δομή + Τιμές Τιμές διαφορετικών τύπων Προσεγγιστικές απαντήσεις σε δενδρικές ερωτήσεις με ετερογενείς συνθήκες Αποδοτική κατασκευή Υψυλή ποιότητα συνόψισης με χαμηλές απαιτήσεις χώρου ιάγραμμα Παρουσίασης Μοντέλο Συνόψισης Αλγόριθμος Κατασκευής Πειραματικά Αποτελέσματα Επόμενα Βήματα 4

VTreeSketch: Πληροφορία Γράφου s 2 XML εδοµένα r p s 3 Σύνοψη Γράφου R() P() S(2) f 4 f 5 f 6 f 7 F(2) F(2) e 8 c 9 e 0 c c 2 c 3 E(2) C(4) Κόμβος σύνοψης Στοιχεία με ίδιο σύμβολο Ακµή σύνοψης Ακµή (ή ακμές) κειμένου VTreeSketch: Πληροφορία Δομής XML Document p s 2 s 3 f 4 f 5 f 6 f 7 e 8 c 9 e 0 r c c 2 c 3 TreeSketch 2 R() P() S(2) F(2) F(2) E(2) C(4) count[u,v]: µέσος αριθμός παιδιών στον v ανά στοιχείο του u 5

VTreeSketch: Πληροφορία Τιμών XML Document p s 2 s 3 f 4 f 5 f 6 f 7 e 8 c 9 e 0 r c c 2 c 3 VTreeSketch 2 R() P() S(2) F(2) F(2) E(2) C(4) H E H C Η u : Σύνοψητιμώνγιαταστοιχείατουu Συνόψεις Τιμών Μονοδιάστατες συνόψεις Υλοποίηση εξαρτάται από τον τύπο των τιμών Αριθµητικές τιμές: ιστογράμματα Αλφαριθμητικά: παραλλαγή Pruned Suffix Tries Κείμενο: end-biased term histograms Συνδυασµός ιστογραμμάτων και bitmap indices 6

Συνόψιση = Συσταδοποίηση Κόμβος Συστάδα δομής/τιμών Συνοχή εξαρτάται από: Ομοιότητα δομής Ομοιότητα κατανομής τιμών Καλή συνοχή Ακριβής σύνοψη Κύρια δυσκολία: ετερογένεια! 2 R() P() S(2) F(2) F(2) E(2) C(4) H E H C Κατασκευή Συνόψεων Ζητούμενο: κατασκευή αποδοτικής σύνοψης για συγκεκριμένα δεδομένα Τ και για περιορισμένο χώρο αποθήκευσης B Πρόβλημα συσταδοποίησης αλλά με αυξημένη δυσκολία! 7

Αλγόριθμος Κατασκευής Σταδιακή συμπίεση λεπτομερούς σύνοψης Φάση Α: Συμπίεση δομής Φάση Β: Συμπίεση κατανομών Επιλογή βημάτων με βάση την απόσταση μεταξύ αρχικήςκαιτελικήςσύνοψης Αρχική Τελική Συνάρτηση Απόστασης Υπολογισμός βάσει τοπικών μ- ερωτήσεων u ( count(u[ p]/c) count(w[ p]/c) ) 2 + v p,c p,c ( count(v[ p]/c) count(w[p]/c) ) 2 8

Πειραµατικά Αποτελέσματα 90 80 70 60 50 40 30 20 0 Overall Struct Numeric String Text IMDB Μέγεθος ~ 7ΜΒ 236822 στοιχεία Μονοπάτια τιμών 2 αριθµητικά 4string κείμενο 50ΚΒ πληροφορία δομής 0 50 55 60 65 70 75 80 85 90 95 200 Synopsis Size (KB Επόμενα Βήματα Συνόψεις κειμένου και αλφαριθμητικών Αποδοτικότερος αλγόριθμος κατασκευής Εφαρμογή σε σχεσιακά δεδομένα 9

0