are needed to see this picture. Συνόψεις για Δεδομένα XML με Ετερογενές Περιεχόμενο Άλκης Πολυζώτης UC Santa Cruz Μίνως Γαροφαλάκης Intel Research, Berkeley Ανακεφαλαίωση QuickTime and a Ησυνόψιση είναι σημαντικό κομμάτι της διαχείρισης δεδομένων Βελτιστοποίηση ερωτήσεων Προσεγγιστικές απαντήσεις Ανεύρεση προτύπων Συνόψεις VTreeSketch οµή + Τιμές Ετερογενές περιεχόμενο
QuickTime and a are needed to see this picture. Συνόψιση XML Δεδομένων QuickTime and a are needed to see this picture. QuickTime and a are needed to see this picture. Αρκετά KBs XML Synopsis Ερώτηση Q Αποτέλεσμα R Προσεγγίζει XML Data Ερώτηση Q Αποτέλεσμα R Αρκετά MBs R υπολογίζεται πιο γρήγορα! Εφαρµογή: Εκτίμηση Επιλεκτικότητας Ηβελτιστοποίηση βασίζεται σε παράγοντες επιλεκτικότητας Π.χ.: //author[name= Tova ]/paper θα χρειαστεί //author, //name, //paper, //author/paper, Οι ακριβεις τιμές είναι μη πρακτικές => Εκτίμηση! XML Synopsis COUNT(Q) Επιλεκτικότητα S XML Data COUNT(Q) Επιλεκτικότητα S 2
Παράδειγμα Βιβλιογραφικά δεδομένα <entry> <year>996</year> <author>n.alon</author> <author>y.matias</author> <author>m.szegedy</author> <title>the space complexity of approximating the frequency moments </title> <abstract>.</abstract> </entry> Ερώτηση entry[year>2000][author= Matias ]/abstract[ ftcontains stream data ] υσκολίες/προκλήσεις QuickTime and a are needed to see this picture. Ετερογένεια περιεχόμενου ενδρική δομή, αριθμητικές τιμές, αλφαριθμητικά, κείμενο Ετερογένεια συνθηκών οµικές, εύρους, sub-string, term queries Συσχέτιση δομής/τιμών Κατανομή χώρου συνόψισης μεταξύ: Δομής/Τιμών Τιμώνδιαφορετικώντύπων 3
are needed to see this picture. Λύση: VTreeSketch (XCluster) QuickTime and a Συνόψεις για δενδρικά XML δεδομένα Δομή + Τιμές Τιμές διαφορετικών τύπων Προσεγγιστικές απαντήσεις σε δενδρικές ερωτήσεις με ετερογενείς συνθήκες Αποδοτική κατασκευή Υψυλή ποιότητα συνόψισης με χαμηλές απαιτήσεις χώρου ιάγραμμα Παρουσίασης Μοντέλο Συνόψισης Αλγόριθμος Κατασκευής Πειραματικά Αποτελέσματα Επόμενα Βήματα 4
VTreeSketch: Πληροφορία Γράφου s 2 XML εδοµένα r p s 3 Σύνοψη Γράφου R() P() S(2) f 4 f 5 f 6 f 7 F(2) F(2) e 8 c 9 e 0 c c 2 c 3 E(2) C(4) Κόμβος σύνοψης Στοιχεία με ίδιο σύμβολο Ακµή σύνοψης Ακµή (ή ακμές) κειμένου VTreeSketch: Πληροφορία Δομής XML Document p s 2 s 3 f 4 f 5 f 6 f 7 e 8 c 9 e 0 r c c 2 c 3 TreeSketch 2 R() P() S(2) F(2) F(2) E(2) C(4) count[u,v]: µέσος αριθμός παιδιών στον v ανά στοιχείο του u 5
VTreeSketch: Πληροφορία Τιμών XML Document p s 2 s 3 f 4 f 5 f 6 f 7 e 8 c 9 e 0 r c c 2 c 3 VTreeSketch 2 R() P() S(2) F(2) F(2) E(2) C(4) H E H C Η u : Σύνοψητιμώνγιαταστοιχείατουu Συνόψεις Τιμών Μονοδιάστατες συνόψεις Υλοποίηση εξαρτάται από τον τύπο των τιμών Αριθµητικές τιμές: ιστογράμματα Αλφαριθμητικά: παραλλαγή Pruned Suffix Tries Κείμενο: end-biased term histograms Συνδυασµός ιστογραμμάτων και bitmap indices 6
Συνόψιση = Συσταδοποίηση Κόμβος Συστάδα δομής/τιμών Συνοχή εξαρτάται από: Ομοιότητα δομής Ομοιότητα κατανομής τιμών Καλή συνοχή Ακριβής σύνοψη Κύρια δυσκολία: ετερογένεια! 2 R() P() S(2) F(2) F(2) E(2) C(4) H E H C Κατασκευή Συνόψεων Ζητούμενο: κατασκευή αποδοτικής σύνοψης για συγκεκριμένα δεδομένα Τ και για περιορισμένο χώρο αποθήκευσης B Πρόβλημα συσταδοποίησης αλλά με αυξημένη δυσκολία! 7
Αλγόριθμος Κατασκευής Σταδιακή συμπίεση λεπτομερούς σύνοψης Φάση Α: Συμπίεση δομής Φάση Β: Συμπίεση κατανομών Επιλογή βημάτων με βάση την απόσταση μεταξύ αρχικήςκαιτελικήςσύνοψης Αρχική Τελική Συνάρτηση Απόστασης Υπολογισμός βάσει τοπικών μ- ερωτήσεων u ( count(u[ p]/c) count(w[ p]/c) ) 2 + v p,c p,c ( count(v[ p]/c) count(w[p]/c) ) 2 8
Πειραµατικά Αποτελέσματα 90 80 70 60 50 40 30 20 0 Overall Struct Numeric String Text IMDB Μέγεθος ~ 7ΜΒ 236822 στοιχεία Μονοπάτια τιμών 2 αριθµητικά 4string κείμενο 50ΚΒ πληροφορία δομής 0 50 55 60 65 70 75 80 85 90 95 200 Synopsis Size (KB Επόμενα Βήματα Συνόψεις κειμένου και αλφαριθμητικών Αποδοτικότερος αλγόριθμος κατασκευής Εφαρμογή σε σχεσιακά δεδομένα 9
0