Semantic-based Queying of Tee-Stuctued Data ηµήτρης Θεοδωράτος Θοδωρής αλαµάγκας Αντώνης Κουφόπουλος (New Jesey Institute of Technology, ΗΠΑ) (Εθνικό Μετσόβιο Πολυτεχνείο) (Εθνικό Μετσόβιο Πολυτεχνείο) Οργάνωση εδοµένων µε ενδρικές οµές εδοµένα σε ενδρικές οµές (tee-stuctued data): ένας τρόπος να οργανώνουµε τις πληροφορίες στο Web (πχ. θεµατικές κατηγορίες, κατάλογοι προϊόντων, κλπ.), κυρίως µε την χρήση της γλώσσας XML. Οι ερωτήσεις σε tee-stuctued data γίνονται µε την χρήση ερωτήσεων µονοπατιών (πχ. XPath και XQuey). Όµως, όταν εφαρµόζουµε ερωτήσεις σε teestuctued data, συναντάµε κάποιαεµπόδια, όπως: Την ηµι-δοµηµένη µορφή των δεδοµένων, δηλ. δοµικές διαφορές και ασυνέπειες (stuctual diffeences and inconsistencies), Την έλλειψη σηµασιολογίας. -2-1
Poduct Catalog A Custom Ultalight Seves 10'' 8'' οµικές ιαφορές Ο κατάλογος A έχει λεπτότερη κατηγοριοποίηση για τα notebooks, δηλ.: Custom/Ultalight and 10 /8 (για τα ultalight) σε σύγκριση µε τον κατάλογο B. New New Poduct Catalog B Seves New Poduct Catalog A Custom Ultalight Seves 10'' 8'' οµικές Ασυνέπειες Ο κατάλογος A κατηγοριοποιεί τα notebooks πρώτα µε το και µετά µετο, ενώ ο κατάλογος B αντίστροφα (/ έναντι /). New New New Poduct Catalog B New Seves New -3- -4-2
Ηµι-δοµηµένη µορφή των Tee-stuctued Data Πως επηρεάζουν οι δοµικές διαφορές και ασυνέπειες την διαδικασία εφαρµογής ερωτήσεων; Ο χρήστης πρέπει να τις λάβει υπ όψιν του στον ορισµό της ερώτησης Πρέπει να ορίσει ρητά τις διαζεύξεις όλων των δυνατών περιπτώσεων αλληλουχίας κόµβων, πχ: ///[pice<900] O ///[pice<900] O //Ultalight//[pice<900] O... Οι χρήστες πρέπει να µπορούν να εφαρµόσουν ερωτήσεις ακόµη και αν δεν ξέρουν (ή δεν ενδιαφέρονται) για την ακριβή µορφή των tee-stuctued πηγών δεδοµένων. Έλλειψη σηµασιολογίας σε Tee-stuctued Data Τα tee-stuctued data παρέχουν κυρίως συντακτική και όχι σηµασιολογική πληροφορία. Παρ όλα αυτά, µπορεί να εµπεριέχεται κάποια σηµασιολογία Κάποιοι κόµβοι σχετίζονται σηµασιολογικά, πχ. τα,, αναφέρονται στην µάρκα (). Αυτή η πληροφορία µπορεί να γίνει µέρος της ερώτησης, και να χρησιµοποιηθεί για βελτιστοποίηση. -5- -6-3
Η Μέθοδός µας Ορίζουµε την έννοια των γράφων διαστάσεων (dimension gaphs) για να αποτυπώσουµε την σηµασιολογική πληροφορία των tee-stuctued data. Ορίζουµε µια γλώσσα ερωτήσεων για tee-stuctued data που δεν θα εφαρµόζεται στην δοµή τους, και θα χειρίζεται επιτυχώς τις δοµικές διαφορές και ασυνέπειες. Συζητούµε θέµατα αποτίµησης των ερωτήσεων. Θα δείξουµε πωςοιdimension gaphs µπορούν να χρησιµοποιηθούν για να εφαρµόσουµε ερωτήσεις σε πολλαπλές πηγές από tee-stuctued data. Μοντέλο εδοµένων Οι τιµές (δηλ. οι κόµβοι) σταδένδραοµαδοποιούνται σε διαστάσεις (dimensions). Μια διάσταση......είναι ένα σύνολο από σηµασιολογικά σχετιζόµενους κόµβους (δηλ. τιµές) του δένδρου. -7- -8-4
Μοντέλο εδοµένων New Seves New Πχ. ιαστάσεις = {,, }, = {Seves, }, = {,,,, }, κλπ. Μοντέλο εδοµένων New Seves New Dimension Gaph Οι dimension gaphs αποδίδουν την σχέση µεταξύ των διαστάσεων. Οι κόµβοι αναπαριστούν διαστάσεις. Υπάρχει µια ακµήαπότηνδιάστασηd1 στην D2 αν µια τιµήτηςd1 είναι πατέρας µιας τιµής της D2 στο δένδρο. -9- -10-5
Μοντέλο εδοµένων New Seves New Dimension Gaph Οι dimension gaphs αποδίδουν την σχέση µεταξύ των διαστάσεων. Οι κόµβοι αναπαριστούν διαστάσεις. Υπάρχει µια ακµήαπότηνδιάστασηd1 στην D2 αν µια τιµήτηςd1 είναι πατέρας µιας τιµής της D2 στο δένδρο. Μοντέλο εδοµένων Ο dimension gaph... Παρέχει καθοδήγηση για την διατύπωση ερωτήσεων πάνω σε tee-stuctued data Χρησιµοποιείται για την αποτίµηση των ερωτήσεων. -11- -12-6
Ερωτήσεις Value Tee T New Seves New Ερώτηση στον Dimension Gaph του Τ =? = {used} Επιλεγµένη διάσταση =? Ηδιάστασηµπορεί να έχει οποιαδήποτε τιµή = {... } Η διάσταση έχει συγκεκριµένες τιµές = {, } Ερωτήσεις Value Tee T New Seves New Ερώτηση στον Dimension Gaph του Τ =? = {used} = {, } Βρες όλα τα, used προϊόντα, δηλ. βρες τα µονοπάτια στο Τ από το µέχρι τα φύλλα που να περιέχουν -οποιαδήποτε τιµήτηςδιάστασης, -την τιµή used της διάστασης, -την τιµή ή της διάστασης. -13- -14-7
Ερωτήσεις Value Tee T New Seves New Ερώτηση στον Dimension Gaph του Τ =? = {used} Η γλώσσα ερωτήσεων χειρίζεται επιτυχώς τις δοµικές ασυνέπειες! = {, } Ερωτήσεις Value Tee T New Seves New Ερώτηση στον Dimension Gaph του T =? = {used} = {, } -15- Βρες τα µονοπάτια στο T από το µέχρι τα φύλλα που περιέχουν -οποιαδήποτε τιµή τηςδιάστασης, -την τιµή used της διάστασης, -την τιµή ή της διάστασης, Επιπλέον: οι τιµές του πρέπει να είναι paents των τιµών του. -16-8
Αποτίµηση Ερωτήσεων Για την αποτίµηση των ερωτήσεων χρησιµοποιούµετον dimension gaph για να βρούµε answe paths. Ένα answe path είναι ένα απλό µονοπάτι στον dimension gaph που περιέχει όλες τις επιλεγµένες διαστάσεις. =? Ερώτηση στον Dimension Gaph του T = {used} = {, } Παραδείγµατα answe paths: ////, /////,... Αποτίµηση Value Tee T New Seves New Ερώτηση στον Dimension Gaph του T =? = {used} = {, } Τα answe paths χρησιµοποιούνται για την παραγωγή ερωτήσεων µονοπατιών που θα εφαρµοσθούν πχ. από ένα XQuey engine για να πάρουµε τις απαντήσεις από ένα δένδρο. Πχ. //// µας δίνει //( )//( ) -17- -18-9
Αποτίµηση Ερωτήσεων Χρησιµοποιούµε τουςdimension gaphs γιαναανιχνεύσουµε µη ικανοποιήσιµες ερωτήσεις, δηλ. ερωτήσεις µε κενή απάντηση σε κάθε δένδρο (unsatisfiable queies). Παραδείγµατα µη ικανοποιήσιµων ερωτήσεων: =? =? mobile_type =? =? =? =? Band =? εν υπάρχουν answe paths! mobile_type ύο κόµβοι έχουν τον ίδιο πατέρα! mobile_type =? Ερωτήσεις σε Πολλαπλές Πηγές Με τους dimension gaphs µπορούµε ναεφαρµόσουµε την ίδια ερώτηση σε πολλαπλές πηγές (data integation). Έστω τα δένδρα T1, T2,..., Tn µε ένα σύνολο διαστάσεων D. Έστω G1, G2,..., Gn οι dimension gaphs αυτών. Κατασκευάζουµε ένανglobal dimension gaph G συγχωνεύοντας τους G1, G2,..., Gn. Κατασκευάζουµε τις ερωτήσεις µας στον G. Οι επιλογές µεταφέρονται στους G1, G2,..., Gn. Ηαποτίµηση γίνεται όπως περιγράφηκε παραπάνω. εν υπάρχει µονοπάτι από το στο mobile_type! -19- -20-10
Πειραµατικά Αποτελέσµατα Χρησιµοποιήσανε συνθετικά δένδρα κωδικοποιηµένα ως XML αρχεία. Τυχαία παραγωγή ερωτήσεων. Συγκρίναµε τηνµέθοδό µας µε µια παρόµοια µέθοδο που δεν χρησιµοποιεί dimension gaphs Πειραµατικά Αποτελέσµατα Χρόνος εκτέλεσης σε σχέση µε το ποσοστό των aows για διάφορες τιµές επιλεγµένων διαστάσεων στην ερώτηση. -21- -22-11
Πειραµατικά Αποτελέσµατα Χρόνος εκτέλεσης σε σχέση µε το ποσοστό των single aows στην ερώτηση. Πειραµατικά Αποτελέσµατα Χρόνος εκτέλεσης για ερωτήσεις, καθώς µεγαλώνουµε τονdimension gaph. -23- -24-12
Σύνοψη - Επίλογος Γλώσσα ερωτήσεων σε tee-stuctued data µετηνχρήση dimension gaphs: Η γλώσσα ερωτήσεων χειρίζεται αποτελεσµατικά τις δοµικές διαφορές και ασυνέπειες. Οι dimension gaphs αποτυπώνουν την σηµασιολογική πληροφορία των tee-stuctued data. Χρησιµοποιούνται για τον διατύπωση των ερωτήσεων και για την αποτίµηση τους. Οι dimension gaphs µπορούν να χρησιµοποιηθούν και για να εφαρµόσουµε ερωτήσεις σε πολλαπλές πηγές. κερδίζει σε χρόνο µερικές τάξεις µεγέθους σε σχέση µε µια µέθοδο που δεν χρησιµοποιεί dimension gaphs. Ερωτήσεις... -25-13