ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703
1. Περίληψη Συνεισφοράς Το παρόν paper, πραγματεύεται την αποδοτική εκτίμηση των queries σε πιθανοτικές ροές δεδομένων. Οι πιθανοτικές ροές δεδομένων προκύπτουν από διάφορες πηγές δεδομένων, όπως δίκτυα αισθητήρων ή αναγνώριση προτύπων, όπου παράγεται αβέβαιη πληροφορία. Μπορούμε λοιπόν να διαπιστώσουμε ότι υπάρχει μεγάλη ανάγκη για ανάπτυξη συστημάτων όπου μπορούν να επεξεργάζονται και να εκτελούν queries με αποδοτικό τρόπο σε ροές δεδομένων σε πραγματικό χρόνο. Οι πιθανοτικές ροές δεδομένων που προκύπτουν, είναι υψηλά συσχετισμένες με το χώρο και το χρόνο. Αυτές οι συσχετίσεις επηρεάζουν σημαντικά την εκτίμηση των αποτελεσμάτων, αφού τα SQL query semantics είναι ασαφή όταν τα αποτελέσματα είναι πιθανοτικές ακολουθίες. Για παράδειγμα, θεωρούμε μία κατοικία πουλιών ως περιοχή παρακολούθησης και ζητούμενο είναι η εύρεση της πιθανότητας μία φωλιά να είναι κατοικημένη και τις εφτά ημέρες της εβδομάδας. Υποθέτοντας ότι η πιθανότητα ανίχνευσης ενός πουλιού μία δοθείσα μέρα της εβδομάδας είναι 0,5 και αν αγνοηθούν οι χρονικές συσχετίσεις, τότε η ζητούμενη πιθανότητα έγκειται στο 0 (0,5 7 ). Το προηγούμενο αποτέλεσμα δεν είναι ρεαλιστικό και έτσι η ακρίβεια των αποτελεσμάτων είναι υψηλά συσχετισμένη με το χρόνο, αφού στο συγκεκριμένο παράδειγμα η παραμονή ενός πουλιού σε μια φωλιά εξαρτάται από τη χρονική περίοδο. Εκτός από τη χωρο-χρονική συσχέτιση των δεδομένων, το δεύτερο πρόβλημα που επιλύεται σχετίζεται με των SQL query semantics, καθ ότι πλέον δεν υπάρχει ένα σύνολο πλειάδων, αλλά μία ακολουθία από πλειάδες. Πιο συγκεκριμένα, υπάρχει αμφιβολία για το αν τα αποτελέσματα του query που θέτουμε αφορούν σε κάθε στιγμιότυπο του χρόνου ή σε πιο συγκεντρωτικά αποτελέσματα βασισμένοι σε ολικές πιθανότητες. Η επίλυση του προβλήματος αυτού επιλύεται με την εισαγωγή δύο νέων τελεστών στο query, και έτσι ο χρήστης έχει τη δυνατότητα μέσω αυτών των τελεστών να κάνει σαφές το εύρος μελέτης των αποτελεσμάτων. Οι προηγούμενες αναφορές στην περιοχή των πιθανοτικών βάσεων δεδομένων είχαν αναπτύξει τεχνικές για το χειρισμό της ύπαρξης ή όχι των πλειάδων όπως επίσης και της αβεβαιότητα των τιμών των δεδομένων. Το συγκεκριμένο paper υιοθέτησε κάποιες από τις συγκεκριμένες τεχνικές με επιπρόσθετο χαρακτηριστικό την αποδοτική εκτίμηση των συνεχόμενων queries σε πιθανοτικές ροές δεδομένων. Επιπλέον, στις προηγούμενες δουλειές προσπαθούσαν να εκμεταλλευτούν τους από κοινού παράγοντες συσχέτισης για να βελτιώσουν την απόδοση της επεξεργασίας των queries. Εδώ, οι τελεστές συσχέτισης πρέπει να είναι ιδανικοί (συμπεριλαμβανομένου και τις τιμές των πιθανοτήτων), ώστε να μπορούν να αναπαρασταθούν στο γραφικό μοντέλο που δημιουργείται για κάθε τελεστή. Σχετικά με τις συναθροίσεις σε πιθανοτικές ροές δεδομένων, υπάρχουν δύο πτυχές με τις οποίες ασχολείται αυτό το paper. Πρωτίστως εστιάζουν στον ακριβή υπολογισμό της κατανομής της πιθανότητας των συναθροίσεων και όχι στις προβλέψεις. Επίσης, οι τεχνικές που χρησιμοποιούν μπορούν να χειριστούν τις
χωρο-χρονικές συσχετίσεις που παρουσιάζονται στις πιθανοτικές ροές δεδομένων του πραγματικού κόσμου (το συγκεκριμένο κομμάτι αγνοείται σε προηγούμενες δουλειές). Τέλος και σημαντικότερο, εισήγαγαν για κάθε τελεστή την get_next() ρουτίνα, ώστε να εκτελείται σταδιακά το κάθε query κάθε φορά σε ένα υποσύνολο των αποτελεσμάτων. Έτσι επιτεύχθηκε μεγαλύτερη ακρίβεια στα τελικά αποτελέσματα και μειώθηκαν η απαιτούμενη μνήμη και ο χρόνος επεξεργασίας των queries. 2. Εύρος εφαρμογής αποτελεσμάτων Οι τεχνικές και οι αλγόριθμοι που παρουσιάζονται στο παρόν paper μπορούν να χρησιμοποιηθούν σε μία ποικιλία εφαρμογών που παράγουν ροές δεδομένων, με αβέβαια και μη πλήρη αποτελέσματα, υψηλά συσχετισμένες με το χώρο και το χρόνο. Παραδείγματα αυτών των δεδομένων περιλαμβάνουν μετρήσεις που συλλέγονται από δίκτυα αισθητήρων, δεδομένα παρακολούθησης από το περιβάλλον των κοινωνικών δικτύων, των επιστημονικών και των βιολογικών βάσεων δεδομένων όπως επίσης και δεδομένα από μία ποικιλία online αυτοματοποιημένων πηγών. Η αβεβαιότητα των αποτελεσμάτων ίσως είναι αποτέλεσμα των περιορισμών στις μετρήσεις, της ασάφειας του domain που παρατηρείται ή μπορεί ακόμα να είναι και παρενέργεια του πιθανοτικού μοντέλου που χρησιμοποιείται για την εξόρυξη πληροφοριών από τις αυτοματοποιημένες πηγές. Ομοίως, κατά την προσπάθεια ενσωμάτωσης ετερογενών πηγών δεδομένων (data integration) ή κατά την εξαγωγή δομημένης πληροφορίας από το κείμενο (information extraction) τα αποτελέσματα είναι προσεγγιστικά και αβέβαια. Άλλες εφαρμογές στις οποίες μπορούν να χρησιμοποιηθούν οι παρούσες τεχνικές είναι η παρακολούθηση κατοικημένων περιοχών, στην αναγνώριση δραστηριοτήτων, προτύπων και γεγονότων και στα stock prediction models 3. Ισχυρά σημεία Τα ισχυρότερα σημεία του paper συνοψίζονται ακολούθως: Παρατηρήθηκε και εντοπίστηκε ότι τα δεδομένα των πιθανοτικών ροών δεδομένων, είναι καλά δομημένα δηλαδή οι εξαρτήσεις τους και οι συσχετίσεις τους επαναλαμβάνονται στο χώρο και στο χρόνο και οι τιμές των δεδομένων δεν εξαρτώνται από τις προηγούμενες και τις επόμενες χρονικές στιγμές. Συνδύασαν λοιπόν τα προηγούμενα με τη Μαρκοβιανή ιδιότητα σύμφωνα με την οποία μοντελοποιείται η κατάσταση ενός συστήματος με μία τυχαία μεταβλητή η οποία αλλάζει στο χρόνο, ανεξάρτητα από τις προηγούμενες και τις επόμενες καταστάσεις.
Παρουσιάζεται μία αλγεβρική προσέγγιση για τις λειτουργίες των τελεστών σε πιθανοτικές ακολουθίες χρησιμοποιώντας τη σημασιολογία των πιθανών κόσμων (possible worlds semantics), εισάγοντας την έννοια των Μαρκοβιανών ακολουθιών. Αναπτύχθηκαν αποδοτικές δομές για την αναπαράσταση των Μαρκοβιανών ακολουθιών. Επιπλέον, αναπτύχθηκαν τεχνικές για την επεξεργασία των queries που αξιοποιούν τις επαναλαμβανόμενες συσχετίσεις. Υλοποιήθηκαν αλγόριθμοι για την επεξεργασία των τελεστών των queries βασισμένοι σε μία ρουτίνα για την αποδοτική υποστήριξη των ροών δεδομένων. Όπως αναφέρθηκε προηγουμένως η ρουτίνα αυτή ήταν η get_next(), όπου επεξεργάζεται σταδιακά τα δεδομένα προς το σχηματισμό των αποτελεσμάτων. Επιπροσθέτως, χαρακτηρίζονται τα queries τα οποία έχουν NP-hard data complexity και προτείνονται προσεγγιστικοί αλγόριθμοι και τεχνικές. Οι συγκεκριμένες τεχνικές εγγυώνται την εύρεση ενός βέλτιστου πλάνου για το query σε πολυωνυμικό χρόνο. Συνοψίζοντας, το σύστημα που αναπτύχθηκε δέχεται ως είσοδο queries σε πιθανοτικές ροές δεδομένων και παράγει ως έξοδο τα αποτελέσματα του query αφού έχει εκτελεστεί με αποδοτικό τρόπο. 4. Αδύναμα σημεία Σχετικά με τα αδύναμα σημεία του συγκεκριμένου paper πρέπει να αναφερθούν τα εξής: Η παραδοχή ότι οι συντελεστές συσχέτισης για την επεξεργασία των queries είναι ιδανικοί Δεν χρησιμοποιείται κάποια τεχνική για τον εντοπισμό της αβεβαιότητας των δεδομένων. Η αβεβαιότητα των δεδομένων έχει δύο όψεις: Την αβεβαιότητα της τιμής των δεδομένων και τη μη-/ύπαρξη αυτής. Στην περίπτωση των συναθροιστικών επερωτήσεων SUM, COUNT και AVG η πολυπλοκότητα αυξάνεται ( είανι Ο(nD 3 ), όπου n= το μήκος της ακολουθίας και D= dom(x i ) ). Για να κρατηθεί η ανά πλειάδα επεξεργασία, χρησιμοποιούν προσεγγιστικούς αλγορίθμους με κάποιο όριο για το domain που καλύπτεται. To γεγονός ότι χρησιμοποιούνται προσεγγιστικές μέθοδοι για τη μετατροπή των σύνθετων τελεστών (projection, MAP, sliding window aggregatesγια την παραγωγή βέλτιστων πλάνων.
5. Ανοικτά θέματα για μελλοντική έρευνα και πιθανές επεκτάσεις Το σύστημα το οποίο αναπτύχθηκε, δέχεται ως είσοδο queries που είτε έχουν SQL μορφή, είτε είναι στη μορφή της αλγεβρικής προσέγγισης που παρουσιάστηκε. Το συντακτικό της SQL μορφής που χρησιμοποιήθηκε είναι το εξής: <SELECT-MAP/ML><Agg<attrs>> FROM <tables>,,<tname>[size,shift] WHERE <predicates>, <attr> like <pattern> (p) Παρατηρώντας την παραπάνω μορφή, μπορούμε να διαπιστώσουμε ότι είμαστε περιορισμένοι ως προς το είδος των queries που τίθενται στις πιθανοτικές βάσεις δεδομένων. Πιο συγκεκριμένα, δεν μπορούν να εισαχθούν ως είσοδος στο σύστημα event queries. Αρκετές εφαρμογές χρειάζεται να εξάγουν σύνθετα γεγονότα, το οποία καθορίζονται από το χρήστη. Τέτοιες εφαρμογές είναι για παράδειγμα χρηματοοικονομικές υπηρεσίες ή απομακρυσμένη παρακολούθηση ασθενών. Μία ενδιαφέρουσα ιδέα, θα ήταν η εισαγωγή κατάλληλων προσαρμοσμένων ευρετηρίων στις πιθανοτικές βάσεις δεδομένων για την υποστήριξη συμπερασματικών queries και queries απόφασης. Επιπλέον, σε μία τέτοια περίπτωση, θα πρέπει να προταθεί κάποια μεθοδολογία για την συνεχή ενημέρωση των ευρετηρίων στις αλλαγές της βάσεις. Επίσης, η εκτέλεση των συναθροιστικών επερωτήσεων SUM, COUNT και AVG θα πρέπει να γίνεται με βέλτιστο τρόπο και όχι με προσεγγιστικές μεθόδους, καθ ότι η εκτέλεση τους είναι πολύ κρίσιμη σε πολλές εφαρμογές. Τέλος, ένα θέμα το οποίο χρειάζεται προσοχή και μελέτη είναι η βελτίωση της επεκτασιμότητας του συστήματος ως προς τις προσεγγιστικές μεθόδους που χρησιμοποιούνται, με προσφυγή σε προσεγγιστικές μεθόδους με εγγυήσεις.