Συµπίεση εδοµένων Τροχιάς Κινούµενων Αντικειµένων Μιχάλης Ποταµιάς mpotamias@dblab.ntua.gr ιπλωµατική εργασία στο Εργαστήριο Συστηµάτων Βάσεων Γνώσεων και εδοµένων Επιβλέπων: Καθηγητής Τ. Σελλής 1 Εισαγωγή Τα τελευταία χρόνια έχουν κάνει την εµφάνισή τους εφαρµογές εντοπισµού (positioning) οµάδων κινούµενων αντικειµένων, όπως λ.χ. σε συστήµατα παρακολούθησης εµπορικών στόλων. Πλέον οι συσκευές εντοπισµού (GPS) έχουν πολύ µικρό µέγεθος και µπορούν να εγκατασταθούν σε διαφόρων τύπων κινητό εξοπλισµό. Οι συσκευές αυτές αποστέλλουν πολύ µεγάλο όγκο δεδοµένων αποτελούµενο από στίγµατα (time-stamped positions) σε κεντρικούς σταθµούς επεξεργασίας. Η διαδικασία αυτή εγείρει θέµατα µετάδοσης και αποθήκευσης στοιχείων, καθώς και υπολογισµού και απεικόνισης αποτελεσµάτων. Γι αυτό το λόγο, η διαχείριση δεδοµένων που παράγονται από κινούµενα αντικείµενα απασχολεί την ερευνητική κοινότητα των χωρικών βάσεων δεδοµένων. Τελικός στόχος κάθε συστήµατος διαχείρισης κινούµενων αντικειµένων είναι αναµφισβήτητα η απάντηση σε ερωτήµατα που αφορούν χωροχρονικά δεδοµένα. Ο µεγάλος όγκος των δεδοµένων και η ανάγκη για έγκαιρες αποκρίσεις έστω και αν αυτές είναι προσεγγιστικές αποτελούν το κίνητρο για τη συµπίεση των δεδοµένων τροχιάς κινούµενων αντικειµένων. Η λειτουργικότητα της συµπίεσης τροχιάς κινούµενων αντικειµένων µπορεί να προσοµοιαστεί µε αυτή ενός ζυγού, υπεύθυνου για την ισοστάθµιση (tradeoff) πόρων συστήµατος και ακρίβειας απαντήσεων. Αντικείµενο της παρούσας διπλωµατικής εργασίας είναι η µελέτη και η υλοποίηση αλγορίθµων συµπίεσης ρευµάτων τροχιάς αντικειµένων που παρέχουν υψηλή ακρίβεια απαντήσεων µε µικρό κόστος σε πόρους. Στην διαδικασία αυτή τίθενται περιορισµοί. Οι περιορισµοί προκύπτουν από το µοντέλο ρευµάτων δεδοµένων στο οποίο εµπίπτουν και τα ρεύµατα τροχιάς κινούµενων αντικειµένων. 2 Τροχιές κινούµενων αντικειµένων Από τη συστηµατική περιγραφή χωροχρονικών φαινοµένων προκύπτουν χωροχρονικά δεδοµένα (spatiotemporal data). Η κίνηση ενός σηµειακού αντικειµένου αποτελεί ένα τέτοιο φαινόµενο. Η κίνηση ενός σηµειακού αντικειµένου στο επίπεδο µπορεί να αναπαρασταθεί µε την συνεχή τροχιά του (trajectory) σε τρισδιάστατο σύστηµα αξόνων, το οποίο συντίθεται από δύο χωρικές (x,y) και µία χρονική (t) συντεταγµένη. Η συνεχής τροχιά µπορεί να προσεγγιστεί από µία διακριτή ακολουθία χωροχρονικών δεδοµένων αποτελού- µενη από πλειάδες της µορφής: <id, ts, x, y> id: η ταυτότητα του κινούµενου αντικειµένου ts: το χρονόσηµο που περιγράφει τη χρονική στιγµή στην οποία αναφέρεται η πλειάδα x: η τετµηµένη του αντικειµένου id τη στιγµή ts y: η τεταγµένη του αντικειµένου id τη στιγµή ts. Αφού η συνεχής καταγραφή της τροχιάς είναι πρακτικά αδύνατη, η εύρεση της θέσης αντικειµένου για κάποια ενδιάµεση χρονική στιγµή µπορεί να προκύψει µε παρεµβολή. Εφαρµόζοντας γραµµική παρεµβολή, τα γνωστά σηµεία θεωρούνται άκρα ευθυγράµµων τµηµάτων και η τροχιά προσεγγίζεται από µία τεθλασµένη πολυγραµµή. Αυτή η προσέγγιση κρίνεται επαρκής για τις περισσότερες εφαρµογές. 3 Το µοντέλο Ρευµάτων εδοµένων Τα δεδοµένα τροχιάς είναι διαδοχικά χωροχρονικά στίγµατα της πορείας κινούµενων αντικειµένων και συνεπώς συνιστούν ένα ρεύµα δεδοµένων (data stream). Τα ρεύµατα δεδοµένων έχουν συνοπτικά τις παρακάτω ιδιότητες: Τα στοιχεία παράγονται σε πραγµατικό χρόνο (online). Τα ρεύµατα έχουν απεριόριστο µέγεθος. Ο ρυθµός άφιξης εµφανίζει διακυµάνσεις που οφείλονται σε εξωγενείς παράγοντες. Η χρονική διάταξη της πληροφορίας σε ένα ρεύµα δεδοµένων αλλά και µεταξύ διαφορετικών ρευµάτων δεν είναι εγγυηµένη. Οι εφαρµογές και τα συστήµατα διαχείρισης ρευµάτων δεδοµένων (Σ Ρ ) έχουν τα εξής χαρακτηριστικά: Η επεξεργασία ερωτηµάτων γίνεται στην κύρια µνήµη. Καλούνται να αποκρίνονται σε ερωτήµατα διαρκείας (continuous queries) σε πραγµατικό χρόνο. Oι αλγόριθµοι οφείλουν να είναι ενός περάσµατος (single-pass).
Προβλέπουν χρονικά παράθυρα, λ.χ. ολισθαίνοντα (sliding) και οροσήµου (landmark). Η πλέον πρόσφατη πληροφορία είναι συνήθως η πιο χρήσιµη. Η φύση του µοντέλου επιβάλλει τον συµψηφισµό ακρίβειας µε το κόστος σε χώρο αποθήκευσης και χρόνο επεξεργασίας. Οι προσεγγιστικές απαντήσεις είναι ικανοποιητικές, αρκεί να υπάρχουν εγγυηµένα περιθώρια σφάλµατος. Το µοντέλο ρευµάτων δεδοµένων θέτει συγκεκριµένες προδιαγραφές για τους αλγορίθµους συµπίεσης τροχιάς και τις τεχνικές δηµιουργίας συνόψεων για απάντηση συναθροιστικών ερωτηµάτων. 4 Συµπίεση πληροφορίας κινούµενων αντικειµένων Η έννοια της συµπίεσης (compression) έχει πολλές εφαρµογές στην επιστήµη των υπολογιστών. Στην παρούσα εργασία αναπτύσσονται αλγόριθµοι: για απωλεστική (lossy) συµπίεση τροχιάς κινούµενων αντικειµένων και για δηµιουργία συνόψεων κατάλληλων για ταχύτατη προσεγγιστική απάντηση σε συναθροιστικά ερωτήµατα. Οι κλασσικές τεχνικές συµπίεσης και δηµιουργίας συνόψεων όπως τα ιστογράµµατα (histograms), τα σκίτσα (sketches), τα κυµατίδια (wavelets) και η δειγµατοληψία (sampling) δεν ικανοποιούν πλήρως το µοντέλο ρεύµατος δεδοµένων. Κάποιες από τις τεχνικές αυτές θα αξιοποιηθούν σε συνδυασµό µε µεθόδους συµπίεσης χωροχρονικών δεδοµένων µε στόχο την αποτελεσµατική συµπίεση στοιχείων τροχιάς κινούµενων αντικείµενων. Οι µέθοδοι που έχουν προταθεί για τη συµπίεση χωροχρονικών δεδοµένων βασίζονται σε παραλλαγές του αλγορίθµου Douglas-Peucker που αναπτύχθηκε για αµιγώς χωρικά δεδοµένα. Όµως η πολυπλοκότητά τους είναι ακατάλληλη, αφού απαιτούν χρόνο Ο(Ν) ανά στοιχείο, όπου N το µέγεθος της τροχιάς µέχρι εκείνη τη στιγµή. Κατά την εκπόνηση αυτής της εργασίας, προέκυψαν αλγόριθµοι συµβατοί µε το µοντέλο ρεύµατος δεδοµένων. Οι πιο ενδιαφέροντες από αυτούς περιγράφονται στη συνέχεια. το σύστηµα. ιακρίνουµε στις εξής κατηγορίες τις δειγµατοληπτικές µεθόδους: Οµοιόµορφη δειγµατοληψία Αµνησιακή δειγµατοληψία ειγµατοληψία µε χωροχρονικά κριτήρια Όσον αφορά την απαιτούµενη µνήµη, διακρίνουµε σε µεθόδους που χρησιµοποιούν: Σταθερή µνήµη Γραµµικά αυξανόµενη µνήµη Λογαριθµικά αυξανόµενη µνήµη Μνήµη αυξανόµενη - όχι γνωστή εκ των προτέρων 5.1 Οµοιόµορφη δειγµατοληψία Η δειγµατοληψία αυτή είναι εφικτή µε το Reservoir Sampling. O αλγόριθµος αυτός τηρεί κάθε στιγµή οµοιόµορφο δείγµα των δεδοµένων και χρησιµοποιεί σταθερή ποσότητα µνήµης. Το βασικό χαρακτηριστικό του είναι ότι χρειάζεται να είναι γνωστό εκ των προτέρων το συνολικό µέγεθος του ρεύµατος. 5.2 Αλγόριθµος κατωφλίων Πρόκειται για δειγµατοληψία που βασίζεται σε πρόβλεψη µε χωροχρονικά κριτήρια και µνήµη όχι γνωστή εκ των προτέρων. Θεωρούµε το διάνυσµα της ταχύτητας όπως αυτό προκύπτει από τις τελευταίες πλειάδες του δείγµατος. Με κατώφλια-παραµέτρους για το µέτρο και τη φορά της ταχύτητας σχηµατίζουµε περιοχή ασφαλούς πρόβλεψης για την τρέχουσα πλειάδα (Σχήµα 1). Αν η πλειάδα βρίσκεται στην περιοχή ασφα-λείας (γεωµετρικός τόπος Γ.Τ.), τότε δεν αποθηκεύεται. Στο Σχήµα 2 παρουσιάζεται δυσχερής κατάσταση στην οποία µπορεί να βρεθεί ο αλγόριθµος (παγίδα). 5 ειγµατοληψία σε ρεύµατα τροχιάς κινούµενων αντικειµένων Η δειγµατοληψία σε ρεύµατα τροχιάς κινούµενων αντικειµένων έγκειται στην τήρηση µέρους των πλειάδων του αρχικού ρεύµατος µε στόχο την αποβολή φόρτου από Σχήµα 1: Περιοχή ασφαλείας µε βάση το δείγµα 2
Σχήµα 5:Πλάγιο ίχνος και σύγχρονη ευκλείδεια απόσταση 5.3 Αλγόριθµος πλαγίου ίχνους (STTrace) Σχήµα 2:Παγίδα (περιοχή ασφαλείας µε βάση το δείγµα) Σχήµα 3:Παγίδα (περιοχή ασφαλείας µε βάση την τροχιά) Επαναλαµβάνουµε την παραπάνω διαδικασία για τις τελευταίες πλειάδες της τροχιάς. Στο Σχήµα 3 παρουσιάζεται δυσχερής κατάσταση του αλγορίθµου. Συνδυάζοντας τις δύο παραπάνω προσεγγίσεις ορίζουµε νέα περιοχή ασφαλείας βάσει τόσο της τροχιάς όσο και του δείγµατος όπως στο Σχήµα 4. Η προσέγγιση αυτή (αλγόριθµοι Thresholds) αποφεύγει τις παγίδες. Σχήµα 4: Συνδυασµός δείγµατος και τροχιάς στην πρόβλεψη. Η περιοχή ασφαλείας είναι η τοµή των 2 Γ.Τ. Η µέθοδος αυτή είναι δειγµατοληψία µε χωροχρονικά κριτήρια και σταθερή µνήµη. Ορίζουµε µία χωροχρονική µετρική για να υπολογίσουµε τo βαθµό ενδιαφέροντος κάθε πλειάδας. Η µετρική αυτή, την οποία καλούµε πλάγιο ίχνος, είναι η ευκλείδεια απόσταση της χωροχρονικής θέσης της προς επεξεργασία πλειάδας από την αντίστοιχη προβλεπόµενη θέση µε βάση τις δύο γειτονικές της πλειάδες. Έστω τρεις διατεταγµένες χωροχρονικές πλειάδες A, B, C. Αν το σύστηµα αποθήκευε τις πλειάδες A, C και δεν είχε διαθέσιµη την B, η πρόβλεψη για την B θα προέκυπτε όπως στο Σχήµα 5. Η σύγχρονη ευκλείδεια απόσταση καθορίζει αν θα αποθηκευτεί η πλειάδα προς επεξεργασία. Το κατώφλι απόφασης είναι αύξουσα συνάρτηση του χρόνου και είναι πάντα η µικρότερη σύγχρονη ευκλείδεια απόσταση που υπάρχει στο δείγµα. Αν ο αλγόριθµος κρίνει ότι η πλειάδα πρέπει να τηρηθεί, τότε διαγράφεται η πλειάδα µε την µικρότερη µετρική και επανυπολογίζεται το κατώφλι. 5.4 Συγκριτική επίδοση αλγορίθµων Οι αλγόριθµοι κατωφλίων και πλαγίου ίχνους έχουν από µιάµιση ως δύο φορές καλύτερη πειραµατική επίδοση από την οµοιόµορφη δειγµατοληψία, µε τον STTrace να υπερτερεί. Όµως ο τελευταίος είναι πιο «ακριβός» από τους άλλους δύο, αφού εκείνοι έχουν πολυπλοκότητα O(1) ανά στοιχείο. 6 Αµνησιακές Ιεραρχικές Συνόψεις Το ενδιαφέρον στα ρεύµατα τροχιάς αντικειµένων εστιάζεται περισσότερο στην επικαιρότητα. Άρα υπάρχει ανάγκη για περισσότερη ακρίβεια των στοιχείων που αφορούν το πρόσφατο παρά το απώτερο παρελθόν. Μια τέτοια αµνησιακή (amnesic) προσέγγιση στη συµπίεση ρεύµατος τροχιάς παρουσιάζει ο αλγόριθµος αµνησιακού δένδρου (AmTree). Ο αλγόριθµος πραγµατοποιεί αµνησιακή, µε εκθετικά χαρακτηριστικά, ντετερµινιστική δειγµατοληψία µε λογαριθµικά αυξανόµενη µνήµη σε κάθε τροχιά (Σχήµα 6). Αν και το αµνησιακό δένδρο αγνοεί τη χωροχρονική φύση των στοιχείων, παρουσιάζει διάφορα πλεονεκτή- µατα, όπως η ταχεία απάντηση σε ερωτήµατα, η σταθερή 3
Σχήµα 6: AmTree µε 6 επίπεδα πολυπλοκότητα ενηµέρωσης και η έµφαση σε στοιχεία του πρόσφατου παρελθόντος. Στο Σχήµα 7 παρουσιάζονται διαδοχικά στιγµιότυπα της τροχιάς όπως τηρείται από το AmTree. 6.1 Το αµνησιακό δένδρο Το AmTree είναι ένα δένδρο που αποτελείται από δύο κόµβους ανά επίπεδο i, τους R i και L i. Κάθε κόµβος επιπέδου i συνοψίζει 2 i στοιχεία, εποµένως το πλήθος των επιπέδων είναι ανάλογο του logn. Το περιεχόµενο των κόµβων στην παρούσα υλοποίηση είναι διαστήµατα µετατοπίσεων. Γενικά η ενηµέρωση του επιπέδου i : πραγµατοποιείται κάθε 2 i πλειάδες προβλέπει: o αποβολή των περιεχοµένων του L i o αντιγραφή των περιεχοµένων του R i στον L i o αντιγραφή του R i-1 L i-1 στον L i. Η πράξη R i-1 L i-1 έχει ως αποτέλεσµα τη σύνθεση των περιεχοµένων των κόµβων R i και L i µε υποδιπλασιασµό της συνολικής τους ακρίβειας. Το πλαίσιο AmTree µπορεί να τηρεί online αµνησιακή ιεραρχική σύνοψη µε περιεχόµενο κόµβων οποιαδήποτε δοµή υποστηρίζει την πράξη. Σχήµα 7: ιαδοχικά στιγµιότυπα τροχιάς από το AmTree 7 Συναθροιστικά ερωτήµατα σε κινούµενα αντικείµενα Τα χωροχρονικά δεδοµένα που συλλέγονται από κινούµενα αντικείµενα µπορούν να χρησιµοποιηθούν για την απάντηση συναθροιστικών ερωτηµάτων. Με χρήση σκίτσων (sketching techniques) είναι εφικτή η ταχύτατη εκτίµηση συναθροιστικών ερωτηµάτων, όπως: «Ποιο το πλήθος των διακριτών αντικειµένων σε περιοχή a τις τελευταίες t χρονικές στιγµές;» (Σχήµα 8) 6.2 Απάντηση σε ερωτήµατα Η δοµή απαντά σε οποιαδήποτε χωροχρονικό ερώτηµα, όπως για παράδειγµα ερωτήµατα χωροχρονικού παραθύρου (range queries) ως εξής: Παράγει ακριβείς απαντήσεις σε ερωτήµατα που αφορούν το πρόσφατο παρελθόν και ολοένα και λιγότερο ακριβείς απαντήσεις για το απώτερο παρελθόν. Αν οι απαντήσεις για το πρόσφατο παρελθόν συγκεντρώνουν το µεγαλύτερο ενδιαφέρον της εφαρµογής, η δοµή δίνει τα επιθυµητά αποτελέσµατα. Το κόστος της απάντησης είναι λογαριθµικό σε σχέση µε το κόστος της απάντησης από τα πλήρη δεδοµένα. Σχήµα 8: Υπερεκτίµηση ερωτήµατος για την περιοχή a, µε υπολογισµό της απάντησης για την περιοχή b. 4
7.1 Σκίτσα FM Τα σκίτσα γενικά είναι τυχαιοποιηµένες προβολές των στοιχείων-εγγραφών σε κατάλληλα διανύσµατα µικρού µεγέθους (bitmap) και χρησιµεύουν για την εκτίµηση των νορµών (norms). Τα σκίτσα FM είναι δοµές µε χωρική πολυπλοκότητα µόλις Ο(logDC), όπου DC ένα άνω φράγµα του πλήθους διακριτών αντικειµένων. Η ενηµέρωση κοστίζει Ο(1) ανά στοιχείο. Η παραλλαγή FM_PCSA έχει τις εξής ιδιότητες: Τηρώντας m bitmaps ανά σκίτσο, παρέχεται δυνατότητα ισοστάθµισης χώρου και ακρίβειας (trade-off). Τα σκίτσα που παράγονται µπορούν να ενωθούν (composable), µε λογική διάζευξη των bitmaps. 7.2 οµή FM-AmTree: Συµπίεση σε τρία επίπεδα Η δοµή FM-AmTree επιτυγχάνει συµπίεση σε τρία επίπεδα (Σχήµα 9): 1. Στις χωρικές διαστάσεις χρησιµοποιείται ένα πλέγµα (grid). Αντί ορθογώνιου πλέγµατος µπορεί να χρησιµοποιηθεί οποιαδήποτε άλλη χωρική δοµή. 2. Στη διάσταση του χρόνου χρησιµοποιείται το πλαίσιο δηµιουργίας ιεραρχικών αµνησιακών συνόψεων AmTree. 3. Στο επίπεδο των δεδοµένων (του συναθροιστικού ερωτήµατος) χρησιµοποιείται η δοµή FM_PCSA. Κάθε χωρικός δείκτης-κελί (cell) δείχνει σε ένα AmTree. Κάθε κόµβος των δοµών AmTree αποτελείται από ένα σκίτσο FM_PCSA. Η ενηµέρωση για την τρέχουσα πλειάδα γίνεται µε κατακερµατισµό (hashing) των χωρικών διαστάσεων στο κατάλληλο κελί και ενηµέρωση του σκίτσου του R 0 κόµβου του αντίστοιχου AmTree. Η διάδοση της πληροφορίας στα επίπεδα του δένδρου µε την πάροδο του χρόνου γίνεται σε επίπεδο χρονοσήµου όπως περιγράφηκε στο πλαίσιο AmTree, αξιοποιώντας την ιδιότητα ένωσης των σκίτσων. Τα πειραµατικά αποτελέσµατα επιβεβαιώνουν τη συµπεριφορά της δοµής όσον αφορά το χώρο και το χρόνο επεξεργασίας. Σε ό,τι αφορά την ακρίβεια, µε χρήση σκίτσων FM των 64 bitmaps, το σχετικό σφάλµα προκύπτει 1.5%. 8 Συµπεράσµατα Η µελέτη της συµπίεσης ρευµάτων τροχιάς αντικειµένων οδήγησε σε πολύ ενδιαφέρουσες πρωτότυπες υλοποιήσεις: 1. Το πλαίσιο αµνησιακής ιεραρχικής συµπίεσης AmTree που εφαρµόζεται αφενός για τη συµπίεση τροχιάς και αφετέρου για την τήρηση σκίτσων FM πάνω σε πλέγµα. 2. Οι αλγόριθµοι κατωφλίων και πλαγίου ίχνους που λειτουργούν µε τοπικά χωροχρονικά κριτήρια, δίνοντας καλύτερη προσέγγιση της τροχιάς σε σχέση µε τον οµοιόµορφο αλγόριθµο χωρίς επιβάρυνση του συστήµατος. Οι αυστηρές προδιαγραφές του µοντέλου ρεύµατος δεδοµένων συνηγορούν υπέρ της χρήσης: αµνησιακών αλγορίθµων που δίνουν έµφαση στα πρόσφατα στοιχεία του ρεύµατος ευρετικών µεθόδων (heuristics) που πραγµατοποιούν τοπική βελτιστοποίηση, αποφεύγοντας εξαντλητική αναζήτηση σε όλο το ρεύµα. τυχαιοποιηµένων τεχνικών µε χαµηλές απαιτήσεις σε πόρους, ρυθµίζοντας αναλόγως την ακρίβεια των απαντήσεων. 9 Μελλοντικές κατευθύνσεις Οι δοµές και οι τεχνικές που προτάθηκαν, αφήνουν περιθώρια για περαιτέρω διερεύνηση, όπως: Μελέτη και επέκταση της δοµής AmTree µε στόχο την παραµετροποίηση της αµνησίας. Βελτίωση των χωροχρονικών κριτηρίων των αλγορίθµων κατωφλίων και πλαγίου ίχνους. Μελέτη εφαρµογής διαφόρων προτύπων αµνησίας σε τροχιές κινούµενων αντικειµένων Μελέτη υπολογισµού τοµών στη δοµή FM-AmTree, λ.χ. για να απαντηθούν ερωτήµατα της µορφής: «πόσα διακριτά αντικείµενα βρέθηκαν στην περιοχή r 1 τη χρονική περίοδο Τ 1 και στην περιοχή r 2 τη χρονική περίοδο Τ 2». Το πεδίο έρευνας είναι µεγάλο και εξαιρετικά απαιτητικό. Νέες προσεγγίσεις είναι πιθανό να αναζητηθούν συνδυάζοντας τεχνικές από τις Βάσεις εδοµένων, τη Στατιστική και την Υπολογιστική Νοηµοσύνη. Σχήµα 9: Η δοµή FM-AmTree 5