Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download ""

Transcript

1 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Συµπίεση εδοµένων Τροχιάς Κινούµενων Αντικειµένων ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ του ΜΙΧΑΛΗ. ΠΟΤΑΜΙΑ Επιβλέπων : Τιµολέων Σελλής Καθηγητής Ε.Μ.Π. Αθήνα, Οκτώβριος 2005

2

3 ... ΜΙΧΑΛΗΣ. ΠΟΤΑΜΙΑΣ ιπλωµατούχος Ηλεκτρολόγος Μηχανικός και Μηχανικός Υπολογιστών Ε.Μ.Π All rghts reserved

4

5 Πρόλογος Πρόλογος Στοιχεία που καταφθάνουν ταχύτατα και έχουν ακολουθιακό χαρακτήρα συγκροτούν τα ρεύµατα δεδοµένων και απασχολούν την ευρύτερη ερευνητική κοινότητα των βάσεων δεδοµένων τα τελευταία χρόνια. Τα ερωτήµατα διαρκείας, που ενδιαφέρουν σε εφαρµογές διαχείρισης ρευµάτων δεδοµένων, δεν απαντώνται αποδοτικά από τα παραδοσιακά εµπορικά συστήµατα διαχείρισης βάσεων δεδοµένων. Η στροφή προς συστήµατα διαχείρισης ρευµάτων δεδοµένων είναι γεγονός και έχει εκδηλωθεί σε µεγάλα ερευνητικά και ακαδηµα κά κέντρα παγκοσµίως. Οι τροχιές κινούµενων αντικειµένων εµπίπτουν στο µοντέλο των ρευµάτων δεδοµένων. Η πληροφορία καταφθάνει συνεχώς και το γεγονός ότι η υπάρχουσα πληροφορία χάνει σταδιακά την αξία της, γεννά την ανάγκη ανάπτυξης τεχνικών για τη συµπίεση ρευµάτων τροχιάς κινούµενων αντικειµένων. Το ιδιαίτερο µοντέλο που επιβάλλουν τα ρεύµατα δεδοµένων ορίζει ένα αυστηρό πλαίσιο όσον αφορά τους διαθέσιµους πόρους για την τήρηση δοµών που συνοψίζουν τα δεδοµένα. Στην παρούσα εργασία πραγµατοποιήθηκε µελέτη της πρόσφατης συναφούς βιβλιογραφίας και υλοποίηση δοµών για τη συµπίεση τροχιών µε διάφορες παραµέτρους όσον αφορά την ακρίβειά τους και τη διαθέσιµη µνήµη. Υπάρχουσες τεχνικές από το ευρύτερο ερευνητικό πεδίο των βάσεων δεδοµένων σε συνδυασµό µε νέες ιδέες αποτέλεσαν τον πυρήνα των τεχνικών που αναπτύχθηκαν. Οι τεχνικές αυτές υλοποιήθηκαν σε γλώσσα C++. Το συµπέρασµα είναι ότι η συµπίεση επιτυγχάνει συµψηφισµό µεταξύ πόρων συστήµατος και ποιότητας απαντήσεων. ιάφορες προσεγγίσεις µπορούν να οδηγήσουν σε επιθυµητά αποτελέσµατα. Το πεδίο έρευνας για τεχνικές συµπίεσης ρευµάτων τροχιάς αντικειµένων δεν πρέπει να περιοριστεί στις βάσεις δεδοµένων. Είναι πιθανό, ενδιαφέρουσες ιδέες να προκύψουν συνδυάζοντας γνώση από άλλα επιστηµονικά πεδία, όπως η υπολογιστική νοηµοσύνη και η θεωρία πιθανοτήτων.

6 Πρόλογος ιάρθρωση της εργασίας Ο τόµος διαρθρώνεται σε εφτά κεφάλαια. Τα κεφάλαια 1,2,3 συγκροτούν το πρώτο µέρος της εργασίας και θέτουν το θεωρητικό πλαίσιο της µελέτης. Τα κεφάλαια 4,5,6 περιγράφουν τρεις αυτοτελείς οµάδες τεχνικών συµπίεσης µε το απαραίτητο συµπληρωµατικό θεωρητικό τους υπόβαθρο. Στο κεφάλαιο 7 αναφέρονται τα συµπεράσµατα. Το κεφάλαιο 1 αποτελεί µία εισαγωγή στα συστήµατα ρευµάτων δεδοµένων. Αρχικά επιχειρείται η ανάλυση των βασικότερων θεµάτων που ανακύπτουν στη θεώρηση των ρευµάτων δεδοµένων από πλευράς συστήµατος. Ακολούθως περιγράφονται διάφορα αλγοριθµικά ζητήµατα που έχουν καίρια σηµασία κατά την ανάπτυξη εφαρµογών διαχείρισης ρευµάτων δεδοµένων. Στο κεφάλαιο 2 πραγµατοποιείται επισκόπηση των χωροχρονικών στοιχείων ως ρεύµα δεδοµένων. Περιγράφεται η έννοια της τροχιάς και αναφέρονται τα βασικά χωροχρονικά ερωτήµατα που τίθενται σε τροχιές. Το κεφάλαιο 3 πραγµατεύεται την έννοια της συµπίεσης για ρεύµατα τροχιάς κινούµενων αντικειµένων και παρουσιάζει κάποια βασικά κίνητρα. Στο κεφάλαιο αυτό παρουσιάζονται υπάρχουσες τεχνικές µε βέλτιστα αποτελέσµατα, που δεν είναι όµως συµβατές µε το µοντέλο ρευµάτων δεδοµένων. Επίσης, ορίζεται το πλαίσιο µέτρησης σφαλµάτων για εκτίµηση της επίδοσης των τεχνικών συµπίεσης. Στο κεφάλαιο 4 παρουσιάζονται διάφορες τεχνικές συµπίεσης τροχιών αντικειµένων βασισµένες στην έννοια της δειγµατοληψίας. Στόχος είναι είτε το κατάλληλο φιλτράρισµα του ρεύµατος δεδοµένων, είτε η τήρηση των πλέον σηµαντικών θέσεων της τροχιάς. Στο κεφάλαιο αυτό παρουσιάζονται δύο νέες τεχνικές συµπίεσης ρευµάτων τροχιάς κινούµενων αντικειµένων, οι οποίες λειτουργούν βάσει χωροχρονικών κατωφλίων, καθώς και η πειραµατική τους αξιολόγηση. Στο κεφάλαιο 5 παρουσιάζονται ως υπόβαθρο και εν συντοµία τα κυµατίδια, και η δοµή SWAT που τα χρησιµοποιεί για την τήρηση ιεραρχικών συνόψεων σε ρεύµατα δεδοµένων. Ακολούθως περιγράφεται µερικώς η δοµή Αµνησιακό ένδρο (AmTree) και χρησιµοποιείται για «αµνησιακή συµπίεση µε βάση τα διαστήµατα» σε ρεύµατα τροχιάς. Στο κεφάλαιο 6 επιχειρείται η δηµιουργία συνόψεων µε χρήση σκίτσων για την εκτίµηση του ερωτήµατος που αφορά το «πλήθος διακριτών αντικειµένων». Τα ρεύµατα τροχιάς κινούµενων αντικειµένων αντιµετωπίζονται εδώ ως διαδοχικά στιγµιότυπα θέσεων αντικειµένων. Η σύνοψη που τηρείται δεν έχει σχέση µε τις τροχιές αλλά µόνο µε το συγκεκριµένο συναθροιστικό ερώτηµα. Το κεφάλαιο ξεκινά µε τη θεωρία των σκίτσων. Ακολούθως, περιγράφονται δοµές που έχουν ως «κύτταρο» το σκίτσο και εξυπηρετούν την απάντηση σε διάφορες παραλλαγές του ερωτήµατος. Τέλος, περιγράφεται αναλυτικά το πλαίσιο αµνησιακών δοµών AmTree και χρησιµοποιείται για την τήρηση σκίτσων πάνω σε χωρικό πλέγµα. Στο κεφάλαιο 7 παρουσιάζονται συνοπτικά τα συµπεράσµατα και οι µελλοντικές κατευθύνσεις της εργασίας.

7 Πρόλογος Ευχαριστίες εν ξέρω πώς κυλούν, συνήθως, οι διπλωµατικές εργασίες γιατί αυτή είναι η πρώτη µου. Αυτό που θυµάµαι έντονα είναι τα σκαµπανεβάσµατα της διάθεσής µου. Τη µία µέρα ενθουσιασµός για κάποια νέα ιδέα, την επόµενη πλήρης απογοήτευση για την «δοκιµή και αποτυχία» της εν λόγω ιδέας. Ευτυχώς, κάποιες ιδέες δεν ήταν τελικά τόσο άσχηµες και αφενός γεµίζουν τις σελίδες που ακολουθούν και αφετέρου µου δίνουν την ευκαιρία να εκφράσω τις ευχαριστίες µου σε κάποιους ανθρώπους. Καθηµερινή ανταλλαγή ιδεών, συµβουλές, βιβλιογραφία, ανοχή στο χάος που επικρατεί στο κεφάλι µου είναι λίγα (από τα πολλά ) πράγµατα που περιγράφουν τη συµβολή του υποψήφιου διδάκτορα (και ακούραστου) Κώστα Πατρούµπα στην εκπόνηση της εργασίας. Η συνεργασία µας υπήρξε για εµένα εµπειρία ζωής. Η αφοσίωση του στην έρευνα αποτέλεσε το προσωπικό του παράδειγµα προς εµένα και φωτίζει ολόκληρο το εργαστήριο. Ιδιαίτερα, θα ήθελα να ευχαριστήσω τον καθηγητή Τίµο Σελλή. Οι ευχαριστίες µου δεν αφορούν µόνο το ενδιαφέρον του για την πρόοδο της εργασίας µου και τις σηµαντικές του παρατηρήσεις κατά τις συναντήσεις µας. Είναι κυρίως επειδή είναι τιµή µου που είναι δάσκαλός µου. Επίσης, η βοήθεια που µου προσφέρει στην ακαδηµα κή µου πορεία είναι ανεκτίµητη. εν θα µπορούσα να παραλείψω από τις ευχαριστίες τα µέλη του dblab, ιδιαίτερα του πιο θορυβώδους δωµατίου, για την ανιδιοτελή βοήθεια που µου προσέφεραν και γιατί άλλωστε πέρασα ολόκληρο το καλοκαίρι µαζί τους. Θέλω, επίσης, να ευχαριστήσω -χωρίς λόγια, γιατί δεν υπάρχουν - τον Αλέξανδρο, τον Αλέξανδρο, τον Ανδρέα, τη Γωγώ, τη Νεφέλη και τον Πέτρο. Τέλος, ευγνωµονώ τους γονείς µου Μερόπη και ηµήτρη και τον αδελφό µου Βάνο για τη συνεχή και αδιάλειπτη στήριξή τους, παρά τις ιδιοτροπίες µου (στο κάτω-κάτω σε αυτούς τις οφείλω ). Μιχάλης Ποταµιάς Αθήνα Οκτώβρης 2005

8 v

9 Περίληψη Περίληψη Τα τελευταία χρόνια, η διαχείριση δεδοµένων που παράγονται από κινούµενα αντικείµενα, βρίσκεται στο επίκεντρο του ενδιαφέροντος της ερευνητικής κοινότητας των χωρικών βάσεων δεδοµένων. Σκοπός της διπλωµατικής εργασίας ήταν η µελέτη, η υλοποίηση και η πειραµατική δοκιµή τεχνικών συµπίεσης δεδοµένων τροχιάς κινούµενων αντικειµένων. Η συµπίεση έχει ως στόχο αφενός τον περιορισµό του όγκου των δεδοµένων και αφετέρου τη γρήγορη προσεγγιστική απάντηση ερωτηµάτων. Τα δεδοµένα τροχιάς εµπίπτουν στο µοντέλο των ρευµάτων δεδοµένων. Τα ρεύµατα δεδοµένων περιγράφουν πρόσκαιρη πληροφορία και όχι στατική όπως συµβαίνει στις παραδοσιακές σχεσιακές βάσεις δεδοµένων. Το µοντέλο ρευµάτων δεδοµένων θέτει συγκεκριµένες προδιαγραφές, τις οποίες οφείλουν να τηρούν οι τεχνικές συµπίεσης. Οι προδιαγραφές αφορούν τις απαιτήσεις των τεχνικών σε χώρο, σε χρόνο επεξεργασίας, σε χρόνο απάντησης και σε ακρίβεια απάντησης. Η εργασία επικεντρώθηκε σε τρεις άξονες. Αναπτύχθηκαν τεχνικές δειγµατοληψίας τροχιάς που λειτουργούν µε βάση χωροχρονικά κριτήρια και επιλέγουν τα πιο χαρακτηριστικά δεδοµένα της τροχιάς. Στο δεύτερο άξονα αναπτύχθηκε αµνησιακή δοµή (αµνησιακό δένδρο) που δίνει έµφαση στην επίκαιρη πληροφορία, µειώνοντας µε την πάροδο του χρόνου την ακρίβεια για το παρελθόν. Τέλος, αναπτύχθηκαν συνόψεις για γρήγορη εκτίµηση συναθροιστικών ερωτηµάτων, µε συνδυασµό σκίτσων, χωρικών δεικτών και του αµνησιακού δένδρου. Όλες οι τεχνικές πληρούν τις προδιαγραφές που θέτει το µοντέλο ρευµάτων. Με εφαρµογή των παραπάνω τεχνικών σε συνθετικές τροχιές, πάνω στο οδικό δίκτυο της Αθήνας πραγµατοποιήθηκαν πειράµατα, από τα οποία προέκυψαν πολύ ενθαρρυντικά αποτελέσµατα. Επιπλέον, επιβεβαιώθηκαν οι αναµενόµενες επιδόσεις τους σχετικά µε τους απαιτούµενους πόρους και την ακρίβεια των προσεγγιστικών απαντήσεων σε χωροχρονικά ερωτήµατα. Συνολικό συµπέρασµα της εργασίας είναι ότι η συµπίεση των δεδοµένων τροχιάς κινούµενων αντικειµένων πραγµατοποιεί το συµψηφισµό µεταξύ απαιτούµενων πόρων συστήµατος και ακρίβειας απαντήσεων. Λέξεις Κλειδιά: <<Ρεύµατα δεδοµένων, Χωροχρονικά δεδοµένα, Συµπίεση, Τροχιά, Αµνησιακός, ειγµατοληψία, Σκίτσα>> v

10 v

11 Abstract Abstract Over the recent years, the spatal database communty has focused ts nterests on movng object data handlng. The scope of ths thess was the study, the development and the expermental testng of compresson technques for movng objects trajectores. Compresson s man objectves are on one hand the reducton of data volume and, on the other hand, the computaton of fast query approxmate answers. Trajectory data les wthn the data stream model. Data streams refer to transent rather than persstent (relatonal) nformaton. The model sets specfcatons, whch the compresson technques must meet. The specfcatons concern storage, process tme and computaton tme complexty. The thess attenton focused on three parts. Frstly, we developed samplng technques based on spatotemporal heurstcs that mantan the most characterstc elements of trajectory nformaton. Secondly, an amnesc structure (amnesc tree) was mplemented whch emphaszes on recent data and deemphaszes older data as tme progresses. Fnally, we appled synopses n order to produce fast approxmate answers for aggregate queres. Ths was accomplshed by combnng the amnesc tree wth spatal ndces and sketches. Usng the prevously descrbed technques on synthetc trajectory data produced on the road network of Athens, we conducted experments that yelded very promsng results. In addton, the expected performance n terms of computaton resources needed and answers accuracy was confrmed. The overall concluson of ths thess was that compresson of movng objects trajectores realzes the trade-off between the spent resources and the provded accuracy. Keywords: <<Data Stream, Spatotemporal, Compresson, Trajectory, Amnesc, Samplng, Sketches>> v

12 v

13 Περιεχόµενα Περιεχόµενα ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΡΕΥΜΑΤΩΝ Ε ΟΜΕΝΩΝ Εισαγωγή Συστήµατα ρευµάτων δεδοµένων Ρεύµα δεδοµένων Εφαρµογές Ρευµάτων εδοµένων Ανεπάρκεια των Σ Β Σύστηµα διαχείρισης ρευµάτων δεδοµένων Προδιαγραφές συστήµατος Πρωτότυπα Σ Ρ Ερωτήµατα σε Συστήµατα ιαχείρισης Ρευµάτων εδοµένων Κατηγορίες Ερωτηµάτων Παράθυρα Γλώσσα υποβολής ερωτηµάτων Επεξεργασία ρευµάτων δεδοµένων Επεξεργασία ερωτηµάτων Βελτιστοποίηση πολλαπλών ερωτηµάτων Προσαρµοστικότητα Κατανεµηµένη επεξεργασία ερωτηµάτων Ταυτόχρονη συµπίεση πολλαπλών δεδοµένων Αλγοριθµικά ζητήµατα Ρεύµα δεδοµένων Μοντέλα Ανάγκη για απεριόριστη µνήµη Προσεγγιστικές Απαντήσεις Ανασταλτικοί τελεστές Συνόψεις Αµνησιακοί Αλγόριθµοι ΚΕΦΑΛΑΙΟ 2 ΚΙΝΟΥΜΕΝΑ ΑΝΤΙΚΕΙΜΕΝΑ Εισαγωγή Χωροχρονικά δεδοµένα Η τροχιά κινούµενου αντικειµένου ως ρεύµα δεδοµένων Κινούµενα αντικείµενα Τροχιές κινούµενων αντικειµένων x

14 Περιεχόµενα 2.5 Πρόβλεψη µελλοντικής θέσης Ερωτήµατα σε κινούµενα αντικείµενα εικτοδότηση κινούµενων αντικειµένων ΚΕΦΑΛΑΙΟ 3 ΣΥΜΠΙΕΣΗ ΤΡΟΧΙΑΣ Εισαγωγή Απωλεστική και µη απωλεστική συµπίεση Κίνητρα για συµπίεση Αλγόριθµοι χωρικής συµπίεσης Κατηγορίες αλγορίθµων Αλγόριθµοι Top-Down Αλγόριθµοι Openng Wndow Τεχνικές χωροχρονικής συµπίεσης Χρονική διάσταση Βελτιωµένη χωροχρονική προσέγγιση Αλγόριθµοι και ρεύµατα δεδοµένων Σφάλµατα Σφάλµα στις χωρικές διαστάσεις Χωροχρονικό Σφάλµα Τροχιές και χωροχρονικό σφάλµα Μέθοδοι συµπίεσης και χωροχρονικά δεδοµένα Ιστογράµµατα Σκίτσα Κυµατίδια ειγµατοληψία ΚΕΦΑΛΑΙΟ 4 ΕΙΓΜΑΤΟΛΗΨΙΑ ΣΕ ΡΕΥΜΑΤΑ ΤΡΟΧΙΑΣ ΑΝΤΙΚΕΙΜΕΝΩΝ Εισαγωγή ειγµατοληψία τροχιάς κινούµενων αντικειµένων Κατηγορίες µεθόδων Οµοιόµορφη δειγµατοληψία Αµνησιακή δειγµατοληψία ειγµατοληψία µε χωροχρονικά κριτήρια Απαιτήσεις σε µνήµη Εφαρµογές δειγµατοληψίας σε τροχιές δεδοµένων Οµοιόµορφη δειγµατοληψία µε σταθερή µνήµη x

15 Περιεχόµενα ειγµατοληψία µε χωροχρονικά κατώφλια ειγµατοληψία µε πλάγιο ίχνος Μη οµοιόµορφη δειγµατοληψία Πειραµατικά αποτελέσµατα Παραγωγή πειραµατικών δεδοµένων Πειραµατικά αποτελέσµατα Αλγόριθµος κατωφλίων Αλγόριθµος πλαγίου ίχνους Τοπικές προσεγγίσεις τροχιάς ΚΕΦΑΛΑΙΟ 5 ΑΜΝΗΣΙΑΚΗ ΣΥΜΠΙΕΣΗ ΡΕΥΜΑΤΩΝ ΤΡΟΧΙΑΣ Εισαγωγή Κυµατίδια (wavelets) Μετασχηµατισµός κυµατιδίων Εφαρµογές ιακριτός µετασχηµατισµός µε χρήση των Haar Wavelets Σηµασία συνιστωσών Κανονικοποίηση Προσέγγιση Β-όρων Πολυδιάστατος µετασχηµατισµός Wavelet Μετασχηµατισµός Wavelet σε πραγµατικό χρόνο Επιθυµητός Αλγόριθµος Αλγόριθµος SWAT Ιεραρχική προσέγγιση περίληψης ρευµάτων µε δενδρική αναπαράσταση κυµατιδίων Προσεγγίσεις πολλαπλών αναλύσεων Επεξήγηση δοµής Ενηµέρωση δοµής Απάντηση σε ερωτήµατα Ανάλυση πολυπλοκότητας Συµπίεση τροχιάς δεδοµένων µε βάση τις συνιστώσες ταχύτητας µε χρήση SWAT Αµνησιακό ένδρο για διαστήµατα µετατοπίσεων Ανάγκη για δοµή αµνησιακής συµπίεσης τροχιών δεδοµένων Αναπαράσταση τροχιάς µε διαστήµατα χρονικής περιόδου οµή του αµνησιακού δένδρου Ορισµοί Ενηµέρωση δένδρου Πολυπλοκότητα ενηµέρωσης Ανακατασκευή τροχιάς Παραλλαγή: Τήρηση m παράλληλων AmTree Απάντηση σε ερωτήµατα χωροχρονικού παραθύρου Απάντηση σε ερωτήµατα εσωτερικού γινοµένου Πειραµατικά αποτελέσµατα x

16 Περιεχόµενα ΚΕΦΑΛΑΙΟ 6 ΤΕΧΝΙΚΕΣ ΕΚΤΙΜΗΣΗΣ ΣΥΝΑΘΡΟΙΣΤΙΚΩΝ ΕΡΩΤΗΜΑΤΩΝ ΣΕ ΟΜΑ ΕΣ ΚΙΝΟΥΜΕΝΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ Εισαγωγή Θεωρία σκίτσων Νόρµες Σκίτσα FM Παραλλαγές σκίτσων FM Σκίτσα AMS Φίλτρα Bloom Countng Bloom Flters Εκτίµηση πλήθους διακριτών κινούµενων αντικειµένων Χρονικό παράθυρο σταθερής αρχής (landmark) ιακριτά αντικείµενα σε ολισθαίνον χρονικό παράθυρο Ιεραρχικές αµνησιακές συνόψεις Πειραµατικά αποτελέσµατα ΚΕΦΑΛΑΙΟ 7 ΣΥΜΠΕΡΑΣΜΑΤΑ-ΠΡΟΟΠΤΙΚΕΣ Εισαγωγή Συµπεράσµατα Μελλοντικές κατευθύνσεις ΒΙΒΛΙΟΓΡΑΦΙΑ ΓΛΩΣΣΑΡΙ ΕΚΤΕΝΗΣ ΠΕΡΙΛΗΨΗ x

17 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Κεφάλαιο 1 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Εισαγωγή Τα τελευταία χρόνια, µία κλάση εφαρµογών υψηλών απαιτήσεων ταχύτητας για δεδοµένα µεγάλου όγκου έχει δηµιουργήσει ένα ξεχωριστό και κοινά αναγνωρισµένο ερευνητικό τοµέα στο ευρύ επιστηµονικό πεδίο της διαχείρισης γνώσης. Στις εφαρµογές αυτές, τα δεδοµένα δεν έχουν µορφή στατικής πληροφορίας, αλλά δυναµικής και πρόσκαιρης. Τα υπάρχοντα Συστήµατα ιαχείρισης Βάσεων εδοµένων (Σ Β ) έχουν περιορισµένες δυνατότητες διαχείρισης δεδοµένων τέτοιας φύσης και τέτοιου όγκου µε αποτέλεσµα η ερευνητική προσπάθεια να στρέφεται όχι τόσο στην τροποποίηση γνωστών τεχνολογιών αλλά κυρίως στην εξεύρεση νέων που να είναι ικανές να ανταποκριθούν σε ρεύµατα δεδοµένων. Στο κεφάλαιο αυτό θα µελετηθεί η φύση των ρευµάτων δεδοµένων και θα αναλυθούν οι δυνατότητες που πρέπει να έχει ένα ολοκληρωµένο Σύστηµα ιαχείρισης Ρευµάτων εδοµένων (Σ Ρ ). Ακολούθως, θα γίνει κατηγοριοποίηση των ερωτηµάτων που καλείται ένα Σ Ρ να αντιµετωπίσει και θα δοθούν παραδείγµατα. Εν συνεχεία, θα πραγµατοποιηθεί εισαγωγή σε διάφορα θέµατα που αφορούν τη λειτουργία ενός συστήµατος, όπως τα παράθυρα, η προσαρµοστικότητα και η βελτιστοποίηση ερωτηµάτων. Τέλος, θα αναφερθούν διάφοροι περιοριστικοί παράγοντες που επιβάλλει το µοντέλο και εγείρουν αλγοριθµικά ζητήµατα, όπως η ανάγκη για απεριόριστη µνήµη, οι ανασταλτικοί τελεστές, οι συνόψεις και οι αµνησιακοί αλγόριθµοι

18 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων 1.1 Συστήµατα ρευµάτων δεδοµένων Ρεύµα δεδοµένων Ρεύµα δεδοµένων ονοµάζεται η συνεχής ροή πληροφορίας που παράγεται από µία ή πολλές πηγές και διοχετεύεται σε ένα κανάλι επικοινωνίας µε κατεύθυνση προς κάποιο δέκτη. Η πληροφορία µπορεί να είναι η στιγµιαία παρατήρηση ενός φυσικού φαινοµένου. Το κανάλι επικοινωνίας µπορεί να είναι κάποιος τηλεπικοινωνιακός δίαυλος. Έστω ρεύµα δεδοµένων που προέρχεται από µία πηγή, έναν αισθητήρα θερµοκρασίας, τοποθετηµένο στο µηχανοστάσιο ενός πλοίου. Έστω ότι οι προδιαγραφές ασφαλείας επιβάλλουν το εξής µοντέλο παρατήρησης: Ο αισθητήρας αποστέλλει στίγµα (πλειάδα) της µορφής <θερµοκρασία, χρονική στιγµή> είτε δύο δευτερόλεπτα µετά την τελευταία αποστολή στίγµατος είτε µετά τη µεταβολή της θερµοκρασίας κατά 0.5 ο C από τη θερµοκρασία του τελευταίου στίγµατος. Το κανάλι επικοινωνίας είναι το τοπικό ενσύρµατο δίκτυο του πλοίου και δέκτης είναι το κέντρο ελέγχου του πλοίου. Το στοιχειώδες κοµµάτι πληροφορίας ή στίγµα µπορεί να θεωρηθεί ότι αποτελεί µία πλειάδα όπως στα Σ Β. Με βάση το παράδειγµα µπορούµε να εντοπίσουµε τα πρώτα βασικά χαρακτηριστικά των ρευµάτων δεδοµένων: Η πληροφορία µπορεί να προέρχεται από διάφορες πηγές, είτε οµογενείς είτε ετερογενείς. Στο παραπάνω παράδειγµα έστω ότι τα σηµεία παρατήρησης της θερµοκρασίας και οι αντίστοιχοι αισθητήρες είναι δύο. Η ένωση των δύο ρευµάτων που παράγουν οι αισθητήρες είναι ρεύµα δεδοµένων. Το στοιχείο πληροφορίας πρέπει να έχει τη µορφή <ταυτότητα αισθητήρα, θερµοκρασία, χρονική στιγµή>. Παρατηρούµε ότι το ρεύµα δεδοµένων είναι οµοιογενές. Αν προσθέσουµε έναν αισθητήρα υγρασίας, το ρεύµα δεδοµένων που θα προκύψει από την ένωση των τριών επιµέρους ρευµάτων θα είναι ετερογενές. Η πληροφορία είναι επίκαιρη και θορυβώδης. Το ενδιαφέρον επικεντρώνεται στις τελευταίες πλειάδες γιατί είναι οι πιο πρόσφατες. Οι αισθητήρες που παράγουν το ρεύµα και ο επικοινωνιακός δίαυλος δεν θεωρούνται αξιόπιστοι. Το ρεύµα µπορεί να περιέχει θόρυβο και ανακρίβειες. Οι πλειάδες έχουν µορφή χρονοσειράς. Ο όρος χρονοσειρά υποδηλώνει τον ακολουθιακό χαρακτήρα των ρευµάτων δεδοµένων. ηλαδή, κάθε πλειάδα κωδικοποιεί µία στιγµιαία παρατήρηση. Στο παράδειγµα µε τους αισθητήρες η παρατήρηση της θερµοκρασίας 40 ο C µπορεί να µη σηµαίνει τίποτα, αν οι παρατηρήσεις του τελευταίου λεπτού ήταν και αυτές γύρω στους 40 ο C, ενώ µπορεί να σηµαίνει φωτιά ή βλάβη αν το τελευταίο λεπτό η θερµοκρασία ήταν 25 ο C. Η ροή χαρακτηρίζεται από µεταβαλλόµενο ρυθµό, η χρονική διάρκειά της δεν είναι φραγµένη, ούτε γνωστή εκ των προτέρων. Στο παράδειγµα µε τον αισθητήρα, ο ρυθµός προκύπτει εξ ορισµού µη σταθερός, ενώ το συνολικό µέγεθος της πληροφορίας δεν είναι εκ των προτέρων γνωστό

19 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Εφαρµογές Ρευµάτων εδοµένων Πολλά πεδία εφαρµογών αποτελούν το κίνητρο για την ερευνητική δραστηριότητα στον τοµέα των ρευµάτων δεδοµένων. Σηµείο τοµής των εφαρµογών αυτών είναι αναµφισβήτητα το γεγονός ότι οφείλουν αφενός να αποκρίνονται σε πραγµατικό χρόνο και αφετέρου να διαχειρίζονται πολύ µεγάλο όγκο πληροφοριών. Ασφάλεια ικτύων: Καταγραφή πακέτων δεδοµένων για εντοπισµό εισβολής, εκτίµηση συµφόρησης. Χρηµατιστήριο: Παρακολούθηση πολύ µεγάλου όγκου συναλλαγών και άλλων παραµέτρων, όπως τιµές µετοχών και δεικτών και απάντηση σε ερωτήµατα σε πραγµατικό χρόνο. ηµοφιλείς ιστοσελίδες: Καταγράφουν το ιστορικό των διαδοχικών συνδέσµων που επισκέπτεται ο κάθε χρήστης (clck streams), για διάφορους λόγους, όπως διαφήµιση, εκτίµηση δηµοφιλέστερων συνδέσµων κ.α. ίκτυα αισθητήρων: εδοµένα από εκατοντάδες ή χιλιάδες κόµβους καταφτάνουν συνεχώς. Συνήθως ισχύει ότι όσο πιο πρόσφατη είναι η πληροφορία τόσο πιο χρήσιµη. Τηλεπικοινωνίες: Καταγραφή ιστορικού συνδιαλέξεων. Κυψελωτά συστήµατα τηλεπικοινωνιών: Παρακολούθηση κινητικότητας χρηστών µε στόχο την έγκαιρη πρόβλεψη και αποφυγή συµφορήσεων. Κινούµενα αντικείµενα: παρακολούθηση αντικειµένων σε χωροχρονικές διαστάσεις µε στόχο την απάντηση σε ερωτήµατα που αφορούν εγγύτερους γείτονες, µέση ταχύτητα αντικειµένου, ταύτιση τροχιών διαφορετικών αντικειµένων κ.α Ανεπάρκεια των Σ Β Τα Συστήµατα ιαχείρισης Βάσεων εδοµένων έχουν σχεδιαστεί για τη διαχείριση µεγάλου όγκου δεδοµένων µε πολύπλοκο, συνήθως, σχήµα. Επίσης είναι σχεδιασµένα, έτσι ώστε να υποστηρίζουν δοσοληψίες και ερωτήµατα στατικού χαρακτήρα. Η επεξεργασία ερωτηµάτων στηρίζεται στην εξέταση στιγµιοτύπων. Στα σύγχρονα Σ Β παίζουν σηµαίνοντα ρόλο οι ορθές αποκρίσεις σε ερωτήµατα, η συνέπεια, η µονιµότητα, η ατοµικότητα και η αποµόνωση των δοσοληψιών. Η απαραίτητη πληροφορία για τις δοσοληψίες είναι πάντα άµεσα διαθέσιµη στα αρχεία του Σ Β. Το σχεσιακό µοντέλο εξυπηρετεί µε επιτυχία τέτοια συστήµατα. Τα στοιχεία ενός ρεύµατος δεδοµένων, ωστόσο, δεν µπορούν να αντιµετωπιστούν ως στατικές σχέσεις γιατί χαρακτηρίζονται από ρευστότητα και αλληλουχία. Η επικαιρότητα, ο βαθµός ενδιαφέροντος και η ανακρίβεια είναι, επίσης, έννοιες που διαφοροποιούν τα ρεύµατα δεδοµένων από τις στατικές σχέσεις

20 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Η φύση των ερωτηµάτων που απευθύνονται σε ρεύµατα δεδοµένων είναι διαφορετική από αυτή των ερωτηµάτων σε βάσεις δεδοµένων. Το ενδιαφέρον στις βάσεις δεδοµένων έγκειται σε ερωτήµατα στιγµιοτύπου (snapshot). Στα ρεύµατα δεδοµένων, αντίστοιχα, µεγάλο ενδιαφέρον παρουσιάζουν τα ερωτήµατα διαρκείας (contnuous queres). Η επεξεργασία των ερωτηµάτων αυτών είναι συνεχής και η απάντηση σχηµατίζεται σταδιακά και προσθετικά. Η πλειάδα σε ένα Σ Β αποτελεί µία αυτοτελή πληροφορία και είναι το βασικό κύτταρο του συστήµατος. Αντίθετα, ένα στοιχείο ενός ρεύµατος δεδοµένων είναι συνήθως άχρηστο από µόνο του. Η αξία του έγκειται στην επιρροή που ασκεί σε όλη την ακολουθία της πληροφορίας. Εκτός ακολουθίας, δεν έχει κάποια ιδιαίτερη αξία. Συµπερασµατικά, η ανεπάρκεια του Σ Β στην υποστήριξη ρευµάτων δεδοµένων αποδίδεται στο γεγονός ότι έχει σχεδιαστεί αφενός για πληροφορία άλλης µορφής και αφετέρου για διαχείριση πληροφορίας άλλων προδιαγραφών. 1.2 Σύστηµα διαχείρισης ρευµάτων δεδοµένων Προδιαγραφές συστήµατος Τα ρεύµατα δεδοµένων διαφέρουν από τα παραδοσιακά δεδοµένα των Σ Β σε διάφορα σηµεία. Οι κυριότερες δυσκολίες που γεννώνται αφορούν τη µετάδοση (Transmt) ολόκληρης της πληροφορίας στο πρόγραµµα, τον υπολογισµό (Compute) απαιτητικών συναρτήσεων της εισόδου µε ρυθµό όµοιο µε το ρυθµό άφιξης πληροφορίας και την αποθήκευση (Store) σε προσωρινές δοµές ή περιστασιακά σε εξωτερική µνήµη. Σχήµα 1.1: Ένα αφαιρετικό πλαίσιο λειτουργίας για Συστήµατα ιαχείρισης Ρευµάτων εδοµένων (Πηγή: [ΚΠ03]) - 4 -

21 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Οι προδιαγραφές ενός Συστήµατος ιαχείρισης Ρευµάτων εδοµένων (Σ Ρ ) είναι οι εξής: Τα στοιχεία φτάνουν σε πραγµατικό χρόνο (onlne). Τα ρεύµατα έχουν δυνητικά απεριόριστο µέγεθος (unbounded sze). Η επεξεργασία γίνεται στην κύρια µνήµη για λόγους ταχύτητας. Οφείλει, δηλαδή, να γίνεται µε ρυθµό ταχύτερο από το ρυθµό άφιξης των δεδοµένων. Κάθε στοιχείο εισέρχεται στο σύστηµα, χρησιµοποιείται για την ενηµέρωση δοµών και την ανανέωση ερωτηµάτων και τέλος απορρίπτεται. Άρα, οι αλγόριθµοι οφείλουν να είναι ενός περάσµατος (one-pass). Ένα στοιχείο πληροφορίας είναι διαθέσιµο µόνο αν, κατ εξαίρεση, έχει αποθηκευτεί στο σύστηµα. Ο ρυθµός άφιξης στοιχείων πληροφορίας ενός ρεύµατος δεδοµένων µπορεί να εµφανίζει µεγάλη διακύµανση που οφείλεται σε εξωτερικούς παράγοντες (π.χ. τηλεπικοινωνίες). Το σύστηµα δεν έχει έλεγχο στη διακύµανση αυτή αλλά καλείται να την αντιµετωπίσει. Η χρονική διάταξη της πληροφορίας σε ένα ρεύµα δεδοµένων, αλλά και µεταξύ διαφορετικών ρευµάτων, δεν είναι εγγυηµένα σωστή. Και σε αυτήν την περίπτωση, το σύστηµα δεν µπορεί να έχει έλεγχο, αλλά πρέπει να έχει τη δυνατότητα αντιµετώπισης του προβλήµατος. Ανάλογα µε την εφαρµογή το σύστηµα προσπαθεί να ισοσταθµίσει το κόστος σε χώρο και χρόνο µε την ακρίβεια των παρεχοµένων αποτελεσµάτων. Οι απαντήσεις είναι προτιµότερο να δίνονται σε πραγµατικό χρόνο (real tme) ακόµα και αν αυτό γίνεται σε βάρος της ακρίβειας. Οι έννοιες του πραγµατικού χρόνου και της ακρίβειας ποικίλλουν ανάλογα µε το πεδίο εφαρµογών. Η άφιξη των δεδοµένων προκαλεί την ενεργοποίηση ερωτηµάτων (push model) για παραγωγή αποτελεσµάτων. Τα δεδοµένα δεν περιέχουν πληροφορία που είναι εγγυηµένα ακριβής και πλήρης και δεν πρέπει να αντιµετωπίζονται ως τέτοια. Κάθε κοµµάτι πληροφορίας (στοιχείο - πλειάδα) αντιµετωπίζεται, όχι ως ανεξάρτητο στοιχείο, αλλά ως µέρος ακολουθίας στοιχείων. Η κύρια µνήµη στην οποία γίνεται η επεξεργασία έχει πεπερασµένο µέγεθος. Στο Σ Ρ δεν αποκλείεται η ύπαρξη και σχεσιακών σχηµάτων µε στατικά δεδοµένα. Συχνά, προκύπτουν ερωτήµατα που απαιτούν τη σύνδεση (jon) ρευµάτων δεδοµένων µε στατικά αποθηκευµένη πληροφορία. Μία αφαιρετική προσέγγιση της δοµής ενός Σ Ρ παρουσιάζεται στο Σχήµα 1.1. Συνοπτικά, ένα Σ Ρ αποτελεί ένα µαύρο κουτί στην είσοδο του οποίου εισέρχονται ρεύµατα. Η έξοδός του είναι επίσης ρεύµατα. Πυρήνας του Σ Ρ είναι ο επεξεργαστής ερωτηµάτων. Μεταξύ εισόδου και επεξεργαστή ερωτηµάτων υπάρχουν ενδιάµεσοι χώροι τήρησης δεδοµένων. Ο χρήστης υποβάλλει ερωτήµατα διαρκείας µε κατάλληλα εργαλεία (γραφικά, γλωσσικά κ.α.) που διευκολύνουν την επικοινωνία µε το σύστηµα. Οι συνόψεις και οι στατικές σχέσεις τροφοδοτούν µε επιπλέον απαραίτητη πληροφορία τον επεξεργαστή ερωτηµάτων

22 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Πρωτότυπα Σ Ρ Πρωτότυπα Σ Ρ έχουν αναπτυχθεί από διάφορες ερευνητικές οµάδες για την εξυπηρέτηση εφαρµογών ρευµάτων δεδοµένων. Το σύστηµα Alert (IBM), το AURORA (Brandes, Brown, MIT), το Cougar (Cornell), το Ggascope (AT&T, Carnege Mellon), το NagaraCQ (Wsconsn), το STREAM (Stanford) και το TelegraphCQ(Berkeley) αποτελούν έναν ενδεικτικό κατάλογο τέτοιων συστηµάτων. Το TelegraphCQ προσαρµόζει την PostgreSQL στις ανάγκες του µοντέλου ρευµάτων δεδοµένων. Το STREAM δεν βασίζεται σε κανένα υπάρχον Σ Β και αποπειράται να αποτελέσει ένα γενικού σκοπού Σ Ρ. 1.3 Ερωτήµατα σε Συστήµατα ιαχείρισης Ρευµάτων εδοµένων Κατηγορίες Ερωτηµάτων Τα ερωτήµατα που υποβάλλονται σε ένα σύστηµα διαχείρισης ρευµάτων δεδοµένων µπορούν να διακριθούν σε δύο κατηγορίες: Ερωτήµατα διαρκείας (contnuous), τα οποία εκτελούνται συνεχώς και η απάντηση ανανεώνεται για κάθε νέο στοιχείο Ερωτήµατα στιγµιοτύπου (one-tme), τα οποία εκτελούνται σε τακτά ή µη χρονικά διαστήµατα και αφορούν το τρέχον στιγµιότυπο (snapshot) της πληροφορίας. Τα ερωτήµατα διαρκείας είναι τα πιο ενδιαφέροντα ερωτήµατα που υποβάλλονται σε ρεύµατα δεδοµένων, σε αντίθεση µε τα ερωτήµατα στιγµιοτύπου, που δεν διαφέρουν ουσιαστικά από τα ερωτήµατα που υποβάλλονται στις κλασσικές βάσεις δεδοµένων. Η απάντηση στα ερωτήµατα διαρκείας παράγεται συνεχώς στο χρόνο και αφορά πάντα την πληροφορία µέχρι την τρέχουσα χρονική στιγµή. Τα ερωτήµατα, µπορούµε να τα διακρίνουµε και µε βάση τον τρόπο που υποβλήθηκαν: Προκαθορισµένα (predefned) Μη προβλέψιµα (ad-hoc) Τα προκαθορισµένα ερωτήµατα είναι γνωστά στο σύστηµα πριν ξεκινήσει η άφιξη της σχετικής πληροφορίας. Αντίθετα τα µη προβλέψιµα ερωτήµατα υποβάλλονται από το χρήστη κατά τη διάρκεια της άφιξης της πληροφορίας. Ο λόγος που διακρίνουµε τα ερωτήµατα µε βάση το πότε υποβλήθηκαν είναι ότι για τα προκαθορισµένα ερωτήµατα το σύστηµα µπορεί αφενός να επιλέξει δοµές που είναι ικανές να ανταποκριθούν αποδοτικά στα ερωτήµατα αυτά και αφετέρου να ισοσταθµίσει την κατανάλωση πόρων (χρόνος, µνήµη) µε την ακρίβεια έτσι ώστε - 6 -

23 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων να ανταποκρίνεται στις απαιτήσεις της εφαρµογής. Αντίθετα, στην περίπτωση των µη προβλέψιµων ερωτηµάτων υπάρχουν οι εξής δυσκολίες: Το σύστηµα ενδέχεται να µην έχει διαθέσιµη πληροφορία που αναφέρεται στο παρελθόν και που είναι αναγκαία για την επεξεργασία του ερωτήµατος ή ακόµα και να µην την έχει διαθέσιµη σε κατάλληλη µορφή. Επίσης, το σύστηµα µπορεί να µη διαθέτει τους υπολογιστικούς πόρους για να υποστηρίξει την επεξεργασία που ζητείται Παράθυρα Τα παράθυρα χρησιµεύουν στην αποµόνωση πεπερασµένου πλήθους στοιχείων από το απειράριθµο ρεύµα δεδοµένων. Υπάρχουν διάφορα είδη παραθύρων πάνω σε ένα ρεύµα δεδοµένων. Το ενδιαφέρον στρέφεται κυρίως στα: Παράθυρα σταθερής αρχής ή παράθυρα οροσήµου (landmark wndows) Ολισθαίνοντα παράθυρα (sldng wndows) Τα παράθυρα αποτελούν αναπόσπαστο µέρος της έκφρασης ερωτηµάτων προς το σύστηµα. εν είναι µόνο αδύνατον να απαντηθούν ερωτήµατα που αναφέρονται σε όλη την ιστορία του ρεύµατος. Είναι µάλλον ανεπιθύµητο. Γενικά η έµφαση στις περισσότερες εφαρµογές δίνεται στο πρόσφατο παρελθόν και όχι στο απώτερο. Με την εισαγωγή παραθύρων, ο ίδιος ο χρήστης της εφαρµογής αποφασίζει την εµβέλεια του ερωτήµατος. Η εµβέλεια µπορεί να παραβληθεί µε τον παρελθοντικό ορίζοντα του παραθύρου. Φυσικά, η εµβέλεια ενδιαφέροντος ποικίλλει από εφαρµογή σε εφαρµογή. Τα ολισθαίνοντα παράθυρα εγείρουν διάφορα θέµατα που έχουν να κάνουν µε την εσωτερική τους υλοποίηση, την αποδοτικότητα αλγορίθµων για υπολογισµό τελεστών και τη βελτιστοποίηση ερωτηµάτων. Η έννοια του ολισθαίνοντος παραθύρου είναι στενά συνδεδεµένη µε αυτήν του ερωτήµατος διαρκείας και αποτελεί κοµβικό ερευνητικό θέµα στα Σ Ρ. Τα ολισθαίνοντα παράθυρα µπορούν να διακριθούν περαιτέρω στα: Ολισθαίνοντα Παράθυρα βάσει χρόνου - ΧΟΠ (Tme based sldng wndows) Ολισθαίνοντα Παράθυρα βάσει πλειάδων - ΠΟΠ (Tuple based sldng wndows) Γλώσσα υποβολής ερωτηµάτων Κάθε σύστηµα γενικής χρήσης που καλείται να διαχειριστεί ρεύµατα δεδοµένων οφείλει να παρέχει στους χρήστες µία πλήρη γλώσσα υποβολής ερωτήσεων. Η γλώσσα SQL που χρησιµοποιείται στα Σ Β δείχνει να είναι κατάλληλη για να παρέχει τη βάση αυτής της γλώσσας. Τα προτερήµατα της επιλογής αυτής είναι τα εξής: - 7 -

24 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Η γλώσσα είναι γνωστή και χρησιµοποιείται ευρέως Η κοινή βάση των Σ Β µε τα ΣΡΒ είναι µεγάλη. Οι απαιτούµενες επεκτάσεις στη γλώσσα για την υποστήριξη χρονικών παραθύρων, συνεχών ερωτηµάτων κ.α. δεν έρχονται σε σύγκρουση µε τις ήδη παρεχόµενες από την SQL λειτουργίες. Στο πρωτότυπο Σ Ρ STREAM που αναπτύχθηκε στο Stanford αναπτύχθηκε µία τροποποιηµένη εκδοχή της SQL, η CQL. Για λόγους πληρότητας της παρούσας εισαγωγής σε συστήµατα ρευµάτων δεδοµένων, θα αναφερθούµε εν συντοµία, στον τρόπο που υποβάλλονται ερωτήµατα µε χρήση της CQL χωρίς να επεκταθούµε σε άλλες γλώσσες που εξυπηρετούν τον ίδιο σκοπό. Τα ολισθαίνοντα χρονικά παράθυρα βασισµένα σε πλειάδες (ΠΟΠ) υλοποιούνται µε χρήση της λέξης κλειδί ROWS (π.χ. 30 ROWS PRECEDING), ενώ τα παράθυρα βάσει χρόνου (ΧΟΠ) µε χρήση της λέξης κλειδί RANGE (π.χ. RANGE 10 MINUTES PRECEDING). Έστω ρεύµα δεδοµένων εγγραφών τηλεφωνικών κλήσεων Calls µε πλειάδα: <customer_d, type, mnutes, tmestamp>. Έστω η στατική σχέση Customers µε πλειάδα της µορφής: <customer_d, ter> Έστω ερώτηµα που υπολογίζει το µέσο όρο διάρκειας κλήσεων λαµβάνοντας υπόψη µόνο τις 10 τελευταίες υπεραστικές κλήσεις του κάθε πελάτη. Το ερώτηµα υποβάλλεται ως εξής: SELECT AVG(S.mnutes) FROM Calls S [PARTITION BY S.customer d ROWS 10 PRECEDING WHERE S.type = Long Dstance ] Το ρεύµα µπορεί να επιµεριστεί σε επιµέρους ρεύµατα χρησιµοποιώντας τη λέξη κλειδί PARTITION. Έστω ερώτηµα που υπολογίζει µέσο όρο διάρκειας κλήσεων, λαµβάνοντας υπόψη µόνο τις υπεραστικές κλήσεις από τις 10 τελευταίες κλήσεις κάθε πελάτη. Το ερώτηµα υποβάλλεται ως εξής: SELECT AVG(S.mnutes) FROM Calls S [PARTITION BY S.customer d ROWS 10 PRECEDING] WHERE S.type = Long Dstance Ακολουθεί ένα πιο περίπλοκο ερώτηµα που επιστρέφει τη µέση διάρκεια κλήσης των τελευταίων 1000 κλήσεων που υποβλήθηκαν από «χρυσούς» πελάτες (Gold): SELECT AVG(V.mnutes) FROM (SELECT S.mnutes FROM Calls S, Customers T WHERE S.customer d = T.customer d AND T.ter = Gold ) V [ROWS 1000 PRECEDING] - 8 -

25 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Σε αυτό το παράδειγµα, το ρεύµα των κλήσεων πρέπει να συνδεθεί µε τη στατική σχέση Customers προτού εφαρµοστεί πάνω του το ολισθαίνον παράθυρο. Παρατηρούµε, ότι η επέκταση της SQL έγκειται στα εξής: Στην προαιρετική πρόταση διαµέρισης ρευµάτων σε οµάδες (partton) µε χρήση του PARTITION BY. Στη δήλωση µεγέθους παραθύρου µε χρήση των RANGE PRECEDING και ROWS PRECEDING Σε προαιρετικές συνθήκες επιλογής στοιχείων (flterng predcates) 1.4 Επεξεργασία ρευµάτων δεδοµένων Επεξεργασία ερωτηµάτων Στα παραδοσιακά Σ Β, οι τελεστές έχουν ενεργητικό ρόλο και οι δοµές αποθήκευσης παθητικό (pull model). ηλαδή στο πλάνο επεξεργασίας ερωτήµατος (query plan) ένας τελεστής ζητά πληροφορία από έναν κόµβο-παιδί όταν χρειαστεί. Σε ένα Σ Ρ, οι δοµές αποθήκευσης ενεργοποιούν τους τελεστές κάθε φορά που ενηµερώνονται µε νέα στοιχεία (push model). Στα πλάνα επεξεργασίας ερωτηµάτων διαρκείας κάποιων πρωτότυπων Σ Ρ (STREAM[BBD+02], Fjords[MF02]), οι τελεστές συνδέονται µε ουρές, επιτρέποντας στις πηγές να σπρώχνουν δεδοµένα στους τελεστές. ιάφορα θέµατα που σχετίζονται µε το συγχρονισµό και τις υπερχειλίσεις, ανακύπτουν σε τέτοια πλάνα. Τα ερωτήµατα που αφορούν ιστορική πληροφορία εισάγουν ερευνητικές προκλήσεις που σχετίζονται µε την πρόσβαση σε δοµές στο δίσκο και τη δεικτοδότηση τέτοιων δοµών Βελτιστοποίηση πολλαπλών ερωτηµάτων Η βελτιστοποίηση πολλαπλών ερωτηµάτων (multple query optmzaton) αποτελεί µία προσέγγιση που είναι πλήρως συµβατή µε τις απαιτήσεις των Σ Ρ. ύο πλαίσια υλοποίησης έχουν προταθεί: Χρήση κοινού πλάνου ερωτήµατος (sharng query plans). εικτοδότηση των λογικών συνθηκών των ερωτηµάτων (ndexng query predcates). Η δηµιουργία και εκτέλεση κοινού πλάνου για πολλά ερωτήµατα έγκειται στην παραγωγή της ένωσης των απαντήσεων πολλών ερωτηµάτων και στην τελική επιλογή των ορθών αποτελεσµάτων από κάθε ερώτηµα στο τελικό στάδιο επεξεργασίας. Η δυναµική δηµιουργία νέων οµάδων ερωτηµάτων και η εκτέλεση συνδέσεων πάνω σε παράθυρα διαφορετικών µεγεθών αποτέλεσαν προβλήµατα στην ενοποίηση πλάνων ερωτηµάτων και ήδη αναπτύσσονται τεχνικές για την αντιµετώπισή τους

26 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Στην προσέγγιση µε τη δεικτοδότηση, οι λογικές συνθήκες αποθηκεύονται σε πίνακες. Με την άφιξη κάθε νέας πλειάδας, ελέγχονται όλες οι συνθήκες του πίνακα και αποφασίζεται ποιες ικανοποιούνται. Η προσέγγιση αυτή λειτουργεί καλά για απλές λογικές συνθήκες αλλά δεν έχει διερευνηθεί η εφαρµογή της σε περιβάλλον επεξεργασίας µε χρονικά παράθυρα Προσαρµοστικότητα Τα Σ Ρ οφείλουν να προσαρµόζονται δυναµικά σε νέες συνθήκες και απαιτήσεις επεξεργασίας. Το κόστος ενός πλάνου επεξεργασίας µπορεί να αλλάξει κατά τη λειτουργία για τους εξής λόγους: Μεταβολή της επιλεκτικότητας κατηγορηµάτων (selectvty) Μεταβολή του κόστους τελεστών Μεταβολή του ρυθµού άφιξης πληροφορίας Η διατήρηση του συγχρονισµού κατά τη λειτουργία ενός Σ Ρ είναι βασική παράµετρος για την ορθότητά του. Η αποβολή φόρτου (load sheddng) για τη διατήρηση του συγχρονισµού έχει προταθεί για τη δυναµική προσαρµογή σε νέες συνθήκες. Η αποβολή φόρτου µπορεί να πραγµατοποιείται σε οποιοδήποτε στάδιο επεξεργασίας. Αν, για παράδειγµα, ένα ρεύµα που προέρχεται από κάποιον κόµβο τροφοδοτεί έναν κόµβο που δεν «προλαβαίνει» να το επεξεργαστεί, ο κόµβος αυτός µπορεί να εφαρµόσει δειγµατοληψία αποβάλλοντας έτσι επεξεργαστικό και αποθηκευτικό φόρτο. Η προσέγγιση της ατοµικής δροµολόγησης πλειάδας (schedulng tuples separately) σε ένα δίκτυο τελεστών που σχηµατίζουν το πλάνο εκτέλεσης επιτυγχάνει δυναµική αναπροσαρµογή του πλάνου εκτέλεσης (Eddes approach), επιβαρύνοντας όµως το σύστηµα µε επιπλέον κόστος για τη δροµολόγηση κάθε πλειάδας ξεχωριστά Κατανεµηµένη επεξεργασία ερωτηµάτων Η κατανεµηµένη επεξεργασία των ερωτηµάτων αφορά την αποβολή επικοινωνιακού φόρτου, µε πρόσθεση υπολογιστικού φόρτου κοντά στις πηγές. Η προσέγγιση είναι δύσκολο να γενικευτεί, λόγω της ετερογένειας των εφαρµογών. Λειτουργίες δειγµατοληψίας µε αποβολή πλειάδων που δεν παρουσιάζουν σηµαντική απόκλιση από αναµενόµενη συµπεριφορά µε βάση την ακολουθία, είναι εφικτές στο επίπεδο των πηγών Ταυτόχρονη συµπίεση πολλαπλών δεδοµένων Η συνδροµικότητα (ταυτοχρονισµός) όλων των λειτουργιών ενός Σ Ρ και η ανάγκη για διατήρηση συγχρονισµού µεταξύ εισόδου και εξόδου θέτουν πολλούς περιορισµούς. Στην κατεύθυνση αυτή έχει προταθεί η βελτιστοποίηση

27 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων πολλαπλών ερωτηµάτων µε δυναµικό χαρακτήρα. Στο ίδιο πνεύµα κινείται και η ταυτόχρονη συµπίεση πολλαπλών δεδοµένων. Για παράδειγµα, ένα ρεύµα τροχιών δεδοµένων που αποτελείται από επιµέρους ρεύµατα δεδοµένων ατοµικών τροχιών µπορεί να συµπιέζεται ως ένα, παρέχοντας εγγυήσεις για περιθώρια σφάλµατος συνολικά για όλες τις τροχιές αντί για καθεµία ξεχωριστά. Η ταυτόχρονη συµπίεση πολλαπλών δεδοµένων είναι ίσως µία ακόµα µελλοντική κατεύθυνση που συνάδει µε το µοντέλο ρευµάτων δεδοµένων. 1.5 Αλγοριθµικά ζητήµατα Ρεύµα δεδοµένων Το ρεύµα δεδοµένων µπορεί να θεωρηθεί ως µία ακολουθία στοιχείων που παράγονται από µία ή πολλές πηγές. Το ρεύµα δεδοµένων µπορεί να κινείται σε ένα γράφο επεξεργαστικών σταδίων (δίκτυο επεξεργασίας). Κάθε στάδιο, εν γένει, έχει µία εµβέλεια πάνω στο ρεύµα. Η εµβέλεια αποτελεί το οπτικό πεδίο του σταδίου και µπορούµε να το φανταστούµε σαν µία ουρά frst n - frst out (FIFO). Η ιδέα είναι, γενικά, ότι κάθε στάδιο «δικαιούται» µία µατιά (U only get 1 look). Η πληροφορία που δεν βρίσκεται στο οπτικό πεδίο του σταδίου αυτού δεν είναι διαθέσιµη σε αυτό. Η πληροφορία που παράγεται από µία πηγή είναι γενικά απλή. Μία πηγή µπορεί να είναι ένας αισθητήρας θερµοκρασίας και η πληροφορία να είναι η θερµοκρασία (βαθµωτό µέγεθος). Πηγή, µπορεί να είναι και ένα κινούµενο αντικείµενο. Η τρέχουσα θέση του στο επίπεδο (δύο διαστάσεις) ή στο χώρο (τρεις διαστάσεις) συνιστά την πληροφορία. Τα µεγέθη αυτά είναι διανυσµατικά. Ένα δίκτυο αισθητήρων ή ένα σύνολο αντικειµένων παράγουν, επίσης, ένα ρεύµα δεδοµένων και µπορούν να θεωρηθούν ως µία ενιαία πηγή Μοντέλα Έστω ρεύµα εισόδου a, a 1 2,... που καταφτάνει ακολουθιακά, στοιχείο προς στοιχείο, και περιγράφει ένα σήµα A. Το σήµα A είναι µία συνάρτηση µίας διάστασης A :[ 1... N] R. Τα µοντέλα που θα περιγραφούν παρακάτω, διαφέρουν ως προς τον τρόπο µε τον οποίο τα στοιχεία a περιγράφουν το σήµα A. Μοντέλο χρονοσειράς (Tme Seres Model): Κάθε στοιχείο a είναι ίσο µε A []. Τα στοιχεία a εµφανίζονται σε αύξουσα σειρά του. Η παρακολούθηση του δείκτη FTSE 20 του χρηµατιστηρίου αποτελεί µία εφαρµογή του µοντέλου χρονοσειράς. Μοντέλο ταµειακής µηχανής (Cash Regster Model): Σε αυτό το µοντέλο κάθε στοιχείο a αποτελεί αυξητικό παράγοντα για το A [ j]. ηλαδή το a a = j,, I 0 και το σύστηµα καλείται να υπολογίσει έχει τη µορφή ( I ) το άθροισµα A [ j] A [ j] + I = 1, όπου A η κατάσταση του σήµατος µετά

28 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων την επεξεργασία του στοιχείου πολλά a µπορούν να αυξάνουν κάποιο [ ] a. Όπως και σε µία ταµειακή µηχανή, A j µε την πάροδο του χρόνου. Θεωρούµε την παρακολούθηση συναλλαγών στο χρηµατιστήριο. Κάθε πλειάδα παρέχει στοιχεία αγοραπωλησίας µίας µετοχής. Παρακολουθούµε το πλήθος των µονάδων κάθε µετοχής που έγινε αντικείµενο αγοραπωλησίας. Κάθε πλειάδα αυξάνει το συνολικό πλήθος µονάδων κάποιας µετοχής. Μοντέλο περιστροφικής θύρας (Turnstle Model): Στο µοντέλο αυτό, τα στοιχεία A j. ηλαδή δρουν είτε προσθετικά a είναι ενηµερώσεις των [ ] είτε αφαιρετικά. Αντίστοιχα µε το µοντέλο cash regster έχουµε a j, A j = A 1 j + U. Μπορούµε να διακρίνουµε το µοντέλο = ( ), [ ] [ ] U αυτό σε δύο επιµέρους µοντέλα. Στο αυστηρό (strct) και στο µη-αυστηρό j. Το (non-strct). Σύµφωνα µε το αυστηρό µοντέλο ισχύει πάντα [ ] 0 non-strct Turnstle µοντέλο είναι το πιο γενικό µοντέλο και επιτρέπει j. Το µοντέλο περιστρεφόµενης την ύπαρξη αρνητικών τιµών για τα [ ] θύρας µοιάζει µε αυτό της ταµειακής µηχανής. Η διαφορά είναι ότι επιτρέπει και τις διαγραφές. Το µοντέλο turnstle είναι το γενικότερο µοντέλο. Θεωρητικά, η σχεδίαση αλγορίθµων για αυτό το µοντέλο αποτελεί τη µεγαλύτερη πρόκληση. Πολλές εφαρµογές καλύπτονται από τα δύο λιγότερο γενικά µοντέλα. Τα µοντέλα αυτά επιβάλλουν λιγότερους περιορισµούς στη σχεδίαση αλγορίθµων. Σύµφωνα µε την εκάστοτε εφαρµογή, υπάρχουν διάφορες συναρτήσεις που πρέπει να υπολογίζονται στο σήµα A σε διάφορες χρονικές περιόδους κατά τη διάρκεια της άφιξης του ρεύµατος. Τα µέτρα επίδοσης των αλγορίθµων που υπολογίζουν ή εκτιµούν τις συναρτήσεις αυτές είναι: Ο χρόνος επεξεργασίας ανά στοιχείο a (processng tme). Ο χώρος που χρειάζεται για την αποθήκευση κατάλληλης δοµής Α t τη χρονική στιγµή t (storage). Ο χρόνος υπολογισµού των συναρτήσεων του σήµατος A (compute tme). A A Ανάγκη για απεριόριστη µνήµη Τα ρεύµατα δεδοµένων έχουν δυνητικά απεριόριστο µέγεθος. Συνεπώς, το µέγεθος της απαραίτητης µνήµης για την απάντηση ερωτηµάτων µπορεί να είναι και αυτό απεριόριστο. Οι αλγόριθµοι που έχουν αναπτυχθεί για την επεξεργασία ερωτηµάτων µε χρήση εξωτερικής µνήµης δεν είναι συµβατοί µε το µοντέλο ρευµάτων δεδοµένων αφού δεν µπορούν, στη γενική περίπτωση, να παράγουν σε πραγµατικό χρόνο απαντήσεις σε ερωτήµατα διαρκείας. Ο χρόνος επεξεργασίας ανά πλειάδα οφείλει να είναι ιδιαίτερα µικρός, έτσι ώστε η επεξεργασία να είναι συγχρονισµένη µε το ρυθµό άφιξης της πληροφορίας. Σχετική έρευνα για τα περισσότερο κοινά ερωτήµατα (µε συναθροίσεις και συνδέσεις) αποφαίνεται ότι το µέγεθος της απαραίτητης µνήµης για την επεξεργασία του ερωτήµατος δεν µπορεί να φραχθεί, αν το µέγεθος του ρεύµατος

29 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων δεν είναι εκ των προτέρων γνωστό. Εξαίρεση αποτελούν ερωτήµατα που αφορούν πεδία για τα οποία υπάρχει γνώση για την κατανοµή των αναµενόµενων τιµών. ιαισθητικά, αν δεν υπάρχουν περιορισµοί του πεδίου τιµών σε µία σύνδεση, κάθε νέα τιµή µπορεί, δυνητικά, να συνδέεται µε οποιαδήποτε τιµή από το παρελθόν. Το πρόβληµα αντιµετωπίζεται, εν µέρει, µε τη χρήση παραθύρων ενδιαφέροντος. Τα παράθυρα, όπως θα περιγραφεί παρακάτω είναι βαθιά συσχετισµένα µε τη φύση του µοντέλου ρευµάτων δεδοµένων Προσεγγιστικές Απαντήσεις Πολλές φορές η περιορισµένη µνήµη δεν επιτρέπει την παραγωγή απαντήσεων ακριβείας. Όµως, η ποιότητα και η επικαιρότητα της πληροφορίας ούτως ή άλλως, δεν επιβάλλουν τέτοια απαίτηση. Στα συστήµατα ρευµάτων δεδοµένων, είναι αποδεκτές οι απαντήσεις υψηλής ακρίβειας. Γενικές µέθοδοι και δοµές για µείωση µνήµης και δηµιουργία συνόψεων είναι τα κυµατίδια (wavelets), τα σκίτσα (sketches), τα ιστογράµµατα (hstograms) και η δειγµατοληψία (samplng). Οι εφαρµογές αυτών των µεθόδων σε πραγµατικό χρόνο έχουν πολλούς περιορισµούς και το πλαίσιο της συµβατότητάς τους µε το µοντέλο ρευµάτων δεδοµένων είναι αντικείµενο ερευνητικής προσπάθειας. Συνοψίζοντας, η ποιότητα της προσεγγιστικής απάντησης εξαρτάται από το χώρο, την ταχύτητα και την ακρίβεια. Αναζητούµε τεχνικές που ελαχιστοποιούν το κόστος του χώρου και της ενηµέρωσης, απαντώντας όµως ταχύτατα και µε µεγάλη ακρίβεια Ανασταλτικοί τελεστές Οι ανασταλτικοί τελεστές (blockng operators) είναι οι τελεστές των βάσεων δεδοµένων που µπορούν να παράγουν την πρώτη πλειάδα του αποτελέσµατος τους µόνο όταν όλη η απαραίτητη πληροφορία είναι διαθέσιµη. Η ταξινόµηση (sortng) καθώς και οι συναθροιστικοί (aggregate) τελεστές COUNT, MIN, MAX, SUM, AVG είναι ανασταλτικοί τελεστές. Η ύπαρξη των τελεστών αυτών απαγορεύει τη χρήση παραδοσιακών δέντρων µε φύλλα-τελεστές στα οποία η απάντηση παράγεται στη ρίζα. Άλλωστε, το ενδιαφέρον δεν έγκειται στην τελική απάντηση που θα προκύψει µε το τέλος του ρεύµατος, αλλά στην ανά πάσα στιγµή πρόσκαιρη απάντηση η οποία θα «ανανεωθεί» µε την άφιξη της νέας πληροφορίας. Όπως στις σχεσιακές βάσεις δεδοµένων, τα ερωτήµατα στιγµιοτύπου παράγουν σχέσεις, έτσι και στα ρεύµατα δεδοµένων τα συνεχή ερωτήµατα παράγουν ρεύµατα. Η αντιµετώπιση των ανασταλτικών τελεστών είναι ανοιχτό πρόβληµα. Στα ρεύµατα δεδοµένων, ένας ανασταλτικός τελεστής στη ρίζα του δέντρου δεν αποτελεί µεγάλο πρόβληµα. Ένας ανασταλτικός τελεστής όµως στο εσωτερικό του, όπως ένα άθροισµα σε υποερώτηµα (sum-subquery), εισάγει πολλές δυσκολίες. Οι ανασταλτικοί τελεστές µπορούν να αντιµετωπιστούν µε αντικατάσταση από µη ανασταλτικούς τελεστές που κάνουν προσέγγιση της λειτουργίας τους. Όπως είναι αναµενόµενο, προκύπτουν θέµατα που αφορούν την ακρίβεια των προσεγγιστικών απαντήσεων

30 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Μία διαφορετική προσέγγιση για την αντιµετώπισή τους, είναι η χρήση στίξης (punctuaton). Πρόκειται για σηµεία στίξης που παρεµβάλλονται στο ρεύµα και µεταφέρουν κάποια µεταπληροφορία για την πληροφορία πριν ή µετά από αυτά. Για παράδειγµα, µε ένα σηµείο στίξης δηλώνεται ότι οι τιµές ενός πεδίου, από εδώ και πέρα, θα είναι πάντα µικρότερες της τιµής c. Η απάντηση ενός GROUP BY για όλες τις τιµές που είναι µεγαλύτερες από c, µπορεί να σταλεί σε επόµενο στάδιο επεξεργασίας Συνόψεις Στο πλαίσιο των προσεγγιστικών απαντήσεων σε ερωτήµατα στη σχεδίαση των Σ Ρ, έχουν προταθεί διάφορες τεχνικές για τη δηµιουργία συνόψεων και την αποδοτική συµπίεση των δεδοµένων. Στόχος είναι, αφενός η µείωση του όγκου της πληροφορίας πριν την επεξεργασία, και αφετέρου η διοχέτευση της πληροφορίας σε κατάλληλους κόµβους για µόνιµη αποθήκευση στο τέλος της επεξεργαστικής διαδικασίας για µελλοντική αναφορά σε ιστορικά δεδοµένα. Στο [BBD+02] υπάρχει µία αφαιρετική περιγραφή για τέτοιες δοµές. Θεωρούµε δύο βασικές λειτουργίες: Ενηµέρωση: update (tuple) Υπολογισµός απάντησης: computeanswer( ) Η λειτουργία update (tuple) ενηµερώνει τη δοµή κάθε φορά που συµβαίνει άφιξη νέας πληροφορίας. Η λειτουργία computeanswer( ) ανανεώνει την απάντηση σε κάποιο ερώτηµα. Στην ιδανική περίπτωση, και οι δύο λειτουργίες είναι γρήγορες συγκρινόµενες µε το ρυθµό άφιξης της πληροφορίας. Μαζική επεξεργασία (Batch Processng) Αν η λειτουργία update (tuple) είναι γρήγορη και η computeanswer( ) είναι αργή, η επεξεργασία της πληροφορίας πρέπει να γίνεται σε οµάδες µε χρήση ενταµιευτή. Οι απαντήσεις δίνονται σχεδόν σε πραγµατικό χρόνο (near real tme). ειγµατοληψία (Samplng) Αν η λειτουργία computeanswer( ) είναι γρήγορη και η update (tuple) είναι αργή θα πρέπει να εφαρµοστεί δειγµατοληψία (samplng) για να διατηρηθεί ο απαραίτητος συγχρονισµός. Από τα παραπάνω, είναι σαφές, ότι είναι επιθυµητές οι δοµές, που και οι δύο λειτουργίες είναι γρήγορες. Οι µέθοδοι που µελετώνται βασίζονται κυρίως στα σκίτσα (sketches), στα κυµατίδια (wavelets), στα ιστογράµµατα (hstograms) και στη δειγµατοληψία (samplng). Οι τεχνικές αυτές θα περιγραφούν αναλυτικότερα σε επόµενα κεφάλαια και αποτελούν βασικό θεωρητικό υπόβαθρο για τη µεθοδολογία που προτείνεται στην παρούσα διπλωµατική εργασία

31 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων Αµνησιακοί Αλγόριθµοι Στις εφαρµογές ρευµάτων δεδοµένων, το ενδιαφέρον βρίσκεται κυρίως στο πρόσφατο παρελθόν και φθίνει όσο περισσότερο αποµακρυνόµαστε από το παρόν. Σε πολλές εφαρµογές, µπορεί να µοντελοποιηθεί µε χρήση συναρτήσεων βάρους, εκθετικής ή γραµµικής συµπεριφοράς. Η ακρίβεια των απαντήσεων σε ερωτήµατα µε τέτοια «αµνησιακά» βάρη επηρεάζεται περισσότερο από την ποιότητα της πρόσφατης πληροφορίας συγκριτικά µε την παλαιότερη. Για παράδειγµα σε µία χρηµατιστηριακή εφαρµογή, ενδιαφέρουν πολύ οι µεταβολές που παρουσιάζει η τιµή µίας µετοχής κατά την τρέχουσα συνεδρίαση. Λιγότερο ενδιαφέρουν οι µεταβολές της προηγούµενης µέρας, ακόµα λιγότερο της προηγούµενης βδοµάδας κ.ο.κ.. Χαρακτηριστικό τέτοιων εφαρµογών είναι ότι όλη η ιστορία έχει ενδιαφέρον, παρόλο που δίνεται έµφαση στην πιο πρόσφατη. Όπως και στην περίπτωση των παραθύρων, οι εφαρµογές «προτείνουν» την εφαρµογή συνόψεων που «ξεχνούν» και που είναι στενά συνυφασµένες όχι µόνο µε την αποδοτικότητα των αλγορίθµων αλλά και µε τις απαιτήσεις τους σε πόρους. Οι δοµές αυτές οφείλουν να ελαττώνουν την ακρίβεια της πληροφορίας που συγκρατούν όσο αυτή παλαιώνει. Με αυτό τον τρόπο επιτυγχάνουν πολύ ικανοποιητικά αποτελέσµατα. Για παράδειγµα, µία δοµή, που εφαρµόζει εκθετική αµνησία στην ακρίβεια της πληροφορίας, χρειάζεται συνήθως λογαριθµικό χώρο

32 Εισαγωγή στο Μοντέλο Ρευµάτων εδοµένων

33 Κινούµενα Αντικείµενα Κεφάλαιο 2 Κινούµενα Αντικείµενα Εισαγωγή Η διαχείριση δεδοµένων που παράγονται από κινούµενα αντικείµενα απασχολεί την ερευνητική κοινότητα των χωρικών βάσεων δεδοµένων. Εφαρµογές εντοπισµού (postonng) εµφανίζονται τα τελευταία χρόνια στην αγορά. Η κινητή τηλεφωνία και τα συστήµατα παρακολούθησης εµπορικών στόλων ήδη χρησιµοποιούν τεχνολογία παρακολούθησης κινούµενων αντικειµένων. Πλέον, οι συσκευές εντοπισµού έχουν πολύ µικρό µέγεθος και µπορούν να εγκατασταθούν σε διαφόρων τύπων κινητό εξοπλισµό (portable equpment). Όλες αυτές οι συσκευές παράγουν πολύ µεγάλο όγκο ρευµάτων δεδοµένων, αποτελούµενο από χρονοσηµασµένα στίγµατα (tme-stamped postons). Η διαδικασία αυτή εγείρει θέµατα µετάδοσης (transmsson), αποθήκευσης (storage), υπολογισµού (computaton) και απεικόνισης (dsplay). 2.1 Χωροχρονικά δεδοµένα Ως χωροχρονικά δεδοµένα ορίζουµε µία κλάση δεδοµένων που παράγεται από τη συστηµατική περιγραφή των χωροχρονικών φαινοµένων. Χωροχρονικό φαινόµενο είναι ένα φαινόµενο κατά το οποίο η θέση και/ή η έκταση ενός χωρικού αντικειµένου, που µπορεί να είναι σηµείο ή πολύγωνο, µεταβάλλονται µε το χρόνο. Η υπάρχουσα τεχνολογία παρέχει τη δυνατότητα τέτοιων λειτουργιών. Ο εντοπισµός της θέσης ενός αντικειµένου µε µεγάλη ακρίβεια είναι εφικτός µε χρήση τεχνολογιών GPS (Global Postonng System). Η διοχέτευση των παραγόµενων δεδοµένων σε κόµβους επεξεργασίας είναι εφικτός χάρη στην ανάπτυξη των ασύρµατων τηλεπικοινωνιών

34 Κινούµενα Αντικείµενα Η προαναφερθείσα γεωµετρική µεταβολή στην κατάσταση των αντικειµένων µπορεί να συµβαίνει είτε µε τρόπο διακριτό είτε µε τρόπο συνεχή. Στην παρούσα εργασία, το ενδιαφέρον επικεντρώνεται στη συνεχή κίνηση σηµειακών αντικειµένων. Η κίνηση αυτή παρακολουθείται µε τρόπο διακριτό. Θεωρούµε, δηλαδή, ότι µε κάποιο ρυθµό, όχι απαραίτητα σταθερό, ένα κινούµενο αντικείµενο (εξοπλισµένο µε κατάλληλη τεχνολογία όπως GPS/GPRS) αποστέλλει στίγµα στο σταθµό κεντρικής παρακολούθησης της κίνησης. Ο στόλος οχηµάτων της Αττικής Οδού για παράδειγµα είναι εξοπλισµένος µε συσκευές GPS/GPRS οι οποίες αποστέλλουν το στίγµα τους σε κεντρικό σταθµό επεξεργασίας είτε µετά 10 δευτερόλεπτα από την τελευταία αποστολή (χρονικό κριτήριο), είτε αφού διανύσουν 100 µέτρα από την τελευταία αποστολή (χωρικό κριτήριο). Η παρακολούθηση των οχηµάτων µπορεί να βοηθήσει τη γρηγορότερη αποστολή οχήµατος σε κάποιο µέρος (nearest neghbor query). Ο εγγενής ρυθµός δειγµατοληψίας κατά το σχεδιασµό ενός συστήµατος πρέπει να είναι τέτοιος ώστε τα δείγµατα να αποτελούν ακολουθία, δηλαδή να σχηµατίζουν τροχιά. Ο ρυθµός αυτός επιλέγεται ανάλογα µε την εφαρµογή και µε την αναµενόµενη µορφή της τροχιάς. 2.2 Η τροχιά κινούµενου αντικειµένου ως ρεύµα δεδοµένων Η συνεχής αποστολή διαδοχικών στιγµάτων, που περιγράφουν τη θέση πολλών κινούµενων αντικειµένων, σε ένα κεντρικό κόµβο επεξεργασίας, σχηµατίζει ένα ρεύµα δεδοµένων στην είσοδο του κεντρικού κόµβου. Το ρεύµα αυτό εµπίπτει στο µοντέλο ρευµάτων δεδοµένων, όπως ακριβώς αυτό αναλύεται στο πρώτο κεφάλαιο. 2.3 Κινούµενα αντικείµενα Ο κόσµος µας είναι συνωστισµένος από κινούµενες µονάδες. Η κινητικότητα (moblty) των µονάδων δηµιουργεί «κίνηση» (traffc). Η κίνηση αυτή δηµιουργεί µοτίβα (patterns). Η ανάλυση και η κατανόηση των µοτίβων κίνησης µπορεί να οδηγήσει στην εξαγωγή σηµαντικών συµπερασµάτων. Οµάδες κινούµενων αντικειµένων µπορεί να είναι ένας στόλος από φορτηγά που εκτελούν µεταφορές στην επικράτεια της Ελλάδας, πεζοί σε εµπορικά κέντρα, σταθµούς τρένων ή αεροδρόµια, καρότσια σε super-market, ζώα σε βιότοπο κ.α.. Όλα αυτά τα κινούµενα αντικείµενα πρέπει, φυσικά, να είναι εξοπλισµένα µε συσκευή εντοπισµού. Η κίνηση των αντικειµένων ενδέχεται να υπόκειται σε περιορισµούς, στενά συνδεδεµένους µε τη φύση των αντικειµένων που παρατηρούνται και του χώρου στον οποίο κινούνται. Για παράδειγµα, η κίνηση ενός πεζού εµποδίζεται από κάποιο φυσικό εµπόδιο. Αντίθετα, η κίνηση ενός πλοίου περιορίζεται σε θαλάσσιες εκτάσεις χωρίς όµως πολλούς περιορισµούς. Η κίνηση ενός πτηνού υπόκειται σε ακόµα λιγότερους περιορισµούς κ.ο.κ.. Η κίνηση σε δίκτυο έχει µεγάλο ενδιαφέρον. Για παράδειγµα, η κίνηση οχηµάτων στην πόλη γίνεται στο οδικό της δίκτυο

35 Κινούµενα Αντικείµενα 2.4 Τροχιές κινούµενων αντικειµένων Η κίνηση ενός αντικειµένου στο επίπεδο µπορεί να αναπαρασταθεί µε την τροχιά του σε τρισδιάστατο σύστηµα αξόνων (Σχήµα 2.1), το οποίο συντίθεται από δύο y t συντεταγµένη. χωρικές ( x, ) και µία χρονική ( ) Μία τροχιά µπορεί να προσεγγιστεί από µία ακολουθία από πλειάδες της µορφής: <object_d, tmestamp, x_coordnate, y_coordnate> όπου object_d: η µοναδική ταυτότητα του κινούµενου αντικειµένου tmestamp: το χρονόσηµο που περιγράφει τη χρονική στιγµή στην οποία αναφέρεται η πλειάδα x_coordnate: η τετµηµένη y_coordnate: η τεταγµένη Οι πλειάδες αυτές είναι τα στίγµατα. Αφού η συνεχής καταγραφή της τροχιάς είναι πρακτικά αδύνατη, η εύρεση της θέσης αντικειµένου για κάποια ενδιάµεση χρονική στιγµή µπορεί να προκύψει µε παρεµβολή. Η γραµµική παρεµβολή κρίνεται επαρκής για τις περισσότερες εφαρµογές. Εναλλακτικά, πιο πολύπλοκες τεχνικές, όπως τα πολυώνυµα splnes, µπορούν να χρησιµοποιηθούν για την καλύτερη εκτίµηση της θέσης του αντικειµένου σε χρονικές στιγµές για τις οποίες δεν υπάρχει πληροφορία. Θεωρώντας γραµµική παρεµβολή, τα γνωστά σηµεία θεωρούνται άκρα ευθυγράµµων τµηµάτων και η τροχιά προσεγγίζεται από µία τεθλασµένη πολυγραµµή. Σχήµα 2.1: Αναπαράσταση τροχιάς κινούµενου αντικειµένου (x,y,t) (πηγή: [Pf02])

36 Κινούµενα Αντικείµενα 2.5 Πρόβλεψη µελλοντικής θέσης Μεγάλο ενδιαφέρον στο πεδίο των κινούµενων αντικειµένων παρουσιάζει η πρόβλεψη µελλοντικών θέσεων του κινούµενου αντικειµένου. Η συστηµατική πρόβλεψη θέσης αποτελεί µεγάλη πρόκληση και πρέπει να λαµβάνει υπόψη πολλές παραµέτρους. Μία απλή λειτουργία πρόβλεψης προ ποθέτει τον υπολογισµό µέτρου ταχύτητας (speed) και κατεύθυνσης (drecton) βάσει της πληροφορίας που είναι διαθέσιµη µέχρι το παρόν. Το διάνυσµα της ταχύτητας (velocty) µπορεί να προκύψει µε διάφορους τρόπους: o Να υπολογιστεί µε βάση δύο πλειάδες. Οι πλειάδες πρέπει να έχουν κατάλληλη χρονική απόσταση. o Να υπολογιστεί µε βάση την ιστορία, αλλά µε κάποια κατάλληλη συνάρτηση βάρους. Έτσι και η γενικότερη πορεία που ακολουθεί το αντικείµενο (ιστορία) και η τάση του στο πρόσφατο παρελθόν (τρέχουσα πορεία) θα παίξουν ρόλο στην τελική πρόβλεψη. Εναλλακτικά η κίνηση του αντικειµένου µπορεί να συνδεθεί µε την ιστορική κίνηση του αντικειµένου και κάποια µοτίβα. o Με βάση το χρόνο µπορεί να έχουν παρατηρηθεί κάποια µοτίβα κινήσεων για κάποιες ώρες της ηµέρας (παράδειγµα: εργαζόµενος κατευθύνεται στο χώρο εργασίας κάθε µέρα στις 8:00 το πρωί). o Με βάση το χώρο µπορεί να έχουν παρατηρηθεί κάποια µοτίβα κινήσεων όταν το αντικείµενο βρίσκεται σε κάποια συγκεκριµένη περιοχή (παράδειγµα: οχήµατα παρακάµπτουν συχνά κάποιο δρόµο όπου προκαλείται συµφόρηση), ή κοντά σε κάποιο άλλο κινούµενο ή ακίνητο αντικείµενο (παράδειγµα: σαρκοφάγα ζώα κοντά σε άλλα ζώα θηράµατα). o Ανεξαρτήτως χώρου και χρόνου το αντικείµενο µπορεί να έχει την τάση να κινείται σε κάποιο µοτίβο ή προς κάποια κατεύθυνση (παράδειγµα: ελλειπτική κίνηση ουρανίων σωµάτων). o Ανάλογα µε την εφαρµογή προκύπτουν και περιορισµοί του δικτύου πάνω στο οποίο κινούνται τα αντικείµενα (παράδειγµα: κίνηση αεροπλάνων σε αεροδιαδρόµους)

37 Κινούµενα Αντικείµενα 2.6 Ερωτήµατα σε κινούµενα αντικείµενα Τα συστήµατα διαχείρισης δεδοµένων που παράγονται από κινούµενα αντικείµενα οφείλουν να αποκρίνονται σε διάφορα ερωτήµατα. Τα ερωτήµατα θέσης (locatonbased) αφορούν την κύρια πληροφορία που καταγράφει το σύστηµα. ιακρίνονται στα: Ερωτήµατα χωροχρονικού παραθύρου: Εφαρµόζεται ένα χωρικό και ένα χρονικό παράθυρο συγκεκριµένου εύρους και επιλέγονται τµήµατα τροχιών που το τέµνουν. Ερωτήµατα εγγύτερου γείτονα: Εύρεση k-κοντινότερων αντικειµένων σε κάποιο αντικείµενο. Οι γείτονες είναι αυτοί που βρέθηκαν κοντά µε βάση κάποια µετρική της απόστασης (ευκλείδεια, manhattan κ.α.) σε αντίστοιχα χρονόσηµα. Ερωτήµατα κλιµακούµενης απόστασης: Όπως τα ερωτήµατα εγγύτερου γείτονα µε την εξής διαφοροποίηση. εν αναζητούνται k αντικείµενα αλλά ο κατάλογος των λοιπών αντικειµένων µε διάταξη βάσει της απόστασης. Ερωτήµατα χρονικού τεµαχίου: Αναζήτηση θέσεων αντικειµένου για συγκεκριµένο χρονικό παράθυρο. Παράδειγµα ερωτήµατος θέσης: Ένα ερώτηµα που µπορεί να υποβληθεί σε ένα σύστηµα διαχείρισης στόλου οχηµάτων οδικής βοήθειας: «Εντόπισε τα 2 κοντινότερα οχήµατα που είναι ελεύθερα στον κόµβο του Φάρου Ψυχικού.» Η ερώτηση µπορεί να είναι πιο πολύπλοκη: «Εντόπισε τα 2 κοντινότερα οχήµατα που είναι ελεύθερα στον κόµβο του Φάρου Ψυχικού ή που είναι φορτωµένα αλλά θα βρίσκονται σε απόσταση 3 χλµ. από τον κόµβο στα επόµενα 2 λεπτά για να ξεφορτώσουν.» Τα ερωτήµατα τροχιάς διακρίνονται σε τοπολογικά ερωτήµατα (topologcal) και ερωτήµατα πλοήγησης (navgatonal). Τα τοπολογικά ερωτήµατα είναι ερωτήµατα που αφορούν τη συµπεριφορά της τροχιάς στο χρόνο σε σχέση µε κάποια χωρική έκταση. Ένα αντικείµενο µπορεί να εισέρχεται σε ένα χωρικό παράθυρο ή να εξέρχεται από αυτό. Μπορεί επίσης να το διασχίζει ή να το παρακάµπτει. Παράδειγµα τοπολογικού ερωτήµατος τροχιάς: «Εντόπισε όλα τα οχήµατα που εισήλθαν στον µικρό δακτύλιο της Αθήνας µεταξύ και και εξήλθαν από το µικρό δακτύλιο µεταξύ και » Τα ερωτήµατα πλοήγησης αφορούν διάφορες παραµέτρους της τροχιάς, όπως η ταχύτητα και η διανυθείσα απόσταση. Παράδειγµα ερωτήµατος πλοήγησης: «Εντόπισε τα οχήµατα που κινούνται στην Αττική οδό µε ταχύτητα µικρότερη των 80 χλµ/ώρα.»

38 Κινούµενα Αντικείµενα Σχήµα 2.2: Κατηγορίες ερωτηµάτων σε κινούµενα αντικείµενα (Πηγή: [PJT00]) Οι παραπάνω τύποι ερωτηµάτων µπορούν να συνδυαστούν και να παράγουν σύνθετα ερωτήµατα. Παράδειγµα σύνθετου ερωτήµατος: «Εντόπισε όλα τα οχήµατα που εισήλθαν στην Αττική Οδό από τον κόµβο του ΟΑΚΑ µεταξύ 8.00 και 8.30, κατευθύνθηκαν προς Μαρκόπουλο και ταξίδεψαν εντός της, για 20 λεπτά» 2.7 εικτοδότηση κινούµενων αντικειµένων Η συγχρονισµένη εποπτεία (onlne) µεγάλου αριθµού κινούµενων αντικειµένων θέτει δύσκολα προβλήµατα σχετικά µε την αποτελεσµατική προσπέλαση της πληροφορίας. Λόγω του µεγάλου όγκου της πληροφορίας, η χρήση δίσκου κρίνεται αναπόφευκτη. Συνεπώς η επινόηση κατάλληλων δοµών δεδοµένων δεικτών ή ευρετηρίων (ndexes) είναι αναγκαία. Οι τεχνικές που έχουν προταθεί ακολουθούν κυρίως δύο τάσεις. Η πρώτη είναι αυτή που συµπεριφέρεται στην χρονική

39 Κινούµενα Αντικείµενα διάσταση ως µία ακόµα διάσταση (tme-oblvous). Η δεύτερη αναφέρεται ως κινητικές δοµές δεδοµένων (knetc data structures) και επιχειρεί την κατασκευή ενός δυναµικού δείκτη στην κύρια µνήµη για την παρακολούθηση της κίνησης σηµειακών αντικειµένων. Η δεικτοδότηση κινούµενων αντικειµένων βασίζεται κυρίως σε υπάρχουσες τεχνικές για χωρικά αντικείµενα, µε κυρίαρχο το R-tree. Παραλλαγές, όπως το STR-tree (Spato-temporal R-tree), το TB-tree (Trajectory-Bundle Tree), το TPR-tree (Tme-Parameterzed R-tree), το R EXP -tree και το STAR-tree προσπαθούν να καλύψουν την ανεπάρκεια του R-tree στη δεικτοδότηση κινούµενων αντικειµένων

40 Κινούµενα Αντικείµενα

41 Συµπίεση Τροχιάς Κεφάλαιο 3 Συµπίεση Τροχιάς Εισαγωγή Η συµπίεση είναι στενά συνυφασµένη µε την επιστήµη των υπολογιστών. Η δηµιουργία αρχείων (archve) για τη µόνιµη αποθήκευση δεδοµένων κρίθηκε απαραίτητη από τα πρώτα χρόνια λειτουργίας των υπολογιστών κυρίως για λόγους οικονοµίας χώρου. Η συµπίεση των δεδοµένων που αποσκοπεί στην εξοικονόµηση χώρου µειώνει τον όγκο των δεδοµένων δραστικά αλλά, συνήθως, τα µετατρέπει σε µορφή που δεν είναι άµεσα χρησιµοποιήσιµη. Αν κάποια εφαρµογή χρειαστεί τα δεδοµένα, θα πρέπει να εφαρµόσει στο συµπιεσµένο αρχείο την αντίστροφη διαδικασία της αποσυµπίεσης (decompresson) για να τα επαναφέρει στην αρχική τους µορφή. Η συµπίεση, όµως, µπορεί να αποσκοπεί και σε βελτίωση των υπολογιστικών χρόνων. Στην παρούσα εργασία, το ενδιαφέρον επικεντρώνεται σε τεχνικές συµπίεσης ή δηµιουργίας συνόψεων που έχουν ως στόχο, αφενός τη µείωση του όγκου των δεδοµένων για την επιτυχή διαχείριση τους εντός κύριας µνήµης, και αφετέρου τη βελτίωση των υπολογιστικών χρόνων επεξεργασίας διαφόρων τελεστών. Τα παραπάνω ισοσταθµίζονται µε τη µείωση της ακρίβειας. Επιπλέον, στην παρούσα εργασία θα µελετηθούν τεχνικές που είναι συµβατές µε το αλγοριθµικό πλαίσιο που επιβάλλει το µοντέλο ρευµάτων δεδοµένων. Οι συνόψεις, δηλαδή, πρέπει να παράγονται απευθείας (on-the-fly) µε επεξεργασία ανά πλειάδα

42 Συµπίεση Τροχιάς 3.1 Απωλεστική και µη απωλεστική συµπίεση Η συµπίεση µπορεί να είναι απωλεστική ή µη απωλεστική. Η µη απωλεστική συµπίεση προ ποθέτει ότι ολόκληρη η αρχική πληροφορία µπορεί να ανακτηθεί µε εφαρµογή αντίστροφης διαδικασίας. Στη γενική περίπτωση, οι αλγόριθµοι µη απωλεστικής συµπίεσης χρειάζονται όλη την πληροφορία διαθέσιµη από την έναρξη της λειτουργίας τους και δεν είναι sngle-pass. Επίσης, στη γενική περίπτωση επεµβαίνουν σε χαµηλό επίπεδο εσωτερικής αναπαράστασης της πληροφορίας από τον υπολογιστή. Ως αποτέλεσµα, φέρνουν την πληροφορία σε µορφή µη αναγνωρίσιµη, παρά µόνο αν εφαρµοστεί η επίσης ακριβή διαδικασία της αποσυµπίεσης. Η µη απωλεστική συµπίεση δεν ταιριάζει στο µοντέλο ρευµάτων δεδοµένων. Από την άλλη µεριά, η απωλεστική συµπίεση µειώνει τον όγκο της διαθέσιµης πληροφορίας. Η αρχική πληροφορία δεν µπορεί να ανακτηθεί πλήρως από το συµπιεσµένο αρχείο. Αυτό δεν είναι ανεπιθύµητο στα Σ Ρ. οµές απωλεστικής συµπίεσης πολλές φορές εξυπηρετούν τη γρήγορη επεξεργασία ερωτηµάτων. Επίσης, τα αρχικά πρωτογενή δεδοµένα (raw data) ήδη εµπεριέχουν σφάλµα. Άλλωστε, ανάλογα µε την εφαρµογή µπορεί να γίνει ανεκτό µεγαλύτερο σφάλµα, που εξαρτάται από τις παραµέτρους του αλγορίθµου που θα χρησιµοποιηθεί. Τέλος, αλγόριθµοι απωλεστικής συµπίεσης, όπως απλοί αλγόριθµοι δειγµατοληψίας, µπορούν να εφαρµοστούν µε ένα πέρασµα (snglepass). ηλαδή, είναι συµβατοί µε το µοντέλο ρευµάτων δεδοµένων. 3.2 Κίνητρα για συµπίεση Τα κίνητρα για τη µελέτη δοµών συµπίεσης ρευµάτων τροχιών δεδοµένων είναι πολλά. Η µείωση του όγκου της πληροφορίας για εξοικονόµηση χώρου κατά την τελική αποθήκευσή της είναι προφανές πλεονέκτηµα. Ο όγκος της πληροφορίας συνεχώς αυξάνεται. Ας φανταστούµε το σύστηµα παρακολούθησης του στόλου οχηµάτων της Αστυνοµίας. Έστω ότι πρόκειται για 5000 οχήµατα που αποστέλλουν το στίγµα τους κάθε 1 δευτερόλεπτο. Έστω ότι η πλειάδα της µορφής <d, ts, x, y> έχει µέγεθος 20 bytes. Κάθε όχηµα είναι ενεργό για 20 ώρες τη µέρα. Οπότε, προκύπτει ότι τα οχήµατα παράγουν 7 GB νέα δεδοµένα την ηµέρα. Σε ένα χρόνο λειτουργίας, το σύστηµα θα έχει παράγει 2.5 ΤΒ. Ακόµα και αν θεωρήσουµε ότι το πρόβληµα της µόνιµης αποθήκευσης αντιµετωπίζεται µε συνεχή αγορά µονάδων µόνιµης αποθήκευσης, δεν µπορούµε να αµελήσουµε τη δυσκολία που εισάγει η συνεχής αύξηση του όγκου των δεδοµένων στην επεξεργασία ερωτηµάτων που αναφέρονται σε ιστορικά δεδοµένα. Η φύση των συστηµάτων παρακολούθησης κινούµενων αντικειµένων «ανέχεται» τη βαθµιαία απώλεια πληροφορίας. Η βαθµιαία απώλεια λεπτοµέρειας της πληροφορίας είναι επιθυµητή. Γενικά στα Σ Ρ και τις συναφείς εφαρµογές ισχύει ότι όσο πιο πρόσφατη είναι η πληροφορία τόσο πιο χρήσιµη. Αξίζει να αναφερθεί ότι οι τροχιές κινούµενων αντικειµένων, εξ ορισµού αποτελούν προσεγγίσεις των πραγµατικών τροχιών. Οι χωροχρονικές τροχιές είναι συνεχή σήµατα. Όπως αναπτύχθηκε στο κεφάλαιο 2 η διαθέσιµη

43 Συµπίεση Τροχιάς πληροφορία που περιγράφει µία τροχιά είναι µία τµηµατικά γραµµική προσέγγιση της τροχιάς, που σχηµατίζεται από δείγµα αποτελούµενο από διαδοχικά στίγµατα της πραγµατικής τροχιάς. Εξαρχής, συνεπώς, στα συστήµατα διαχείρισης κινούµενων αντικειµένων παρέχεται µία σύνοψη της πραγµατικής τροχιάς. Όσο πιο λίγα είναι τα δεδοµένα, τόσο πιο εύκολα δεικτοδοτούνται και γενικότερα χρησιµοποιούνται σε λογικά κατηγορήµατα. Γενικότερα η συµπίεση απωλεστικού χαρακτήρα επιταχύνει την εκτέλεση των ερωτηµάτων. Σε κάποιες περιπτώσεις, δοµές δηµιουργίας συνόψεων µειώνουν την πολυπλοκότητα της απάντησης σε ερωτήµατα. Για παράδειγµα µε χρήση σκίτσων, µπορούµε να 2 εκτελέσουµε ερώτηµα που κοστίζει πολυωνυµικό χρόνο ( n ) O σε σταθερό χρόνο O ( c) λαµβάνοντας βέβαια προσεγγιστική απάντηση. Η συµπίεση, νοούµενη ως αποβολή φόρτου, είναι επίσης απαραίτητη για την «ανακούφιση» φορτωµένων κόµβων σε πλάνα εκτέλεσης ερωτηµάτων και την διατήρηση του συγχρονισµού του Σ Ρ. Η συµπίεση µε χρήση χωροχρονικών δοµών βασιζόµενων σε R-δέντρα αποτελεί έναν τρόπο αρχικού φιλτραρίσµατος για ερωτήµατα και συνεπώς µείωσης του όγκου πληροφορίας που πρέπει να επεξεργαστούν. 3.3 Αλγόριθµοι χωρικής συµπίεσης Κατηγορίες αλγορίθµων Η κίνηση αντικειµένου στο επίπεδο είναι συνεχής συνάρτηση στο σύστηµα συντεταγµένων <x,y,t>. Θεωρούµε την τροχιά ως τµηµατικά γραµµική συνάρτηση που σχηµατίζεται µε την ένωση διαδοχικών χρονοσηµασµένων θέσεων στις οποίες βρέθηκε το αντικείµενο. Στόχος κάθε διαδικασίας συµπίεσης ρευµάτων δεδοµένων που παράγονται από κινούµενα αντικείµενα είναι: Η µείωση του όγκου των δεδοµένων Η διατήρηση των δεδοµένων σε µορφή που επιτρέπει διάφορους υπολογισµούς µε πολυπλοκότητα ίδια ή και µικρότερη από την αρχική. Η διατήρηση των δεδοµένων µε µικρά και γνωστά περιθώρια σφάλµατος. Οι αλγόριθµοι µπορούν να διακριθούν ανάλογα µε το αν χρειάζονται διαθέσιµο το πλήρες σύνολο δεδοµένων εξαρχής σε αυτούς που λειτουργούν σε πραγµατικό χρόνο (onlne), ή µε µαζική επεξεργασία (batch). Έτσι, οι αλγόριθµοι συµπίεσης διακρίνονται στις εξής κατηγορίες: Top-down (TD): Η ακολουθία δεδοµένων διαµερίζεται αναδροµικά µέχρι να ικανοποιηθεί η συνθήκη τερµατισµού Bottom-up (BU): Ξεκινώντας από τη λεπτοµερέστερη απεικόνιση, τα σηµεία συγχωνεύονται µέχρις ότου ικανοποιηθεί κάποια συνθήκη τερµατισµού

44 Συµπίεση Τροχιάς Sldng Wndow (SW): Ξεκινώντας από κάποιο από τα δύο άκρα της ακολουθίας, εφαρµόζεται ένα ολισθαίνον παράθυρο στα δεδοµένα και η συµπίεση συνυπολογίζει µόνο τα στοιχεία εντός του παραθύρου. Openng Wndow (OW): Ξεκινώντας από ένα από τα δύο άκρα της ακολουθίας, µία υποακολουθία δεδοµένων αυξάνεται µέχρι να ικανοποιηθεί µία συνθήκη τερµατισµού. Η συµπίεση λαµβάνει χώρα πάντα µέσα στο παράθυρο. Οι συνθήκες τερµατισµού που µπορούν να εφαρµοστούν είναι διάφορες: Το πλήθος των στιγµάτων υπερβαίνει κάποιο κατώφλι. Το µέγιστο σφάλµα που εισάγει κάποια γραµµή (της τµηµατικά γραµµικής τροχιάς) υπερβαίνει κάποιο κατώφλι. Το άθροισµα των σφαλµάτων όλων των τµηµάτων υπερβαίνει κάποιο κατώφλι. Οι αλγόριθµοι γενίκευσης γραµµών (lne generalzaton algorthms) είναι µία προφανής κλάση αλγορίθµων για τη συµπίεση χωροχρονικών δεδοµένων Αλγόριθµοι Top-Down Ο αλγόριθµος Douglas-Peucker θεωρείται από τους καλύτερους αλγόριθµους επιλογής σηµείων από µία ακολουθία. Το πρώτο σηµείο της ακολουθίας επιλέγεται ως σηµείο αγκίστρωσης (anchor pont) και το τελευταίο ως κινούµενο σηµείο (float pont). Για κάθε ενδιάµεσο σηµείο υπολογίζεται η (κάθετη) απόσταση από την ευθεία που συνδέει το αρχικό και το κινούµενο σηµείο. Αν η µεγαλύτερη από αυτές τις αποστάσεις υπερβαίνει κάποιο κατώφλι-παράµετρο του αλγορίθµου, η γραµµή κόβεται σε εκείνο το σηµείο. Το σηµείο αυτό αποτελεί το νέο κινούµενο σηµείο για το πρώτο τµήµα και το νέο αρχικό σηµείο για το δεύτερο τµήµα. Η διαδικασία επαναλαµβάνεται αναδροµικά για τα δύο νέα τµήµατα. Ο αλγόριθµος DP απαιτεί να είναι γνωστά όλα τα σηµεία από την αρχή 2 (batch). Η πολυπλοκότητα του παραπάνω αλγορίθµου είναι O ( n ). Η πολυπλοκότητά του για λειτουργία σε ρεύµα δεδοµένων, δηλαδή, τον 3 επανυπολογισµό του για κάθε νέα άφιξη στοιχείου είναι O ( n ), όπου n το σύνολο των στιγµάτων που έχουν ληφθεί. Η πολυπλοκότητα αυτή είναι απαγορευτική σε εφαρµογές ρευµάτων δεδοµένων. Σχήµα 3.1: Αλγόριθµος Douglas-Peucker

45 Συµπίεση Τροχιάς Αλγόριθµοι Openng Wndow Οι αλγόριθµοι αυτοί ορίζουν το πρώτο σηµείο ως σηµείο αγκίστρωσης και έπειτα αποπειρώνται να προσεγγίσουν την τροχιά µε ολοένα και µακρύτερα τµήµατα. Αρχικά, ορίζουν ένα τµήµα µεταξύ του πρώτου (σηµείο αγκίστρωσης) και του τρίτου σηµείου (κινούµενο σηµείο). Όσο η απόσταση καθενός εκ των ενδιάµεσων σηµείων από την ευθεία που ενώνει αρχικό και κινούµενο σηµείο είναι µικρότερη από κάποιο κατώφλι επιχειρείται µετακίνηση του κινούµενου σηµείου στο επόµενο. Όταν γίνεται υπέρβαση του κατωφλίου δύο είναι οι πιθανές στρατηγικές. Τελικό σηµείο του παρόντος τµήµατος και σηµείο αγκίστρωσης του επόµενου γίνεται είτε τo σηµείο που ευθύνεται για την υπέρβαση του κατωφλίου (Normal Openng Wndow - NOPW) είτε τo προηγούµενο σηµείο από αυτό που ευθύνεται για την υπέρβαση του κατωφλίου (Before Openng Wndow - BOPW) Ο NOPW παράγει αδρή αναπαράσταση της τροχιάς σε αντίθεση µε τον BOPW που την εξοµαλύνει. Αν δεν γίνει υπέρβαση του κατωφλίου το κινούµενο σηµείο µετακινείται µία θέση - το παράθυρο µεγαλώνει - και η διαδικασία συνεχίζεται για ολόκληρη την ακολουθία. Ο αλγόριθµος λειτουργεί σε πραγµατικό χρόνο (onlne). Η 2 O n. πολυπλοκότητα του αλγορίθµου είναι ( ) Σχήµα 3.2: Αλγόριθµοι NOPW και BOPW

46 Συµπίεση Τροχιάς 3.4 Τεχνικές χωροχρονικής συµπίεσης Χρονική διάσταση Οι παραπάνω αλγόριθµοι χρησιµοποιούν ως κριτήριο την κάθετη απόσταση. Συνεπώς, οι αλγόριθµοι αυτοί, ουσιαστικά, δρουν πάνω στην προβολή της χωροχρονικής τροχιάς στο χωρικό επίπεδο. Είναι δηλαδή «αναίσθητες» χρονικά. Όµως, οι τροχιές έχουν την πολύ σηµαντική διάσταση του χρόνου. Η κάθετη απόσταση δεν ταιριάζει συνεπώς ως κριτήριο. Η τροχιά αναπαρίσταται ως µία χρονική ακολουθία θέσεων. Γενίκευση µίας τροχιάς σηµαίνει την αντικατάσταση µίας χρονικής ακολουθίας θέσεων από µία άλλη. Η επίδοση της µεθόδου µπορεί να υπολογιστεί µε βάση: το βαθµό συµπίεσης (compresson rate) το σφάλµα Στην προηγούµενη παράγραφο υπολογίστηκε χωρικό σφάλµα µε χρήση της κάθετης απόστασης. Για να ενταχθεί η χρονική διάσταση στους υπολογισµούς, η κάθετη ευκλείδεια απόσταση θα αντικατασταθεί από τη συγχρονισµένη ευκλείδεια απόσταση. Η συγχρονισµένη ευκλείδεια απόσταση υπολογίζεται µεταξύ δύο θέσεων, της πραγµατικής και αυτής που προκύπτει για την ίδια χρονική στιγµή βάσει της προσέγγισης µε το σηµείο αγκίστρωσης και το κινούµενο σηµείο. Όπως φαίνεται στο Σχήµα 3.3 για τη θέση P προκύπτει η συγχρονισµένη εκτίµηση θέσης ' P προκύπτουν ως εξής: e= t e t s = t t s x ' = xs + ( xe xs) e y ' = ys + ( ye ys). e P ' µε βάση τις θέσεις P s και P e. Οι συντεταγµένες της Σχήµα 3.3: Συγχρονισµένη ευκλείδεια απόσταση

47 Συµπίεση Τροχιάς Η ευκλείδεια απόσταση των συγχρονισµένων σηµειακών θέσεων προκύπτει από το γνωστό τύπο: r = ( x ' x ) 2 + ( y ' y ) 2 Θεωρώντας το παραπάνω σφάλµα της συγχρονισµένης απόστασης (tmerato dstance, TR) ως κριτήριο, µπορούµε να εφαρµόσουµε τους αλγόριθµους topdown και openng-wndow. Με κατάλληλη τροποποίηση, οι αλγόριθµοι αυτοί µπορούν να χρησιµοποιούν το νέο χωροχρονικό κριτήριο για τη λειτουργία τους. Το κατώφλι τίθεται για τη συγχρονισµένη απόσταση και όχι για την κάθετη. Προκύπτουν έτσι οι αλγόριθµοι TD-TR, και ΟPW-TR Βελτιωµένη χωροχρονική προσέγγιση Στους βασικούς αλγορίθµους TD-TR και OPW-TR µπορούν να προστεθούν και άλλα χωροχρονικά κριτήρια. Για παράδειγµα, εξάγοντας το µέτρο της ταχύτητας από τις χρονοσηµασµένες θέσεις, µπορούµε να θέσουµε κατώφλι και για τις ανεκτές µεταβολές ταχύτητας (κατώφλι διαφοράς µέτρου ταχύτητας). Η ταχύτητα δεν είναι ταχύτητα που µετράται αλλά που υπολογίζεται µεταξύ διαδοχικών θέσεων βάσει χρονοσήµων. Εφαρµόζοντας τα δύο αυτά κατώφλια στον openng wndow αλγόριθµο προκύπτει ο αλγόριθµος OPW-SPT. Αντίστοιχα, µπορεί να προκύψει και ο TD-SPT Αλγόριθµοι και ρεύµατα δεδοµένων Οι παραπάνω χωροχρονικοί αλγόριθµοι παράγουν αποτελέσµατα εξαιρετικής ποιότητας. υστυχώς, κανένας από αυτούς τους αλγορίθµους δεν είναι εφαρµόσιµος σε ρεύµατα δεδοµένων. Ο εξαντλητικός TD-SPT είναι καλύτερος από τον OPW-SPT αλλά είναι offlne αλγόριθµος. Χρειάζεται διαθέσιµη όλη την πληροφορία πριν ξεκινήσει τη λειτουργία του. Συνεπώς δεν ταιριάζει στο µοντέλο ρευµάτων δεδοµένων. Ο αλγόριθµος OPW-SPT είναι οικονοµικότερος σε χρόνο και λειτουργει onlne. Το κυριότερο πρόβληµα είναι η αύξηση των αναγκών του σε πόρους κατά τη λειτουργία του. Όπως έχει αναλυθεί, αλγόριθµοι που επιβαρύνουν το σύστηµα όλο και περισσότερο δεν µπορούν να εφαρµοστούν σε ρεύµατα δεδοµένων γιατί το µέγεθός τους δεν είναι εκ των προτέρων γνωστό, ούτε φραγµένο (potentally nfnte). Η προσοχή στην παρούσα εργασία στρέφεται στην εξαγωγή χωροχρονικών τεχνικών από αλγορίθµους, όπως οι παραπάνω, και η προσαρµογή τους στο µοντέλο ρευµάτων δεδοµένων, το οποίο επιβάλλει ένα πέρασµα (sngle-pass) στα δεδοµένα

48 Συµπίεση Τροχιάς 3.5 Σφάλµατα Το σφάλµα που θα µετρηθεί για τη σύγκριση της επίδοσης αλγορίθµων µπορεί να είναι χωρικό ή χωροχρονικό Σφάλµα στις χωρικές διαστάσεις Βασιζόµενοι στις κάθετες αποστάσεις κάθε στίγµατος του αρχικού δείγµατος από την προσέγγιση που προκύπτει µετά τη συµπίεση υπολογίζουµε: τη µέση κάθετη απόσταση (Average Perpendcular Dstance - APD) το µέσο τετραγωνικό σφάλµα των κάθετων αποστάσεων (Mean Square Error - MSE) το µέγιστο απόλυτο σφάλµα ως τη µέγιστη κάθετη απόσταση (Maxmum Absolute Error - MAE). Η µέση κάθετη απόσταση µπορεί να υπολογιστεί µε δύο τρόπους. Ο πρώτος τρόπος είναι να «παραγεµιστούν» τα τµήµατα της τροχιάς έτσι, ώστε οι θέσεις, για τις οποίες θα υπολογιστεί το σφάλµα, να ισαπέχουν χρονικά. Η διαδικασία αυτή µπορεί να γίνει µε απλή παρεµβολή. Αθροίζοντας όλες τις αποστάσεις και εξάγοντας το µέσο όρο προκύπτει το σφάλµα APD. Αντίστοιχα υπολογίζονται τα MSE και MAE. (Σχήµα 3.4a) Ο δεύτερος τρόπος είναι να υπολογιστεί η απόσταση για κάθε θέση του αρχικού δείγµατος. Αθροίζοντας όλες τις αποστάσεις και εξάγοντας το µέσο όρο προκύπτει το APD. Αντίστοιχα υπολογίζονται τα MSE και MAE. Σχήµα 3.4: Σφάλµατα αποπολωµένα ως προς τη χρονική διάσταση. Χωρικό σφάλµα (a), χωροχρονικό σφάλµα (b)

49 Συµπίεση Τροχιάς Χωροχρονικό Σφάλµα Εντάσσοντας τη χρονική διάσταση στην εξαγωγή του σφάλµατος, υπολογίζουµε συγχρονισµένες ευκλείδειες αποστάσεις. Τις αποστάσεις αυτές τις ονοµάζουµε χωροχρονικές αποστάσεις (spatotemporal dstance). Με βάση αυτές, προκύπτουν, όπως και στην προηγούµενη παράγραφο: η µέση συγχρονισµένη απόσταση (Average Spatotemporal Dstance - ASD) το µέσο τετραγωνικό σφάλµα συγχρονισµένων αποστάσεων (Mean Square Error - MSE) το µέγιστο απόλυτο σφάλµα ως η µέγιστη συγχρονισµένη απόσταση (Maxmum Absolute Error - MAE). Όπως και στην προηγούµενη παράγραφο διακρίνουµε δύο τρόπους για την εξαγωγή των σφαλµάτων αυτών. Ο πρώτος αποπολώνει τα σφάλµατα ως προς τη χρονική διάσταση, ενώ ο δεύτερος υπολογίζει το σφάλµα µε βάση µόνο το αρχικό δείγµα. (Σχήµα 3.4b) Τροχιές και χωροχρονικό σφάλµα Είναι προφανές, ότι το χωροχρονικό σφάλµα είναι πιο αξιόπιστο κριτήριο για τη µέτρηση της επίδοσης αλγορίθµων συµπίεσης τροχιών δεδοµένων. Άλλωστε, όπως αναφέρθηκε και παραπάνω, το χωρικό σφάλµα µπορεί να υπολογιστεί στην προβολή της τροχιάς στο χωρικό επίπεδο, είναι δηλαδή αναίσθητο χρονικά (tmensenstve). Συνεπώς, στην παρούσα εργασία, για τα σφάλµατα, υιοθετείται η χωροχρονική µέθοδος, η οποία συνυπολογίζει τη χρονική διάσταση της ακολουθίας. Τα πειράµατα γίνονται σε δείγµατα για τα οποία ο αρχικός ρυθµός δειγµατοληψίας είναι σταθερός και συνεπώς το σφάλµα είναι µη πολωµένο ως προς το χρόνο. Όσον αφορά τη χρονική πόλωση, ο 1 ος τρόπος αποπολώνει µεν χρονικά το σφάλµα αλλά «υποθέτει» τµηµατικά γραµµική προσέγγιση της τροχιάς. Ο 2 ος τρόπος είναι πιο γενικός και είναι ανεξάρτητος του τρόπου µε τον οποίο θα χρησιµοποιηθούν τα στίγµατα για την προσέγγιση της τροχιάς

50 Συµπίεση Τροχιάς 3.6 Μέθοδοι συµπίεσης και χωροχρονικά δεδοµένα Ιστογράµµατα Τα ιστογράµµατα (hstograms) είναι διαδεδοµένα σε όλα τα εµπορικά συστήµατα διαχείρισης βάσεων δεδοµένων, ως µέρος του βελτιστοποιητή ερωτηµάτων (query optmzer). Προέρχονται από τη στατιστική, αλλά έχουν προσαρµοστεί στις ανάγκες των βάσεων δεδοµένων. Τα µονοδιάστατα ιστογράµµατα πραγµατοποιούν απεικόνιση της κατανοµής των τιµών ενός πεδίου. Τα πολυδιάστατα ιστογράµµατα βασίζονται στην από κοινού συνάρτηση πυκνότητας πιθανότητας και έχουν το µειονέκτηµα της αυξηµένης πολυπλοκότητας και του µεγάλου σφάλµατος. Έστω ένα σύνολο τιµών. Πραγµατοποιούµε διαµέριση του πεδίου τιµών του συνόλου σε µία οµάδα από ξένα µεταξύ τους υποσύνολα, τέτοια ώστε η ένωσή τους να καλύπτει όλο το αρχικό εύρος τιµών. Κάθε υποσύνολο καλείται κλάση (bucket). Για κάθε κλάση γνωρίζουµε τον πληθάριθµο στοιχείων του αρχικού συνόλου που περιλαµβάνει. Ο ορισµός αυτός προέρχεται από τη στατιστική και χρησιµοποιείται για την περιληπτική περιγραφή ενός πληθυσµού. Ως µέρος του βελτιστοποιητή ερωτηµάτων, τα ιστογράµµατα χρησιµεύουν στην εκτίµηση της επιλεκτικότητας ερωτηµάτων και συνεπώς στην επιλογή πλάνου εκτέλεσης. Με βάση τη σύνοψη των ιστογραµµάτων, είναι δυνατόν να δοθεί προσεγγιστική απάντηση σε συναθροιστικά ερωτήµατα (SUM, MAX, MIN, COUNT, AVERAGE). Η χρήση ιστογραµµάτων, των οποίων οι κλάσεις έχουν το ίδιο εύρος (equwdth) ή το ίδιο πλήθος τιµών (equdepth), είναι συνηθισµένη στις βάσεις δεδοµένων. Βασικά προβλήµατα που συνδέονται µε τα ιστογράµµατα σε εφαρµογές ρευµάτων δεδοµένων είναι οι υψηλές απαιτήσεις σε µνήµη οι αργοί χρόνοι υπολογισµών και απόκρισης η πτώση της επίδοσης µε την πάροδο του χρόνου το µεγάλο κόστος ενηµέρωσης η δυσκολία δυναµικής αναπροσαρµογή των ορίων των κλάσεων η δυσκολία τήρησης ιστογραµµάτων onlne για πολυδιάστατα δεδοµένα. Τα προβλήµατα αυτά [TPZL05] έχουν αµβλύνει το ερευνητικό τους ενδιαφέρον για τα ρεύµατα δεδοµένων, παρά την αρχική υπόθεση ότι θα µπορούσαν να είναι η βάση για την τήρηση δοµών προσεγγιστικών απαντήσεων

51 Συµπίεση Τροχιάς Σκίτσα Τα σκίτσα (sketches) και οι τεχνικές τήρησής τους (sketchng technques) αποτελούν χρήσιµα εργαλεία για την εκτίµηση συναθροιστικών ερωτηµάτων σε ρεύµατα δεδοµένων. Πρόκειται για τυχαιοποιηµένες προβολές των στοιχείωνεγγραφών σε κατάλληλα διανύσµατα µικρού µεγέθους και χρησιµεύουν για την εκτίµηση των νορµών (norms). Η ενηµέρωσή τους έχει σταθερό κόστος και η ακρίβεια της απάντησης που παρέχουν είναι εφικτό να ισοσταθµιστεί µε τη µνήµη την οποία χρησιµοποιούν. Η ταχύτητα της απάντησης σε ερωτήµατα είναι πολύ ικανοποιητική. Στην παρούσα διπλωµατική εργασία δίνεται ιδιαίτερη βαρύτητα στο θεωρητικό τους υπόβαθρο αλλά και στην εφαρµογή τους στην πράξη. Στο κεφάλαιο 6 γίνεται αρχικά επισκόπηση των δηµοφιλέστερων δοµών, ενώ έπειτα χρησιµοποιούνται σε δοµές για την προσεγγιστική απάντηση συναθροιστικών ερωτηµάτων Κυµατίδια Τα κυµατίδια (wavelets) και ο αντίστοιχος µετασχηµατισµός (wavelet transformaton) είναι µία δηµοφιλής µέθοδος συµπίεσης για συνεχή και διακριτά σήµατα. Στη µη απωλεστική του µορφή πρόκειται για ένα µετασχηµατισµό του αρχικού σήµατος σε διαδοχικά επίπεδα λεπτοµέρειας. Στην απωλεστική του µορφή έχει το χαρακτηριστικό ότι καθιστά εφικτή την ελαχιστοποίηση του µέσου τετραγωνικού σφάλµατος, µε κατάλληλη επιλογή των πλέον σηµαντικών συνιστωσών για κάθε βαθµό συµπίεσης. Ο µετασχηµατισµός εφαρµόζεται και σε πολυδιάστατα δεδοµένα. Βασικό πρόβληµα, που συνδέεται µε τα κυµατίδια, είναι η αδυναµία υπολογισµού του µετασχηµατισµού onlne. Εντούτοις, έχουν προταθεί τεχνικές που το επιτυγχάνουν προσεγγιστικά. Εισαγωγή στον διακριτό µετασχηµατισµό κυµατιδίων και περιγραφή των βασικών του ιδιοτήτων πραγµατοποιείται στο κεφάλαιο 5. Στο ίδιο κεφάλαιο παρουσιάζεται µία ιεραρχική δοµή για την τήρηση συνιστωσών wavelet (SWAT). Αν και δεν χρησιµοποιείται στην πράξη, ο µετασχηµατισµός αποτέλεσε βασικό πεδίο έρευνας στην παρούσα εργασία και από αυτόν προέκυψε και η δοµή AmTree, η οποία περιγράφεται στα κεφάλαια 5 και 6 για την αµνησιακή συµπίεση τροχιών δεδοµένων και για την αµνησιακή τήρηση σκίτσων, αντίστοιχα ειγµατοληψία Η δειγµατοληψία αποτελεί κοµβική έννοια σε ένα πλήθος επιστηµονικών και τεχνολογικών πεδίων. Στην παρούσα εργασία µελετήθηκαν πολλές παραλλαγές για τη δειγµατοληψία σε ρεύµατα τροχιάς κινούµενων αντικειµένων. Στο κεφάλαιο 4, που ακολουθεί, περιγράφονται τα πλέον ενδιαφέροντα αποτελέσµατα αυτής της µελέτης. Η δειγµατοληψία συνδυάζεται επιτυχώς µε τις τεχνικές συµπίεσης τροχιάς κινούµενων αντικειµένων του παρόντος κεφαλαίου για την ανάπτυξη onlne αλγορίθµων

52 Συµπίεση Τροχιάς

53 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Κεφάλαιο 4 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Εισαγωγή Η δειγµατοληψία είναι µία µέθοδος που χρησιµοποιείται ευρέως σε εφαρµογές διαφόρων επιστηµονικών πεδίων. Είναι γεγονός ότι τα περισσότερα φυσικά φαινόµενα περιγράφονται µε συνεχείς συναρτήσεις του χρόνου. Πρόκειται, δηλαδή, για αναλογικά σήµατα, γεγονός το οποίο επέβαλε, στα πρώτα χρόνια ανάπτυξης της τεχνολογίας επικοινωνιών και της επεξεργασίας σηµάτων, τεχνικές αναλογικής επεξεργασίας. Με το πέρασµα των χρόνων και την καθιέρωση των υπολογιστών, πραγµατοποιήθηκε στροφή προς την ψηφιακή επεξεργασία. Η ανοχή σε σφάλµατα, η ελεγχόµενη ποιότητα και οι δυνατότητες ασφαλείας είναι κάποια από τα πλεονεκτήµατα των ψηφιακών σηµάτων που τα έχουν καθιερώσει σε σειρά εφαρµογών. Το θεώρηµα δειγµατοληψίας λειτουργεί ως βάση για τη δυνατότητα εναλλαγής αναλογικών σηµάτων και ψηφιακών ακολουθιών, που είναι πολύτιµη στα ψηφιακά συστήµατα επικοινωνίας. Θεώρηµα ειγµατοληψίας: Ένα ζωνοπερατό σήµα πεπερασµένης ενέργειας, που δεν έχει συνιστώσες συχνότητας µεγαλύτερες από W hertz, µπορεί να ανακτηθεί πλήρως από τη γνώση των δειγµάτων του που λαµβάνονται µε ρυθµό 2W ανά δευτερόλεπτο (Nyqust rate)

54 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Σχήµα 4.1: ειγµατοληψία σήµατος Η τροχιά κινούµενου αντικειµένου έχει περιγραφεί σε προηγούµενο κεφάλαιο ως ένα αναλογικό φυσικό φαινόµενο. Εκ των πραγµάτων, οι συσκευές εντοπισµού πραγµατοποιούν συστηµατική καταγραφή της θέσης του αντικειµένου. Στο κεφάλαιο της συµπίεσης περιγράφηκαν µέθοδοι βασισµένες στις χωρικές βάσεις δεδοµένων, προσαρµοσµένες για χωροχρονικά δεδοµένα. Στο ίδιο κεφάλαιο, τεκµηριώθηκε γιατί αυτές οι «µέθοδοι εξαντλητικής δειγµατοληψίας» δεν συνάδουν µε το µοντέλο ρευµάτων δεδοµένων. Στο κεφάλαιο αυτό θα µελετηθούν µέθοδοι που δρουν, κυρίως, µε τοπικά κριτήρια σε αυτοτελείς τροχιές για την επιλογή ή όχι κάποιου στοιχείου, για το υποψήφιο τελικό δείγµα. Η χρήση τοπικών κριτηρίων αποτελεί, ίσως, µονόδροµο για χωροχρονικά δεδοµένα που αντιµετωπίζονται από τη σκοπιά των ρευµάτων δεδοµένων. Αρχικά, θα επιχειρηθεί η περιγραφή των παραµέτρων που καθορίζουν την «πρώτη δειγµατοληψία» της τροχιάς από τον εξοπλισµό των ίδιων των κινούµενων αντικειµένων. Ακολούθως, θα προταθούν δύο ορθογώνιοι τρόποι διαχωρισµού δειγµατοληπτικών µεθόδων για τροχιές. Τέλος, θα περιγραφούν διάφορες εφαρµογές δειγµατοληψίας που υλοποιήθηκαν στα πλαίσια της παρούσας εργασίας. Έµφαση έχει δοθεί σε τεχνικές δειγµατοληψίας µε βάση χωροχρονικά κατώφλια, δειγµατοληψίας βάσει πλάγιου ίχνους και µη οµοιόµορφης δειγµατοληψίας

55 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων 4.1 ειγµατοληψία τροχιάς κινούµενων αντικειµένων Όταν καταγράφεται η θέση ενός κινούµενου αντικειµένου, εκ των πραγµάτων διενεργείται δειγµατοληψία. Το αντικείµενο στέλνει πληροφορία για τη θέση του µε κάποιο ρυθµό, ο οποίος, εν γένει, δεν θεωρείται σταθερός. Ο ρυθµός της δειγµατοληψίας ποικίλλει και έχει σχέση µε τη φύση της κίνησης που παρατηρείται. ιαισθητικά, η κίνηση µίας χελώνας δεν έχει νόηµα να δειγµατοληπτείται µε µέσο ρυθµό 1000 δείγµατα το δευτερόλεπτο, ενώ η κίνηση ενός µαχητικού αεροσκάφους δεν έχει νόηµα να δειγµατοληπτείται µε µέσο ρυθµό 1 δείγµα το λεπτό. Η επιλογή του αρχικού ρυθµού δειγµατοληψίας καθώς και της ακρίβειας της πληροφορίας καθορίζεται από διάφορες παραµέτρους. Ο βαθµός ενδιαφέροντος του αντικειµένου, της τροχιάς του και του χώρου στον οποίο βρίσκεται καθώς και κάποια αναµενόµενα χαρακτηριστικά της κίνησης (µεταβολές ταχύτητας, µεταβολές κατεύθυνσης) καθορίζουν σε µεγάλο βαθµό το ρυθµό δειγµατοληψίας που είναι επιθυµητό να επιτευχθεί. Σε στρατιωτικές εφαρµογές για παράδειγµα, ένα µαχητικό αεροσκάφος είναι αντικείµενο υψηλού ενδιαφέροντος. Όταν πραγµατοποιεί αναχαίτιση η τροχιά του είναι επίσης υψηλού ενδιαφέροντος. Όταν πραγµατοποιεί αναχαίτιση κοντά στα σύνορα µίας χώρας, ο χώρος στον οποίο κινείται είναι υψηλού ενδιαφέροντος. Επίσης, η ταχύτητα της κίνησης µπορεί να είναι της τάξης των 2000 km/h, µε συνεχείς µεταβολές στο µέτρο και στην κατεύθυνση. Όλα αυτά επιβάλλουν υψηλούς ρυθµούς δειγµατοληψίας και όργανα υψηλής ακρίβειας. Η δειγµατοληψία µπορεί να θεωρηθεί ως ένα φίλτρο στην είσοδο του ρεύµατος των χωροχρονικών δεδοµένων, σε ένα σύστηµα. Μπορεί να αποτελέσει, δηλαδή, ένα αρχικό στάδιο επεξεργασίας της πληροφορίας, σε µία πιθανή αλυσίδα ή γράφο επεξεργασίας της πληροφορίας. Η διαδικασία µπορεί να παραβληθεί µε την απόρριψη φόρτου (load sheddng) στα προσχέδια εκτέλεσης (query plans) στα γνωστά συστήµατα ρευµάτων δεδοµένων. 4.2 Κατηγορίες µεθόδων ιακρίνουµε τις εξής κατηγορίες µε βάση τη συµπεριφορά των µεθόδων στην πληροφορία του ρεύµατος: Οµοιόµορφη δειγµατοληψία Αµνησιακή δειγµατοληψία ειγµατοληψία µε χωροχρονικά κριτήρια Οµοιόµορφη δειγµατοληψία Η οµοιόµορφη δειγµατοληψία σε ρεύµατα δεδοµένων έχει ως στόχο να παρέχει οµοιόµορφο δείγµα των πλειάδων που έχουν παρατηρηθεί. Κατά την είσοδο του ρεύµατος, το υποψήφιο τελικό δείγµα πρέπει να είναι πάντα οµοιόµορφο ως προς

56 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων τη µέχρι τότε γνωστή πληροφορία. Η οµοιόµορφη δειγµατοληψία, µε µνήµη σταθερού µεγέθους και για σήµατα αγνώστου τελικού µεγέθους, µελετήθηκε από τον Vtter [Vtt85]. Μειονέκτηµα της οµοιόµορφης δειγµατοληψίας είναι η καθαρά χρονική συµπεριφορά της. Η λειτουργία δεν επηρεάζεται από το χωροχρονικό περιεχόµενο των πλειάδων, αλλά µόνο από τη σειρά άφιξής τους. ηλαδή, η δειγµατοληψία αυτή θα είναι ιδανική, αν κάθε πλειάδα που εισέρχεται στο σύστηµα έχει την ίδια αξία µε όλες τις προηγούµενες. Στα χωροχρονικά δεδοµένα κάτι τέτοιο γενικά δεν ισχύει. Παράδειγµα: Θεωρούµε τρεις περιπτώσεις κίνησης: 1. Επί 10 πλειάδες, οι οποίες αναφέρονται σε ίσα χρονικά διαστήµατα, ένα κινούµενο αντικείµενο κινείται πάνω σε ευθεία, µε σταθερή ταχύτητα. 2. Επί 10 πλειάδες, οι οποίες αναφέρονται σε ίσα χρονικά διαστήµατα, ένα κινούµενο αντικείµενο κινείται πάνω σε ευθεία. Στη µέση του χρονικού διαστήµατος που καλύπτουν οι πλειάδες, το κινητό διπλασιάζει ακαριαία την ταχύτητα του. 3. Επί 10 πλειάδες, οι οποίες αναφέρονται σε όχι κατ ανάγκη ίσα χρονικά διαστήµατα, το κινούµενο αντικείµενο αλλάζει συνεχώς το µέτρο και την κατεύθυνση της ταχύτητάς του. Σχήµα 4.2: Παράδειγµα δειγµατοληψιών τροχιάς µε τις αντίστοιχες τροχιές

57 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Στην πρώτη περίπτωση (Σχήµα 4.2α), η 0 η και η 9 η πλειάδα παρέχουν όλη την πληροφορία που είχαµε εξαρχής. Στη δεύτερη περίπτωση (σχήµα 4.2β), η 0 η, η 4 η και η 9 η πλειάδα, επίσης, παρέχουν την αρχική πληροφορία. Στην τρίτη περίπτωση (σχήµα 4.2γ), η απώλεια, έστω και µίας από τις 10 πλειάδες, οδηγεί σε απώλεια πληροφορίας και σε σφάλµα. Μία τροχιά περιέχει πλειάδες µε διαφορετική βαρύτητα χωροχρονικής πληροφορίας. Η οµοιόµορφη δειγµατοληψία δεν επηρεάζεται σε κανένα βαθµό από αυτή καθεαυτή την πληροφορία. Έχει σχέση µόνο µε το πλήθος των πλειάδων και τη διαθέσιµη µνήµη για το δείγµα Αµνησιακή δειγµατοληψία Η αµνησιακή δειγµατοληψία έχει ως αποτέλεσµα το δείγµα να δείχνει πάντα έµφαση στα πρόσφατα στοιχεία. ηλαδή, όσο πιο παλιά η πληροφορία τόσο πιο αραιό το δείγµα. Η αµνησία µπορεί να έχει τη µορφή οποιασδήποτε φθίνουσας συνάρτησης. Ενδιαφέρον παρουσιάζουν η γραµµική και η εκθετική αµνησία. Η δοµή που χρησιµοποιεί το AmTree, όπως θα αναλυθεί σε επόµενο κεφάλαιο, παρέχει ένα είδος αµνησιακής δειγµατοληψίας µε πλήρως ντετερµινιστική συµπεριφορά. Στο σχήµα 4.3α έχει σχεδιαστεί µία τροχιά 16 στιγµάτων, µε το χρονόσηµο 15 να είναι το πιο πρόσφατο. Εφαρµόζοντας σε αυτή εκθετική αµνησία (Σχήµα 4.3β), τα δείγµατα που προκύπτουν είναι: 15,14,12,8,0. ηλαδή, τα διάκενα µεταξύ των στιγµάτων του δείγµατος αυξάνονται από το παρών προς το παρελθόν µε εκθετική συµπεριφορά. Αντίστοιχα, στο σχήµα 4.3γ, σχεδιάζεται η τροχιά µετά την εφαρµογή γραµµικής αµνησίας. Τα δείγµατα είναι: 15,14,12,9,5,0. Τα διάκενα αυξάνονται γραµµικά. Σχήµα 4.3: (α) Τροχιά, (β) Εφαρµογή εκθετικής αµνησίας, (γ) Εφαρµογή γραµµικής αµνησίας

58 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων ειγµατοληψία µε χωροχρονικά κριτήρια Η δειγµατοληψία µε χωροχρονικά κριτήρια αναφέρεται σε δειγµατοληπτικά συστήµατα, τα οποία για τη σύνθεση του δείγµατος, λαµβάνουν υπόψη τη χωροχρονική πληροφορία που αντιπροσωπεύουν οι πλειάδες. Στόχος τους είναι να κρατήσουν αντιπροσωπευτικά δείγµατα της τροχιάς. ηλαδή, να κρατήσουν αυτά τα δείγµατα στα οποία η τροχιά πραγµατοποιεί αλλαγή κατεύθυνσης ή µέτρου ταχύτητας. Ι. Χωρικοί αλγόριθµοι Για αµιγώς χωρική πληροφορία, ο αλγόριθµος Douglas-Peucker δίνει ικανοποιητικά αποτελέσµατα. Όµως, ο αλγόριθµος αυτός, αφενός δεν λαµβάνει υπόψιν την χρονική διάσταση της πληροφορίας, και αφετέρου δεν είναι συµβατός µε το µοντέλο ρεύµατος δεδοµένων. Οι αλγόριθµοι, που πραγµατοποιούν δειγµατοληψία τροχιάς, πρέπει να είναι συµβατοί µε το µοντέλο ρευµάτων δεδοµένων ως προς το χρόνο επεξεργασίας ανά πλειάδα. Επίσης, σε αντίθεση µε τους αντίστοιχους αλγόριθµους για χωρικά δεδοµένα, θα πρέπει να λαµβάνουν υπόψη τις µεταβολές του διανύσµατος ταχύτητας (velocty). Η ταχύτητα έχει µέτρο (speed) και κατεύθυνση (azmuth). Έστω µία τροχιά ευθύγραµµη. Το κινούµενο αντικείµενο αλλάζει µόνο 2 µέτρο ταχύτητας. Η προβολή της τροχιάς στο επίπεδο του χώρου ( R ) εµφανίζεται ως ευθεία. ηλαδή, η χωρική πληροφορία είναι µία ευθεία γραµµή. ιαισθητικά, για να λάβουµε υπόψη και τη χρονική διάσταση, πρέπει να έχουµε δείγµατα από τα οποία προκύπτουν τα πιο αντιπροσωπευτικά µέτρα ταχύτητας που είχε το κινούµενο αντικείµενο. ΙΙ. Η ειγµατοληψία ως φίλτρο Η δειγµατοληψία µε χωροχρονικά κριτήρια έγκειται στο φιλτράρισµα των στοιχείων κατά την είσοδο τους µε βάση την κλίµακα της τοπικής χωροχρονικής µεταβολής που επιφέρουν στην τροχιά. Η εύρεση κάποιου κριτηρίου για τη µέτρηση της σηµασίας µίας πλειάδας είναι δύσκολο πρόβληµα. Η αναζήτηση σε όλες τις πλειάδες για την εύρεση των καλύτερων για το σχηµατισµό του δείγµατος (Douglas-Peucker) είναι ασύµβατη µε το µοντέλο ρευµάτων δεδοµένων. Είναι επίσης γεγονός ότι η σηµασία κάθε χωροχρονικού σηµείου καθορίζεται από την αντίστοιχη χωροχρονική θέση των γειτόνων του. Στην ενότητα που αναφέρεται στα χωροχρονικά δεδοµένα περιγράφεται το πλαίσιο εκτίµησης του σφάλµατος για χωροχρονικά δεδοµένα. ΙΙΙ. Η απαραίτητη µνήµη Συµπεραίνουµε ότι µία δειγµατοληψία χωροχρονικής υφής θα µπορούσε να φιλτράρει τα στοιχεία µε τοπικά κριτήρια στην είσοδο του ρεύµατος. Το πρόβληµα

59 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων που θα δηµιουργηθεί είναι η δυσκολία στην πρόβλεψη και στη διαχείριση του µεγέθους του δείγµατος. Για την πρόβλεψη του µεγέθους του δείγµατος, πρέπει να γνωρίζουµε εκ των προτέρων κάποια χαρακτηριστικά της κίνησης που πρόκειται να παρατηρηθεί. Αυτό είναι ρεαλιστικό για τις περισσότερες πραγµατικές εφαρµογές (π.χ. κίνηση οχήµατος στο οδικό δίκτυο). Για τη διαχείριση του µεγέθους, µπορούν να γίνουν προσαρµογές on-the-fly κάνοντας τα κριτήρια πιο αυστηρά όταν το δείγµα γίνεται πυκνό και πιο ελαστικά όταν γίνεται αραιό. Αυτή η διαχείριση δεν είναι η καλύτερη δυνατή, γιατί µπορεί να αδικεί κάποια κοµµάτια της τροχιάς και να ευνοεί άλλα. Άλλη λύση θα ήταν η διαγραφή δειγµάτων από το δείγµα. Αυτό µπορεί να γίνει είτε µε βάση τη σχετική χωροχρονική σηµασία των δειγµάτων, είτε τυχαία. Στην πρώτη περίπτωση, για κάθε πλειάδα, το σύστηµα πρέπει να διατηρεί µία µετρική της σηµασίας της, η οποία θα εξαρτάται από τους γείτονές της και θα αλλάζει για κάποια πλειάδα του δείγµατος, όταν διαγράφεται κάποια γειτονική της στο δείγµα. Η διαδικασία αυτή χρειάζεται γραµµικό χρόνο αναζήτησης (πάνω στο µέγεθος του δείγµατος) του πιο «αδιάφορου» στοιχείου. Με κατάλληλη δεικτοδότηση (AVL tree) των στοιχείων βάσει της µετρικής, ο χρόνος µπορεί να γίνει λογαριθµικός. Η τελική πολυπλοκότητα της διαδικασίας εξαρτάται προφανώς από τη σχέση των µεγεθών ρεύµατος και δείγµατος. Αξίζει να σηµειωθεί ότι λόγω της ακολουθιακής συµπεριφοράς της τροχιάς η διαγραφή ενός στοιχείου θα επηρεάσει την τιµή της µετρικής κάποιων γειτονικών του. Στη δεύτερη περίπτωση της τυχαίας επιλογής του προς διαγραφή στοιχείου πρέπει να διασφαλιστεί η οµοιόµορφη συµπεριφορά στα στοιχεία του δείγµατος. ηλαδή, τα στοιχεία που έχουν συµπεριληφθεί θεωρούνται εξίσου σηµαντικά και συµπεριλαµβάνονται στο τελικό δείγµα µε ίση πιθανότητα. Μία λύση θα ήταν η εφαρµογή (µε την κατάλληλη προσαρµογή) Reservor Samplng αµέσως µετά το χωροχρονικό φίλτρο που περιγράφεται σε αυτή την παράγραφο. 4.3 Απαιτήσεις σε µνήµη Οι πιθανές µέθοδοι δειγµατοληψίας µπορούν να ταξινοµηθούν και ανάλογα µε τις ανάγκες τους σε µνήµη: Σταθερή µνήµη: Ο χώρος για το δείγµα είναι σταθερός και εκ των προτέρων γνωστός. Επιθυµούµε ένα αντιπροσωπευτικό δείγµα των στοιχείων είτε στο επίπεδο των πλειάδων (αµνησιακό - οµοιόµορφο) είτε µε βάση τη χωροχρονική πληροφορία. Γραµµικά αυξανόµενη µνήµη: Σε αυτή την περίπτωση η µνήµη για το δείγµα αυξάνεται γραµµικά καθώς εισέρχεται το ρεύµα. Λογαριθµικά αυξανόµενη µνήµη: Η απαιτούµενη µνήµη αυξάνεται λογαριθµικά ως προς το µέγεθος του ρεύµατος. Αυξανόµενη Μνήµη - όχι γνωστή εκ των προτέρων: Η αναγκαία µνήµη αυξάνεται µε µη προβλέψιµο τρόπο. Το δείγµα µπορεί να έχει την πρώτη πλειάδα και καµία άλλη ή και όλες τις πλειάδες. Ο παραπάνω διαχωρισµός είναι ορθογώνιος µε το διαχωρισµό της προηγούµενης ενότητας

60 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων 4.4 Εφαρµογές δειγµατοληψίας σε τροχιές δεδοµένων Με βάση τις δύο προηγούµενες ενότητες µπορούµε να ορίσουµε κλάσεις δειγµατοληπτικών µεθόδων. Η επιλογή της κλάσης εξαρτάται από τις απαιτήσεις της εκάστοτε εφαρµογής. Πλέον ενδιαφέρουσες κλάσεις θεωρούνται οι εξής: Αµνησιακή δειγµατοληψία µε λογαριθµικά αυξανόµενη µνήµη ειγµατοληψία µε βάση χωροχρονικά κριτήρια και σταθερή µνήµη ειγµατοληψία µε βάση χωροχρονικά κριτήρια και αυξανόµενη µνήµη (γραµµικά, λογαριθµικά ή όχι γνωστή εκ των προτέρων) Οµοιόµορφη δειγµατοληψία µε σταθερή µνήµη Το βασικό πρόβληµα στην προσπάθεια συνεχούς ενηµέρωσης ενός οµοιόµορφου δείγµατος πάνω σε ένα ρεύµα δεδοµένων είναι ότι κάθε πλειάδα πρέπει να βρίσκεται στο δείγµα ισοπίθανα µε κάθε άλλη. Οι αλγόριθµοι που λύνουν το πρόβληµα διατηρούν συνεχώς ένα υποψήφιο δείγµα. Το αγνώστου µεγέθους ρεύµα εισέρχεται στο σύστηµα. Έστω ότι ο χώρος που διατίθεται για το δείγµα είναι n. Μέχρι να γεµίσει το δείγµα αποθηκεύονται όλα τα στοιχεία. Τα πρώτα n στοιχεία εισάγονται στο δείγµα. Για κάθε πλειάδα t, όπου t ο αύξων αριθµός των πλειάδων του ρεύµατος, το σύστηµα αποφασίζει αν θα την κρατήσει στο υποψήφιο δείγµα µε πιθανότητα m. Αν αποφασίσει να t την κρατήσει, θα διώξει οµοιόµορφα κάποια από τις πλειάδες που έχει ήδη στο δείγµα. Με αυτόν τον τρόπο, είναι δυνατόν, κάθε στιγµή, το υποψήφιο τελικό δείγµα να έχει οµοιόµορφη κατανοµή στις πλειάδες (Σχήµα 4.4). Στο [Vtt85] αναπτύσσονται µέθοδοι για την επιλογή των κατάλληλων πλειάδων χωρίς υπολογισµό ανά στοιχείο. Πρακτικά, αποφασίζεται πόσες πλειάδες θα προσπεραστούν (skp) µε εφαρµογή κατάλληλων κατανοµών. procedure UnformSamplng (Stream S, Objects n, Memory m) /* S s a trajectory stream, counter[1 n] an array of tuple counters for each trajectory, sample[1 n][1 m] s an array - reservor for the sample of each trajectory */ 1. for each object o n S 2. counter[d]++ 3. calculate probablty p=m/counter[d] 4. unformly pck r n [0,1] 5. f r>p break 6. f r<p 7. unformly pck d n [1,m] 8. delete sample[d][d] 9. shftleft[1] sample[d][d] //empty the sample[d][m] spot 10. sample[d][m]:=o 11. endf 12. endfor end UnformSamplng Σχήµα 4.4: Αλγόριθµος οµοιόµορφης δειγµατοληψίας σε ρεύµα δεδοµένων τροχιάς αγνώστου µεγέθους

61 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων ειγµατοληψία µε χωροχρονικά κατώφλια Σε τεχνικές δειγµατοληψίας µε χωροχρονικά κατώφλια, η απόφαση για την αποθήκευση κάποιας πλειάδας λαµβάνεται µε βάση την πρόσφατη ιστορία της τροχιάς. ηλαδή, µε βάση κάποιες πρόσφατες πλειάδες, γίνεται πρόβλεψη του γεωµετρικού τόπου στον οποίο θα βρισκόταν η τρέχουσα πλειάδα, αν η κίνηση του αντικειµένου συνεχιζόταν ως είχε. Αν η πρόβλεψη είναι επιτυχής, οι τεχνικές θεωρούν πως η τρέχουσα πλειάδα δεν έχει µεγάλη σηµασία και την αγνοούν. Ι. Βάσει τελευταίας πλειάδας δείγµατος Η δειγµατοληψία µε χωροχρονικά κατώφλια βάσει της τελευταίας πλειάδας του δείγµατος βασίζεται στην πρόβλεψη. Έστω v, φ το µέτρο και το αζιµούθιο της ταχύτητας αντίστοιχα που προκύπτουν βάσει των τελευταίων δύο πλειάδων του δείγµατος (ο δείκτης s για τη λέξη sample). Θεωρώντας ότι το αντικείµενο συνεχίζει την πορεία του, όπως αυτή προκύπτει από τις δύο τελευταίες πλειάδες του δείγµατος, µπορούµε να προβλέψουµε τη θέση του αντικειµένου ανά πάσα µελλοντική χρονική στιγµή. Κατά την άφιξη της νέας πλειάδας σχηµατίζουµε µία περιοχή ασφαλείας γύρω από αυτήν την πρόβλεψη ως εξής: ίνουµε ένα κατώφλι µεταβολής µέτρου ταχύτητας dv και ένα κατώφλι µεταβολής αζιµουθίου d φ. Στο χωρικό επίπεδο σχηµατίζουµε τους δύο γεωµετρικούς τόπους που προκύπτουν από αυτά τα κατώφλια. ΙΙ. Μέτρο ταχύτητας Για το µέτρο της ταχύτητας, σχηµατίζουµε δύο κύκλους µε κέντρο το τελευταίο δείγµα. Ο εξωτερικός κύκλος έχει ακτίνα που προκύπτει αν το αντικείµενο κινούταν µε ταχύτητα: v+ = vs ( 1 + dv), δηλαδή έχει χωρική ακτίνα: r+ = [ vs ( 1 + dv) ] dt, όπου dt ο χρόνος που µεσολαβεί (διαφορά των χρονοσήµων) µεταξύ τελευταίας πλειάδας δείγµατος και τελευταίας πλειάδας τροχιάς. Όµοια, ο εσωτερικός κύκλος έχει χωρική ακτίνα: r = v dt = [ vs ( 1 dv) ] dt. Ο χώρος µεταξύ των δύο κύκλων (δακτύλιος) αποτελεί το γεωµετρικό τόπο ασφαλούς πρόβλεψης βάσει του µέτρου ταχύτητας για το συγκεκριµένο κατώφλι dv. ΙΙΙ. Αζιµούθιο Για το αζιµούθιο, σχηµατίζουµε δύο ηµιευθείες, οι οποίες χωρίζουν το επίπεδο σε δύο χώρους. Οι ηµιευθείες έχουν ως αρχή το τελευταίο στοιχείο του δείγµατος και σχηµατίζουν γωνία d φ µε το διάνυσµα της ταχύτητας vs, ϕ s. Τα αζιµούθια των δύο ηµιευθειών είναι: s s

62 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων φ+ = ϕ+ dϕ και φ = ϕ dϕ, όπου οι πράξεις µεταξύ αζιµουθίων γίνονται έτσι ώστε ως αποτέλεσµα να προκύπτει αζιµούθιο [ 0 ο, 360 ο ). Οι δύο ηµιευθείες σχηµατίζουν δύο ηµιεπίπεδα. Το ηµιεπίπεδο που εµπεριέχει το διάνυσµα της ταχύτητας είναι ο γεωµετρικός τόπος ασφαλούς πρόβλεψης βάσει του αζιµουθίου για το συγκεκριµένο κατώφλι d φ. ΙV. Γεωµετρικός τόπος ασφαλείας Η τοµή των δύο παραπάνω γεωµετρικών τόπων είναι η περιοχή ασφαλείας για την τρέχουσα πλειάδα. Αν η πλειάδα δεν εµπίπτει στο χώρο ασφαλείας, υπάρχουν δύο εναλλακτικές. Στο δείγµα εισάγεται είτε η τρέχουσα πλειάδα είτε η προηγούµενή της στο ρεύµα. Εισάγοντας την τρέχουσα, η τροχιά που παράγεται εµφανίζει εξοµάλυνση σε σχέση µε την αυθεντική, ενώ εισάγοντας την προηγούµενη παίρνουµε πιο αδρή αναπαράσταση. Όσον αφορά τη µνήµη, η παραλλαγή µε την τρέχουσα πλειάδα είναι ελαφρώς πιο οικονοµική από αυτήν µε την προηγούµενη. Στα σφάλµατα υπερτερεί ελαφρά η παραλλαγή µε την προηγούµενη πλειάδα. Τα παραπάνω παρουσιάζονται στο Σχήµα 4.5. Σχήµα 4.5: ειγµατοληψία µε χωροχρονικά κατώφλια

63 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Σχήµα 4.6: Ο αλγόριθµος σε δυσχερή θέση Η µέθοδος µπορεί να βρεθεί σε δυσχερή θέση ως εξής: Τα δείγµατα µπορεί να πέφτουν συνεχώς στις περιοχές ασφαλείας, ενώ η τροχιά να απέχει πολύ από την προβλεπόµενη (Σχήµα 4.6). V. Βάσει τελευταίας πλειάδας τροχιάς Μία άλλη ιδέα είναι να εφαρµόσουµε την ίδια ακριβώς µέθοδο βασίζοντας την πρόβλεψη στις τελευταίες πλειάδες της τροχιάς και όχι του δείγµατος. Σχηµατίζουµε τώρα, το γεωµετρικό τόπο ασφαλείας σύµφωνα µε την ταχύτητα v, φ, όπου ο δείκτης προκύπτει από τη λέξη nstantaneous (στιγµιαίος). Το διάνυσµα αυτό προκύπτει από τις δύο προηγούµενες πλειάδες της τροχιάς. Αν η τρέχουσα πλειάδα δεν βρίσκεται στην περιοχή ασφαλείας, εισάγουµε είτε αυτήν είτε την προηγούµενη της στο δείγµα. Η µέθοδος µπορεί να πέσει σε «παγίδα» ως εξής: Τα δείγµατα µπορεί να πέφτουν συνεχώς στις αντίστοιχες περιοχές ασφαλείας, ενώ η τροχιά να µην ακολουθεί την προβλεπόµενη τροχιά. Στο σχήµα 4.7 ο αλγόριθµος αγνοεί όλα τα σηµεία, οπότε αδυνατεί να συλλάβει την εξέλιξη της κίνησης του αντικειµένου

64 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Σχήµα 4.7: Ο αλγόριθµος σε δυσχερή θέση VI. Μία «παράλληλη» προσέγγιση απαλλαγµένη από παγίδες Αποφεύγουµε όλες τις παραπάνω παγίδες συνδυάζοντας τις δύο παραπάνω µεθόδους (Σχήµα 4.8). Η λύση που προτείνουµε έχει 4 παραµέτρους. Τα dv, dφ και τα χωροχρονικά χωροχρονικά κατώφλια βάσει του δείγµατος ( s s) κατώφλια βάσει της τροχιάς ( dv dφ ),. Στην άφιξη κάθε νέας πλειάδας πραγµατοποιείται πρόβλεψη βάσει και των δύο µεθόδων. Οι γεωµετρικοί τόποι που σχηµατίζονται είναι οι ΓΤ και ΓΤ, αντίστοιχα. Η τοµή των δύο παραπάνω s ΓΤ αποτελεί τον τελικό ΓΤ ασφαλείας της προτεινόµενης λύσης. Οι παραπάνω παγίδες αποφεύγονται, επειδή η µεν µέθοδος µε βάση το δείγµα δεν πέφτει στην παγίδα της µεθόδου της τροχιάς, η δε µέθοδος µε βάση την τροχιά δεν πέφτει στην παγίδα της µεθόδου του δείγµατος. Το στίγµα Ε1 βρίσκεται στον Γ.Τ. ασφαλείας ενώ το Ε2 όχι

65 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Σχήµα 4.8: Συνδυασµός µεθόδων. ειγµατοληψία συνυπολογίζοντας στην πρόβλεψη και την τροχιά και το δείγµα VII. Παράδειγµα Έστω dv = 0. 2, dφ = 15 και dv = 0. 4, dφ = 20. Για τα διανύσµατα s s v φ = 40, 10 και v φ = 50, 20 προκύπτουν:, s s ( 1 0.2) 32 ( ) 48 v = 40 =, s s v = 40 =, + s φ = = 355, s φ + = = 25, v = =, ( ) 30 ( ) 70 + = 40 = = = 0 v, φ,, φ + = = 40. Εναλλακτικός τρόπος απόφασης για το αν το κινούµενο αντικείµενο βρίσκεται στη θέση ασφαλείας είναι να υπολογιστεί η πραγµατική ταχύτητα του από το τελευταίο δείγµα και από την τελευταία πλειάδα, αντίστοιχα v sr, φ v, φ. sr r r Αν ισχύει: 32 v rs 48 και 355 φ rs 360 και 0 φ rs 25 τότε το αντικείµενο βρίσκεται στην περιοχή ασφαλείας µε βάση το δείγµα. Αν ισχύει: 30 v 70 και φ 40 rs 0 rs τότε το αντικείµενο βρίσκεται στην περιοχή ασφαλείας µε βάση την τροχιά

66 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Αν ισχύουν και τα δύο, δηλαδή, αν οι γεωµετρικοί τόποι έχουν µη µηδενική τοµή και η πλειάδα προς επεξεργασία βρίσκεται σε αυτήν, τότε η πλειάδα (ή εναλλακτικά η προηγούµενή της) αγνοείται. VIII. Μειονέκτηµα της µεθόδου - Πιθανή επέκταση Μειονέκτηµα της µεθόδου αυτής είναι η αδυναµία ορισµού µετρικής για τη µέτρηση της συνεισφοράς κάθε δείγµατος στο τελικό δείγµα. Αυτό οφείλεται στο γεγονός ότι τα κατώφλια ορίζονται βάσει δύο διαστάσεων. Συνεπώς, δεν µπορούµε να ταξινοµήσουµε τις επιδόσεις των πλειάδων σε σχέση µε την απόκλιση τους από το γεωµετρικό τόπο ασφαλείας. Πιθανές επεκτάσεις της µεθόδου είναι να οριστεί µετρική ως εξής: Ο βαθµός ενδιαφέροντος κάποιας θέσης να ταυτίζεται µε την απόσταση της θέσης από το γεωµετρικό τόπο ασφαλείας (απόσταση σηµείου από πολύγωνο) να ενωθούν διαδοχικά στάδια «επιεικών» κατωφλίων, εν σειρά, για την πιο επιλεκτική αποβολή των πλειάδων. Το σύστηµα µπορεί να προσθέτει ή να αφαιρεί στάδια για να επιτύχει τον επιθυµητό ρυθµό εξόδου του ρεύµατος. Στα Σχήµατα 4.9 και 4.10 υπάρχουν οι αλγόριθµοι κατωφλίων σε δύο παραλλαγές. Ο Thresholds_Cur αποθηκεύει την τρέχουσα πλειάδα, δηλαδή, αυτή που παραβίασε τα κατώφλια ενώ ο Thresholds_Pr την προηγούµενη. procedure Thresholds_Cur (Stream S, Objects n) /* S s a trajectory stream, counter[1 n] an array of tuple counters for each trajectory, sample[1 n][] s a lst for the sample of each trajectory, SR s the Safety Regon based on the last tuples of the stream (nstantenuous), SR s s the Safety Regon based on the last tuples of the sample kept so far for the trajectory, pr1_tuple[0 n] s a buffer that stores the prevous tuple of each trajectory, pr2_tuple[0 n] s a buffer that stores the one before, scounter[1 n] s an array storng the current sze the sample for each trajectory */ 1. for each object o n S 2. calculate SR //(based on pr1_tuple[d], pr2_tuple[d]) 3. calculate SR s //(based on sample[d][scount[d]], sample[d][scount[d]-1] 4. calculate SR=SR SR s 5. pr2_tuple[d]:=pr1_tuple[d] 6. pr1_tuple[d]=o 7. f o n SR break; 8. else store o n sample[d][scount[d]+1] 9 scount[d]++ end Thresholds_Cur Σχήµα 4.9: Αλγόριθµος Thresholds_Cur

67 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων procedure Thresholds_Pr (Stream S, Objects n) /* S s a trajectory stream, counter[1 n] an array of tuple counters for each trajectory, sample[1 n][] s a lst for the sample of each trajectory, SR s the Safety Regon based on the last tuples of the stream (nstantenuous), SR s s the Safety Regon based on the last tuples of the sample kept so far for the trajectory, pr1_tuple[0 n] s a buffer that stores the prevous tuple of each trajectory, pr2_tuple[0 n] s a buffer that stores the one before, scounter[1 n] s an array storng the current sze the sample for each trajectory */ 1. for each object o n S 2. calculate SR //(based on pr1_tuple[d], pr2_tuple[d]) 3. calculate SR s //(based on sample[d][scount[d]], sample[d][scount[d]-1] 4. calculate SR=SR SR s 5. pr2_tuple[d]:=pr1_tuple[d] 6. pr1_tuple[d]=o 7. f o n SR break; 8. else store pr2_tuple[d] n sample[d][scount[d]+1] 9 scount[d]++ end Thresholds_Pr Σχήµα 4.10: Αλγόριθµος Thresholds_Pr : έχει υπογραµµιστεί η διαφοροποίηση από τον αλγόριθµο Thresholds_Cur ειγµατοληψία µε πλάγιο ίχνος Ι. Ορισµός µετρικής Ορίζουµε µία χωροχρονική µετρική για να υπολογίσουµε τo βαθµό ενδιαφέροντος κάθε πλειάδας. Η µετρική αυτή είναι η ευκλείδεια απόσταση της χωροχρονικής θέσης, της τρέχουσας πλειάδας, από την αντίστοιχη προβλεπόµενη θέση, µε βάση τις δύο γειτονικές της πλειάδες. Την καλούµε πλάγιο ίχνος. Έστω τρεις διατεταγµένες χωροχρονικές πλειάδες A,B,C (Σχήµα 4.11). Για τα χρονόσηµα των πλειάδων ισχύει t t t. Αν το σύστηµα αποθήκευε τις πλειάδες A,C και δεν είχε διαθέσιµη την B, η πρόβλεψη για την B θα προέκυπτε ως εξής: Πρώτα υπολογίζεται η ταχύτητα κατά x x και κατά yy µε βάση τις πλειάδες AC: A B C V V yy' AC x' x AC όπου = = y t x t r C C r C C y t t r A A x r A A, x f I r I x η πρόβλεψη για την x συνιστώσα της Ι-οστής πλειάδας, η πρόβλεψη για την y συνιστώσα της Ι-οστής πλειάδας,

68 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Η πρόβλεψη προκύπτει τελικά: x y f B f B = x r A = y r A + V + V x' x AC yy' AC ( t B t A) ( t t ) B A Η ευκλείδεια απόσταση µεταξύ της προβλεπόµενης θέσης και της πραγµατικής είναι: r B = f r ( ) 2 f x x + ( y y r ) 2 B B B B Επιλέγοντας κατάλληλα τις πλειάδες A,B,C µεταξύ των τελευταίων πλειάδων του δείγµατος και της τροχιάς, θέτοντας κατώφλι ασφαλείας και επιλέγοντας αν θα αποθηκεύουµε την B ή την C πλειάδα, σχηµατίζουµε µία οµάδα παραλλαγών του βασικού αλγορίθµου που περιγράφεται στην επόµενη παράγραφο. Η ευκλείδεια απόσταση µεταξύ της πραγµατικής και της προβλεπόµενης θέσης αποτελεί το κριτήριο για την απόφαση της αποθήκευσης ή όχι της προς επεξεργασία πλειάδας C. Στο Σχήµα 4.11 φαίνεται η ευκλείδεια απόσταση της πραγµατικής και της προβλεπόµενης θέσης για το χρονόσηµο t B. Η δειγµατοληψία µε βάση το ίχνος θέτει περιοχή ασφαλείας γύρω από την προβλεπόµενη θέση. Πρόκειται για ένα κυκλικό δίσκο ακτίνας ίσης µε το τρέχον κατώφλι. Αν η πραγµατική θέση δεν βρίσκεται στον γεωµετρικό τόπο, παραβιάζεται ο γεωµετρικός τόπος ασφαλείας και λαµβάνεται θετική απόφαση για αποθήκευση πλειάδας. Σχήµα 4.11: Πλάγιο ίχνος

69 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων ΙΙ. Αλγόριθµος-Υπολογισµός τρέχοντος κατωφλίου Σε µία εφαρµογή αυξανόµενης µνήµης, το κατώφλι µπορεί να είναι παράµετρος της εφαρµογής. Μία εφαρµογή σταθερής µνήµης παρουσιάζει µεγαλύτερο ενδιαφέρον στην προκειµένη περίπτωση. Θεωρούµε µνήµη µεγέθους M. Αρχικά, αποθηκεύονται οι πρώτες M πλειάδες. Για κάθε πλειάδα Β, υπολογίζουµε, µε βάση την προηγούµενη της Α, και την επόµενη της C, τη θέση που θα προβλεπόταν για το αντικείµενο, αν αυτή έλειπε. Η ευκλείδεια απόσταση της προβλεπόµενης θέσης από την πραγµατική αποθηκεύεται µαζί µε την πλειάδα. Με την άφιξη της πρώτης πλειάδας, που δεν χωράει στη µνήµη, υπολογίζεται η δική της επίδοση. Αν αυτή είναι µεγαλύτερη από την µικρότερη επίδοση που υπάρχει στη µνήµη εκείνη τη στιγµή, η πλειάδα µε τη χαµηλότερη επίδοση διαγράφεται και η νέα πλειάδα εισάγεται. Αν είναι µικρότερη, η πλειάδα αγνοείται. Κατά τη διαγραφή µίας πλειάδας, πρέπει να ενηµερωθούν οι επιδόσεις των δύο γειτονικών της. Κατά την εισαγωγή µίας νέας πλειάδας πρέπει να ενηµερωθεί η επίδοση της προηγούµενης της. Το κατώφλι είναι, κάθε φορά, η µικρότερη επίδοση που υπάρχει αποθηκευµένη στη µνήµη. Σε πραγµατικές εφαρµογές, οι εισαγωγές γίνονται ολοένα και λιγότερες αφού το κατώφλι γίνεται ολοένα και µεγαλύτερο. Το ενδιαφέρον στο πλήθος των εισαγωγών-διαγραφών γεννιέται από την ανάγκη επανα πολογισµού της ελάχιστης επίδοσης. Αν οι πλειάδες είναι αταξινόµητες ως προς την επίδοση, κάθε φορά που διαγράφεται η τρέχουσα, λιγότερο σηµαντική, πλειάδα (µε τη µικρότερη επίδοση), θα πρέπει να πραγµατοποιείται αναζήτηση στη µνήµη για τη νέα λιγότερο σηµαντική πλειάδα µε κόστος O ( m). Με κατάλληλη δεικτοδότηση (AVL δέντρο), το κόστος αυτό µπορεί να γίνει O( log m). Σε δοµή µε δεικτοδότηση θα υπάρξει επιπλέον κόστος O( log m) για κάθε µία από τις τρεις πλειάδες που επανα πολογίζεται η επίδοσή τους. Συνεπώς, µία τέτοια δοµή χρησιµεύει µόνο σε περιπτώσεις που ο αριθµός M είναι πολύ µεγάλος. Η σηµαντική παρατήρηση είναι ότι εισαγωγή (συνεπώς και διαγραφή και αναζήτηση της λιγότερο σηµαντικής πλειάδας) γίνεται σε κάθε στιγµιότυπο του ρεύµατος, µε πιθανότητα M, όπου S το τρέχον µέγεθος του ρεύµατος, υποθέτοντας ότι η «σηµαντική» S πληροφορία είναι οµοιόµορφα κατανεµηµένη στο ρεύµα. ΙΙΙ. Πολυπλοκότητα Η πολυπλοκότητα της ενηµέρωσης προκύπτει ίση µε το άθροισµα της σταθερής πολυπλοκότητας ανά στοιχείο c και της πολυπλοκότητας εύρεσης του N µικρότερου τρέχοντος κατωφλίου. Υποθέτουµε δοµή λογαριθµικής αναζήτησης για την εύρεση του µικρότερου τρέχοντος κατωφλίου. Επίσης, υποθέτουµε την οµοιόµορφη κατανοµή των στοιχείων ενδιαφέροντος. Όπως έχει ήδη αναφερθεί, το µικρότερο κατώφλι είναι αναγκαίο να υπολογίζεται µόνο όταν συµβαίνει εισαγωγή νέου στοιχείου στη δοµή. Από τα παραπάνω προκύπτει:

70 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων M + log O c+ Είναι ln N < ( M) M + log( M) ( M) M + k log = O c+ N N 1 όπου k = Άρα = 1 M M + 1 N = 1 j= 1 1 = j 1 < ln N+ 1 ( ln( N ) 1) M + log N + O c+ M N N M N = M M N = O c+ 1, N = M 1 ln N ln M + 1= ln N 1 N = 1 j= 1 ( N ) M + 1 M 1 j = Αποτέλεσµα του παραπάνω είναι η επεξεργασία ανά στοιχείο να είναι περίπου O( log N). Ο αλγόριθµος (Σχήµα 4.12) είναι, συνεπώς, πιο «ακριβός» από τον οµοιόµορφο αλγόριθµο και από τους αλγορίθµους µε τα χωροχρονικά κατώφλια, αλλά είναι αποδεκτός για το µοντέλο ρευµάτων δεδοµένων. Στο Σχήµα 4.12 παρουσιάζεται ο αλγόριθµος πλαγίου ίχνους (STTrace). procedure STTrace (Stream S, Objects n) /* S s a trajectory stream, counter[1 n] an array of tuple counters for each trajectory, sample[1 n][1 m] s an array for the sample of each trajectory. Sample[1 n][1 m] except for <ts,d,x,y> also stores the attrbute trace.pr1_tuple[0 n] s a buffer that stores the prevous tuple of each trajectory, pr2_tuple[0 n] s a buffer that stores the one before, mn[d] s an ndex buffer whch stores the ndex pontng to the current threshold for each trajectory (the mnmum value of attrbute trace, r s buffer storng the current trace */ 1. for each object o n S 2. calculate r from the set [sample[d][m-2], sample[d][m],o) 3. f r<mn[d] break; 4. f r>mn[d] 5. delete sample[d][mn[d]] 6. shftleft[1] sample[d][ mn[d]] //empty the sample[d][m] spot 7. recalculate trace for sample[mn[d]-1] and sample[mn[d]+1] 8. calculate and store trace for sample[d][m] 9. fnd the new mn[d] 10.sample[d][m]:=o wth trace:=null (unknown yet) end STTrace Σχήµα 4.12: Αλγόριθµος STTrace

71 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων ΙV. Παραλλαγή: Γραµµικά αυξανόµενη µνήµη Η παραλλαγή για γραµµικά αυξανόµενη µνήµη µπορεί να γίνει θέτοντας ως παράµετρο τον επιθυµητό βαθµό συµπίεσης. Για συµπίεση 1/100, για παράδειγµα, µπορεί να δοθεί στο σύστηµα η οδηγία να επιλέγει 10 πλειάδες στις πρώτες 1000 και να τις αποθηκεύει στο δίσκο. Στην 1001 η πλειάδα να ξεκινάει τη διαδικασία από την αρχή κλπ Μη οµοιόµορφη δειγµατοληψία Η κεντρική ιδέα για την υλοποίηση µη οµοιόµορφης δειγµατοληψίας (Σχήµα 4.13) είναι να πραγµατοποιηθεί δειγµατοληψία σε ρεύµα δεδοµένων µε σκοπό την έµφαση στο πρόσφατο παρελθόν. Η κατανοµή των στοιχείων του δείγµατος στο χρόνο µπορεί να είναι οποιαδήποτε. Μία ντετερµινιστική εκθετική αµνησιακή δειγµατοληψία µε χρήση της δοµής AmTree θα παρουσιαστεί σε επόµενο κεφάλαιο. Το ενδιαφέρον εδώ είναι να προσεγγιστούν αµνησιακές συµπεριφορές που δεν έχουν απαραίτητα εκθετική συµπεριφορά. Θεωρούµε δειγµατοληψία σταθερής µνήµης. Στην κατεύθυνση αυτή ορίζουµε ένα διάνυσµα που αποτελείται από διαστήµατα στο δείγµα. Για κάθε διάστηµα, ορίζουµε µία πιθανότητα µε την οποία επιλέγουµε το διάστηµα του δείγµατος από το οποίο θα διαγράψουµε στοιχείο. Οι πρώτες πλειάδες γεµίζουν το δείγµα. Με την άφιξη της πρώτης πλειάδας που δεν χωρά στο δείγµα, αποφασίζεται αν θα γίνει εισαγωγή της στο δείγµα. Αν ναι, επιλέγεται µία πλειάδα από το δείγµα όπως περιγράφηκε παραπάνω και διαγράφεται. Παράδειγµα: Έστω ότι η πλειάδα προς επεξεργασία αποθηκεύεται πάντα. Έστω τα εξής διαστήµατα στο δείγµα και οι αντίστοιχες πιθανότητες. [, ] [1,0.95] [0.95,0.85 ] [0.85,0.70] [0.70,0.50] [0.50,0.25] [0.25,0] P Είναι ενδιαφέρον να καθοριστούν συνδυασµοί: ιανυσµάτων διαστηµάτων ιανυσµάτων πιθανοτήτων Τρόπων απόφασης για την αποθήκευση ή µη της τρέχουσας πλειάδας για την προσέγγιση διαφόρων αµνησιακών χρονικών κατανοµών του δείγµατος

72 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων procedure NonUnformSamplng (Stream S, Objects n, Memory m) /* S s a trajectory stream, counter[1 n] an array of tuple counters for each trajectory, sample[1 n][1 m] s an array - reservor for the sample of each trajectory, decde_to_store(object) s a boolean functon returnng the decson whether or not to store the current tuple, to_be_deleted(object) s a functon returnng the ndex n sample[object][1 m] of the tuple to be deleted */ 1. for each object o n S 2. r=decde_to_store[o] 3. f r=false break 4. f r=true 5. d=to_be_deleted(d) 6. delete sample[d][d], 7. shftleft[1] sample[d][d] 8. sample[d][m]:=o end NonUnformSamplng Σχήµα 4.13: Αλγόριθµος NonUnformSamplng 4.5 Πειραµατικά αποτελέσµατα Παραγωγή πειραµατικών δεδοµένων Όλα τα πειράµατα της παρούσας διπλωµατικής εργασίας έγιναν µε χρήση συνόλων δεδοµένων τροχιάς κινούµενων αντικειµένων, των οποίων η παραγωγή έγινε µε χρήση του λογισµικού Σ.Γ.Π. ArcVew 3.2 και της επέκτασής του ArcVew Network Analyst 1.0b. Η διαδικασία παραγωγής των δεδοµένων εκτελέστηκε σ ένα συµβατικό προσωπικό υπολογιστή που τρέχει σε λειτουργικό σύστηµα MS Wndows 2000 Professonal, µε συχνότητα επεξεργαστή στα 500 MHz και mνήµη 128 MB. Ως προέλευση και προορισµός κάθε διαδροµής επιλέχθηκαν ζεύγη κόµβων του δικτύου κατά τυχαίο τρόπο (µε µια γεννήτρια ψευδοτυχαίων αριθµών). Η τροχιά που συνδέει τα δύο άκρα της πορείας κάθε αντικειµένου, όταν υπολογιστεί, απεικονίζεται στο λογισµικό Σ.Γ.Π. ως µία ενιαία πολυγραµµή. Προκειµένου, όµως, η καταγραφή της διαδροµής να συµφωνεί µε το µοντέλο του ρεύµατος τροχιάς, έγινε δειγµατοληψία µε ρυθµό ένα σηµείο ανά δευτερόλεπτο, για κάθε αντικείµενο. Συγκεκριµένα, θεωρήθηκε ότι η έναρξη της πορείας συµβαίνει τη χρονική στιγµή t=0 για όλα τα αντικείµενα, οπότε για κάθε δευτερόλεπτο καταγράφηκε το στίγµα του αντικειµένου, εφαρµόζοντας γραµµική παρεµβολή για κάθε τµήµα της πορείας µε ίδια µέση ταχύτητα κίνησης. Τελικά, προέκυψε ένα αρχείο τροχιών µε εγγραφές που φέρουν την ταυτότητα (d) του αντικειµένου, το χρονόσηµο (t) και τις συντεταγµένες (x, y). Η παραγωγή των ρευµάτων τροχιάς κινούµενων αντικειµένων έγινε µε υπόβαθρο ψηφιακό χάρτη του οδικού δικτύου της Αττικής [ΚΠ03]

73 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Πειραµατικά αποτελέσµατα Όλα τα πειράµατα αυτής της εργασίας πραγµατοποιήθηκαν σε Notebook Intel Pentum IV 2.53GHz KME µε 512 Mb µνήµη, µε λειτουργικό σύστηµα MS Wndows XP professonal. Ο κώδικας αναπτύχθηκε σε MS Vsual Studo 6. Η γλώσσα κωδικοποίησης είναι η C++. Τα σύνολα δεδοµένων που χρησιµοποιήθηκαν για τα πειράµατα που θα παρουσιαστούν στο παρόν κεφάλαιο είναι δύο. Το πρώτο (1X30K) αποτελείται από µία τροχιά και προσοµοιώνει την κίνηση ενός ταξί στο οδικό δίκτυο της Αττικής. Το όχηµα κινείται χωρίς στάσεις επί δευτερόλεπτα (8 ώρες) σε όλο το οδικό δίκτυο. Η ταχύτητα κίνησης για κάθε τµήµα δρόµου ποικίλλει από 5km/h µέχρι και 100 km/h. Η τροχιά έχει συνεχείς εναλλαγές πορείας και ταχύτητας. Οι πλειάδες παράγονται κάθε δευτερόλεπτο. Το δεύτερο σύνολο (1000X500) αποτελείται από τροχιές 1000 κινούµενων αντικειµένων. Κάθε τροχιά αποτελείται από 500 πλειάδες. Η κίνηση που περιγράφουν είναι διαφόρων οχηµάτων. Οι τροχιές έχουν παραχθεί, επιλέγοντας τυχαία και οµοιόµορφα, στο δίκτυο κόµβους αφετηρίας και τερµατισµού. Οι τροχιές καλύπτουν πολύ µεγάλο εύρος ταχυτήτων. Οι ταχύτητες ποικίλλουν από 1km/h µέχρι και 500km/h. Ο αλγόριθµος παραγωγής των τροχιών ελαχιστοποιεί το κόστος της διαδροµής. Αποτέλεσµα αυτού, είναι οι τροχιές να είναι σχετικά οµαλές, ενώ οι απότοµες στροφές σπανίζουν. Θα παρουσιαστούν τρεις από τους παραπάνω αλγορίθµους. Ο πρώτος είναι ο αλγόριθµος οµοιόµορφης (Unform) δειγµατοληψίας µε χρήση Reservor για ρεύµατα αγνώστου µεγέθους. Ο αλγόριθµος αυτός θεωρείται η απλούστερη εφαρµογή από άποψη ποιότητας αποτελεσµάτων. Όπως έχει ήδη αναφερθεί, το κόστος ανά πλειάδα είναι O ( 1). Ο δεύτερος είναι ο αλγόριθµος δειγµατοληψίας µε χρήση χωροχρονικών κατωφλίων µε βάση το δείγµα και την τροχιά. Θα τον καλούµε Thresholds (κατώφλια). Το κόστος επεξεργασίας ανά πλειάδα είναι O ( 1). Ο τρίτος αλγόριθµος είναι ο αλγόριθµος µε χρήση του πλάγιου ίχνους (STTrace). Η πολυπλοκότητα του αλγορίθµου προκύπτει λογαριθµική σε σχέση µε το µέγεθος του ρεύµατος. Ο αλγόριθµος είναι ακριβότερος από τους παραπάνω αλλά κινείται στα πλαίσια του µοντέλου ρευµάτων δεδοµένων Αλγόριθµος κατωφλίων Οι αλγόριθµοι Thresholds (Cur & Pr) και STTrace θα συγκριθούν µε τον Unform. Σηµειώνουµε, πως το σύνολο 1000X500 είναι αρκετά ευνο κό για τον Unform σε αντίθεση µε το 1Χ30K που δεν είναι. ηλαδή στο 1000X500 η αξία των πλειάδων σε κάθε τροχιά δεν έχει µεγάλες εναλλαγές. Αντίθετα, στο 1Χ30K η αξία πλειάδων πάνω σε στροφή 180 ο είναι διαισθητικά µεγαλύτερη από άλλες σε πιο οµαλά τµήµατα

74 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Τα σφάλµατα που υπολογίζονται είναι σύγχρονα σφάλµατα, όπως αυτά ορίστηκαν στο κεφάλαιο 3. Το MAE (Maxmum Absolute Error) είναι η µέγιστη σύγχρονη ευκλείδεια απόσταση προβλεπόµενης από καταγεγραµµένη θέση. Το AvgDst (Average Dstance) είναι η µέση ευκλείδεια απόσταση προβλεπόµενης από καταγεγραµµένη θέση και το MSE (Mean Square Error) είναι το µέσο τετραγωνικό σφάλµα της µέσης ευκλείδειας απόστασης προβλεπόµενης από καταγεγραµµένη θέση. Τα πειράµατα δείχνουν ότι ο αλγόριθµος Thresholds_Cur είναι καλύτερος από τον Unform για βαθµό συµπίεσης µεγαλύτερο από 8%. Οι επιδόσεις του αλγορίθµου για βαθµό συµπίεσης µεγαλύτερο από 15% είναι καλύτερες κατά παράγοντα κοντά στο 1.7. όσον αφορά το MSE και το AvgDst (Γραφήµατα 1,3,4,6). Όσον αφορά το µέγιστο σφάλµα, οι τιµές είναι καλύτερες κατά παράγοντα µεγαλύτερο του 2 (Γραφήµατα 2,5). Ο αλγόριθµος Thresholds_Pr υπερτερεί του Thresholds_Cur όσον αφορά τα σφάλµατα MSE και AvgDst, ενώ υστερεί λίγο όσον αφορά το MAE. Τα συµπεράσµατα που εξάγονται από τα πειράµατα είναι τα εξής: Με πολυπλοκότητα ίση µε το Unform οι αλγόριθµοι µε τα κατώφλια µπορούν να επιτύχουν σφάλµατα 50% µικρότερα για συντελεστές συµπίεσης µεγαλύτερους του 8%. Οι αλγόριθµοι Thresholds χρειάζονται κατάλληλη ρύθµιση (tunng) που εξαρτάται από τη φύση της κίνησης. Η επιλογή των κατωφλίων στα πειράµατα έγινε εµπειρικά. Η µεγάλη µείωση των σφαλµάτων MAE είναι αναµενόµενη, αν λάβουµε υπόψη τη λογική τοπικής βελτιστοποίησης που εφαρµόζουν οι αλγόριθµοι Thresholds (Γραφήµατα 2,5,8). Ο αλγόριθµος Thresholds_Pr παράγει πιο αδρή αναπαράσταση της τροχιάς σε αντίθεση µε τον Thresholds_Cur που εξοµαλύνει την τροχιά. Για όµοια κατώφλια, ο Thresholds_Cur επιτυγχάνει µικρότερο λόγο συµπίεσης και καλύτερο MAE από τον Thresholds_Pr. Αυτό ισοσταθµίζεται από τα καλύτερα MSE και AvgDst που επιτυγχάνει ο Thresholds_Pr. Οι αλγόριθµοι εµφανίζουν ανοχή στη διακύµανση του ρυθµού εισόδου των στοιχείων, σε αντίθεση µε τον Unform, που δεν έχει αίσθηση χρόνου. Αυτό οφείλεται στη σύγχρονη φύση των κατωφλίων Μειονέκτηµα αποτελεί η αδυναµία πρόβλεψης του µεγέθους του ρεύµατος εξόδου από το στάδιο που εφαρµόζει τον αλγόριθµο Thresholds. Όµως, για τροχιές µε γνωστά χαρακτηριστικά η εµπειρική πρόβλεψη είναι εφικτή. Ο αλγόριθµος επιτυγχάνει σηµαντική βελτίωση του σφάλµατος και στην περίπτωση του συνόλου 1000Χ500 γιατί δεν διαµερίζει σε 1000 ίσα µέρη το διαθέσιµο χώρο (Γραφήµατα 7,8,9). Απλά, η τροχιά µε τη µεγαλύτερη ανάγκη καταλαµβάνει περισσότερο χώρο. Αυτό προσδίδει στον αλγόριθµο µεγαλύτερη δύναµη και ευελιξία σε σχέση µε τον αλγόριθµο Unform ο οποίος αναγκαστικά συµπεριφέρεται όµοια σε όλες τις τροχιές

75 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Από τα πειράµατα και τη µελέτη του αλγορίθµου προκύπτουν οι εξής προοπτικές για την επέκταση του: Το µέγεθος του δείγµατος µπορεί να προβλεφθεί εφαρµόζοντας εν σειρά σύνδεση σταδίων µε ολοένα και αυστηρότερα κατώφλια. Στην περίπτωση αυτή το σύστηµα µπορεί να αποφαίνεται για την περικοπή ή την πρόσθεση σταδίων µε σκοπό τον έλεγχο του τελικού ρυθµού εξόδου (δηλαδή του λόγου συµπίεσης) Το ρεύµα εξόδου του πρώτου Thresholds υπολογιστικού σταδίου αποτελεί είσοδο στο επόµενο κλπ. Τα αποτελέσµατα, σε σχέση µε την εφαρµογή µονού σταδίου και για αντίστοιχους τελικούς λόγους συµπίεσης είναι καλύτερα. Η πολυπλοκότητα της ενηµέρωσης είναι µόλις O ( c), όπου c ο αριθµός των σταδίων. Η πολυπλοκότητα είναι πλήρως αποδεκτή από το µοντέλο ρευµάτων δεδοµένων. Εναλλακτικά, ο τελικός ρυθµός εξόδου µπορεί να ελεγχθεί µε πρόσθεση σταδίου οµοιόµορφης δειγµατοληψίας στην έξοδο του σταδίου Thresholds. Για µικρούς λόγους συµπίεσης (<8%) και ένα στάδιο επεξεργασίας ο αλγόριθµος υστερεί του Unform στα σφάλµατα. Όµως, επειδή εντοπίζει τις µεγάλες αλλαγές σε ταχύτητα και διεύθυνση, το δείγµα που παράγει είναι καλύτερο για χρήση σε ενδεχόµενη αναζήτηση της ακριβούς πορείας που ακολουθήθηκε σε οδικό δίκτυο. Αυτό σηµαίνει ότι, γνωρίζοντας το δείγµα και τα κατώφλια µε τα οποία έγινε η παραγωγή του, είναι εφικτή, µε κατάλληλη επεξεργασία, η τοποθέτηση της τροχιάς στο οδικό δίκτυο. Το πλεονέκτηµα αυτό δείχνει πως ο αλγόριθµος είναι ιδιαίτερα αποδοτικός για κίνηση σε δίκτυα. Στη διαδικασία που περιγράφεται στο προηγούµενο σηµείο υπάρχει ο εξής συµψηφισµός (trade-off). Τα σφάλµατα είναι µικρότερα µε την πρόσθεση επεξεργαστικών σταδίων, όµως αφενός οι απαιτούµενοι πόροι είναι περισσότεροι και αφετέρου το στάδιο µετεπεξεργασίας, για την τοποθέτηση της τροχιάς στο οδικό δίκτυο, προβλέπεται να είναι πιο πολύπλοκο. Επίσης, το tunng είναι πιο δύσκολο

76 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων 100 MSE (m) 10 Unform Thresholds Cur Compresson Factor % Γράφηµα 1: Αλγόριθµος Thresholds Cur, Σύνολο (1X30K), MSE MAE (m) Unform Thresholds Cur Compresson Factor % Γράφηµα 2: Αλγόριθµος Thresholds Cur, Σύνολο (1X30K), MAE AvgDst (m) Unform Thresholds Cur 0.1 Compresson Factor % Γράφηµα 3: Αλγόριθµος Thresholds Cur, Σύνολο (1X30K), AvgDst

77 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων 100 MSE (m) 10 Unform Thresholds Pr Compresson Factor % Γράφηµα 4: Αλγόριθµος Thresholds Pr, Σύνολο (1X30K), MSE MAE (m) Unform Thresholds Pr Compresso Factor % Γράφηµα 5: Αλγόριθµος Thresholds Pr, Σύνολο (1X30K), MAE AvgDst (m) Unform Thresholds Pr 0.1 Compresson Factor % Γράφηµα 6: Αλγόριθµος Thresholds Pr, Σύνολο (1X30K), AvgDst

78 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων MSE (m) Unform Thresholds Pr Compresson Factor % Γράφηµα 7: Αλγόριθµος Thresholds Pr, Σύνολο (1000X500),MSE MAE (m) Unform Thresholds Pr Compresson Factor % Γράφηµα 8: Αλγόριθµος Thresholds Pr, Σύνολο (1000X500),MAE Avg Dst (m) Unform Thresholds Pr Compresson Factor % Γράφηµα 9: Αλγόριθµος Thresholds Pr, Σύνολο (1000X500),AvgDst

79 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Αλγόριθµος πλαγίου ίχνους Ο αλγόριθµος STTrace εµφανίζει πολύ καλύτερη συµπεριφορά από τον unform για κάθε βαθµό συµπίεσης µεγαλύτερο του 1% (Γραφήµατα 10-15). Γενικά, εµφανίζει καλύτερη επίδοση και σε σχέση µε τους αλγορίθµους Thresholds. Βασικό µειονέκτηµα του αλγορίθµου είναι ότι οι υπολογιστικοί χρόνοι ανά πλειάδα έχουν µεγάλη διακύµανση. ηλαδή, µε την πλήρωση της µνήµης, ο αλγόριθµος αναζητά συνεχώς τη λιγότερο σηµαντική πλειάδα του δείγµατος. Όµως, όσο το N αυξάνεται, τόσο το κατώφλι µεγαλώνει, οι εισαγωγές µειώνονται και η αναζήτηση του κατωφλίου γίνεται ολοένα και πιο σπάνια. Για Μ<<N η πολυπλοκότητα ανά πλειάδα είναι πρακτικά σταθερή. Ούτως ή ά λλως, το κόστος αναζήτησης του ελάχιστου κατωφλίου είναι logm, όπου M το σταθερό δείγµα. Συνεπώς, µπορεί να θεωρείται σταθερή. Η µνήµη είναι γνωστή εκ των προτέρων, αφού αποτελεί παράµετρο της εφαρµογής. Αυτό αποτελεί ένα σηµαντικό πλεονέκτηµα του αλγορίθµου. Ο αλγόριθµος µπορεί να γίνει αλγόριθµος γραµµικά αυξανόµενης µνήµης. Η επεξεργασία µπορεί να γίνεται µαζικά ως εξής: Μπορεί να οριστεί παράµετρος που να ορίζει ότι ανά 1000 πλειάδες ο αλγόριθµος θα συγκρατεί 10. Το σφάλµα MAE παρουσιάζει τη σηµαντικότερη βελτίωση, µέχρι και 10 φορές καλύτερο από τον οµοιόµορφο (Γράφηµα 11). Αυτό εξηγείται από την τοπική βελτιστοποίηση που εφαρµόζει ο αλγόριθµος Ο αλγόριθµος µπορεί να υπολογίζει κατώφλια είτε ανά τροχιά είτε για όλο το ρεύµα. Η ιδιότητα αυτή είναι επιθυµητή. Στα πειράµατα χρησιµοποιείται κατώφλι ανά τροχιά. Σε αυτό οφείλεται η φτωχή βελτίωση που επιτυγχάνεται στο σύνολο 1000Χ500 (Γραφήµατα 14,15,16). Στην περίπτωση χρήσης κατωφλίου σε επίπεδο ρεύµατος (το ίδιο για όλες τις τροχιές), τα συνολικά σφάλµατα αναµένονται αισθητά βελτιωµένα. Η «άδικη» µεταχείριση ορισµένων τροχιών, όµως, είναι δεδοµένη. Μελλοντικά θα µπορούσε να διερευνηθεί µία µέση λύση. Στο σύνολο 1Χ30Κ ο αλγόριθµος υπερτερεί αισθητά και των αλγορίθµων Thresholds και φυσικά του Unform (Γραφήµατα 10,11,12). Αυτό δείχνει ότι ο αλγόριθµος αποδίδει πολύ καλά σε συνθήκες µεγάλων εναλλαγών και γενικά σε περιβάλλοντα παραµέτρων τροχιάς, µη γνωστών εκ των προτέρων. Το πλεονέκτηµα αντισταθµίζεται µε την αυξηµένη πολυπλοκότητα του αλγορίθµου. Ο αλγόριθµος επιδέχεται παραµετροποίηση µε κατάλληλη επιλογή των τριών πλειάδων µε βάση τις οποίες υπολογίζεται το πλάγιο ίχνος. Ο αλγόριθµος εµφανίζει ανοχή στη διακύµανση του ρυθµού εισόδου των στοιχείων σε αντίθεση µε τον Unform που δεν έχει χρονική ευαισθησία

80 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων MSE (m) 10 Unform ST Trace Compresson Factor % Γράφηµα 10: Αλγόριθµος STTrace, Σετ (1X30K),MSE MAE (m) 100 Unform ST Trace Compresson Factor % Γράφηµα 11: Αλγόριθµος STTrace, Σετ (1X30K),MΑE Avg Dst (m) 10 Unform ST Trace Compresson Factor % Γράφηµα 12: Αλγόριθµος STTrace, Σετ (1X30K),AvgDst

81 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων MSE (m) Unform ST Trace Compresson Factor % Γράφηµα 13: Αλγόριθµος STTrace, Σετ (1000X500),MSE MAE (m) Unform ST Trace Compresson Factor Γράφηµα 14: Αλγόριθµος STTrace, Σετ (1000X500),MΑE Avg Dst (m) Unform ST Trace Compresson Factor % Γράφηµα 15: Αλγόριθµος STTrace, Σετ (1000X500),AvgDst

82 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων Τοπικές προσεγγίσεις τροχιάς Τα σχήµατα 4.14 a,b,c,d έγιναν µε χρήση του λογισµικού πακέτου ESRI ArcVew 3.2. Όλα τα σχήµατα προέρχονται από πειράµατα µε το σύνολο (1Χ30k). Σε όλα τα σχήµατα υπάρχει µέρος της αυθεντικής τροχιάς, ως ακολουθία στιγµάτων ανά δευτερόλεπτο. Οι µεταβολές της γωνίας παρατηρούνται εύκολα. Οι µεταβολές του µέτρου της ταχύτητας φαίνονται µε παρατήρηση της αλλαγής της πυκνότητας των στιγµάτων. Όλοι οι αλγόριθµοι έχουν τρέξει µε βαθµό συµπίεσης 12%. Η τροχιά κινείται από αριστερά προς τα δεξιά. Στα σχήµατα 4.14a, 4.14b, 4.14c και 4.14d παρουσιάζεται το ίδιο τµήµα της τροχιάς µετά τη δειγµατοληψία µε τους αλγορίθµους Unform, STTrace, Thresholds_Cur και Thresholds_Pr, αντίστοιχα. Οι παράµετροι των αλγορίθµων Thresholds ρυθµίστηκαν στις τιµές: Κατώφλι µεταβολής αζιµουθίου µε βάση την τροχιά: Instant Azmuth = 4.5 ο Κατώφλι µεταβολής ταχύτητας µε βάση την τροχιά: Instant Velocty = 0.45 Κατώφλι µεταβολής αζιµουθίου µε βάση το δείγµα: Sample Azmuth = 22 ο Κατώφλι µεταβολής ταχύτητας µε βάση το δείγµα: Sample Velocty = 1 Παρατηρούµε την χωροχρονική άγνοια του Unform, και την επιτυχή επιλογή σηµείων µεταβολών των STTrace και Thresholds. Επίσης παρατηρούµε την εξοµάλυνση που επιτυγχάνει ο Thresholds_Cur σε σχέση µε τον Thresholds_Pr. O δεύτερος «πιάνει» ακριβώς τις γωνίες, ενώ ο πρώτος πραγµατοποιεί µία µικρή εξοµάλυνση. Τα σχήµατα επιβεβαιώνουν και διαισθητικά τα παραπάνω πειραµατικά αποτελέσµατα. Οι αλγόριθµοι STTrace και Thresholds αγνοούν συνευθειακά σηµεία µε ίδια ταχύτητα, σε αντίθεση µε τον Unform, που αγνοεί, για παράδειγµα, τις µεταβολές που παρατηρούνται στην κυκλική πλατεία. Τα σηµεία, που οι αλγόριθµοι επιλέγουν στις ευθείες, είναι θέσεις, όπου µεταβάλλεται η ταχύτητα. Παρατηρούµε πως και οι τρεις προτεινόµενοι αλγόριθµοι STTrace και Thresholds έχουν επιλέξει περίπου τα ίδια σηµεία. Γίνεται φανερό ότι οι αλγόριθµοι διευκολύνουν την ταυτοποίηση τροχιάς σε δίκτυο

83 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων (a)unform 12% (b) STTrace 12% (c) Thresholds_Cur 12% (d) Thresholds_Pr 12% Σχήµα 4.14: Προσεγγίσεις Τροχιών

84 ειγµατοληψία σε Ρεύµατα Τροχιάς Αντικειµένων

85 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Κεφάλαιο 5 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Εισαγωγή Στο κεφάλαιο αυτό θα παρουσιαστεί µία µέθοδος για την αµνησιακή συµπίεση τροχιών δεδοµένων. Ο αλγόριθµος βασίζεται στη δοµή AmTree (Amnesc Tree - Αµνησιακό ένδρο). Πρόκειται για µία διαδικασία ντετερµινιστικής δειγµατοληψίας βάσει πλειάδων (tuple based). ηλαδή, για κάθε χρονική στιγµή µπορεί να προβλεφθεί ποια στίγµατα της τροχιάς µπορούν να προκύψουν από την δενδρική δοµή. Είναι φανερό ότι ο αλγόριθµος δεν λαµβάνει υπόψη τα χωροχρονικά χαρακτηριστικά της τροχιάς, αλλά λειτουργεί µόνο βάσει χρονοσήµων. Η αµνησιακή συµπεριφορά στα δεδοµένα, οι περιορισµένες απαιτήσεις σε πόρους, η συµπαγής δοµή και η επεξεργασία πραγµατικού χρόνου σχηµατίζουν ένα πλαίσιο λειτουργίας, στενά συνδεδεµένο µε το µοντέλο ρευµάτων δεδοµένων. Η δοµή AmTree, κατάλληλα προσαρµοσµένη, θα αποτελέσει βασικό εργαλείο και για την τήρηση σκίτσων σε επόµενο κεφάλαιο. Στην πρώτη ενότητα θα παρουσιαστούν τα κυµατίδια (wavelets) και ο αντίστοιχος µετασχηµατισµός κυµατιδίων (Wavelet Transformaton - WT), στη δεύτερη ενότητα θα παρουσιαστεί ο αλγόριθµος και η δοµή SWAT που βασίζεται στο µετασχηµατισµό κυµατιδίων. Τα κυµατίδια και η εφαρµογή τους στη δοµή SWAT παρουσιάζονται για δύο λόγους. Πρώτος λόγος είναι η παρουσίαση της πορείας εργασίας. Κατά δεύτερον, αν και δεν χρησιµοποιήθηκαν σε κάποια από τις τελικές επιτυχείς υλοποιήσεις τεχνικών, αποτελούν βασικό εργαλείο της έρευνας στα ρεύµατα δεδοµένων και παρουσιάζονται για λόγους πληρότητας. Η δοµή AmTree που θα παρουσιαστεί ακολούθως είναι βασισµένη στο SWAT. Η δοµή αυτή θα χρησιµοποιηθεί για τη συµπίεση ρεύµατος δεδοµένων τροχιάς

86 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς 5.1 Κυµατίδια (wavelets) Μετασχηµατισµός κυµατιδίων Πρόκειται για µαθηµατικό εργαλείο που επιτρέπει την αποσύνθεση συνεχών ή διακριτών σηµάτων. Είναι φανερό πως η διακριτή µορφή του µετασχηµατισµού είναι αυτή στην οποία θα επικεντρωθεί το ενδιαφέρον στο παρόν κείµενο. Ο µετασχηµατισµός Wavelet µπορεί να παροµοιαστεί µε ένα µαύρο κουτί, το οποίο έχει ως είσοδο το αυθεντικό σήµα και παράγει ως έξοδο το µετασχηµατισµένο σήµα, που δεν είναι άλλο παρά µία άλλη οπτική γωνία της πληροφορίας που εµπεριέχει το αρχικό σήµα. Στην αυθεντική του µορφή ο µετασχηµατισµός είναι µη-απωλεστικός (lossless). Η ιδιότητα που τον κάνει ξεχωριστό αλλά και εξαιρετικά χρήσιµο, είναι ότι προσφέρει έναν κοµψό τρόπο ιεραρχικής αποσύνθεσης και αναπαράστασης του αρχικού σήµατος. Άµεσο αποτέλεσµα της παραπάνω ιδιότητας είναι ότι επιτρέπει αφενός την προσέγγιση του αρχικού σήµατος σε διάφορα επίπεδα λεπτοµέρειας και αφετέρου την απωλεστική (lossy) συµπίεση, µε βάση µία σειρά κριτηρίων, όπως ελαχιστοποίηση του µέσου τετραγωνικού σφάλµατος ή του µέγιστου σχετικού σφάλµατος Εφαρµογές Ο µετασχηµατισµός µπορεί να εφαρµοστεί µε επιτυχία σε µία σειρά από επιστηµονικά πεδία, σε µονοδιάστατα και πολυδιάστατα δεδοµένα. Ενδεικτικά, αναφέρουµε την επεξεργασία συνεχών και διακριτών σηµάτων και τη συµπίεση εικόνας. Στις βάσεις δεδοµένων µπορεί να χρησιµοποιηθεί για ταχεία απάντηση ερωτηµάτων (range-sum queres), για προσεγγιστικές απαντήσεις ερωτηµάτων και για βελτιστοποίηση πλάνων εκτέλεσης ερωτηµάτων. Από την ερευνητική δραστηριότητα που αφορά τα ρεύµατα δεδοµένων, προκύπτει ότι ο µετασχηµατισµός αυτός ενδέχεται να αποτελέσει ένα από τα βασικά συστατικά στοιχεία των Σ Ρ γενικής χρήσης ιακριτός µετασχηµατισµός µε χρήση των Haar Wavelets Θα πραγµατοποιήσουµε την αποσύνθεση του µονοδιάστατου σήµατος A = [ 2,6,9,7,1,5,12,14 ] µε χρήση του µονοδιάστατου Haar Wavelet µετασχηµατισµού

87 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Αρχικά, παράγουµε ηµιαθροίσµατα και ηµιδιαφορές για κάθε ένα από τα τέσσερα διαδοχικά ζευγάρια στοιχείων. Στη συνέχεια, επαναλαµβάνουµε τη διαδικασία για τα ηµιαθροίσµατα που προέκυψαν στο προηγούµενο βήµα, µέχρι να µείνει µόνο ένα ηµιάθροισµα. Στο Σχήµα 5.1 φαίνονται τα παραπάνω βήµατα. Η δενδρική απεικόνιση των συνιστωσών που προκύπτουν από το µετασχηµατισµό, παρουσιάζεται στο Σχήµα 5.2. Οι αρχικές τιµές βρίσκονται στα φύλλα του δένδρου και αναπαράγονται αλγεβρικά, µε προσπέλαση της διαδροµής µέχρι τη ρίζα. Παράδειγµα: 1= + (-2) + (-5) - (-1) + (+7) ιάνυσµα µετασχηµατισµού Ανάλυση: Ανάλυση: Ανάλυση: Μετασχηµατισµός : Σχήµα 5.1: Αποσύνθεση µε χρήση του Haar Wavelet µετασχηµατισµού Σχήµα 5.2: ενδρική απεικόνιση Haar Wavelet συνιστωσών

88 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Η ιδιότητα της ιεραρχικής αποσύνθεσης είναι φανερή από το παραπάνω παράδειγµα. Όσον αφορά την ανασύνθεση του αρχικού σήµατος είναι δυνατόν να γίνει σε διάφορα επίπεδα ανάλυσης. Ο µετασχηµατισµός αποτελείται από 8 στοιχεία, το πρώτο είναι ο µέσος όρος ενώ τα υπόλοιπα 7 είναι συνιστώσες λεπτοµέρειας (wavelet coeffcents). Μία πρώτη εκτίµηση του αρχικού σήµατος αποτελεί το πρώτο στοιχείο του µετασχηµατισµού. Πρόκειται για το µέσο όρο όλων των αρχικών στοιχείων. Έχοντας και το δεύτερο στοιχείο, µπορούµε να προσεγγίσουµε ακόµα περισσότερο το αρχικό σήµα, προσθέτοντας και αφαιρώντας το από το πρώτο στοιχείο. Οι δύο αριθµοί που προκύπτουν, είναι οι µέσοι όροι της πρώτης και της δεύτερης τετράδας των αρχικών στοιχείων, αντίστοιχα. Η διαδικασία επαναλαµβάνεται µέχρι να ανασυνθέσουµε πλήρως το αρχικό σήµα. Εύκολα παρατηρεί κανείς ότι µπορεί να παράγει διαδοχικές προσεγγίσεις του αρχικού σήµατος (Σχήµατα 5.3, 5.4). Πλήθος συνιστωσών Συνιστώσες Προσέγγιση Σχήµα 5.3: Προσεγγίσεις σε διάφορα επίπεδα λεπτοµέρειας Resoluton: 0 Resoluton: 1 Resoluton: 2 Resoluton: Σχήµα 5.4: Το σήµα σε τέσσερα διαφορετικά επίπεδα ανάλυσης (οι πρώτες 4 γραµµές του πίνακα του σχήµατος 5.3)

89 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σηµασία συνιστωσών Η πληροφορία που κρύβει το σήµα δεν µοιράζεται εξίσου στις συνιστώσες λεπτοµέρειας. Η πρώτη συνιστώσα, για παράδειγµα, περιέχει πληροφορία για όλα τα στοιχεία του σήµατος. Παρατηρούµε ότι οι συνιστώσες λεπτοµέρειας εµπεριέχουν δύο «είδη» πληροφορίας. Το πρώτο (θα ονοµαστεί, άτυπα, µήκος συνιστώσας) είναι το πλήθος των στοιχείων που περιγράφουν. Ως παράδειγµα αναφέρεται ότι η µοναδική συνιστώσα του επιπέδου 0 προσφέρει πληροφορία και για τα 8 στοιχεία, ενώ µία εκ των συνιστωσών του επιπέδου 2 προσφέρει πληροφορία για 2 στοιχεία. Το δεύτερο (θα ονοµαστεί, άτυπα, πλάτος συνιστώσας) είναι η τιµή της συνιστώσας. Είναι δηλαδή το µέτρο της διαφοράς των στοιχείων του επόµενου επιπέδου. Και οι δύο διαστάσεις συνεισφέρουν στην ενέργεια που εµπεριέχει κάθε συνιστώσα. Είναι δυνατή η διάταξή τους µε βάση τη συνεισφορά τους στην ελαχιστοποίηση του µέσου τετραγωνικού σφάλµατος. Στην επόµενη ενότητα θα γίνει ανάλυση του µαθηµατικού υποβάθρου του µετασχηµατισµού, η οποία είναι απαραίτητη για την περαιτέρω µελέτη των ιδιοτήτων του, που παρουσιάζουν ενδιαφέρον. Όπως έχει ήδη αναφερθεί, στα ρεύµατα δεδοµένων, το ενδιαφέρον έγκειται στην απωλεστική συµπίεση. Το ερώτηµα που εγείρεται είναι το εξής: Εφόσον ο διαθέσιµος χώρος είναι περιορισµένος, ποιες συνιστώσες θα επιλέξουµε να κρατήσουµε για να ελαχιστοποιήσουµε το σφάλµα που θα ορίσουµε ως κριτήριο «καλής» προσέγγισης; Κανονικοποίηση Ορίζουµε τον wavelet µετασχηµατισµό διακριτού σήµατος Α (DWT- dscrete wavelet transformaton) ως ένα διάνυσµα αποτελούµενο από µία συνιστώσα που εκφράζει το γενικό µέσο όρο, ακολουθούµενη από τις συνιστώσες λεπτοµέρειας, σε σειρά αύξουσας ανάλυσης. Το µεγαλύτερο πλεονέκτηµα της χρήσης του διανύσµατος WT, αντί του αρχικού Α είναι πως στην περίπτωση διανυσµάτων που περιέχουν τις ίδιες περίπου τιµές οι περισσότερες συνιστώσες λεπτοµέρειας τείνουν να έχουν πολύ µικρές τιµές. Οπότε, αποµακρύνοντας τέτοιες «µικρές» συνιστώσες από τον wavelet µετασχηµατισµό (θεωρώντας πως έχουν µηδενική τιµή), προκύπτουν πολύ µικρά λάθη κατά την ανακατασκευή των αρχικών δεδοµένων. Επιτυγχάνεται, δηλαδή, µία πολύ καλή απωλεστική συµπίεση. ιαισθητικά, αφού οι διαστάσεις µήκους και πλάτους ποικίλλουν από συνιστώσα σε συνιστώσα, κάθε συνιστώσα λεπτοµέρειας φέρει διαφορετικό βάρος στην ανακατασκευή του σήµατος. Προκειµένου να εξισώσουµε τη σηµασία όλων των συνιστωσών, πραγµατοποιούµε κανονικοποίηση στις τιµές του διανύσµατος του WT. Η κανονικοποίηση γίνεται µε διαίρεση κάθε συνιστώσας µε τον παράγοντα όπου l το επίπεδο ανάλυσης στο οποίο προκύπτει. l 2,

90 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Εποµένως για το σήµα: A = [ 2,6,9,7,1,5,12,14 ] το κανονικοποιηµένο διάνυσµα Wavelet είναι W A = 7, 2 5,1,, 2 2 2, 2 2 4, 2 2, Προσέγγιση Β-όρων Έστω ότι η διαθέσιµη µνήµη για την αποθήκευση του σήµατος A έχει µέγεθος B στοιχεία. Κρατώντας τις B µεγαλύτερες (κατά απόλυτη τιµή) συνιστώσες του µετασχηµατισµού και θεωρώντας τις υπόλοιπες 0 πραγµατοποιούµε προσέγγιση Β-όρων (B-term approxmaton) στην ανακατασκευή του σήµατος, ελαχιστοποιώντας το µέσο τετραγωνικό σφάλµα (MSE). Ορίζουµε ως διάνυσµα του WT της προσέγγισης Β-όρων. Για το σήµα Α έχουµε: W το B A W W W... 1 A 2 A 3 A = [ 7,0,0,0,0,0,0,0] 5 = 7,0,0,,0,0,0,0 2 5 = 7,0,1,,0,0,0,0 2 Στο σχήµα 5.5, παρατηρούµε την εφαρµογή προσέγγισης Β-όρων στη συµπίεση εικόνας, µία δηµοφιλή εφαρµογή των κυµατιδίων. Στο σχήµα 5.6 βρίσκεται ο αλγόριθµος του διακριτού µετασχηµατισµού Haar κυµατιδιών. Σχήµα 5.5: Αποτέλεσµα συµπίεσης µε προσέγγιση Β-όρων σε εικόνα. (a)αρχική εικόνα. (b)λόγος συµπίεσης 19% µε σχετικό σφάλµα 5%. (c)λόγος συµπίεσης 3% µε σχετικό σφάλµα 10%. (d) Λόγος συµπίεσης 1% µε σχετικό σφάλµα 15% (Πηγή: [SDS95])

91 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς procedure DecompostonStep(C: array [1.. h] of reals) for <- 1 to h/2 do C [] <- (C[2-1] + C[2])/ 2 C [h/2 + ] <- (C[2-1] - C[2])/ 2 end for C <- C end procedure procedure Decomposton(C: array [1.. h] of reals) C <- C/ h (normalze nput coeffcents) whle h > 1 do DecompostonStep(C[1.. h]) h <- h/2 end whle end procedure Σχήµα 5.6: Αλγόριθµος µονοδιάστατου Haar Wavelet µετασχηµατισµού Πολυδιάστατος µετασχηµατισµός Wavelet Ο µετασχηµατισµός Wavelet για πολυδιάστατα δεδοµένα υλοποιείται µε δύο τρόπους. Στα Σχήµατα 5.7 και 5.8 παρουσιάζονται οι αλγόριθµοι για τον Standard και τον NonStandard µετασχηµατισµό. Περισσότερες λεπτοµέρειες για τον Haar Wavelet µετασχηµατισµό υπάρχουν στο [SDS95]. procedure StandardDecomposton(C: array [1.. h, 1.. w] of reals) for row <- 1 to h do Decomposton(C[row, 1.. w]) end for for col <- 1 to w do Decomposton(C[1.. h, col]) end for end procedure Σχήµα 5.7: Standard Αλγόριθµος δισδιάστατου Haar Wavelet µετασχηµατισµού procedure NonstandardDecomposton(C: array [1.. h, 1.. h] of reals) C <- C/h (normalze nput coeffcents) whle h > 1 do for row <- 1 to h do DecompostonStep(C[row, 1.. h]) end for for col <- 1 to h do DecompostonStep(C[1.. h, col]) end for h <- h/2 end whle end procedure Σχήµα 5.8: NonStandard Αλγόριθµος δισδιάστατου Haar Wavelet µετασχηµατισµού

92 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Μετασχηµατισµός Wavelet σε πραγµατικό χρόνο Οι ιδιότητες του µετασχηµατισµού είναι επιθυµητές για εφαρµογές σε ρεύµατα δεδοµένων. υστυχώς, η πολυπλοκότητα του µετασχηµατισµού δεν επιτρέπει τη χρήση του σε πραγµατικό χρόνο. ιάφορες τεχνικές έχουν προταθεί για την προσέγγιση του µετασχηµατισµού σε πραγµατικό χρόνο. Ο αλγόριθµος SWAT, που θα περιγραφεί παρακάτω, είναι µία τεχνική που δεν υπολογίζει τον πλήρη µετασχηµατισµό, αλλά τηρεί διαρκώς µία δοµή που έχει το εξής χαρακτηριστικό. Όσο πιο πρόσφατα είναι τα στοιχεία, τόσο περισσότερες συνιστώσες τα συνοψίζουν Επιθυµητός Αλγόριθµος Σε συστήµατα ρευµάτων δεδοµένων επιθυµούµε δοµές που τηρούν πάντα την προσέγγιση Β-όρων ενός σήµατος. Το Β µπορεί να είναι ποσοστό του Ν, όπου Ν το τρέχον µέγεθος του σήµατος. Ο αλγόριθµος για την ενηµέρωση τέτοιας δοµής πρέπει να λειτουργεί σε πραγµατικό χρόνο (ιδανικά µε επεξεργασία ανά στοιχείο). Ένας τέτοιος αλγόριθµος θα ελαχιστοποιούσε το MSE για δεδοµένη µνήµη. Από την έρευνα έχει προκύψει ότι ένας τέτοιος αλγόριθµος δεν µπορεί να υπάρξει. Έχουν προταθεί, όµως, άλλοι αλγόριθµοι που πραγµατοποιούν εκτίµηση της προσέγγισης Β-όρων σε αποδεκτούς χρόνους. Αντίστοιχο πρόβληµα υπάρχει και µε τις τεχνικές συµπίεσης χωροχρονικών δεδοµένων, που παρουσιάστηκαν στο κεφάλαιο 3. Οι αλγόριθµοι δίνουν τα επιθυµητά αποτελέσµατα, όµως, οι επιδόσεις τους για ρεύµατα δεδοµένων, τους καθιστούν απαγορευτικούς για εφαρµογές πραγµατικού χρόνου. 5.2 Αλγόριθµος SWAT Ιεραρχική προσέγγιση περίληψης ρευµάτων µε δενδρική αναπαράσταση κυµατιδίων Η δοµή SWAT (Stream summarzaton usng Wavelet-based Approxmaton Tree) χρησιµοποιείται για τη δηµιουργία και ενηµέρωση σε πραγµατικό χρόνο ιεραρχικών περιλήψεων ρευµάτων δεδοµένων [BS03]. Αποτελεί ένα σχήµα εκτίµησης ρεύµατος δεδοµένων βασισµένο σε µετασχηµατισµό Wavelet µε την ικανότητα να κρατά πολλαπλά επίπεδα λεπτοµέρειας της πληροφορίας. Ο αλγόριθµος υπολογίζει σε πραγµατικό χρόνο (onlne) συνιστώσες wavelet του εισερχόµενου ρεύµατος και χρησιµοποιεί δενδρική δοµή για να τις αποθηκεύει. Η πληροφορία που συγκρατεί η δοµή, έχει εκθετικά αµνησιακό χαρακτήρα. ηλαδή, η εκτίµηση για τα πιο πρόσφατα δεδοµένα είναι ακριβέστερη από την εκτίµηση για παλαιότερα δεδοµένα. Για την περιγραφή που ακολουθεί, θεωρούµε ρεύµα δεδοµένων που αποτελείται από στοιχεία..., d,..., d, d 1 0, όπου d 0 είναι το πιο πρόσφατο στοιχείο του ρεύµατος

93 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Το τυπικό ερώτηµα που απαντά η δοµή είναι το ερώτηµα εσωτερικού γινοµένου. Αυτό ορίζεται από µία τριπλέτα (Ι, W, δ), όπου I είναι ένα διάνυσµα από δείκτες (στοιχεία που ενδιαφέρουν), W είναι ένα διάνυσµα βαρών και δ η ακρίβεια στην οποία επιθυµούµε να υπολογιστεί το I W. Αν το -στο στοιχείο έχει τιµή d και προσεγγίζεται µε την τιµή a τότε [] d I a ( ) δ W [ ] I[ ]. Τα ερωτήµατα που ενδιαφέρουν είναι τα εκθετικά και τα γραµµικά ερωτήµατα εσωτερικού γινοµένου. Οι όροι αυτοί αναφέρονται στα βάρη. Έτσι ένα εκθετικό ερώτηµα µπορεί να είναι το ([ 0,1,2,3][, 8,4,2,1 ],20), ενώ ένα γραµµικό το ([ 7,8,9,10][, 4,3,2,1 ],40). Τα σηµειακά ερωτήµατα είναι ερωτήµατα που αφορούν ένα 15, 1,30 σηµείο, όπως το ερώτηµα ([ ][] ) Προσεγγίσεις πολλαπλών αναλύσεων Χρησιµοποιούµε ένα σχήµα βασισµένο σε wavelet µετασχηµατισµό, για τον υπολογισµό προσεγγίσεων διαφορετικής ανάλυσης (λεπτοµέρειας). Κάποιος µπορεί να επιλέξει την προσέγγιση ενός ρεύµατος σε οποιοδήποτε επίπεδο 0 n 1, όπου n= log N. Ο αριθµός N είναι είτε το µέγεθος tuple-based του ολισθαίνοντος παραθύρου (sldng wndow mode) είτε το πλήθος των πλειάδων ως την παρούσα χρονική στιγµή (landmark wndow mode). Οι προσεγγίσεις φαίνονται στο Σχήµα 5.9 για N = 16. Μία προσέγγιση επιπέδου 3 παρέχει µία περίληψη των στοιχείων [ 0,...,15]. Μία προσέγγιση επιπέδου 2 παρέχει 2 σύνολα τιµών : µία περίληψη των στοιχείων [ 0,...,7] και µία περίληψη των στοιχείων [ 8,...15]. Μία προσέγγιση επιπέδου 1 παρέχει περίληψη µε τρία σύνολα τιµών. Το πρώτο είναι περίληψη για τα στοιχεία [ 0,...,3], το δεύτερο για τα στοιχεία [ 4,...,7], και το τρίτο για τα στοιχεία [,...,15] 8. Στη γενική περίπτωση, µία περίληψη επιπέδου διαµερίζει τα τελευταία N στοιχεία του ρεύµατος [ 0,..., N 1] σε n τµήµατα. Έστω A η περίληψη επιπέδου. Τότε n A = [0,...,2 1], και για κάθε, 0 n 2 n 1 είναι + 2 A = {[0,...2 1]} U {[0,...,2 1],[2,..., A + 1 Από την αναδροµική αυτή σχέση φαίνεται πως µία προσέγγιση επιπέδου +1 µπορεί να προκύψει από την προσέγγιση επιπέδου, συνδυάζοντας τα πρώτα δύο τµήµατα έτσι ώστε να παραχθεί ένα τµήµα. Αυτός ο συνδυασµός µπορεί να γίνει υπολογιστικά µε τη χρήση µετασχηµατισµού wavelet. 1]}

94 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.9: Η δοµή SWAT για 16 στοιχεία Επεξήγηση δοµής Στο Σχήµα 5.9 αποτυπώνεται η δενδρική δοµή SWAT. Σε κάθε επίπεδο του δέντρου υπάρχουν τρεις κόµβοι. Οι κόµβοι είναι από τα δεξιά προς τα αριστερά οι εξής: Rght node (R), Shft node (S), Left node (L). Το υψηλότερο επίπεδο του δέντρου έχει µόνο R-node. Η πληροφορία του κόµβου R θα µεταφερθεί στον κόµβο L µετά από κατάλληλο χρονικό διάστηµα. Οι κόµβοι S δρουν ως ενδιάµεσοι κόµβοι σε αυτή τη διαδικασία. Οι κόµβοι του επιπέδου συµβολίζονται µε R, S, L. Ένα δέντρο SWAT που προσεγγίζει N τιµές έχει ύψος log N. Για τον υπολογισµό των προσεγγίσεων µπορεί να χρησιµοποιηθεί οποιαδήποτε βάση µετασχηµατισµού wavelet, όπως Haar, Daubeches, Coflets, Symlets, Meyer. Για δεδοµένη βάση, µπορούµε να χρησιµοποιήσουµε οποιοδήποτε αριθµό από συνιστώσες µετασχηµατισµού wavelet σε κάθε κόµβο για να προσεγγίσουµε το αρχικό ρεύµα. Οι συνιστώσες ενός κόµβου R µπορούν να προκύψουν µε ευθύ µετασχηµατισµό wavelet στις συνιστώσες των κόµβων R 1 και L 1. Στην παρουσίαση των διαδικασιών, που αφορούν τη δοµή του SWAT, θα υποθέσουµε ότι εφαρµόζουµε στο ρεύµα ολισθαίνον παράθυρο µεγέθους N πλειάδων και ότι χρησιµοποιείται η βάση Haar καθώς και ότι κάθε κόµβος περιέχει µία συνιστώσα του µετασχηµατισµού (1 η - γενικός µέσος όρος)

95 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Ενηµέρωση δοµής Σε κάθε άφιξη νέου στοιχείου, η πληροφορία για τα τελευταία N στοιχεία αλλάζει και αντίστοιχα αλλάζει και η δοµή έτσι ώστε να είναι διαρκώς επίκαιρη (up-to-date). Ο αλγόριθµος ενηµέρωσης λειτουργεί έτσι ώστε οι προσεγγίσεις των διαφόρων επιπέδων να ενηµερώνονται µε διαφορετικούς ρυθµούς. Οι προσεγγίσεις του επιπέδου 0 ανανεώνονται κάθε χρονική µονάδα (ταυτίζουµε την άφιξη νέου στοιχείου µε τη χρονική µονάδα), του επιπέδου 1 κάθε 2 χρονικές µονάδες, του επίπεδου 3 κάθε 4 χρονικές µονάδες και γενικά του επιπέδου κάθε 2 χρονικές µονάδες. Εξαίρεση αποτελεί το επίπεδο n= log N, το οποίο ανανεώνεται µε την ανανέωση του επιπέδου n 1 κάθε 2 n 1 χρονικές µονάδες. Η καθυστέρηση στις διαδικασίες ενηµέρωσης έχει ως αποτέλεσµα, η παρούσα προσέγγιση ενός µηενηµερωµένου κόµβου να αναφέρεται σε ένα τµήµα του ρεύµατος του παρελθόντος. Για παράδειγµα, θεωρούµε ένα κόµβο του επιπέδου 2. Ο κόµβος αυτός συνοψίζει το τµήµα [,...,15] [ 9,...,16], µετά από δύο χρονικές µονάδες το τµήµα [,...,17] χρονικές µονάδες το τµήµα [,...,18] κόµβος ανανεώνεται και συνοψίζει το τµήµα [ 8,...,15]. 8. Μετά από µία χρονική µονάδα, ο κόµβος συνοψίζει το τµήµα 10, µετά από τρεις 11, ενώ µετά από τέσσερις χρονικές µονάδες ο Για την επεξήγηση του αλγορίθµου θεωρούµε το Σχήµα 5.10 µε τη διαδοχική άφιξη 6 στοιχείων. Τη χρονική στιγµή t = 0, όλοι οι κόµβοι είναι ενηµερωµένοι. Για t = 1, τα περιεχόµενα του κόµβου S 0 ( 14 2 ) ολισθαίνουν στον κόµβο L 0, τα περιεχόµενα του κόµβου R 0 ( 26 2) ολισθαίνουν στον κόµβο S 0 και τα περιεχόµενα του R 0 υπολογίζονται από τα δύο τελευταία στοιχεία του ρεύµατος (( ) 2= 18 2 ). Οι κόµβοι των υψηλότερων επιπέδων υστερούν αυτόµατα κατά µία χρονική µονάδα. Τη χρονική µονάδα t = 2 εισέρχεται το στοιχείο µε τιµή 6. Το επίπεδο 0 ανανεώνεται ως εξής: τα περιεχόµενα του κόµβου S 0 ( 26 2 ) ολισθαίνουν στον κόµβο L 0, τα περιεχόµενα του κόµβου R 0 ( 18 2 ) ολισθαίνουν στον κόµβο S 0 και τα περιεχόµενα του R 0 υπολογίζονται από τα δύο τελευταία στοιχεία του ρεύµατος ( 4 + 6= 10 2 ). Οι κόµβοι του επιπέδου 1 ανανεώνονται ως εξής: τα περιεχόµενα του κόµβου S 1 ( 8 4 ) ολισθαίνουν στον κόµβο L 1, τα περιεχόµενα του κόµβου R 1 ( 32 4 ) ολισθαίνουν στον κόµβο S 1 και τα περιεχόµενα του R 0 υπολογίζονται από τα περιεχόµενα των κόµβων R 0 και L = 36 ). Στο Σχήµα 5.10 φαίνονται και τα στιγµιότυπα του ( ( ) 4 δέντρου για τις επόµενες τρεις χρονικές στιγµές

96 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.10: Ενηµέρωση δοµής για 5 διαδοχικές αφίξεις Ο πλήρης αλγόριθµος φαίνεται στο Σχήµα Για κάθε στοιχείο, πρώτα υπολογίζεται η παράµετρος max_level, η οποία ισούται µε το υψηλότερο επίπεδο το οποίο θα ενηµερωθεί την παρούσα χρονική µονάδα. Η ενηµέρωση ξεκινά πάντα από το επίπεδο 0 και καταλήγει στο επίπεδο max_level. Η ενηµέρωση του επιπέδου έγκειται στην ολίσθηση των περιεχοµένων του κόµβου S στον κόµβο L, των περιεχοµένων του κόµβου περιεχοµένων του κόµβου R στον S, και στον υπολογισµό των νέων R και L 1. R από τα περιεχόµενα των κόµβων 1 Procedure Update_Tree max_level:=hghest propagaton level for ncomng data; l:=0; whle l max_level do contents(l l ):= contents(s l ); contents(s l ):= contents(r l ); contents(r l ):= DWT(R l-1, L l-1 ); l:=l+1; end whle end procedure Σχήµα 5.11: Αλγόριθµος ενηµέρωσης δοµής

97 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Απάντηση σε ερωτήµατα Με χρήση της δοµής SWAT µπορούν να απαντηθούν σηµειακά ερωτήµατα, ερωτήµατα παραθύρου και ερωτήµατα εσωτερικού γινοµένου (pont / range / nner product queres). Ι. Σηµειακά ερωτήµατα και ερωτήµατα παραθύρου Ένα σηµειακό ερώτηµα είναι ένα απλό ερώτηµα εσωτερικού γινοµένου µε µία τιµή και βάρος 1. Για την απάντηση ενός τέτοιου ερωτήµατος χρειάζεται O ( 1) χρόνος για την επιλογή του κόµβου που προσεγγίζει το σηµείο. Για την εφαρµογή ανάστροφου µετασχηµατισµού στις συνιστώσες wavelet και την εξαγωγή της σηµειακής τιµής χρειάζεται χρόνος O( log N). Ένα ερώτηµα παραθύρου καθορίζεται από ένα σηµείο p, µία ακτίνα ε, και ένα χρονικό διάστηµα [ t start t end ]. Ζητούνται όλες οι τιµές που βρίσκονται στο ορθογώνιο που σχηµατίζεται στο δισδιάστατο σύστηµα χρόνου-πεδίου τιµών. p ε Το ορθογώνιο t start, p+ε. Οι ορίζεται από τη διαγώνιο µε άκρα τα σηµεία ( t end, ) και ( ) προσεγγίσεις που εντοπίζονται είναι O( log N) ενώ ο χρόνος για την εξαγωγή των. Περισσότερες λεπτοµέρειες για την απάντηση ερωτηµάτων υπάρχουν στο [BS03]. Για την απάντηση σε ερωτήµατα nner product, διαµερίζουµε το ερώτηµα, το πολύ σε 3 log N τµήµατα, ένα για κάθε κόµβο του δέντρου και υπολογίζουµε τους ανάστροφους µετασχηµατισµούς για κάθε τµήµα ξεχωριστά. Ο αλγόριθµος θα παρουσιαστεί µέσα από το ακόλουθο παράδειγµα. 2 σηµείων είναι O( log N) ΙΙ. Ερωτήµατα εσωτερικού γινοµένου Έστω ένα ερώτηµα Q που χαρακτηρίζεται από την τριπλέτα ([ 0,3,8,13][, 10,8,4,1 ],50), το οποίο υποβάλλεται στο στιγµιότυπο του Σχήµατος 5.10d. ιασχίζουµε το δέντρο από το χαµηλότερο επίπεδο προς τα πάνω και τους κόµβους µε σειρά R S L. Εξετάζουµε αν ο κόµβος προσεγγίζει κάποια από τις τιµές του ερωτήµατος. Σχηµατίζουµε ένα σύνολο V από κόµβους που θα χρησιµοποιηθούν στην απάντηση του ερωτήµατος. Το σύνολο V είναι αρχικά κενό. Ξεκινάµε από το επίπεδο 0. Ο κόµβος R 0 προσεγγίζει τα [ 0 1] και το ερώτηµα περιλαµβάνει το στοιχείο 0. Συνεπώς, ο κόµβος R 0 εισάγεται στο V. Ο κόµβος S 0 προσεγγίζει τα [ 1 2] και συνεπώς δεν εισέρχεται στο V. Ο κόµβος L 0 προσεγγίζει τα [ 2 3]. Το ερώτηµα περιλαµβάνει το σηµείο 3 και συνεπώς και ο κόµβος L 0 προστίθεται στο V. Συνεχίζουµε µε το επόµενο επίπεδο. Ο κόµβος L 1 προστίθεται στο σύνολο αφού παρέχει προσέγγιση για το στοιχείο 8. Όµοια, κατά τη διάσχιση του επιπέδου 2, προκύπτει ότι ο κόµβος S 2 παρέχει προσέγγιση για το στοιχείο 13 και συνεπώς προστίθεται στο V. Τώρα, το σύνολο είναι V = R, L, L S και έχουν βρεθεί οι κόµβοι που παρέχουν την καλύτερη { } 0 0 1,

98 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς προσέγγιση για κάθε µία από τις ζητούµενες τιµές. Συνεπώς, η διάσχιση του δένδρου τερµατίζει. Στους κόµβους του συνόλου V εφαρµόζεται αντίστροφος µετασχηµατισµός Wavelet για την ανακατασκευή της αρχικής πληροφορίας. Το σύνολο V περιέχει το πολύ 3 log N κόµβους. Το κόστος σε χρόνο προκύπτει 2 O ( log N) ). Για τον υπολογισµό της απάντησης, το κόστος είναι O ( M), όπου M το µέγεθος του ερωτήµατος nner product. Ο πλήρης αλγόριθµος υπάρχει στο [BS03]. Οι κόµβοι διασχίζονται από κάτω προς τα πάνω και από δεξιά προς τα αριστερά. Κάθε κόµβος εξετάζεται, αν περιέχει πληροφορία για τα στοιχεία του ερωτήµατος. Σχηµατίζεται, έτσι, το σύνολο V. Ακολουθεί η εφαρµογή του αντίστροφου µετασχηµατισµού wavelet στους κόµβους του V. Στη γενική περίπτωση, σε ένα κόµβο του επιπέδου l, πρέπει να εφαρµοστεί l + 1 φορές ο αντίστροφος µετασχηµατισµός wavelet Ανάλυση πολυπλοκότητας Έστω T δοµή SWAT µε k συνιστώσες που λειτουργεί µε ολισθαίνον παράθυρο µεγέθους N. Υπολογίζουµε την πολυπλοκότητα χώρου, την πολυπλοκότητα της ενηµέρωσης και τα περιθώρια σφάλµατος. Το δέντρο T έχει 3log N 2 κόµβους. Κάθε κόµβος διατηρεί k συνιστώσες. Συνεπώς, η πολυπλοκότητα χώρου είναι O( ( 3 log N 2) k) = O( k log N). Υπολογίζουµε την πολυπλοκότητα ενηµέρωσης ως τον αριθµό των απλών λειτουργιών που γίνονται κατά τη διάρκεια ενός πλήρους κύκλου N ενηµερώσεων. Υπάρχουν το πολύ 3 κόµβοι σε κάθε επίπεδο. Κάθε κόµβος επιπέδου l l l ενηµερώνεται µετά 2 αφίξεις. Συνεπώς, ένας κόµβος ενηµερώνεται N 2 φορές σε έναν πλήρη κύκλο N αφίξεων. Κάθε ενηµέρωση κόµβου κοστίζει O ( k). Άρα, η συνολική πολυπλοκότητα για την άφιξη N στοιχείων προκύπτει log N N 1 3 O( k) = O( kn) l l = Συµπίεση τροχιάς δεδοµένων µε βάση τις συνιστώσες ταχύτητας µε χρήση του SWAT Ι. Περιγραφή Για την παρούσα εργασία, υλοποιήθηκε ο αλγόριθµος SWAT και χρησιµοποιήθηκε για την αµνησιακή συµπίεση τροχιών δεδοµένων µε βάση τις συνιστώσες ταχύτητας. Τα αποτελέσµατα της υλοποίησης δεν ήταν ικανοποιητικά και γι αυτό η τεχνική θα παρουσιαστεί συνοπτικά. Η υλοποίηση συνοψίζεται στα εξής: Ορίζουµε µία δοµή για να δώσουµε αίσθηση χρόνου στον αλγόριθµο. Πρόκειται για ένα δέντρο πανοµοιότυπο σε µορφή και λειτουργία, µε τη βασική δοµή SWAT, που σε κάθε κόµβο συγκρατεί τα χρονόσηµα των στοιχείων, τα οποία συνοψίζει ο αντίστοιχος κόµβος του SWAT. Καθώς τα στίγµατα καταφτάνουν προς επεξεργασία, εξάγεται από

99 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς διαδοχικά στίγµατα η προκύπτουσα ταχύτητα στον άξονα xx και στον άξονα y y. Οι δύο συνιστώσες ταχύτητας σχηµατίζουν δύο νέα ρεύµατα δεδοµένων καθένα από τα οποία ενηµερώνει µία δοµή SWAT. ΙΙ. Αναγωγή των χωροχρονικών δεδοµένων στο πεδίο της ταχύτητας Η δοµή SWAT και οι σχετικοί αλγόριθµοι αποτελούν τον πυρήνα της εφαρµογής που αναπτύχθηκε κατά την εκπόνηση της παρούσας διπλωµατικής εργασίας. Η δοµή SWAT αναπτύχθηκε για µονοδιάστατα ρεύµατα. Τα χωροχρονικά δεδοµένα για επίπεδο χώρο είναι τρισδιάστατα. Η ενηµέρωση δύο πανοµοιότυπων δοµών SWAT, µία για τη χωρική x συνιστώσα και µία για την y, οδηγεί στην απώλεια χρονικής αίσθησης της πληροφορίας. Εφαρµόζοντας µετασχηµατισµό της τρισδιάστατης χωροχρονικής πληροφορίας ( x, y, t) στο δισδιάστατο πεδίο της v,, ο χρόνος υπεισέρχεται πλέον στις δύο συνιστώσες της ταχύτητας ( ) x v y ταχύτητας. Η πληροφορία, που διατηρεί το δέντρο έχει πλέον την έννοια µέσης ταχύτητας. Παρατηρούµε ότι, από το τελευταίο στοιχείο του ρεύµατος χωροχρονικών δεδοµένων, την εκτίµηση της ταχύτητας µε την οποία το κινούµενο αντικείµενο κατέληξε σε αυτό και το χρονικό διάστηµα που µεσολάβησε, µπορούµε να εκτιµήσουµε την προηγούµενη θέση του. Η τεχνική που παρουσιαζεται περιλαµβάνει ένα στάδιο προεπεξεργασίας του ρεύµατος για την εξαγωγή των δύο συνιστωσών της ταχύτητας. Η δοµή που συνοψίζει την τροχιά αποτελείται από δύο δέντρα SWAT, ένα για την συνιστώσα v x και ένα για την συνιστώσα y v, και ένα δέντρο παρεµφερές µε το SWAT που συγκρατεί τα χρονικά διαστήµατα ( t start, t end ) στα οποία αναφέρεται κάθε κόµβος. Το χρονικό δέντρο δίνει στη δοµή χρονική συνείδηση και αίρει τον περιορισµό που τίθεται στον αυθεντικό SWAT αλγόριθµο και επιβάλλει το σταθερό ρυθµό άφιξης δεδοµένων (σε επίπεδο χρονοσήµων). Η ενηµέρωση των δύο πρώτων γίνεται όπως και στον αυθεντικό SWAT, ενώ η ενηµέρωση του χρονικού δέντρου είναι παρεµφερής. Η δοµή κρίθηκε ανεπαρκής για την ανακατασκευή της προσέγγισης της αρχικής τροχιάς. Ο λόγος είναι ότι δηµιουργούνται χρονικά κενά, για τα οποία η ταχύτητα είναι άγνωστη, και συνεπώς η προσέγγιση της τροχιάς δεν είναι δυνατή. Εντούτοις, αποτελεί τη βάση για την ανάπτυξη του πλαισίου λειτουργίας της δοµής AmTree και τη λειτουργία της για τη συµπίεση τροχιάς βάσει διανυσθέντων διαστηµάτων, όπως περιγράφεται στην επόµενη ενότητα

100 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς 5.3 Αµνησιακό ένδρο για διαστήµατα µετατοπίσεων Ανάγκη για δοµή αµνησιακής συµπίεσης τροχιών δεδοµένων Στην ενότητα αυτή, το ενδιαφέρον επικεντρώνεται στην ανάπτυξη δοµής, πλήρως συµβατής µε το µοντέλο ρευµάτων δεδοµένων, για την εκθετικά αµνησιακή συµπίεση δεδοµένων τροχιών κινούµενων αντικειµένων. Θα περιγραφεί το αµνησιακό δένδρο (AmTree) το οποίο συγκρατεί διαδοχικά διαστήµατα, αφαιρώντας σταδιακά (µε εκθετική συµπεριφορά) λεπτοµέρεια από τα δεδοµένα. Η δοµή είναι συµπαγής και σχεδιασµένη για λειτουργία σε πραγµατικό χρόνο. Η δοµή µπορεί να χρησιµοποιηθεί για την ανακατασκευή της τροχιάς και εκτίµηση σε οποιοδήποτε χωροχρονικό ερώτηµα (π.χ. ερώτηµα χωροχρονικού παραθύρου) και για απάντηση ερωτηµάτων εσωτερικού γινοµένου µε εκθετικά και γραµµικά βάρη. Ένα ερώτηµα εσωτερικού γινοµένου θα µπορούσε να είναι: «Να πραγµατοποιηθεί πρόβλεψη της τρέχουσας ταχύτητας του κινούµενου αντικειµένου µε βάση την ιστορία της κίνησης». Αυτό µπορεί να γίνει ως εξής: Θεωρούµε ότι η πρόβλεψη επηρεάζεται περισσότερο από την πιο πρόσφατη πληροφορία και λιγότερο από την παλιά. Σε συνάρτηση µε τις παραµέτρους της κίνησης, τα βάρη που υπεισέρχονται µπορεί να έχουν εκθετική ή γραµµική συµπεριφορά Αναπαράσταση τροχιάς µε διαστήµατα χρονικής περιόδου Θεωρούµε την προβολή τµηµατικά γραµµικής τροχιάς κινούµενου αντικειµένου στο χωρικό επίπεδο (Σχήµα 5.12). Τα άκρα των διαδοχικών γραµµικών τµηµάτων της τροχιάς αποτελούν ακολουθία διαδοχικών στιγµάτων (χρονοσηµασµένων θέσεων). ιαισθητικά, παρατηρούµε ότι αν έχουµε στη διάθεσή µας τα διανυθέντα διαστήµατα κατά xx και κατά y y µεταξύ διαδοχικών χρονικών περιόδων, καθώς και την τελευταία χωρική θέση στην οποία βρέθηκε το αντικείµενο, µπορούµε να αναπαράγουµε την αρχική τροχιά. Αυτό επιτυγχάνεται εφαρµόζοντας αντίστροφα τα διαστήµατα από την πιο πρόσφατη θέση και καταλήγοντας τελικά στην πιο παλαιά. Φυσικά, ένας µετασχηµατισµός του ρεύµατος χωροχρονικών θέσεων σε ρεύµα χωροχρονικών διαστηµάτων, δεν προσφέρει κάποιο άµεσο κέρδος. Το µόνο πλεονέκτηµα είναι ότι τα διαστήµατα dx και dy είναι µικροί αριθµοί, σε αντίθεση µε τις συντεταγµένες x και y, των οποίων το µέγεθος εξαρτάται από το σύστηµα µέτρησης γεωγραφικών συντεταγµένων. Στην περιγραφή, που ακολουθεί, ο µετασχηµατισµός του ρεύµατος στιγµάτων σε ρεύµα διαστηµάτων είναι ένα απλό στάδιο επεξεργασίας, µε επεξεργασία ανά στοιχείο. Το στάδιο αυτό προηγείται του βασικού επεξεργαστικού σταδίου που πραγµατοποιεί την αµνησιακή συµπίεση της τροχιάς

101 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.12: Προβολή τροχιάς στο χωρικό επίπεδο. Οι θέσεις είναι χρονοσηµασµένες ενώ τα διαστήµατα αριθµώνται µε χρήση του λατινικού αλφαβήτου οµή του αµνησιακού δένδρου Η δοµή AmTree είναι ένα δέντρο αµνησιακής ιεραρχικής συµπίεσης δεδοµένων µε αίσθηση χρόνου (tme awareness). Η λειτουργία του γίνεται σε ρεύµατα δεδοµένων (onlne). Το AmTree βασίζεται στη δοµή SWAT, της οποίας έχει γίνει επισκόπηση στην προηγούµενη ενότητα. Οι κόµβοι του δέντρου διακρίνονται σε δεξιούς R-κόµβους και αριστερούς L- κόµβους. Σε κάθε επίπεδο του δέντρου υπάρχει ακριβώς ένας R-κόµβος και ένας L- κόµβος, εκτός από το επίπεδο της ρίζας, όπου υπάρχει µόνο ένας R-κόµβος. Σύµφωνα µε την παραπάνω θεώρηση του ρεύµατος διαστηµάτων, η στοιχειώδης πληροφορία, που διαχειρίζεται το σύστηµα, είναι ένα διάστηµα που αναφέρεται σε µία στοιχειώδη χρονική περίοδο. Ως στοιχειώδη χρονική περίοδο ορίζουµε τη χρονική περίοδο µεταξύ διαδοχικών στιγµάτων του αρχικού ρεύµατος δεδοµένων. Κάθε κόµβος του επιπέδου 0 αναφέρεται σε µία στοιχειώδη χρονική περίοδο (ή σε δύο διαδοχικά στίγµατα). Κάθε κόµβος του επιπέδου 1 σε 2 στοιχειώδεις χρονικές περιόδους. Αντίστοιχα, κάθε κόµβος του επιπέδου 2 αναφέρεται σε 4 στοιχειώδεις χρονικές περιόδους. Γενικά, ένας κόµβος επιπέδου n n καλύπτει 2 στοιχειώδεις χρονικές περιόδους. Στο Σχήµα 5.13 φαίνεται το εν λόγω δένδρο. Το ύψος του δέντρου, σε πλήθος επιπέδων (NumberOfLevels) για λειτουργία σε ολισθαίνον παράθυρο, προκύπτει ως NumberOfLe vels= 1+ log( WndowSze) όπου WndowSze το µέγεθος του χρονικού παραθύρου (tuple-based). Σε λειτουργία παραθύρου οροσήµου το πλήθος των επιπέδων κάθε στιγµή ορίζεται: NumberOfLe vels= 1+ log( StreamSze), όπου StreamSze το πλήθος των στοιχειωδών χρονικών περιόδων που έχουν εισρεύσει µέχρι τώρα (το οποίο είναι ίσο µε το πλήθος των πλειάδων-στιγµάτων µειωµένο κατά ένα). Το πλήθος των κόµβων είναι NumberOfNo des= 2 NumberOfLevels

102 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.13: Ένα AmTree για ολισθαίνον παράθυρο 32 χρονικών στιγµών έχει 6 επίπεδα και 11 κόµβους Ορισµοί Ορισµός 1 Ορίζουµε το διάστηµα µετατόπισης ως πλειάδα αποτελούµενη από τα διαστήµατα µετατόπισης στους δύο άξονες και τη χρονική περίοδο στην οποία αναφέρονται, µε τη µορφή: t, t, dx dy. st end, Η λειτουργία του µετασχηµατισµού του ρεύµατος θέσεων σε ρεύµα διαστηµάτων είναι η εξής: Για κάθε στίγµα (εκτός από το πρώτο) παράγεται µία πλειάδα τύπου «διάστηµα». Η πλειάδα παράγεται µε απλές αφαιρέσεις αντίστοιχων συντεταγµένων µεταξύ τρέχοντος στίγµατος και προηγούµενου. Είναι φανερό ότι λόγω της ακολουθιακής παραγωγής, το πεδίο t end µπορεί να αφαιρεθεί από την πλειάδα (είναι ίδιο µε το t st της επόµενης). Χρησιµοποιείται για λόγους απλότητας της παρουσίασης. Ορισµός 2 Ορίζουµε τη συνένωση διαστηµάτων προκύπτει το διάστηµα z ως z = a+ b. Από δύο διαστήµατα a, b t t dx dx dy + dy a b a b a b st, end, +, εφόσον t a end = t. Ορισµός 3 Ορίζουµε την πράξη z a d = a d. Πρόκειται για τη συνένωση διαδοχικών διαστηµάτων έτσι ώστε το προκύπτον z να έχει άκρα, την αρχή του a και το πέρας του d, z = t... + a d a d a d st, tend, dx dx, dy + dy. Για να είναι εφικτή η πράξη πρέπει φυσικά να είναι διαθέσιµα όλα τα διαδοχικά διαστήµατα µεταξύ των a, d. b st

103 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.14: Ενηµέρωση AmTree µε τις 8 πρώτες πλειάδες του ρεύµατος Ενηµέρωση δένδρου Η περιγραφή της λειτουργίας της δοµής AmTree γίνεται εδώ µε παρουσίαση ενός παραδείγµατος (Σχήµα 5.14). Στο κεφάλαιο 6, η δοµή περιγράφεται αναλυτικά σε πιο αφαιρετικό πλαίσιο. Στην πράξη, η παρούσα υλοποίηση είναι µία εφαρµογή του πλαισίου λειτουργίας του AmTree του κεφαλαίου 6, για ρεύµα διαστηµάτων. Με την άφιξη της πρώτης πλειάδας a δηµιουργείται ο R 0 (L-κόµβος του επιπέδου 0). Με την άφιξη της δεύτερης πλειάδας b δηµιουργούνται οι L 0, R 1. Τα περιεχόµενα του R 0 µεταφέρονται στον L 0. Αυτή η λειτουργία του επιπέδου πραγµατοποιείται σε κάθε νέα άφιξη. Ο R 1 γεµίζει µε το a+ b. Η λειτουργία στο επιπέδο 1 πραγµατοποιείται κάθε 2 αφίξεις. Με την άφιξη της τρίτης πλειάδας c, τα περιεχόµενα του L 0 αποβάλλονται και πραγµατοποιείται µετακίνηση των περιεχοµένων του R 0 στον L 0. Ο κόµβος R 0 ενηµερώνεται µε την πλειάδα c. procedure Update_Tree /* max_level:=hghest propagaton level for ncomng data */ 1. l:=0; 2. whle l max_level do 3. contents(l l ):= contents(r l ) 4. contents(r l ):= (contents(r l-1 )-> contents(l l-1 ) 5. l:=l+1; 6. end whle 7. end Update_Tree Σχήµα 5.15: Αλγόριθµος Update_Tree

104 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Με την άφιξη της τέταρτης πλειάδας d, τα περιεχόµενα του L 0 αποβάλλονται και πραγµατοποιείται µετακίνηση των περιεχοµένων του R 0 στον L 0. Ο κόµβος R 0 ενηµερώνεται µε την πλειάδα d. ηµιουργούνται οι κόµβοι L 1, R 2. Η διαδικασία που περιγράφεται παρακάτω, επαναλαµβάνεται κάθε 4 αφίξεις πλειάδων. Τα περιεχόµενα του L 1 αποβάλλονται και πραγµατοποιείται µετακίνηση των περιεχοµένων του R 1 στον L 1. Ο R 1 γεµίζει µε το c+ d. Ο R 2 γεµίζει µε το a d. Γίνεται φανερό, ότι οι διαδικασίες ενηµέρωσης των επιπέδων γίνονται περιοδικά (Σχήµα 5.15). Το επίπεδο 0 ενηµερώνεται για κάθε πλειάδα µε αποβολή των περιεχοµένων του R, µετακίνηση των περιεχοµένων του R στον L και εισαγωγή της νέας πλειάδας στον R. Το επίπεδο 1 ενηµερώνεται κάθε 2 πλειάδες µε τον ίδιο τρόπο όπως και το επίπεδο 0. Η µόνη διαφορά είναι ότι στον κόµβο R 1 εισάγεται το L0 + R0 = L0 R0. Γενικά, η ενηµέρωση του επιπέδου ( > 0 ): πραγµατοποιείται κάθε προβλέπει 2 πλειάδες o αποβολή των περιεχοµένων του L o αντιγραφή των περιεχοµένων του R στον L o αντιγραφή του ( R 1 L 1 ) στον L Πολυπλοκότητα ενηµέρωσης Εύκολα παρατηρούµε ότι η ενηµέρωση γίνεται κάθε φορά για όλα τα επίπεδα µέχρι κάποιο επίπεδο max_level. Από το παράδειγµα φαίνεται ότι διαδοχικά ζεύγη <µέγεθος ρεύµατος, max_level> είναι: <1,0> <2,1> <3,0> <4,2> <5,0> <6,1> <7,0> <8,3> l Κάθε επίπεδο l ενηµερώνεται κάθε 2 αφίξεις. Συνεπώς, σε ένα κύκλο N πλειάδων, το επίπεδο l ενηµερώνεται N 2 l φορές. Τελικά, προκύπτει

105 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς 1 N O( 1 ) O( N) η πολυπλοκότητα ενηµέρωσης για N στοιχεία. Η O 1. Οι κόµβοι του δέντρου για N πλειάδες έχουν συνολικό πλήθος 2 log N + 1. O 2 log N = O log N. log N = l= 0 l 2 πολυπλοκότητα ενηµέρωσης ανά πλειάδα είναι προφανώς ( ) Η χωρική πολυπλοκότητα της δοµής προκύπτει ( ) ( ) Ανακατασκευή τροχιάς Η ανακατασκευή της τροχιάς είναι εφικτή µε µία προσπέλαση του δέντρου από το επίπεδο 0 προς τα πάνω και από R κόµβο προς L (Σχήµα 5.16). Με βάση το τελευταίο στίγµα η τροχιά χτίζεται από το παρόν προς το παρελθόν µε συνένωση διαδοχικών διαστηµάτων. Από τον τρόπο µε τον οποίο ενηµερώνεται η δοµή εύκολα παρατηρεί κανείς ότι δεν υπάρχουν «ασύνδετα» διαστήµατα. Κάθε κόµβος µπορεί να µας δώσει ένα στίγµα. Κάθε επίπεδο δίνει ένα νέο στίγµα, αν το προηγούµενο επίπεδο έχει µόλις ενηµερωθεί, και δύο στίγµατα αν δεν είναι ενηµερωµένο. Συνολικά έχουµε από logn µέχρι 2logN διαθέσιµα διαδοχικά στίγµατα για την ανακατασκευή της τροχιάς. Είναι σαφές, ότι η δοµή γενικεύει γραµµές µε εκθετικό χαρακτήρα. Έτσι, για N=256, η δοµή µπορεί να ανακατασκευάσει την τροχιά µε χρήση των στιγµάτων µε χρονόσηµα 1,2,4,8,16,32,64,128,256. Παρουσιάζει, συνεπώς, εκθετική αµνησία ή εναλλακτικά πραγµατοποιεί γενίκευση τροχιών µε εκθετική συµπεριφορά. Σχήµα 5.16: Προσπέλαση δέντρου για την ανακατασκευή της τροχιάς

106 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.17: Η αρχική τροχιά και οι τροχιές που προκύπτουν µε την ανακατασκευή σε αντιστοιχία µε το σχήµα 5.13 (Σηµειώνονται οι κόµβοι που παρέχουν στίγµατα)

107 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Στο σχήµα 5.17 έχουν σχεδιαστεί οι διαδοχικές προσεγγίσεις των τροχιών που προκύπτουν µε ανακατασκευή από το δένδρο, σε πλήρη αντιστοιχία µε το σχήµα Παρατηρούµε ότι µε την πάροδο του χρόνου (ή καλύτερα των πλειάδων) η πληροφορία που αφορά το παρελθόν συγχωνεύεται και η τροχιά εξοµαλύνεται Παραλλαγή: Τήρηση m παράλληλων AmTree Η αµνησία που ορίζει η βασική δοµή AmTree, είναι εκ των πραγµάτων εξαρτηµένη από τον εγγενή ρυθµό εισόδου των πλειάδων. Αυτό µπορεί να ελεγχθεί εφαρµόζοντας την εξής παραλλαγή. Για την µείωση της επίδρασης της αµνησίας, µπορούν να τηρούνται παράλληλες δοµές AmTree µε αποβολή πλειάδων. Έστω το αρχικό ρεύµα δεδοµένων S. Θεωρούµε τα ρεύµατα δεδοµένων S n, που προκύπτουν από το βασικό ρεύµα S µε την αποβολή όλων των πλειάδων εκτός της πρώτης από κάθε οµάδα n πλειάδων. Έτσι το AmTree για το S 2 έχει τη δυνατότητα εφαρµογής αµνησίας που διαισθητικά είναι δύο φορές πιο «αργή» από αυτή που εφαρµόζει το AmTree για την S. Τηρώντας τα m AmTree για τα ρεύµατα S S, S, S,,... µπορούµε να επιτύχουµε πιο «αργή» αµνησία. Οι, S7 απαιτήσεις σε χώρο προκύπτουν O( m log N) συνολικά O ( 1).. Το κόστος ενηµέρωσης προκύπτει Άλλη παραλλαγή είναι η τήρηση παράλληλων δοµών, έτσι ώστε κάθε πλειάδα να διοχετεύεται σε ένα µόνο δένδρο. Έτσι για m=10 δοµές εν σειρά επιτυγχάνεται 10 φορές πιο αργή αµνησία. Μειονέκτηµα της δοµής είναι ότι το κάθε AmTree δεν έχει µεγάλη αξία από µόνο του. Ενδιαφέρον παρουσιάζει η µελέτη της συνάρτησης επιλογής AmTree για κάθε πλειάδα. Πρόκειται για ένα πρόβληµα κατακερµατισµού µε ενδιαφέρουσες προοπτικές. Πλεονέκτηµα της δοµής είναι ότι σε αντίθεση µε την πρώτη παραλλαγή δεν τηρεί πλεονάζουσα πληροφορία. Οι απαιτήσεις σε χώρο προκύπτουν O( m log N) και το κόστος ενηµέρωσης παραµένει O ( 1). Το κόστος ανακατασκευής και στις δύο παραλλαγές προκύπτει O( m log N) Απάντηση σε ερωτήµατα χωροχρονικού παραθύρου Η δοµή µπορεί να χρησιµοποιηθεί για την προσεγγιστική απάντηση οποιουδήποτε ερωτήµατος αφορά τροχιές κινούµενου αντικειµένου. Τα ερωτήµατα χωροχρονικού παραθύρου (range-queres) αποτελούν τα πλέον ενδιαφέροντα ερωτήµατα. Η δοµή µπορεί να παράγει άµεσα και ακριβή αποτελέσµατα για τις τροχιές που βρέθηκαν πρόσφατα στην εν λόγω χωρική έκταση. Η ακρίβεια της απάντησης µειώνεται «εκθετικά» για παλαιότερες τοµές του παραθύρου µε τροχιές. Αυτό είναι και το κόστος της τήρησης µίας βιώσιµης δοµής για την αµνησιακή συµπίεση των τροχιών δεδοµένων. Όµως, η απάντηση δίνεται σε λογαριθµικό χρόνο σε σχέση µε το χρόνο απάντησης από τα πρωτογενή δεδοµένα. Συνεπώς, η δοµή µπορεί να παρέχει πολύ γρήγορες απαντήσεις µε ένα δείκτη ακρίβειας που εξαρτάται από την ηλικία των δεδοµένων που σχηµατίζουν

108 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς την απάντηση. Ειδικά, σε περιπτώσεις που το ενδιαφέρον για τις επιτυχίες µειώνεται όσο αυτές αποµακρύνονται από το παρόν, η δοµή παρέχει πολύ ικανοποιητικά αποτελέσµατα Απάντηση σε ερωτήµατα εσωτερικού γινοµένου Ερώτηµα εσωτερικού γινοµένου σε µία τροχιά µπορεί να αποτελεί η πρόβλεψη της ταχύτητας βάσει της ιστορίας. ηλαδή, δοθέντος ενός διανύσµατος βαρών για τις ταχύτητες που υπολογίζονται κάθε στιγµή σε κάποιο χρονικό παράθυρο, ζητείται η πρόβλεψη για την µελλοντική ταχύτητα του κινούµενου αντικειµένου. Το ερώτηµα ταιριάζει στη δοµή γιατί το διάνυσµα βαρών σε ένα τέτοιο ερώτηµα «γέρνει» στο παρόν. Πλέον ενδιαφέροντα ερωτήµατα τέτοιου τύπου είναι τα γραµµικά και τα εκθετικά, όπως αυτά περιγράφονται στην παράγραφο Πειραµατικά αποτελέσµατα Χρησιµοποιήθηκε σύνολο δεδοµένων (1000Χ500) µε 1000 τροχιές, κάθε µία εκ των οποίων είχε διάρκεια 500 χρονόσηµα. Θέσαµε 620 ερωτήµατα χωροχρονικού παραθύρου (range query), τα οποία αφορούσαν 10 διαφορετικές χωρικές εκτάσεις στο δίκτυο της Αθήνας (Σχήµα 5.18). Κάθε χωρική έκταση είναι περίπου το της συνολικής χωρικής έκτασης του δικτύου. Για κάθε χωρική έκταση, υπολογίστηκε το ερώτηµα παραθύρου για 62 διαδοχικά χρονικά παράθυρα οροσήµου τα οποία ξεκινούσαν πάντα από την πρώτη χρονική στιγµή. Ισοδύναµα κάθε 8 χρονόσηµα εκτιµήσαµε τα 10 ερωτήµατα διαρκείας: «Ποια αντικείµενα βρέθηκαν στην περιοχή R ( 1 10 ) από τη χρονική στιγµή 0 µέχρι τώρα». Με κατάλληλη επεξεργασία των εκτιµήσεων που έδωσαν οι δοµές AmTree σε συνδυασµό µε τις πραγµατικές απαντήσεις, υπολογίστηκαν αποτελέσµατα οµαδοποιηµένα ανά χρονικό παράθυρο (GROUP BY) και υπολογίστηκε ο µέσος όρος όλων των περιοχών (AVG). Τα µεγέθη που υπολογίστηκαν είναι τα εξής: True _ Postves True _ Postves a= = True _ Postves+ False _ Postves+ False _ Negatves Postves+ False _ Negatves True _ Postves True _ Postves b= = True _ Postves+ False _ Postves Postves όπου True_Postves: Κινούµενα αντικείµενα που εκτιµήθηκε από τα AmTree ότι βρέθηκαν στην περιοχή και αυτό όντως συνέβη στην πραγµατικότητα False_Postves: Κινούµενα αντικείµενα που εκτιµήθηκε από τα AmTree ότι βρέθηκαν στην περιοχή ενώ αυτό δεν συνέβη στην πραγµατικότητα False_Negatves: Κινούµενα αντικείµενα που εκτιµήθηκε από τα AmTree ότι δεν βρέθηκαν στην περιοχή ενώ είχαν βρεθεί στην πραγµατικότητα Postves: Κινούµενα αντικείµενα που βρέθηκαν στην πραγµατικότητα στην περιοχή

109 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Σχήµα 5.18: Οι 10 χωρικές εκτάσεις στο δίκτυο της Αθήνας, που χρησιµοποιήθηκαν για την απάντηση στο ερώτηµα χωροχρονικού παραθύρου Με βάση τα παραπάνω, υπολογίστηκαν τα ποσοστά επιτυχίας a και b. Το a είναι ένα µέτρο της συνολικής επίδοσης της προσέγγισης, ενώ το b είναι ένα µέτρο για την επίδοση όσον αφορά τις πραγµατικές επιτυχίες. Τα a,b σχεδιάζονται συναρτήσει του µεγέθους του ρεύµατος στα Σχήµατα 5.19, 5.20 και συναρτήσει του ποσοστού συµπίεσης στα Σχήµατα 5.21, Στα Σχήµατα 5.19 και 5.20 παρατηρούµε ότι για τις πρώτες 32 χρονικές στιγµές δεν υπάρχει καθόλου σφάλµα. Το σφάλµα έχει γενικά τάση αύξησης. Αυτό είναι αναµενόµενο, γιατί όσο µεγαλώνει ο παρελθοντικός ορίζοντας τόσο περισσότερα «παλαιά» κοµµάτια τροχιάς τέµνουν το παράθυρο. Θεωρούµε τα παρακάτω o Στο χωροχρονικό παράθυρο των 32 χρονοσήµων, µπορεί να εντοπιστεί µία τροχιά η οποία βρέθηκε εκεί πριν από 31 χρονικές στιγµές. o Στο χωροχρονικό παράθυρο των 496 χρονοσήµων µπορεί να εντοπιστεί µία τροχιά η οποία βρέθηκε εκεί πριν από 495 χρονικές στιγµές

110 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Στην πρώτη περίπτωση το πιθανότερο είναι η εκτίµηση να είναι σωστή. Στην δεύτερη από τις παραπάνω περιπτώσεις είναι πολύ πιθανό να γίνει σφάλµα, είτε False_Postve, είτε False_Negatve. ηλαδή, το δεύτερο παράθυρο είναι ανοιχτό σε µεγαλύτερο παρελθοντικό ορίζοντα και στο γεγονός αυτό οφείλεται το µεγαλύτερο σφάλµα. Η αύξηση του σφάλµατος προέρχεται κυρίως από παλαιές τροχιές. Όπως είναι φανερό από τα γραφήµατα, για τις τροχιές που βρίσκονται στην αρχή τους (για τα πρώτα 32 χρονόσηµα), πολύ δύσκολα θα γίνει λάθος. Αντίθετα, για τροχιές που βρίσκονται στην 500-στή χρονική τους στιγµή σε κάποιο χωρικό παράθυρο, µπορεί να γίνει λάθος. ηλαδή, σπάνια θα εµφανιστεί σφάλµα που αφορά στην επικαιρότητα. Τα σφάλµατα αφορούν «παλαιά» κοµµάτια τροχιών. Στα σχήµατα 5.21 και 5.22 φαίνεται ότι για συντελεστή συµπίεσης 3.7% ο δείκτης a = ( TruePos / Pos) είναι ίσος µε 96.5% και γνωρίζουµε πως τα postves που δεν βρέθηκαν (δηλαδή τα false_negatves) δεν ήταν επίκαιρα. Από τα πειραµατικά αποτελέσµατα προκύπτουν οι εξής δύο πιθανές προσθήκες στην εκτίµηση του ερωτήµατος χωροχρονικού παραθύρου µε χρήση της δοµής AmTree. I. Είναι εφικτό να επιστρέφονται τα αντικείµενα µε κάποιο δείκτη εµπιστοσύνης, ο οποίος θα εξαρτάται από o τη χρονική τοποθέτηση της τοµής τροχιάς και παραθύρου αν είναι πρόσφατη, τότε είναι πολύ πιθανό να είναι έγκυρη η τοµή αν είναι παλαιά, δεν µπορούµε να αποφανθούµε o τη χωρική τοποθέτηση της τροχιάς και του παραθύρου αν τα στίγµατα είναι «πολύ κοντά» στα όρια του παραθύρου, είναι πολύ πιθανό να είναι έγκυρη η τοµή αν υπάρχει στίγµα µέσα στο παράθυρο, η τοµή είναι σίγουρα έγκυρη. αν τα στίγµατα είναι «µακρυά» από το παράθυρο δεν µπορούµε να αποφανθούµε. o τη σχετική τοποθέτηση τροχιάς και παραθύρου όσο µικρότερο το µήκος της τοµής του παραθύρου µε την τροχιά, τόσο πιθανότερο το σφάλµα. II. Το χωροχρονικό παράθυρο θα µπορούσε να µεγαλώνει και στις χωρικές και στις χρονικές του διαστάσεις έτσι ώστε να εντοπίζει false_negatves. Έτσι, η εκτίµηση θα µπορούσε να χρησιµοποιηθεί ως φίλτρο των postves και ορισµένων false_postves, για την ανάσυρση «λίγων» δεδοµένων από το δίσκο και ακριβέστερη απάντηση (flter and refnement). Επίσης, µπορεί να χρησιµοποιηθεί για εκτίµηση του µεγέθους της τελικής απάντησης, αφού απαντά σε λογαριθµικό χρόνο σε σχέση µε την πλήρη απάντηση

111 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Range Query wth AmTree TruePos/(Pos+FalseNeg)(%) WndowSze (tuples) Σχήµα 5.19: Γράφηµα επιτυχίας για το δείκτη a συναρτήσει του βάθους του χρονικού ορίζοντα Range Query wth AmTree TruePos/Pos(%) WndowSze (tuples) Σχήµα 5.20: Γράφηµα επιτυχίας για το δείκτη b συναρτήσει του βάθους του χρονικού ορίζοντα

112 Αµνησιακή Συµπίεση Ρευµάτων Τροχιάς Range Query wth AmTree TruePos/(Pos+FalseNeg)(%) Compresson Factor (%) Σχήµα 5.21: Γράφηµα επιτυχίας του δείκτη a συναρτήσει του ποσοστού συµπίεσης Range Query wth AmTree 100 TruePos/Pos(%) Compresson Factor (%) Σχήµα 5.22: Γράφηµα επιτυχίας του δείκτη b συναρτήσει του ποσοστού συµπίεσης

113 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Κεφάλαιο 6 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Εισαγωγή Τα σκίτσα (sketches) είναι δοµές συµβατές µε το µοντέλο ρευµάτων δεδοµένων που επιτρέπουν την εκτίµηση νορµών σε σήµατα. Όπως θα αναλυθεί παρακάτω, οι νόρµες παρέχουν πολύ σηµαντικές πληροφορίες για τα δεδοµένα. Οι πληροφορίες αυτές είναι συνήθως συναθροιστικού χαρακτήρα και δεν µπορούν να εξαχθούν άµεσα από ένα ρεύµα δεδοµένων. Οι νόρµες υψηλού ενδιαφέροντος F 0 (πληθάριθµος διακριτών αντικειµένων) και F 2 (πληθάριθµος αυτοσύνδεσης) παρέχουν πληροφορία που είναι χρήσιµη για την εκτίµηση επιλεκτικότητας τελεστών. Στα παραδοσιακά Σ Β η εκτίµησή τους βοηθά στη βελτιστοποίηση ερωτηµάτων (query optmzaton). Στα ρεύµατα δεδοµένων, οι νόρµες µπορούν να γίνουν εργαλεία για την άµεση απάντηση ερωτηµάτων. Οι αλγόριθµοι που τις υπολογίζουν µε ακρίβεια, είναι ακριβοί σε κόστος και δεν συνάδουν µε το µοντέλο ρευµάτων δεδοµένων. Τα σκίτσα παρέχουν εκτιµήσεις για αυτές τις νόρµες µε αποδεκτό υπολογιστικό κόστος και εγγυήσεις σφάλµατος. Στο παρόν κεφάλαιο θα γίνει αρχικά θεωρητική εισαγωγή στα σκίτσα FM, AMS και Bloom Flters. Έµφαση δίνεται στα σκίτσα FM τα οποία θα αποτελέσουν το βασικό εργαλείο για τις υλοποιήσεις που περιγράφονται στο δεύτερο µέρος του κεφαλαίου. Οι υλοποιήσεις αυτές δέχονται ως είσοδο ρεύµατα δεδοµένων τροχιών και υπολογίζουν πλήθη διακριτών κινούµενων αντικειµένων σε διάφορα χωροχρονικά παράθυρα

114 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων 6.1 Θεωρία σκίτσων Τα σκίτσα είναι µία τεχνική για τη δηµιουργία σύνοψης σε σήµατα. Πρόκειται για τυχαιοποιηµένες προβολές σηµάτων σε διανύσµατα σταθερού µεγέθους και χρησιµεύουν στην απάντηση συγκεκριµένων ερωτηµάτων που αφορούν το σύνολο των δεδοµένων. Η εφαρµογή τους στα ρεύµατα δεδοµένων είναι άµεση. Τα σκίτσα ενηµερώνουν διανύσµατα αποτελούµενα από bt και έχουν λογαριθµική πολυπλοκότητα χώρου. Τα διανύσµατα ενηµερώνονται µε πολυπλοκότητα O(1) ανά πλειάδα. Οι νόρµες σηµάτων µπορούν να εκτιµηθούν ανά πάσα στιγµή, µε απλούς υπολογισµούς πάνω στα σκίτσα [AMS96, FM85, BBD+02, HBK05, CLKB04] Νόρµες Έστω S = ( x 1,..., x n ) µία ακολουθία στοιχείων. Καθένα εκ των x λαµβάνει τιµές από το πεδίο ορισµού D= { 1,..., d}. Η πολλαπλότητα (multplcty) m { j x } = αντιπροσωπεύει τον αριθµό των εµφανίσεων της τιµής στην j = ακολουθία S. Για k 0, η k-ιοστή ροπή συχνότητας (frequency moment) F k του d k * S ορίζεται ως F k = = m 1, ενώ στο άπειρο ορίζεται ως F = max m. Οι ροπές συχνοτήτων συλλαµβάνουν τα στατιστικά χαρακτηριστικά της κατανοµής των στοιχείων στην ακολουθία S. Για παράδειγµα η F0 είναι ο αριθµός των διακριτών τιµών στην ακολουθία. Η F 1 είναι το µήκος της ακολουθίας. Η F 2 είναι ο πληθάριθµος της αυτοσύνδεσης (self-jon). Αυτοσύνδεση είναι η σύνδεση της ακολουθίας µε τον εαυτό της. Η νόρµα F 2 αποτελεί ουσιαστικά ένα µέτρο της αυτοσυσχέτισης του σήµατος και είναι πολύ χρήσιµη για την εκτίµηση µεγέθους συνδέσεων. Τέλος, η F είναι η πολλαπλότητα της πιο συχνά εµφανιζόµενης τιµής. Παράδειγµα: Έστω ρεύµα δεδοµένων: 3,2,3,1,4,7,2,3,1,4,2,2 Οι πολλαπλότητες παρουσιάζονται στον πίνακα 6.1. Πίνακας 6.1: Πολλαπλότητες στοιχείων ρεύµατος m

115 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σύµφωνα µε τις παραπάνω πολλαπλότητες υπολογίζουµε: F F F F = = = d = 1 d = 1 d = 1 = max m m m m = 5 = 12 = 2 2 = = Σκίτσα FM Τα FM σκίτσα [FM85] είναι µία τεχνική εκτίµησης της F0 νόρµας, δηλαδή, του πλήθους διακριτών αντικειµένων σε µία ακολουθία, που εισήγαγαν οι P. Flajolet και G. N. Martn. Το κύριο χαρακτηριστικό τους είναι η αναισθησία τους σε πολλαπλές εµφανίσεις του ίδιου αντικειµένου (duplcate-nsenstve). Ι. Βασική δοµή Ο FM αλγόριθµος απαιτεί µία συνάρτηση κατακερµατισµού h (hash functon) η οποία παίρνει ως είσοδο την ταυτότητα ενός αντικειµένου o (object d) και παράγει ως έξοδο τον ψευδοτυχαίο ακέραιο h (o) µε γεωµετρική κατανοµή: υ Pr[ h ( o) = υ] = 2 για υ 1. [FM85, BBD+02, HBK05, CLKB04] ηλαδή Pr[ h ( o) = 1] = 0. 5, Pr[ h ( o) = 2] = 0. 25, Pr[ h ( o) = 3] = κοκ. Το σκίτσο είναι ένα διάνυσµα (btmap), αποτελούµενο από r bts, µε τιµές αρχικοποιηµένες στο 0. Για κάθε αντικείµενο o στο πολυσύνολο, ο αλγόριθµος θέτει την τιµή του h (o) - στού bt του διανύσµατος στο 1 (Σχήµα 6.1). Το κλειδί για την αποφυγή µέτρησης διπλοτύπων είναι ότι σε κάθε εµφάνιση του αντικειµένου o προκύπτει η ίδια τιµή h(o) και ο αλγόριθµος θέτει το ίδιο bt του σκίτσου. Έτσι το σκίτσο δεν επηρεάζεται από διπλότυπα. Για την εξαγωγή του αριθµού διακριτών αντικειµένων, ο αλγόριθµος εντοπίζει το πρώτο µηδενικό bt του σκίτσου. Έστω ότι το bt είναι το k -στό. Ο αριθµός διακριτών αντικειµένων k εκτιµάται ως n= 1,29 2. Αυτή η τιµή είναι αµερόληπτη (unbased - µη E{ k} πολωµένη), δηλαδή E{ n} 1,29 2 =. Η διασπορά (varance) της παραπάνω εκτίµησης είναι ίση µε 1,12. Συνεπώς, η τιµή n αποκλίνει από την πραγµατική τιµή, συχνά, κατά ένα παράγοντα ίσο µε 2 ή και µεγαλύτερο. Η τιµή της τυπικής απόκλισης µπορεί να βελτιωθεί αισθητά µε την εξής παραλλαγή. Αντί να χρησιµοποιηθεί ένα διάνυσµα των r bts, οι Flajolet και Martn προτείνουν τη χρήση m ανεξάρτητων διανυσµάτων των r bts, το καθένα µε τη δική του συνάρτηση κατακερµατισµού h και την εξαγωγή του µέσου όρου των m εκτιµήσεων που προκύπτουν για το πλήθος των διακριτών αντικειµένων. Όµως, κατ αυτόν τον τρόπο, το αναµενόµενο κόστος ανά ενηµέρωση από O (1) γίνεται O (m). Οι Flajolet και Martn πρότειναν µία ακόµα παραλλαγή που επαναφέρει το κόστος σε O (1). Η τεχνική λέγεται Probablstc Countng wth Stochastc Averagng (PCSA). Η PCSA εφαρµόζει µία δεύτερη συνάρτηση κατακερµατισµού για να επιλέξει τυχαία

116 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων algorthm FM_PCSA (DS, h, m, r) /* DS s a dataset; h s a random functon such that, gven an object o DS, Prob[h(o) = v ]=2 v ; m s the number of sketches used; r s the number of bts n each sketch */ 1. ntalze m sketches s 1, s 2,, s m, each wth r bts set to 0 2. for each object o n DS 3. randomly pck a sketch s (1 m) 4. s [h(o)] = 1 5. k=0 6. for =1 to m 7. for j=1 to r 8. f s [j] = 0 then 9. k = k + j; 10. break // go to the next sketch 11. return (1.29m 2 k/m ) end FM_PCSA Σχήµα 6.1: Αλγόριθµος FM_PCSA και οµοιόµορφα ένα από τα m διανύσµατα και να πραγµατοποιήσει την εισαγωγή του αντικειµένου µόνο σε αυτό. Κάθε φορά που το ίδιο αντικείµενο εµφανίζεται, ενηµερώνεται το ίδιο bt του ίδιου διανύσµατος. Κατά συνέπεια κάθε διάνυσµα γίνεται υπεύθυνο για περίπου m n διακριτά αντικείµενα. Ο νέος τύπος για το πλήθος των διακριτών αντικειµένων είναι: 1 m 1 k = m 1 1,29m 2 µε αναµενόµενο σφάλµα O m 2 Η κατάλληλη τιµή για το r είναι µεγέθους O( log 2 n), όπου n το άνω φράγµα του πλήθους των διακριτών αντικειµένων στην ακολουθία. Συνεπώς, το κόστος σε χώρο του αλγορίθµου FM_PCSA είναι O( mlog 2 n), όταν χρησιµοποιούνται m διανύσµατα. ΙΙ. Ιδιότητες Ιδιότητα 1. Το σκίτσο FM της ένωσης δύο πολυσυνόλων προκύπτει από την bt προς bt λογική διάζευξη (OR) των FM σκίτσων τους. ηλαδή: FM S S ] = FM S [ ] FM S [ ], όπου µε FM S ) συµβολίζεται το FM ( ) ( ( ) ( ) ) 1 2[ 1 2 σκίτσο της j ακολουθίας ( j = 1, 2). Ιδιότητα 2. Το σκίτσο FM προκύπτει αποκλειστικά και µόνο από τα διακριτά αντικείµενα της ακολουθίας S. Η διάταξη και τα διπλότυπα δεν το επηρεάζουν. Η ιδιότητα 1 επιτρέπει τη χρήση των FM σκίτσων σε κατανεµηµένα περιβάλλοντα. Κάθε κόµβος διατηρεί τοπικά το σκίτσο του και το στέλνει σε άλλους κόµβους για συνάθροιση. Το κόστος της λογικής διάζευξης είναι ιδιαίτερα χαµηλό. ( j

117 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Η ιδιότητα 2 επιτρέπει τη διάδοση πολλαπλών διαδροµών των σκίτσων και αναδεικνύει το πόσο συµπαγής είναι ο αλγόριθµος, δίνοντας ελευθερία στη χρήση του. ηλαδή, δεν χρειάζεται να ληφθεί µέριµνα για την αποφυγή της διπλής χρήσης όµοιων σκίτσων στη λογική διάζευξη, αφού κάτι τέτοιο δεν επηρεάζει το τελικό αποτέλεσµα Παραλλαγές σκίτσων FM I. Delete FM sketches Τα σκίτσα Delete-FM επεκτείνουν τα FM σκίτσα έτσι ώστε να υποστηρίζουν διαγραφές. Τα σκίτσα FM είναι µόνο για προσθήκη (append-only). Η παραλλαγή τους σε delete-fm σκίτσα επιτρέπει τη διαγραφή στοιχείων από το σκίτσο. Έτσι ένα αντικείµενο του οποίου η ισχύς «λήγει» µπορεί να αφαιρείται από το σκίτσο και να µην συνυπολογίζεται στην εκτίµηση του πλήθους διακριτών αντικειµένων. Οι απαραίτητες αλλαγές στη βασική δοµή που παρουσιάστηκε παραπάνω είναι οι εξής: Αλλαγή των bt σε µετρητές κατάλληλου µεγέθους (counters) Κατά την εισαγωγή στοιχείου, ο αντίστοιχος µετρητής αυξάνεται κατά ένα. Κατά τη διαγραφή στοιχείου, ο αντίστοιχος µετρητής µειώνεται κατά ένα. Κίνδυνος για µείωση µετρητή που βρίσκεται στην τιµή 0 δεν υπάρχει, αφού ένα αντικείµενο δεν µπορεί να διαγραφεί αν δεν έχει προηγουµένως εισαχθεί στο σκίτσο. Κατά τη λογική διάζευξη µεταξύ σκίτσων γίνεται αλγεβρική πρόσθεση των αντίστοιχων µετρητών. II. Σκίτσα άθροισης διακριτών στοιχείων Τα σκίτσα συνάθροισης (summaton sketches) έχουν προταθεί ως παραλλαγή των σκίτσων FM για την αντιµετώπιση του προβλήµατος της διακριτής άθροισης. Έστω ένα πολυσύνολο αντικειµένων M = { x1, x2, x3,... }, όπου x = ( k, c) και c φυσικός αριθµός. Το πρόβληµα της άθροισης διακριτών στοιχείων (dstnct summaton problem) είναι ο υπολογισµός του n c. dstnct(( k, c ) M ) Λεπτοµέρειες της παραλλαγής αυτής µπορούν να βρεθούν στο [CKLB04]. ΙΙΙ. Υπολογισµός εκφράσεων συνόλων σε ρεύµατα δεδοµένων Στο [GGR03] αναπτύσσεται µεθοδολογία για απάντηση σε ερωτήµατα της µορφής: «Πόσα τα διακριτά αντικείµενα που βρέθηκαν στις σχέσεις R 1 και R 2 αλλά όχι R R ;» ( ) και στην R3; ηλαδή ποιο το ( ) 1 2 R3 Ο υπολογισµός εκφράσεων συνόλων σε ρεύµατα δεδοµένων (set expressons) βασίζεται στα σκίτσα 2-Level-Hash που αποτελούν επέκταση των

118 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων FM σκίτσων. Η επέκταση αυτή διευρύνει το πεδίο των ερωτηµάτων που µπορούν να απαντηθούν µε χρήση σκίτσων Σκίτσα AMS Τα AMS σκίτσα είναι µία τεχνική εκτίµησης της F2 νόρµας, δηλαδή του µεγέθους της αυτοσύνδεσης σε µία ακολουθία, που εισήγαγαν οι N. Alon, Y. Matas, M. Szegedy [AMS96]. Χρησιµοποιείται, για να παράγει εκτίµηση για το ερώτηµα COUNT( R A R) αλλά και για ερωτήµατα COUNT( R A S ). Η ακριβής απάντηση χρειάζεται O ( N) χώρο, όπου Ν ο πληθάριθµος των τιµών του στοιχείου Α, ενώ πρέπει να ληφθεί υπόψη και το γεγονός ότι η σύνδεση είναι ανασταλτικός τελεστής. Η βασική ιδέα είναι να χρησιµοποιηθεί τυχαιοποιηµένη γραµµική προβολή της συνάρτησης κατανοµής m ( ) της ακολουθίας S έτσι ώστε να υπολογισθεί τυχαία µεταβλητή X τέτοια ώστε : Η X να υπολογίζεται µε µικρό κόστος E [ X] COUNT ( R Η [ X] Ι. Βασική δοµή = S A ) Var να είναι µικρή Ο αλγόριθµος AMS χρησιµοποιεί µία συνάρτηση κατακερµατισµού h τέτοια, ώστε για κάθε στοιχείο της ακολουθίας S = ( x 1,..., x n ) όπου x D= { 1,..., d} να παράγεται οµοιόµορφα και τυχαία τιµή + 1, 1, δηλαδή z από το σύνολο { } Pr[ h ( x ) =+ 1] = 0,5, Pr[ h ( x ) = 1] = 0, 5 και E ( h( x )) = 0. Ο αλγόριθµος πραγµατοποιεί τυχαιοποιηµένη γραµµική προβολή στη συνάρτηση m ( ) (Randomzed Lnear Projecton), υπολογίζοντας το εσωτερικό γινόµενο m, z m z. = ( ) Σε ένα ρεύµα δεδοµένων, το παραπάνω γινόµενο υπολογίζεται onlne ως εξής: Για κάθε νέο στοιχείο x που εµφανίζεται προστίθεται το αντίστοιχο z. Σε κάθε επανεµφάνιση του στοιχείου x υπολογίζεται το ίδιο z. Μπορεί κανείς να φανταστεί την παραπάνω διαδικασία ως µία διελκυστίνδα (tug of war) όπου κάθε στοιχείο συµµετέχει σε µία οµάδα από το σύνολο { + 1, 1} και δρα προσθετικά ή αφαιρετικά στην εκτίµηση του F 2 ([BBD02]). Για την εύρεση κατάλληλων τιµών z πρέπει να επιλεγεί µία οικογένεια από δυαδικές τυχαίες µεταβλητές, µε ανεξαρτησία ανά τέσσερις (four-wse ndependence). Αυτό, άτυπα, σηµαίνει ότι για κάθε τετράδα από τιµές z και για οποιαδήποτε τετράδα από τιµές στο { + 1, 1}, η πιθανότητα οι δύο τετράδες να συµπίπτουν είναι ακριβώς 1/16 (το γινόµενο των πιθανοτήτων ισότητας των στοιχείων για κάθε ανεξάρτητο z ). Τέτοιες οικογένειες δυαδικών τυχαίων µεταβλητών µπορούν να κατασκευαστούν σε χώρο O (log N). Παράδειγµα:

119 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Έστω ρεύµα δεδοµένων: 3,2,3,1,4,7,2,3,1,4,2,2 µε F 2 =34 Προκύπτει: m, z ΙΙ. Ιδιότητες 2 = 2 z1 + 4 z2 + 3 z3 + 2 z4 + 1 z7 = 6 F2 = 6 = 36 για z =, z = 1, z = 1, z = 1, z = est Ιδιότητα 1. ιασφάλιση διαγραφών. Κατά τη διαγραφή απλά αφαιρείται το αντίστοιχο στοιχείο z. Ιδιότητα 2. Ένωση σκίτσων. Για την ένωση σκίτσων προστίθενται αλγεβρικά τα σκίτσα που δηµιουργήθηκαν ανεξάρτητα. ΙΙΙ. Εκτίµηση µεγέθους σύνδεσης δύο ρευµάτων Στο σχήµα 6.2 υπολογίζεται ακριβώς η απάντηση στο ερώτηµα COUNT( R A S ). Για τον ακριβή υπολογισµό χρειάζεται O (N) χώρος όπου N=szeof(doman(A)). Συνεπώς δεν µπορεί να πραγµατοποιηθεί σε ρεύµατα δεδοµένων. Χρησιµοποιώντας AMS σκίτσα και υπολογίζοντας τις τυχαίες µεταβλητές X m ( ) z και R S = R = m ( X ) S z µπορούµε να εκτιµήσουµε το ζητούµενο µέγεθος ως X = X R X S όπου E[ X]= COUNT ( R S Var X = 2 SJ R SJ S και ( R) A ), [ ] ( ) ( ) SJ το µέγεθος της αυτοσύνδεσης της σχέσης R. Σχήµα 6.2: Παράδειγµα R COUNT( S A )

120 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων ΙV. Ενισχύοντας την ακρίβεια Η ακρίβεια µπορεί να ενισχυθεί µε εξαγωγή µέσου όρου από πολλά ανεξάρτητα σκίτσα. Με χρήση της ανισότητας του Chebyshev µπορεί να εγγυηθεί ε - ακρίβεια. Σχήµα 6.3: Ενισχύοντας την ακρίβεια Για s αντίγραφα όπου ( 2 SJ( R) SJ( S) ) 8 s= 2 ε COUNT µε χρήση της ανισότητας του Chebyshev Pr ( X E[ X ] ε E[ X ]) Var[ X ] ε E[ X ] ότι και τελικά 2 Var[ X ] ε Var[ Y ] = s COUNT 8 Var[ Y ] Pr( Y COUNT ε COUNT) 2 ε COUNT V. Ενισχύοντας το διάστηµα εµπιστοσύνης Το διάστηµα εµπιστοσύνης µπορεί να ενισχυθεί σε 1-δ επιλέγοντας τη διάµεσο από 2 log(1 δ ) ανεξάρτητα αντίγραφα του Y (Σχήµα 6.4). Pr [ ] δ [ medan ( Y) COUNT ε COUNT] = Pr # falures n 2 log( 1 ) trals log( 1 ) βάσει του φράγµατος του Chernoff. δ δ Σχήµα 6.4: Ενισχύοντας το διάστηµα εµπιστοσύνης

121 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σχήµα 6.5: Παρέχοντας ε-δ εγγυήσεις VI. Εκτίµηση µεγέθους Σύνδεσης µε ε-δ περιθώρια σφάλµατος Η ενίσχυση ακρίβειας και διαστήµατος εµπιστοσύνης συνοψίζεται στο Σχήµα 6.5. VII. Κύριο θεώρηµα AMS σκίτσων Ο πληθάριθµος της σύνδεσης µε χρήση των σκίτσων AMS προσεγγίζεται µε σχετικό σφάλµα µικρότερο ή ίσο τουε, µε πιθανότητα µεγαλύτερη ή ίση του 1 δ, χρησιµοποιώντας χώρο ( ) ( ) ( ) SJ R SJ S log 1 log N O δ 2 2 ε COUNT Φίλτρα Bloom Τα Bloom flters προτάθηκαν από τον B.H.Bloom το 1970 [Bl70]. Χρησιµεύουν για την απάντηση σε ερωτήµατα της µορφής: «Εµφανίστηκε το αντικείµενο x στην ακολουθία S ;» Η παραλλαγή τους, τα Countng Bloom Flters, µπορούν να χρησιµοποιηθούν για την απάντηση ερωτηµάτων της µορφής: «Πόσες φορές εµφανίστηκε το αντικείµενο x στην ακολουθία S ;» Ι. Κατασκευή Το βασικό Bloom Flter είναι ένας πίνακας που αποτελείται από ένα διάνυσµα. Το διάνυσµα αποτελείται από M δυαδικά στοιχεία, αρχικοποιηµένα στην τιµή 0. Για την ενηµέρωση του διανύσµατος υπάρχουν K ανεξάρτητες συναρτήσεις H = h,...,. Οι συναρτήσεις κατακερµατισµού παράγουν κατακερµατισµού { } 1 h K

122 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων τιµές οµοιόµορφα στο πεδίο τιµών {,..., M} 1. Για κάθε στοιχείο της ακολουθίας υπολογίζεται κάθε συνάρτηση κατακερµατισµού και ενηµερώνονται τα K αντίστοιχα bt του διανύσµατος παίρνοντας την τιµή 1. Για να εκτιµηθεί η ύπαρξη ενός στοιχείου στην ακολουθία S, παράγονται οι K τιµές κατακερµατισµού και ελέγχεται αν όλα τα αντίστοιχα bt έχουν την τιµή 1. Στην περίπτωση αυτή εκτιµάται ότι το x έχει εµφανιστεί στην ακολουθία. Αν έστω και ένα εκ των K bt δεν είναι ίσο µε 1, το στοιχείο δεν έχει εµφανιστεί. Προφανώς, όταν το φίλτρο δεν υποστηρίζει διαγραφές, η εκτίµηση ότι το στοιχείο δεν εµφανίστηκε είναι πάντα ορθή. Όσον αφορά την ύπαρξη αποδεικνύεται ότι η πιθανότητα ψευδούς θετικής απάντησης, µε την παραδοχή ότι οι συναρτήσεις κατακερµατισµού είναι ιδανικές, είναι: K KN M e 1, όπου Ν το πλήθος των διακριτών αντικειµένων. Από το προηγούµενο προκύπτει ότι ο αριθµός K (πλήθος συναρτήσεων κατακερµατισµού) που ελαχιστοποιεί τις ψευδείς θετικές απαντήσεις είναι M K = ln 2. Οι ψευδείς θετικές απαντήσεις οφείλονται στο γεγονός ότι όλα τα N bt που αντιστοιχούν σε κάποιο στοιχείο µπορούν να τεθούν στο 1 από άλλα στοιχεία. Αυξάνοντας το µέγεθος M, η πιθανότητα λάθους µειώνεται, αλλά ο χώρος που απαιτείται για την αποθήκευση του φίλτρου αυξάνεται. Η πολυπλοκότητα ενηµέρωσης και ερώτησης ύπαρξης προκύπτει σταθερή και ίση µε O ( K). Μία βελτίωση του Φίλτρου Bloom προκύπτει αν αντικατασταθεί το διάνυσµα µεγέθους M µε K διανύσµατα µεγέθους K M. Τότε, για την ενηµέρωση καθενός, είναι υπεύθυνη µία εκ των K ανεξάρτητων συναρτήσεων κατακερµατισµού. Η παραλλαγή αυτή µειώνει τον αριθµό των συγκρούσεων στις ενηµερώσεις των δυαδικών ψηφίων Countng Bloom Flters Σύµφωνα µε την παραλλαγή αυτή, τα δυαδικά ψηφία αντικαθίστανται από ακέραιους µετρητές. Κάθε φορά που ένα νέο στοιχείο εισάγεται, τα αντίστοιχα ψηφία αυξάνονται κατά 1. Αντίστοιχα λειτουργεί η διαγραφή, δηλαδή οι µετρητές µειώνονται κατά 1. Η εκτίµηση της συχνότητας ενός στοιχείου προκύπτει ως η ελάχιστη τιµή µεταξύ των K µετρητών που το αφορούν. Τα countng bloom flters είναι γνωστά και ως Count - Mn (CM) σκίτσα

123 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων 6.2 Εκτίµηση πλήθους διακριτών κινούµενων αντικειµένων Η χρήση των σκίτσων FM, για εκτίµηση της απάντησης στο ερώτηµα του πλήθους των διακριτών αντικειµένων, παρουσιάστηκε πρώτη φορά από τους P. Flajolet και G. N. Martn το Πρόκειται για τεχνική που δίνει ευελιξία στον ισολογισµό κόστους σε χώρο και ακρίβειας. Στην παρούσα εργασία πραγµατοποιήθηκε υλοποίηση των σκίτσων FM_PCSA (Probablstc Countng wth Stochastc Averagng), όπως αυτά έχουν περιγραφεί από θεωρητική σκοπιά στην υποενότητα Στην επιλογή των σκίτσων αυτών σηµαίνοντα ρόλο έπαιξε η ιδιότητα της ένωσής τους. Τα σκίτσα αυτά χρησιµοποιήθηκαν για την υλοποίηση δοµών µε συγκεκριµένες δυνατότητες και απαιτήσεις σε χώρο. Οι αλγόριθµοι και οι δοµές που περιγράφονται παρακάτω θα µπορούσαν να ενηµερώνουν παραλλαγές των σκίτσων FM ή σκίτσα AMS. Γενικά, οποιαδήποτε αντίστοιχη τεχνική υποστηρίζει την πράξη της ένωσης µπορεί να αποτελέσει τον πυρήνα των αλγορίθµων που θα περιγραφούν παρακάτω. Η επιλογή των FM_PCSA έγινε για διάφορους λόγους. Είναι δυνατός ο συµψηφισµός µεταξύ ακρίβειας και µνήµης. Μπορούν να χρησιµοποιηθούν για να δώσουν απευθείας απάντηση σε ερωτήµατα. Θεωρούµε την άφιξη πλειάδων-στιγµάτων από πολλά κινούµενα αντικείµενα. Το βασικό ερώτηµα, που εξυπηρετούν οι δοµές που θα περιγραφούν, είναι το εξής: «Ποιο το πλήθος διακριτών αντικειµένων που βρέθηκαν σε κάποια περιοχή s το χρονικό διάστηµα t ;» Χρονικό παράθυρο σταθερής αρχής (landmark) Ι. Σκοπός Σκοπός της υλοποίησης αυτής είναι η απάντηση στο ερώτηµα : «Πόσα διακριτά αντικείµενα έχουν εισέλθει στην περιοχή a µετά τη χρονική στιγµή t;» ΙΙ. Υλοποίηση Τα παράθυρα χρονικού οροσήµου µπορούν να υλοποιηθούν µε απλή χρήση των σκίτσων FM. Ο δισδιάστατος χώρος νοείται ως ένα πλέγµα αποτελούµενο από µη επικαλυπτόµενα ορθογώνια-κελιά. Σε κάθε κελί (cell) ανατίθεται ένα FM_PCSA σκίτσο για την εκτίµηση του πλήθους των διακριτών αντικειµένων εντός του. Το µέγεθος των σκίτσων καθορίζεται από τα εξής: FMSze : πρόκειται για το πλήθος των δυαδικών ψηφίων (bts) ανά διάνυσµα (btmap). FMBtmaps : πλήθος των διανυσµάτων δυαδικών ψηφίων ανά FM_PCSA σκίτσο

124 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Το ρεύµα εισέρχεται στο σύστηµα για επεξεργασία, πλειάδα προς πλειάδα. Η µορφή της πλειάδας είναι : όπου <tmestamp, object_d, coord_x, coord_y> tmestamp : χρονόσηµο object_d : ταυτότητα αντικειµένου coord_x : τετµηµένη coord_y : τεταγµένη Οι συντεταγµένες κάθε νέας πλειάδας που εισέρχεται στο σύστηµα, καθορίζουν µονοσήµαντα το κελί, στο οποίο βρίσκεται το αντίστοιχο αντικείµενο, την τρέχουσα χρονική στιγµή. Πρόκειται για µία απλή λειτουργία κατακερµατισµού (hashng) που επιτυγχάνει την καταγραφή της θέσης των σηµείων ανά κελί και συνεπώς µε µικρότερη λεπτοµέρεια (Σχήµα 6.6). Έστω Left, Top, Rght, Bottom τα άκρα του χώρου και HorGran, VerGran το πλήθος των οριζόντιων και κάθετων διαµερίσεων του χώρου. Έστω ( x, y) οι συντεταγµένες της πλειάδας προς εισαγωγή. Το ζεύγος των τιµών (, j), που χαρακτηρίζουν µονοσήµαντα το κελί, στο οποίο βρίσκεται το σηµείο ( x, y), προκύπτει από τους εξής τύπους: = j= x Left Rght Left HorGran y Bottom Top Bottom VerGran Σχήµα 6.6: οµή για χρονικά παράθυρα οροσήµου

125 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Έτσι, οι συντεταγµένες µεταφράζονται στην ταυτότητα του αντίστοιχου κελιού (cell_d). Στο σηµείο αυτό θα πρέπει να γίνει η ενηµέρωση του σκίτσου, που τηρείται από το κελί αυτό, µε κατακερµατισµό της ταυτότητας object_d του αντικειµένου, όπως έχει περιγραφεί παραπάνω. Η διαδικασία επαναλαµβάνεται µε πανοµοιότυπο τρόπο κάθε φορά που µία νέα πλειάδα εισέρχεται στο σύστηµα. III. Παράδειγµα εισαγωγής Οι συντεταγµένες της τρέχουσας πλειάδας καθορίζουν το κελί στο οποίο εµπίπτει (Σχήµα 6.7). Το σκίτσο FM του κελιού αυτού ενηµερώνεται για την παρουσία του αντικειµένου στο οποίο αναφέρεται η πλειάδα µε κατακερµατισµό της ταυτότητας του αντικειµένου. Παρατηρούµε ότι στην εφαρµογή που περιγράφεται, το χρονόσηµο δεν χρησιµοποιείται πουθενά. Άλλωστε, η δοµή δεν «θυµάται» πότε κάποιο αντικείµενο έγινε αντιληπτό. Εφόσον ένα αντικείµενο έχει εµφανιστεί κάποια στιγµή κατά τη λειτουργία, η εικόνα της δοµής θα είναι η ίδια µετά από αυτό, είτε η εµφάνιση έγινε στο µακρινό είτε στο πρόσφατο παρελθόν. IV. Απάντηση σε ερωτήµατα Η απάντηση στο ερώτηµα «Πόσα τα διακριτά αντικείµενα που έχουν περάσει από το κελί x από την έναρξη του χρονικού παραθύρου οροσήµου µέχρι αυτή τη στιγµή;» προκύπτει άµεσα µε χρήση του υπολογιστικού τύπου των σκίτσων FM_PCSA. Η απάντηση σε αντίστοιχα spatal-range ερωτήµατα, που αφορούν την τυχαία περιοχή a, γίνεται ως εξής: Εντοπίζονται όλα τα κελιά που τέµνουν την εν λόγω περιοχή. Η ένωση των σκίτσων των κελιών αυτών έχει ως αποτέλεσµα ένα νέο σκίτσο που αφορά τον ελάχιστο χώρο b, αποτελούµενο από ολόκληρα κελιά, που καλύπτει πλήρως την περιοχή a. Σχήµα 6.7: Παράδειγµα εισαγωγής

126 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σχήµα 6.8: Ερώτηµα χωρικής έκτασης Με χρήση του υπολογιστικού τύπου των σκίτσων FM_PCSA παράγουµε µία εκτίµηση για το πλήθος των διακριτών αντικειµένων στην περιοχή b και συνεπώς µία υπερεκτίµηση για το πλήθος των διακριτών αντικειµένων στην περιοχή a (Σχήµα 6.8). Μία σηµαντική παρατήρηση είναι ότι το νέο σκίτσο είναι ακριβώς ίδιο µε αυτό που θα προέκυπτε για την ίδια περιοχή, αν το ενηµερώναµε από την χρονική στιγµή έναρξης του παραθύρου οροσήµου. V. υνατότητες συµψηφισµού Βασικά πλεονεκτήµατα της υλοποίησης είναι το µικρό κόστος σε χώρο αποθήκευσης, σε χρόνο ενηµέρωσης και σε χρόνο απάντησης. Η ενηµέρωση κοστίζει O ( 1) ανά πλειάδα. Η πολυπλοκότητα χώρου είναι O FMSze FMbtmaps HorGran VerGran = ( ) ( log( DC) m HorGran VerGran) O Είναι δηλαδή λογαριθµική ως προς τον πληθάριθµο των διακριτών αντικειµένων και ανάλογη προς τις παραµέτρους HorGran και VerGran. Η αύξηση του m (=FMbtmaps) συνεπάγεται αύξηση της ακρίβειας µε αντάλλαγµα την αύξηση του απαιτούµενου χώρου. Η απάντηση σε ερώτηµα έχει κόστος αναζήτησης bt προς bt σε όλη τη δοµή. Μπορεί, όµως, να µειωθεί δραστικά για ερωτήµατα διαρκείας, αν η δοµή ενηµερώνει άµεσα το ενεργό ερώτηµα για τυχόν αλλαγές. Επειδή ένα στοιχείο αλλάζει, το πολύ, ένα bt, η απάντηση στο ερώτηµα θα έχει κόστος την γραµµική αναζήτηση σε ένα διάνυσµα δηλαδή ( ( DC) ) O log. Συνεπώς, η δοµή µπορεί να χρησιµοποιηθεί για την απάντηση ερωτηµάτων διαρκείας (contnuous queres). Θετική είναι επίσης η δυνατότητα συµψηφισµού (trade-off) που παρέχει η δοµή. Πράγµατι, µεγαλύτερη ακρίβεια

127 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων στην απάντηση αντισταθµίζεται µε µεγαλύτερο κόστος σε χώρο αποθήκευσης και χρόνο απάντησης. Το κόστος ενηµέρωσης παραµένει ανεπηρέαστο. VI. Περιορισµένες δυνατότητες για ερωτήµατα Βασικό µειονέκτηµα της εφαρµογής, είναι οι περιορισµένες δυνατότητες που επιβάλλει το χρονικό παράθυρο σταθερής αρχής. εν υπάρχει ευελιξία ως προς τη χρονική οριοθέτηση των ερωτηµάτων. Συνεπώς, τα ερωτήµατα, που µπορούν να απαντηθούν, πρέπει να είναι προκαθορισµένα (predefned). Η δοµή δεν έχει τη δυνατότητα να ορίσει χρονική αφετηρία στο παρελθόν και συνεπώς δεν έχει τη δυνατότητα να απαντήσει περιστασιακά ερωτήµατα (ad-hoc), που ορίζουν κάποιο χρονικό σηµείο του παρελθόντος ως αρχή του χρονικού παραθύρου. Σε επόµενες παραγράφους θα προταθούν δοµές που αποπειρώνται να άρουν τον περιορισµό αυτόν, χωρίς όµως να αποτελούν την τετριµµένη, εξαντλητική και ακριβή λύση. VII. Άλλες παράµετροι Horzontal - Vertcal Granularty και ακρίβεια στις απαντήσεις. Όπως φαίνεται και στις πολυπλοκότητες, η ακρίβεια της απάντησης εξαρτάται από το µέγεθος των κελιών του πλέγµατος. Όσο µικρότερα τα κελιά τόσο καλύτερα προσεγγίζεται η χωρική έκταση ενδιαφέροντος του (spatalrange) ερωτήµατος. Η απάντηση σε συνεχή ερωτήµατα µπορεί να γίνει πιο αποδοτικά µε παρακολούθηση των µεταβολών των σκίτσων, αντί µε τη συνεχή χρήση του υπολογιστικού τύπου. Επίσης, ανάλογα µε τις απαιτήσεις της εφαρµογής η απάντηση µπορεί να δίνεται σε περιοδικά διαστήµατα ιακριτά αντικείµενα σε ολισθαίνον χρονικό παράθυρο Ι. Σκοπός Σκοπός της υλοποίησης αυτής, είναι η απάντηση στο ερώτηµα: «Ποιο το πλήθος των διακριτών αντικειµένων στην περιοχή a τις τελευταίες W χρονικές στιγµές;» Ενδιαφέρει, επίσης, η απάντηση σε ερώτηµα που ορίζει ολισθαίνον χρονικό παράθυρο που δεν τελειώνει κατ ανάγκη στο παρόν. II. Παραλλαγές Το παραπάνω ερώτηµα έχει µεγάλο ενδιαφέρον. Οι πιθανές υλοποιήσεις είναι δύο. Η πρώτη έγκειται στην υλοποίηση του ολισθαίνοντος παραθύρου από µικρότερα παράθυρα σε µορφή δέντρου. Η δεύτερη αναφέρεται στη χρήση της παραλλαγής των σκίτσων FM έτσι ώστε να υποστηρίζουν διαγραφές

128 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Παραλλαγή α Σχήµα 6.9: Υλοποίηση ολισθαίνοντος παραθύρου µε σκίτσα Τα σκίτσα FM έχουν την ιδιότητα της ένωσης. Εκµεταλλευόµενοι την ιδιότητα αυτή οι Wdom και Arasu [AW04] ορίζουν µία δενδρική δοµή για την προσέγγιση ενός παραθύρου (Σχήµα 6.9). Θα περιγράφεί, συνοπτικά, µία δοµή βασισµένη στην κεντρική ιδέα που αναπτύσσεται στο [AW04] για την τήρηση σκίτσων σε ολισθαίνον χρονικό παράθυρο. Στο χαµηλότερο επίπεδο υπάρχουν σκίτσα στοιχειώδους µεγέθους w. Το µέγεθος αυτό ορίζεται έτσι ώστε w l +1 = W, όπου l + 1 το πλήθος των επιπέδων του δένδρου. Στο παραπάνω επίπεδο υπάρχουν σκίτσα που προκύπτουν από την ένωση δύο εκ των σκίτσων του χαµηλότερου επιπέδου κ.ο.κ.. Στο υψηλότερο επίπεδο τα σκίτσα καλύπτουν το πλήρες χρονικό παράθυρο. Εύκολα παρατηρεί κανείς ότι, για οποιαδήποτε χρονική στιγµή, µπορεί να σχηµατιστεί σκίτσο που καλύπτει όλο το χρονικό παράθυρο, µε ένωση σκίτσων από διάφορα επίπεδα. Τα σκίτσα που θα πρέπει να ενωθούν είναι O ( l), όπου l το πλήθος των επιπέδων του ιεραρχικού δένδρου. Η ενηµέρωση της δοµής κοστίζει O ( l). Το πλήθος των επιπέδων καθορίζει τη σχέση του w µε το W. Ουσιαστικά, το w είναι το «κβάντο» της εφαρµογής και καθορίζει το ρυθµό ανανέωσης της απάντησης σε ένα ερώτηµα διαρκείας. Η δοµή πραγµατοποιεί ισοστάθµιση µεταξύ της «λεπτότερης» διαµέρισης και συνεπώς του κόστους σε χώρο µε την ποιότητα απάντησης που παρέχεται (ρυθµός ανανέωσης απάντησης ερωτήµατος διαρκείας). Βασικό πλεονέκτηµα της δοµής είναι η σταθερή ποιότητα της απάντησης σε όλη τη διάρκεια του χρονικού παραθύρου. Αυτή, ακριβώς, η ιδιότητα στερεί από τη δοµή την δυνατότητα λειτουργίας σε παράθυρα οροσήµου. Οι απαιτήσεις σε µνήµη αυξάνονται γραµµικά. Σε επόµενη παράγραφο θα προταθεί µία αµνησιακή προσέγγιση της παραπάνω δοµής που απευθύνεται σε εφαρµογές των οποίων το ενδιαφέρον για το παρελθόν φθίνει µε το πέρασµα του χρόνου. Οι απαιτήσεις σε µνήµη αυξάνονται λογαριθµικά µε το πέρασµα του χρόνου για την αµνησιακή δοµή. Παραλλαγή β Η κεντρική ιδέα είναι η δοµή να υποστηρίζει εκτός από εισαγωγές αντικειµένων και εξαγωγές (διαγραφές). Αυτό επιτυγχάνεται µε αντικατάσταση των δυαδικών συµβόλων από µικρούς ακέραιους µετρητές όπως παρουσιάζεται στις παραλλαγές των σκίτσων FM (delete-fm sketch). Οι πράξεις nsert και delete γίνονται ως

129 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων εξής: Κατά την εισαγωγή δεν τίθεται κάποιο bt από 0 σε 1 αλλά αυξάνεται κατά ένα ο αντίστοιχος µετρητής. Κατά τη διαγραφή, αντίστοιχα, ο µετρητής µειώνεται κατά ένα. Ο υπολογιστικός τύπος του πλήθους των διακριτών αντικειµένων είναι ο ίδιος. Η µόνη διαφορά είναι ότι, αν κάποιος µετρητής έχει τιµή µεγαλύτερη ή ίση της µονάδας, θεωρείται σαν bt µε τιµή 1, ενώ αν έχει τιµή 0 θεωρείται σαν bt µε τιµή 0. Μειονέκτηµα της υλοποίησης αυτής είναι η ανάγκη της τήρησης όλων των πλειάδων του χρονικού παραθύρου. Το µόνο κέρδος εντοπίζεται στην ταχύτητα απάντησης που εγγυάται το σκίτσο, σε σχέση µε την ταχύτητα απάντησης απευθείας από τις πλειάδες, αλλά αυτό ισοσταθµίζεται από την προσεγγιστική έναντι της ακριβούς απάντησης Ιεραρχικές αµνησιακές συνόψεις I. Σκοπός Σκοπός της υλοποίησης αυτής είναι η απάντηση σε ερωτήµατα πλήθους διακριτών αντικειµένων που αναφέρονται σε ολισθαίνοντα χρονικά παράθυρα µε έµφαση στο πρόσφατο παρελθόν. Σκοπός, επίσης, είναι η απάντηση σε ερωτήµατα που αφορούν µετακίνηση διακριτών αντικειµένων από µία χωροχρονική περιοχή σε άλλη. Ζητούµενο αποτελεί ακόµα η απωλεστική συµπίεση της πληροφορίας σε κάποιο επιθυµητό επίπεδο χρονικής λεπτοµέρειας. ΙΙ, Χωροχρονική περιοχή Χωροχρονική περιοχή (spatotemporal range) είναι συνδυασµός µίας χωρικής περιοχής και ενός χρονικού διαστήµατος. Η χωρική περιοχή περικλείεται από ένα πολύγωνο. Το χρονικό διάστηµα ορίζεται από µία αρχική (start_tme) και µία τελική χρονική στιγµή (end_tme). II. Αµνησιακή δοµή AmTree Η δοµή AmTree είναι ένα δέντρο αµνησιακής ιεραρχικής συµπίεσης δεδοµένων µε αίσθηση χρόνου (tme awareness). Η λειτουργία του γίνεται σε ρεύµατα δεδοµένων (onlne). Το AmTree βασίζεται στη δοµή SWAT της οποίας έχει γίνει επισκόπηση στο κεφάλαιο 5. Στο σχήµα 6.10 φαίνεται το εν λόγω δέντρο. Οι κόµβοι του δέντρου χωρίζονται σε R-κόµβους και L-κόµβους. Σε κάθε επίπεδο του δέντρου υπάρχει ακριβώς ένας R-κόµβος και ένας L-κόµβος, εκτός από το επίπεδο της ρίζας όπου υπάρχει µόνο ένας R-κόµβος. Κάθε κόµβος του επιπέδου 0 αναφέρεται σε µία χρονική στιγµή. Κάθε κόµβος του επιπέδου 1 σε 2 χρονικές στιγµές. Αντίστοιχα, κάθε κόµβος του επιπέδου 2 αναφέρεται σε 4 χρονικές στιγµές. Γενικά, ένας κόµβος επιπέδου n n καλύπτει σε 2 χρονικές στιγµές. Το ύψος του δένδρου, σε πλήθος επιπέδων (NumberOfLevels) για λειτουργία σε ολισθαίνον παράθυρο, προκύπτει ως NumberOfLe vels= 1+ log( WndowSze) όπου WndowSze το µέγεθος του χρονικού παραθύρου (tuple-based)

130 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σχήµα 6.10: Ένα AmTree για ολισθαίνον παράθυρο 32 χρονικών στιγµών έχει 6 επίπεδα και 11 κόµβους. Σε λειτουργία παραθύρου οροσήµου το πλήθος των επιπέδων κάθε στιγµή ορίζεται ως: NumberOfLe vels= 1+ log( StreamSze), όπου StreamSze το πλήθος των πλειάδων-χρονοσήµων που έχουν εισρεύσει µέχρι τώρα. Ο όρος πλειάδα χρησιµοποιείται καταχρηστικά. Στην πραγµατικότητα σε όλες τις εφαρµογές αυτού του κεφαλαίου, µε τον όρο πλειάδα αναφερόµαστε σε οµάδες πλειάδων µε κοινό χρονόσηµο. Το πλήθος των κόµβων είναι NumberOfNo des= 2 NumberOfLevels 1. III. Αµνησιακή συµπίεση στη διάσταση του χρόνου Η χρήση του AmTree δίνει τη δυνατότητα συµπίεσης της πληροφορίας σε διάφορα επίπεδα λεπτοµέρειας όσον αφορά τη χρονική διάσταση. Η έµφαση, που η δοµή δίνει στο πρόσφατο παρελθόν, έγκειται στην χρονική έκταση των παραθύρων. Ένα πρώτο παράδειγµα είναι το εξής: Έστω ότι η πληροφορία θέσης ενός αντικειµένου εισέρχεται στο σύστηµα ανά χρονική µονάδα. Έστω ακόµα ότι η πληροφορία είναι χρονικά ταξινοµηµένη. (Η πρώτη υπόθεση γίνεται για απλούστευση του παραδείγµατος, η δεύτερη µπορεί να αρθεί µε χρήση ενταµιευτή πριν την είσοδο στο σύστηµα και δεν αποτελεί αντικείµενο ενδιαφέροντος της παρούσας εργασίας). Τη χρονική στιγµή t = 0 (παρόν) και µετά την παρέλευση 255 χρονικών µονάδων η δοµή παρέχει άµεσα τα σκίτσα διαφόρων χρονικών παραθύρων, όπως φαίνεται στο Σχήµα

131 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σχήµα 6.11: Παράδειγµα AmTree Παράδειγµα Η απάντηση στο ερώτηµα : «Ποιο το πλήθος των διακριτών αντικειµένων στο χρονικό παράθυρο ;» µπορεί να εκτιµηθεί χρησιµοποιώντας τους κόµβους και Η ένωση των σκίτσων των εν λόγω κόµβων δίνει το σκίτσο του χρονικού παραθύρου που αποτελεί ένα χρονικό υπερσύνολο του Συνεπώς, το DC του σκίτσου αποτελεί µία προσέγγιση (υπερεκτίµηση) του ζητούµενου DC για το παράθυρο IV. Ρεύµα δεδοµένων και AmTree: Ένα γενικό πλαίσιο χρονικής αµνησιακής συµπίεσης Στην παράγραφο αυτή, το AmTree θα αντιµετωπιστεί µόνο στη χρονική διάσταση. ηλαδή, θα παρουσιαστεί η onlne λειτουργία του στο χρόνο. Οι κόµβοι θα ταυτιστούν προς το παρόν µε τις χρονικές εκτάσεις στις οποίες αναφέρονται. Το περιεχόµενό τους δεν ενδιαφέρει την ανάλυση στην παρούσα φάση. Υποθέτουµε µόνο την ύπαρξη τριών συναρτήσεων: merge, shft, new. H merge ( ) συγχωνεύει το περιεχόµενο του R-κόµβου και του L-κόµβου του επιπέδου, και το τοποθετεί στον R-κόµβο του επιπέδου + 1. Η shft () σπρώχνει τα περιεχόµενα του R- κόµβου ενός επιπέδου στον L-κόµβο του ίδιου επιπέδου. Η new ( tmestamp) πραγµατοποιεί µετασχηµατισµό της πληροφορίας της τρέχουσας πλειάδας σε

132 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων πληροφορία κόµβου και ενηµερώνει τον R-κόµβο του επιπέδου 0 ( R 0 ). Γενικά, η τρέχουσα πλειάδα χρησιµοποιείται µόνο για την ενηµέρωση του R 0. Η πληροφορία ρέει στο δέντρο από τα χαµηλότερα επίπεδα προς τα υψηλότερα µε τις συναρτήσεις merge και shft. Με τις παραπάνω συναρτήσεις ορίζεται ένα γενικότερο πλαίσιο λειτουργίας του AmTree. Η εφαρµογή καθορίζει το περιεχόµενο των κόµβων καθώς και τη συνάρτηση merge. Πρέπει να σηµειωθεί ότι, αν δεν ορίζεται η merge για κάποιο είδος δεδοµένων, το δένδρο προφανώς δεν ταιριάζει στην αντίστοιχη εφαρµογή. Σε επόµενη παράγραφο θα ανατεθούν αντικείµενα τύπου FM_PCSA στους κόµβους και η λειτουργία του AmTree θα εξειδικευτεί. Στο Σχήµα 6.12 φαίνεται η ενηµέρωση του δένδρου χρονόσηµο προς χρονόσηµο. Αναφέρονται, για ευκολία, οι στοιχειώδεις πράξεις (merge, new, shft) κάθε φορά που εµφανίζεται ένα νέο χρονόσηµο. Στο παράδειγµα µας, υποθέτουµε επεξεργασία χρονόσηµο προς χρονόσηµο. Κάθε χρονόσηµο αφορά µερικές πλειάδες και στο εξής θα αναφερόµαστε στο σύνολο των πλειάδων µίας χρονικής στιγµής (χρονόσηµο) και όχι στις επιµέρους πλειάδες που δεν επηρεάζουν το δένδρο. Με την άφιξη της πρώτης πλειάδας για το πρώτο χρονόσηµο ο κόµβος R 0 ξεκινά να συλλέγει πληροφορία που αφορά την εν λόγω χρονική στιγµή ( new ( 0) ). Όσο η πληροφορία που εισέρχεται στο σύστηµα αφορά το ίδιο χρονόσηµο, ο κόµβος R 0 ενηµερώνεται, ενώ το δένδρο παραµένει ανέπαφο. Με τη λήξη του πρώτου χρονοσήµου τα περιεχόµενα του R 0 µεταφέρονται στον L 0 µε την κλήση shft ( 0). Σχήµα 6.12: Παράδειγµα λειτουργίας AmTree

133 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Με την έναρξη του επόµενου χρονοσήµου ο κόµβος R 0 είναι καθαρός από περιεχόµενα και έτοιµος να δεχτεί την πληροφορία που αφορά το νέο χρονόσηµο ( new ( 1) ). Μόλις η διαδικασία new ολοκληρωθεί, οι κόµβοι του επιπέδου 0 συγχωνεύονται στον R 1 µε κλήση της merge ( 0), η πληροφορία του κόµβου R 0 µεταφέρεται στον L 0 µε κλήση της shft ( 0) και ο R 0 γεµίζει µε κλήση της new ( 2). Με τη λήξη του χρονοσήµου 2, πραγµατοποιείται διαδοχικά, merge ( 0) και shft ( 0), ενώ µε τη ( 3) R συνοψίζει το νέο χρονόσηµο. Με τη new ο κόµβος 0 λήξη του χρονοσήµου 3, παρατηρούµε ότι πρέπει να παραχθεί η σύνοψη 2-3 και να τοποθετηθεί στη θέση της 0-1. Αυτό είναι εφικτό µε την εξής διαδοχή 1 0 merge 1. Παρατηρούµε ότι στο δέντρο προστέθηκε κλήσεων : shft ( ), merge ( ), ( ) το επίπεδο 2. Στην παρούσα φάση ο κόµβος R 2 συνοψίζει το 0-3, ο κόµβος L 1 το 0-1, και ο κόµβος R 1 το 2-3. Η διαδικασία συνεχίζεται όπως φαίνεται στο σχήµα Παρατηρούµε ότι το επίπεδο 0 ανανεώνεται για κάθε νέο χρονόσηµο (λειτουργία shft ( 0) shft ( 1), merge ( 0) ), το επίπεδο 2 κάθε 4 χρονόσηµα (λειτουργίες ( 2) merge ( 1) ). Γενικά, το επίπεδο ανανεώνεται µε τις κλήσεις ( ) merge ( 1) κάθε 2 χρονόσηµα. ), το επίπεδο 1 ανανεώνεται κάθε 2 χρονόσηµα (λειτουργίες shft, shft και Είναι φανερό ότι οι συνόψεις διαφόρων επιπέδων αλλάζουν από χρονόσηµο σε χρονόσηµο και ότι η πληροφορία που αφορά ένα χρονόσηµο στο παρελθόν οµαδοποιείται µε ακόµα k χρονόσηµα, όπου το k είναι ανάλογο της ηλικίας του χρονοσήµου. V. Συµπίεση στις χωρικές διαστάσεις Ο δισδιάστατος χώρος νοείται ως ένα πλέγµα αποτελούµενο από µη επικαλυπτόµενα ορθογώνια-κελιά. Άµεση συνέπεια είναι η οµαδοποίηση των αρχικών σηµείων του χώρου σε κελιά. Η χωρική συµπίεση αυτή, µας οδηγεί σε υπερεκτιµήσεις των απαντήσεων. Στην παρούσα εργασία περιγράφουµε την απλούστερη περίπτωση δοµής χωρικής πληροφορίας που είναι το πλέγµα, χωρίς αυτό να σηµαίνει ότι οποιαδήποτε άλλη χωρική δοµή δεν θα µπορούσε να βρίσκεται «πάνω» από τα AmTrees. Εξάγωνα, κελιά Vorono ή δοµές R-Tree είναι κάποιες εναλλακτικές χωρικές δοµές. VI. Ο χώρος ως πλέγµα Ο χώρος νοείται ως ένα πλέγµα, αποτελούµενο από µη επικαλυπτόµενα ορθογώνια κελιά. Κάθε κελί του χώρου περιέχει ένα AmTree. Αν το πλέγµα είναι 10Χ10 τότε θα υπάρχουν 10Χ10=100 αντίστοιχα AmTrees. Κάθε κόµβος των δοµών, τύπου AmTree, αποτελείται από ένα σκίτσο FM_PCSA. Το πλήθος των επιπέδων σε κάθε AmTree εξαρτάται από το χρονικό παράθυρο και είναι λογαριθµικού µεγέθους ως προς αυτό. Η άφιξη νέας πλειάδας σηµατοδοτεί την επιλογή κατάλληλου χωρικού κελιού και ενηµέρωση του σκίτσου του κόµβου R 0 του αντίστοιχου AmTree µε την ταυτότητα (d) του αντικειµένου στο οποίο η πλειάδα αναφέρεται

134 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σχήµα 6.13: οµή FM-AmTree Αν η νέα πλειάδα σηµατοδοτεί την έναρξη άφιξης πληροφορίας νέου χρονοσήµου, τότε πρέπει να προηγηθεί η κατάλληλη ανανέωση όλων των AmTree του Grd, και να προετοιµαστούν όλοι οι R 0 κόµβοι για το νέο χρονόσηµο. Η διαδικασία της ανανέωσης των δέντρων γίνεται όπως περιγράφηκε στην παραπάνω επίδειξη λειτουργίας τους. Το Σχήµα 6.13 συνοψίζει τη συνολική δοµή. VII. Τρία επίπεδα συµπίεσης Η δοµή που περιγράφεται επιτυγχάνει συµπίεση σε τρία διαφορετικά επίπεδα. Στο επίπεδο του χρόνου η συµπίεση γίνεται από τη δοµή AmTree Στο επίπεδο του χώρου η συµπίεση γίνεται µε τη δοµή Grd. Στο επίπεδο του ερωτήµατος και την ακρίβεια πραγµατοποιείται σύνοψη της πληροφορίας µε τη δοµή FM_PCSA. Η χωρική πολυπλοκότητα της δοµής είναι O( log ( DC) log( N) m HG VG), όπου Ν το πλήθος των χρονοσήµων, DC το άνω φράγµα του πλήθους των διακριτών αντικειµένων, HG και VG οι παράµετροι του χωρικού πλέγµατος και m το πλήθος των διανυσµάτων ανά σκίτσο, για βελτίωση της ακρίβειας. Η ενηµέρωση είναι γνωστή από τη δοµή AmTree και έχει σταθερό κόστος (Σχήµα 6.14). Όσον αφορά την απάντηση σε ερωτήµατα χωροχρονικού παραθύρου, το κόστος είναι ίσο µε την αναζήτηση στο δένδρο και συνεπώς λογαριθµικό ως προς το πλήθος των χρονοσήµων

135 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων procedure FM_AMTree (Left,Top,Rght,Bottom,HorGran,VerGran,h,m,r) 1. ntalze GRID usng (Left,Top,Rght,Bottom,HorGran,VerGran) 2. ntalze GRID hash functon: g(x,y) 3. ntalze (HorGran VerGran) AmTrees, one for each GRID cell 4. ntalze FM(h,m,r) sketches for each node of each AmTree 5. for each tmestamp t 6. for each tuple o n t 7. hash the object nto the approprate cells usng cur_cell=g(x,y) 8. hash the d nto the FM sketch of the R 0 node of the AmTree cur_cell usng h(d) 9. end for 10. Update_AmTree (t) //update all AmTrees 11.end for end FM_AMTree Σχήµα 6.14: Αλγόριθµος FM_AmTree VIII. Αξιολόγηση της τεχνικής Η πολυεπίπεδη συµπίεση, που περιγράφεται παραπάνω, δίνει µεγάλη ευελιξία στην ισοστάθµιση χώρου και ακρίβειας (tradeoff). Στο επίπεδο του χρόνου η συµπίεση είναι αµνησιακή. Λόγω αυτής της ιδιότητας, η εφαρµογή είναι πλήρως συµβατή µε το µοντέλο ρευµάτων δεδοµένων. Το αντάλλαγµα είναι ότι όσο «παλιώνουν» τα χρονόσηµα τόσο συµµετέχουν σε πιο πολυπληθείς οµάδες χρονοσήµων. Η ιδιότητα αυτή προσδίδει µεν βιωσιµότητα στην εφαρµογή αλλά ταυτόχρονα µειώνει δραστικά τη διαθέσιµη πληροφορία για το παρελθόν. Η εφαρµογή ταιριάζει σε καταστάσεις, όπου οι απαιτήσεις ακρίβειας για το παρελθόν είναι µειωµένες. IX. Σχετική εργασία: Τα δένδρα arb Τα δένδρα arb µε δεικτοδότηση σκίτσων (arb-tree usng sketch ndex) σχεδιάστηκαν για την εκτίµηση του πλήθους διακριτών αντικειµένων σε οποιοδήποτε χωροχρονικό παράθυρο. Αποτελούν ένα συνδυασµό των δοµών R- tree, B-tree και FM-sketch. Ένα R-tree χρησιµεύει για τη χωρική δεικτοδότηση. Σε κάθε MBR (mnmum boundng rectangle) του R-tree αντιστοιχεί ένα Β-tree για την τήρηση των σκίτσων στη χρονική διάσταση. Κάθε κόµβος του Β-tree αντιστοιχεί σε ένα σκίτσο FM (Σχήµα 6.15). Η δοµή µπορεί να δώσει εκτίµηση για το πλήθος των διακριτών αντικειµένων, για οποιοδήποτε χωροχρονικό παράθυρο του παρελθόντος, εκµεταλλευόµενη τη γνωστή ιδιότητα των σκίτσων FM. Πλεονέκτηµα της δοµής είναι το χαµηλό κόστος ενηµέρωσης. Μειονέκτηµα της δοµής είναι ότι δεν µπορεί να λειτουργήσει σε παράθυρο σταθερής αρχής. Ο χώρος που απαιτεί είναι ανάλογος µε το µέγεθος του ρεύµατος (σε χρονόσηµα). Μπορεί, όµως, να λειτουργεί για ολισθαίνον παράθυρο µε σταθερές απαιτήσεις σε χώρο

136 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Σχήµα 6.15: Το χωρικό επίπεδο της δοµής (α) και το αντίστοιχο δένδρο arb/sketch (β). Λογική διάζευξη των µαρκαρισµένων σκίτσων είναι η απάντηση στο q r Όσον αφορά την απάντηση σε ερωτήµατα χωροχρονικού παραθύρου υπάρχουν τεχνικές κλαδέµατος των δένδρων για ταχύτερες αποκρίσεις. Πλήρης περιγραφή της δοµής και των ιδιοτήτων της υπάρχει στο [TKC+04] Πειραµατικά αποτελέσµατα Έγινε χρήση ενός συνόλου δεδοµένων κινούµενων αντικειµένων που κινούνται επί 100 χρονικές στιγµές το καθένα (20kΧ100) και ένα σύνολο κινούµενων αντικειµένων που κινούνται επίσης επί 100 χρονικές στιγµές (1kX100). Από τα πειράµατα µε το σύνολο (20kΧ100) προέκυψαν τα γραφήµατα 6.16 και Ο αλγόριθµος FMAmTree έτρεξε για πλέγµα 5Χ5 στο κέντρο της Αθήνας. Για ένα κελί, τη χρονική στιγµή 63 υπολογίσαµε το πλήθος διακριτών αντικειµένων σε διάφορες χρονικές περιόδους όπως τις συνοψίζει το δένδρο. Η διαδικασία έγινε επαναληπτικά για 8,16,32 και 64 διανύσµατα ανά σκίτσο. Με χρήση του ArcVew υπολογίσαµε το πραγµατικό πλήθος διακριτών αντικειµένων για τις ίδιες χρονικές περιόδους. Τα αποτελέσµατα παρουσιάζονται στο Σχήµα Γίνεται φανερό, πως όσο αυξάνονται τα διανύσµατα ανά σκίτσο, τόσο ελαττώνεται το σφάλµα, όπως είναι αναµενόµενο θεωρητικά. Το σχήµα 6.17 παρουσιάζει το σχετικό σφάλµα για τα τέσσερα πλήθη σκίτσων, όπως προκύπτει από το γράφηµα Με χρήση του 1kX100 επιβεβαιώσαµε την αναµενόµενη χρονική συµπεριφορά του αλγορίθµου. Στο σχήµα 6.18 παρουσιάζεται η χρονική επίδοση του αλγορίθµου για πλέγµα ΝΧΝ. Το N (Granularty) απεικονίζεται στον άξονα

137 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων x x. Στο Σχήµα 6.19 παρουσιάζονται τα αποτελέσµατα στο πεδίο του χρόνου, καθώς αυξάνεται το πλήθος των διανυσµάτων ανά σκίτσο. Τα συµπεράσµατα, που εξάγονται από τα πειράµατα, είναι: Η προσέγγιση, µε 8 διανύσµατα ανά σκίτσο, δεν είναι αξιόπιστη Η προσέγγιση µε τα 16 διανύσµατα ανά σκίτσο παρουσιάζει σφάλµα γύρω στο 15% Με 32 διανύσµατα, η προσέγγιση έχει σφάλµα περίπου 2.5% και µε 64 περίπου 1.6%. (Σχήµατα 6.16, 6.17) Η χρονική επίδοση του αλγορίθµου έχει γραµµική σχέση µε το συνολικό πλήθος των κελιών. Συνεπώς για πλέγµατα ΝΧΝ, η παραπάνω σχέση είναι τετραγωνική ως προς τη διακριτική ικανότητα (Ν). Αυτό επιβεβαιώνει το γράφηµα του Σχήµατος Η χρονική επίδοση του αλγορίθµου έχει γραµµική σχέση µε το πλήθος των διανυσµάτων ανά σκίτσο. Αυτό επιβεβαιώνει το γράφηµα Οι παράµετροι του πλέγµατος (HorGran, VerGran) είναι παράµετροι της εφαρµογής και καθορίζουν σε µεγάλο βαθµό τη χρονική επίδοση του αλγορίθµου. Οι παράµετροι του πλέγµατος (HorGran, VerGran) επιλέγονται µε βάση τα ερωτήµατα. Για παράδειγµα, αν τα ερωτήµατα καλύπτουν εκτάσεις δεκάδων τετραγωνικών χιλιοµέτρων, δεν έχει νόηµα το κελί να είναι τάξης τετραγωνικών δεκαδικών µέτρων. Έχει νόηµα, όµως, να είναι τάξης τετραγωνικών χιλιοµέτρων. Ως αµνησιακή, η δοµή µπορεί να παράγει ακριβέστερα αποτελέσµατα για πιο πρόσφατες χρονικές περιόδους. Μπορεί, επίσης, να παράγει αποτελέσµατα για ερωτήµατα διαρκείας, όπως το «Υπολόγισε το πλήθος των διακριτών αντικειµένων στην περιοχή r τα τελευταία 8 δευτερόλεπτα» Dstnct Objects DC 8-sk 16-sk 32-sk 64-sk Tme Interval (sec) Σχήµα 6.16: ιακριτά Αντικείµενα

138 Τεχνικές Εκτίµησης Συναθροιστικών Ερωτηµάτων σε Οµάδες Κινούµενων Αντικειµένων Relatve Error (%) sk 16-sk 32-sk 64-sk Tme Interval (sec) Σχήµα 6.17: Σχετικό σφάλµα Process Tme (sec) Granularty Σχήµα 6.18: Χρονική επίδοση µε βάση την διακριτική ικανότητα 9 8 Process Tme (sec) Number Of Btmaps per sketch Σχήµα 6.19: Χρονική επίδοση µε βάση το πλήθος των διανυσµάτων ανά σκίτσο

139 Συµπεράσµατα Κεφάλαιο 7 Συµπεράσµατα-Προοπτικές Εισαγωγή Η βιβλιογραφική ενηµέρωση αρχικά και η υλοποίηση και η πειραµατική αξιολόγηση πρωτότυπων τεχνικών στη συνέχεια, αφενός οδηγούν σε συµπεράσµατα και αφετέρου γεννούν µελλοντικές προοπτικές. Τα συµπεράσµατα και οι µελλοντικές προοπτικές αφορούν και τις προτεινόµενες τεχνικές αλλά και γενικότερα το πρόβληµα της συµπίεσης δεδοµένων τροχιάς κινούµενων αντικειµένων

140 Συµπεράσµατα 7.1 Συµπεράσµατα Από την παρούσα εργασία προέκυψαν τεχνικές για τη συµπίεση δεδοµένων τροχιάς κινούµενων αντικειµένων. Με εφαρµογή των τεχνικών αυτών σε συνθετικά δεδοµένα τροχιάς οχηµάτων στο οδικό δίκτυο της Αθήνας, πραγµατοποιήθηκαν εκτενή πειράµατα, από τα οποία προέκυψαν πολύ ενθαρρυντικά αποτελέσµατα. Επιπλέον, επιβεβαιώθηκαν οι αναµενόµενες επιδόσεις τους ως προς τους απαιτούµενους πόρους και την ακρίβεια των προσεγγιστικών απαντήσεων σε χωροχρονικά ερωτήµατα. Όσον αφορά τις τεχνικές που προτείνονται στα Κεφάλαια 4, 5, 6 προκύπτουν τα εξής συµπεράσµατα: Οι αλγόριθµοι χωροχρονικών κατωφλίων (Thresholds) έχουν καλύτερη επίδοση από τον οµοιόµορφο αλγόριθµο χωρίς καµία επιβάρυνση σε πόρους συστήµατος και χωρίς κανένα κίνδυνο αστοχίας. Όσον αφορά τα σφάλµατα, οι αλγόριθµοι Thresholds υπερέχουν του οµοιόµορφου στα µέσα σύγχρονα σφάλµατα MSE και AvgDst κατά ένα παράγοντα κοντά στο 1.4. Αισθητά καλύτερα αποτελέσµατα παρατηρούνται όσον αφορά το µέγιστο απόλυτο σφάλµα (MAE), όπου η βελτίωση είναι µεγαλύτερη του 1.5. Ο αλγόριθµος STTrace έχει µέχρι και 10 φορές καλύτερη επίδοση από τον οµοιόµορφο αλγόριθµο, µε µία µικρή επιβάρυνση στο κόστος ενηµέρωσης. Η επιβάρυνση είναι η αναζήτηση του νέου κατωφλίου σε περίπτωση διαγραφής στοιχείου από το δείγµα, εξαρτάται από το µέγεθος της µνήµης και θεωρείται σταθερή αφού η µνήµη είναι σταθερή. Η ικανότητα των αλγορίθµων Thresholds και STTrace να µοιράζουν τη διαθέσιµη µνήµη στα κινούµενα αντικείµενα, ανάλογα µε τις ανάγκες τους, αποτελεί ισχυρό πλεονέκτηµα των αλγορίθµων. Οι αλγόριθµοι υλοποιούν, στην πράξη, συµπίεση πολλαπλών τροχιών. Οι αλγόριθµοι εµφανίζουν ανοχή σε πιθανές διακυµάνσεις του ρυθµού. Αυτό οφείλεται στο γεγονός ότι πραγµατοποιούν αξιολόγηση του χωροχρονικού περιεχοµένου των πλειάδων. Ειδικά για εφαρµογές σε κίνηση µε περιορισµούς, όπως αυτή στα οδικά δίκτυα, οι αλγόριθµοι δίνουν αποτελέσµατα που διευκολύνουν την ταυτοποίηση της τροχιάς στο δίκτυο. Τα διαισθητικά αποτελέσµατα στο κεφάλαιο 4 επιβεβαιώνουν τον ισχυρισµό. Το αµνησιακό δένδρο (AmTree) και η εφαρµογή του για την αµνησιακή συµπίεση τροχιάς µπορεί να χρησιµοποιηθεί για συµπίεση της τροχιάς µε αµνησιακά χαρακτηριστικά. Σε αντίθεση µε τις δειγµατοληπτικές µεθόδους, κάθε πλειάδα της τροχιάς εισάγεται στο δένδρο και µένει σε αυτό για κάποιο χρονικό διάστηµα. Η απάντηση σε ερωτήµατα µε το αµνησιακό δένδρο γίνεται µε µεγάλη ακρίβεια για το πρόσφατο παρελθόν και συνεχώς µειούµενη για το απώτερο. Εφαρµογές, στις οποίες η ταχύτητα απάντησης µπορεί να ισοσταθµιστεί µε ανακρίβειες για το απώτερο παρελθόν, µπορούν να χρησιµοποιήσουν τη δοµή αυτή

141 Συµπεράσµατα Σε εκτιµήσεις που παράγει το αµνησιακό δένδρο υπάρχει η δυνατότητα να µειωθούν τα false negatves µε χρήση ευρετικών κριτηρίων. Η δοµή FM-AmTree αποτελεί µία βιώσιµη σύνθετη δοµή, που έχει παρόµοια χαρακτηριστικά µε τη δοµή AmTree όσον αφορά τις απαντήσεις. Η δοµή FM-AmTree επιτυγχάνει συµπίεση της πληροφορίας σε πολλαπλά επίπεδα. Συµπίεση µε χαρακτηριστικά εκθετικής αµνησίας στη χρονική διάσταση, συµπίεση µε χρήση κελιών στη χωρική διάσταση και σύνοψη της πληροφορίας µε χρήση σκίτσων όσον αφορά το ερώτηµα. Συµπεράσµατα γενικής φύσης που προκύπτουν από την παρούσα εργασία είναι τα εξής: Η συµπίεση των δεδοµένων τροχιάς κινούµενων αντικειµένων µπορεί να λειτουργήσει επιτυχώς, πραγµατοποιώντας συµψηφισµό µεταξύ απαιτούµενων πόρων συστήµατος και ακρίβειας απαντήσεων. Το ενδιαφέρον έγκειται στη µείωση των µεγίστων σφαλµάτων και όχι των µέσων. Η έµφαση στην επικαιρότητα είναι έννοια που είναι συνυφασµένη µε τα ρεύµατα δεδοµένων. Τα σκίτσα, οι αµνησιακοί αλγόριθµοι και οι τεχνικές εφαρµογής τοπικών ευρετικών κριτηρίων µπορούν να δώσουν λύσεις σε προκλήσεις που θέτει το αυστηρό αλγοριθµικό πλαίσιο των ρευµάτων δεδοµένων. Σε πραγµατικές εφαρµογές, η συµπίεση µπορεί να είναι καταλύτης για τη διενέργεια αυτοµάτου ελέγχου στην επεξεργασία ρεύµατος δεδοµένων, επιτυγχάνοντας κατάλληλη αποβολή φόρτου από «φορτωµένα» επεξεργαστικά στάδια. Το µοντέλο ρευµάτων δεδοµένων θέτει αυστηρές προδιαγραφές για αλγορίθµους συµπίεσης. Οι εφαρµογές ρευµάτων δεδοµένων ανέχονται προσεγγιστικές απαντήσεις, αρκεί οι χρόνοι απόκρισης να είναι µικροί και να υπάρχουν εγγυήσεις για την ποιότητα των αποτελεσµάτων. Το πεδίο της διαχείρισης ρευµάτων δεδοµένων αποτελεί ένα διακριτό πεδίο έρευνας στη διαχείριση γνώσης και ως τέτοιο πρέπει να αντιµετωπίζεται. Η δηµιουργία και η τήρηση συνόψεων, µε σκοπό την απάντηση σε συγκεκριµένα ερωτήµατα, αποτελεί ένα πολλά υποσχόµενο ερευνητικό πεδίο

142 Συµπεράσµατα 7.2 Μελλοντικές κατευθύνσεις Όσον αφορά τις προτεινόµενες τεχνικές υπάρχει µία σειρά από µελλοντικές κατευθύνσεις. Πολλές από αυτές προκύπτουν µε αξιολόγηση των παραπάνω συµπερασµάτων. Ενδεικτικά αναφέρονται: Η µελέτη της ταυτοποίησης δείγµατος τροχιάς που έχει προκύψει από τον αλγόριθµο Thresholds, σε οδικό δίκτυο. Επέκταση των αλγορίθµων Thresholds και STTrace για επεξεργασία του ρεύµατος σε στάδια. Τα στάδια µπορεί να είναι είτε παράλληλα είτε εν σειρά, είτε να σχηµατίζουν κατευθυνόµενο γράφο. Μελέτη δυναµικής προσαρµογής κατωφλίων και/ή σταδίων για τον έλεγχο του ρυθµού εξόδου σε πραγµατικές εφαρµογές στους αλγορίθµους Thresholds. Μελέτη εφαρµογής διαφόρων προτύπων αµνησίας σε δειγµατοληπτικές µεθόδους. Επέκταση των αµνησιακών χαρακτηριστικών του δένδρου AmTree o µε τήρηση παράλληλων δένδρων (AmTreeS) για τα παράγωγα ρεύµατα S 3, S5, S6, S7, S9 o µε κατάλληλο κατακερµατισµό των πλειάδων σε m παράλληλα δένδρα (AmTreeH) Μελέτη για την υλοποίηση αµνησιακής δειγµατοληψίας µε χωροχρονικά κριτήρια. Εφαρµογή άλλων χωρικών δεικτών και άλλων σκίτσων σε δοµή παρόµοια µε την FM-AmTree. Μελέτη του προβλήµατος εύρεσης τοµών σε πλήθη διακριτών αντικειµένων µε σκοπό την απάντηση σε ερωτήµατα, όπως το εξής: «Πόσα διακριτά αντικείµενα που βρέθηκαν τα τελευταία 5 λεπτά στον κόµβο του ΟΤΕ, ήταν πριν από 20 λεπτά στο αεροδρόµιο Ελευθέριος Βενιζέλος;» Βελτίωση των χωροχρονικών κριτηρίων των αλγορίθµων Thresholds και STTrace. Εύρεση συνολικής µετρικής της επίδοσης πλειάδας για τους αλγορίθµους Thresholds. Πιθανό µέτρο επίδοσης θα µπορούσε να είναι η απόσταση από το πολύγωνο κατώφλι. Μελέτη δοµής παρόµοιας µε το AmTree για εφαρµογή γραµµικής αµνησίας σε ρεύµατα δεδοµένων. Μελέτη για την «εκπαίδευση» των σταδίων Thresholds µε σκοπό την εύρεση «καλών» κατωφλίων. Η συµπίεση δεδοµένων τροχιάς κινούµενων αντικειµένων αποτελεί ένα αρκετά ανεξερεύνητο ερευνητικό πεδίο. Η έρευνα δεν πρέπει να περιορίζεται στις βάσεις δεδοµένων. Ιδέες και νέες τεχνικές µπορούν να προκύψουν και από άλλα επιστηµονικά πεδία, όπως η στατιστική και η υπολογιστική νοηµοσύνη

143 Βιβλιογραφία Βιβλιογραφία [AW04] A. Arasu and J. Wdom. Resource Sharng n Contnuous Sldng- Wndow Aggregates. In Proceedngs of the 30th Internatonal Conference on Very Large Data Bases (VLDB), Toronto, Canada, September 2004 [AMS96] N. Alon, Y. Matas, and M. Szegedy. The space complexty of approxmatng the frequency moments. In Proceedngs of the 1996 ACM Symposum on Theory of Computng, pp , Phladelpha, Pennsylvana, [BBD+02] B. Babcock, S. Babu, M. Datar, R. Motwan, and J. Wdom. Models and Issues n Data Stream Systems. In Proceedngs of the 21st ACM SIGACT-SIGMOD-SIGART Symposum on Prncples of Database Systems (PODS'02), pp.1-16, Madson, Wsconsn, May [BDM02] B. Babcock, M. Datar, and R. Motwan. Samplng from a movng wndow over streamng data. In Proceedngs of the 13th ACM- SIAM Symposum on Dscrete Algorthms, pp , San Francsco, Calforna, [BHKT05] P. Bakalov, M. Hadjeleftherou, E. Keogh, V.J. Tsotras. Effcent Trajectory Jons usng Symbolc Representatons. In Proceedngs of the 6th Internatonal Conference on Moble Data Management (MDM 2005), Aya Napa, Cyprus, May [BS03] A.Bulut, A.K. Sngh. SWAT: Herarchcal Stream Summarzaton n Large Networks. In Proceedngs of the 19th Internatonal Conference on Data Engneerng, pp , Bangalore, Inda, March [CGRS01] K. Chakrabart, M. Garofalaks, R. Rastog, K. Shm. Approxmate Query Processng usng Wavelets. The VLDB Journal (2001) 10:

144 Βιβλιογραφία [CLKB04] J. Consdne, F. L, G. Kollos, and J. Byers. Approxmate Aggregaton Technques for Sensor Databases. In Proceedngs of the 20th IEEE Internatonal Conference on Data Engneerng (ICDE), Boston, Massachusetts, March [DGGR04] A. Dobra, M. Garofalaks, J. Gehkre, R. Rastog. Sketch-Based Mult-Query Processng over Data Streams, LNCS 2992, pp , EDBT [EMA05] H. G. Elmongu, M. F. Mokbel, and W. G. Aref. Spato-temporal Hstograms. In Proceedngs of the 9th Internatonal Symposum on Spatal and Temporal Databases, Angra dos Res, Brazl, August [FM85] P. Flajolet, G. Martn. Probablstc Countng Algorthms for Data Base Applcatons. Journal of Computer and System Scences, [Gar04] M. Garofalaks. Sketchng Technques for Data Stream Analyss. Tutoral στο 3ο Ελληνικό Συµπόσιο ιαχείρισης εδοµένων, Αθήνα [GGR02] M. Garofalaks, J. Gehrke, and R. Rastog. Queryng and Mnng Data Streams: You Only Get One Look. Tutoral n VLDB [GGR03] S. Ganguly, M. Garofalaks, and R. Rastog. Processng Set Expressons over Contnuous Update Streams. In Proceedngs of the 22nd ACM SIGMOD Internatonal Conference on Management of Data, pp , San Dego, Calforna, USA, June [GKMS01] A. Glbert, Y. Kotds, S. Muthukrshnan and M.J. Strauss. Surfng Wavelets on Streams: One-Pass Summares for Approxmate Aggregate Queres. In Proceedngs of the 27th Internatonal Conference on Very Large Data Bases (VLDB), pp , Roma, Italy, September

145 Βιβλιογραφία [GKMS03] A. Glbert, Y. Kotds, S. Muthukrshnan, M. Strauss. One-pass Wavelet Decompostons of Data Streams. IEEE Transactons on Knowledge and Data Engneerng, 15 (3): , May [GK02] S. Guha and N. Koudas. Approxmatng a data stream for queryng and estmaton: Algorthms and performance evaluaton. In Proceedngs of the 18th Internatonal Conference on Data Engneerng(ICDE'02), pp , San Jose, Calforna, February [GKS01] J. Gehkre, F. Korn, D. Srvastava. On Computng Correlated Aggregates Over Contnual Data Streams. ACM Sgmod 2001 May [GO03] L. Golab, and M. Tamer Ozsu. Issues n Data Stream Management. ACM SIGMOD Record, 32(2):5-14, June [HBKT05] M. Hadjeleftherou, G. Kollos, P. Bakalov, V. Tsotras. Complex Spato-Temporal Pattern Queres. Proceedngs of the 31st VLDB Conference Trondhem, Norway, 2005 [HKGT04] M. Hadjeleftherou, G. Kollos, D. Gunopulos, V. Tsotras. Sketchng Technques for Spato-Temporal Densty Queres. HDMS, Athens, 2004 [Ion03] [MdB02] Y. Ioannds. The Hstory of Hstograms (abrdged). In Proceedngs of the 29th Internatonal Conference on Very Large Data Bases (VLDB), Berln, Germany, September N. Meratna, R. de By. Aggregaton and Comparson of Trajectores ACM 2002 [MdB04] N. Meratna, and R. de By. Spatotemporal Compresson Technques for Movng Pont Objects. In Proceedngs of the 2004 InternatonalConference on Extendng Database Technology (EDBT 2004), pp ,Heraklon (Crete), Greece, March

146 Βιβλιογραφία [MM02] G. Manku, R. Motwan. Approxmate Frequency Counts over Data Streams. VLDB 2002 [MRL99] G. Manku, S. Rajagopalan, B. Lndsay. Random Samplng for Space Effcent Onlne Computaton of Order Statstcs of Large Datasets. Sgmod 1999, Phladelpha PA [Mut03] S. Muthukrshnan. Data Streams: Algorthms and Applcatons. Techncal Report, [PVK+04] T. Palpanas, M. Vlachos, E. Keogh, D. Gunopulos, and W. Truppel. Onlne Amnesc Approxmaton of Streamng Tme Seres. In Proceedngs ofthe 20th Internatonal Conference on Data Engneerng (ICDE), Boston,Massachusetts, USA, March [PS04] K. Patroumpas and T. Sells. Managng Trajectores of Movng Objects as Data Streams. In Proceedngs of the 2nd Workshop on Spato-Temporal Database Management (STDBM'04), Toronto, Canada, August [SDS95] E. Stollntz, T. DeRose and D. Salesn. Wavelets for Computer Graphcs: A Prmer Part 1 IEEE Computer Graphcs and Applcatons 15(3):76-84, [TKC+04] Y. Tao, G. Kollos, J. Consdne, F. L, and D. Papadas. Spato- Temporal Aggregaton Usng Sketches. In Proceedngs of the 20thInternatonal Conference on Data Engneerng (ICDE), Boston,Massachusetts, USA, March [TPZL05] Y. Tao, D. Papadas, J. Zha, and Q L. Venn Samplng: A Novel Predcton Technque for Movng Objects. In Proceedngs of the 21st Internatonal Conference on Data Engneerng (ICDE 2005), pp , Tokyo, Japan, Aprl [Vtt85] J. Vtter. Random Samplng wth a Reservor. ACM, pp 37-57, March

147 Βιβλιογραφία [AK01] Σ. Αθανασίου, Ι. Κουβάρας. «Προσεγγιστική Απάντηση Ερωτηµάτων σε Σχεσιακές Βάσεις εδοµένων», ιπλωµατική εργασία, Αθήνα [ΚΠ03] Κ. Πατρούµπας. «Συστήµατα Ρευµάτων εδοµένων για Κινούµενα Αντικείµενα», ΠΜΣ «Γεωπληροφορική», Αθήνα

148 Γλωσσάρι

149 Γλωσσάρι Γλωσσάρι Ad-hoc Query Aggregate Query Amnesc Algorthm Anchor pont Archve Batch processng Blockng operators Buffer Compresson Computaton Contnuous Query Data stream DBMS (Data Base Management System) Dsplay Dstnct count query DSMS (Data Stream Management System) Duplcate Duplcate nsenstvty Float pont Four-wse ndependence Frequency moment Περιστασιακό, µη προβλέψιµο ερώτηµα Συναθροιστικό ερώτηµα Αµνησιακός αλγόριθµος Σηµείο αγκίστρωσης Αρχείο Οµαδική επεξεργασία Ανασταλτικοί τελεστές Ενταµιευτής, ενδιάµεσος χώρος αποθήκευσης Συµπίεση Υπολογισµός Ερώτηµα ιαρκείας Ρεύµα εδοµένων (Σ Β ) Σύστηµα ιαχείρισης Βάσεων εδοµένων Απεικόνιση Ερώτηµα Πλήθους ιακριτών αντικειµένων Σ Ρ (Σύστηµα ιαχείρισης Ρευµάτων εδοµένων) ιπλότυπα Ανοχή σε διπλότυπα Κινούµενο σηµείο Ανεξαρτησία ανά τέσσερα Ροπή συχνότητας

150 Γλωσσάρι Grd Hash functon Hstograms Index Landmark wndow Lne generalzaton Locaton based query Moblty Multplcty Navgatonal query One-pass/sngle-pass algorthm One-tme query Onlne algorthm Pattern Portable equpment Postonng Predefned Query Punctuaton Query Optmzaton Query plan Real tme Samplng Self-jon Πλέγµα Συνάρτηση κατακερµατισµού Ιστόγραµµα είκτης Παράθυρο Οροσήµου Γενίκευση γραµµών Ερώτηµα θέσης Κινητικότητα Πολλαπλότητα Ερώτηµα Πλοήγησης Αλγόριθµος ενός περάσµατος Ερώτηµα στιγµιοτύπου Αλγόριθµος επεξεργασίας πραγµατικού χρόνου Μοτίβο Κινητός εξοπλισµός Εντοπισµός Προκαθορισµένο ερώτηµα Στίξη Βελτιστοποίηση ερωτηµάτων Πλάνο εκτέλεσης ερωτήµατος Σε πραγµατικό χρόνο ειγµατοληψία Αυτoσύνδεση

151 Γλωσσάρι Sketchng technques Sldng wndow Snapshot Spatotemporal Storage Tme based sldng wndows Tme-stamped poston Topologcal query Transmsson Tug of war Tunng Tuple Tuple based sldng wndows Unbased Unbounded Varance Wavelet coeffcents Wavelet Transformaton Τεχνικές τήρησης σκίτσων Ολισθαίνον παράθυρο Στιγµιότυπο Χωροχρονικός Μόνιµη αποθήκευση Ολισθαίνοντα παράθυρα βασισµένα στο χρόνο Στίγµα, χρονοσηµασµένη θέση Τοπολογικό ερώτηµα Μετάδοση ιελκυστίνδα Ρύθµιση Πλειάδα Ολισθαίνοντα παράθυρα βασισµένα στις πλειάδες Χωρίς πόλωση Μη φραγµένος ιασπορά Συνιστώσες µετασχηµατισµού κυµατιδίων Μετασχηµατισµός κυµατιδίων

152 Γλωσσάρι

153 Εκτενής Περίληψη Συµπίεση εδοµένων Τροχιάς Κινούµενων Αντικειµένων Μιχάλης Ποταµιάς ιπλωµατική εργασία στο Εργαστήριο Συστηµάτων Βάσεων Γνώσεων και εδοµένων Επιβλέπων: Καθηγητής Τ. Σελλής 1 Εισαγωγή Τα τελευταία χρόνια έχουν κάνει την εµφάνισή τους εφαρµογές εντοπισµού (postonng) οµάδων κινούµενων αντικειµένων, όπως λ.χ. σε συστήµατα παρακολούθησης εµπορικών στόλων. Πλέον οι συσκευές εντοπισµού (GPS) έχουν πολύ µικρό µέγεθος και µπορούν να εγκατασταθούν σε διαφόρων τύπων κινητό εξοπλισµό. Οι συσκευές αυτές αποστέλλουν πολύ µεγάλο όγκο δεδοµένων αποτελούµενο από στίγµατα (tme-stamped postons) σε κεντρικούς σταθµούς επεξεργασίας. Η διαδικασία αυτή εγείρει θέµατα µετάδοσης και αποθήκευσης στοιχείων, καθώς και υπολογισµού και απεικόνισης αποτελεσµάτων. Γι αυτό το λόγο, η διαχείριση δεδοµένων που παράγονται από κινούµενα αντικείµενα απασχολεί την ερευνητική κοινότητα των χωρικών βάσεων δεδοµένων. Τελικός στόχος κάθε συστήµατος διαχείρισης κινούµενων αντικειµένων είναι αναµφισβήτητα η απάντηση σε ερωτήµατα που αφορούν χωροχρονικά δεδοµένα. Ο µεγάλος όγκος των δεδοµένων και η ανάγκη για έγκαιρες αποκρίσεις έστω και αν αυτές είναι προσεγγιστικές αποτελούν το κίνητρο για τη συµπίεση των δεδοµένων τροχιάς κινούµενων αντικειµένων. Η λειτουργικότητα της συµπίεσης τροχιάς κινούµενων αντικειµένων µπορεί να προσοµοιαστεί µε αυτή ενός ζυγού, υπεύθυνου για την ισοστάθµιση (tradeoff) πόρων συστήµατος και ακρίβειας απαντήσεων. Αντικείµενο της παρούσας διπλωµατικής εργασίας είναι η µελέτη και η υλοποίηση αλγορίθµων συµπίεσης ρευµάτων τροχιάς αντικειµένων που παρέχουν υψηλή ακρίβεια απαντήσεων µε µικρό κόστος σε πόρους. Στη διαδικασία αυτή τίθενται περιορισµοί. Οι περιορισµοί προκύπτουν από το µοντέλο ρευµάτων δεδοµένων στο οποίο εµπίπτουν και τα ρεύµατα τροχιάς κινούµενων αντικειµένων. 2 Τροχιές κινούµενων αντικειµένων Από τη συστηµατική περιγραφή χωροχρονικών φαινοµένων προκύπτουν χωροχρονικά δεδοµένα (spatotemporal data). Η κίνηση ενός σηµειακού αντικειµένου αποτελεί ένα τέτοιο φαινόµενο. Η κίνηση ενός σηµειακού αντικειµένου στο επίπεδο µπορεί να αναπαρασταθεί µε τη συνεχή τροχιά του (trajectory) σε τρισδιάστατο σύστηµα αξόνων, το οποίο συντίθεται από δύο χωρικές (x,y) και µία χρονική (t) συντεταγµένη. Η συνεχής τροχιά µπορεί να προσεγγιστεί από µία διακριτή ακολουθία χωροχρονικών δεδοµένων αποτελού- µενη από πλειάδες της µορφής: <d, ts, x, y> d: η ταυτότητα του κινούµενου αντικειµένου ts: το χρονόσηµο που περιγράφει τη χρονική στιγµή στην οποία αναφέρεται η πλειάδα x: η τετµηµένη του αντικειµένου d τη στιγµή ts y: η τεταγµένη του αντικειµένου d τη στιγµή ts. Αφού η συνεχής καταγραφή της τροχιάς είναι πρακτικά αδύνατη, η εύρεση της θέσης αντικειµένου για κάποια ενδιάµεση χρονική στιγµή µπορεί να προκύψει µε παρεµβολή. Εφαρµόζοντας γραµµική παρεµβολή, τα γνωστά σηµεία θεωρούνται άκρα ευθυγράµµων τµηµάτων και η τροχιά προσεγγίζεται από µία τεθλασµένη πολυγραµµή. Αυτή η προσέγγιση κρίνεται επαρκής για τις περισσότερες εφαρµογές. 3 Το µοντέλο Ρευµάτων εδοµένων Τα δεδοµένα τροχιάς είναι διαδοχικά χωροχρονικά στίγµατα της πορείας κινούµενων αντικειµένων και συνεπώς συνιστούν ένα ρεύµα δεδοµένων (data stream). Τα ρεύµατα δεδοµένων έχουν συνοπτικά τις παρακάτω ιδιότητες: Τα στοιχεία παράγονται σε πραγµατικό χρόνο (onlne). Τα ρεύµατα έχουν απεριόριστο µέγεθος. Ο ρυθµός άφιξης εµφανίζει διακυµάνσεις που οφείλονται σε εξωγενείς παράγοντες. Η χρονική διάταξη της πληροφορίας σε ένα ρεύµα δεδοµένων αλλά και µεταξύ διαφορετικών ρευµάτων δεν είναι εγγυηµένη. Οι εφαρµογές και τα συστήµατα διαχείρισης ρευµάτων δεδοµένων (Σ Ρ ) έχουν τα εξής χαρακτηριστικά: Η επεξεργασία ερωτηµάτων γίνεται στην κύρια µνήµη. Καλούνται να αποκρίνονται σε ερωτήµατα διαρκείας (contnuous queres) σε πραγµατικό χρόνο. Oι αλγόριθµοι οφείλουν να είναι ενός περάσµατος (sngle-pass)

154 Εκτενής Περίληψη Προβλέπουν χρονικά παράθυρα, λ.χ. ολισθαίνοντα (sldng) και οροσήµου (landmark). Η πλέον πρόσφατη πληροφορία είναι συνήθως η πιο χρήσιµη. Η φύση του µοντέλου επιβάλλει τον συµψηφισµό ακρίβειας µε το κόστος σε χώρο αποθήκευσης και χρόνο επεξεργασίας. Οι προσεγγιστικές απαντήσεις είναι ικανοποιητικές, αρκεί να υπάρχουν εγγυηµένα περιθώρια σφάλµατος. Το µοντέλο ρευµάτων δεδοµένων θέτει συγκεκριµένες προδιαγραφές για τους αλγορίθµους συµπίεσης τροχιάς και τις τεχνικές δηµιουργίας συνόψεων για απάντηση συναθροιστικών ερωτηµάτων. 4 Συµπίεση πληροφορίας κινούµενων αντικειµένων Η έννοια της συµπίεσης (compresson) έχει πολλές εφαρµογές στην επιστήµη των υπολογιστών. Στην παρούσα εργασία αναπτύσσονται αλγόριθµοι: για απωλεστική (lossy) συµπίεση τροχιάς κινούµενων αντικειµένων και για δηµιουργία συνόψεων κατάλληλων για ταχύτατη προσεγγιστική απάντηση σε συναθροιστικά ερωτήµατα. Οι κλασσικές τεχνικές συµπίεσης και δηµιουργίας συνόψεων όπως τα ιστογράµµατα (hstograms), τα σκίτσα (sketches), τα κυµατίδια (wavelets) και η δειγµατοληψία (samplng) δεν ικανοποιούν πλήρως το µοντέλο ρεύµατος δεδοµένων. Κάποιες από τις τεχνικές αυτές θα αξιοποιηθούν σε συνδυασµό µε µεθόδους συµπίεσης χωροχρονικών δεδοµένων µε στόχο την αποτελεσµατική συµπίεση στοιχείων τροχιάς κινούµενων αντικειµένων. Οι µέθοδοι που έχουν προταθεί για τη συµπίεση χωροχρονικών δεδοµένων βασίζονται σε παραλλαγές του αλγορίθµου Douglas-Peucker που αναπτύχθηκε για αµιγώς χωρικά δεδοµένα. Όµως η πολυπλοκότητά τους είναι ακατάλληλη, αφού απαιτούν χρόνο Ο(Ν) ανά στοιχείο, όπου N το µέγεθος της τροχιάς µέχρι εκείνη τη στιγµή. Κατά την εκπόνηση αυτής της εργασίας, προέκυψαν αλγόριθµοι συµβατοί µε το µοντέλο ρεύµατος δεδοµένων. Οι πιο ενδιαφέροντες από αυτούς περιγράφονται στη συνέχεια. το σύστηµα. ιακρίνουµε στις εξής κατηγορίες τις δειγµατοληπτικές µεθόδους: Οµοιόµορφη δειγµατοληψία Αµνησιακή δειγµατοληψία ειγµατοληψία µε χωροχρονικά κριτήρια Όσον αφορά την απαιτούµενη µνήµη, διακρίνουµε σε µεθόδους που χρησιµοποιούν: Σταθερή µνήµη Γραµµικά αυξανόµενη µνήµη Λογαριθµικά αυξανόµενη µνήµη Μνήµη αυξανόµενη - όχι γνωστή εκ των προτέρων 5.1 Οµοιόµορφη δειγµατοληψία Η δειγµατοληψία αυτή είναι εφικτή µε το Reservor Samplng. O αλγόριθµος αυτός τηρεί κάθε στιγµή οµοιόµορφο δείγµα των δεδοµένων και χρησιµοποιεί σταθερή ποσότητα µνήµης. Το βασικό χαρακτηριστικό του είναι ότι χρειάζεται να είναι γνωστό εκ των προτέρων το συνολικό µέγεθος του ρεύµατος. 5.2 Αλγόριθµος κατωφλίων Πρόκειται για δειγµατοληψία που βασίζεται σε πρόβλεψη µε χωροχρονικά κριτήρια και µνήµη όχι γνωστή εκ των προτέρων. Θεωρούµε το διάνυσµα της ταχύτητας όπως αυτό προκύπτει από τις τελευταίες πλειάδες του δείγµατος. Με κατώφλια-παραµέτρους για το µέτρο και τη φορά της ταχύτητας σχηµατίζουµε περιοχή ασφαλούς πρόβλεψης για την τρέχουσα πλειάδα (Σχήµα 1). Αν η πλειάδα βρίσκεται στην περιοχή ασφαλείας (γεωµετρικός τόπος Γ.Τ.), τότε δεν αποθηκεύεται. Στο Σχήµα 2 παρουσιάζεται δυσχερής κατάσταση στην οποία µπορεί να βρεθεί ο αλγόριθµος (παγίδα). 5 ειγµατοληψία σε ρεύµατα τροχιάς κινούµενων αντικειµένων Η δειγµατοληψία σε ρεύµατα τροχιάς κινούµενων αντικειµένων έγκειται στην τήρηση µέρους των πλειάδων του αρχικού ρεύµατος µε στόχο την αποβολή φόρτου από Σχήµα 1: Περιοχή ασφαλείας µε βάση το δείγµα

155 Εκτενής Περίληψη Σχήµα 5:Πλάγιο ίχνος και σύγχρονη ευκλείδεια απόσταση 5.3 Αλγόριθµος πλαγίου ίχνους (STTrace) Σχήµα 2:Παγίδα (περιοχή ασφαλείας µε βάση το δείγµα) Σχήµα 3:Παγίδα (περιοχή ασφαλείας µε βάση την τροχιά) Επαναλαµβάνουµε την παραπάνω διαδικασία για τις τελευταίες πλειάδες της τροχιάς. Στο Σχήµα 3 παρουσιάζεται δυσχερής κατάσταση του αλγορίθµου. Συνδυάζοντας τις δύο παραπάνω προσεγγίσεις ορίζουµε νέα περιοχή ασφαλείας βάσει τόσο της τροχιάς όσο και του δείγµατος όπως στο Σχήµα 4. Η προσέγγιση αυτή (αλγόριθµοι Thresholds) αποφεύγει τις παγίδες. Σχήµα 4: Συνδυασµός δείγµατος και τροχιάς στην πρόβλεψη. Η περιοχή ασφαλείας είναι η τοµή των 2 Γ.Τ. Η µέθοδος αυτή είναι δειγµατοληψία µε χωροχρονικά κριτήρια και σταθερή µνήµη. Ορίζουµε µία χωροχρονική µετρική για να υπολογίσουµε τo βαθµό ενδιαφέροντος κάθε πλειάδας. Η µετρική αυτή, την οποία καλούµε πλάγιο ίχνος, είναι η ευκλείδεια απόσταση της χωροχρονικής θέσης της προς επεξεργασία πλειάδας από την αντίστοιχη προβλεπόµενη θέση µε βάση τις δύο γειτονικές της πλειάδες. Έστω τρεις διατεταγµένες χωροχρονικές πλειάδες A, B, C. Αν το σύστηµα αποθήκευε τις πλειάδες A, C και δεν είχε διαθέσιµη την B, η πρόβλεψη για την B θα προέκυπτε όπως στο Σχήµα 5. Η σύγχρονη ευκλείδεια απόσταση καθορίζει αν θα αποθηκευτεί η πλειάδα προς επεξεργασία. Το κατώφλι απόφασης είναι αύξουσα συνάρτηση του χρόνου και είναι πάντα η µικρότερη σύγχρονη ευκλείδεια απόσταση που υπάρχει στο δείγµα. Αν ο αλγόριθµος κρίνει ότι η πλειάδα πρέπει να τηρηθεί, τότε διαγράφεται η πλειάδα µε τη µικρότερη µετρική και επανυπολογίζεται το κατώφλι. 5.4 Συγκριτική επίδοση αλγορίθµων Οι αλγόριθµοι κατωφλίων και πλαγίου ίχνους έχουν από µιάµιση ως δύο φορές καλύτερη πειραµατική επίδοση από την οµοιόµορφη δειγµατοληψία, µε τον STTrace να υπερτερεί. Όµως ο τελευταίος είναι πιο «ακριβός» από τους άλλους δύο, αφού εκείνοι έχουν πολυπλοκότητα O(1) ανά στοιχείο. 6 Αµνησιακές Ιεραρχικές Συνόψεις Το ενδιαφέρον στα ρεύµατα τροχιάς αντικειµένων εστιάζεται περισσότερο στην επικαιρότητα. Άρα υπάρχει ανάγκη για περισσότερη ακρίβεια των στοιχείων που αφορούν το πρόσφατο παρά το απώτερο παρελθόν. Μια τέτοια αµνησιακή (amnesc) προσέγγιση στη συµπίεση ρεύµατος τροχιάς παρουσιάζει ο αλγόριθµος αµνησιακού δένδρου (AmTree). Ο αλγόριθµος πραγµατοποιεί αµνησιακή, µε εκθετικά χαρακτηριστικά, ντετερµινιστική δειγµατοληψία µε λογαριθµικά αυξανόµενη µνήµη σε κάθε τροχιά (Σχήµα 6). Αν και το αµνησιακό δένδρο αγνοεί τη χωροχρονική φύση των στοιχείων, παρουσιάζει διάφορα πλεονεκτή- µατα, όπως η ταχεία απάντηση σε ερωτήµατα, η σταθερή

156 Εκτενής Περίληψη Σχήµα 6: AmTree µε 6 επίπεδα πολυπλοκότητα ενηµέρωσης και η έµφαση σε στοιχεία του πρόσφατου παρελθόντος. Στο Σχήµα 7 παρουσιάζονται διαδοχικά στιγµιότυπα της τροχιάς όπως τηρείται από το AmTree. 6.1 Το αµνησιακό δένδρο Το AmTree είναι ένα δένδρο που αποτελείται από δύο κόµβους ανά επίπεδο, τους R και L. Κάθε κόµβος επιπέδου συνοψίζει 2 στοιχεία, εποµένως το πλήθος των επιπέδων είναι ανάλογο του logn. Το περιεχόµενο των κόµβων στην παρούσα υλοποίηση είναι διαστήµατα µετατοπίσεων. Γενικά η ενηµέρωση του επιπέδου : πραγµατοποιείται κάθε 2 πλειάδες προβλέπει: o αποβολή των περιεχοµένων του L o αντιγραφή των περιεχοµένων του R στον L o αντιγραφή του R -1 L -1 στον L. Η πράξη R -1 L -1 έχει ως αποτέλεσµα τη σύνθεση των περιεχοµένων των κόµβων R και L µε υποδιπλασιασµό της συνολικής τους ακρίβειας. Το πλαίσιο AmTree µπορεί να τηρεί onlne αµνησιακή ιεραρχική σύνοψη µε περιεχόµενο κόµβων οποιαδήποτε δοµή υποστηρίζει την πράξη. 6.2 Απάντηση σε ερωτήµατα Η δοµή απαντά σε οποιοδήποτε χωροχρονικό ερώτηµα, όπως για παράδειγµα ερωτήµατα χωροχρονικού παραθύρου (range queres) ως εξής: Παράγει ακριβείς απαντήσεις σε ερωτήµατα που αφορούν το πρόσφατο παρελθόν και ολοένα και λιγότερο ακριβείς απαντήσεις για το απώτερο παρελθόν. Αν οι απαντήσεις για το πρόσφατο παρελθόν συγκεντρώνουν το µεγαλύτερο ενδιαφέρον της εφαρµογής, η δοµή δίνει τα επιθυµητά αποτελέσµατα. Το κόστος της απάντησης είναι λογαριθµικό σε σχέση µε το κόστος της απάντησης από τα πλήρη δεδοµένα. Σχήµα 7: ιαδοχικά στιγµιότυπα τροχιάς από το AmTree 7 Συναθροιστικά ερωτήµατα σε κινούµενα αντικείµενα Τα χωροχρονικά δεδοµένα που συλλέγονται από κινούµενα αντικείµενα µπορούν να χρησιµοποιηθούν για την απάντηση συναθροιστικών ερωτηµάτων. Με χρήση σκίτσων (sketchng technques) είναι εφικτή η ταχύτατη εκτίµηση συναθροιστικών ερωτηµάτων, όπως: «Ποιο το πλήθος των διακριτών αντικειµένων σε περιοχή a τις τελευταίες t χρονικές στιγµές;» (Σχήµα 8) Σχήµα 8: Υπερεκτίµηση ερωτήµατος για την περιοχή a, µε υπολογισµό της απάντησης για την περιοχή b

14/10/2005. <id, ts, x, y> (online). (single-pass). Potamias-abstract.pdf

14/10/2005. <id, ts, x, y> (online). (single-pass). Potamias-abstract.pdf Συµπίεση εδοµένων Τροχιάς Κινούµενων Αντικειµένων Μιχάλης Ποταµιάς mpotamias@dblab.ntua.gr ιπλωµατική εργασία στο Εργαστήριο Συστηµάτων Βάσεων Γνώσεων και εδοµένων Επιβλέπων: Καθηγητής Τ. Σελλής 1 Εισαγωγή

Διαβάστε περισσότερα

Πίνακας περιεχοµένων

Πίνακας περιεχοµένων Πίνακας περιεχοµένων ΠΡΩΤΟ ΜΕΡΟΣ... 1 Κεφάλαιο 1 Εισαγωγή στα συστήµατα ρευµάτων δεδοµένων... 3 1.1 Εισαγωγή... 3 1.2 Η ανεπάρκεια των συµβατικών Σ Β... 4 1.3 Το µοντέλο ρεύµατος δεδοµένων... 7 1.4 Ερωτήµατα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Οπτικοποίηση ρευµάτων τροχιάς κινούµενων αντικειµένων

Οπτικοποίηση ρευµάτων τροχιάς κινούµενων αντικειµένων Οπτικοποίηση ρευµάτων τροχιάς κινούµενων αντικειµένων Παρασκευή Κεφαλληνού el99681@mail.ntua.gr ιπλωµατική εργασία στο Εργαστήριο Συστηµάτων Βάσεων Γνώσεων και εδοµένων Επιβλέπων: Καθηγητής Τ. Σελλής 1

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης Δομές Δεδομένων και Αλγόριθμοι Λουκάς Γεωργιάδης loukas@cs.uoi.gr www.cs.uoi.gr/~loukas Στόχοι Μαθήματος Η σχεδίαση και ανάλυση αλγορίθμων και δομών δεδομένων αποτελεί σημαντικό τμήμα της πληροφορικής.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων 1.1. Εισαγωγή Γενικότερα δεν υπάρχει κάποια ταξινόμηση των πιθανών δικτύων κάτω από την οποία να ταιριάζουν όλα τα δίκτυα. Παρόλα αυτά η ταξινόμηση τους είθισται να γίνεται

Διαβάστε περισσότερα

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών 1 Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της Κωτσογιάννη Μαριάννας Περίληψη 1. Αντικείµενο- Σκοπός Αντικείµενο της διπλωµατικής αυτής εργασίας

Διαβάστε περισσότερα

Μεγίστου Σφάλµατος. Παναγιώτης Καρράς. Αθήνα, 26 Αυγούστου 2005

Μεγίστου Σφάλµατος. Παναγιώτης Καρράς. Αθήνα, 26 Αυγούστου 2005 Μ ένα Σµπάρο υο Τρυγώνια: Εισάπαξ Κυµατιδιακές Συνόψεις για Μέτρα Μεγίστου Σφάλµατος Παναγιώτης Καρράς Αθήνα, 6 Αυγούστου 005 Έρευνα στο HKU µε τον Νίκο Μαµουλή Περίληψη Προκαταρκτικά & Κίνητρα Χρησιµότητα

Διαβάστε περισσότερα

Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες

Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι. ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε. Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες Πτυχιακή εργασία Φοιτήτρια: Ριζούλη Βικτώρια

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ 157 73, ΑΘΗΝΑ ΕΒΓ - ΙΠΛ-2003-1 20 Ιανουαρίου 2003 Σύγκριση Αλγορίθµων

Διαβάστε περισσότερα

Εισαγωγή στα Προσαρµοστικά Συστήµατα

Εισαγωγή στα Προσαρµοστικά Συστήµατα ΒΕΣ 06 Προσαρµοστικά Συστήµατα στις Τηλεπικοινωνίες Εισαγωγή στα Προσαρµοστικά Συστήµατα Νικόλας Τσαπατσούλης Επίκουρος Καθηγητής Π..407/80 Τµήµα Επιστήµη και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ AM: Δοµές Δεδοµένων Εξεταστική Ιανουαρίου 2014 Διδάσκων : Ευάγγελος Μαρκάκης 20.01.2014 ΥΠΟΓΡΑΦΗ ΕΠΟΠΤΗ: Διάρκεια εξέτασης : 2 ώρες και

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ ΦΘΙΝΟΠΩΡΟ 2006 Λύση ΑΣΚΗΣΗΣ #2 Τ. Σελλής

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ ΦΘΙΝΟΠΩΡΟ 2007 Λύση ΑΣΚΗΣΗΣ #2 Τ. Σελλής

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Συστήµατα DAQ. 6.1 Εισαγωγή

Συστήµατα DAQ. 6.1 Εισαγωγή 6 Συστήµατα DAQ 6.1 Εισαγωγή Με τον όρο Acquisition (Απόκτηση) περιγράφουµε τον τρόπο µε τον οποίο µεγέθη όπως η πίεση, η θερµοκρασία, το ρεύµα µετατρέπονται σε ψηφιακά δεδοµένα και απεικονίζονται στην

Διαβάστε περισσότερα

Certified Data Base Designer (CDBD)

Certified Data Base Designer (CDBD) Certified Data Base Designer (CDBD) Εξεταστέα Ύλη (Syllabus) Πνευµατικά ικαιώµατα Το παρόν είναι πνευµατική ιδιοκτησία της ACTA Α.Ε. και προστατεύεται από την Ελληνική και Ευρωπαϊκή νοµοθεσία που αφορά

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Σε ένα σύστημα φιλτραρίσματος πληροφορίας, ή αλλιώς σύστημα έκδοσης/συνδρομής, οι χρήστες εγγράφονται

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr Διπλωματικές

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ Βασικές Έννοιες - εδοµένα { Νίκος, Μιχάλης, Μαρία, Θάλασσα, Αυτοκίνητο }, αριθµοί, π.χ. {1, 2, 3, 5, 78}, συµβολοσειρές (strings) π.χ. { Κώστας, 5621, ΤΡ 882, 6&5 #1, +

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

Κωδικοποίηση βίντεο (MPEG)

Κωδικοποίηση βίντεο (MPEG) Κωδικοποίηση βίντεο (MPEG) Εισαγωγή στο MPEG-2 Κωδικοποίηση βίντεο Κωδικοποίηση ήχου Ροή δεδοµένων Εισαγωγή στο MPEG-4 οµή σκηνών Κωδικοποίηση ήχου και βίντεο Τεχνολογία Πολυµέσων 11-1 Εισαγωγή στο MPEG-2

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

Kalman Filter Γιατί ο όρος φίλτρο;

Kalman Filter Γιατί ο όρος φίλτρο; Kalman Filter Γιατί ο όρος φίλτρο; Συνήθως ο όρος φίλτρο υποδηλώνει µια διαδικασία αποµάκρυνσης µη επιθυµητών στοιχείων Απότολατινικόόροfelt : το υλικό για το φιλτράρισµα υγρών Στη εποχή των ραδιολυχνίων:

Διαβάστε περισσότερα

Συστήµατα και Αλγόριθµοι Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων Συστήµατα και Αλγόριθµοι Πολυµέσων Ιωάννης Χαρ. Κατσαβουνίδης Οµιλία #3: Αρχές Επεξεργασίας Σηµάτων Πολυµέσων 10 Οκτωβρίου 005 Επανάλειψη (1) ειγµατοληψία επανα-δειγµατοληψία Τεχνικές φίλτρων (συνέλειξη)

Διαβάστε περισσότερα

Ε.Μ.Π. -.Π.Μ.Σ. Γεωπληροφορική 13/06/2003 1

Ε.Μ.Π. -.Π.Μ.Σ. Γεωπληροφορική 13/06/2003 1 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Τµήµα Αγρονόµων & Τοπογράφων Μηχανικών.Π.Μ.Σ. ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ Το πρόβληµα Κ. Χ. Πατρούµπας Μεταπτυχιακή διπλωµατική εργασία Επιβλέπων: Καθ. Τίµος Σελλής Αθήνα, 13 Ιουνίου 2003

Διαβάστε περισσότερα

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΣΥΓΧΡΟΝΙΚΗΣ ΛΗΨΗΣ ΚΑΙ ΑΠΕΙΚΟΝΙΣΗΣ (MBL) DBLAB 3.2 ΤΗΣ FOURIER.

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΣΥΓΧΡΟΝΙΚΗΣ ΛΗΨΗΣ ΚΑΙ ΑΠΕΙΚΟΝΙΣΗΣ (MBL) DBLAB 3.2 ΤΗΣ FOURIER. ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΣΥΓΧΡΟΝΙΚΗΣ ΛΗΨΗΣ ΚΑΙ ΑΠΕΙΚΟΝΙΣΗΣ (MBL) DBLAB 3.2 ΤΗΣ FOURIER. Γενική περιγραφή και χρήση Το DBLAB 3.2 είναι ένα σύστηµα λήψης και επεξεργασίας µετρήσεων ποικίλων φυσικών

Διαβάστε περισσότερα

Προσδιορισµός Παραθύρων σε Ρεύµατα εδοµένων

Προσδιορισµός Παραθύρων σε Ρεύµατα εδοµένων ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Προσδιορισµός Παραθύρων σε Ρεύµατα εδοµένων Κ. Πατρούµπας Κοινή εργασία µε τον καθ. Τ. Σελλή 7 εκεµβρίου 2004 7/12/2004

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Λαμπαδαρίδης Αντώνιος el04148@mail.ntua.gr Διπλωματική εργασία στο Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Επιβλέπων: Καθηγητής Τ. Σελλής Περίληψη

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΔΥΝΑΜΙΚΗ & ΕΛΕΓΧΟΣ - ΕΡΓΑΣΤΗΡΙΟ

ΔΥΝΑΜΙΚΗ & ΕΛΕΓΧΟΣ - ΕΡΓΑΣΤΗΡΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΑΓΩΓΗΣ, ΑΥΤΟΜΑΤΙΣΜΟΥ & ΡΟΜΠΟΤΙΚΗΣ ΔΥΝΑΜΙΚΗ & ΕΛΕΓΧΟΣ - ΕΡΓΑΣΤΗΡΙΟ ΧΕΙΜ17-18 ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 2 ΕΛΕΓΧΟΣ ΤΑΧΥΤΗΤΑΣ

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος εδοµένα οµές δεδοµένων και αλγόριθµοι Τα δεδοµένα είναι ακατέργαστα γεγονότα. Η συλλογή των ακατέργαστων δεδοµένων και ο συσχετισµός τους δίνει ως αποτέλεσµα την πληροφορία. Η µέτρηση, η κωδικοποίηση,

Διαβάστε περισσότερα

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΒΕΣ 6: ΠΡΟΣΑΡΜΟΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ Ακαδηµαϊκό Έτος 26 27, Εαρινό Εξάµηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΕΠΑΝΑΛΗΨΗ Το

Διαβάστε περισσότερα

ΟΠΤΙΚΟΠΟΙΗΣΗ ΡΕΥΜΑΤΩΝ ΤΡΟΧΙΑΣ ΚΙΝΟΥΜΕΝΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΟΠΤΙΚΟΠΟΙΗΣΗ ΡΕΥΜΑΤΩΝ ΤΡΟΧΙΑΣ ΚΙΝΟΥΜΕΝΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΟΠΤΙΚΟΠΟΙΗΣΗ ΡΕΥΜΑΤΩΝ ΤΡΟΧΙΑΣ ΚΙΝΟΥΜΕΝΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Διαβάστε περισσότερα

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1 Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση Διαφάνεια 16-1 Κεφάλαιο 20 Φυσικός Σχεδιασμός Βάσεων Δεδομένων και Ρύθμιση Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΙΚΤΥΑ ΕΠΙΚΟΙΝΩΝΙΩΝ. Ιωάννης Σταυρακάκης, Καθηγητής Password: edi

ΙΚΤΥΑ ΕΠΙΚΟΙΝΩΝΙΩΝ. Ιωάννης Σταυρακάκης, Καθηγητής  Password: edi ΙΚΤΥΑ ΕΠΙΚΟΙΝΩΝΙΩΝ Ιωάννης Σταυρακάκης, Καθηγητής ioannis@di.uoa.gr http://www.di.uoa.gr/~ioannis/courses.html Password: edi ίκτυα Επικ. - Κεφ. 1 ( Καθ. Ι. Σταυρακάκης, Τµήµα Πληροφ. & Τηλεπικ. - Ε.Κ.Π.Α.)

Διαβάστε περισσότερα

Παράλληλη Επεξεργασία Εργαστηριακή Ασκηση Εαρινού Εξαµήνου 2008

Παράλληλη Επεξεργασία Εργαστηριακή Ασκηση Εαρινού Εξαµήνου 2008 Παράλληλη Επεξεργασία Εργαστηριακή Ασκηση Εαρινού Εξαµήνου 2008 Αντικείµενο της εργαστηριακής άσκησης για το 2008 αποτελεί το πρόβληµα της εύρεσης της κατανοµής ϑερµότητας ενός αντικειµένου σε σταθερή

Διαβάστε περισσότερα

Αγορά. Η βιώσιµη ανάπτυξη της εταιρείας µας είναι άρρηκτα συνδεδεµένη µε το υπεύθυνο επιχειρείν

Αγορά. Η βιώσιµη ανάπτυξη της εταιρείας µας είναι άρρηκτα συνδεδεµένη µε το υπεύθυνο επιχειρείν Αγορά 12 ΥΠΕΥΘΥΝΗ ΚΑΤΑΝΑΛΩΣΗ & ΠΑΡΑΓΩΓΗ 16 ΕΙΡΗΝΗ, ΙΚΑΙΟΣΥΝΗ & ΙΣΧΥΡΟΙ ΘΕΣΜΟΙ 17 ΣΥΝΕΡΓΑΣΙΑ ΓΙΑ ΤΟΥΣ ΣΤΟΧΟΥΣ ΥΠΕΥΘΥΝΗ ΚΑΤΑΝΑΛΩΣΗ & ΠΑΡΑΓΩΓΗ ΕΙΡΗΝΗ, ΙΚΑΙΟΣΥΝΗ & ΙΣΧΥΡΟΙ ΘΕΣΜΟΙ ΣΥΝΕΡΓΑΣΙΑ ΓΙΑ ΤΟΥΣ ΣΤΟΧΟΥΣ

Διαβάστε περισσότερα

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3.

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3. ΜΗΧΑΝΙΣΜΟΙ & ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕ ΙΑΣΜΟ ΜΗΧΑΝΩΝ - 3.1 - Cpright ΕΜΠ - Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 2012. Με επιφύλαξη παντός δικαιώµατος. All rights reserved. Απαγορεύεται

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Μηχανική ΙI Ροή στο χώρο των φάσεων, θεώρηµα Liouville

Μηχανική ΙI Ροή στο χώρο των φάσεων, θεώρηµα Liouville Τµήµα Π. Ιωάννου & Θ. Αποστολάτου 16/5/2000 Μηχανική ΙI Ροή στο χώρο των φάσεων, θεώρηµα Liouville Στη Χαµιλτονιανή θεώρηση η κατάσταση του συστήµατος προσδιορίζεται κάθε στιγµή από ένα και µόνο σηµείο

Διαβάστε περισσότερα

Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη

Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη ΒΕΣ 6 Προσαρµοστικά Συστήµατα στις Τηλεπικοινωνίες Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη 7 Nicolas sapatsoulis Βιβλιογραφία Ενότητας Benvenuto []: Κεφάλαιo Wirow

Διαβάστε περισσότερα

Αναλυτικές λειτουργίες ΣΓΠ

Αναλυτικές λειτουργίες ΣΓΠ Αναλυτικές λειτουργίες ΣΓΠ Γενικά ερωτήµατα στα οποία απαντά ένα ΣΓΠ Εντοπισµού (locaton) Ιδιότητας (condton) Τάσεων (trend) ιαδροµών (routng) Μορφών ή προτύπων (pattern) Και µοντέλων (modellng) παραδείγµατα

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα Κεφάλαιο 7. 7.1 ομές εδομένων για Γραφικά Υπολογιστών. Οι δομές δεδομένων αποτελούν αντικείμενο της επιστήμης υπολογιστών. Κατά συνέπεια πρέπει να γνωρίζουμε πώς οργανώνονται τα γεωμετρικά δεδομένα, προκειμένου

Διαβάστε περισσότερα

Τηλεµατική ορίζεται ως η τεχνολογία που αξιοποιεί τον συνδυασµό τηλεπικοινωνιών και πληροφορικής για την αµφίδροµη µετάδοση δεδοµένων µε σκοπό τον

Τηλεµατική ορίζεται ως η τεχνολογία που αξιοποιεί τον συνδυασµό τηλεπικοινωνιών και πληροφορικής για την αµφίδροµη µετάδοση δεδοµένων µε σκοπό τον ΤΗΛΕΜΑΤΙΚΗ Τηλεµατική ορίζεται ως η τεχνολογία που αξιοποιεί τον συνδυασµό τηλεπικοινωνιών και πληροφορικής για την αµφίδροµη µετάδοση δεδοµένων µε σκοπό τον έλεγχο ή την ενηµέρωση εξ αποστάσεως ΕΦΑΡΜΟΓΕΣ

Διαβάστε περισσότερα

ΚΑΤΑΝΕΜΗΜΕΝΕΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ

ΚΑΤΑΝΕΜΗΜΕΝΕΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΚΑΤΑΝΕΜΗΜΕΝΕΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ 1 ΓΕΝΙΚΑ Μια κατανεµηµένη βάση δεδοµένων (distributed database) µπορεί να οριστεί σαν µια οµάδα από λογικά συνδεόµενες βάσεις δεδοµένων που είναι διεσπαρµένες σε ένα δίκτυο

Διαβάστε περισσότερα

ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων

ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων Μαρία Ι. Ανδρέου ΗΜΥ417, ΗΜΥ 663 Κατανεµηµένα Συστήµατα Χειµερινό Εξάµηνο 2006-2007 Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο

Διαβάστε περισσότερα

WIRELESS SENSOR NETWORKS (WSN)

WIRELESS SENSOR NETWORKS (WSN) WIRELESS SENSOR NETWORKS (WSN) Δρ. Ιωάννης Παναγόπουλος Εργαστήριο Υπολογιστικών Συστημάτων Καθ. Γεώργιος Παπακωνσταντίνου Αθήνα 2008 ΕΙΣΑΓΩΓΗ ΣΤΑ WSN Σε συγκεκριμένες εφαρμογές, επιθυμείται η μέτρηση

Διαβάστε περισσότερα

Θέμα 1 (20%) (α) Πότε είναι εργοδικό το παραπάνω σύστημα; Για πεπερασμένο c, το σύστημα είναι πάντα εργοδικό.

Θέμα 1 (20%) (α) Πότε είναι εργοδικό το παραπάνω σύστημα; Για πεπερασμένο c, το σύστημα είναι πάντα εργοδικό. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Τομέας Επικοινωνιών, Ηλεκτρονικής & Συστημάτων Πληροφορικής Εργαστήριο Διαχείρισης & Βέλτιστου Σχεδιασμού Δικτύων - NETMODE

Διαβάστε περισσότερα

Μάθηµα: ιαχείριση Ενέργειας και Περιβαλλοντική Πολιτική. Καθηγητής Ιωάννης Ψαρράς. Εργαστήριο Συστηµάτων Αποφάσεων & ιοίκησης

Μάθηµα: ιαχείριση Ενέργειας και Περιβαλλοντική Πολιτική. Καθηγητής Ιωάννης Ψαρράς. Εργαστήριο Συστηµάτων Αποφάσεων & ιοίκησης ιαχείριση Ενέργειας και Περιβαλλοντική Πολιτική 11α. Μεθοδολογία Monitoring & Targeting Καθηγητής Ιωάννης Ψαρράς Εργαστήριο Συστηµάτων Αποφάσεων & ιοίκησης Γρ. 0.2.7. Ισόγειο Σχολής Ηλεκτρολόγων Τηλέφωνο:

Διαβάστε περισσότερα

1η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 1 (Θεωρία)

1η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 1 (Θεωρία) ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ KAI THΛΕΠΙΚΟΙΝΩΝΙΩΝ ΤΟΜΕΑΣ ΘΕΩΡΗΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ /5/007 η Οµάδα Ασκήσεων ΑΣΚΗΣΗ (Θεωρία). α) Έστω fl() x η παράσταση

Διαβάστε περισσότερα

Ηρώων Πολυτεχνείου 9, Ζωγράφου, Αθήνα, Τηλ: , Fax: URL

Ηρώων Πολυτεχνείου 9, Ζωγράφου, Αθήνα, Τηλ: , Fax: URL ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Τομέας Επικοινωνιών, Ηλεκτρονικής & Συστημάτων Πληροφορικής Εργαστήριο Διαχείρισης και Βέλτιστου Σχεδιασμού Δικτύων - NETMODE

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Εισαγωγή στα ψηφιακά Συστήµατα Μετρήσεων

Εισαγωγή στα ψηφιακά Συστήµατα Μετρήσεων 1 Εισαγωγή στα ψηφιακά Συστήµατα Μετρήσεων 1.1 Ηλεκτρικά και Ηλεκτρονικά Συστήµατα Μετρήσεων Στο παρελθόν χρησιµοποιήθηκαν µέθοδοι µετρήσεων που στηριζόταν στις αρχές της µηχανικής, της οπτικής ή της θερµοδυναµικής.

Διαβάστε περισσότερα

Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών

Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών Εθνικό Μετσόβιο Πολυτεχνείο Τοµέας Υδατικών Πόρων, Υδραυλικών και Θαλάσσιων Έργων Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών. Κουτσογιάννης Α. Ευστρατιάδης Φεβρουάριος 2002 Εισαγωγή

Διαβάστε περισσότερα

Να αναφέρουµε τους πέντε τύπους δεδοµένων που χρησιµοποιούνται σε έναν υπολογιστή. Να περιγράψουµε τον τρόπο µε τον οποίο αποθηκεύονται οι

Να αναφέρουµε τους πέντε τύπους δεδοµένων που χρησιµοποιούνται σε έναν υπολογιστή. Να περιγράψουµε τον τρόπο µε τον οποίο αποθηκεύονται οι ΚΕΦΑΛΑΙΟ 3 Αποθήκευση δεδοµένων 1.1 Οιστόχοιµαςσεαυτότοκεφάλαιο: Να αναφέρουµε τους πέντε τύπους δεδοµένων που χρησιµοποιούνται σε έναν υπολογιστή. Να περιγράψουµε τον τρόπο µε τον οποίο αποθηκεύονται

Διαβάστε περισσότερα

Υδρονοµέας Σύστηµα υποστήριξης της διαχείρισης υδατικών πόρων

Υδρονοµέας Σύστηµα υποστήριξης της διαχείρισης υδατικών πόρων Εθνικό Μετσόβιο Πολυτεχνείο Τοµέας Υδατικών Πόρων, Υδραυλικών και Θαλάσσιων Έργων Υδρονοµέας Σύστηµα υποστήριξης της διαχείρισης υδατικών πόρων Γ. Καραβοκυρός Α. Ευστρατιαδης. Κουτσογιάννης Φεβρουάριος

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Κινητές επικοινωνίες. Κεφάλαιο 3 Ένταση κίνησης σε δίκτυο

Κινητές επικοινωνίες. Κεφάλαιο 3 Ένταση κίνησης σε δίκτυο Κινητές επικοινωνίες Κεφάλαιο 3 Ένταση κίνησης σε δίκτυο 1 ΓΕΝΙΚΑ Ο αριθμός των κλήσεων σε εξέλιξη μεταβάλλεται με έναν τυχαίο τρόπο καθώς κάθε κλήση ξεχωριστά αρχίζει και τελειώνει με τυχαίο τρόπο. Κατά

Διαβάστε περισσότερα

Κεφάλαιο 3. Διδακτικοί Στόχοι

Κεφάλαιο 3. Διδακτικοί Στόχοι Κεφάλαιο 3 Σε ένα υπολογιστικό σύστημα η Κεντρική Μονάδα Επεξεργασίας (ΚΜΕ) εκτελεί τις εντολές που βρίσκονται στην κύρια μνήμη του. Οι εντολές αυτές ανήκουν σε προγράμματα τα οποία, όταν εκτελούνται,

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

Οπτική αντίληψη. Μετά?..

Οπτική αντίληψη. Μετά?.. Οπτική αντίληψη Πρωτογενής ερεθισµός (φυσικό φαινόµενο) Μεταφορά µηνύµατος στον εγκέφαλο (ψυχολογική αντίδραση) Μετατροπή ερεθίσµατος σε έννοια Μετά?.. ΓΙΑ ΝΑ ΚΑΤΑΝΟΗΣΟΥΜΕ ΤΗΝ ΟΡΑΣΗ ΠΡΕΠΕΙ ΝΑ ΑΝΑΛΟΓΙΣΤΟΥΜΕ

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

2018 / 19 ΜΕΤΑΠΤΥΧΙΑΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

2018 / 19 ΜΕΤΑΠΤΥΧΙΑΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ 2018 / 19 ΜΕΤΑΠΤΥΧΙΑΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ: ΑΣΦΑΛΕΙΑ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6) Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Πολιτικών Μηχανικών Τοµέας Υδατικών Πόρων Μάθηµα: Τυπικά Υδραυλικά Έργα Μέρος 2: ίκτυα διανοµής Άσκηση E0: Μαθηµατική διατύπωση µοντέλου επίλυσης απλού δικτύου διανοµής

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Τ. Σελλής ΦΘΙΝΟΠΩΡΟ 2008 Λύση ΑΣΚΗΣΗΣ

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1 Εισαγωγή Τι είναι τα πολυµέσα Ποιοι εµπλέκονται στα πολυµέσα Χαρακτηριστικά των µέσων Απαιτήσεις πολυµέσων Ιδιότητες πολυµέσων Μετάδοση πολυµέσων οµή συστηµάτων πολυµέσων Τεχνολογία Πολυµέσων 01-1 Τι είναι

Διαβάστε περισσότερα

Οι δυναμικές δομές δεδομένων στην ΑΕΠΠ

Οι δυναμικές δομές δεδομένων στην ΑΕΠΠ Καθηγητής Πληροφορικής Απαγορεύεται η αναπαραγωγή των σημειώσεων χωρίς αναφορά στην πηγή Οι σημειώσεις, αν και βασίζονται στο διδακτικό πακέτο, αποτελούν προσωπική θεώρηση της σχετικής ύλης και όχι επίσημο

Διαβάστε περισσότερα

Εισαγωγή. Κατανεµηµένα Συστήµατα 01-1

Εισαγωγή. Κατανεµηµένα Συστήµατα 01-1 Εισαγωγή Υλισµικό Λογισµικό Αρχές σχεδίασης ιαφάνεια Κλιµάκωση Παρεχόµενες υπηρεσίες Μοντέλο πελάτη εξυπηρετητή Μοντέλο πελάτη εξυπηρετητή τριών επιπέδων Κατανοµή επεξεργασίας Κατανεµηµένα Συστήµατα 01-1

Διαβάστε περισσότερα

Query-by-Example (QBE)

Query-by-Example (QBE) Φροντιστήριο 8 o Χειµερινό Εξάµηνο 2009-10 Τµήµα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή, Πανεπιστήµιο Πατρών Πέµπτη, 3 εκεµβρίου 2009 Τι είναι η QBE; Γλώσσα επερωτήσεων σε σχεσιακές ϐάσεις δεδοµένων

Διαβάστε περισσότερα

1 η ΣΕΙΡΑ ΑΣΚΗΣΕΩΝ. / 2. Οι όροι Eb. και Ec

1 η ΣΕΙΡΑ ΑΣΚΗΣΕΩΝ. / 2. Οι όροι Eb. και Ec Τµήµα Μηχανικών Υπολογιστών, Τηλεπικοινωνιών και ικτύων ΗΥ 44: Ασύρµατες Επικοινωνίες Εαρινό Εξάµηνο -3 ιδάσκων: Λέανδρος Τασιούλας η ΣΕΙΡΑ ΑΣΚΗΣΕΩΝ. Θεωρήστε ένα κυψελωτό σύστηµα, στο οποίο ισχύει το

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΚΩΔΙΚΟΣ ΠΑΡΑΔΟΤΕΟΥ: Π18 ΑΡΙΘΜΟΣ ΠΡΩΤΟΚΟΛΛΟΥ ΈΡΓΟΥ: ΤΠΕ/ΟΡΖΙΟ/0308(ΒΕ)/03 ΤΙΤΛΟΣ ΕΡΓΟΥ: ΓΕΝΙΚΕΥΜΕΝΟ ΣΥΣΤΗΜΑ ΑΣΑΦΟΥΣ ΓΝΩΣΤΙΚΟΥ ΧΑΡΤΗ

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας Ενότητα 9 Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας Πληροφοριακά Συστήματα Διοίκησης ΙI Ι Διδάσκων: Νίκος Καρακαπιλίδης 9-1 Στόχοι & αντικείμενο ενότητας Σχεδιασμός επεξεργασίας Επεξεργασία κατά δεσμίδες

Διαβάστε περισσότερα

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών Διπλωματική Εργασία Παναγιώτης Γεώργας (Μ1040) Επιβλέπωντες: Επικ. Καθηγητής

Διαβάστε περισσότερα

Σύστημα Διαχείρισης, Ελέγχου και Παρακολούθησης Ασθενοφόρων και Περιστατικών

Σύστημα Διαχείρισης, Ελέγχου και Παρακολούθησης Ασθενοφόρων και Περιστατικών Σύστημα Διαχείρισης, Ελέγχου και Παρακολούθησης Ασθενοφόρων και Περιστατικών Η LINK Technologies Α.Ε. ιδρύθηκε το 2002 με στόχο να καταστεί πυρήνας καινοτομικών λύσεων Τηλεματικής αναβαθμίζοντας καθημερινά

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ AM: Δοµές Δεδοµένων Πτυχιακή Εξεταστική Ιούλιος 2014 Διδάσκων : Ευάγγελος Μαρκάκης 09.07.2014 ΥΠΟΓΡΑΦΗ ΕΠΟΠΤΗ: Διάρκεια εξέτασης : 2 ώρες

Διαβάστε περισσότερα

Ν. Κυρτάτος, Καθηγητής ΕΜΠ, Δ/ντής ΕΝΜ, Γ. Παπαλάμπρου, Λέκτορας ΕΜΠ, Σ. Τοπάλογλου, ΥΔ ΣΝΜΜ/ΕΜΠ

Ν. Κυρτάτος, Καθηγητής ΕΜΠ, Δ/ντής ΕΝΜ, Γ. Παπαλάμπρου, Λέκτορας ΕΜΠ, Σ. Τοπάλογλου, ΥΔ ΣΝΜΜ/ΕΜΠ Η ΝΕΑ ΜΕΓΑΛΗ ΠΕΙΡΑΜΑΤΙΚΗ ΚΛΙΝΗ ΔΟΚΙΜΩΝ ΥΒΡΙΔΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΩΣΗΣ ΠΛΟΙΩΝ ΜΕ ΘΕΡΜΙΚΟΥΣ ΚΑΙ ΗΛΕΚΤΡΙΚΟΥΣ ΚΙΝΗΤΗΡΕΣ ΚΑΙ ΣΥΣΤΗΜΑ ΑΠΟΡΡΥΠΑΝΣΗΣ ΚΑΥΣΑΕΡΙΩΝ, ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΝΑΥΤΙΚΗΣ ΜΗΧΑΝΟΛΟΓΙΑΣ ΕΜΠ Ν. Κυρτάτος,

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΥΣΗΣ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ ΜΑΘΗΜΑ: ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 4 AΣΚΗΣΗ () [ ] (.5)

Διαβάστε περισσότερα

Συστήµατα Ρευµάτων εδοµένων για Κινούµενα Αντικείµενα

Συστήµατα Ρευµάτων εδοµένων για Κινούµενα Αντικείµενα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Συστήµατα Ρευµάτων εδοµένων για Κινούµενα Αντικείµενα Μεταπτυχιακή διπλωµατική εργασία για το.π.μ.σ. ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ Επιβλέπων:

Διαβάστε περισσότερα