ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ / ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΕΝΤΟΠΙΣΜΟΣ ΑΚΡΟΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΕ ΡΟΕΣ ΔΕΔΟΜΕΝΩΝ» (Outlier detection in data streams) Πίσκας Γεώργιος ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΓΟΥΝΑΡΗΣ ΑΝΑΣΤΑΣΙΟΣ Θεσσαλονίκη, Ιούνιος 2014

2 ii

3 ΠΕΡΙΛΗΨΗ Η πτυχιακή αυτή εργασία ασχολείται με την εξόρυξη δεδομένων και πιο συγκεκριμένα, με τον εντοπισμό ανωμαλιών σε ροές δεδομένων. Η επεξεργασία απεριόριστων ροών είναι εκ φύσεως ένα δύσκολο εγχείρημα και θεωρείται μεγάλη πρόκληση στην ερευνητική κοινότητα. Συστήματα όπως το Massive Online Analysis (MOA), το οποίο εξειδικεύεται σε τεχνικές εξόρυξης δεδομένων σε ροές, παρέχουν συλλογές εργαλείων για την δοκιμασία τεχνικών υπό περιορισμούς. Στα πλαίσια της διατριβής αυτής, επεκτάθηκε η εργαλειοθήκη του MOA προσθέτοντας τον αλγόριθμο AnyOut στη συλλογή, ο οποίος είναι ένας αλγόριθμος εύρεσης ακροτάτων παρατηρήσεων σε ροές. Παράλληλα, προστέθηκε η δυνατότητα εφαρμογής μετρικών αξιολόγησης στη λειτουργία της ανάλυσης ανωμαλιών και έγιναν οι απαραίτητες τροποποιήσεις στο γραφικό περιβάλλον. Η εργασία ξεκινάει με την επεξήγηση του απαραίτητου τεχνικού υποβάθρου και τον ορισμό των εννοιών του προβλήματος. Στη συνέχεια περιγράφεται λεπτομερώς το εργαλείο MOA και οι προσθήκες που πραγματοποιήθηκαν. Τέλος, παρατίθενται πιθανά θέματα και ζητήματα στον τομέα της εξόρυξης δεδομένων, τα οποία ίσως απασχολήσουν μελλοντικά την ερευνητική κοινότητα. iii

4 ABSTRACT This thesis deals with the field of data mining and more specifically, with outlier detection in data streams. Processing infinitely large data streams is inherently a difficult task and is considered to be a major challenge by the research community. Frameworks suck as Massive Online Analysis (MOA), which specializes in stream data mining techniques, offer various toolkits for testing purposes under simulated restrictions. In the context of this thesis, AnyOut was added to the algorithm collection of MOA. AnyOut is an online outlier detection algorithm that is applied on data streams. Moreover, a new evaluation measure system was implemented for the outlier analysis functionality of MOA, including several modifications to the graphical user interface that were made for visualization purposes. The thesis begins with the explanation of the necessary technical background and the definition of the relevant terminology. Then, MOA framework as well as our contribution is described in detail. Finally, possible data mining topics and issues are listed that may be addressed in the future by the research community. iv

5 ΕΥΧΑΡΙΣΤΙΕΣ Ολοκληρώνοντας τις προπτυχιακές σπουδές μου παράλληλα με την παρούσα διπλωματική εργασία, θα ήθελα πρώτα από όλους να ευχαριστήσω θερμά τον πατέρα μου Βασίλη, την μητέρα μου Ζωή και βεβαίως τον μεγαλύτερο αδερφό μου Δημήτρη. Η υποστήριξη, η συμπαράσταση και η καθοδήγηση που μου προσέφεραν ήταν και είναι καθοριστική για την ορθή εξέλιξη της ακαδημαϊκής μου πορείας και όχι μόνο. Αμέριστη ήταν επίσης η στήριξη του επιβλέποντος της εργασίας μου, επίκουρου καθηγητή κ. Γούναρη Αναστάσιου, τον οποίο οφείλω να ευχαριστήσω. Η συνεργασία μας ήταν άψογη, ενώ οι συμβουλές του κ. Γούναρη με βοήθησαν να ολοκληρώσω επιτυχώς την εργασία αυτή αλλά και τις σπουδές μου. Τέλος ευχαριστώ τους φίλους μου, τους συμφοιτητές μου και τους καθηγητές μου, για την βοήθεια και τις γνώσεις που μου προσέφεραν όλα αυτά τα χρόνια. v

6 vi

7 ΠΕΡΙΕΧΟΜΕΝΑ Περίληψη... iii Abstract... iv Ευχαριστίες... v Κεφάλαιο 1: Εισαγωγή Στόχος της διατριβής Περίληψη αποτελεσμάτων Δομή της πτυχιακής... 3 Κεφάλαιο 2: Εντοπισμός Ακροτάτων Τιμών Εισαγωγή Ορισμός Δεδομένα Προκλήσεις Μοντέλα εντοπισμού ακροτάτων τιμών Ανάλυση ακραίων τιμών Στατιστικό μοντέλο Μοντέλα βασισμένα στην εγγύτητα Κεφάλαιο 3: Εντοπισμός Ακροτάτων σε Ροές Δεδομένων Διαφορές και προκλήσεις Η προσέγγιση Anytime Ο αλγόριθμος AnyOut Περιγραφή Λειτουργία Βαθμολόγηση ανωμαλίας Βαθμολόγηση βεβαιότητας Κεφάλαιο 4: Massive Online Analysis (MOA) Εισαγωγή Γραφικό περιβάλλον Συσταδοποίηση στο MOA Αλγόριθμοι Γραφικό περιβάλλον Εντοπισμός ακροτάτων στο MOA vii

8 4.4.1 Αλγόριθμοι Γραφικό περιβάλλον Βιβλιογραφική επισκόπηση Κεφάλαιο 5: Επεκτάσεις του MOA Εισαγωγή Υλοποίηση του αλγορίθμου AnyOut Η κλάση AnyOutCore Δομές και μεταβλητές Παραμετροποίηση και επιλογές Βασικότερες μέθοδοι Η κλάση AnyOut Πορεία εκτέλεσης Πληροφορίες και στατιστικά Βοηθητικές κλάσεις Υλοποίηση των μετρικών αξιολόγησης Δομή κλάσεων Μετρικές Αξιολόγησης Ενσωμάτωση στο MOA Λοιπές συνεισφορές Κεφάλαιο 6 Συμπεράσματα Σύνοψη και αποτελέσματα Μελλοντική έρευνα Βιβλιογραφία viii

9 ix

10 ΚΕΦΑΛΑΙΟ 1 Εισαγωγή 1

11 1.1 Στόχος της διατριβής Τα τελευταία χρόνια, η ραγδαία ανάπτυξη της τεχνολογίας αύξησε τον ρυθμό παραγωγής δεδομένων σε ανεπανάληπτα επίπεδα. Η αφθονία συστημάτων συλλογής δεδομένων όπως τα δίκτυα αισθητήρων, οι φορητές και λοιπές συσκευές και γενικά η καταγραφή και ανάλυση συμβάντων, μεταφορών δεδομένων και συναλλαγών δημιούργησε μια ατέρμονη ροή απροσδιόριστης χωρητικότητας. Όμως, το ασύλληπτο μέγεθος των δεδομένων καθιστά τις σημερινές υπολογιστικές και αποθηκευτικές δυνατότητες ανίκανες να επεξεργαστούν και να αναλύσουν ολόκληρη την συλλογή δεδομένων. Στο άμεσο μέλλον προβλέπεται πως η παραγωγή δεδομένων θα κλιμακώνεται ακόμα ταχύτερα, ιδιαίτερα όταν εδραιωθούν και εξαπλωθούν οι εφαρμογές τύπου Internet of Things [8], δηλαδή όταν η πλειοψηφία αντικειμένων στο περιβάλλον που ζούμε είναι διασυνδεδεμένα και η επικοινωνία αποκτήσει νέο νόημα και νέες διαστάσεις. Ο ερευνητικός τομέας ο οποίος ασχολείται με τις την αντιμετώπιση των παραπάνω προκλήσεων είναι η εξόρυξη δεδομένων. Το ερευνητικό έργο και οι τελευταίες εξελίξεις πάνω στον τομέα αυτό αποτελούν τον ακρογωνιαίο λίθο των περισσότερων μοντέρνων προσεγγίσεων και συστημάτων ανάλυσης δεδομένων. Πρωταρχικός στόχος της διατριβής αυτής είναι η ενασχόληση με την υπάρχουσα τεχνολογία εξόρυξης δεδομένων και πιο συγκεκριμένα, η επικέντρωση γύρω από τις σημερινές state-of-the-art τεχνικές ανάλυσης ανωμαλιών σε ροές. Ο εντοπισμός ακρότατων παρατηρήσεων σε ροές δεδομένων αποτελεί μια περίπλοκη διαδικασία, καθώς πρέπει να αντιμετωπιστούν επιτυχώς πολλαπλά και αλληλοσυγκρουόμενα προβλήματα. Λόγω του περιορισμένου αποθηκευτικού χώρου, είναι αδύνατο να αποθηκευτεί ολόκληρη η ροή δεδομένων ώστε να αναλυθεί εκ των υστέρων. Επίσης, λόγω της περιορισμένης υπολογιστικής ικανότητας, είναι πολλές φορές δύσκολο να παραχθεί ακριβές αποτέλεσμα, ιδιαίτερα υπό συνθήκες στις οποίες απαιτείται άμεση απόκριση. Ας σημειωθεί πως η άμεση απόκριση είναι ένα από τα σημαντικότερα προσόντα ενός αλγορίθμου επεξεργασίας ροών, καθώς πολλές φορές μπορεί από το αποτέλεσμα του αλγορίθμου να εξαρτάται μια κρίσιμη απόφαση, όπως για παράδειγμα συμβαίνει σε εφαρμογές ιατρικής. Οι αλγόριθμοι οι οποίοι εγγυώνται άμεσα αποτελέσματα ανά πάσα στιγμή και ανεξαρτήτως του διαθέσιμου χρονικού διαστήματος επεξεργασίας μεμονωμένων παρατηρήσεων, ονομάζονται Anytime [6] και μελετώνται εις βάθος στα πλαίσια της εργασίας αυτής. 1.2 Περίληψη αποτελεσμάτων Ένα από τα σύγχρονα εργαλεία εξόρυξης σε ροές δεομένων είναι το λεγόμενο Massive Online Analysis ή MOA [10]. Το εργαλείο αυτό κατασκευάστηκε με σκοπό να καλύψει το κενό που υπήρχε σχετικά με τη σύγκριση αλγορίθμων κοινού πεδίου εφαρμογής και, μέχρι σήμερα επεκτείνεται με περισσότερες δυνατότητες και νέους αλγορίθμους. Το εστιακό σημείο της διατριβής ήταν η επέκταση του εργαλείου αυτού, προσθέτοντας στη συλλογή αλγορίθμων ανάλυσης ανωμαλιών τον αλγόριθμο 2

12 AnyOut [7]. Παράλληλα, προστέθηκε μια νέα λειτουργία στο εργαλείο, η οποία επιτρέπει τη χρήση μετρικών αξιολόγησης πάνω στην προαναφερθείσα λειτουργία. Ο νέος αλγόριθμος AnyOut αποτελεί μια τεχνική εντοπισμού ακροτάτων τιμών βασισμένη στη μέθοδο της συσταδοποίησης. Χρησιμοποιώντας μια ιεραρχική δομή συστάδων η οποία είναι οργανωμένη σε μια δενδρική αναπαράσταση, καταφέρνει να καλύψει τα προαπαιτούμενα χαρακτηριστικά ενός Anytime αλγορίθμου. Όταν ένα νέο αντικείμενο βρίσκεται υπό επεξεργασία, διασχίζεται η δενδρική δομή συστάδων και σταδιακά υπολογίζεται μια βαθμολογία ανωμαλίας για αυτό. Επειδή η εμβάθυνση διακόπτεται όταν ένα νέο αντικείμενο της ροής εμφανιστεί, ο χρόνος επεξεργασίας είναι αυστηρά περιορισμένος. Η τεχνική αυτή επιτρέπει την προσεγγιστική αξιολόγηση των αντικειμένων της ροής και ταυτόχρονα την παροχή αποτελεσμάτων σε πραγματικό χρόνο. Η λειτουργία ανακάλυψης ανωμαλιών στο εργαλείο MOA εμπλουτίστηκε επίσης με την δυνατότητα χρήσης μετρικών αξιολόγησης. Υλοποιήθηκε όλη η απαραίτητη προγραμματιστική υποδομή για την υποστήριξη των μετρικών με γνώμονα την αποδοτικότητα, την απλότητα του κώδικα αλλά και την εύκολη επεκτασιμότητα. Επιπλέον, έγιναν οι απαραίτητες αλλαγές στο γραφικό περιβάλλον του εργαλείου έτσι ώστε ο χρήστης να έχει τη δυνατότητα να επιλέγει τις μετρικές προς εφαρμογή που επιθυμεί, και προστέθηκαν επίσης οι αντίστοιχες περιοχές οπτικοποίησης και γραφικής αναπαράστασης των υπολογισμένων αποτελεσμάτων. 1.3 Δομή της πτυχιακής Η πορεία του κειμένου οργανώνεται στα επόμενα πέντε κεφάλαια. Το πρώτο κεφάλαιο αποτελεί την εισαγωγή, ενώ μετά το πέρας του τελευταίου κεφαλαίου αναγράφονται οι αναφορές. Το δεύτερο κεφάλαιο περιγράφει την σημερινή κατάσταση του προβλήματος της ανακάλυψης ακροτάτων παρατηρήσεων. Αρχικά, δίνονται οι ορισμοί σχετικά με την έννοια του ακροτάτου και της φύσης των δεδομένων προς επεξεργασία. Ακολουθεί μια συνοπτική περιγραφή των πιθανών προκλήσεων που μπορεί να αντιμετωπίσει μια τεχνική και τέλος περιγράφονται τα βασικότερα μοντέλα σχεδιασμού και ανάπτυξης τεχνικών εντοπισμού ακροτάτων τιμών. Το τρίτο κεφάλαιο εξειδικεύει το προηγούμενο, ξεκινώντας με μια εισαγωγή στο πρόβλημα εντοπισμού ανωμαλιών σε ροές δεδομένων και αναφέροντας τις διαφορές και τις νέες προκλήσεις που παρατηρούνται. Στη συνέχεια, ορίζεται η αλγοριθμική προσέγγιση Anytime και περιγράφεται εκτενώς η λειτουργία του αλγορίθμου AnyOut. Δίνεται έμφαση στην δενδρική δομή ClusTree στην οποία βασίζεται η λειτουργία του, καθώς και στον τρόπο βαθμολόγησης των αντικειμένων. Το τέταρτο κεφάλαιο αφορά το εργαλείο Massive Online Analysis (MOA). Αρχικά, αναλύονται οι στόχοι που εξυπηρετεί, η αρχιτεκτονική του και τέλός 3

13 περιγράφεται η γραφική διεπαφή του. Στη συνέχεια δίνεται έμφαση στις λειτουργίες της συσταδοποίησης και ανάλυσης ανωμαλιών τις οποίες προσφέρει, καθώς αποτελούν τα εστιακά σημεία της διατριβής. Περιγράφεται συνοπτικά η λειτουργία των διαθέσιμων αλγορίθμων και επεξηγείται η οπτικοποίηση των αποτελεσμάτων. Το πέμπτο και κυριότερο κεφάλαιο αναφέρεται στη συνεισφορά της εργασίας αυτής στο εργαλείο MOA. Γίνεται εκτενής αναφορά τεχνικής φύσεως στην υλοποίηση του αλγορίθμου AnyOut και στα συστατικά του μέρη, όπως είναι τα πεδία κλάσεων, οι παραμετροποιήσιμες επιλογές και οι βασικότερες μέθοδοι. Εξ ίσου λεπτομερώς περιγράφεται και η υλοποίηση των μετρικών αξιολόγησης, καθώς η λειτουργία αυτή δεν υπήρχε και ενσωματώθηκε στο εργαλείο εκ του μηδενός. Τέλος, αναφέρονται συνοπτικά λοιπές συνεισφορές που έγιναν κατά τη διάρκεια της κατασκευής. Το έκτο και τελευταίο κεφάλαιο αποτελεί μια σύνοψη των προηγούμενων ζητημάτων και συνεισφορών. Η εργασία αυτή κλείνει με την παράθεση μερικών ιδεών και θεμάτων, πάνω στα οποία πιθανώς να επικεντρωθεί το μελλοντικό ερευνητικό έργο της εξόρυξης δεδομένων. 4

14 ΚΕΦΑΛΑΙΟ 2 Εντοπισμός Ακροτάτων Τιμών 5

15 2.1 Εισαγωγή Οι ακρότατες τιμές (outliers) ανέκαθεν αποτελούσαν θορυβώδη δεδομένα στον τομέα της στατιστικής. Σήμερα όμως, ο εντοπισμός και η ερμηνεία τους έχει εξελιχθεί σε ένα σημαντικό ερευνητικό και πρακτικό πρόβλημα το οποίο ερευνάται από πολλούς διαφορετικούς κλάδους. Έχει πλέον αναπτυχθεί ποικιλία τεχνικών εντοπισμού ακροτάτων τιμών, τόσο εξειδικευμένες σε συγκεκριμένα προβλήματα όσο και γενικής φύσεως. Βέβαια, οι τεχνικές και τα αποτελέσματα τους δεν είναι εύκολα στην χρήση και στην ερμηνεία και, ως εκ τούτου, ο συγκεκριμένος κλάδος της εξόρυξης δεδομένων παρουσιάζει μεγάλο ενδιαφέρον και ενεργή ερευνητική κοινότητα. Ο εντοπισμός ακροτάτων τιμών (outlier detection) στοχεύει στην εύρεση προτύπων στα δεδομένα τα οποία δεν συμφωνούν με την τυπική «συμπεριφορά» του συνόλου δεδομένων. Η κρισιμότητα των ακροτάτων παρατηρήσεων έγκειται στο γεγονός ότι μπορούν να ερμηνευθούν σε χρήσιμη πληροφορία σε ποικιλία εφαρμογών. Για παράδειγμα, εκτεταμένη χρήση εντοπισμού ακροτάτων γίνεται στους παρακάτω τομείς: Ανακάλυψη πιθανής απάτης (fraud detection) όσον αφορά τραπεζικές συναλλαγές, μέσω παρατήρησης αγοραστικών προτύπων και συνηθειών. Προστασία κρίσιμων συστημάτων από ασυνήθιστες εξωτερικές παρεμβάσεις ή ενδογενή προβλήματα. Παρακολούθηση κίνησης δεδομένων σε δίκτυα υπολογιστών και ανακάλυψη πιθανής μετάδοσης ευαίσθητων δεδομένων σε μη εξουσιοδοτημένο δέκτη. Στρατιωτικές επεμβάσεις και παρακολούθηση εχθρικών κινήσεων, με στόχο την πρόληψη τρομοκρατικών ή/και εγκληματικών πράξεων. 2.2 Ορισμός Σύμφωνα με τον Hawkins [20] ο ορισμός των ακροτάτων παρατηρήσεων είναι ο εξής: «Μια ακρότατη τιμή είναι μια παρατήρηση η οποία έχει τόσο μεγάλη απόκλιση από τις υπόλοιπες παρατηρήσεις που προκαλεί την υποψία ότι παράχθηκε από έναν διαφορετικό μηχανισμό.» Στατιστικά, ο παραπάνω ορισμός σημαίνει πως οι τυπικές, όμοιες παρατηρήσεις κατασκευάζονται μέσω μιας προκαθορισμένης γεννήτριας (π.χ. Γκαουσιανή διαδικασία) ενώ οι ακρότατες τιμές αποκλίνουν από αυτή. Στο Σχήμα 2.1 παρουσιάζεται μια οπτική επεξήγηση του παραπάνω ορισμού. Σημειώνεται πως τα σημεία ο1 και ο2 καθώς και η συστάδα Ο3 είναι ακρότατες παρατηρήσεις, καθώς διαφέρουν σημαντικά από τις συστάδες Ν1 και Ν2, οι οποίες αποτελούνται από τις λεγόμενες τυπικές παρατηρήσεις. 6

16 Σχήμα 2.1 Παράδειγμα ακροτάτων σε δύο διαστάσεις [29]. Η ανακάλυψη ακροτάτων τιμών συσχετίζεται με το πρόβλημα της αφαίρεσης θορύβου (noise removal), αλλά διακρίνεται από αυτό στο γεγονός ότι ο θόρυβος είναι εξ ορισμού ανεπιθύμητος ενώ μια ακρότατη παρατήρηση μπορεί να μεταφραστεί σε πολύτιμη πληροφορία. Ο ανεπιθύμητος θόρυβος ορίζεται ως ένα φαινόμενο των δεδομένων το οποίο δεν παρουσιάζει ενδιαφέρον στον αναλυτή, αλλά αντιθέτως μπορεί να μειώσει την ποιότητα του συνόλου δεδομένων και, ως εκ τούτου, γεννιέται η ανάγκη να αφαιρεθεί προτού εφαρμοστεί κάποια τεχνική εξόρυξης. Ένας ακόμα τομέας που σχετίζεται με την ανακάλυψη ακροτάτων τιμών είναι η ανακάλυψη νέων προτύπων (novelty detection), ο οποίος στοχεύει στον εντοπισμό τους και στην ενσωμάτωσή τους στο μοντέλο των υπαρχόντων προτύπων. Τέλος, άμεση σχέση έχει και ο τομέας της συσταδοποίησης (clustering), από όπου εμπνεύστηκαν ή βασίζονται πολυάριθμες τεχνικές εύρεσης ακροτάτων τιμών. 2.3 Δεδομένα Τα δεδομένα εισόδου είναι μια συλλογή αντικειμένων (objects) ή, διατυπωμένα διαφορετικά, οντότητες, εγγραφές, σημεία, διανύσματα, γεγονότα, παρατηρήσεις και λοιπά. Τα αντικείμενα, με τη σειρά τους, αποτελούνται από ένα σύνολο μεταβλητών ιδιοτήτων (attributes) που τα χαρακτηρίζουν. Ο αριθμός των ιδιοτήτων καθορίζει την διαστασιμότητα (dimensionality) του συνόλου δεδομένων. Οι ιδιότητες περιγράφονται από ένα προκαθορισμένο τύπο δεδομένων, δηλαδή για παράδειγμα δέχονται συνεχείς, διακριτές ή δυαδικές τιμές. Επιπλέον, είναι ανεξάρτητες ως προς τον τύπο μεταξύ τους, με την έννοια ότι δεν είναι απαραίτητο όλες οι ιδιότητες ενός αντικειμένου να είναι του ίδιου τύπου. Οι τύποι δεδομένων των ιδιοτήτων είναι αυτοί που δημιουργούν την ανάγκη σχεδίασης διαφορετικών μοντέλων εξόρυξης δεδομένων. Για παράδειγμα, όταν η ανακάλυψη ακροτάτων τιμών γίνεται με στατιστικές μεθόδους, η επεξεργασία 7

17 διακριτών τιμών διαφέρει σημαντικά από την επεξεργασία συνεχών. Επίσης, σε τεχνικές που χρησιμοποιείται η απόσταση για τον καθορισμό ή μη ενός αντικειμένου ως ακρότατο, η μετρική απόστασης (distance measure) που θα εφαρμοστεί εξαρτάται από την φύση των δεδομένων. Σπανίως, και κατά κύριο λόγο μόνο σε παραγόμενα δεδομένα, υφίστανται μεταδεδομένα (metadata, labels) τα οποία χαρακτηρίζουν τα αντικείμενα ως φυσιολογικά ή ανώμαλα. Βέβαια, η ύπαρξη μεταδεδομένων είναι σχεδόν απίθανη σε περιπτώσεις φυσικά παραγόμενων δεδομένων, ενώ ο μη αυτόματος χαρακτηρισμός των δεδομένων από ειδικούς στο πεδίο έχει απαγορευτικούς περιορισμούς. Τέλος, ένα σύνολο δεδομένων αποτελείται από αντικείμενα τα οποία είτε είναι ανεξάρτητα είτε αλληλεξαρτώμενα. Μερικά παραδείγματα αλληλεξαρτώμενων αντικειμένων παρατηρούνται σε σειριακά δεδομένα (π.χ. χρονοσειρές), χωρικά δεδομένα, δεδομένα με γραφική αναπαράσταση και ροές δεδομένων. Τέλος, υπάρχουν περιπτώσεις που το σύνολο δεδομένων χαρακτηρίζεται από συνδυασμό δύο ή παραπάνω χαρακτηριστικών, όπως είναι τα χωροχρονικά (spatiotemporal) δεδομένα τα οποία συνήθως περιγράφουν την τοπολογική διαφοροποίηση των δεδομένων στο χρόνο. Τα δεδομένα εξόδου ανήκουν σε μια από τις δύο παρακάτω κατηγορίες: Ακρότατες παρατηρήσεις με βαθμολόγηση ή με δυαδικό χαρακτηρισμό. Στη πρώτη περίπτωση, η τεχνική εντοπισμού υπολογίζει και αναθέτει μια βαθμολογία σε κάθε αντικείμενο του συνόλου δεδομένων, η οποία αντικατοπτρίζει τον βαθμό «ανωμαλίας» του αντικειμένου αυτού. Από την άλλη, ο δυαδικός χαρακτηρισμός είναι απλούστερος και σημαίνει πως ένα αντικείμενο είτε χαρακτηρίζεται ώς ανώμαλο είτε ώς φυσιολογικό, χωρίς βαθμολόγηση. 2.4 Προκλήσεις Όπως ορίσθηκε προηγουμένως, οι ακρότατες τιμές είναι είτε μεμονωμένες παρατηρήσεις είτε πρότυπα, τα οποία παρουσιάζουν απόκλιση από την τυπική συμπεριφορά των δεδομένων. Είναι όμως πολύ δύσκολο να ορισθεί με ακρίβεια το τι σημαίνει τυπική συμπεριφορά σε κάθε διαφορετική περίπτωση. Παρακάτω παρατίθενται μερικές από τις πιο συνηθισμένες προκλήσεις που αντιμετωπίζονται κατά την σχεδίαση τεχνικών εύρεσης ακροτάτων τιμών: Η εύρεση και απαρίθμηση κάθε «τυπικής συμπεριφοράς» παρατηρήσεων για κάθε ανεξάρτητο πρόβλημα είναι απαγορευτική με βάση το υπολογιστικό κόστος, ιδιαίτερα σε πολυδιάστατα δεδομένα, και έτσι είναι απαραίτητο να εφαρμοστούν προσεγγιστικές μέθοδοι για τον προσδιορισμό της. Συνήθως, και ιδιαίτερα σε ροές δεδομένων, η έννοια της τυπικής συμπεριφοράς των παρατηρήσεων αλλάζει ή εξελίσσεται και μπορεί να λάβει τελείως διαφορετική μορφή με την πάροδο του χρόνου. 8

18 Σε οριακές περιπτώσεις όπου μια παρατήρηση βρίσκεται κοντά στο σύνορο μεταξύ του συνόλου παρατηρήσεων της τυπικής κατανομής και ακρότατης τιμής, δεν είναι πάντοτε εφικτό να προσδιοριστεί σωστά η «ταυτότητά» της. Η έλλειψη μεταδεδομένων για την εκπαίδευση αλγορίθμων ή επαλήθευση των αποτελεσμάτων αποτελεί σοβαρό περιορισμό, καθώς σχεδόν όλα τα σύνολα δεδομένων στον πραγματικό κόσμο δεν περιγράφονται από προκαθορισμένες κλάσεις. Πολλές φορές, παράλληλα με τις ακρότατες τιμές παραβρίσκεται και πραγματικός, ανεπιθύμητος θόρυβος ο οποίος μοιάζει με αυτές και είναι δύσκολο να αναγνωριστεί και να αφαιρεθεί. Η διαφορετική ερμηνεία της έννοιας «ακρότατη τιμή» σε κάθε ξεχωριστό τομέα δυσχεραίνει την εφαρμογή τεχνικών αποκλειστικών για ένα σκοπό σε άλλους τομείς. Για παράδειγμα, στην ιατρική μια μικρή απόκλιση θερμοκρασίας σώματος μπορεί να θεωρηθεί ακρότατη τιμή, ενώ μια ισάξια μεταβολή στο πεδίο των μετοχών μπορεί να θεωρηθεί φυσιολογική. Λόγω των παραπάνω προκλήσεων και περιορισμών, το πρόβλημα κατασκευής τεχνικών εξόρυξης ακροτάτων τιμών είναι εκ φύσεως δύσκολο. Στη πραγματικότητα, είναι πιθανόν ακατόρθωτο να σχεδιαστεί μια μέθοδος που να είναι ανεξάρτητη από την φύση των δεδομένων, την ύπαρξη ή μη μεταδεδομένων, τον τύπο ακρότατης παρατήρησης που αναμένεται και λοιπά. Συνήθως οι παραπάνω παράγοντες είναι προκαθορισμένοι από τον τομέα του προβλήματος προς εφαρμογή και στη συνέχεια αναπτύσσονται τεχνικές εντοπισμού ακροτάτων τιμών που βασίζονται σε αυτές τις μεταβλητές. 2.5 Μοντέλα εντοπισμού ακροτάτων τιμών Στον τομέα αυτό της εξόρυξης δεδομένων έχει αναπτυχθεί ποικιλία μεθόδων εντοπισμού ακροτάτων τιμών, οι οποίες μπορούν να κατηγοριοποιηθούν με βάση το μοντέλο στο οποίο βασίζεται η λειτουργία τους. Τα μοντέλα είναι σχεδιασμένα και διαφοροποιούνται μεταξύ τους με βάση τους περιορισμούς που προαναφέρθηκαν, δηλαδή επηρεάζονται από τη φύση των δεδομένων εισόδου, την διαστασιμότητα και το πλήθος τους, την παρουσία μεταδεδομένων και λοιπά. Σημαντικό ρόλο στην λειτουργία ενός μοντέλου εντοπισμού κατέχει η ευκολία ερμηνείας των αποτελεσμάτων που παράγονται. Είναι εξαιρετικά σημαντικό για τον αναλυτή δεδομένων να γνωρίζει γιατί ένα αντικείμενο είναι ακρότατο αλλά και μέσω ποιας διαδικασίας το μοντέλο κατέληξε σε αυτό το συμπέρασμα. Έτσι, ο αναλυτής θα είναι σε θέση να αντιληφθεί εάν το αποτέλεσμα είναι εύστοχο, ή εάν θα χρειαστεί να εφαρμοστούν τεχνικές προεπεξεργασίας ή και μετασχηματισμού των δεδομένων προτού ενεργήσει το μοντέλο εντοπισμού πάνω στο σύνολο δεδομένων. Συνήθως, τα μοντέλα εντοπισμού ακροτάτων τιμών που λειτουργούν εξ ολοκλήρου με τις ιδιότητες των αντικειμένων χωρίς εφαρμογή μετασχηματισμών, παράγουν αποτελέσματα τα οποία είναι ευκολότερα στην κατανόηση, αλλά υπάρχουν 9

19 περιπτώσεις που ένας μετασχηματισμός μπορεί να είναι ευεργετικός, με την έννοια ότι μπορεί να οξύνει την διαφοροποίηση μεταξύ τυπικών και ανώμαλων παρατηρήσεων. Από την άλλη όμως, οι μετασχηματισμοί των δεδομένων εισόδου προσθέτουν ερμηνευτική πολυπλοκότητα η οποία δυσχεραίνει την ανάλυση, και γι αυτό είναι σημαντικό ο αναλυτής να εφαρμόσει το κατάλληλο μοντέλο σε κάθε σύνολο δεδομένων, έτσι ώστε να αποφύγει περιττούς μετασχηματισμούς Ανάλυση ακραίων τιμών Η πιο βασική μέθοδος εύρεσης ακροτάτων είναι η λεγόμενη ανάλυση ακραίων τιμών [28] (extreme value analysis) και εφαρμόζεται κυρίως σε μονοδιάστατα δεδομένα. Η μέθοδος αυτή είναι εμπνευσμένη από τη στατιστική και ουσιαστικά μελετά τις τιμές εκείνες οι οποίες είναι είτε πολύ μεγάλες είτε πολύ μικρές, δηλαδή ανήκουν οριακά στο σύνολο δεδομένων. Στην περίπτωση αυτή, μια παρατήρηση είναι οριακή εάν ανήκει στην «ουρά» της στατιστικής κατανομής που περιγράφει τα δεδομένα. Η περιοχή αυτή της στατιστικής είναι εκτενώς μελετημένη και έτσι ο καθορισμός της κατανομής αλλά και η εύρεση της ουράς θεωρούνται τετριμμένες διαδικασίες. Η ανάλυση ακραίων τιμών δεν πρέπει, όμως, να συγχέεται με την έννοια της εύρεσης ακροτάτων τιμών. Για παράδειγμα, στο σύνολο δεδομένων {1, 2, 2, 50, 99, 99, 100} θεωρείται πως οι τιμές 1 και 100 είναι ακραίες τιμές, ενώ οι τιμές 2, 50 και 99 είναι φυσιολογικές, δηλαδή δεν ανήκουν στην ουρά της κατανομής. Η τιμή 50 είναι η διάμεσος, άρα προφανώς δεν είναι ακραία τιμή. Αντιθέτως, από την οπτική γωνία της εύρεσης ακροτάτων τιμών, η τιμή 50 είναι αυτή η οποία εγείρει τις μεγαλύτερες υποψίες όσον αφορά τον χαρακτηρισμό της ως ακρότατη παρατήρηση, αφού οι υπόλοιπες σχηματίζουν δύο συστάδες των τριών παρατηρήσεων. Σύμφωνα με το παράδειγμα της προηγούμενης παραγράφου, καταλήγουμε στο συμπέρασμα πως η ανάλυση ακραίων τιμών πρέπει να εφαρμοστεί σε συνδυασμό με άλλες τεχνικές ώστε να λάβουμε ακριβέστερα αποτελέσματα. Συνήθως, χρησιμοποιείται ως το τελευταίο βήμα στην εύρεση ακροτάτων τιμών και όχι πάνω στα δεδομένα εισόδου, αλλά πάνω στα βαθμολογημένα αποτελέσματα. Σε πολλές περιπτώσεις όπου το αποτέλεσμα είναι ένα διάνυσμα τιμών οι οποίες αντιστοιχούν στις παρατηρήσεις, μπορεί να εφαρμοστεί φιλτράρισμα αυτών με το μοντέλο ανάλυσης ακραίων τιμών ώστε να εξαχθούν οι πιο έντονες ακρότατες παρατηρήσεις Στατιστικό μοντέλο Μια εναλλακτική προσέγγιση είναι η χρήση εργαλείων της στατιστικής. Στο μοντέλο αυτό, επιλέγεται και χρησιμοποιείται μια στατιστική κατανομή έτσι ώστε να περιγράφει όσο το δυνατόν καλύτερα τα δεδομένα. Συνεπώς, η μεγαλύτερη δυσκολία του μοντέλου αυτού είναι η σωστή επιλογή της κατανομής, τόσο όσον αφορά το υπολογιστικό κόστος εάν προσπαθήσουμε να βρούμε την «καλύτερη» κατανομή, όσο και όσον αφορά το βαθμό προσέγγισης των δεδομένων από αυτή. Βέβαια, το αποτέλεσμα μιας επιτυχημένης εφαρμογής ενός τέτοιου μοντέλου είναι 10

20 μεγάλης αξίας, καθώς αποδίδει βαθμολόγηση στα αντικείμενα του συνόλου δεδομένων σύμφωνα με το βαθμό συμμετοχής τους ή μη σε μια κατανομή. Δεν παρέχει, λοιπόν, έναν απόλυτο δυαδικό χαρακτηρισμό αλλά δίνει τη δυνατότητα στον αναλυτή να αποφασίσει το κατώφλι βαθμολογίας για τις ακρότατες τιμές. Επιπλέον, αξίζει να σημειωθεί πως στο παραπάνω βαθμολογημένο αποτέλεσμα μπορεί να εφαρμοστεί η τεχνική ανάλυσης ακραίων τιμών που προαναφέρθηκε. Ένα σοβαρό μειονέκτημα του στατιστικού μοντέλου είναι ότι προϋποθέτει την εύρεση της κατάλληλης κατανομής για το εκάστοτε σύνολο δεδομένων, ή και συνδυασμό πολλών κατανομών για πιο σύνθετα μοντέλα. Αυτό είναι συνήθως ευκολότερο σε τεχνητά δεδομένα, παρά σε δεδομένα του πραγματικού κόσμου, τα οποία περιέχουν και μεγάλο βαθμό θορύβου. Επίσης, εύκολα κανείς μπορεί να «πέσει στην παγίδα» του φαινόμενου της υπερπροσαρμογής (overfitting) κατά τη διάρκεια της προσέγγισης των δεδομένων από τις κατανομές, με αποτέλεσμα τα ανώμαλα δεδομένα να αποκρύπτονται εντός των φυσιολογικών παρατηρήσεων. Τέλος, όταν πρέπει να χρησιμοποιηθούν πολλές παράμετροι για την περιγραφή των δεδομένων, η ερμηνευτική πολυπλοκότητα αυξάνεται με συνέπεια να γίνεται δυσνόητο το αποτέλεσμα του μοντέλου Μοντέλα βασισμένα στην εγγύτητα Οι τεχνικές που βασίζονται στην αξιολόγηση της εγγύτητας των αντικειμένων του συνόλου δεδομένων στοχεύουν στο να εντοπίσουν τις παρατηρήσεις εκείνες οι οποίες είναι περισσότερο απομονωμένες. Συγκεκριμένα, υπάρχουν τρείς βασικές μέθοδοι για να επιτευχθεί αυτό. Η τεχνική της συσταδοποίησης (clustering), η χρήση της έννοιας της πυκνότητας και της έννοιας των πλησιέστερων γειτόνων. Οι τεχνικές της συσταδοποίησης και της πυκνότητας είναι παρόμοιες στη λειτουργία, αλλά διαφοροποιούνται στο γεγονός ότι η πρώτη ενεργεί πάνω στα δεδομένα ως σημεία ενώ η δεύτερη χρησιμοποιεί την έννοια του χώρου μεταξύ αυτών. Όταν χρησιμοποιείται η συσταδοποίηση για τον εντοπισμό ακροτάτων τιμών, το πρώτο βήμα είναι να χρησιμοποιηθεί ένας αλγόριθμος συσταδοποίησης για την εύρεση των στενά συνδεδεμένων περιοχών στα δεδομένα, δηλαδή των συστάδων. Στη συνέχεια εφαρμόζεται μια κατάλληλη μετρική η οποία υπολογίζει τον βαθμό συμμετοχής των αντικειμένων στις σχηματισμένες συστάδες. Για παράδειγμα, έστω ότι χρησιμοποιήθηκε ο αλγόριθμος k-means [26] για τον σχηματισμό δύο σφαιρικών συστάδων σε τεχνητά δεδομένα με μικρό ποσοστό ανώμαλων παρατηρήσεων. Μια κατάλληλη μετρική για την διαδικασία της βαθμολόγησης θα ήταν η χρήση της απόστασης ενός σημείου από το κέντρο της κοντινότερης σε αυτό συστάδα. Βέβαια, ένα μειονέκτημα της μεθόδου αυτής είναι ότι πολλοί αλγόριθμοι συσταδοποίησης έχουν τη δυνατότητα να εντοπίσουν συστάδες συγκεκριμένου σχήματος ή προκαθορισμένο αριθμό συστάδων και επίσης εξαρτώνται σε μεγάλο βαθμό από την επιλογή της μετρικής απόστασης. Για παράδειγμα, ο αλγόριθμος K-means είναι σε θέση να εντοπίζει K σε αριθμό σφαιρικές συστάδες, χρησιμοποιώντας μια προκαθορισμένη μετρική απόστασης που επηρεάζει σημαντικά το αποτέλεσμα. 11

21 Στην περίπτωση των μεθόδων που βασίζονται στην πυκνότητα των δεδομένων, υπολογίζεται μια βαθμολογία για κάθε αντικείμενο σύμφωνα με την πυκνότητά του σε σχέση με τα γειτονικά. Έτσι λοιπόν, για να έχει νόημα η παραπάνω τεχνική βαθμολόγησης, η πυκνότητα ενός φυσιολογικού αντικειμένου είναι παρόμοια με αυτή των γειτονικών του, ενώ η πυκνότητα ενός ανώμαλου αντικειμένου διαφέρει αρκετά από αυτή των γειτονικών του. Ένα σημαντικό πλεονέκτημα αυτής της τεχνικής είναι πως μπορεί να εντοπίσει ακρότατες τιμές σε δεδομένα με ποικιλία σχημάτων και πυκνοτήτων. Τέλος, επειδή η έννοια της πυκνότητας είναι διαισθητικά ευνόητη αλλά και επειδή υπάρχει βαθμολόγηση των δεδομένων εξόδου, η ερμηνεία των αποτελεσμάτων είναι μια εύκολη διαδικασία. Στις μεθόδους πλησιέστερων γειτόνων [14], υπολογίζεται ο αριθμός των γειτόνων κάθε αντικειμένου εντός μιας απόστασης R από αυτό. Εάν εντοπιστούν τουλάχιστον k γείτονες στην παρατήρηση υπό εξέταση, τότε θεωρείται φυσιολογική. Στην αντίθετη περίπτωση, χαρακτηρίζεται ως ακρότατη τιμή. Επιλέγοντας μια σχετικά μικρή τιμή του k > 1, μικρές ομάδες κοντινών παρατηρήσεων οι οποίες όμως έχουν μεγάλη απόσταση από τα υπόλοιπα δεδομένα θα είναι σε θέση να εντοπιστούν και να χαρακτηριστούν ακρότατες. Βέβαια, η μέθοδος αυτή μπορεί να εκτοξεύσει το υπολογιστικό κόστος, καθώς πρέπει να υπολογιστεί μεγάλος αριθμός αποστάσεων για κάθε αντικείμενο στο σύνολο δεδομένων. Τέλος, είναι προφανές πως στις μεθόδους που βασίζονται στην απόσταση, καθοριστικό ρόλο παίζει η επιλογή της κατάλληλης μετρικής απόστασης και ως εκ τούτου πρέπει να γίνει σωστή προεπιλογή. 12

22 ΚΕΦΑΛΑΙΟ 3 Εντοπισμός Ακροτάτων σε Ροές Δεδομένων 13

23 3.1 Διαφορές και προκλήσεις Σε πληθώρα σύγχρονων εφαρμογών όπως για παράδειγμα στις τηλεπικοινωνίες, στον εντοπισμός απατών, στα δίκτυα αισθητήρων και γενικά σε πολλά πληροφοριακά συστήματα, το σύνολο δεδομένων δεν είναι στατικό αλλά συνεχώς προστίθενται νέα αντικείμενα σε αυτό. Στο πλαίσιο αυτό, ο αναλυτής καλείται να εφαρμόσει τεχνικές εξόρυξης και να εξάγει από την ροή δεδομένων τις σημαντικότερες παρατηρήσεις συμπεριλαμβανομένων και των ανώμαλων υπό την πίεση υπολογιστικών, χρονικών και άλλων περιορισμών. Μια ροή δεδομένων είναι μια συνεχής, απεριόριστη εισροή παρατηρήσεων όπου στην τυπική περίπτωση, τα νεότερα δεδομένα είναι και τα σημαντικότερα, καθώς υφίσταται η έννοια της παλαίωσης με την πάροδο του χρόνου. Αυτό συμβαίνει επειδή τα χαρακτηριστικά των δεδομένων μπορούν να αλλάξουν δραστικά και με μη προβλέψιμο τρόπο, αλλάζοντας δηλαδή την τυπική, φυσιολογική συμπεριφορά. Συνεπώς, ένα αντικείμενο το οποίο ίσως θεωρήθηκε ανώμαλο, στη συνέχεια να ενταχθεί στο σύνολο των φυσιολογικών παρατηρήσεων λόγω ραγδαίων εξελίξεων στη ροή δεδομένων. Τέλος, επειδή η ο όγκος τον δεδομένων είναι απεριόριστος, η εξόρυξη σε ροές δεδομένων εκτελείται πάνω σε ένα υποσύνολο της ροής, το οποίο καλείται μετακινούμενο παράθυρο (sliding window) και, προφανώς, περιέχει ένα μικρό αλλά πρόσφατο ποσοστό παρατηρήσεων του συνόλου. Οι εφαρμογές εξόρυξης σε ροές κάνουν εντονότερη την παρουσία της περιορισμένης μνήμης σε αντίθεση με το απεριόριστο μέγεθος της ροής. Επίσης, η διαδικασία εντοπισμού ακροτάτων σε ροές υπόκειται και σε χρονικούς περιορισμούς, καθώς οι περισσότερες εφαρμογές απαιτούν επεξηγηματικά αποτελέσματα σε πραγματικό χρόνο. Παράλληλα, εφ όσον είναι αδύνατο να υφίσταται αρκετά μεγάλη προσωρινή μνήμη έτσι ώστε να αποθηκευτεί ολόκληρη η ροή, τα δεδομένα αναπόφευκτα ανανεώνονται συνεχώς και οι παρατηρήσεις κάποια στιγμή εξασθενούν και διαγράφονται. Τέλος, ο χαρακτηρισμός ως ακρότατης τιμής ή μη κάθε μεμονωμένης παρατήρησης πρέπει να είναι υψηλής αποδοτικότητας προς αποφυγή υπολογιστικής συμφόρησης (bottleneck). Οι μέθοδοι εντοπισμού ακροτάτων σε ροές δεδομένων είναι παρόμοιες με εκείνες που εφαρμόζονται σε στατικά δεδομένα, με την έννοια ότι βασίζονται σε κοινά πρότυπα λειτουργίας αλλά έχουν την εξής διαφοροποίηση. Όταν μια μέθοδος εφαρμόζεται σε στατικά δεδομένα, γίνεται επεξεργασία ολόκληρου του συνόλου δεδομένων και εξάγεται το αποτέλεσμα του εντοπισμού. Το προηγούμενο αποτέλεσμα δεν μεταβάλλεται, αφού τα δεδομένα παραμένουν στατικά. Σε περίπτωση όμως που γίνει έστω και μια μικρή αλλαγή στα δεδομένα, η διαδικασία θα πρέπει να επαναληφθεί εξ αρχής, γεγονός που εκτοξεύει το υπολογιστικό κόστος. Αντιθέτως, όταν μια μέθοδος εφαρμόζεται σε ροή δεδομένων, ο αλγόριθμος λειτουργεί σε τοπικό επίπεδο με την έννοια ότι όταν ένα νέο αντικείμενο εισάγεται στο σύνολο δεδομένων, δεν θα γίνει ολική επεξεργασία αλλά μόνο τοπική και συγκεκριμένα στην τοποθεσία όπου συνέβη η αλλαγή. Η λύση αυτή όμως δεν αποτελεί πανάκεια, καθώς παραμένει υπολογιστικά ακριβή και συνήθως απαιτεί 14

24 προεπεξεργασμένη πληροφορία για να είναι αποτελεσματική, όπως για παράδειγμα καταλόγους (indices). 3.2 Η προσέγγιση Anytime Λόγω των απαιτήσεων σε ταχύτητα και αποδοτικότητα των σημερινών εφαρμογών, η επεξεργασία των ροών γίνεται με έναν σειριακό τρόπο τη στιγμή που τα δεδομένα φτάνουν στο σύστημα. Πολλές τεχνικές, όμως, υποθέτουν πως οι ροές είναι συνεχείς και τα διαστήματα μεταξύ των εισερχόμενων παρατηρήσεων σταθερά, γεγονός που είναι αφύσικο και προφανώς δεν ισχύει. Για παράδειγμα, τα δίκτυα αισθητήρων αποστέλλουν πληροφορία στον εξυπηρετητή μόνο όταν αντιληφθούν μια αλλαγή στις παρατηρήσεις, τόσο για εξοικονόμηση ενέργειας όσο και για αποφυγή αποστολής πλεονάζουσας πληροφορίας. Η εφαρμογή αυτή, λοιπόν, έχει ως αποτέλεσμα μια απρόβλεπτη ροή δεδομένων χωρίς προκαθορισμένα χαρακτηριστικά άφιξης νέων παρατηρήσεων. Ο στόχος ενός Anytime [6] αλγορίθμου εύρεσης ακροτάτων είναι να κάνει την καλύτερη δυνατή χρήση του διαθέσιμου χρόνου μεταξύ των παρατηρήσεων της ροής δεδομένων. Αυτό σημαίνει πως όταν η ροή δεδομένων έχει μεγάλη ταχύτητα εισροής νέων παρατηρήσεων, η εύρεση των ακροτάτων πρέπει να γίνει σε ανάλογα μικρό χρονικό διάστημα. Αντιθέτως, όταν η ροή είναι αργή, ο αλγόριθμος πρέπει να είναι σε θέση να εκμεταλλευτεί όλο τον επιπλέον διαθέσιμο χρόνο για την εξαγωγή ευστοχότερων συμπερασμάτων. Επιπλέον, ένα βασικό χαρακτηριστικό της τεχνικής αυτής είναι πως ένας Anytime αλγόριθμος μπορεί να επιστρέψει αποτέλεσμα οποιαδήποτε στιγμή κι αν διακοπεί. Η παραπάνω περιγραφή συνοψίζεται στον εξής ορισμό: «Δοθείσας μιας ροής δεδομένων με αντικείμενα oi τα οποία φτάνουν σε άγνωστα μεταξύ τους χρονικά διαστήματα, το πρόβλημα της Anytime εύρεσης ανώμαλων παρατηρήσεων είναι ο υπολογισμός μιας βαθμολογίας s(oi) εντός του χρονικού διαστήματος ti μεταξύ της άφιξης του oi και του επόμενου αντικειμένου οi+1. Όσο μεγαλύτερο είναι το χρονικό διάστημα ti, τόσο ευστοχότερη πρέπει να είναι η βαθμολόγηση s(o i ) του αντικειμένου o i.» Η βαθμολογία s(oi) του παραπάνω ορισμού αναφέρεται στο βαθμό ανωμαλίας του αντικειμένου oi. Πρέπει να σημειωθεί πως ο τρόπος βαθμολόγησης είναι ένα δύσκολο και μη τετριμμένο ζήτημα. Σε συνθετικά πειράματα όπου υπάρχουν μεταδεδομένα, εύκολα μπορεί να ορισθεί ένας τρόπος βαθμολόγησης και να επαληθευτεί το αποτέλεσμα με τη χρήση των ετικετών αληθείας (ground truth). Αντιθέτως, σε πραγματικές εφαρμογές απαιτείται η βοήθεια ενός ειδικού στον τομέα του προβλήματος ώστε να καθορίσει την έννοια του ακρότατου και της κλίμακας βαθμολόγησης. 15

25 3.3 Ο αλγόριθμος AnyOut Στο πλαίσιο της διατριβής αυτής μελετήθηκε εκτενώς ο αλγόριθμος εξόρυξης ανώμαλων παρατηρήσεων AnyOut [7] και ενσωματώθηκε στο εργαλείο MOA (Massive Online Analysis) [10] το οποίο θα μελετηθεί σε επόμενο κεφάλαιο Περιγραφή Η τεχνική εντοπισμού ακροτάτων τιμών AnyOut βασίζεται στη μέθοδο της συσταδοποίησης. Όπως προαναφέρθηκε, βασική προϋπόθεση ενός Anytime αλγορίθμου είναι η άμεση παροχή μιας βαθμολογίας αλλά και η βελτίωση του αποτελέσματος χρησιμοποιώντας τον διαθέσιμο χρόνο. Για να επιτευχθεί αυτό, ο AnyOut χρησιμοποιεί μια ιεραρχική δομή συστάδων, οργανωμένες σε μια δενδρική αναπαράσταση. Όταν ένα αντικείμενο της ροής είναι υπό επεξεργασία, διασχίζεται το δένδρο από τη ρίζα προς τα φύλλα έως ότου η διαδικασία διακοπεί από ένα νέο εισερχόμενο αντικείμενο. Όσο πιο κοντά στα φύλλα σταματήσει η διαδικασία, τόσο πιο εύστοχη θα είναι η βαθμολόγηση, αφού κοντά στην κορυφή η πληροφορία είναι αφαιρετική ενώ βαθύτερα γίνεται όλο και πιο λεπτομερής. Έτσι, η ιεραρχική δομή του δένδρου συστάδων, το οποίο ονομάζεται ClusTree [25], παρέχει μια φυσική οργάνωση των συστάδων, η οποία μπορεί να διασχισθεί σταδιακά ώστε να λάβουμε εγκυρότερη βαθμολόγηση για την παρατήρηση υπό εξέταση Λειτουργία Εφόσον η λειτουργία του AnyOut βασίζεται στο ClusTree, προηγείται μια συνοπτική περιγραφή του δεύτερου. Το ClusTree αποτελεί μια επέκταση της οικογένειας καταλόγων R-tree [18] και το κύριο γνώρισμα της δομής είναι ότι αναπαριστά τις συστάδες χρησιμοποιώντας τις λεγόμενες ιδιότητες συστάδας (cluster features ή CF). Οι ιδιότητες συστάδας με αντικείμενα Xi αποτελούνται από μια πλειάδα CF = (N, LS, SS), όπου: N είναι ο αριθμός των αντικειμένων της συστάδας. LS = N i=1 X i. SS = N 2 X i i=1. Η πληροφορία εντός της πλειάδας CF είναι επαρκής ώστε να υπολογιστούν στατιστικές ιδιότητες της συστάδας την οποία περιγράφει, όπως ο μέσος ή η διακύμανση των αντικειμένων εντός της συστάδας. Επιπλέον, οι πλειάδες CF μπορούν να ενημερωθούν εύκολα, χωρίς να χρειαστεί να υπολογιστούν εξ αρχής οι τιμές N, LS και SS. Τέλος, η δομή ClusTree παρέχει και προσωρινό αποθηκευτικό χώρο (buffer) σε κάθε εγγραφή, ο οποίος χρησιμοποιείται για αποδοτικότερη εισαγωγή των εισερχόμενων σημείων στις συστάδες. Στο Σχήμα 3.1 παρουσιάζεται οπτικά η δομή ClusTree. Στο συγκεκριμένο παράδειγμα ένας κόμβος του δένδρου αποτελείται από δύο εγγραφές, οι οποίες περιέχουν μια πλειάδα CF η κάθε μια. Οι πλειάδες CF αναπαριστώνται ως μπλε καμπύλες, 16

26 αντιπροσωπευτικές της κατανομής των δεδομένων εντός της συστάδας. Οι εγγραφές είναι επίσης συνδεδεμένες μέσω δεικτών με κόμβους-απογόνους και εξοπλισμένες με ένα προσωρινό αποθηκευτικό χώρο για αποδοτικότερη εισαγωγή αντικειμένων στη συστάδα της εγγραφής (στο Σχήμα 3.1, η κόκκινη κατανομή). Οι δείκτες είναι αυτοί που χρησιμοποιούνται κατά τη διάσχιση του δένδρου με στόχο την διείσδυση σε κατώτερο επίπεδο και τον υπολογισμό ακριβέστερης βαθμολογίας. Σχήμα 3.1 Η δομή ClusTree [7]. Είναι εμφανές πως η δομή ClusTree είναι ιδανική για εύρεση ακροτάτων τιμών σε Anytime τεχνικές οι οποίες βασίζονται στη συσταδοποίηση, λόγω της ιεραρχικής φύσεως και των περιεχομένων του δένδρου. Η βασική ιδέα είναι η σύγκριση των αντικειμένων με τις ιδιότητες των συστάδων σε κάθε επίπεδο του δένδρου ξεκινώντας από πάνω προς τα κάτω εφόσον το επιτρέπει ο χρόνος. Συγκεκριμένα, στον αλγόριθμο AnyOut η βαθμολόγηση βασίζεται στον βαθμό ομοιότητας του αντικειμένου υπό επεξεργασία με την κοντινότερη συστάδα στο επίπεδο διακοπής. Η διακοπή συμβαίνει όταν το επόμενο αντικείμενο καταφτάσει στη ροή, ύστερα από απροσδιόριστο χρονικό διάστημα Βαθμολόγηση ανωμαλίας Το ερώτημα που προκύπτει από την παραπάνω διαδικασία είναι με ποιόν τρόπο γίνεται η ουσιαστική βαθμολόγηση. Έχουν προταθεί δύο τρόποι βαθμολόγησης, οι οποίοι εκμεταλλεύονται την στατιστική πληροφορία που είναι αποθηκευμένη στις πλειάδες CF των εγγραφών. Ο ένας βασίζεται στην έννοια της απόστασης (Mean outlier score) και ο δεύτερος στην έννοια της πυκνότητας (Density outlier score). Ο πρώτος τρόπος βαθμολόγησης υπολογίζει το βαθμό ανωμαλίας ενός αντικειμένου σύμφωνα με το μέγεθος της απόκλισής του από τον μέσο της κοντινότερης πλειάδας CF. Η κοντινότερη πλειάδα CF βρίσκεται εντός της εγγραφής στην οποία θα πραγματοποιηθεί η διακοπή από το επόμενο εισερχόμενο αντικείμενο. Ακολουθεί ο επίσημος ορισμός της βαθμολόγησης απόστασης. 17

27 «Για κάθε αντικείμενο oi της ροής, η βαθμολόγηση απόστασης sm(oi) ορίζεται ως sm(oi) := dist(oi, μ(es)), όπου μ(es) ο μέσος της εγγραφής es του ClusTree, στην οποία εισάγεται το αντικείμενο oi όταν το επόμενο αντικείμενο oi+1 φτάνει στην ροή.» Η βαθμολογία πυκνότητας βασίζεται στο γεγονός πως μια πλειάδα CF μπορεί να ερμηνευθεί ως παράμετροι μιας Γκαουσιανής κατανομής των αντικειμένων στο υποδένδρο, δηλαδή από την εγγραφής διακοπής ως τα φύλλα. Η Γκαουσιανή συνάρτηση πυκνότητα πιθανότητας ενός αντικειμένου oi στην εγγραφή es με μέσο μ es και πίνακα συνδιακύμανσης Σ es δίνεται από τον τύπο 1 g(o i, e s ) = (2π) d 2 det( Σ es ) 1 2 e ( 1 2 (o i μ e s )T 1 es (o i μ e s ) ) 1 όπου det(σ es ) είναι η ορίζουσα και Σ es ο αντίστροφος πίνακας του Σ es. Ακολουθεί ο επίσημος ορισμός της βαθμολόγησης πυκνότητας. «Για κάθε αντικείμενο oi της ροής, η βαθμολόγηση πυκνότητας sd(oi) ορίζεται ως sd(oi) := 1 - g(oi, es), όπου es η εγγραφής του ClusTree, στην οποία εισάγεται το αντικείμενο oi όταν το επόμενο αντικείμενο oi+1 φτάνει στην ροή.» Και οι δύο τρόποι βαθμολόγησης αντικατοπτρίζουν τον βαθμό ανωμαλίας του αντικειμένου την χρονική στιγμή που συνέβη η διακοπή. Και στις δύο περιπτώσεις η βαθμολόγηση γίνεται χρησιμοποιώντας την πλειάδα CF που βρίσκεται εντός της εκάστοτε τελευταίας εγγραφής και αντιστοιχεί στην κοντινότερη συστάδα. Η διαφορά τους έγκειται στον τρόπο χρήσης της πλειάδας CF. Στην βαθμολόγηση απόστασης, λαμβάνεται υπόψη μόνο το κέντρο βάρους της συστάδας, ενώ στη βαθμολόγηση πυκνότητας υπονοείται Γκαουσιανή κατανομή, οι παράμετροι της οποίας επηρεάζουν το αποτέλεσμα Βαθμολόγηση βεβαιότητας Εκτός από την έννοια του βαθμού ανωμαλίας, ο αλγόριθμος AnyOut χρησιμοποιεί την έννοια του βαθμού βεβαιότητας όσον αφορά το παραγόμενο αποτέλεσμα. Όλα τα αντικείμενα που βρίσκονται υπό επεξεργασία αρχικά έχουν ένα χαμηλό βαθμό βεβαιότητας, καθώς είναι ακόμα ρηχά στο δένδρο, δηλαδή κοντά στη ρίζα. Όσο η ανάλυση εμβαθύνει, αυξάνεται και η βεβαιότητα του αλγορίθμου για τον υπολογισμένο βαθμό ανωμαλίας. Η έννοια της βεβαιότητας μπορεί να χρησιμοποιηθεί και για παραλληλισμό της επεξεργασίας των εισερχόμενων αντικειμένων. Όταν ένα αντικείμενο θεωρηθεί «εύκολο» και αποκτήσει γρήγορα υψηλό βαθμό βεβαιότητας, ο αλγόριθμος θα έχει διαθέσιμο ελεύθερο χρόνο ώστε να βελτιώσει «δυσκολότερες περιπτώσεις» αντικειμένων. Οι δυσκολότερες περιπτώσεις θα μπορούσαν να είναι αποθηκευμένες σε μια ουρά προτεραιότητας η οποία θα περιέχει παλαιότερα αντικείμενα τα οποία 18

28 δεν κατάφεραν να αναλυθούν αρκετά ώστε να ξεπεράσουν το κατώφλι βεβαιότητας. Η τεχνική αυτή είναι ιδιαίτερα χρήσιμη σε ροές δεδομένων σταθερού διαστήματος μεταξύ αντικειμένων, καθώς οι εύκολες περιπτώσεις είναι συνήθως περισσότερες από τις δύσκολες και έτσι θα υπάρχει μεγάλο ποσοστό ελεύθερου χρόνου προς εκμετάλλευση. Στον αλγόριθμο AnyOut ο βαθμός βεβαιότητας ενός αντικειμένου o υπολογίζεται μέσω του τύπου conf(o) = e s(o), όπου s(o) είναι ο βαθμός ανωμαλίας του. Διαισθητικά, ο τύπος αυτός δίνει προτεραιότητα στην βαθύτερη επεξεργασία των εκάστοτε υποτιθέμενων ακροτάτων παρατηρήσεων, δηλαδή αυτών με την μεγαλύτερη βαθμολογία ανωμαλίας την δοθείσα χρονική στιγμή. 19

29 ΚΕΦΑΛΑΙΟ 4 Massive Online Analysis (MOA) 20

30 4.1 Εισαγωγή Διανύουμε μια εποχή η οποία χαρακτηρίζεται από αφθονία και ατέρμονη παραγωγή δεδομένων. Κρίνεται λοιπόν απαραίτητο να σχεδιάζονται νέοι ή να βελτιώνονται υπάρχοντες αλγόριθμοι εξόρυξης δεδομένων οι οποίοι να είναι εφαρμόσιμοι σε ροές, ώστε να ανταποκρίνονται στις συνεχώς αυξανόμενες απαιτήσεις των σημερινών πληροφοριακών συστημάτων. Οι σημαντικότερες από τις απαιτήσεις αυτές είναι ότι ένας μοντέρνος αλγόριθμος πρέπει: Να επεξεργάζεται την ροή δεδομένων χρησιμοποιώντας online τεχνική, δηλαδή καθώς τα αντικείμενα εισέρχονται στη ροή να γίνεται άμεσα η επεξεργασία τους και συνήθως χωρίς επανάληψη της διαδικασίας. Να χρησιμοποιεί περιορισμένους πόρους συστήματος και να εκμεταλλεύεται ιδιαίτερα αποδοτικά την μικρού μεγέθους προσωρινή μνήμη. Να είναι σε θέση να παράγει αποτελέσματα με περιορισμένο διαθέσιμο χρόνο επεξεργασίας. Να παρέχει αποτελέσματα στον αναλυτή ανά πάσα στιγμή (Anytime), όποτε αυτός τα ζητήσει. Επειδή η έρευνα στον τομέα της εξόρυξης δεδομένων παρουσιάζει μεγάλο ενδιαφέρον και ραγδαία άνθηση, σχεδιάζονται και υλοποιούνται συνεχώς νέες τεχνικές εξόρυξης. Μια κρίσιμη πρόκληση είναι πως κάθε νέα τεχνική πρέπει να συγκριθεί πειραματικά με υπάρχοντες αλγορίθμους, γεγονός που στις περισσότερες περιπτώσεις παραμελείται από τους συγγραφείς/δημιουργούς. Σε σημαντικό μερίδιο δημοσιεύσεων οι νέες προτάσεις συγκρίνονται, αν όχι με κανένα άλλο αλγόριθμο, με ένα μικρό υποσύνολο των εκάστοτε καλύτερων (state-ofthe-art) αλγορίθμων, κάνοντας την αντικειμενική αξιολόγηση της νέας τεχνικής δύσκολη. Επιπλέον, ο πειραματισμός γίνεται πάνω σε περιορισμένη ποικιλία συνόλων δεδομένων και η εξαγωγή συμπερασμάτων δεν είναι ακριβής, ιδιαίτερα όσον αφορά αλγορίθμους οι οποίοι λειτουργούν πάνω σε μια άπειρη ροή δεδομένων. Στη περίπτωση των παραδοσιακών σεναρίων εξόρυξης σε στατικά δεδομένα έχουν αναπτυχθεί πακέτα λογισμικού όπως το WEKA [19], το οποίο υποστηρίζει την προσθήκη νέων αλγορίθμων, μεθόδων αξιολόγησης και συνόλων δεδομένων με σκοπό την σύγκριση των συστατικών του. Επειδή η εξόρυξη σε ροές δεν έχει μελετηθεί στην ίδια έκταση με την κλασσική εξόρυξη δεδομένων, οι τεχνικές αξιολόγησης των αλγορίθμων δεν βασίζονται σε εξ ίσου γερά και εμπεριστατωμένα θεμέλια. Για το λόγο αυτό, υλοποιήθηκε το πακέτο λογισμικού Massive Online Analysis (MOA) [10], ένα εργαλείο επικεντρωμένο στην επεξεργασία ροών δεδομένων και βασισμένο στο WEKA. Το MOA περιέχει state-of-the-art αλγορίθμους και μετρικές αξιολόγησης για τις κυριότερες εφαρμογές ροών, όπως για παράδειγμα κατηγοριοποίηση, παλινδρόμηση, συσταδοποίηση και ανακάλυψη ακροτάτων τιμών. Επίσης, παρέχει τη δυνατότητα της online, ταυτόχρονης αξιολόγησης και σύγκρισης 21

31 τεχνικών με ποικιλία ροών δεδομένων και υπό περιορισμούς μνήμης. Συνοπτικά, το MOA προσφέρει τις παρακάτω δυνατότητες: Ανάλυση και σύγκριση αλγορίθμων εξόρυξης σε ροές, χρησιμοποιώντας ποικιλία ρυθμίσεων με στόχο τον έλεγχο μεγάλου υποσυνόλου πιθανών σεναρίων μιας πραγματικής εφαρμογής. Εύκολη επεκτασιμότητα των δυνατοτήτων του MOA, καθώς είναι λογισμικό ανοιχτού κώδικα και επίσης παρέχει ισχυρό API το οποίο προσφέρει αφαιρετική καθοδήγηση στον προγραμματιστή. Σύνθεση, χρήση και αποθήκευση ρυθμίσεων μιας πειραματικής εκτέλεση, με σκοπό την σύγκριση αλλά και επαναχρησιμοποίηση για αναπαραγωγή ή τελειοποίηση (fine-tuning) ενός πειράματος. Στο Σχήμα 4.1 συνοψίζεται η αρχιτεκτονική και τα κύρια σημεία ενδιαφέροντος του MOA. Απεικονίζεται η πορεία εκτέλεσης ενός πειράματος καθώς και τα σημεία τα οποία είναι επεκτάσιμα από τον προγραμματιστή. Η πορεία εκτέλεσης ξεκινάει με την επιλογή μιας ροής δεδομένων ή την επιλογή μιας γεννήτριας ροής. Στη συνέχεια, ο χρήστης/αναλυτής επιλέγει τον αλγόριθμο προς εκτέλεση και τέλος επιλέγει τις μεθόδους αξιολόγησης για την ανάλυση του πειράματος. Η επιλογή της ροής, του αλγορίθμου και των μεθόδων αξιολόγησης διαφέρει μεταξύ των διαφορετικών δυνατοτήτων του MOA, δηλαδή για παράδειγμα μεταξύ των λειτουργιών ανακάλυψης ακροτάτων τιμών και συσταδοποίησης. Αξίζει να σημειωθεί πως στα πλαίσια της διατριβής αυτής το MOA επεκτάθηκε στα δύο τελευταία σημεία (Αλγόριθμος Εξόρυξης και Μέθοδοι Αξιολόγησης) και συγκεκριμένα προστέθηκε ο αλγόριθμος AnyOut στη συλλογή αλγορίθμων εντοπισμού ακροτάτων τιμών καθώς και μέθοδοι αξιολόγησης για την ίδια λειτουργία. Σχήμα 4.1 Αρχιτεκτονική, σημεία επέκτασης και πορεία εκτέλεσης στο MOA [10]. 4.2 Γραφικό περιβάλλον Το εργαλείο MOA παρέχει τέσσερις βασικές συλλογές αλγορίθμων, οι οποίες ομαδοποιούνται με όμοιο τρόπο και στο παράθυρο της εφαρμογής με τη μορφή καρτελών. Στο Σχήμα 4.2 παρουσιάζεται το κύριο παράθυρο της εφαρμογής κατά την εκκίνηση σε λειτουργικό σύστημα Windows. Σε κάθε μια από τις καρτέλες το σκεπτικό 22

32 χρήσης της γραφικής διεπαφής του MOA είναι παρόμοιο. Η αντιστοίχηση των καρτελών σε Ελληνική ορολογία είναι η εξής: Classification Κατηγοριοποίηση Regression Παλινδρόμηση Clustering Συσταδοποίηση Outliers Ανάλυση Ακροτάτων Σχήμα 4.2 Γραφικό περιβάλλον του MOA. Κοινό στοιχείο το οποίο είναι παρόν σε όλες τις καρτέλες είναι το ενδιάμεσο μέρος της οθόνης στο οποίο γίνεται η καταγραφή συμβάντων (logging) και η εκτύπωση αποτελεσμάτων. Στο κάτω μέρος του παραθύρου βρίσκεται η περιοχή αξιολόγησης, η οποία είναι επίσης κοινή σε όλες τις καρτέλες. Στην περιοχή αυτή βρίσκεται η συλλογή μετρικών που αξιολογεί τον αλγόριθμο υπό εκτέλεση και το παραγόμενο αποτέλεσμά του. Οι τιμές των μετρικών ανανεώνονται τακτικά και έτσι είναι διαθέσιμες στον αναλυτή σε πραγματικό χρόνο. Στα αριστερά καταγράφονται οι μετρήσεις, ενώ στα δεξιά απεικονίζεται η πορεία των τιμών της επιλεγμένης μετρικής 23

33 σε βάθος χρόνου. Συγκεκριμένα, ο οριζόντιος άξονας αναφέρεται σε στιγμιότυπα του μετακινούμενου παραθύρου. Στο πάνω μέρος του Σχήματος 4.2 βρίσκεται το πλήκτρο ρύθμισης (Configure) το οποίο χρησιμοποιείται για τον καθορισμό της εργασίας που θα εκτελεστεί. Εάν επιλέξουμε να ρυθμίσουμε την διαδικασία, εμφανίζεται το παράθυρο ρυθμίσεων. Το παράθυρο αυτό το συναντάμε σε όλες τις εργασίες που απαιτείται παραμετροποίηση και είναι παρόμοιο σε κάθε καρτέλα του MOA. Σχήμα 4.3 Παράθυρο ρυθμίσεων στο MOA. Στο Σχήμα 4.3 απεικονίζεται ένα στιγμιότυπο του παραθύρου ρυθμίσεων (Configure task) από την καρτέλα κατηγοριοποίησης. Στη περίπτωση αυτή ο χρήστης έχει τη δυνατότητα να καθορίσει το είδος της εργασίας την οποία επιθυμεί να εκτελέσει από την αναπτυσσόμενη λίστα στο πάνω μέρος του παραθύρου. Το MOA παρέχει επίσης μια συνοπτική περιγραφή της εργασίας στο πεδίο Purpose (σκοπός). Αφού επιλεγεί μια εργασία, εμφανίζεται παρακάτω η λίστα ρυθμίσεων που της αντιστοιχούν. Οι υπάρχουσες τιμές των πεδίων (defaults) είναι ενδεικτικές και προτείνονται για απλούς χρήστες, ενώ ένας πεπειραμένος ερευνητής έχει την δυνατότητα να παραμετροποιήσει λεπτομερώς το πείραμα και να εκμεταλλευτεί πλήρως την εργαλειοθήκη του MOA. Στις επόμενες ενότητες αναλύονται σε μεγαλύτερο βαθμό οι καρτέλες της συσταδοποίησης και της ανακάλυψης ακροτάτων, καθώς αποτελούν τα εστιακά σημεία της διατριβής αυτής. 4.3 Συσταδοποίηση στο MOA Μια βασική δυνατότητα του MOA είναι η υποστήριξη μεθόδων συσταδοποίησης σε ροές δεδομένων. Το εργαλείο παρέχει ποικιλία παραμετροποιήσιμων γεννητριών 24

34 δεδομένων οι οποίες παράγουν εξελισσόμενες ροές αλλά και ένα σύνολο state-ofthe-art αλγορίθμων συσταδοποίησης ροών προς πειραματισμό ή και σύγκριση. Επίσης, η υπάρχουσα συλλογή μετρικών επιτρέπει την αξιολόγηση των αλγορίθμων και των αποτελεσμάτων τους ενώ η καρτέλα οπτικοποίησης βοηθάει στην ευκολότερη ερμηνεία, ανάλυση και σύγκριση αυτών Αλγόριθμοι Το MOA είναι ένα εργαλείο επεκτάσιμο καθώς νέοι αλγόριθμοι συσταδοποίησης υλοποιούνται εύκολα, κληρονομώντας τα πεδία και τις μεθόδους της κλάσης AbstractClusterer. Ο προγραμματιστής αρκεί να υλοποιήσει την μέθοδο «void resetlearningimpl()» για την αρχικοποίηση και παραμετροποίηση του αλγορίθμου, την μέθοδο «void trainoninstanceimpl(instance)» για την επεξεργασία μιας εισερχόμενης παρατήρησης και την μέθοδο «Clustering getclusteringresult()» για την απόκτηση της εκάστοτε συσταδοποίησης της ροής ώστε να είναι διαθέσιμη για αξιολόγηση και οπτικοποίηση. Μερικοί από τους σημαντικότερους αλγορίθμους συσταδοποίησης ροών που συμπεριλαμβάνονται στην τελευταία έκδοση του MOA είναι οι παρακάτω: StreamKM++ [1]: Εξάγει με αποδοτικό τρόπο ένα μικρό δείγμα με βάρη από την ροή δεδομένων και λύνει το πρόβλημα της αρχικής επιλογής συστάδων πάνω σε αυτό χρησιμοποιώντας τον αλγόριθμο k-means++. CluStream [3]: Διατηρεί στατιστική πληροφορία για το σύνολο δεδομένων χρησιμοποιώντας μικρο-συστάδες (micro-clusters). Οι συστάδες αυτές είναι χρονικές επεκτάσεις των πλειάδων CF που μελετήθηκαν σε προηγούμενο κεφάλαιο. Αποθηκεύονται ως χρονικά στιγμιότυπα σε μια ιεραρχική πυραμιδοειδή δομή, η οποία επιτρέπει την κατασκευή στατιστικών περιλήψεων σε πολλαπλούς χρονικούς ορίζοντες. ClusTree [25]: Ένας αλγόριθμος που δεν απαιτεί παραμετροποίηση και επίσης προσαρμόζεται αυτόματα στην ταχύτητα της ροής δεδομένων. Έχει τη δυνατότητα να επεκταθεί ώστε να είναι σε θέση να εντοπίζει απότομες αλλαγές συμπεριφοράς (concept drift), πρωτοφανείς συμπεριφορές (novelty) αλλά και ανώμαλες παρατηρήσεις (τεχνική AnyOut). Χρησιμοποιεί μια ιεραρχική δενδρική δομή καταλόγου η οποία αποτελείται από πλειάδες CF και έτσι αυτόματα διατηρεί και ανανεώνει την εκάστοτε κατάσταση της ροής δεδομένων. Den-Stream [12]: Χρησιμοποιεί την έννοια των μικρο-συστάδων (core microclusters) για την περίληψη των πραγματικών συστάδων. Για την παραγωγή ορθών αποτελεσμάτων και την διάκριση μεταξύ συστάδων και ανώμαλων παρατηρήσεων, ο αλγόριθμος ορίζει δύο διακριτά είδη μικρο-συστάδων, τα core micro-clusters και τα outlier micro-clusters. CobWeb [16]: Αποτελεί μια από τις πρώτες επαυξητικές μεθόδους συσταδοποίησης και χρησιμοποιεί ένα δένδρο κατηγοριοποίησης για να το 25

35 επιτύχει. Κάθε κόμβος στο δένδρο αντιπροσωπεύει μια συστάδα της ροής η οποία ουσιαστικά αποτελείται από το στατιστικό μοντέλο που την περιγράφει. Το επαυξητικό στοιχείο του αλγορίθμου αναφέρεται στην σταδιακή προσαρμογή (learning) των κόμβων στα δεδομένα τα οποία περιγράφουν Γραφικό περιβάλλον Η καρτέλα της συσταδοποίησης διαφέρει από τις καρτέλες της κατηγοριοποίησης και της παλινδρόμησης οι οποίες είναι όμοιες (Σχήμα 4.2), όσον αφορά την ροή εργασίας και την γραφική διεπαφή. Επίσης, διαχωρίζεται σε δύο υπο-καρτέλες οι οποίες ασχολούνται με την παραμετροποίηση και την οπτικοποίηση αντίστοιχα. Όπως απεικονίζεται στο Σχήμα 4.4, η παραμετροποίηση στη περίπτωση της συσταδοποίησης παρέχει μεγαλύτερη ποικιλία επιλογών, αλλά απαιτεί και βαθύτερες γνώσεις από τη μεριά του χρήστη. Από το πλαίσιο Cluster Algorithm Setup ο χρήστης είναι σε θέση να καθορίσει την πηγή δεδομένων (γεννήτρια ή αρχείο) και να επιλέξει ένα ζεύγος αλγορίθμων προς σύγκριση. Το πλαίσιο Evaluation Measures παρέχει στο χρήστη μια λίστα μετρικών, από τις οποίες μπορεί να επιλέξει αυτές που θα εφαρμοστούν. Τέλος, στο κάτω μέρος βρίσκεται η κονσόλα καταγραφής συμβάντων. Σχήμα 4.4 Καρτέλα παραμετροποίησης συσταδοποίησης στο MOA (απόκομμα). Στο Σχήμα 4.4 απεικονίζεται η υπο-καρτέλα παραμετροποίησης (Setup) της συσταδοποίησης. Η δεύτερη υπο-καρτέλα (Σχήμα 4.5) ονομάζεται Visualization και περιέχει τα απαραίτητα γραφικά στοιχεία για την οπτικοποίηση της εκτέλεσης των 26

36 αλγορίθμων και των αποτελεσμάτων. Στο πάνω μέρος βρίσκονται οι επιλογές οπτικοποίησης από τις οποίες ελέγχουμε τι απεικονίζεται ή όχι, την ταχύτητα ανανέωσης, τα διαστήματα μεταξύ παύσεων και λοιπά. Το κεντρικό πλαίσιο της καρτέλας χωρίζεται σε δύο μέρη τα οποία απεικονίζουν το αποτέλεσμα της συσταδοποίησης ανά αλγόριθμο. Ο χρήστης μπορεί να μελετήσει λεπτομερέστερα μια συστάδα τοποθετώντας τον κέρσορα πάνω από το περίγραμμά της. Τέλος, στο κάτω μέρος βρίσκεται το πλαίσιο της αξιολόγησης το οποίο είναι όμοιο με αυτό της κατηγοριοποίησης που προαναφέρθηκε. Σχήμα 4.5 Καρτέλα οπτικοποίησης συσταδοποίησης στο MOA. 4.4 Εντοπισμός ακροτάτων στο MOA Παλαιότερα, το MOA υποστήριζε μόνο τις λειτουργίες της κατηγοριοποίησης και της συσταδοποίησης. Στη συνέχεια, καθώς παρουσιάστηκε ενδιαφέρον τόσο γενικά για το εργαλείο αλλά και για τις δυνατότητες που προσφέρει στην κοινότητα της εξόρυξης δεδομένων, εμφανίστηκε η επιθυμία να υποστηρίζει εύρεση ακροτάτων τιμών έτσι ώστε η σύγκριση αλγορίθμων του τομέα να είναι ευκολότερη και τυποποιήσιμη. Έτσι, από την έκδοση του MOA και ύστερα προστέθηκε η καρτέλα ανάλυσης ακροτάτων (Outliers) η οποία εξυπηρετεί ακριβώς αυτό τον σκοπό 27

37 και υλοποιήθηκε από το εργαστήριο delab (Data Engineering Lab) του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης [17] Αλγόριθμοι Στο πλαίσιο της συνεισφοράς αυτής υλοποιήθηκε το γραφικό περιβάλλον της καρτέλας εύρεσης ακροτάτων τιμών αλλά και τέσσερις state-of-the-art αλγόριθμοι εξόρυξης. Οι τεχνικές που ακολουθούν βασίζονται στη αξιολόγηση μέσω της απόστασης, το οποίο σημαίνει πως ένα αντικείμενο x είναι ακρότατη παρατήρηση εάν σε ακτίνα R από αυτό υπάρχουν λιγότερα από k γειτονικά αντικείμενα. Επίσης, η αξιολόγηση είναι μια συνεχής διαδικασία, με την έννοια ότι δεν γίνεται επεξεργασία ενός αντικειμένου μόνο την στιγμή της άφιξής του, αλλά έως ότου αυτό εγκαταλείψει το κυλιόμενο παράθυρο. STORM (Stream OutlieR Miner) [4]: Μια απλοϊκή λύση στο πρόβλημα της εξόρυξης ακροτάτων σε ροές δεδομένων με κριτήριο την απόσταση θα ήταν η διατήρηση ολόκληρου του συνόλου γειτόνων για κάθε αντικείμενο. Προφανώς, μια τέτοια προσέγγιση έχει απαγορευτικό υπολογιστικό κόστος και ογκώδεις χωρικές απαιτήσεις για μεγάλα παράθυρα της ροής. Ο αλγόριθμος STORM απαιτεί για κάθε αντικείμενο του παραθύρου το πολύ k προηγούμενους γείτονες και μόνο τον αριθμό των μελλοντικών γειτόνων ώστε να καταλήξει σε συμπέρασμα ανωμαλίας ή μη μιας παρατήρησης. Όσον αφορά την εισαγωγή νέων αντικειμένων της ροής, εκτελείται ένα χωρικό ερώτημα για την εύρεση και την καταγραφή των γειτόνων του σε ακτίνα R. Ταυτόχρονα, για κάθε γείτονα που βρίσκεται, προστίθεται μια μονάδα στο σύνολο των μελλοντικών γειτόνων τους για λόγους συνέπειας και λειτουργίας της τεχνικής. Ο χαρακτηρισμός ενός αντικειμένου ως ανώμαλη παρατήρηση ή μη πραγματοποιείται λαμβάνοντας υπ όψη τους γείτονες του αντικειμένου οι οποίοι δεν έχουν λήξει και η χρονική πολυπλοκότητα για κάθε αντικείμενο είναι O(logk), το οποίο σημαίνει πως για την επεξεργασία όλων των αντικειμένων απαιτείται O(nlogk) χρόνος. Στο MOA υλοποιήθηκε τόσο η ακριβής όσο και η προσεγγιστική εκδοχή του αλγορίθμου STORM. Abstract-C [33]: Ο αλγόριθμος αυτός μειώνει το προηγούμενο υπολογιστικό κόστος σε O(n) έχοντας συνεχώς αποθηκευμένο τον αριθμό των γειτόνων ενός αντικειμένου για όλο το εύρος του παραθύρου έως ότου το αντικείμενο αυτό λήξει. Βέβαια, η τεχνική αυτή αυξάνει τις χωρικές απαιτήσεις σε O(n w) όπου w το μέγεθος του παραθύρου, αφού διατηρεί πληθώρα μετρητών για κάθε αντικείμενο του παραθύρου. Η πληροφορία αυτή, όμως, επιτρέπει στον Abstract-C να απαντάει ερωτήματα με πολλαπλές τιμές k και επίσης εφαρμόζεται σε παράθυρα αντικειμένων τόσο χρονικά (time-based) όσο και ποσοτικά (count-based). 28

38 COD (Continuous Outlier Detection) [23]: Επειδή ο αλγόριθμος COD βασίζεται σε μια παθητική προσέγγιση που πυροδοτείται από γεγονότα (event-based) καταφέρνει να μειώσει σημαντικά τον αριθμό των αντικειμένων που πρέπει να επεξεργάζονται σε κάθε νέο στιγμιότυπο του παραθύρου, σε αντίθεση με τον αλγόριθμο STORM. Το κλειδί στην αποδοτικότητα του αλγορίθμου COD είναι ότι υπολογίζει την μελλοντική χρονική στιγμή εκείνη που ένα αντικείμενο πιθανώς να αλλάξει κατάσταση (από ακρότατο σε φυσιολογικό ή αντίστροφα) λόγω λήξεως προηγούμενων αντικειμένων. Έτσι, επεξεργάζεται ένα αντικείμενο μόνο τη χρονική στιγμή της αλλαγής και όχι συνεχώς, μειώνοντας σημαντικά το υπολογιστικό κόστος κλαδεύοντας περιττούς υπολογισμούς. MCOD (Micro-cluster-based Continuous Outlier Detection) [23]: Ο αλγόριθμος βασίζεται στον COD και χρησιμοποιεί την ίδια τεχνική κλαδέματος υπολογισμών. Η διαφορά του έγκειται στο γεγονός ότι προσπαθεί να μειώσει το κόστος των χωρικών ερωτημάτων κατά την εισαγωγή νέων αντικειμένων στο παράθυρο. Αυτό επιτυγχάνεται χρησιμοποιώντας εξελισσόμενες μικροσυστάδες που ενημερώνονται συνεχώς και αντιπροσωπεύουν περιοχές στα δεδομένα οι οποίες αποτελούνται αποκλειστικά από φυσιολογικές παρατηρήσεις. Έτσι, τα προαναφερθέντα χωρικά ερωτήματα για κάθε εισερχόμενο αντικείμενο εκτελούνται με βάση τα κέντρα των σχηματισμένων μικρο-συστάδων και όχι πάνω στα αρχικά δεδομένα. Σε ρεαλιστικά δεδομένα με μικρό ποσοστό ανωμαλιών και πυκνές περιοχές, η αφαιρετική τεχνική του MCOD αποδίδει σημαντική βελτίωση στην απόδοση, διατηρώντας τις χωρικές απαιτήσεις του αλγορίθμου σε O(n). Η ενσωμάτωση των παραπάνω αλγορίθμων αλλά και της γραφικής διεπαφής στο MOA έγινε σε μεγάλο βαθμό επαναχρησιμοποιώντας κώδικα της καρτέλας συσταδοποίησης. Με αυτό τον τρόπο διασφαλίζεται η συνοχή του πηγαίου κώδικα στο έργο και η φιλοσοφία επεκτασιμότητας διατηρείται παρόμοια. Έτσι, για να προστεθεί ένας νέος αλγόριθμος ανακάλυψης ακροτάτων τιμών, ο προγραμματιστής αρκεί να επεκτείνει την κλάση MyBaseOutlierDetector και να υλοποιήσει την μέθοδο «void Init()» για την αρχικοποίηση και παραμετροποίηση του αλγορίθμου, την μέθοδο «void ProcessNewStreamObj(Instance inst)» για την επεξεργασία μιας εισερχόμενης παρατήρησης και την μέθοδο «Vector<Outlier> getoutliersresult()» για την απόκτηση της εκάστοτε συλλογής ακροτάτων με σκοπό την αξιολόγηση και οπτικοποίηση του αποτελέσματος Γραφικό περιβάλλον Για λόγους συνάφειας του γραφικού περιβάλλοντος σε όλο το εύρος του εργαλείου, η καρτέλα ανακάλυψης ακροτάτων δεν επανασχεδιάστηκε, αλλά είναι παρόμοια με την καρτέλα της συσταδοποίησης τόσο εμφανισιακά όσο και λειτουργικά. Έτσι, η 29

39 βασική καρτέλα διαχωρίζεται σε δύο υποκατηγορίες που αφορούν την παραμετροποίηση και την οπτικοποίηση. Σε αυτό το σημείο αξίζει να σημειωθεί πως στα πλαίσια της διατριβής αυτής έγιναν σημαντικές προσθήκες στην καρτέλα της ανάλυσης ακροτάτων. Συγκεκριμένα, στο επόμενο κεφάλαιο θα μελετηθεί η προσθήκη μετρικών αξιολόγησης, οι οποίες απουσίαζαν ολοκληρωτικά από την καρτέλα, καθώς και η προσθήκη του αλγορίθμου AnyOut στη συλλογή αλγορίθμων εντοπισμού ακροτάτων τιμών. Η συνεισφορά συμπεριλαμβάνει τόσο αλλαγές στην υλοποίηση όσο και προσθήκες στη γραφική διεπαφή της καρτέλας. Σχήμα 4.6 Καρτέλα παραμετροποίησης ανάλυσης ακροτάτων στο MOA (απόκομμα). Το Σχήμα 4.6 παρουσιάζεται η υπο-καρτέλα παραμετροποίησης. Ομοίως με την αντίστοιχη καρτέλα συσταδοποίησης, ο χρήστης επιλέγει την ροή δεδομένων που επιθυμεί και έναν αλγόριθμο προς εκτέλεση ή δύο προς σύγκριση. Στο κάτω μέρος της οθόνης βρίσκεται η κονσόλα καταγραφής συμβάντων στην οποία εκτυπώνεται η πρόοδος της εκτέλεσης και, όταν το πείραμα τερματιστεί, τα στατιστικά αποτελέσματα. Ύστερα από τη σωστή ρύθμιση του πειράματος, η διαδικασία ξεκινάει επιλέγοντας το πλήκτρο εκκίνησης (Start/Resume), το οποίο βρίσκεται κάτω αριστερά στην καρτέλα παραμετροποίησης. Άμεσα, η καρτέλα οπτικοποίησης του Σχήματος 4.7 απεικονίζει σε πραγματικό χρόνο τα αποτελέσματα εκτέλεσης των δύο αλγορίθμων ενώ ταυτόχρονα ενημερωτικά μηνύματα καταγράφονται στην κονσόλα συμβάντων. Στα δύο πλαίσια που αντιστοιχούν στα αποτελέσματα των αλγορίθμων, τα σημεία με κόκκινο χρώμα αντιπροσωπεύουν τις εντοπισμένες ανώμαλες παρατηρήσεις ενώ τα σημεία με γκρι χρώμα είναι φυσιολογικές παρατηρήσεις, ή ανώμαλες που ο αλγόριθμος ίσως απέτυχε να εντοπίσει (false positive). Επίσης η εξασθένηση του χρώματος προς το λευκό, δηλαδή η σταδιακή εξαφάνιση των σημείων, μιμείται την παλαίωση και λήξη των αντικειμένων του παραθύρου. 30

40 Οι κόκκινοι κύκλοι γύρω από τα αντικείμενα του παραθύρου εμφανίζονται όταν η παρατήρηση την οποία περικυκλώνουν αλλάζει κατάσταση από φυσιολογική σε ανώμαλη. Ομοίως, η αντίστροφη μετάβαση κατάστασης απεικονίζεται με μαύρο κύκλο. Επιλέγοντας μια ανώμαλη παρατήρηση εμφανίζεται ένα αναδυόμενο παράθυρο με τίτλο Outlier Information, το οποίο περιέχει χρήσιμες πληροφορίες για το αντικείμενο και για την κατάστασή του. Οι πληροφορίες που εμφανίζονται είναι αντίστοιχες του αλγορίθμου που εκτελείται, καθώς διαφορετικοί αλγόριθμοι χρησιμοποιούν διαφορετικά κριτήρια εντοπισμού ακροτάτων τιμών. Σχήμα 4.7 Καρτέλα οπτικοποίησης ανάλυσης ακροτάτων στο MOA. Στο κάτω μέρος του παραθύρου στο Σχήμα 4.7 βρίσκεται η γραφική παράσταση (time-per-object) του χρόνου επεξεργασίας (κάθετος άξονας) ανά στιγμιότυπο του παραθύρου (οριζόντιος άξονας). Στην περιοχή αυτή προστέθηκαν οι νέες μέθοδοι αξιολόγησης και η δυνατότητα απεικόνισης αυτών σε γραφική παράσταση, παρομοίως με την αντίστοιχη περιοχή του Σχήματος 4.5. Οι δύο αλγόριθμοι απεικονίζονται τόσο στο διάγραμμα όσο και στην οπτικοποίηση με κόκκινο και μπλε χρώμα ώστε να γίνεται ξεκάθαρη διαφοροποίηση. 31

41 Το προεπιλεγμένο διάστημα τοποθέτησης της εκτέλεσης σε αναμονή είναι η επεξεργασία 1000 αντικειμένων. Όταν η εκτέλεση διακοπεί, ο χρήστης μπορεί να μελετήσει λεπτομερέστερα το αποτέλεσμα και να επιλέξει συγκεκριμένες παρατηρήσεις για περαιτέρω λεπτομέρειες. Η διακοπή μπορεί να γίνει και χειροκίνητα από το πλήκτρο Pause/Resume στο πάνω αριστερά μέρος της οθόνης. Για να τερματιστεί η εκτέλεση χρησιμοποιείται το πλήκτρο Stop. Στη συνέχεια, στατιστικά στοιχεία της εκτέλεσης του πειράματος θα εμφανιστούν στην κονσόλα καταγραφής συμβάντων, η οποία βρίσκεται στην καρτέλα παραμετροποίησης. 4.5 Βιβλιογραφική επισκόπηση Το εργαλείο MOA [10] παρέχει ένα περιβάλλον εκτέλεσης πειραμάτων εξόρυξης στο πλαίσιο των ροών δεδομένων. Περισσότερα για το εργαλείο βρίσκονται στον ιστότοπο Οι ενδιαφερόμενοι έχουν πρόσβαση στο εκτελέσιμο πρόγραμμα, στην εκτενή τεκμηρίωση του κώδικα, σε οδηγούς εκτέλεσης πειραμάτων και σε λοιπές βιβλιογραφικές αναφορές και δημοσιεύσεις. Ο πηγαίος κώδικας είναι ανοικτός στο κοινό υπό την άδεια GNU GPL. 32

42 ΚΕΦΑΛΑΙΟ 5 Επεκτάσεις του MOA 33

43 5.1 Εισαγωγή Πρωταρχικός στόχος της διατριβής αυτής ήταν ο εμπλουτισμός των δυνατοτήτων εξόρυξη ακροτάτων τιμών του εργαλείου ανοικτού κώδικα MOA. Η κυριότερη συνεισφορά ήταν η υλοποίηση και ενσωμάτωση του αλγορίθμου AnyOut στην καρτέλα ανάλυσης ακροτάτων. Επίσης, προστέθηκαν μετρικές αξιολόγησης καθώς και η σχετική γραφική διεπαφή για να τις υποστηρίζει. Οι παραπάνω επεκτάσεις έγιναν στην έκδοση του MOA και σε γλώσσα προγραμματισμού Java. Για να υλοποιηθούν επιτυχώς οι παραπάνω λειτουργίες έγιναν οι απαραίτητες μετατροπές και προσθήκες στον υπάρχων κώδικα. Σημαντικές αλλαγές έγιναν στην κλάση moa.gui.visualization.runoutliervisualizer για να υποστηρίζεται η χρήση των νέων μετρικών, καθώς επίσης προστέθηκε το πακέτο moa.evaloutliers το οποίο τις περιέχει. Επιπλέον, επειδή ο νέος αλγόριθμος AnyOut εισήγαγε δυο νέες έννοιες στην καρτέλα ανάλυσης ανωμαλιών τον βαθμό ανωμαλίας (outlier score) ενός αντικειμένου και τον βαθμό βεβαιότητας (confidence score) του αλγορίθμου για το παραγόμενο αποτέλεσμα έγιναν οι απαραίτητες αλλαγές στην κλάση Outlier η οποία βρίσκεται εντός της κλάσης moa.clusterers.outliers.mybaseoutlierdetector. Τέλος, έγινε προσπάθεια η νέα γραφική διεπαφή της καρτέλας ανάλυσης ακροτάτων να είναι παρόμοια με την καρτέλα συσταδοποίησης για λόγους συνοχής και, ως εκ τούτου, επαναχρησιμοποιήθηκαν τόσο γραφικά στοιχεία όσο και η λογική της ροής εργασίας. Πλέον, ο χρήστης έχει τη δυνατότητα να επιλέξει τις μετρικές που επιθυμεί να χρησιμοποιηθούν από την καρτέλα παραμετροποίησης του πειράματος και στη συνέχεια να επιλέξει την μετρική προς απεικόνιση από την καρτέλα οπτικοποίησης. 5.2 Υλοποίηση του αλγορίθμου AnyOut Ο αλγόριθμος AnyOut δεν υλοποιήθηκε εκ του μηδενός στα πλαίσια της διατριβής. Συγκεκριμένα, μια έκδοση του αλγορίθμου ήταν υλοποιημένη και ενσωματωμένη σε μια νέα, ανεξάρτητη καρτέλα του MOA και βρισκόταν σε πειραματικό στάδιο. Η λύση αυτή όμως δεν ήταν ικανοποιητική, καθώς υπήρχε ήδη η υποδομή για την υποστήριξη μεθόδων εύρεσης ακροτάτων τιμών και συνεπώς ο αλγόριθμος έπρεπε να ενσωματωθεί στην υπάρχουσα εργαλειοθήκη. Το πρώτο βήμα στη διαδικασία της αναπροσαρμογής του AnyOut στο υπάρχον API ήταν οι μετατροπές στον κώδικα. Στο πακέτο moa.clusterers.outliers.anyout βρίσκονται πλέον οι κλάσεις που απαιτούνται για την εκτέλεση του αλγορίθμου. Οι δύο βασικές κλάσεις εντός του πακέτου αυτού είναι οι AnyOut και AnyOutCore, οι αρμοδιότητες των οποίων περιγράφονται παρακάτω. 34

44 5.2.1 Η κλάση AnyOutCore Η κλάση AnyOutCore υλοποιεί την λειτουργία των ανεξάρτητων συστατικών του αλγορίθμου. Αποτελεί μια επέκταση της κλάσης ClusTree, προσθέτοντας τα απαραίτητα πεδία, επιλογές (options) και μεθόδους για την υλοποίηση του AnyOut Δομές και μεταβλητές Τα σημαντικότερα πεδία του αλγορίθμου, τα οποία χρησιμοποιούνται για την αποθήκευση βαθμολογιών ανωμαλίας και βεβαιότητας, αλλά και για την απομνημόνευση καταστάσεων για κάθε αντικείμενο του παραθύρου, βασίζονται στη δομή HashMap με κλειδί το αναγνωριστικό (id) του αντικειμένου. Παρακάτω συνοψίζεται το περιεχόμενο και η χρήση του καθενός, καθώς αποτελούν αναπόσπαστο κομμάτι της λειτουργικότητας. HashMap<Integer,Double> lastoscoreresult; - Αποθηκεύει την τελευταία υπολογισμένη τιμή του βαθμού ανωμαλίας (OScore) του αντικειμένου. HashMap<Integer,ArrayList<Double>> previousoscoreresultlist; - Αποθηκεύει όλη την πορεία των βαθμολογιών ανωμαλίας του αντικειμένου, έτσι ώστε να υποστηρίζεται η παραγωγή μιας ευστοχότερης βαθμολογίας μέσω συνάθροισης των παραπάνω τιμών. HashMap<Integer,Double> aggregatedoscoreresult; - Αποθηκεύει την συναθροιστική βαθμολόγηση ανωμαλίας του αντικειμένου, η οποία παράγεται χρησιμοποιώντας τις τιμές της προηγούμενης λίστας. HashMap<Integer,Double> lastconfidenceresult; - Αποθηκεύει την τελευταία υπολογισμένη βαθμολογία βεβαιότητας του αλγορίθμου όσον αφορά την ευστοχία του βαθμού ανωμαλίας που αποδόθηκε στο αντικείμενο. HashMap<Integer, Integer> currentlevel; - Αποθηκεύει το εκάστοτε βάθος επεξεργασίας του αντικειμένου εντός του δένδρου ClusTree και χρησιμοποιείται για τον έλεγχο της δυνατότητας περαιτέρω επεξεργασίας σε βαθύτερο επίπεδο. HashMap<Integer, ClusKernel> objectaskernel; - Αποθηκεύει το αντικείμενο διαμορφωμένο ως δομή ClusKernel ώστε ο αλγόριθμος να είναι σε θέση να εντοπίσει την κοντινότερη σε αυτό εγγραφή (Entry) εντός του ClusTree. 35

45 HashMap<Integer,Node> descendtonode; - Αφότου εντοπιστεί η κοντινότερη εγγραφή, στο πεδίο αυτό αποθηκεύεται ο κόμβος απόγονος (child Node) αυτής (βλ. Σχήμα 3.1). Ο κόμβος αυτός χρησιμοποιείται στη συνέχεια για επανάληψη της βαθμολόγησης και βελτίωση του αποτελέσματος σε βαθύτερο επίπεδο του ClusTree, εφόσον το επιτρέπουν οι περιορισμοί Παραμετροποίηση και επιλογές Παράλληλα με τα παραπάνω πεδία, σημαντικό ρόλο κατέχουν και οι επιλογές παραμετροποίησης του αλγορίθμου. Οι επιλογές αυτές εμφανίζονται στο παράθυρο ρυθμίσεων του αλγορίθμου μέσω της καρτέλας παραμετροποίησης και απεικονίζονται στο Σχήμα 5.1. Αφορούν κυρίως τον τρόπο βαθμολόγησης των αντικειμένων αλλά και την διαδικασία αρχικοποίησης. Στη συνέχεια αναλύεται ο ρόλος της κάθε επιλογής στην πορεία εκτέλεσης του AnyOut. MinSearchDepth (Εύρος τιμών: [0, 1] Προεπιλογή: 0,5) - Χρησιμοποιείται στην προσομοίωση της Anytime συμπεριφοράς του αλγορίθμου και αντιπροσωπεύει το κάτω όριο της τυχαίας επιλογής βάθους για ένα νέο εισερχόμενο αντικείμενο. MaxSearchDepth (Εύρος τιμών: [0, 1] Προεπιλογή: 0,9) - Σε συνδυασμό με την επιλογή MinSearchDepth, παράγεται ένα τυχαίο ποσοστό βάθους του ClusTree, στο οποίο θα σταματήσει η περαιτέρω επεξεργασία ενός νέου αντικειμένου. Το ποσοστό αυτό υπολογίζεται εντός του διαστήματος [MinSearchDepth, MaxSearchDepth]. TrainingSetSize (Εύρος τιμών: [0, 10000] Προεπιλογή: 1000) - Ο AnyOut είναι σε θέση να εκπαιδευτεί προτού ξεκινήσει η διαδικασία βαθμολόγησης των αντικειμένων. Επιλέγοντας μια τιμή διάφορη του μηδενός, το δένδρο ClusTree αρχικοποιείται με τον επιλεγμένο αριθμό αντικειμένων και διαμορφώνονται οι πρώτες συστάδες ώστε να υπάρχει μια βάση στην οποία θα εφαρμοστεί η επεξεργασία. UseBulkLoading (Δυαδική μεταβλητή Προεπιλογή: Απενεργοποιημένο) - Εκτός από την κλασσική, σειριακή προσθήκη αντικειμένων που υποστηρίζει το δένδρο ClusTree, ο AnyOut είναι εξοπλισμένος με την δυνατότητα της μαζικής προσθήκης (bulk loading) [24] του συνόλου εκπαίδευσης στη δομή με σκοπό την βελτιωμένη απόδοση της διαδικασίας. OScoreAggregate (Εύρος τιμών: [1, 10] Προεπιλογή: 2) - Χρησιμοποιείται για τον καθορισμό του επιπέδου συνάθροισης του βαθμού ανωμαλίας ενός αντικειμένου. Εάν η τιμή της επιλογής είναι 36

46 1, λαμβάνεται υπ όψη μόνο η τελευταία υπολογισμένη τιμή, μέσω του πεδίου lastoscoreresult. Διαφορετικά, για τον υπολογισμό της βαθμολογίας συναθροίζονται τα επιλεγμένα σε αριθμό τελευταία πεδία της λίστας previousoscoreresultlist. ConfidenceAggregate (Εύρος τιμών: [1, 10] Προεπιλογή: 2) - Ομοίως με την προηγούμενη επιλογή, χρησιμοποιείται για τον καθορισμό του επιπέδου συνάθροισης του βαθμού βεβαιότητας. ConfidenceSelection (Εύρος τιμών: [1, 7] Προεπιλογή: 4) - Η επιλογή αυτή καθορίζει την συνάρτηση που θα χρησιμοποιηθεί για την παραγωγή του βαθμού βεβαιότητας. Οι επιλογές 1, 2 και 3 αντιστοιχούν σε τρείς διαφορετικές και ανεξάρτητες συναρτήσεις, ενώ στις επιλογές 4 έως 7 χρησιμοποιείται ένας διαφορετικός συνδυασμός των τριών βασικών συναρτήσεων ως γινόμενο. Πιο συγκεκριμένα, η πρώτη επιλογή βασίζεται στο άθροισμα διαφορών των προηγούμενων βαθμολογιών ανά γειτονικά ζεύγη, η δεύτερη βασίζεται στο άθροισμα όλων των βαθμολογιών ανωμαλίας, ενώ η τρίτη ουσιαστικά είναι το ποσοστό βάθους εντός του ClusTree, στο οποίο σταμάτησε η επεξεργασία. OScoreThreshold (Εύρος τιμών: [0, 1] Προεπιλογή: 0,07) - Στην περίπτωση που χρησιμοποιείται ο τρόπος βαθμολόγησης ενός αντικειμένου σύμφωνα με το μέγεθος της απόκλισής του από τον μέσο της κοντινότερης πλειάδας CF (mean score), η τιμή της επιλογής αυτής καθορίζει την ελάχιστη βαθμολογία που πρέπει να έχει ένα αντικείμενο έτσι ώστε να θεωρηθεί ακρότατο. UseDensityScore (Δυαδική μεταβλητή Προεπιλογή: Απενεργοποιημένο) - Η επιλογή αυτή ενεργοποιεί την βαθμολόγηση της ανωμαλίας των αντικειμένων σύμφωνα με το κριτήριο της πυκνότητας (density score). horizon (Απεριόριστο εύρος τιμών Προεπιλογή: 1000) - Η επιλογή αυτή κληρονομείται από τις επιλογές του ClusTree και αναφέρεται στο μέγεθος του κυλιόμενου παραθύρου. Χρησιμοποιείται από το ClusTree για να προσομοιωθεί η παλαίωση των αντικειμένων καθώς το παράθυρο «μετακινείται». maxheight (Απεριόριστο εύρος τιμών Προεπιλογή: 8) - Επίσης κληρονομείται από την κλάση ClusTree και αφορά το μέγιστο ύψος που επιτρέπεται να αποκτήσει η δομή. 37

47 evaluatemicroclustering (Δυαδική μεταβλητή Προεπιλογή: Απενεργοποιημένο) - Κληρονομείται από την υπερκλάση AbstractClusterer της κλάσης ClusTree και εάν ενεργοποιηθεί, ο αλγόριθμος λειτουργεί πάνω στις σχηματιζόμενες μικρο-συστάδες. Σχήμα 5.1 Παραμετροποίηση του AnyOut Βασικότερες μέθοδοι Όπως προδίδει και το όνομά της, η κλάση AnyOutCore και οι μέθοδοί της αποτελούν τον πυρήνα (core) του συστήματος. Χρησιμοποιώντας τις επιλογές παραμετροποίησηw της ενότητας σε συνδυασμό με τα προαναφερθέντα πεδία για αποθήκευση πληροφοριών και καταστάσεων, οι μέθοδοι της κλάσης αυτής υλοποιούν τα συστατικά μέρη του αλγορίθμου. Στη συνέχεια η κλάση AnyOut, η οποία θα αναλυθεί στην επόμενη ενότητα, λειτουργεί ως «διαχειριστής» (controller) και οργανώνει την σωστή ακολουθία εκτέλεσης αυτών. Ακολουθεί η περιγραφή των κυριότερων μεθόδων της κλάσης AnyOutCore. 38

48 public AnyOutCore() και public void resetlearning() - Χρησιμοποιούνται αποκλειστικά κατά την εκκίνηση του αλγορίθμου και εκτελούν την απαραίτητη αρχικοποίηση των πεδίων, την ανάγνωση των ρυθμίσεων του χρήστη και επίσης την αρχικοποίηση της υπερκλάσης ClusTree. public void train(dataset trainingset) - Η μέθοδος αυτή εκτελεί την εκπαίδευση του ClusTree με το δοθέν σύνολο δεδομένων, το μέγεθος του οποίου ορίζει ο χρήστης στην επιλογή TrainingSetSize. Στο σημείο αυτό χρησιμοποιείται επίσης και η επιλογή UseBulkLoading για την ενεργοποίηση της αντίστοιχης λειτουργίας. public void initobject(int objectid, double[] features) - Όταν ένα νέο αντικείμενο εισέρχεται στον αλγόριθμο, καλείται η συγκεκριμένη μέθοδος αρχικοποίησης. Στην μέθοδο αυτή γίνεται η πρώτη βαθμολόγηση του αντικειμένου στο ύψος της ρίζας του ClusTree και όλα τα πεδία της ενότητας αποκτούν μια νέα εγγραφή με κλειδί το αναγνωριστικό του αντικειμένου. public boolean moreimprovementspossible(int id, double depth) - Προτού γίνει περαιτέρω επεξεργασία ενός αντικειμένου, η μέθοδος αυτή ελέγχει εάν η ζητούμενη ενέργεια είναι δυνατή ή επιτρεπτή. Συγκεκριμένα, ελέγχεται εάν το αντικείμενο πρόκειται να υπερβεί το ποσοστό εμβάθυνσης που του αναλογεί και, στην περίπτωση που δεν παραβιάζεται το όριο, ελέγχεται η ύπαρξη ή μη επόμενου κόμβου απογόνου στο δένδρο. public void improveobjectonce(int objectid) - Εφόσον είναι δυνατή η περαιτέρω επεξεργασία, η μέθοδος αυτή αναβαθμολογεί το αντικείμενο ένα επίπεδο χαμηλότερα εντός του δένδρου, ανανεώνοντας τις τιμές των πεδίων που αντιστοιχούν στο αναγνωριστικό του αντικειμένου. Η μέθοδος αυτή σε συνδυασμό με τον προηγούμενο έλεγχο αποτελούν τον πυρήνα της επαναληπτικής επεξεργασίας των αντικειμένων. public void learnobject(double[] features) - Όταν η επαναληπτική αναβαθμολόγηση του αντικειμένου ολοκληρωθεί, το αντικείμενο αυτό πρέπει να ενσωματωθεί στην δενδρική δομή. Έτσι, καλείται η αντίστοιχη μέθοδος εκπαίδευσης της υπερκλάσης ClusTree για να συνεχιστεί ο δυναμικός σχηματισμός συστάδων. 39

49 public void removeobject(int objectid) - Όταν ένα αντικείμενο υπερβεί το μέγεθος του παραθύρου, καθώς συνεχώς εισέρχονται σε αυτό νέες παρατηρήσεις, οι πληροφορίες που έχουν αποθηκευτεί για το αντικείμενο αυτό στις δομές HashMap αχρηστεύονται. Η μέθοδος αυτή αναλαμβάνει τη διαγραφή των αντίστοιχων ζευγών κλειδιού τιμής και με τον τρόπο αυτό η δεσμευμένη μνήμη διατηρείται σε σταθερά επίπεδα Η κλάση AnyOut Η κλάση AnyOut ασχολείται με την προγραμματιστική διεπαφή του αλγορίθμου με τις υπόλοιπες κλάσεις του MOA, καθώς επεκτείνει την αφαιρετική κλάση MyBaseOutlierDetector. Η υπερκλάση αυτή είναι το βασικό συστατικό ενός αλγορίθμου εύρεσης ακροτάτων και αποτελείται από μεθόδους διαχείρισης της αρχικοποίησης και εκτέλεσης του αλγορίθμου, την αποθήκευση των αντικειμένων του παραθύρου, την λήψη του αποτελέσματος και λοιπά. Η ιδιαιτερότητα της κλάσης AnyOut είναι πως δεν υλοποιεί τις βασικές λειτουργίες του αλγορίθμου. Αντιθέτως, χρησιμοποιεί ένα στιγμιότυπο της κλάσης AnyOutCore ώστε να έχει πρόσβαση στις μεθόδους της και ενεργεί πάνω σε αυτές. Ουσιαστικά η κλάση αυτή λειτουργεί ως συντονιστής των μεθόδων της κλάσης-πυρήνα, ορίζοντας την κατάλληλη χρήση και την λογική εκτέλεση αυτών ώστε να σχηματιστεί ο ζητούμενος αλγόριθμος Πορεία εκτέλεσης Στους αλγορίθμους εύρεσης ακροτάτων τιμών η μέθοδος της κλάσης MyBaseOutlierDetector η οποία αναλαμβάνει την επεξεργασία των εισερχόμενων παρατηρήσεων είναι η ProcessNewStreamObj(Instance i). Όταν σχεδιάζεται ένας νέος αλγόριθμος του συγκεκριμένου είδους στο MOA, η μέθοδος αυτή πρέπει απαραιτήτως να υλοποιηθεί από τον προγραμματιστή. Είναι αυτή η οποία εμπεριέχει την λογική του αλγορίθμου και διαχειρίζεται την ακολουθία εκτέλεσης. Παρακάτω περιγράφονται αναλυτικά τα κομβικά σημεία της υλοποίησης της μεθόδου αυτής στο πλαίσιο του αλγορίθμου AnyOut. Η πορεία εκτέλεσης χωρίζεται σε δύο μέρη που αντιστοιχούν στην εκπαίδευση του ClusTree και, στη συνέχεια, στην αξιολόγηση των εισερχόμενων παρατηρήσεων. Αρχικά δημιουργείται ένα σύνολο αντικειμένων το οποίο περιέχει τόσες παρατηρήσεις όσες ο χρήστης έδωσε στην επιλογή TrainingSetSize. Στην φάση αυτή δεν εκτελείται καμία άλλη ενέργεια, παρά μόνο συλλογή των δεδομένων εκπαίδευσης. Ύστερα, όταν το σύνολο εκπαίδευσης (training set) αποκτήσει το επιθυμητό μέγεθος, καλείται η μέθοδος train της κλάσης AnyOutCore η οποία αναλύθηκε στην ενότητα Σε αυτό το σημείο ας σημειωθεί πως το σύνολο εκπαίδευσης είναι ένα αντικείμενο της κλάσης DataSet, το οποίο με τη σειρά του αποτελείται από μια συλλογή αντικειμένων της κλάσης DataObject. 40

50 Αφού ολοκληρωθεί η εκπαίδευση του ClusTree, ξεκινάει η διαδικασία αξιολόγησης των μελλοντικών αντικειμένων της ροής. Tο σύνολο εκπαίδευσης δεν συμμετέχει στην αξιολόγηση, αλλά διαγράφεται για εξοικονόμηση μνήμης. Κάθε εισερχόμενο αντικείμενο ενθυλακώνεται στην κλάση DataObject και αμέσως προστίθεται στην λίστα objects, η οποία περιέχει την συλλογή αντικειμένων του παραθύρου. Εφόσον προστέθηκε ένα νέο αντικείμενο στη λίστα αλλά το μέγεθος του παραθύρου είναι προκαθορισμένο και περιορισμένο, ελέγχεται εάν ξεπεράστηκε το όριο. Στην περίπτωση που το παράθυρο είναι πλήρες, αφαιρείται το παλαιότερο αντικείμενο από την λίστα objects. Ύστερα από την εισαγωγή του νέου αντικειμένου στο παράθυρο καλείται η μέθοδος initobject μέσω του στιγμιότυπου της κλάσης AnyOutCore και υπολογίζεται η αρχική βαθμολογία του αντικειμένου. Στη συνέχεια, παράγεται ένα τυχαίο ποσοστό βάθους αναζήτησης στο ClusTree, το οποίο οριοθετείται από τις τιμές των επιλογών MinSearchDepth και MaxSearchDepth. Έτσι, το επόμενο βήμα είναι η επαναληπτική βελτίωση της βαθμολογίας του αντικειμένου μέσω διαδοχικών κλήσεων των μεθόδων moreimprovementspossible και improveobjectonce. Όταν ο βρόχος ολοκληρωθεί, το αντικείμενο εισάγεται στη δενδρική δομή του ClusTree ώστε να συνεχιστεί ο σχηματισμός συστάδων της ροής. Επειδή ο AnyOut ανήκει στην οικογένεια αλγορίθμων Anytime και πρέπει να παρέχει αποτελέσματα ανά πάσα στιγμή, το τελευταίο βήμα σε κάθε εκτέλεση της μεθόδου ProcessNewStreamObj είναι η αξιολόγηση του συνόλου δεδομένων που βρίσκονται εντός του παραθύρου, δηλαδή εντός της λίστας objects. Στο σημείο αυτό οι εντοπισμένες ακρότατες παρατηρήσεις προστίθενται στο αποτέλεσμα, το οποίο στη συνέχεια οπτικοποιείται και αξιολογείται από τις αρμόδιες κλάσεις του MOA. Ταυτόχρονα, γίνεται συλλογή στατιστικών στοιχείων, τα οποία εκτυπώνονται στην κονσόλα καταγραφής συμβάντων όταν η εκτέλεση ολοκληρωθεί Πληροφορίες και στατιστικά Όταν η πορεία του πειράματος στο ΜΟΑ βρίσκεται σε κατάσταση παύσης, ο χρήστης έχει την δυνατότητα να επιλέξει μια εντοπισμένη ακρότατη παρατήρηση από την καρτέλα οπτικοποίησης ώστε να αποκτήσει περαιτέρω σχετικές λεπτομέρειες. Οι πληροφορίες που εμφανίζονται για το αντικείμενο απαριθμούνται παρακάτω και εντός της παρένθεσης αναγράφεται η ονομασία των γνωρισμάτων σε αντιστοιχία με το αναδυόμενο παράθυρο. Το αναγνωριστικό (ID). Ο αριθμός αυτός συμπίπτει επίσης και με τον αύξοντα αριθμό εισαγωγής του αντικειμένου στο παράθυρο. Η κλάση (Class). Η κωδικοποίηση των ετικετών αληθείας στο MOA γίνεται μέσω του χαρακτηριστικού της κλάσης ενός αντικειμένου. Συνήθως, η τελευταία κλάση αποτελεί τον θόρυβο ή τις ανώμαλες παρατηρήσεις. Για παράδειγμα, στην προεπιλεγμένη ροή δεδομένων στην λειτουργία της ανακάλυψης ακροτάτων, η κλάση των ανώμαλων παρατηρήσεων είναι η έκτη 41

51 (υπ αριθμόν 5), ενώ οι υπόλοιπες κλάσεις (0 έως 4) αντιστοιχούν στις πέντε φυσιολογικές συστάδες (βλ. Σχήμα 5.2). Οι συντεταγμένες (Χ, Υ). Στο παράδειγμα, εμφανίζονται οι συντεταγμένες του αντικειμένου στον δισδιάστατο χώρο μοναδιαίου μήκους και πλάτους με άξονα την πάνω αριστερή γωνία του πλαισίου. Ο βαθμός ανωμαλία (Oscore) τον οποίο υπολόγισε ο αλγόριθμος AnyOut για το αντικείμενο. Ο βαθμός βεβαιότητας (Conf) του αλγορίθμου AnyOut για την εγκυρότητα του υπολογισμένου βαθμού ανωμαλίας. Το παράθυρο πληροφοριών του επιλεγμένου αντικειμένου παρουσιάζεται στο Σχήμα 5.2 ενώ τα επιλέξιμα αντικείμενα απεικονίζονται ως κόκκινα σημεία στο ενδιάμεσο πλαίσιο. Ο AnyOut αντιστοιχεί στον πλαίσιο και στην γραφική παράσταση χρώματος μπλε, ενώ το κόκκινο χρώμα αντιστοιχεί στον αλγόριθμο MCOD [23]. Σχήμα 5.2 Εκτέλεση του AnyOut και μετρικές αξιολόγησης. Όταν ο χρήστης τερματίσει το πείραμα, εμφανίζονται στατιστικά στοιχεία σχετικά με αυτό στην κονσόλα καταγραφής συμβάντων, εντός της καρτέλας παραμετροποίησης. 42

Δείτε περισσότερα