Συσταδοποίηση Δυναμικών Συστημάτων Ταλαντώσεων από Βάσεις Δεδομένων Χρονοσειρών

Σχετικά έγγραφα
Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Χρονοσειρές Μάθημα 1

ΕΝΤΟΠΙΣΜΟΣ ΑΛΛΑΓΗΣ ΤΗΣ ΔΥΝΑΜΙΚΗΣ ΚΑΤΑΣΤΑΣΗΣ ΣΕ ΧΡΟΝΟΣΕΙΡΕΣ ΤΑΛΑΝΤΩΣΕΩΝ ΑΠΟ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΑΛΑΝΤΩΣΗΣ

ΝΕΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΥΠΑΡΞΗ ΕΚΤΙΜΗΤΩΝ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ ΓΙΑ ΤΗΝ 3-ΠΑΡΑΜΕΤΡΙΚΗ ΓΑΜΜΑ ΚΑΤΑΝΟΜΗ

Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα

Χρονοσειρές - Μάθημα 7. Μη-γραμμική ανάλυση χρονοσειρών

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

HMY 795: Αναγνώριση Προτύπων

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΜΟΝΟ-ΜΕΤΑΒΛΗΤΩΝ ΧΡΟΝΟΣΕΙΡΩΝ ΜΕ ΕΠΙΛΕΓΜΕΝΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗ ΔΙΑΓΝΩΣΗ ΕΠΙΛΗΨΙΑΣ

ΒΕΛΤΙΣΤΕΣ ΙΑ ΡΟΜΕΣ ΣΕ ΙΚΤΥΑ ΜΕΤΑΒΛΗΤΟΥ ΚΟΣΤΟΥΣ

Μάθημα 1: Εισαγωγή στην ανα λυση χρονοσειρω ν, στασιμο τητα και αυτοσυσχε τιση

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

Granger Αιτιότητα και Πρόβλεψη σε Πολυ-μεταβλητές Χρονοσειρές Χαρακτηριστικών Ταλάντωσης

Μέτρα Γραμμικής Και Μη-Γραμμικής Συσχέτισης Χρονοσειρών Για Πρόβλεψη Επιληπτικής Κρίσης

Χρονοσειρές Μάθημα 1

Εκτίμηση μη-γραμμικών χαρακτηριστικών

Χρονοσειρές, Μέρος Β 1 Πρόβλεψη Χρονικών Σειρών

Χαρακτηριστικά της ανάλυσης διασποράς. ΑΝΑΛΥΣΗ ΙΑΣΠΟΡΑΣ (One-way analysis of variance)

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

K. Hausdorff K K O X = SDA. symbolic data analysis SDA SDA. Vol. 16 No. 3 Mar JOURNAL OF MANAGEMENT SCIENCES IN CHINA

Ε.Μ.Π Τομέας Υδατικών Πόρων Υδραυλικών & Θαλασσίων Έργων Μάθημα: Τεχνολογία Συστημάτων Υδατικών Πόρων 9 ο Εξάμηνο Πολ. Μηχανικών Ε. Μπαλτάς.

1. For each of the following power series, find the interval of convergence and the radius of convergence:

CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ

CDMA. Performance Analysis of Chaotic Spread Spectrum CDMA Systems. LI Xiao - chao, GUO Dong - hui, ZENG Quan, WU Bo - xi RESEARCH & DEVELOPMENT

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Αναγνώριση Προτύπων Ι

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Τυχαία μεταβλητή (τ.μ.)

Θεωρία Πιθανοτήτων & Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΠΜΣ ΕΦΑΡΜΟΣΜΕΝΗ ΜΗΧΑΝΙΚΗ ΚΑΙ ΠΡΟΣΟΜΟΙΩΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής

Εισόδημα Κατανάλωση

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 3ο

ΧΡΟΝΟΙ ΑΝΑΜΟΝΗΣ ΜΕΧΡΙ ΤΗΝ ΠΡΩΤΗ ΕΜΦΑΝΙΣΗ ΣΧΗΜΑΤΙΣΜΩΝ ΣΕ ΜΙΑ ΔΙΔΙΑΣΤΑΤΗ ΑΚΟΛΟΥΘΙΑ ΤΡΙΤΙΜΩΝ ΔΟΚΙΜΩΝ

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

HMY 799 1: Αναγνώριση Συστημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

HMY 795: Αναγνώριση Προτύπων

Μαθηματικά Και Στατιστική Στη Βιολογία

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Η παρουσίαση που ακολουθεί, αφορά την κανονική κατανομή και σκοπό έχει τη διευκόλυνση των φοιτητών του τμήματος Ηλεκτρολόγων Μηχανικών & Μηχανικών

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Πραγματικές χρονοσειρές

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Εφαρμοσμένη Στατιστική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Μέϑοδοι Εφαρμοσμένων Μαϑηματιϰών (ΜΕΜ 274) Λύσεις Θεμάτων Εξέτασης Ιούνη 2019

Στοχαστικά Σήματα και Τηλεπικοινωνιές

Χρονοσειρές - Μάθημα 8. Μη-γραμμική ανάλυση χρονοσειρών

1 η ΣΕΙΡΑ ΑΣΚΗΣΕΩΝ. / 2. Οι όροι Eb. και Ec

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Χρονικές σειρές 10 Ο μάθημα: Μη στάσιμα μοντέλα ARIMA Μεθοδολογία Box-Jenkins Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Διακριτικές Συναρτήσεις

ΑΝΑΛΥΣΗ ΣΥΧΝΟΤΗΤΑΣ ΥΔΡΟΛΟΓΙΚΩΝ ΦΑΙΝΟΜΕΝΩΝ

Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Ανάλυση Χρονοσειρών. Κεφάλαιο Ανάλυση Χρονοσειρών

ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

Η Επίδραση των Events στην Απόδοση των Μετοχών

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Transcript:

Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 9 ου Πανελληνίου Συνεδρίου Στατιστικής (2006), σελ 499-507 Συσταδοποίηση Δυναμικών Συστημάτων Ταλαντώσεων από Βάσεις Δεδομένων Χρονοσειρών Τσιμπίρης Αλκιβιάδης Γενικό Τμήμα Πολυτεχνικής Σχολής ΑΠΘ c-school@oteet.gr Περίληψη Τα τελευταία χρόνια τεχνικές συσταδοποίησης έχουν εφαρμοσθεί για την εξόρυξη γνώσης από βάσεις δεδομένων χρονοσειρών. Στην εργασία αυτή μελετάμε χρονοσειρές από δυναμικά συστήματα που παρουσιάζουν ταλαντώσεις, όπως τα ηλεκτροεγκεφαλογραφήματα (EEG). Η συσταδοποίηση δεν εφαρμόζεται απευθείας στις χρονοσειρές, αλλά σε μέτρα που εκτιμώνται σε αυτές (feature-based clusterig) μετά από κανονικοποίηση με διάφορες μεθόδους (stadardizatio). Χρησιμοποιούμε απλά στατιστικά μέτρα, όπως λοξότητα, κύρτωση και αυτοσυσχέτιση, και μη-γραμμικά μέτρα, όπως αμοιβαία πληροφορία και μέγιστος εκθέτης Lyapuov. Επίσης συμπεριλαμβάνουμε νέα μέτρα που εκτιμούν χαρακτηριστικά ταλάντωσης, όπως η μέση τιμή των κορυφών και περιόδων ταλάντωσης. Εξετάζουμε την συνεισφορά του κάθε μέτρου, καθώς και συνδυασμό τους, στην ακρίβεια συσταδοποίησης με την μέθοδο της σειριακής προς τα μπρος επιλογής (Sequetial Forward Selectio). Η ακρίβεια συσταδοποίησης μετρήθηκε με το δείκτη Rad (Corrected Rad Idex) σε Mote Carlo επαναλήψεις ομαδοποιημένων χρονοσειρών, όπου η κάθε ομάδα ανήκει σε διαφορετικό δυναμικό σύστημα (Lorez-95, Mackay-Glass). Τα πρώτα αποτελέσματα έδειξαν ότι τα μέτρα ταλάντωσης συνεισφέρουν περισσότερο στη σωστή συσταδοποίηση των χρονοσειρών. Ο ίδιος σχεδιασμός εφαρμόστηκε σε δεδομένα EEG από ασθενείς με επιληψία και τα αποτελέσματα έδειξαν επιτυχή διαχωρισμό της κατάστασης λίγο πριν και πολύ πριν την κρίση.. ΕΙΣΑΓΩΓΗ Τα τελευταία χρόνια η συσταδοποίηση (clusterig) (Liao, 2005) έχει επεκταθεί σε χρονοσειρές δυναμικών συστημάτων ταλαντώσεων (Katz & Schreiber, 997), (Pikovsky et al, 2003). Σε τέτοια προβλήματα υπάρχει η ανάγκη εύρεσης κατάλληλων χαρακτηριστικών μέτρων. Σ ένα γενικότερο πλαίσιο τα προβλήματα συσταδοποίησης εστιάζονται στην επιλογή ενός μικρού συνόλου κατάλληλων χαρακτηριστικών (features) που να περιγράφουν ικανοποιητικά την κάθε χρονοσειρά ταλάντωσης ώστε να έχει αποτελεσματικότητα η συσταδοποίηση, η επιλογή κατάλληλης μεθόδου κανονικοποίησης των τιμών των χαρακτηριστικών, καθώς και η επιλογή κατάλληλου αλγορίθμου συσταδοποίησης. Στην εργασία αυτή διερευνήσαμε με Mote Carlo προσομοιώσεις, για τον καλύτερο συνδυασμό χαρακτηριστικών των χρονοσειρών και την καταλληλότερη μέθοδο κανονικοποίησης των τιμών με - 499 -

κριτήριο την υψηλότερη απόδοση συσταδοποίησης. Για το σκοπό αυτό χρησιμοποιήσαμε δεδομένα χρονοσειρών από μη-γραμμικά συστήματα ταλαντώσεων με δυσκολία στη διάκρισή τους. Ως πραγματικά δεδομένα χρησιμοποιήθηκαν ηλεκτροεγκεφαλογραφήματα (ΕΕG) ασθενών με επιληψία (Hirsch et al, 2006). 2. ΣΧΕΔΙΑΣΜΟΣ ΤΗΣ ΣΥΣΤΑΔΟΠΟΙΗΣΗΣ 2. Χαρακτηριστικά Μέτρα Χρονοσειρών Χρησιμοποιήθηκαν 0 χαρακτηριστικά μέτρα q,...,q 0, τα οποία θεωρούμε ότι αποτυπώνουν ικανοποιητικά την καθολική συμπεριφορά κάθε χρονοσειράς. Χωρίσαμε τα μέτρα σε τρεις κατηγορίες όπως δίνονται στον Πίνακα. q : λοξότητα Πίνακας. Χαρακτηριστικά μέτρα χρονοσειράς {x,x 2,...,x } ( x t= λ = s t 3 Απλά στατιστικά μέτρα x) 3, όπου x είναι η μέση τιμή, s η τυπική απόκλιση q 2 : κύρτωση 4 ( x x) t= t κ = 3 4 s q 3 : άθροισμα h αυτοσυσχέτισης Qh = r 2 k για μέγιστο h, όπου k rk = Box-Pierce q 4 : άθροισμα αμοιβαίας πληροφορίας q 5 : μέγιστος εκθέτης Lyapuov q 6 : αυτοσυσχέτιση τριών σημείων k = 2 ( xtxt k x ) t= k+ 2 Μη γραμμικά μέτρα h Pi (, j) SI = I( k), όπου Ik ( ) = Pij (, )log, το διπλό k = i, j PiP () ( j ) άθροισμα είναι για διαμέριση των τιμών της {x t } και οι κοινές και περιθώριες πιθανότητες στα διαστήματα της διαμέρισης είναι Pi (, j) = Px ( i, xi k), Pi () = Px ( i ) και P( j) = P( xi k) ht, L = δ log, όπου δ = x x και h δ 0,t t t δ = x x είναι h, t t+ h t+ h t= 0, t οι Ευκλείδειες αποστάσεις δύο σημείων από δύο γειτονικές τροχιές (στην αρχή και μετά χρόνο h) του ανακατασκευασμένου ελκυστή (attractor) της χρονοσειράς με διάσταση εμβύθισης m και υστέρηση τ, έτσι ώστε x t =[x t,x t-τ,..., x t-(m-)τ ] για t=,...,'+h, και '=-(m-)τ-h r3( τ ) 0 t t = 2τ 0 + = - 500 - ( x x)( x t = t τ 0 ( x t x)( x x) Μέτρα χαρακτηριστικών ταλάντωσης 3 s t 2τ 0 x) q 7 και q 9 : μέση τιμή και τυπική απόκλιση της περιόδου ταλάντωσης, q 8 και q 0 : μέση τιμή και τυπική απόκλιση της κορυφής της ταλάντωσης

2.2 Μέθοδοι Κανονικοποίησης Για την κανονικοποίηση των τιμών των μέτρων χρησιμοποιήσαμε 4 γνωστές μεθόδους και την κανονικοποίηση Gauss που βασίζεται στην αθροιστική συνάρτηση κανονικής κατανομής των τιμών των χαρακτηριστικών σύμφωνα με τον Πίνακα 2. Πίνακας 2. Μέθοδοι κανονικοποίησης για μέτρο q j από M χρονοσειρές, q j,,..., q j,m, με μέση τιμή q, τυπική απόκλιση s, μέγιστη τιμή qj,max και ελάχιστη τιμή q j,mi. Γραμμική j y ji, q = q ji, j,mi j,max q q q j j,mi Διασποράς y ji, qji, qj = s Λογαριθμική yji, = l( qji, qj,mi + ) Λογιστική y ji, = q + e, Gauss 2.3 Μέθοδος Συσταδοποίησης y ( ˆ ( )) j, i =Φ F qj, i j, i q j ji όπου Φ και F ˆ ( q ) οι αθροιστικές συναρτήσεις της τυπικής κανονικής κατανομής και της κατανομής του q j Για τη συσταδοποίηση των χρονοσειρών επιλέξαμε το δημοφιλή γρήγορο και αποδοτικό διαμεριστικό αλγόριθμο k-meas των (Hartiga et al, 979). Ο αλγόριθμος επιλέγει αρχικά τυχαία κέντρα συστάδων και χρησιμοποιώντας επαναληπτικά τον αλγόριθμο Μέγιστης Προσδοκίας (Εxpectatio-Μaximizatio algorithm- EM) (Dempster et al, 977) συγκλίνει στο τελικό σύνολο συστάδων. 2.4 Σύγκριση Συστάδων Για την σύγκριση δύο συσταδοποιήσεων χρησιμοποιήσαμε το δείκτη Rad (Corrected Rad Idex, CRΙ) που προτάθηκε από τους (Hubert & Arabie, 985) R C ij R i. R. j i= j= i= i= 2 2 2 2 = R i. R. j R i. R. j i= + i= i= i= 2 2 2 2 2 2 Ο δείκτης παίρνει τιμές στο διάστημα [-,]. Τιμή του υποδηλώνει απόλυτη συμφωνία των δύο διαμερισμών ενώ τιμή κοντά στο 0 ή αρνητική υποδηλώνει ασυμφωνία των συστάδων και τυχαία τοποθέτηση των αντικειμένων (χρονοσειρών) σε αυτές. 2.5 Συστήματα Χρονοσειρών Ένα από τα συστήματα που χρησιμοποιήσαμε για την παραγωγή των χρονοσειρών είναι το σύστημα Lorez-95 που πρωτοπαρουσιάσθηκε από τους (Lorez & Emauel, 998) ως ένα σχετικά απλό μοντέλο της ατμόσφαιρας και δίνεται ως dx j = ( xj+ xj 2) xj xj + F, j =, 2...0 (2) dt () - 50 -

Το σύστημα έχει 0 μεταβλητές και F είναι μία παράμετρος ελέγχου. Για F<4 το σύστημα είναι περιοδικό, για F>4 το σύστημα γίνεται χαοτικό και για F=8 παρουσιάζει τη μεγαλύτερη χαοτική πολυπλοκότητα. Πήραμε τις χρονοσειρές από την πρώτη μεταβλητή τους συστήματος, με παραμέτρους F=5, 6 και 8 ώστε να μην είναι εύκολη η διάκριση μεταξύ των χρονοσειρών. Ένα άλλο δυναμικό σύστημα που παράγει χαοτικές χρονοσειρές είναι το σύστημα της διαφορικής εξίσωσης με υστέρηση των (Mackay & Glass, 977) dx 0.2x( t Δ) = + 0.x( t). (3) 0 dt + [ x( t Δ)] Από το σύστημα αυτό και για χρόνο υστέρησης Δ=7, 23 και 30, δημιουργήσαμε χρονοσειρές με διαφορετική πολυπλοκότητα (οι αντίστοιχες μορφοκλασματικές διαστάσεις είναι 2, 2.4 και 3). Για το κάθε δυναμικό σύστημα ορίσαμε 3 καταστάσεις και δημιουργήσαμε 50 χρονοσειρές των 000 παρατηρήσεων για την κάθε κατάσταση (3 ομάδες και M=50 χρονοσειρές). Κάναμε 00 Mote Carlo επαναλήψεις για το κάθε δυναμικό σύστημα με και χωρίς λευκό θόρυβο 20% στις χρονοσειρές (δηλαδή προσθέσαμε Γκαουσιανό λευκό θόρυβο με τυπική απόκλιση το 20% αυτή της χρονοσειράς). 2.6 Επιλογή Γνωρισμάτων της Χρονοσειράς Για την επιλογή του καλύτερου συνδυασμού γνωρισμάτων χρησιμοποιήθηκε η διαδικασία της σειριακής προς τα μπρος επιλογής (Sequetial Forward Selectio - SFS) εφαρμόζοντας επαναληπτικό αλγόριθμος αναζήτησης (Aha et al, 995). Σε κάθε επανάληψη αναζητείται το γνώρισμα που συνεισφέρει περισσότερο στη διαδικασία συσταδοποίησης όταν προστίθεται στα γνωρίσματα που ήδη επιλέχτηκαν στο προηγούμενο βήμα. Ως συνάρτηση αξιολόγησης (evaluatio fuctio) χρησιμοποιήθηκε το από την (). Για να θεωρηθεί ότι ένα γνώρισμα συνεισφέρει στη βελτίωση του ( ew ) σε σχέση με το από τα ήδη επιλεγμένα γνωρίσματα ( old ) θα πρέπει ( ew - old )/ old >0.05. Ο αλγόριθμος ολοκληρώνεται όταν δεν υπάρχει επιπλέον βελτίωση του. Για κάθε Mote Carlo πραγματοποίηση καταγράφηκε ο επιλεγμένος συνδυασμός γνωρισμάτων και το αντίστοιχο. Τέλος επιλέχθηκε ο συνδυασμός γνωρισμάτων με την μεγαλύτερη συχνότητα εμφάνισης στις 00 πραγματοποιήσεις. Η ίδια διαδικασία επαναλήφθηκε για όλες τις μεθόδους κανονικοποίησης και η καλύτερη μέθοδος είναι αυτή που ο πιο συχνός συνδυασμός χαρακτηριστικών μέτρων παρουσίασε τη μέγιστη απόδοση συσταδοποίησης.. 3. ΑΠΟΤΕΛΕΣΜΑΤΑ 3. Συστήματα Lorez-95 και Mackay-Glass Η γραμμική κανονικοποίηση δίνει τα καλύτερα αποτελέσματα και στα δύο συστήματα που χρησιμοποιήσαμε, τα οποία παρατίθενται στον Πίνακα 3. Ο συνδυασμός της Μέσης Τιμής Τοπικών Μεγίστων με το Άθροισμα Αμοιβαίας - 502 -

Πληροφορίας (q και q 8 ) δίνει μέσο στο 0.96 για το σύστημα Lorez-95 είτε χωρίς είτε με θόρυβο, δηλώνοντας ότι και κατά την ύπαρξη θορύβου οι χρονοσειρές διαχωρίζονται εύκολα (Εικόνα α). Πίνακας 3. Ο συνδυασμός των μέτρων που έδωσαν τα καλύτερα αποτελέσματα για τα δύο δυναμικά συστήματα με χρήση γραμμικής κανονικοποίησης. Γραμμική Κανονικοποίηση Γνωρίσματα Mote Carlo Επαναλήψεις Μέση Τιμή Tυπική Aπόκλιση Γνωρίσματα Mote Carlo Επαναλήψεις Μέση Τιμή Tυπική Aπόκλιση Lorez95 F=5,6,8 Macay-Glass Δ=7,23,30 q 8 2 0.92 ± 0.05 q 3 4 0.97 ± 0.0 q 8,q 4 83 0.96 ± 0.02 q 3,q 7 94.00 ± 0.0 q 8,q 3 0.96 q 4,q 7.00 q 8,q 4,q 5 6 0.99 q 4,q 8.00 q 8,q 4,q 2 4 0.98 ± 0.02 q 8,q 4,q 7 3 0.97 ± 0.0 Macay-Glass Δ=7,23,30 με θόρυβο q 8,q 7,q 5 0.94 q 4 0.90 q 3 50 0.88 ± 0.04 Lorez95 F=5,6,8 με θόρυβο q 4,q 7 6 0.93 ± 0.03 q 8 6 0.88 ± 0.06 q 3,q 4 4 0.94 ± 0.02 q 8,q 4 76 0.96 ± 0.03 q 3,q 7 3 0.93 ± 0.04 q 8,q 3 2 0.9 ± 0.0 q 3,q 7,q 6 7 0.96 ± 0.0 q 8,q 7 0.88 ± q 3,q 7,q 4 7 0.96 ± 0.0 q 8,q 0 3 0.89 ± 0.03 q 3,q 7,q 5 0.94 q 8,q 4,q 2 5 0.96 ± 0.03 q 4,q 7,q 6 0.92 q 8,q 4,q 0 7 0.98 ± 0.02 Εικόνα. (α) Συστάδες για το σύστημα Lorez-95 στο χώρο που ορίζεται από τα μέτρα της Μέσης Τιμής Τοπικών Μεγίστων και του Αθροίσματος Αμοιβαίας Πληροφορίας. β) Το ίδιο για το σύστημα Mackey-Glass και τα μέτρα του Αθροίσματος Αυτοσυσχέτισης Box-Pierce και τη Μέση Τιμή Τοπικών Περιόδων. (α) (β) Ακόμα μεγαλύτερη ακρίβεια συσταδοποίησης (της τάξης 00% για το ) έδωσε για το σύστημα Mackey-Glass ο συνδυασμός των μέτρων του Αθροίσματος Αυτοσυσχέτισης Box-Pierce με τη Μέση Τιμή Τοπικών Περιόδων όταν δεν υπάρχει - 503 -

θόρυβος (Εικόνα β). Στο ίδιο σύστημα με θόρυβο 20% το μέτρο του Αθροίσματος της Αυτοσυσχέτισης Box-Pierce από μόνο του ήταν ικανό να δίνει ακρίβεια στη συσταδοποίηση της τάξης του 88% με δεύτερο σημαντικό χαρακτηριστικό τη Μέση Τιμή Τοπικών Μεγίστων. 3.2 Ηλεκτροεγκεφαλογραφήματα Εφαρμόσαμε την παραπάνω μεθοδολογία σε πολυ-κάναλες εξω-κρανιακές καταγραφές ηλεκτροεγκεφαλογραφημάτων (EEG) στα 200Hz από 4 ασθενείς με επιληψία. Τα δεδομένα χωρίζονται στις εξής περιόδους σε σχέση με την επιληπτική κρίση: Α) λίγο πριν την κρίση (80sec-2mi, την ονομάζουμε pre-ictal), Β) ώρα πριν την κρίση και Γ) 5 ώρες πριν την κρίση (ονομάζουμε τα Β) και Γ) pre-pre-ictal). Η κάθε ομάδα περιέχει δεδομένα από 25 κανάλια (χρονοσειρές) και για κάθε ασθενή οι χρονοσειρές είναι ίδιου μήκους (80sec-2mi) για να έχουμε αμερόληπτη εκτίμηση των μέτρων. Θέλουμε να διερευνήσουμε αν ο σχεδιασμός μας μπορεί να διαχωρίσει τα δεδομένα σε δύο συστάδες, μία συστάδα pre-ictal (A), και μία συστάδα pre-preictal (B,Γ) (Kugiumtzis & Larsso, 2000), (Morma et al, 2005). Επίσης διερευνήσαμε τα μέτρα και την κανονικοποίηση, που δίνουν την καλύτερη απόδοση στη συσταδοποίηση. Στον Πίνακα 4 δίνονται τα αποτελέσματα για τους τέσσερις ασθενείς, όπου παρατηρούμε ότι κάθε περίπτωση είναι διαφορετική, με το μέγιστο εκθέτη Lyapouov να επιλέγεται σε δύο από τις τέσσερις περιπτώσεις. Πίνακας 4. Προτεινόμενα μέτρα, μέθοδος κανονικοποίησης και απόδοση της συσταδοποίησης για τις δύο καταστάσεις (preictal και pre-pre-ictal ) από τέσσερις ασθενείς με επιληψία. Ασθενής 2 ομάδες 2 λεπτά Ασθενής 2 ομάδα 2 λεπτά 5.000 καταγραφές ομάδα 5 ώρες 24.000 καταγραφές ομάδα 5 ώρες (75 sec) (20 sec) Κανονικοποίηση Μέτρα Κανονικοποίηση Μέτρα Γραμμική q 5,q 3,q 2 0.89 Γραμμική q 9 0.35 Gauss q 5,q 7 0.79 Gauss q 7 0.84 Λογιστική q 5,q 9 0.75 Λογιστική q 7,q 6 0.57 Λογαριθμική q 5 0.66 Λογαριθμική q 7,q 6 0.84 Διασποράς q 2,q 3 0.79 Διασποράς q 9,q 5 0.70 Ασθενής 3 ομάδα 2 λεπτά Ασθενής 4 ομάδα 2 λεπτά 22.000 καταγραφές ομάδα ώρα 7.000 καταγραφές ομάδα ώρα (0 sec) (85 sec) ομάδα 5 ώρες Κανονικοποίηση Μέτρα Κανονικοποίηση Μέτρα Γραμμική q 4,q 8 0.40 Γραμμική q 5 0.6 Gauss q 4 0.84 Gauss q 5,q 0 0.53 Λογιστική q 3 0.40 Λογιστική q 5,q 0.74 Λογαριθμική q 6,q 4,q 0 0.92 Λογαριθμική q 5 0.57 Διασποράς q 4,q 8 0.40 Διασποράς q 5,q 0.70-504 -

Τα μέτρα που επιλέχθηκαν πρώτα, συνεισφέρουν περισσότερο στην υψηλή απόδοση της συσταδοποίησης και όπως φαίνεται στην Εικόνα 2 οι τιμές τους παρουσιάζουν υψηλή διακριτική ικανότητα στις ομάδες των EEG για κάθε ασθενή. Εικόνα 2. Μέτρα που συνεισφέρουν περισσότερο στην απόδοση της συσταδοποίησης. (α) Ασθενής : Μέγιστος Εκθέτης Lyapuov. (β) Ασθενής 2: Μέση Τιμή Τοπικών Περιόδων. (γ) Ασθενής 3: Κύρτωση. (δ) Ασθενής 4: Μέγιστος Εκθέτης Lyapuov. (α) (β) (γ) (δ) 4. ΣΥΜΠΕΡΑΣΜΑΤΑ Ο σχεδιασμός που αναπτύξαμε βρίσκει τα κατάλληλα χαρακτηριστικά χρονοσειρών και την κατάλληλη κανονικοποίηση για την καλύτερη δυνατή απόδοση της συσταδοποίησης. Οι Mote Carlo προσομοιώσεις έδειξαν ότι η επιλογή μέτρων ταλάντωσης σε συνδυασμό με κάποιο μέτρο συσχέτισης βελτιώνει σημαντικά την ακρίβεια της συσταδοποίησης. Φάνηκε μάλιστα ότι ο συνδυασμός λίγων μέτρων επιτυγχάνει καλύτερη απόδοση στη συσταδοποίηση. Ο υπολογισμός χαρακτηριστικών μέτρων ταλάντωσης στις χρονοσειρές είναι ταχύτερος και μπορεί σε πολλές περιπτώσεις να αποδίδει καλύτερα από άλλα μέτρα με μεγαλύτερο χρόνο υπολογισμού. Για τα EEG φάνηκε ότι για κάθε περίπτωση (ασθενή) διαφορετικά μέτρα και διαφορετική μέθοδος κανονικοποίησης δίνουν τα καλύτερα αποτελέσματα, εμφανίζοντας μια προτίμηση στο μέτρο του Μέγιστου Εκθέτη Lyapuov. ΕΥΧΑΡΙΣΤΙΕΣ Ευχαριστώ το Δημ. Κουγιουμτζή (Γενικού Τμήματος Πολυτεχνικής Σχολής ΑΠΘ) για τη συνεργασία καθώς και τον Paäl Larsso (Κρατικό Κέντρο Επιληψίας Νορβηγίας) για την παραχώρηση των EEG δεδομένων. - 505 -

ABSTRACT I this work, we cocetrate o time series from dyamical systems that exhibit oscillatory behavior, such as electroecephalograms (EEG). We cosider clusterig o features extracted from the time series (feature-based clusterig). I additio we apply stadardizatio of the features prior to clusterig. As features we iclude simple liear ad statistical measures as well as features related to the oscillatios of the time series. The objective is to fid the features that cotribute most to accurate clusterig of time series that regard differet dyamical states. The clusterig accuracy is measured by the Corrected Rad idex (). To obtai statistically sigificat results we geerate Mote Carlo realizatios, where each realizatio regards a data base of groups of time series ad each group represet a differet dyamical state. To simulate the dyamical states we used the Lorez-95 system at three chaotic regimes of varyig complexity ad the Mackey-Glass system, also at three chaotic regimes. For the search of the best feature combiatio we used the sequetial forward selectio method (SFS). The results showed that the oscillatio-related features cotributed most ad ofte i combiatio with a oliear feature. We applied the clusterig set-up with the same features o epileptic EEG data from pre-pre-ictal state (oe to several hours before seizure oset) ad pre-ictal state (few miutes before seizure oset). ΑΝΑΦΟΡΕΣ Aha D.W. ad Bakert R.L. (995). A comparative evaluatio of sequetial feature selectio algorithms. I: D. Fisher ad H. Lez (eds.), Proc. 5 It. Workshop o Artificial Itelligece ad Statistics, 7. Dempster A., Laird P. ad Rubi D.B. (977). Maximum-likelihood from icomplete data via the EM algorithm. Joural of the Royal Statistic Society: Series B, 39, 38. Hartiga J.A. ad Wog M.A. (979). A k-meas clusterig algorithm. Applied Statistics, 28, 00 08. Hirsch E., Aderma F., Chauvel P., Egel J., Lopes da Silva F. ad Luders H. (2006). Geeralized Seizures: from Cliical Pheomeology to Uderlyig Systems ad Networks. Elsevier, Paris. Hubert L. ad Arabie P. (985). Comparig partitios. Joural of Classificatio, 2, 93 28. Katz H. ad Schreiber T. (997). Noliear Time Series Aalysis. Cambridge Uiversity Press, Cambridge. Kugiumtzis D, ad Larsso P.G. (2000). Liear ad oliear aalysis of EEG for the predictio of epileptic seizures. Proceedigs of the 999 Workshop ''Chaos i Brai?'', World Scietific, Sigapore, 329 333. Liao T.W. (2005). Clusterig of time series data - a survey. Patter Recogitio, 38, 857 874. Lorez, E. ad Emauel K. (998). Optimal sites for supplemetary weather observatios: Simulatio with a Small Model. Joural of the Atmospheric Scieces, 55, 399 44. Mackey M. ad Glass L. (977). Oscillatio ad chaos i physiological cotrol systems. Sciece, 97, 287. - 506 -

Morma F., Kreuz T., Rieke R.G., Adrzejak C., Kraskov A., David P., Elger C.E. ad Lehertz K. (2005). O the predictability of epileptic seizures. Cliical Neurophysiology, 6, 569 587. Pikovsky A., Roseblum M., ad Kurths J. (2003). Sychroizatio: A Uiversal Cocept i Noliear Sciece. Noliear Sciece Series Vol 2, Cambridge. - 507 -