|
|
- Λυσάνδρα Αξιώτης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Π.Μ.Σ. ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ Κουτλής Χρήστος Διάκριση δυναμικών καταστάσεων από χαρακτηριστικά χρονοσειρών. ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Κουγιουμτζής Δημήτρης Αναπληρωτής Καθηγητής, Τμήμα Η.Μ.Μ.Υ. Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗ ΦΕΒΡΟΥΑΡΙΟΣ 2014
2
3 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Π.Μ.Σ. ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ Κουτλής Χρήστος Διάκριση δυναμικών καταστάσεων από χαρακτηριστικά χρονοσειρών. ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Κουγιουμτζής Δημήτρης Αναπληρωτής Καθηγητής, Τμήμα Η.Μ.Μ.Υ. Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗ ΦΕΒΡΟΥΑΡΙΟΣ 2014
4
5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Π.Μ.Σ. ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ Κουτλής Χρήστος Διάκριση δυναμικών καταστάσεων από χαρακτηριστικά χρονοσειρών. ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Κουγιουμτζής Δημήτρης Αναπληρωτής Καθηγητής, Τμήμα Η.Μ.Μ.Υ. Α.Π.Θ. Εγκρίθηκε από την τριμελή εξεταστική επιτροπή Δ. Κουγιουμτζής Ι. Αντωνίου Π. Μωυσιάδης Αν. Καθηγητής Α.Π.Θ. Καθηγητής Α.Π.Θ. Καθηγητής Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗ ΦΕΒΡΟΥΑΡΙΟΣ 2014
6 ... Χρήστος Δ. Κουτλής Πτυχιούχος Μαθηματικός Α.Π.Θ. Copyright c Χρήστος Δ. Κουτλής, 2014 Με επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαίδευσης ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να α- πευθύνονται προς τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι εκφράζουν τις επίσημες θέσεις του Α.Π.Θ. 1
7 Ευχαριστίες Με την ολοκλήρωση της διπλωματικής μου εργασίας θα ήθελα να ευχαριστήσω θερμά τον επιβλέποντα καθηγητή μου κ. Δημήτρη Κουγιουμτζή για το θέμα που μου εμπιστεύθηκε καθώς επίσης και για τις συμβουλές, την συμπαράσταση και τον αμέτρητο χρόνο που αφιέρωσε σε κάθε απορία μου. Επίσης ένα μεγάλο ευχαριστώ θα ήθελα να απευθύνω στην οικογένειά μου που στήριξε τις σπουδές μου και οικονομικά, αλλά κυρίως τους ευχαριστώ για την αμέριστη ηθική υποστήριξη και συμπαράσταση. i
8 Πρόλογος Η εργασία αυτή εκπονήθηκε στα πλαίσια του Προγράμματος Μεταπτυχιακών Σπουδών του τμήματος Μαθηματικών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης Στατιστική και Μοντελοποίηση. Στο κεφάλαιο 1 κάνουμε μία εισαγωγή στα συστήματα που παράγουν χρονοσειρές. Στο κεφάλαιο 2 παρουσιάζουμε τα χαρακτηριστικά των χρονοσειρών που χρησιμοποιήσαμε από τη βιβλιογραφία. Στο κεφάλαιο 3 εξηγούμε πως γίνεται η διάκριση καταστάσεων με μέτρα σε χρονοσειρές, τους τρόπους με τους οποίους υλοποιείται κάτι τέτοιο αλλά και τα προβλήματα που ανακύπτουν. Στο κεφάλαιο 4 παρουσιάζουμε την υπολογιστική διεργασία και τα αποτελέσματα που προέκυψαν από την ανάλυση των προσομοιωτικών δεδομένων. Στο κεφάλαιο 5 κάνουμε την ίδια δουλειά για τα πραγματικά δεδομένα που προκύπτουν από ηλεκτροεγκεφαλογραφήματα ενώ τέλος στο κεφάλαιο 6 παραθέτουμε μία συνολική ματιά της εργασίας και συμπεράσματα. ii
9
10 Περιεχόμενα 1 Χρονοσειρές και συστήματα που τις παράγουν Εισαγωγή Στοχαστικά συστήματα Τυχαίος περίπατος Λευκός θόθυβος Ανεξάρτητες ισόνομες τυχαίες μεταβλητές (iid) Αυτοπαλινδρομούμενη διαδικασία τάξης p Συσχετίσεις μακράς εμβέλειας Ντετερμινιστικά συστήματα Σύστημα Lorenz Σύστημα Rössler Σύστημα Mackey-Glass Χαρακτηριστικά Χρονοσειρών Απλά στατιστικά Μέτρα συσχέτισης Μέτρα εντροπίας, διάστασης και πολυπλοκότητας Μέτρα βασισμένα στη μοντελοποίηση Χρονοσειρές χαρακτηριστικών και μέτρα Διάκριση καταστάσεων από χαρακτηριστικά Βιβλιογραφική ανασκόπηση Δείκτες αξιολόγησης μέτρων AUROC F-measure Matthews correlation coefficient T-test Προβλήματα από την εφαρμογή του AUROC Προσομοιωτικά δεδομένα (Mackey - Glass) Σενάρια δυναμικών καταστάσεων Σχεδιασμός και πραγματοποίηση Αποτελέσματα iv
11 Περιεχόμενα Διάκριση καταστάσεων 1: = 30 και = Διάκριση καταστάσεων 2: = 30 και = Διάκριση καταστάσεων 3: = 100 και = Διάκριση καταστάσεων 4: = 200 και = Διάκριση καταστάσεων 5: = 200 και = Διάκριση καταστάσεων 6: = 250 και = Μέσο AUROC Συμπεράσματα Εφαρμογή με πραγματικά δεδομένα (EEG) Πρόβλημα και σχεδιασμός Αποτελέσματα Raw ComAve REST Συμπεράσματα Σύνοψη της εργασίας και συμπεράσματα 85 Βιβλιογραφία 87 v
12 Κατάλογος Σχημάτων 1.1 Διαγράμματα ιστορίας πραγματικών χρονοσειρών [2]. Αριστερά: Η χρονοσειρά των ετήσιων ηλιακών κηλίδων από το 1900 έως το 2010, δεξιά: ηλεκτροεγκεφαλογράφημα [EEG] από ένα ηλεκτρόδιο κατά τη διάρκεια επιληπτικής κρίσης Πραγματοποιήσεις γραμμικών και μη-γραμμικών συστημάτων [64] Τυχαίος περίπατος Πηγή: http : //en.wikipedia.org/wiki/random walk Λευκός θόρυβος Πηγή: http : //en.wikipedia.org/wiki/w hite noise Συνάρτηση αυτοσυσχέτισης για διαδικασίες με μνήμη βραχείας και μακράς εμβέλειας [5] Ολκός του συστήματος Lorenz Ολκός του συστήματος Rössler Ολκός Rössler για διάφορες τιμές του c (Wikipedia) Εκτίμηση πολυπλοκότητας [9] Η μία καμπύλη είναι η κατανομή των τιμών του μέτρου στις χρονοσειρές της πρώτης κατηγορίας ενώ η δεύτερη στις χρονοσειρές της δεύτερης κατηγορίας Καμπύλη ROC Χρονοσειρές από το σύστημα Mackey - Glass. (α) = 30 (β) = 100 (γ) = 200 (δ) = Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% vi
13 Κατάλογος Σχημάτων 4.14 Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Ηλεκτροεγκεφαλογράφημα από ένα ηλεκτρόδιο. Αριστερά: πριν το TMS, δεξιά: μετά το TMS Καταγραφή ηλεκτροεγκεφαλογραφήματος Χρονική περιοχή. Σήμα από 13 ηλεκτρόδια ενός υγιή πριν, κατά τη διάρκεια και μετά το TMS (Raw Data) Ιστογράμματα καλύτερων μέτρων. Raw, PostTMS Ιστογράμματα καλύτερων μέτρων. Raw, DIF Ιστογράμματα καλύτερων μέτρων. Raw, RELDIF Ιστογράμματα καλύτερων μέτρων. ComAve, PostTMS Ιστογράμματα καλύτερων μέτρων. ComAve, DIF Ιστογράμματα καλύτερων μέτρων. ComAve, RELDIF Ιστογράμματα καλύτερων μέτρων. REST, PostTMS Ιστογράμματα καλύτερων μέτρων. REST, DIF Ιστογράμματα καλύτερων μέτρων. REST, RELDIF vii
14 Κατάλογος Πινάκων 2.1 Μέτρα σε Χρονοσειρές για διάκριση δυναμικών καταστάσεων. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή στην τρίτη το πλήθος των διαφορετικών τιμών των παραμέτρων που επιλέχθηκαν και στην τέταρτη στήλη σχετικές βιβλιογραφικές αναφορές Μέτρα σε Χρονοσειρές για διάκριση δυναμικών καταστάσεων. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή στην τρίτη το πλήθος των διαφορετικών τιμών των παραμέτρων που επιλέχθηκαν και στην τέταρτη στήλη σχετικές βιβλιογραφικές αναφορές Μέτρα σε Χρονοσειρές για διάκριση δυναμικών καταστάσεων. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή στην τρίτη το πλήθος των διαφορετικών τιμών των παραμέτρων που επιλέχθηκαν και στην τέταρτη στήλη σχετικές βιβλιογραφικές αναφορές Μέτρα RQA Χρονοσειρές χαρακτηριστικών, εξαγώμενες από την αρχική χρονοσειρά[38] Μέτρα που εφαρμόζουμε στις χρονοσειρές χαρακτηριστικών, με w κάποια από αυτές του Πίνακα 2.5 [38]. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή και στην τρίτη το πλήθος των διαφοροποιήσεων του μέτρου Πιθανές περιπτώσεις επιτυχίας - αποτυχίας μοντέλου Πιθανοί διαχωρισμοί Διαχωρισμός με όλα τα στοιχεία ίδια α= Πλήθος χρονοσειρών ανά σενάριο και τιμή του Κατάταξη των μέτρων ανά σενάριο και ανά σύγκριση από το καλύτερο προς το χειρότερο Κατάταξη των μέτρων ανά σύγκριση από το καλύτερο προς το χειρότερο Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% viii
15 Κατάλογος Πινάκων 4.8 Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Ολα τα σενάρια μαζί Τα 20 καλύτερα μέτρα κατά μέσο όρο ως προς το AUROC Θέσεις ηλεκτροδίων στην περιοχή ενδιαφέροντος (ROI) Διάκριση καταστάσεων ανά τύπο δεδομένων (3 αξιολογήσεις) Πίνακας καλύτερων μέτρων. Raw data, PostTMS Πίνακας καλύτερων μέτρων. Raw data, DIF Πίνακας καλύτερων μέτρων. Raw data, RELDIF Πίνακας καλύτερων μέτρων. ComAve, PostTMS Πίνακας καλύτερων μέτρων. ComAve, DIF Πίνακας καλύτερων μέτρων. ComAve, RELDIF Πίνακας καλύτερων μέτρων. REST, PostTMS Πίνακας καλύτερων μέτρων. REST, DIF Πίνακας καλύτερων μέτρων. REST, RELDIF ix
16 Κεφάλαιο 1 Χρονοσειρές και συστήματα που τις παράγουν 1.1 Εισαγωγή Η παρατήρηση των φυσικών φαινομένων έφερε την ανάγκη ποσοτικοποίησης τους και στη συνέχεια ανάλυσης αυτών των δεδομένων με μεθόδους της στατιστικής και της ανάλυσης χρονοσειρών. Σήμερα αυτές οι μέθοδοι χρησιμοποιούνται σε ένα ευρύ φάσμα επιστημονικών πεδίων όπως η ιατρική, η βιολογία, η οικονομία, η κλιματολογία, η φυσική και η σεισμολογία. Αρχικά θα πρέπει να ορίσουμε την έννοια της χρονοσειράς, μιας και αποτελεί βασικό κομμάτι της εργασίας, η ανάλυσή τους. Χρονοσειρά {x n } N n=1 είναι μία διατεταγμένη, ως προς τον χρόνο, ακολουθία τιμών μίας μεταβλητής οι οποίες έχουν ληφθεί σε διαφορετικές χρονικές στιγμές που συνήθως ισαπέχουν μεταξύ τους. Πολύ γνωστά παραδείγματα χρονοσειρών από τη βιβλιογραφία είναι ο γενικός δείκτης του Χρηματιστηρίου, ο αριθμός των ηλιακών κηλίδων ανά έτος και το ηλεκτροεγκεφαλογράφημα, (βλέπε σχ. 1.1) [2]. Σχήμα 1.1: Διαγράμματα ιστορίας πραγματικών χρονοσειρών [2]. Αριστερά: Η χρονοσειρά των ετήσιων ηλιακών κηλίδων από το 1900 έως το 2010, δεξιά: ηλεκτροεγκεφαλογράφημα [EEG] από ένα ηλεκτρόδιο κατά τη διάρκεια επιληπτικής κρίσης Πίσω από τις πραγματοποιήσεις των χρονοσειρών υπάρχει ένας μηχανισμός που παράγει τις τιμές σύμφωνα με μια διαδικασία. Ο μηχανισμός είναι ένα δυναμικό σύστημα, 1
17 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν δηλαδή ένα σύστημα μεταβλητών που αλλάζουν στο χρόνο και μπορεί να αλληλεπιδρούν μεταξύ τους. Αυτός μπορεί να εμπεριέχει τυχαιότητα και οι τιμές των παρατηρήσεων να λαμβάνονται με πιθανότητα, δηλαδή το μέγεθος που μετράμε είναι μια τυχαία μεταβλητή. Τότε ονομάζεται στοχαστικό δυναμικό σύστημα. Ενώ μπορεί να μην εμπεριέχει τυχαιότητα και να είναι πλήρως κατανοητή η διαδικασία παραγωγής των τιμών,να γνωρίζουμε δηλαδή τις εξισώσεις που διέπουν το σύστημά μας. Τότε ονομάζεται ντετερμινιστικό δυναμικό σύστημα. Ακόμη στα δεδομένα μας μπορεί να υπάρχει θόρυβος, δηλαδή να υπάρχουν μικρές ή μεγάλες ανακρίβειες εξ αιτίας κάποιων παραγόντων που δεν μπορούμε να ελέγξουμε. Πιο συγκεκριμένα μπορεί να έχουμε δυναμικό θόρυβο (θόρυβο συστήματος) ή θόρυβο παρατήρησης. Ο δυναμικός θόρυβος έχει να κάνει με την εξέλιξη της παρατηρούμενης διαδικασίας εκφράζοντας όλους τους αστάθμητους, εξωγενείς παράγοντες του προβλήματος που δεν μπορούμε να εξηγήσουμε οι οποίοι επηρεάζουν την εξέλιξη του φαινομένου. Ο θόρυβος παρατήρησης προέρχεται από τα σφάλματα μέτρησης, την αδυναμία ακρίβειας στη μέτρηση και γενικώς το στοιχείο του τυχαίου στη διαδικασία της μέτρησης, πράγμα που δεν επηρεάζει την μετέπειτα πορεία της διαδικασίας [2]. Ενας επιπλέον τρόπος διαχωρισμού των δυναμικών συστημάτων είναι ως προς την γραμμικότητα. Ενα σύστημα λέγεται γραμμικό όταν η αλληλεπίδραση των μεταβλητών του γίνεται με γραμμικό τρόπο και άρα οι εξισώσεις του, συνδέουν την μελλοντική τιμή, μιας πραγματοποίησης αυτού του συστήματος, με έναν γραμμικό συνδυασμό των τιμών του στο παρελθόν. Αντίθετα σε ένα μη-γραμμικό σύστημα η μελλοντική τιμή συνδέεται και με μη-γραμμικό συνδυασμό όπως δυνάμεις και γινόμενα των προηγούμενων τιμών του. Γραμμικά ή μη-γραμμικά μπορούν να είναι και τα ντετερμινιστικά και τα στοχαστικά δυναμικά συστήματα. Παρακάτω (Σχήμα 1.2) παραθέτουμε μερικές πραγματοποιήσεις δυναμικών συστημάτων που έχουν κάποιες από τις παραπάνω ιδιότητες [64]. Εχουμε τις εξισώσεις: x n+1 = φx n + e n+1 (1.1) x n+1 = 1 ax 2 n + bx n 1 + e n+1 (1.2) όπου e n είναι ανεξάρτητες και ισόνομες τυχαίες μεταβλητές από την κανονική κατανομή με μέση τιμή μηδέν και τυπική απόκλιση σ e. Είναι προφανές πώς η (1.1) έχει γραμμική δυναμική με επιπρόσθετο θόρυβο, ενώ η (1.2) έχει μη-γραμμική δυναμική επίσης με θόρυβο. Η (1.1) δεν θα είχε ενδιαφέρουσα δυναμική χωρίς τον θόρυβο e n μιας και θα συνέκλινε, αργά ή γρήγορα, στο μηδέν (αν φ <1) ή θα ήταν σταθερή (αν φ=1) ή θα έπαιρνε δύο τιμές x 0 και x 0 (αν φ=-1) ή θα πήγαινε στο άπειρο (αν φ >1). Η (1.2) είναι η απεικόνιση Henon [28]η οποία μπορεί να έχει συμπεριφορά είτε χαοτική είτε περιοδική ανάλογα με την τιμή των παραμέτρων της a, b. 1.2 Στοχαστικά συστήματα Στην προηγούμενη ενότητα αναφερθήκαμε σε συστήματα που παράγουν τιμές με τυχαίο τρόπο και όχι με καθοριστικό, τα οποία ονομάσαμε στοχαστικά δυναμικά συστήματα ή αλλιώς στοχαστικές διαδικασίες. Κάποιες από τις σημαντικότερες στοχαστικές 2
18 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν (αʹ) χρονοσειρά του γραμμικού στοχαστικού συστήματος (1.1) για φ = 0.3 και τερμινιστικού συστήματος (1.2) για a = (βʹ) χρονοσειρά του μη γραμμικού ντε- σ e = 0.1 1, b = 0.3 και σ e = 0 (γʹ) χρονοσειρά του μη γραμμικού στοχαστικού συστήματος (1.2) για a = 1, b = τερμινιστικού συστήματος (1.2) για a = (δʹ) χρονοσειρά του μη γραμμικού ντε- 0.3 και σ e = , b = 0.3 και σ e = 0 Σχήμα 1.2: Πραγματοποιήσεις γραμμικών και μη-γραμμικών συστημάτων [64] διαδικασίες αναφέρονται επιγραμματικά παρακάτω, ενώ στην τελευταία υποπαράγραφο παραθέτουμε κάποια βασικά στοιχεία για τις συσχετίσεις μακράς εμβέλειας που θα μας απασχολήσουν αργότερα Τυχαίος περίπατος Εστω ότι έχουμε ένα κινητό σώμα επάνω στον άξονα της πραγματικής ευθείας R, το οποίο με πιθανότητα p, πηγαίνει ένα βήμα σταθερού μεγέθους l=1 δεξιά και με πιθανότητα q = 1 p πηγαίνει ένα βήμα αριστερά [1]. Η τυχαία μεταβλητή που δίνει το βήμα είναι η εξής: { +1, με πιθανότητα p Z i = (1.3) 1, με πιθανότητα q Η θέση του κινητού ύστερα από χρόνο t προσδιορίζεται από το άθροισμα όλων αυτών 3
19 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν Σχήμα 1.3: Τυχαίος περίπατος Πηγή: http : //en.wikipedia.org/wiki/random walk των τυχαίων βημάτων από τον χρόνο 0 έως τον χρόνο t, δηλαδή: X t = t Z k (1.4) k=0 Η στοχαστική διαδικασία X 0, X 1, X 2,... ονομάζεται τυχαίος περίπατος και είναι μία μη-στάσιμη στοχαστική διαδικασία με μέση τιμή E[X t ]=0 και διασπορά, σx 2 = E[X2 t ] = tσz 2. Η διασπορά του τυχαίου περιπάτου επομένως είναι ανάλογη του χρόνου t [2]. Το όνομά της η διαδικασία προφανώς το πήρε ακριβώς από την κίνηση κάποιου σε μία ευθεία γραμμή που κάνει τυχαία βήματα (Z t ) εμπρός ή πίσω, από το σημείο που βρίσκεται (X t 1 ) στο επόμενο (X t ) [2]. Είναι γνωστή στα οικονομικά ως Random walk hypothesis η υπόθεση πως οι τιμές που παίρνουν οι μετοχές εξελίσσονται όπως ένας τυχαίος περίπατος κι έτσι δεν μπορούν να προβλεφθούν Λευκός θόθυβος Η στοχαστική διαδικασία του λευκού θορύβου έχει διάφορους ορισμούς στην βιβλιογραφία, όπως για παράδειγμα: Λευκός θόρυβος είναι μια στάσιμη στοχαστική διαδικασία με σταθερό φάσμα συχνοτήτων [14] ή Μπορούμε να πούμε ότι μια διαδικασία v(t) είναι λευκός θόρυβος, αν όλες οι τιμές της v(t i ) και v(t j ) είναι ασυσχέτιστες για κάθε t i και t j t i : C(t i, t j ) = 0, t i t j [54] 4
20 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν (αʹ) Διάγραμμα του σήματος Γκαουσιανού λευκού θορύβου (βʹ) Εικόνα λευκού θορύβου Σχήμα 1.4: Λευκός θόρυβος Πηγή: http : //en.wikipedia.org/wiki/w hite noise Ο μαθηματικός ορισμός του λευκού θορύβου είναι E[X i X j ] = δ ij σx 2 για δύο τυχαίες μεταβλητές της χρονοσειράς {X i } t=, όπου δ ij το δέλτα του Κρόνεκερ. Ο συμβολισμός του είναι W N(0, σx 2 ), όπου μηδέν ειναι η μέση τιμή της χρονοσειράς και σ2 X η διασπορά της [2]. Στο σχήμα 1.4 βλέπουμε μία τυχαία πραγματοποίηση ενός σήματος λευκού θορύβου και δίπλα την εικόνα που παράγεται από τις συχνότητες ενός τέτοιου σήματος δύο διαστάσεων. Αν τα στοιχεία του λευκού θορύβου ακολουθούν την κανονική κατανομή N(0, σx 2 ) τότε ονομάζουμε την διαδικασία Γκαουσιανό λευκό θόρυβο ο οποίος μάλιστα είναι iid όπως ορίζεται παρακάτω [2] Ανεξάρτητες ισόνομες τυχαίες μεταβλητές (iid) Στην στατιστική και την θεωρία πιθανοτήτων ένα σύνολο μεταβλητών X 1, X 2,...X n είναι ανεξάρτητες όταν ισχύει η σχέση: P (X 1 x 1, X 2 x 2,...X n x n ) = P (X 1 x 1 )P (X 2 x 2 )...P (X n x n ) (1.5) όπου P πιθανότητα, X i τυχαίες μεταβλητές και x i πραγματικές τιμές, i = 1,...n. Επομένως μια διαδικασία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών είναι μία ακολουθία τυχαίων μεταβλητών που ικανοποιούν την πιο πάνω ιδιότητα και ταυτόχρονα προέρχονται από την ίδια κατανομή. Η πραγματοποίηση μίας τέτοιας διαδικασίας παράγει μία χρονοσειρά εντελώς απρόβλεπτη και τυχαία η οποία έχει μηδενικές αυτοσυσχετίσεις, επομένως η ανάλυση της δε μπορεί να είναι παρά στατική με τις μεθόδους της περιγραφικής στατιστικής αντλώντας πληροφορίες κυρίως από το ιστόγραμμά της [2]. 5
21 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν Αυτοπαλινδρομούμενη διαδικασία τάξης p Η αυτοπαλινδρομούμενη διαδικασία τάξης p (autoregressive process ή απλά AR(p)) είναι μία γραμμική στοχαστική διαδικασία η οποία λαμβάνει υπ όψιν κάποιες από τις παρελθούσες τιμές, συγκεκριμένα τις p τελευταίες, για να παράξει την νέα μελλοντική τιμή. Είναι μία ειδική περίπτωση της, επίσης γραμμικής στοχαστικής διαδικασίας ARMA. Ο γενικός τύπος αυτής της διαδικασίας είναι: X t = φ 0 + φ 1 X t 1 + φ 2 X t φ p X t p + Z t (1.6) όπου Z t W N(0, σ 2 Z ), φ 0, φ 1, φ 2,...φ p σταθεροί συντελεστές.[2]. Είναι προφανές πως το ντετερμινιστικό μέρος της παραπάνω διαδικασίας είναι το, φ 0 + φ 1 X t 1 + φ 2 X t φ p X t p, ενώ το στοχαστικό μέρος αποτελείται μόνο από την μεταβλητή του λευκού θορύβου Z t. Ο παραπάνω τύπος μπορεί να πάρει μια συμπαγή έκφραση χρησιμοποιώντας τον συντελεστή υστέρησης (θεωρώντας φ 0 = 0): όπου φ(b)x t = Z t (1.7) φ(b) = 1 p φ i B i (1.8) Το τελευταίο πολυώνυμο ονομάζεται χαρακτηριστικό πολυώνυμο και όταν οι ρίζες του είναι εκτός του μοναδιαίου κύκλου η χρονοσειρά είναι στάσιμη [2] Συσχετίσεις μακράς εμβέλειας Οι συσχετίσεις μίας χρονοσειράς εκτιμώνται από την συνάρτηση αυτοσυσχέτισης η οποία ορίζεται ως η κανονικοποίηση της αυτοδιασποράς από την διασπορά: i=1 ρ(τ) = γ(τ) γ(0) Αυτή η συνάρτηση μετράει ουσιαστικά την μνήμη της χρονοσειράς, για παράδειγμα ο λευκός θόρυβος και οι ανεξάρτητες και ισόνομες τυχαίες μεταβλητές έχουν μηδενική συνάρτηση αυτοσυσχέτισης για κάθε υστέρηση, δηλαδή δεν έχουν μνήμη. Κάποιες στοχαστικές διαδικασίες έχουν συνάρτηση αυτοσυσχέτισης που φθίνει γρήγορα με εκθετικό τρόπο και κάποιες άλλες που φθίνει πολύ αργά ακολουθώντας έναν νόμο δύναμης (power law): ρ(τ) τ η 1 Γι αυτές τις στοχαστικές διαδικασίες το ολοκλήρωμα της συνάρτησης αυτοσυσχέτισης απειρίζεται και δεν υπάρχει κάποιος χρόνος αποσυσχέτισης όπου από εκείνη την 6
22 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν (αʹ) Συσχετίσεις που φθίνουν εκθετικά για (βʹ) Οπως στο (α ) αλλά σε λογαριθμική τρεις διαφορετικούς εκθέτες και με νόμο κλίμακα δύναμης. Σχήμα 1.5: Συνάρτηση αυτοσυσχέτισης για διαδικασίες με μνήμη βραχείας και μακράς εμβέλειας [5] υστέρηση και μετά να μην υπάρχει μνήμη στην διαδικασία. Ετσι κάθε νέα τιμή της χρονοσειράς είναι σίγουρα συσχετισμένη με κάποιες παρελθούσες τιμές και η στοχαστική διαδικασία λέμε πως παρουσιάζει συσχετίσεις μακράς εμβέλειας [5]. Στο Σχήμα 1.5 φαίνεται η διαφορά στον τρόπο που φθίνουν οι συναρτήσεις αυτοσυσχέτησης στοχαστικών διαδικασιών βραχείας και μακράς εμβέλειας, που είναι εκθετικός και με νόμο δύναμης αντίστοιχα. 1.3 Ντετερμινιστικά συστήματα Σε αυτή την ενότητα θα παραθέσουμε ορισμένα από τα πιο γνωστά παραδείγματα ντετερμινιστικών δυναμικών συστημάτων που υπάρχουν στη βιβλιογραφία Σύστημα Lorenz Το σύστημα Lorenz είναι ένα σύστημα διαφορικών εξισώσεων που μελετήθηκε α- πό τον μαθηματικό και μετεωρολόγο Edward Norton Lorenz [43]. Η εξίσωση που το παράγει είναι η εξής: d dt x σ σ 0 y = ρ 1 x z y 0 β x y (1.9) z όπου σ, ρ, β 0 σταθερές παράμετροι. Είναι ένα μετεωρολογικό μοντέλο που για κάποιες τιμές των παραμέτρων του και των αρχικών συνθηκών δίνει χαοτικές λύσεις. Ο ολκός του είναι ένα σύνολο χαοτικών λύσεων που προσομοιάζουν με πεταλούδα στον τριδιάστατο χώρο, όπως μπορούμε να 7
23 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν παρατηρήσουμε στο Σχήμα 1.6. Ο Lorenz ανακάλυψε και μελέτησε αυτήν τη συμπεριφορά της τροχιάς για τις τιμές σ = 10, ρ = 28 και β = 8/3 των παραμέτρων για τις οποίες έχει υπολογιστεί, με αριθμητικές μεθόδους, ότι ο μέγιστος εκθέτης Lyapunov είναι λ 0.9 και η διάσταση Hausdorff D H = 2.06 ± Σχήμα 1.6: Ολκός του συστήματος Lorenz Σύστημα Rössler Το σύστημα Rössler παράγεται από τις πιο κάτω εξισώσεις: x x 0 d y = 1 a 0 y + 0 (1.10) dt z z 0 c z b όπου a,b,c σταθερές παράμετροι. Ο Otto E. Rössler μελέτησε τον ολκό που παράγεται από τις τιμές a = b = 0.2, c = 5.7 των παραμέτρων, για τις οποίες παρουσιάζει χαοτική συμπεριφορά με διάσταση συσχέτισης D C Κρατώντας σταθερές τις παραμέτρους a,b=0.2 και μεταβάλλοντας την c βλέπουμε τις διαφορετικές πιθανές μορφές του ολκού, όπου άλλες φορές είναι περιοδικός και άλλες χαοτικός (Σχήμα 1.8) Σύστημα Mackey-Glass Η εξίσωση Mackey-Glass είναι μία πρώτης τάξης μη-γραμμική διαφορική εξίσωση υστέρησης (differential-delay equation) η οποία περιγράφει συστήματα σχετικά με την φυσιολογία του ανθρώπου. Η εξίσωση αυτή παρουσιάζει ένα μεγάλο φάσμα ποικιλομορφίας ως προς την δυναμική της συμπεριφορά όπως ορικούς κύκλους, κυματικές μορφές 8
24 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν Σχήμα 1.7: Ολκός του συστήματος Rössler Σχήμα 1.8: Ολκός Rössler για διάφορες τιμές του c (Wikipedia) 9
25 Κεφάλαιο 1. Χρονοσειρές και συστήματα που τις παράγουν και χαοτικές λύσεις [44], με μικρή έως πολύ μεγάλη διάσταση. Περιγράφεται από την παρακάτω μαθηματική έκφραση: dx dt = β 0θ n x(t ) γx(t) (1.11) θ n + x(t ) n όπου β 0, θ, n, γ σταθερές παράμετροι. Στην εξίσωση αυτή καθώς η παράμετρος υστέρησης αυξάνει μία αρχική σταθερή ισορροπία μετατρέπεται σε ασταθή παρουσιάζοντας περιοδικές λύσεις, ενώ ύστερα από περαιτέρω αύξηση εμφανίζεται ακολουθία διακλαδώσεων (bifurcation) στη δυναμική της, δηλαδή από περιοδικές λύσεις περνάει σε χαοτικές και αντίστροφα. Στην παρούσα εργασία χρησιμοποιούμε πραγματοποιήσεις αυτού του συστήματος στο κεφάλαιο με τα προσομοιωτικά δεδομένα για να κάνουμε διαχωρισμό δυναμικών καταστάσεων. 10
26 Κεφάλαιο 2 Χαρακτηριστικά Χρονοσειρών Το κύριο αντικείμενο της εργασίας είναι ο διαχωρισμός δυναμικών καταστάσεων με τη βοήθεια μέτρων που εφαρμόζουμε πάνω σε χρονοσειρές, τις τιμές των οποίων αναλύουμε μέσα από μία διαδικασία η οποία αναδεικνύει εκείνα τα μέτρα που έχουν την καλύτερη διαχωριστική ικανότητα. Αυτή η πρακτική έχει χρησιμοποιηθεί αρκετές φορές σε παλαιότερες δουλειές ενδεικτικά [67][38][39]. Στην παρούσα εργασία συγκεντρώσαμε όλα εκείνα τα μέτρα που βρήκαμε στην βιβλιογραφία να έχουν χρησιμοποιηθεί γι αυτόν το σκοπό και επιπλέον προσθέσαμε ορισμένα που θεωρήσαμε ότι πιθανώς αξίζει να τα ελέγξουμε ως προς αυτή τους την ικανότητα. Ετσι συνθέσαμε μία μεγάλη λίστα μέτρων προς αξιολόγηση, που αν υπολογίσουμε και τις διαφορετικές τιμές των παραμέτρων τους που επιλέξαμε έχει συνολικά 540 διαφοροποιήσεις των μέτρων. Ειδικές αναφορές για κάθε μέτρο δίνονται στους πίνακες του κεφαλαίου που παραθέτονται κατά κατηγορίες ώστε να οργανώσουμε καλύτερα την ανάγνωση. 2.1 Απλά στατιστικά Λαμβάνοντας υπ όψιν τις εργασίες [38][39] που χρησιμοποίησαν απλά στατιστικά μέτρα στις χρονοσειρές χαρακτηριστικών (μέγιστα, ελάχιστα κλπ (Πίνακας 2.5) ), υπολογίσαμε τα μέτρα που παρατίθενται στον Πίνακα 2.1 για τις αρχικές χρονοσειρές. Δηλαδή πιο συγκεκριμένα υπολογίσαμε, τον γνωστό εκτιμητή της μέσης τιμής (ˆµ = 1 xi ), n 1 τον αμερόληπτο εκτιμητή της τυπικής απόκλισης (ˆσ = (xi ˆµ) n 1 2 ), τον συντελεστή λοξότητας τον συντελεστή κύρτωσης και γενικώς την δειγματική κεντρική ροπή (xi ˆµ) r τάξης r προς την τυπική απόκλιση εις την r (ˆµ r /ˆσ r = 1 n ) για r = 3, 4, 5, 6, ˆσ r το εύρος του δείγματος (R), το εύρος του πρώτου p-ποσοστού της χρονοσειράς (R p ) για p = 25, 50, 75, το p-ποσοστιαίο σημείο του δείγματος για τα ίδια p και το ενδοτεραρτομοριακό πλάτος (IQR). Χρησιμοποιούμε αυτά τα μέτρα για να ελέγξουμε εάν οι διαφορετικές καταστάσεις που μελετάμε έχουν επίσης διαφορετικές κατανομές. Από τα πιο πάνω μέτρα τα ˆµ, ˆσ, R, p, IQR υπολογίστηκαν με τις αντίστοιχες συναρτήσεις που παρέχει η στατιστική εργαλειοθήκη του Matlab, ενώ για τα ˆµ r /ˆσ r, R p δημιουργήσαμε εμείς συναρτήσεις. 11
27 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών 2.2 Μέτρα συσχέτισης Στην λίστα επίσης συμπεριλάβαμε και μέτρα που διακρίνουν την ύπαρξη γραμμικών ή και μη-γραμμικών αυτοσυσχετίσεων στις χρονοσειρές που μελετάμε. Επιγραμματικά τα μέτρα που υπολογίσαμε είναι, η υστέρηση για την οποία ο συντελεστής συσχέτισης Pearson πέφτει κάτω από την τιμή 1/e (τ e ), η υστέρηση για την οποία η αμοιβαία πληροφορία σταματάει να φθίνει (τ max ), τα οποία χρησιμοποιήθηκαν ως μέτρα μνήμης της χρονοσειράς. Η μερική αυτοσυσχέτιση (P ACF ) και οι συντελεστές συσχέτισης κατά Pearson (rx P ), Spearman (rx S ), Kendall (rx K ) χρησιμοποιήθηκαν ως μέτρα αυτοσυσχέτισης της χρονοσειράς για τις σταθερές υστερήσεις τ =5,10,20,30 αλλά και για την εκτιμώμενη υστέρηση τ e. Η αμοιβαία πληροφορία για ισοπίθανους (Ix) p και για ισαπέχοντες (Ix) d διαχωρισμούς ως μέτρα για την αναγνώριση γραμμικών και μη-γραμμικών εξαρτήσεων για τ = 5, 10, 20, 30, τ e. Η διαφορά της Γκαουσιανής αμοιβαίας πληροφορίας από την κλασική αμοιβαία πληροφορία (di x = I x Ix g όπου Ix= 0.5ln(1 r g x P )) για να απομονώσουμε και να μετρήσουμε τις μη-γραμμικές αυτοσυσχετίσεις τ = 5, 10, 20, 30, τ e. Η 3 ης (rx), b 4 ης και 5 ης τάξης αυτοσυσχέτιση (rx) h επίσης ως μέτρα μη-γραμμικών αυτοσυσχετίσεων για τ = 5, 10, 20, 30, τ e. Για τα μέτρα rx P, rx S, rx K, Ix, p Ix, d di x, rx, b rx h υπολογίζονται και οι αθροιστικές συναρτήσεις για τις πρώτες 40 και για τις πρώτες τ max υστερήσεις. Για παράδειγμα Crx P (40) = 40 τ=1 rp x (τ) και Crx P (τ max ) = τ max τ=1 rp x (τ). Ακόμη προσθέσαμε στη λίστα δύο μέτρα που διακρίνουν μη-γραμμικές εξαρτήσεις τα οποία έχουν χρησιμοποιηθεί στη βιβλιογραφία της νευρο-επιστήμης παλαιότερα για διαφορετικές προσεγγίσεις. Το πρώτο είναι ο συντελεστής corr-entropy που προτάθηκε σχετικά πρόσφατα [25] ως μία μη-γραμμική επέκταση του συντελεστή Pearson: r E = 1 N 1 N k=1 κ(x(k), y(k)) N N 2 k,l=1 κ(x(k), y(l)) K x 1 N N 2 k,l=1 κ(x(k), x(l)) (2.1) K y 1 N N 2 k,l=1 κ(y(k), y(l)) όπου K x = 1 N K y = 1 N N κ(x(k), x(k)) k=1 N κ(y(k), y(k)) k=1 κ(x, y) = 1 e (x y)2 2σ 2 2πσ με σ = 0.4. Η κ είναι η συμμετρική θετικά ορισμένη συνάρτηση kernel του Γκάους. Εμείς εδώ χρησιμοποιήσαμε αυτό το συντελεστή με ένα διαφορετικό τρόπο ανιχνεύοντας όχι συσχετίσεις ανάμεσα σε διαφορετικά σήματα αλλά αυτοσυσχετίσεις του ίδιου σήματος, επομένως το σήμα y είναι το σήμα x με υστέρηση τ. Το δεύτερο μέτρο είναι ο συντελεστής η 2 που έχει χρησιμοποιηθεί στην ανάλυση ηλεκτροεγκεφαλογραφημάτων και ανιχνεύει εξαρτήσεις μεταξύ σημάτων γενικώς. Επίσης και αυτό το μέτρο το 12
28 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών χρησιμοποιήσαμε ως μέτρο αυτο-συσχέτισης και όχι ως μέτρο συσχέτισης μεταξύ δύο διαφορετικών σημάτων. Η βασική ιδέα είναι ότι αν θεωρήσουμε το δεύτερο σήμα ως μία μη-γραμμική συνάρτηση του πρώτου, τότε η διασπορά της εκτίμησης του δεύτερου σήματος από την παλινδρόμηση που κάναμε ονομάζεται εξηγήσιμη διασπορά (explained variance) και η διασπορά των σφαλμάτων πρόβλεψης ανεξήγητη διασπορά (unexplained variance), ενώ συνολική είναι η διασπορά του δεύτερου σήματος. Ο συντελεστής η 2 εκφράζει την μείωση της διασποράς στις προβλεπόμενες τιμές του δεύτερου σήματος από την παλινδρόμηση με τον παρακάτω τρόπο: η 2 =(συνολική διασπορά - ανεξήγητη διασπορά)/συνολική διασπορά [48]. Για να εκτιμήσουμε αυτό το συντελεστή χωρίζουμε τη χρονοσειρά σε ισαπέχοντα κομμάτια και κάνουμε σε κάθε ένα από αυτά γραμμική παλινδρόμηση με το αντίστοιχο κομμάτι της ίδιας χρονοσειράς με υστέρηση τ. Ετσι δημιουργούμε την μη-γραμμική προσαρμογή των δεδομένων και υπολογίζουμε τον εκτιμητή h 2 με την παρακάτω έκφραση: h 2 = N i=1 (y i ȳ) 2 N i=1 (y i f(x i )) 2 N i=1 (y i ȳ) 2 (2.2) όπου y είναι η x με υστέρηση τ, ȳ είναι ο συνολικός μέσος όρος του y και f είναι η χρονοσειρά του μοντέλου που κατασκευάσαμε. Από τα μέτρα συσχέτισης τα τ e, τ max, P ACF, rx P, Crx P (40), Crx P (τ max ), rx S, Crx S, rx K, Crx K, Ix, p CIx, p Ix, d CIx, d di x, dci x υπολογίστηκαν με συναρτήσεις που είχαν χρησιμοποιηθεί σε παλαιότερες εργασίες και με την βοήθεια του πακέτου MAT S για ανάλυση χρονοσειρών στο Matlab [40], ενώ για τα rx, b Crx, b rx, h Crx, h r E, h 2 δημιουργήσαμε νέες συναρτήσεις. 2.3 Μέτρα εντροπίας, διάστασης και πολυπλοκότητας Στη συνέχεια θα παραθέσουμε τα μέτρα που επιλέξαμε και που έχουν σχέση με την μορφοκλασματική διάσταση (fractal dimention), την εμβύθιση της αρχικής μας χρονοσειράς σε ένα πολυδιάστατο χώρο φάσης, το μέγεθος της εντροπίας και την πολυπλοκότητά της. Δεν θα εξηγήσουμε σε μεγάλο βαθμό εκείνα τα μέτρα που έχουν χρησιμοποιηθεί εκτεταμένα στη βιβλιογραφία αλλά θα παραθέσουμε σχετικές αναφορές, ωστόσο θα αναλύσουμε, στο βαθμό που αφορά την εργασία, τα υπόλοιπα. Υπολογίσαμε την διάσταση εμβύθισης του χώρου φάσης ( ˆm) με τη μέθοδο των ψευδών πλησιέστερων γειτόνων, δηλαδή επιλέγουμε εκείνη την θετική ακέραια τιμή m για την οποία η επόμενή της m + 1 δίνει ποσοστό ψευδών πλησιέστερων γειτόνων μικρότερο του 1%. Επίσης σχετικά με την f ractal διάσταση υπολογίσαμε το άθροισμα συσχέτισης (correlation sum C x (r)) για σταθερή όμως ακτίνα r = 0.2. Αντίστροφα υπολογίσαμε την απόσταση r που θα έδινε C x (r)=0.1 και την διάσταση κατά Higuchi (HigD x ). Ακόμη χρησιμοποιήσαμε το ποσοστό των ψευδών πλησιέστερων γειτόνων (F NN x ) και τον μέγιστο εκθέτη Lyapunov (λ x ). Επιπλέον η εντροπία, του συστήματος που παράγει τις χρονοσειρές, μετρήθηκε χρησιμοποιώντας διαφορετικούς ορισμούς 13
29 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών Μέτρο Περιγραφή Αναφορές Απλά Στατιστικά Μέτρα ˆµ Μέσος όρος 1 ˆσ Τυπική απόκλιση 1 ˆµ 3 /ˆσ 3 Συντελεστής λοξότητας 1 ˆµ 4 /ˆσ 4 Συντελεστής κύρτωσης 1 ˆµ i /ˆσ i Ροπή i τάξης προς τυπική απόκλιση εις την i, για i=5,6 2 R Εύρος δείγματος 1 R p Εύρος του πρώτου p-ποσοστού του δείγματος για p=25,50,75 3 p p-ποσοστιαίο σημείο, για p=25,50,75 3 [39] IQR Ενδοτεταρτομοριακό πλάτος 1 [39] Μέτρα Συσχέτισης τ e Υστέρηση απο-συσχέτισης rx P (τ e ) = 1/e 1 [45][21] [7] τ max Υστέρηση εκφυλισμού αμοιβαίας πληροφορίας 1 [39] P ACF (τ) Μερική αυτοσυσχέτιση για υστέρηση τ=5,10,20,30,τ e 5 [12] rx P (τ) Αυτοσυσχέτιση Pearson για υστέρηση τ=5,10,20,30,τ e 5 [45][21] [7][39] Crx P (40) Crx P (τ max ) Αθροιστική αυτοσυσχέτιση για υστέρηση 40 και τ max 2 [45][21] [7][39] rx S, Crx S Τα ίδια με επάνω για την αυτοσυσχέτιση Spearman 7 [45][21] [7][39] rx K, Crx K Τα ίδια με επάνω για την αυτοσυσχέτιση Kendall 7 [45][21] [7][39] Ix, p CIx p Τα ίδια με επάνω για την αμοιβαία πληροφορία [18][49] ισοπίθανα bin 7 [53] Ix, d CIx d Τα ίδια με επάνω για την αμοιβαία πληροφορία [18][49] ισαπέχοντα bin 7 [53] di x, dci x Τα ίδια με επάνω για I x Ix g όπου Ix= 0.5ln(1 g rx P ) 7 [19] rx, b Crx b Τα ίδια με επάνω για την τρίτης τάξης αυτοσυσχέτιση 7 [39] r h x, Cr h x r E (τ) h 2 τ Τα ίδια με επάνω για αυτοσυσχέτιση υψηλότερης τάξης 4 και 5 14 [57] Συντελεστής auto-correntropy για υστέρηση τ=5,10,20,30,τ e 5 [20] η 2 μέτρο μη-γραμμικής αυτοσυσχέτισης για υστέρηση τ=5,10,20,30,τ e 5 [22][48] Πίνακας 2.1: Μέτρα σε Χρονοσειρές για διάκριση δυναμικών καταστάσεων. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή στην τρίτη το πλήθος των διαφορετικών τιμών των παραμέτρων που επιλέχθηκαν και στην τέταρτη στήλη σχετικές βιβλιογραφικές αναφορές 14
30 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών και υπολογιστικές μεθόδους όπως προσεγγιστική εντροπία (approximate entropy), εντροπία κατά Shannon, εντροπία κατά Tsalis, εντροπία κατά Renyi, δειγματική εντροπία (sample entropy), μεταθετική εντροπία (permutation entropy) και φασματική εντροπία. Δύο ακόμη προσεγγίσεις της εντροπίας στο φάσμα των συχνοτήτων που υπολογίσαμε είναι οι state και response εντροπίες οι οποίες κάνουν χρήση της φασματικής εντροπίας στον τύπο τους: SE = RE = S[R low ] log(n[r low+high ]) S[R low+high] log(n[r low+high ]) (2.3) (2.4) όπου S[f 1, f 2 ] η φασματική εντροπία, N[f 1, f 2 ] το πλήθος των συχνοτήτων στο διάστημα [f 1, f 2 ], R low = [0.8Hz, 32Hz], R low+high = [0.8Hz, 47Hz] [63]. Η fine grained permutation entropy (F gp ee x (m)) υπολογίζεται όπως και η permutation entropy μόνο που στο διάνυσμα του μεταθετικού μοτίβου (πχ [2,3,1,4] για τέσσερα στοιχεία) προσθέτουμε άλλο ένα στοιχείο, το: max(d(i)) q = SD(d(i)) όπου max(d(i)) είναι η μέγιστη απόσταση μεταξύ των στοιχείων και SD(d(i)) η τυπική απόκλιση των αποστάσεων. Το q κρατάει την πληροφορία για το πραγματικό μέγεθος των δεδομένων στον υπολογισμό του F gp ee x σε αντίθεση με το P ee x που λαμβάνει υπ όψιν μόνο τις θέσεις μεταξύ τους. Πιο συγκεκριμένα με ένα παράδειγμα τα {0.15, 0.2, 0.05, 0.3} και {0.17, 0.28, 0.005, 0.9} για το P ee x είναι και στις δύο περιπτώσεις ενώ για το F gp ee x υπάρχει διάκριση μεταξύ τους αφού τα βλέπει ως και αντίστοιχα [42]. Το CP EI είναι και πάλι βασισμένο στο P ee x με τη διαφορά ότι όταν η διαφορά δύο στοιχείων του μοτίβου είναι μικρότερη από ένα κατώφλι (0.5 μv ) τότε το μοτίβο προσμετράται σε μια n! + 1 κατηγορία, εμείς θέσαμε τάξη n =3. Ετσι θεωρούμε n! + 1 = 7 μοτίβα και επειδή είναι ο συνδυασμός δύο μέτρων (που αθροίζονται στον αριθμητή) η κανονικοποίηση γίνεται με βάση το σύνολο των μοτίβων που είναι 7 7=49. Ετσι υπολογίσαμε το μέτρο με την παρακάτω έκφραση: pi ln(p i ) tie<0.5,τ=1 + p i ln(p i ) tie<0.5,τ=2 CP EI = (2.5) ln(49) Ενα ακόμη μέτρο που βασίζεται στο P ee x είναι το P AMI το οποίο ουσιαστικά είναι η αμοιβαία πληροφορία της χρονοσειράς για κάποια υστέρηση υπολογίζοντας την εντροπία με τον ορισμό της μεταθετικής εντροπίας, δηλαδή: P AMI(τ, m) = H x(t),m + H x(t+τ),m H [x(t),x(t+τ)], m (2.6) όπου H = P ee x, m η διάσταση εμβύθισης που επιλέγουμε για την x(t) και την x(t+τ), ενώ m η κοινή διάσταση εμβύθησης. Και κλείνοντας με τις εντροπίες υπολογίσαμε τη 15
31 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών Μέτρο Περιγραφή Αναφορές Μέτρα διάστασης, εντροπίας, πολυπλοκότητας ˆm Διάσταση εμβύθησης, εκτίμηση με F NN,τ=τ e 1 [39] C x (r, m, τ) Correlation sum για ακτίνα r=0.2, διάσταση [41][47] εμβύθησης m=5,8,10, ˆm, τ =1,10 8 [7] r(c x, m, τ) Απόσταση για C x (r, m)=0.1 διάσταση εμβύθησης m=5,8,10, ˆm, τ =1,10 8 [21] HigD x (k) Διάσταση Higuchi k=5,10 2 [56] F NN x (m, τ) % των ψευδών πλησιέστερων γειτόνων m=5,8,10, ˆm τ =1,10 8 [36] λ x (m, K) Μέγιστος εκθέτης Lyapunov m=5,8,10, ˆm K=20,40 8 [32][33] [58][27] AE x (r, m) Approximate entropy m=5,8,10, ˆm, τ=1,10 8 [16] ShE x (τ) Εντροπία Shannon m=5,8,10, ˆm, τ=1,10 8 [24] T se x (q, τ) Εντροπία Tsalis m=5,8,10, ˆm, τ=1,10 8 [11] SaE x Sample Entropy για r=0.2 και m=2 1 [66] P ee x (m) Permutation Entropy m=5,8,10, ˆm, τ=1,10 8 [15] ReE Εντροπία Renyi m=5,8,10, ˆm, τ =1,10 8 [17] SpE x Φασματική εντροπία (συχνότητες στο [0.5,48]Hz) 1 [35] SE State entropy, εύρος συχνοτήτων: χαμηλό δ, υψηλό γ 1 [63] RE Response entropy, εύρος συχνοτήτων: χαμηλό δ, υψηλό γ 1 [63] F gp ee x (m) Fine-grained Permutation Entropy α=1 m=5,8,10, ˆm, τ =1,10 8 [42] CP EI Composite permutation entropy index 1 [52] P AM I Permutation auto-mutual information m=5,8,10, ˆm L=1,10, τ =15 8 [68] EnR(m) Entropy rate: xe x (m)-xe x (m 1), όπου xe μια από τις έξι εντροπίες AE, ShE, T se, SaE, P ee, ReE m=5,8,10, ˆm, τ =1,10 41 [8] E x (i) Ενέργεια στην μπάντα συχνοτήτων i=δ,θ,α,β,γ 5 [39] mf x Διάμεσος στο φάσμα των συχνοτήτων [0.5,48]Hz 1 [39] MNE x Μέση μη-γραμμική ενέργεια 1 [39] LZxLZ d x p Lempel-Ziv πολυπλοκότητα 16 ισαπέχοντα, ισοπίθανα bin 2 [31][69] LZy d Lempel-Ziv πολυπλοκότητα 16 ισαπέχοντα, bin 1 [31][69] RQA x (i) Recurrence Quantifcation Analysis μέτρα i=1,...14 m=5,8,10, ˆm 56 [46][59] HjM x HjC x Παράμετροι Hjorth: Mobility, Complexity 2 [24][62] [29] Πίνακας 2.2: Μέτρα σε Χρονοσειρές για διάκριση δυναμικών καταστάσεων. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή στην τρίτη το πλήθος των διαφορετικών τιμών των παραμέτρων που επιλέχθηκαν και στην τέταρτη στήλη σχετικές βιβλιογραφικές αναφορές 16
32 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών Μέτρο Περιγραφή Αναφορές Μέτρα διάστασης, εντροπίας, πολυπλοκότητας BaA x BaF x BaS x Barlow: πλάτος, μέση συχνότητα, spectral purity index 3 [24][62] GAD x Gabor atom density, dictionary size= [34] HeS x Εκθέτης Hurst: κλίση, σφάλμα προσαρμογής HeE x HeC x σχετική μεταβολή 3 [10] DF S x Detrended fluctuation analysis: κλίση, DF E x DF C x σφάλμα προσαρμογής, σχετική μεταβολή 3 [10] CE x Εκτίμηση πολυπλοκότητας 1 [9] LL x Line length 1 [26] LLe x,τ Επέκταση του LL x για κάποιο τ=5,10,20,30,τ e 5 LLe x,τ Επέκταση του LL x, ανα τ διαφορές για κάποιο τ=5,10,20,30,τ e 5 ET C Effort To Compress 1 [51] Μέτρα βασισμένα στη Μοντελοποίηση dar x (m 1, m 2 ) Διαφορά στο NRMSE του AR τάξης m=0,5,10 2 [50] dloc x (m 1, m 2, K) Οπως επάνω για local AR και Κ=20,40 4 [50] dlocar x (m, K) Διαφορά local AR και AR, m=5 K=20,40 2 [50] Πίνακας 2.3: Μέτρα σε Χρονοσειρές για διάκριση δυναμικών καταστάσεων. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή στην τρίτη το πλήθος των διαφορετικών τιμών των παραμέτρων που επιλέχθηκαν και στην τέταρτη στήλη σχετικές βιβλιογραφικές αναφορές n 1 i=1 (x i x i+1 ) 2 ) διαφορά εντροπίας (EnR) από μια διάσταση εμβύθισης m 1 στην επόμενη m για όλους τους ορισμούς που αναφέραμε προηγουμένως. Τα μέτρα που υπολογίσαμε και έχουν σχέση με το φάσμα των συχνοτήτων είναι, η ενέργεια (E x ) σε πέντε μπάντες συχνοτήτων δ,θ,α,β,γ, η διάμεσος του φάσματος συχνοτήτων (mf x ), και η μέση μη-γραμμική ενέργεια (MNE x ). Ακόμη συμπεριλάβαμε και κάποια μέτρα πολυπλοκότητας των χρονοσειρών όπως, την πολυπλοκότητα κατά Lempel-Ziv για ισαπέχοντες και ισοπίθανους διαχωρισμούς, τις παραμέτρους Hjorth, κινητικότητα και πολυπλοκότητα, το μέτρο πολυπλοκότητας σημάτων gabor atom density, την εκτίμηση πολυπλοκότητας (CE x = που ουσιαστικά είναι το συνολικό μήκος της χρονοσειράς αν την ἁπλώναμε σε ευθεία γραμμή (βλέπε σχ.2.1 [9]). Υπολογίσαμε τρεις διαφορετικές εκδοχές του Line length που είναι ένα παρόμοιο με το CE x μέτρο με τη διαφορά ότι μετράει την συνολική κάθετη μετακίνηση των τιμών της χρονοσειράς. 17
33 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών LLe x,τ = n 1 LL x = abs(x i+1 x i ) (2.7) i=1 n 1 LLe x,τ = abs(x i+τ x i ) (2.8) i=0,τ,2τ,...(n τ) i=1 abs(x 1+i+τ x 1+i ) (2.9) Κλείνουμε τα μέτρα πολυπλοκότητας αναφέροντας το ET C που ορίζεται ως ο α- ριθμός των επαναλήψεων που χρειάζεται ο αλγόριθμος Non-Sequential Recursive Pair Substitution για να μετατρέψει την ακολουθία που του δίνουμε σε σταθερή, πιο αναλυτικά στο [51]. Σε προηγούμενες δουλειές σχετικές με EEG αλλά και σε άλλες που δεν σχετίζονται με νευροφυσιολογία, αλλά για παράδειγμα με αναπνευστικά ζητήματα βρεφών [55] παρατηρήσαμε ότι χρησιμοποιούνται συχνά τα 14 μέτρα RQA γι αυτό και τα συμπεριλάβαμε στην ανάλυσή μας 2.4. Επίσης υπολογίσαμε και τις τρεις παραμέτρους του Barlow πλάτος, μέση συχνότητα και spectral purity index. 1. RR (recurrence rate) 2. DET (determinism) 3. DET/RR 4. LAM (laminarity) 5. LAM/DET 6. L max (maximal diagonal line length) 7. L (mean diagonal line length) 8. L entr (Entropy of diagonal line length distribution) 9. DIV (divergence) 10. V max (maximal vertical line length) 11. TT (Trapping time) 12. V entr (Entropy of vertical line length distribution) 13. T1 (Recurrence times 1st type) 14. T2 (Recurrence times 2nd type) Πίνακας 2.4: Μέτρα RQA Για την μακράς εμβέλειας μνήμη της χρονοσειράς υπολογίσαμε την κλίση, το σφάλμα προσαρμογής και την σχετική μεταβολή για τα Hurst exponent και detrended fluctuation analysis. Τέλος από τα μέτρα εντροπίας, διάστασης και πολυπλοκότητας για τα ˆm, ShE x, T se x, ReE, SE, RE, F gp ee x (m), P AMI, EnR(m), CE x, LL x, LLe x,τ, LLex,τ δημιουργήσαμε εμείς συναρτήσεις ενώ για τα CP EI και ET C υπήρχαν ελεύθερα προγράμματα στο διαδίκτυο για τον υπολογισμό τους. 18
34 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών Σχήμα 2.1: Εκτίμηση πολυπλοκότητας [9] 2.4 Μέτρα βασισμένα στη μοντελοποίηση Εδώ χρησιμοποιούμε τρία μέτρα που παράγονται από την προσαρμογή των γραμμικών μοντέλων AR και local AR, στα δεδομένα μας. Ως NRMSE (normalized root-mean-square error) ορίζεται η παρακάτω έκφραση που αντιπροσωπεύει το μέγεθος του σφάλματος προσαρμογής: NRMSE = 1 n 1 n ( Ŷ i Y i ) 2 (Yi Ȳ )2 (2.10) όπου Ȳ η μέση τιμή των δεδομένων, Ŷ i η εκτιμώμενη τιμή από το μοντέλο και Y i η παρατηρούμενη. Τιμές αυτού του δείκτη κοντά στο 0 δείχνουν πολύ καλή πρόβλεψη ενώ τιμές κοντά στο 1 δείχνουν ότι η πρόβλεψη είναι το ίδιο καλή με αυτή της μέσης τιμής για κάθε παρατήρηση. Τα τρία μέτρα που υπολογίζουμε είναι τα εξής: Οι διαφορές στο NRMSE ανάμεσα σε προσαρμογές του ενός από τα δύο μοντέλα για διαφορετική τάξη μοντέλου και διαφορετικό πλήθος γειτόνων αντίστοιχα (1)dAR x (m 1, m 2 ) (2)dloc x (m 1, m 2, K). Και (3) ανάμεσα σε προσαρμογές των δύο διαφορετικών γραμμικών μοντέλων με ίδια τάξη αλλά διαφορετικό πλήθος γειτόνων (dlocar x (m, K)). 2.5 Χρονοσειρές χαρακτηριστικών και μέτρα Οι χρονοσειρές οι οποίες μελετάμε σε αυτή την εργασία είναι κατα κύριο λόγο ταλαντωτικές (M ackey Glass system, EEG) και, όπως και άλλοι σε παλαιότερες εργασίες, εφαρμόσαμε κάποια μέτρα σε χρονοσειρές που αποτελούνται από κάποια χαρακτηριστικά των αρχικών χρονοσειρών, για παράδειγμα στις χρονοσειρές των κορυφών. Στον πίνακα 2.5 εμφανίζονται οι πέντε χρονοσειρές χαρακτηριστικών που επιλέξαμε. Ως τοπικό μέγιστο λαμβάνουμε εκείνη την τιμή που σε ένα παράθυρο 15 σημείων είναι η μεσαία τιμή και είναι η μεγαλύτερη από όλες τις τιμές του παραθύρου, ανάλογα ορίζεται και το τοπικό ελάχιστο [39]. Τα μέτρα που υπολογίζουμε για τις χρονοσειρές των χαρακτηριστικών είναι λιγότερα από τα εκείνα που υπολογίσαμε για τις αρχικές χρονοσειρές αφού υπάρχουν μέτρα που δεν έχει νόημα να τα υπολογίσουμε για τόσο μικρές χρονοσειρές, όπως για παράδειγμα ο μέγιστος εκθέτης Lyapunov. Επίσης οι 19
35 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών Συμβολισμός {x max {x min {t osc {t max,min {δ max,min Περιγραφή i } n i=1 Τοπικά μέγιστα (παράθυρο 15 παρατηρήσεων) i } n i=1 Τοπικά ελάχιστα i } n i=1 Χρόνος μεταξύ συνεχόμενων τοπικών μεγίστων i } n i=1 Χρόνος από τοπικό μέγιστο στο επόμενο τοπικό ελάχιστο i } n i=1 Διαφορά μεταξύ τοπικού μεγίστου και ελαχίστου Πίνακας 2.5: Χρονοσειρές χαρακτηριστικών, εξαγώμενες από την αρχική χρονοσειρά[38] Μέτρο Περιγραφή Απλά Στατιστικά Μέτρα ˆµ(w) Μέσος όρος w 1x5 ˆσ(w) Τυπική απόκλιση w 1x5 ˆµ 3 /ˆσ 3 Συντελεστής λοξότητας w 1x5 ˆµ 4 /ˆσ 4 Συντελεστής κύρτωσης w 1x5 ˆµ i /ˆσ i Ροπή i τάξης προς τυπική απόκλιση εις την i για την w για i=5,6 2x5 R(w) Εύρος δείγματος w 1x5 p(w) p-ποσοστιαίο σημείο στην w, για p=25,50,75 3x5 IQR(w) Ενδοτεταρτομοριακό πλάτος w 1x5 Μέτρα Συσχέτισης rw(τ) P Αυτοσυσχέτιση Pearson, τ = 1, 2, 3 3x5 Crw(3) P Αθροιστική αυτοσυσχέτιση για υστέρηση 3 1x5 c w1,w 2 (τ) Cross-corelation για τ=0,1,2,3, μόνο για τις Cc w1,w 2 (τ) x max i,x min i,t osc i,t max,min i Αθροιστική cross-corelation για υστέρηση 3, μόνο για τις x max i,x min i,t osc i,t max,min 4x3x4 i 4x3 Μέτρα διάστασης, εντροπίας, πολυπλοκότητας LZw p Lempel-Ziv πολυπλοκότητα με 2 ισοπίθανα bin 1x5 AE w (r, m) Approximate entropy για r=0.2 m=1,2 2x5 F NN w (m) % των ψευδών πλησιέστερων γειτόνων, m = 1, 2 2x5 Μέτρα βασισμένα στη Μοντελοποίηση dar w (m 1, m 2 ) Διαφορά στο NRMSE του AR τάξης m=0,1,2 2x5 dloc w (m 1, m 2, K) Οπως επάνω για local AR και Κ=5,10 4x5 dlocar w (m, K) Διαφορά local AR και AR, m=1,2 K=5,10 4x5 Πίνακας 2.6: Μέτρα που εφαρμόζουμε στις χρονοσειρές χαρακτηριστικών, με w κάποια από αυτές του Πίνακα 2.5 [38]. Στην πρώτη στήλη εμφανίζεται ο συμβολισμός του μέτρου στην δεύτερη μία σύντομη περιγραφή και στην τρίτη το πλήθος των διαφοροποιήσεων του μέτρου. 20
36 Κεφάλαιο 2. Χαρακτηριστικά Χρονοσειρών παράμετροι τ και m παίρνουν τιμές αρκετά μικρότερες, πιο συγκεκριμένα τ = 0, 1, 2, 3 και m = 1, 2, για τον ίδιο λόγο. Ενα επιπλέον μέτρο που χρησιμοποιούμε είναι το cross correlation και την αθροιστική του συνάρτηση για τα τέσσερα πρώτα χαρακτηριστικά που περικλείουν την βασική μορφή της ταλάντωσης. 21
37
38 Κεφάλαιο 3 Διάκριση καταστάσεων από χαρακτηριστικά 3.1 Βιβλιογραφική ανασκόπηση Εστω ότι έχουμε ένα σύνολο αντικειμένων το οποίο χωρίζεται σε υποκατηγορίες σύμφωνα με κάποια ιδιότητα των στοιχείων του. Η διάκριση καταστάσεων (classification) στην στατιστική ορίζεται ως το πρόβλημα να επιλέξουμε σε ποια υποκατηγορία ανήκει μία νέα παρατήρηση και αυτό επιτυγχάνεται με διάφορες μεθόδους. Αυτό το πρόβλημα αναδύεται σε πληθώρα εφαρμογών που αφορούν σε ένα εύρος διαφορετικών κλάδων που σχετίζονται ενδεικτικά με την οικονομία, την ογκολογία, τη νευροφυσιολογία, την επιστήμη υπολογιστών και την βιομετρική (biometrics). Πιο συγκεκριμένα στην οικονομία εμφανίζεται η ανάγκη απόφασης του επενδυτή για το αν θα πουλήσει μια μετοχή ή αν θα αγοράσει μία άλλη, αυτό μπορεί να γίνει κάνοντας χρήση αλγορίθμων διάκρισης των δύο καταστάσεων θέση αγοράς και θέση πώλησης, το οποίο συχνά επιτυγχάνεται με την αναγνώριση προτύπων (pattern recognition) [65]. Στην ιατρική προφανώς υπάρχει η ανάγκη της διάγνωσης ασθένειας, το οποίο μελετάται και με αριθμητικές μεθόδους διάκρισης των καταστάσεων υγιής - ασθενής, ενδεικτικά για τον καρκίνο των ωοθηκών [30] όπου παρατηρούν πρωτεϊνικά μοτίβα στο αίμα για να κάνουν αυτή τη διάκριση. Σε παλαιότερες εργασίες έχει μελετηθεί η δυνατότητα διάκρισης των διαδοχικών φάσεων πριν από μία επιληπτική κρίση με σκοπό την πρόβλεψη και αποτροπή της, ενώ στην παρούσα εργασία μελετάται η δυνατότητα διάγνωσης της επιληψίας χρησιμοποιώντας μέτρα σε χρονοσειρές ηλεκτροεγκεφαλογραφημάτων, όσων αφορά στην νευροφυσιολογία [38][39]. Ενα γνωστό πρόβλημα στην επιστήμη των υπολογιστών είναι η διάκριση των χαρακτήρων σε κατηγορίες όπως χαρακτήρες της αλφαβήτου ή ακέραιοι αριθμοί ή χαρακτήρες ελέγχου που πραγματοποιείται για παράδειγμα στη γλώσσα c + + με κατάλληλες συναρτήσεις ( Επίσης ακόμη ένα πρόβλημα του ίδιου κλάδου είναι η αναγνώριση προτύπου κειμένου όπως για παράδειγμα spam/non spam στα ηλεκτρονικά μηνύματα ή η αναγνώριση της κατηγορίας στην οποία ανήκει ένα βιβλίο ηλεκτρονικής βιβλιοθήκης [3] σύμφωνα με την συχνότητα που εμφανίζονται στο βιβλίο σχετικές, με την κατηγορία, λέξεις. Η 23
39 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά αναγνώριση ανθρώπων από τα διάφορα χαρακτηριστικά τους όπως η φωνή, το αποτύπωμα [60], το πρόσωπο [13] ή η ίριδα του ματιού ονομάζεται βιομετρική (biometrics) και χρησιμοποιείται κυρίως στα συστήματα ασφαλείας. Η σύγκριση γίνεται μεταξύ της νέας παρατήρησης και των δεδομένων μιας ήδη υπάρχουσας βάσης δεδομένων όπου υ- πολογίζεται ο βαθμός στον όποιο ταιριάζουν τα δύο αντικείμενα με βάση κάποια μέτρα ή με άμεση σύγκριση για παράδειγμα στα αποτυπώματα [60]. 3.2 Δείκτες αξιολόγησης μέτρων Στην παρούσα εργασία μελετάμε την διάκριση καταστάσεων σε χρονοσειρές, ό- πως για παράδειγμα χαοτικές χρονοσειρές με υψηλή και χαμηλή διάσταση, επομένως χρησιμοποιούμε τις τιμές κάποιων μέτρων που εφαρμόστηκαν στις χρονοσειρές για να τις κατηγοριοποιήσουμε. Πιο συγκεκριμένα για να πούμε ότι ένα μέτρο διαχωρίζει δύο καταστάσεις θα πρέπει οι τιμές που παίρνει όταν το σήμα ανήκει στην πρώτη να είναι διαφορετικές από εκείνες που παίρνει όταν ανήκει στην δεύτερη κατηγορία. Οι δύο περιθώριες κατανομές του μέτρου όταν υπολογίζεται σε χρονοσειρές του πρώτου είδους και όταν υπολογίζεται σε χρονοσειρές του δεύτερου είδους πρέπει να έχουν τη μικρότερη δυνατή επικάλυψη. Το Σχήμα 3.1 δείχνει ένα παράδειγμα με τις δύο διαφορετικές περιπτώσεις, όπου ένα μέτρο δεν έχει καλή διακριτική ικανότητα (μ2) ενώ ένα άλλο παίρνει τιμές εντελώς διαφορετικές στις δύο καταστάσεις (μ1), περίπτωση που είναι ι- δανική αφού κάνει τέλειο διαχωρισμό. Επειδή λοιπόν δεν έχουν όλα τα μέτρα την ίδια διακριτική ικανότητα υπάρχει λόγος να τα κατατάξουμε σύμφωνα με τον βαθμό στον οποίο κάνουν καλό διαχωρισμό. Αυτή η αξιολόγηση είναι δυνατό να επιτευχθεί με διάφορους δείκτες και κάποιους από τους πιο χρησιμοποιημένους στην βιβλιογραφία θα τους παρουσιάσουμε στις επόμενες παραγράφους. (αʹ) Το μέτρο μ1 (βʹ) Το μέτρο μ2 Σχήμα 3.1: Η μία καμπύλη είναι η κατανομή των τιμών του μέτρου στις χρονοσειρές της πρώτης κατηγορίας ενώ η δεύτερη στις χρονοσειρές της δεύτερης κατηγορίας. 24
40 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά AUROC Η καμπύλη ROC (receiver operating characteristic) είναι ένας πολύ διαδεδομένος τρόπος οπτικοποίησης, οργάνωσης και επιλογής χαρακτηριστικών από σήματα με βάση την διακριτική τους ικανότητα [23]. Αυτή η ανάλυση έχει χρησιμοποιηθεί ευρέως στην ιατρική βιβλιογραφία για διαγνωστικούς σκοπούς. Ας υποθέσουμε πως κάθε μία από τις χρονοσειρές μας μπορεί να ανήκει σε μία από τις δύο κατηγορίες {p,n}, τότε ένα μοντέλο διαχωρισμού (classification model) είναι μία απεικόνιση από κάθε παρατηρούμενη χρονοσειρά προς το σύνολο {p,n}. Φυσικά δεν περιμένουμε πάντα το μοντέλο μας να είναι άψογο και οπωσδήποτε είναι πιθανό να προκύψουν οι εκδοχές του πίνακα 3.1. p n p True False Positive Positive (tp) (fp) n False True Negative Negative (fn) (tn) Πίνακας 3.1: Πιθανές περιπτώσεις επιτυχίας - αποτυχίας μοντέλου Δηλαδή ειδικότερα το μοντέλο μας μπορεί να έχει επιτύχει να ταξινομήσει την χρονοσειρά {x i } N i=1 στην κλάση p όπου και ανήκει (True Positive) ή μπορεί να αποτύχει και συνεπώς να την ταξινομήσει στην κλάση n λανθασμένα (False Negative). Ακόμη υπάρχει αντίστοιχα η περίπτωση το μοντέλο να υποδεικνύει πως η χρονοσειρά ανήκει στην κλάση p ενώ αυτό δεν ισχύει (False Positive) ή να υποδείξει σωστά την n ως κλάση της χρονοσειράς (True Negative). Από αυτές τις περιπτώσεις μπορούμε να υπολογίσουμε ορισμένους χρήσιμους ποσοστιαίους δείκτες: P recision = tp tp + fp Recall(T ruep ositiverate) = T ruenegativerate = Accuracy = tn tn + fp tp + tn tp + tn + fp + fn tp tp + fn Το γράφημα ROC είναι ένα διδιάστατο γράφημα που στον άξονα των y είναι το T ruep ositiverate ενώ στον άξονα των x είναι το T ruenegativerate απεικονίζει δηλαδή τις ισορροπίες μεταξύ αυτών των δύο ποσοστών. Ενα κατώφλι στις τιμές του 25
41 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά Σχήμα 3.2: Καμπύλη ROC μέτρου μπορεί να θεωρηθεί ως διαχωριστής και κάθε κατώφλι ορίζει σημείο επάνω στο γράφημα και εάν ενώσουμε τα σημεία παίρνουμε μία τεθλασμένη γραμμή στο τετράγωνο [0,1] [0,1] που ξεκινάει από την αρχή των αξόνων και σταματάει στο σημείο (1,1) όπως μπορούμε να παρατηρήσουμε για παράδειγμα στο Σχήμα 3.2. Ο δείκτης AUROC (Area Under ROC curve) είναι το εμβαδόν κάτω από την καμπύλη που σχηματίζει η διακριτική ικανότητα του μέτρου, αυτός παίρνει τιμές από το 0.5 έως και το 1, με 0.5 τιμή ενός τυχαίου διαχωρισμού ενώ τιμή ένα όταν ο διαχωρισμός είναι άψογος. Το AUROC υπολογίζεται από τον τύπο [23]: N k=1 AUROC = 1 (X k X k 1 )(Y k + Y k 1 ) 2 (3.1) όπου N το σύνολο των σημείων της καμπύλης και X k, Y k οι συντεταγμένες τους F-measure Στην προηγούμενη παράγραφο ορίσαμε τα ποσοστά P recision και Recall. Το F- measure στην στατιστική ανάλυση της διάκρισης δύο καταστάσεων είναι ένας δείκτης ακρίβειας του ελέγχου υποθέσεων. Ο δείκτης αυτός ορίζεται ως ο αρμονικός μέσος των P recision και Recall: F measure = 2 P recision Recall P recision + Recall (3.2) Οι τιμές του δείκτη κυμαίνονται από 0, που αντιπροσωπεύει τον τυχαίο διαχωρισμό μέχρι 1 που είναι η ιδανική περίπτωση. 26
42 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά Matthews correlation coefficient Κι εδώ επίσης αυτός ο συντελεστής συσχέτισης M atthews λαμβάνει υπ όψιν τα T rue και F alse P ositive και Negative κάνοντας την αξιολόγηση κάποιου μέτρου σε μια κατηγοριοποίηση δύο κλάσεων και ουσιαστικά όντας ένας συντελεστής συσχέτισης του πραγματικού διαχωρισμού με τον προβλεπόμενο από το μοντέλο διαχωρισμό των δύο καταστάσεων. Η έκφραση που παρέχει τον δείκτη είναι η παρακάτω: MCC = tp tn fp fn (tp + fp)(tp + fn)(tn + fp)(tn + fn) (3.3) και παίρνει τιμές από -1 έως 1. Η τιμή 1 υποδεικνύει τέλειο διαχωρισμό, η τιμή μηδέν έναν τυχαίο διαχωρισμό ενώ η τιμή -1 δείχνει πως το μοντέλο προέβλεψε τις ακριβώς αντίθετες τιμές για όλες τις χρονοσειρές, πράγμα που καθιστά το μέτρο τέλειο διαχωριστή των καταστάσεων και πάλι T-test Ενας ακόμη τρόπος που έχει χρησιμοποιηθεί για να ελεγχθεί κατά πόσον δύο δείγματα προέρχονται από την ίδια κατανομή είναι ο έλεγχος υποθέσεων για την ισότητα των μέσων τιμών τους, με το στατιστικό που ακολουθεί την κατανομή student, και ο οποίος είναι γνωστός ως t-test. Εστω ότι έχουμε χρονοσειρές που προέρχονται από δύο διαφορετικές κατηγορίες και θέλουμε να ελέγξουμε εάν ένα μέτρο μπορεί να διακρίνει αυτή τη διαφορά. Υπολογίζουμε αυτό το μέτρο για τις n χρονοσειρές της πρώτης κατηγορίας και αποθηκεύουμε τις τιμές που πήρε σε μία λίστα {κ 1, κ 2,..., κ n } και το ίδιο κάνουμε και για τις m χρονοσειρές της δεύτερης κατηγορίας {κ 1, κ 2,..., κ m}. Εάν η κατανομή των τιμών του μέτρου για την πρώτη κατηγορία είναι διαφορετική από την κατανομή αυτών της δεύτερης κατηγορίας τότε μπορούμε να ισχυριστούμε πως το μέτρο αναδεικνύει αυτή τη διάκριση, αυτό το ελέγχουμε με τον παρακάτω έλεγχο υποθέσεων: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 με απορριπτική περιοχή την R = { t > t n+m 2;a/2 } όπου: t = κ κ (n 1)s 2 1 +(m 1)s2 2 n+m 2 1 n + 1 m όταν οι διασπορές των δύο δειγμάτων είναι άγνωστες αλλά ίσες, ενώ χρησιμοποιούμε τον παρακάτω έλεγχο: 27
43 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 με απορριπτική περιοχή την R = { t > t ν;a/2 } όπου: t = κ κ s 2 1 n + s2 2 m και όταν n m: ν = ( s 2 1 n + s2 2 m ) 2 ( ) s n + n 1 ( ) s m m 1 και παίρνουμε το ακέραιο μέρος του κλάσματος, ενώ όταν n = m, ν = 2(n 1), όταν οι διασπορές των δύο δειγμάτων είναι άγνωστες αλλά διαφορετικές. Και στις δύο περιπτώσεις κάνουμε έλεγχο για δείγματα ανεξάρτητα [4]. 3.3 Προβλήματα από την εφαρμογή του AUROC Κατά την διάρκεια εκπόνησης του υπολογιστικού μέρους της παρούσας εργασίας έκανε την εμφάνισή του ένα φαινόμενο σχετικό με την κατάταξη των μέτρων. Εξ αιτίας κάποιων συνθηκών όπως για παράδειγμα το μικρό μήκος των χρονοσειρών μας, κάποια μέτρα όπως το F NN x (m = 10, τ = 10) υπολογιζόταν να έχει τιμή μηδέν για κάθε μία από τις χρονοσειρές που χρησιμοποιήσαμε, πράγμα που καθιστά το μέτρο χείριστο διαχωριστή δύο καταστάσεων. Παρόλα αυτά το AU ROC έδινε την τιμή 1, δηλαδή αξιολογούσε το μέτρο σαν τέλειο διαχωριστή. Παρακάτω θα αναλύσουμε με παραδείγματα για πιο λόγο συμβαίνει αυτό το πρόβλημα και πως μπορούμε να το αποφύγουμε στις αναλύσεις μας. Στον πίνακα 3.2 βλέπουμε ένα παράδειγμα για το πως γίνεται φανερή η επικάλυψη δύο κατανομών έτσι όπως την υπολογίζει ο δείκτης AU ROC. Πιο συγκεκριμένα ξεκινάμε με τα αντίστοιχα στοιχεία των δυο κλάσεων δίπλα στο ὅνομα της κλάσης {0, 1} που ανήκουν. Υστερα μπαίνουν σε αύξουσα σειρά τα στοιχεία της δεύτερης στήλης και τα στοιχεία της πρώτης στήλης ακολουθούν συνεχίζοντας να υποδεικνύουν την κλάση της οποίας μέλος ήταν το αντίστοιχο στοιχείο δεξιά του. Υπάρχει η περίπτωση να είναι τέλειος ο διαχωρισμός και τα 0 να παραμένουν όλα μαζί πριν από τα 1 και η περίπτωση 28
44 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά να ανακατευθούν (επικάλυψη των κατανομών) όπου και θα έχουμε μία χαμηλότερη τιμή AU ROC. Τώρα θα δώσουμε δύο παραδείγματα κακών διαχωριστών που το AUROC αξιολογεί ως καλούς. Πρώτα ένα παράδειγμα χείριστου διαχωριστή όπου όλες οι τιμές ειναι ίσες μεταξύ τους με αποτέλεσμα και οι δύο κατηγορίες να παίρνουν από το μέτρο την ίδια τιμή α=0. Παίρνουμε ένα διάνυσμα 100 στοιχείων α=0 και θεωρούμε χωρίς βλάβη της γενικότητας ότι έχουμε δύο κλάσεις των 50 στοιχείων η κάθε μία όπως βλέπουμε στον πίνακα 3.3. Τότε υπολογίζουμε το AU ROC και παίρνει τιμή 1. Αυτό συμβαίνει διότι όταν θα ταξινομούνταν οι τιμές σε αύξουσα σειρά όπως είπαμε προηγουμένως δεν συνέβη καμία αλλαγή μιας και όλες οι τιμές είναι ίσες μεταξύ τους κι έτσι παρέμειναν στη θέση τους και τα στοιχεία της πρώτης στήλης. Ετσι ο δείκτης δεν διακρίνει καμία επικάλυψη παρόλο που είναι πλήρως επικαλυπτόμενα τα στοιχεία των δύο κλάσεων. 0 a 1 0 a a n 1 b 1 1 b b m (αʹ) Αρχική τοποθέτηση 0 a m 0 a l.. 0 a k 1 b q 1 b o.. 1 b p (βʹ) Τέλειος διαχωρισμός Πίνακας 3.2: Πιθανοί διαχωρισμοί 1 b q 0 a m.. 0 a k 1 b p 0 a l 1 b o. (γʹ) Ανακάτεμα. 0 a 0 a.. 0 a 1 a 1 a.. 1 a Πίνακας 3.3: Διαχωρισμός με όλα τα στοιχεία ίδια α=0 Ενα δεύτερο παράδειγμα είναι να πάρουμε ένα διάνυσμα με 100 στοιχεία όλα ίσα με 0 εκτός από 5 που θα έχουν τιμή 1 και θα βρίσκονται τυχαία μέσα στα 100 στοιχεία του διανύσματος. Κάναμε αυτό το πείραμα 1000 φορές και μας έδωσε μέση τιμή του AU ROC =0.952 που υποδεικνύει πολύ καλό διαχωριστή ενώ δεν είναι. 29
45 Κεφάλαιο 3. Διάκριση καταστάσεων από χαρακτηριστικά Υπάρχει τρόπος να αντιμετωπίσουμε αυτό το πρόβλημα; Εμείς επιλέξαμε μία μέθοδο που απέκλεισε τα μέτρα που παρουσιάζουν αυτή τη συμπεριφορά και η οποία συνίσταται στην εφαρμογή του t-test αρχικά ώστε να είμαστε σίγουροι πως οι μέσες τιμές στις δύο κλάσεις διαφέρουν σημαντικά και ύστερα να εφαρμόζουμε το AU ROC. Μάλιστα όταν η διασπορά των τιμών των μέτρων είναι σχεδόν μηδέν (< 1e 10) δίνουμε κατευθείαν την τιμή 1 στο p-value του ελέγχου ώστε να μην τα λάβουμε καθόλου υπ όψιν. Ετσι ουσιαστικά ασχολούμαστε με τα μέτρα εκείνα που έχουν κάποια κατανομή τιμών αξιόλογη για σύγκριση. 30
46 Κεφάλαιο 4 Προσομοιωτικά δεδομένα (Mackey - Glass) Σε αυτό το κεφάλαιο θα παρουσιάσουμε την ανάλυση που κάναμε χρησιμοποιώντας δεδομένα που προέκυψαν από την προσομοίωση του συστήματος Mackey - Glass, για το οποίο μιλήσαμε σε προηγούμενο κεφάλαιο στην ενότητα 4.1. Είναι σημαντικό να αναφέρουμε τους λόγους για τους οποίους επιλέξαμε αυτό το σύστημα για την προσομοιωτική μελέτη. Αρχικά το σύστημα Mackey - Glass παράγει χρονοσειρές που έχουν κάποια χαρακτηριστικά παρόμοια με αυτά των πραγματικών δεδομένων από ηλεκτροεγκεφαλογράφημα όπως η στασιμότητα και το γεγονός ότι οι τιμές και των δύο παρουσιάζουν ταλαντώσεις. Αυτό μας δίνει τη δυνατότητα να κάνουμε κάποια σύγκριση με την α- νάλυση και τα αποτελέσματα του επόμενου κεφαλαίου, όπου χρησιμοποιήσαμε τέτοια δεδομένα. Επίσης όπως αναφέρθηκε και στην παράγραφο 4.1 το σύστημα αυτό έχει την δυνατότητα να παράξει μεγάλη ποικιλία χρονοσειρών ως προς την πολυπλοκότητα. Για παράδειγμα ανάλογα με τις τιμές των παραμέτρων της εξίσωσης 4 μπορούμε να πάρουμε από περιοδικές χρονοσειρές μέχρι και χρονοσειρές πολύ υψηλής μορφοκλασματικής διάστασης. Στην δική μας ανάλυση επιλέξαμε γ = 0.1, β 0 = 0.2 n = 10 και θ = 1 ενώ για το θα κάνουμε εκτενή αναφορά στη συνέχεια. dx dt 0.2x(t ) = 0.1x(t) 1 + x(t ) 10 Στις επόμενες ενότητες θα παρουσιάσουμε διάφορες εκδοχές αυτού του συστήματος και τις δυναμικές καταστάσεις τις οποίες προσπαθήσαμε να διαχωρίσουμε κάνοντας χρήση των μέτρων του κεφαλαίου 2, πράγμα που μας έδωσε θετικά αποτελέσματα αφού σε ορισμένες περιπτώσεις βρέθηκαν τέλειοι διαχωριστές. Αυτά τα αποτελέσματα θα παραθέσουμε στην τελευταία ενότητα του κεφαλαίου. 4.1 Σενάρια δυναμικών καταστάσεων Επιλέξαμε να μελετήσουμε χρονοσειρές με πολύ μικρό μήκος σε σχέση με παλαιότερες εργασίες [39] διότι το πρόβλημα που μελετάμε στα πραγματικά δεδομένα απαιτεί 31
47 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Σχήμα 4.1: Χρονοσειρές από το σύστημα Mackey - Glass. (α) = 30 (β) = 100 (γ) = 200 (δ) = 300 αντίστοιχα μικρό μήκος χρονοσειρών. Ετσι δουλέψαμε με προσομοιωμένα δεδομένα που έχουν μήκος N στην πρώτη περίπτωση 300 και στην δεύτερη 600 παρατηρήσεις. Επίσης οι καταστάσεις του συστήματος που θα προσπαθήσουμε να διαχωρίσουμε προέρχονται από την μεταβολή της παραμέτρου στις τιμές 30, 100, 200, 250 και 300 όπου σε όλες τις περιπτώσεις το σύστημα είναι χαοτικό. Στο Σχήμα 4.1 φαίνονται ορισμένες πραγματοποιήσεις του συστήματος για κάποιες τιμές του. Το είναι μία παράμετρος που επηρεάζει το σύστημα σε σημαντικό βαθμό ως προς την πολυπλοκότητα των χρονοσειρών που παράγει. Πιο συγκεκριμένα σε παλαιότερες εργασίες [37] βλέπουμε πως για =17 η μορφοκλασματική διάσταση του ολκού είναι d 2 δηλαδή είναι χαμηλής διάστασης. Για =30 η μορφοκλασματική διάσταση του ολκού είναι d 3 αυξάνοντας λίγο την διάσταση όμως και πάλι μπορούν να παρατηρηθούν επαναλήψεις των ίδιων μοτίβων σε μία πραγματοποίηση και για =100 η μορφοκλασματική διάσταση του ολκού είναι d 7.1, καθιστώντας πολύ δύσκολη την ανεύρεση παρόμοιων μοτίβων που επαναλαμβάνονται. Αυτό μας δείχνει πως καθώς αυξάνει το αυξάνει και η διάσταση του ολκού έτσι μπορούμε να περιμένουμε και στις περιπτώσεις =200,250,300 αντίστοιχα να μεγαλώνει η πολυπλοκότητα των χρονοσειρών που μελετάμε. Τέλος στις μισές περιπτώσεις προσθέσαμε θόρυβο παρατήρησης με τυπική απόκλιση sd noise = nl sd X, όπου sd X είναι η τυπική απόκλιση των δεδομένων της χρονοσειράς μας ενώ το nl δηλώνει το ποσοστό θορύβου (noise level). Στις προσομοιώσεις θέτουμε nl=0 για δεδομένα χωρίς θόρυβο και nl=0.2 για δεδομένα με σημαντικό θόρυβο παρατήρησης. Στον παρακάτω πίνακα φαίνεται το πλήθος των χρονοσειρών (2000) που αντλήσαμε 32
48 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) από το σύστημα για τις διάφορες καταστάσεις και τα σενάρια που χρησιμοποιήσαμε: Σενάριο Κατάσταση ( ) Παρατηρήσεις τ.α. θορύβου % % % % Πίνακας 4.1: Πλήθος χρονοσειρών ανά σενάριο και τιμή του Για όλες αυτές τις χρονοσειρές υπολογίσαμε τα 540 μέτρα τα οποία παρουσιάσαμε στο κεφάλαιο 2 και έτσι μπορούμε να ελέγξουμε την διακριτική ικανότητα των μέτρων με τον δείκτη AU ROC όπως αναλύσαμε στο προηγούμενο κεφάλαιο. Σε ένα πίνακα σαν τον 4.2 θα εμφανίζεται η κατάταξη των μέτρων σύμφωνα με το AUROC, από αυτό που έχει την μεγαλύτερη τιμή, δηλαδή, προς αυτό που έχει την χαμηλότερη. Σε κάθε κελί θα υπάρχει η κατάταξη των 540 μέτρων για την συγκεκριμένη σύγκριση και για το συγκεκριμένο σενάριο. Η διάκριση έγινε μεταξύ των καταστάσεων για τις τιμές του , , , , , όπως φαίνεται στον Πίνακα 4.2. Για τα υπόλοιπα ζευγάρια η διάκριση ήταν εύκολη λόγω της μεγάλης διαφοράς στην τιμή της παραμέτρου και δεν συμπεριλήφθηκαν στους υπολογισμούς. Σενάριο Σύγκριση ( ) Ν nl % 1. μ μ % 600 0% % Πίνακας 4.2: Κατάταξη των μέτρων ανά σενάριο και ανά σύγκριση από το καλύτερο προς το χειρότερο Επίσης η ίδια δουλειά έγινε χρησιμοποιώντας τώρα τις χρονοσειρές από όλα τα σενάρια μαζί. Πιο συγκεκριμένα η διάκριση έγινε μεταξύ των ίδιων καταστάσεων, αλλά στην κάθε σύγκριση οι κλάσεις απαρτίζονταν από 400 χρονοσειρές η κάθε μία. Η κλάση περιέχει χρονοσειρές που παράγονται από το ίδιο με 100 να είναι από κάθε διαφορετικό σενάριο. Ετσι βγήκε η κατάταξη των 540 μέτρων για κάθε σύγκριση όπως στον Πίνακα 4.3: 33
49 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Σενάριο Σύγκριση ( ) Ν nl % 1. μ % 600 0% % 540. μ 540 Πίνακας 4.3: Κατάταξη των μέτρων ανά σύγκριση από το καλύτερο προς το χειρότερο Τέλος για κάθε μέτρο υπολογίσαμε τον μέσο όρο του AUROC που είχε σε όλες τις περιπτώσεις σενάριο - σύγκριση (συνολικά 24), καθώς και τη μέση κατάταξη ως προς το t test στις ίδιες περιπτώσεις, αποφεύγοντας έτσι τα προβλήματα που αναφέραμε στην ενότητα Σχεδιασμός και πραγματοποίηση Η υλοποίηση του υπολογιστικού μέρους της εργασίας έγινε με τη βοήθεια του προγράμματος M atlab. Αφού συγκεντρώσαμε σε μία λίστα όλα τα μέτρα που θα υπολογίσουμε και κάναμε την επιλογή των τιμών των παραμέτρων σύμφωνα με παλαιότερες εργασίες, στη συνέχεια γράψαμε συναρτήσεις στο M atlab (m-files) που κάνουν αυτούς τους υπολογισμούς. Επίσης χρησιμοποιήσαμε και ήδη υπάρχουσες συναρτήσεις για κάποια μέτρα όπως αναφέρουμε στο κεφάλαιο 2. Την προσομοίωση του συστήματος την πραγματοποιήσαμε με την συνάρτηση dde23 του Matlab που λύνει διαφορικές εξισώσεις υστέρησης για κάποιο. Σε ένα πρόγραμμα λοιπόν καλούμε αυτές τις συναρτήσεις σύμφωνα με την σειρά που έχουν στη λίστα μας, τις εφαρμόζουμε στην προσομοιωμένη χρονοσειρά και αποθηκεύουμε αυτούς τους 540 αριθμούς σε ένα κάθετο διάνυσμα που αντιστοιχεί σε αυτήν. Υστερα από 2000 τέτοιες επαναλήψεις που αντιστοιχούν στις χρονοσειρές του πίνακα 4.1 έχουμε υπολογίσει τον πίνακα των μέτρων (M ), δηλαδή τα πρωτογενή μας αποτελέσματα που θα χρησιμοποιήσουμε για την κατάταξη των μέτρων. N300 sd n0 N300 sdn0.2 N600 sdn0 N600 sdn0.2 {}}{{}}{{}}{{}}{ M =.... Ετσι τώρα είμαστε έτοιμοι να εφαρμόσουμε το AU ROC για να διαπιστώσουμε ποια είναι εκείνα τα μέτρα που οι κατανομές τους επικαλύπτονται όσο το δυνατόν λιγότερο όταν κάνουμε το ιστόγραμμα των τιμών τους στις αντίστοιχες καταστάσεις που συγκρίνουμε. Στην επόμενη ενότητα θα παραθέσουμε τις λίστες με τα μέτρα που αναδύθηκαν 34
50 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) από αυτή τη διαδικασία για όλες τις περιπτώσεις καθώς και τα αντίστοιχα ιστογράμματα για την οπτική επαλήθευση των αποτελεσμάτων του AU ROC. 4.3 Αποτελέσματα Εδώ θα παρουσιάσουμε τα δευτερογενή αποτελέσματα της ανάλυσής μας, δηλαδή τα καλύτερα μέτρα ως προς την ικανότητά τους να διαχωρίζουν δυο καταστάσεις του συστήματος Mackey - Glass. Γι αυτό το λόγο θα τα παρουσιάσουμε σε έξι ξεχωριστές ενότητες, όσα είναι και τα ζεύγη των καταστάσεων που μελετάμε. Σε κάθε μία από αυτές τις ενότητες έχουμε τα 4 σενάρια (Ν=300,600, nl=0,0.2) και την συνολική αντιμετώπιση όπως αναλύσαμε στην προηγούμενη ενότητα. Ετσι έχουμε 5 λίστες καλών διαχωριστών και 5 αντίστοιχα γραφήματα ιστογραμμάτων για κάθε σύγκριση. Τέλος παραθέτουμε μία λίστα με τα καλύτερα μέτρα κατά μέσο όρο, ως προς το AUROC. Τα ιστογράμματα εμφανίζονται σε ένα γράφημα 5 2 και το κάθε ένα αντιστοιχεί σε μέτρο του προηγούμενου πίνακα. Ο αύξων αριθμός του μέτρου από τον πίνακα έτσι ώστε να βλέπουμε το αντίστοιχο ιστόγραμμα εμφανίζεται πρώτος στον τίτλο του κάθε ιστογράμματος. Για την ασπρόμαυρη εκτύπωση πρέπει να πούμε πως το κόκκινο αντιστοιχεί στο σκούρο ενώ το πράσινο στο ανοιχτόχρωμο. Τέλος τα σενάρια έχουν ως εξής: 1 ο : Ν=300 nl=0 2 ο : Ν=300 nl=0.2 3 ο : Ν=600 nl=0 4 ο : Ν=600 nl=0.2 Για την καλύτερη ανάγνωση των αποτελεσμάτων ξεκινάμε την παρουσίασή τους από την επόμενη σελίδα. 35
51 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Διάκριση καταστάσεων 1: = 30 και = 100 Στον παρακάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AU ROC για το 1 o σενάριο: α\α Μέτρο AU ROC 1 dloc x (5, 10, 20) 1 2 dloc x (5, 10, 40) 1 3 C x (0.2, 5, 10) Ix(10) d AE x (0.2, 10) C x (0.2, ˆm, 10) Ix(10) p rx P (30) rx S (30) rx S (10) Πίνακας 4.4: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 100: πράσινο): Σχήμα 4.2: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Παρατηρούμε ότι βρέθηκαν μέτρα που κάνουν τέλειο διαχωρισμό των δύο καταστάσεων και επίσης πως η επικάλυψη στα υπόλοιπα είναι ελάχιστη γεγονός που φαίνεται και από την τιμή AUROC αλλά και από το ιστόγραμμα. 36
52 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 2 o σενάριο: α\α Μέτρο AU ROC 1 dloc x (5, 10, 20) 1 2 dloc x (5, 10, 40) 1 3 rx P (10) 1 4 rx S (10) 1 5 C x (0.2, 5, 10) DF C x Ix(10) p AE x (0.2, 10) Ix(10) d HeC x Πίνακας 4.5: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 100: πράσινο): Σχήμα 4.3: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Παρατηρούμε και πάλι ότι βρέθηκαν μέτρα που κάνουν τέλειο διαχωρισμό των δύο καταστάσεων όπως επίσης ότι η επικάλυψη στα υπόλοιπα είναι ελάχιστη γεγονός που φαίνεται και από την τιμή AUROC αλλά και από το ιστόγραμμα. 37
53 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 3 o σενάριο: α\α Μέτρο AU ROC 1 dloc x (5, 10, 20) 1 2 dloc x (5, 10, 40) 1 3 Ix(10) d 1 4 Ix(10) p 1 5 AE x (0.2, 10) 1 6 C x (0.2, ˆm, 10) 1 7 AE x (0.2, ˆm, τ = 10) 1 8 C x (0.2, 5, 10) 1 9 rx P (10) 1 10 rx S (10) 1 Πίνακας 4.6: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 100: πράσινο): Σχήμα 4.4: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Εδώ προφανώς η διάκριση είναι μια εύκολη υπόθεση για αρκετά μέτρα μιας και τα δέκα πρώτα στην κατάταξη δεν παρουσιάζουν καθόλου επικάλυψη. 38
54 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 4 o σενάριο: α\α Μέτρο AU ROC 1 dloc x (5, 10, 20) 1 2 dloc x (5, 10, 40) 1 3 AE x (0.2, 10) 1 4 Ix(10) p 1 5 Ix(10) d 1 6 C x (0.2, 5, 10) 1 7 AE x (0.2, ˆm, τ = 10) 1 8 rx P (10) 1 9 rx S (10) 1 10 rx K (10) 1 Πίνακας 4.7: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 100: πράσινο): Σχήμα 4.5: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Οπως και στο προηγούμενο σενάριο έτσι και σε αυτό η διάκριση των δύο καταστάσεων γίνεται με απόλυτη επιτυχία από τα πρώτα 10 μέτρα, κάτι που φαίνεται καθαρά από τα ιστογράμματα. 39
55 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC όταν οι χρονοσειρές προέρχονται και από τα 4 σενάρια: α\α Μέτρο AU ROC 1 dloc x (5, 10, 20) 1 2 dloc x (5, 10, 40) 1 3 AE x (0.2, 10) Ix(10) p rx S (10) rx P (10) rx K (10) rx P (30) rx S (30) rx K (30) Πίνακας 4.8: Ολα τα σενάρια μαζί Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 100: πράσινο): Σχήμα 4.6: Ολα τα σενάρια μαζί Ενα σχόλιο που μπορούμε να κάνουμε είναι πως υπάρχουν κάποια μέτρα όπως τα dloc x (5, 10, 20), dloc x (5, 10, 40), AE x (0.2, 10), r S x (10), r P x (10) που εμφανίζονται σε όλες τις λίστες, πράγμα που σημαίνει πως ειναι πολύ σημαντικά για τον διαχωρισμό των συγκεκριμένων καταστάσεων. 40
56 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Διάκριση καταστάσεων 2: = 30 και = 200 Η διάκριση αυτών των δύο καταστάσεων γίνεται από πολλά μέτρα με απόλυτο τρόπο όπως παρατηρούμε, αφού για όλα τα σενάρια τα δέκα καλύτερα μέτρα είναι τέλειοι διαχωριστές. Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 1 o σενάριο: α\α Μέτρο AU ROC 1 C x (0.2, ˆm, 10) 1 2 HeS x 1 3 EnRReE(10) 1 4 rx P (5) 1 5 r(c x, 5, 10) 1 6 rx P (10) 1 7 rx S (10) 1 8 h r(c x, ˆm, 10) 1 10 DF C x 1 Πίνακας 4.9: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 200: πράσινο): Σχήμα 4.7: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% 41
57 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 2 o σενάριο: α\α Μέτρο AU ROC 1 HeS x 1 2 C x (0.2, ˆm, 10) 1 3 DF S x 1 4 rx S (10) 1 5 rx P (10) 1 6 rx P (5) 1 7 r(c x, 5, 10) 1 8 r(c x, ˆm, 10) 1 9 h h Πίνακας 4.10: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 200: πράσινο): Σχήμα 4.8: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% 42
58 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 3 o σενάριο: α\α Μέτρο AU ROC 1 C x (0.2, ˆm, 10) 1 2 dloc x (5, 10, 20) 1 3 c {x min i } n i=1,{xmax i } n (1) 1 i=1 4 dloc x (5, 10, 40) 1 5 AE x (0.2, ˆm, τ = 10) 1 6 HeS x 1 7 rx P (10) 1 8 rx S (10) 1 9 DF S x 1 10 DF C x 1 Πίνακας 4.11: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 200: πράσινο): Σχήμα 4.9: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% 43
59 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 4 o σενάριο: α\α Μέτρο AU ROC 1 dloc x (5, 10, 40) 1 2 C x (0.2, ˆm, 10) 1 3 dloc x (5, 10, 20) 1 4 AE x (0.2, ˆm, τ = 10) 1 5 rx S (10) 1 6 rx P (10) 1 7 HeS x 1 8 C x (0.2, 5, 10) 1 9 rx K (10) 1 10 DF S x 1 Πίνακας 4.12: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 200: πράσινο): Σχήμα 4.10: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% 44
60 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC όταν οι χρονοσειρές προέρχονται και από τα 4 σενάρια: α\α Μέτρο AU ROC 1 r P x (5) 1 2 r P x (10) 1 3 r K x (10) 1 4 r S x (10) 1 5 r E (30) 1 6 h r E (5) 1 8 h r K x (5) r S x (5) Πίνακας 4.13: Ολα τα σενάρια μαζί Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 30: κόκκινο, = 200: πράσινο): Σχήμα 4.11: Ολα τα σενάρια μαζί Για τις δύο αυτές καταστάσεις υπάρχουν κάποια μέτρα που τις διαχωρίζουν καλά σε όλα τα σενάρια. Τέτοια είναι τα r P x (10), r S x (10), C x (0.2, ˆm, 10), HeS x. 45
61 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Διάκριση καταστάσεων 3: = 100 και = 200 Δεν παρουσιάστηκε κάποιος τέλειος διαχωριστής σε αυτή τη διάκριση καταστάσεων γεγονός που σημαίνει πως είναι πιο δύσκολος αυτός ο διαχωρισμός παρόλο που ο δείκτης AUROC έχει πολύ ψηλές τιμές σε όλες τις περιπτώσεις. Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 1 o σενάριο: α\α Μέτρο AU ROC 1 P ee x (5) EnRP ee( ˆm) P ee x (8) P ee x ( ˆm) F gp ee x (8) EnRP ee(5) dar x (0, 5) Crx S (40) Crx K (40) DF S x Πίνακας 4.14: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 100: κόκκινο, = 200: πράσινο): Σχήμα 4.12: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% 46
62 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 2 o σενάριο: α\α Μέτρο AU ROC 1 dci x (40) Crx S (40) Crx K (40) DF S x dloc x (0, 5, 40) dloc x (0, 5, 20) dar x (0, 5) r(c x, 10, 10) r(c x, 8, 10) rx h=5 (30) Πίνακας 4.15: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 100: κόκκινο, = 200: πράσινο): Σχήμα 4.13: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% 47
63 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 3 o σενάριο: α\α Μέτρο AU ROC 1 dci x (40) Crx S (40) Crx K (40) P ee x (8) EnRP ee( ˆm) P ee x (5) AE x (0.2, 8) P ee x ( ˆm) DF S x h Πίνακας 4.16: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 100: κόκκινο, = 200: πράσινο): Σχήμα 4.14: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% 48
64 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 4 o σενάριο: α\α Μέτρο AU ROC 1 dci x (40) Crx S (40) Crx K (40) EnRAE(5) h AE x (0.2, 8) DF S x rx P (30) h HeS x Πίνακας 4.17: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 100: κόκκινο, = 200: πράσινο): Σχήμα 4.15: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% 49
65 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC όταν οι χρονοσειρές προέρχονται και από τα 4 σενάρια: α\α Μέτρο AU ROC 1 Cr S x (40) Cr K x (40) dci x (40) DF S x r P x (30) h r(c x, 5, 10) h r(c x, 8, 10) r S x (30) Πίνακας 4.18: Ολα τα σενάρια μαζί Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 100: κόκκινο, = 200: πράσινο): Σχήμα 4.16: Ολα τα σενάρια μαζί Τα μέτρα Cr S x (40), Cr K x (40) είναι καλοί διαχωριστές των καταστάσεων = 100 και = 200 σε όλες τις περιπτώσεις, μιας και εμφανίζονται σε όλες τις λίστες των καλύτερων μέτρων. 50
66 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Διάκριση καταστάσεων 4: = 200 και = 250 Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 1 o σενάριο: α\α Μέτρο AU ROC 1 R HjM x r(c x, ˆm, 10) EnRAE(5, τ = 10) HjC x BaF x DF E x LL x r(c x, 10, 10) CE x Πίνακας 4.19: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 250: πράσινο): Σχήμα 4.17: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% 51
67 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 2 o σενάριο: α\α Μέτρο AU ROC 1 R EnRAE(5, τ = 10) DF E x R MNE x HjC x r(c x, 10, 10) rx P (30) Ix(20) p r(c x, ˆm, 10) Πίνακας 4.20: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 250: πράσινο): Σχήμα 4.18: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% 52
68 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 3 o σενάριο: α\α Μέτρο AU ROC 1 AE x (0.2, 5, τ = 10) EnRAE(5, τ = 10) HjC x P ee x (5) P ee x ( ˆm) P ee x (8) EnRP ee( ˆm) EnRP ee(5) h F gp ee x (8) Πίνακας 4.21: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 250: πράσινο): Σχήμα 4.19: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% 53
69 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 4 o σενάριο: α\α Μέτρο AU ROC 1 AE x (0.2, 5, τ = 10) EnRAE(5, τ = 10) h R h HjM x MNE x AE x (0.2, 5) AE x (0.2, 8) AE x (0.2, 10) Πίνακας 4.22: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 250: πράσινο): Σχήμα 4.20: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% 54
70 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC όταν οι χρονοσειρές προέρχονται και από τα 4 σενάρια: α\α Μέτρο AU ROC 1 EnRAE(5, τ = 10) Crx S (40) Crx K (40) R DF E x ποσοστ.σημείο r E (τ e ) ποσοστ.σημείο Ix(20) d DF C x Πίνακας 4.23: Ολα τα σενάρια μαζί Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 250: πράσινο): Σχήμα 4.21: Ολα τα σενάρια μαζί Σε αυτή τη διάκριση καταστάσεων το μόνο μέτρο που κάνει την εμφάνισή του σε όλες τις περιπτώσεις είναι το EnRAE(5, τ = 10). Γενικό σχόλιο αποτελεί ότι είναι η πιο δύσκολη περίπτωση μιας και οι επικαλύψεις, μεταξύ των κατανομών των μέτρων, με τη μεγαλύτερη κλίμακα υπάρχουν στην διάκριση των καταστάσεων = 200 και =
71 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Διάκριση καταστάσεων 5: = 200 και = 300 Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 1 o σενάριο: α\α Μέτρο AU ROC 1 RE SpE x SE HjM x BaF x LL x CE x R Crx K (40) Crx S (40) Πίνακας 4.24: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 300: πράσινο): Σχήμα 4.22: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% 56
72 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 2 o σενάριο: α\α Μέτρο AU ROC 1 SE RE SpE x R µ 3 /σ EnRAE(5, τ = 10) SaE x Crx K (40) Crx S (40) Crx P (40) Πίνακας 4.25: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 300: πράσινο): Σχήμα 4.23: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% 57
73 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 3 o σενάριο: α\α Μέτρο AU ROC 1 P ee x (8) P ee x (5) F gp ee x (8) P ee x ( ˆm) EnRAE(5, τ = 10) EnRP ee( ˆm) EnRP ee(5) P AM I µ 3 /σ R Πίνακας 4.26: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 300: πράσινο): Σχήμα 4.24: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% 58
74 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 4 o σενάριο: α\α Μέτρο AU ROC 1 EnRAE(5, τ = 10) AE x (0.2, 5, τ = 10) R µ 3 /σ µ 5 /σ ποσοστ.σημείο BaA x μ ποσοστ.σημείο MNE x Πίνακας 4.27: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 300: πράσινο): Σχήμα 4.25: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% 59
75 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC όταν οι χρονοσειρές προέρχονται και από τα 4 σενάρια: α\α Μέτρο AU ROC 1 EnRAE(5, τ = 10) Crx h=4 (τ max ) µ 3 /σ µ 5 /σ ποσοστ.σημείο Crx S (40) Crx K (40) BaA x μ ποσοστ.σημείο Πίνακας 4.28: Ολα τα σενάρια μαζί Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 200: κόκκινο, = 300: πράσινο): Σχήμα 4.26: Ολα τα σενάρια μαζί Δεν υπάρχουν μέτρα που να εμφανίζονται σε όλες τις λίστες, παρ όλα αυτά υπάρχουν κάποια που είναι πολύ συχνά στα 10 καλύτερα μέτρα για την συγκεκριμένη διάκριση. Αυτά είναι τα EnRAE(5, τ = 10), Cr K x (40), Cr S x (40), SE, RE, SpE x. 60
76 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Διάκριση καταστάσεων 6: = 250 και = 300 Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 1 o σενάριο: α\α Μέτρο AU ROC 1 SE SpE x RE τ max Crx(τ b max ) rx h=5 (30) Crx h=4 (τ max ) rx h=4 (20) rx h=4 (30) Crx h=5 (40) Πίνακας 4.29: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 250: κόκκινο, = 300: πράσινο): Σχήμα 4.27: Σενάριο 1. Παρατ.: 300 τ.α. θορ.: 0% 61
77 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 2 o σενάριο: α\α Μέτρο AU ROC 1 τ max SE RE SpE x Crx(τ b max ) Crx h=4 (τ max ) Crx S (τ max ) Crx P (τ max ) Crx h=5 (τ max ) rx h=5 (30) Πίνακας 4.30: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 250: κόκκινο, = 300: πράσινο): Σχήμα 4.28: Σενάριο 2. Παρατ.: 300 τ.α. θορ.: 20% 62
78 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 3 o σενάριο: α\α Μέτρο AU ROC 1 Crx(τ b max ) 1 2 τ max 1 3 Crx h=4 (τ max ) Crx h=5 (τ max ) Crx P (τ max ) Crx S (τ max ) Crx K (τ max ) P ee x ( ˆm) P ee x (5) EnRP ee( ˆm) Πίνακας 4.31: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 250: κόκκινο, = 300: πράσινο): Σχήμα 4.29: Σενάριο 3. Παρατ.: 600 τ.α. θορ.: 0% 63
79 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για το 4 o σενάριο: α\α Μέτρο AU ROC 1 Crx(τ b max ) τ max Crx h=4 (τ max ) Crx h=5 (τ max ) Crx P (τ max ) Crx S (τ max ) ποσοστ.σημείο µ 3 /σ rx(5) b µ 5 /σ Πίνακας 4.32: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 250: κόκκινο, = 300: πράσινο): Σχήμα 4.30: Σενάριο 4. Παρατ.: 600 τ.α. θορ.: 20% 64
80 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Στον πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC όταν οι χρονοσειρές προέρχονται και από τα 4 σενάρια: α\α Μέτρο AU ROC 1 τ max Crx(τ b max ) Crx h=4 (τ max ) Crx h=5 (τ max ) Crx P (τ max ) Crx S (τ max ) Crx K (τ max ) SpE x µ 3 /σ RE Πίνακας 4.33: Ολα τα σενάρια μαζί Στο κάτω γράφημα εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις διαφορετικές τιμές του ( = 250: κόκκινο, = 300: πράσινο): Σχήμα 4.31: Ολα τα σενάρια μαζί Τα μέτρα με την πιο συχνή εμφάνιση στις λίστες με τα καλύτερης απόδοσης μέτρα για την συγκεκριμένη διάκριση καταστάσεων είναι τα τ max, Crx(τ b max ), Crx h=4 (τ max ), δηλαδή μέτρα που έχουν να κάνουν με την εκτίμηση του τ max από την ίδια τη χρονοσειρά. 65
81 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Μέσο AU ROC Στην ανάλυση που κάναμε για τις προηγούμενες 6 παραγράφους κάθε μέτρο λαμβάνει 24 τιμές AUROC, μία για κάθε σενάριο και σύγκριση όπως φαίνεται και στον πίνακα 4.2. Παράλληλα εμείς υπολογίσαμε και την θέση που έχει το κάθε μέτρο και στην κατάταξη ως προς το t test για να αποκλείσουμε κάποια μέτρα που έχουν την τάση να εμφανίζονται ως καλά από το AUROC ενώ δεν είναι (ενότητα 3.3). Ετσι τελικά δώσαμε μία τιμή σε κάθε ένα από τα 540 μέτρα που προσδιορίζεται από τον παρακάτω τύπο: V m,s,c = AUC m,s,c, για m=1, (4.1) s=1 c=1 Ο μέσος όρος δηλαδή των τιμών του δείκτη που είχε το μέτρο m, στα σενάρια s = 1,..., 4 και στις διακρίσεις καταστάσεων c = 1,..., 6. α\α Μέτρο Μέσο AU ROC 1 MNE x DF S x HeS x r E (5) r E (10) h LLe x, CE x di x (5) LL x rx P (5) rx P (10) Crx S (τ max ) rx K (10) rx S (10) LLex,τmax dar x (0, 5) rx K (5) rx S (30) rx P (20) Πίνακας 4.34: Τα 20 καλύτερα μέτρα κατά μέσο όρο ως προς το AUROC Στον πίνακα παραθέτουμε εκείνα τα 20 μέτρα που είχαν την υψηλότερη τιμή V m,s,c με μέση θέση στην κατάταξη του t test που δεν ξεπερνάει την 100 η. 66
82 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) Συμπεράσματα Μέσα από μια συνολική ματιά των αποτελεσμάτων της προσομοιωτικής μελέτης μπορούμε να κάνουμε ορισμένες διαπιστώσεις σχετικά με τα μέτρα που αναδείχθηκαν πιο ικανά στις διάφορες περιπτώσεις. Κατ αρχήν τα μέτρα που εκτιμούν τις γραμμικές συσχετίσεις φαίνεται πως διαδραματίζουν πολύ σημαντικό ρόλο στην διάκριση των καταστάσεων σε όλες τις περιπτώσεις. Τέτοια είναι οι συντελεστές συσχέτισης και οι αθροιστικές τους συναρτήσεις. Αυτά δίνουν τιμές AUROC συχνά 1 αλλά και κοντά στο 0.9 όπως στην διάκριση στο 4 ο σενάριο το Cr P x (τ max ) παίρνει τιμή που σημαίνει πως δεν ταξινόμησε σωστά περίπου 11 από τις 200 χρονοσειρές. Το ότι τα μέτρα γραμμικής συσχέτισης είναι χρήσιμα φαίνεται και στην κατάταξη του μέσου AU ROC που λαμβάνουν καλή θέση πολλά από αυτά. Με λίγο μικρότερο βαθμό συχνότητας εμφανίζονται στις λίστες τα μέτρα που εντοπίζουν και γραμμικές αλλά και μη-γραμμικές συσχετίσεις όπως είναι η α- μοιβαία πληροφορία και η αθροιστική της συνάρτηση αλλά και το η 2. Από αυτά τα di x (5) και h 2 5 εμφανίζονται και στην κατάταξη του μέσου όρου. Επίσης τα μέτρα εκτίμησης της εντροπίας και πιο συγκεκριμένα το AE x και το EnRAE εμφανίζονται στις περισσότερες συγκρίσεις όλων των περιπτώσεων εκτός τις τελευταίας ( ), πράγμα που καθιστά την προσεγγιστική εντροπία (approximate entropy) χρήσιμο εργαλείο. Μέτρα διάστασης και πολυπλοκότητας υπάρχουν στις λίστες των καλύτερων μέτρων αλλά με σχετικά μικρή συχνότητα και κυρίως στις περιπτώσεις που διαχωρίζονται με μεγαλύτερη ευκολία. Παρ όλα αυτά αρκετά από αυτά παρουσιάζουν κατά μέσο όρο καλή εικόνα ως προς το AUROC, για παράδειγμα τα LL x και CE x. Σε λίγες περιπτώσεις ως καλοί διαχωριστές εμφανίζονται μέτρα βασισμένα στη μοντελοποίηση και μέτρα για τις συσχετίσεις μακράς εμβέλειας. Το DF S x που εντοπίζει συσχετίσεις μακράς εμβέλειας όμως είναι 2 ο στην κατά μέσο όρο κατάταξη πράγμα που σημαίνει πως σε όλες τις περιπτώσεις είχε ψηλό σκορ σταθερά αλλά όχι τόσο ώστε να μπαίνει στα πρώτα 10. Το ίδιο συμβαίνει και με το MNE x που είναι πρώτο.τέλος δεν αποδεικνύονται χρήσιμα τα μέτρα που υπολογίζονται για τις χρονοσειρές χαρακτηριστικών και την ευθύνη έχει το μήκος των χρονοσειρών αυτών που είναι μικρό (περίπου 12 παρατηρήσεις) και έτσι δεν προλαβαίνουν να αναπτύξουν κάποια δυναμική που να τα διαφοροποιεί. Αξίζει να σημειώσουμε πως οι δυσκολότερες περιπτώσεις διαχωρισμού ήταν η και η και μάλιστα στη δεύτερη εμφανίστηκαν σε όλα της τα σενάρια μέτρα που δεν είχαν μπει σε προηγούμενες λίστες. Αυτά ήταν μέτρα μνήμης της χρονοσειράς, μέτρα σχετικά με το φάσμα συχνοτήτων και απλά στατιστικά. Φυσικά όμως και εκεί είχαμε μέτρα γραμμικών συσχετίσεων που μπόρεσαν να διαχωρίσουν καλά τις δύο καταστάσεις. Στην που ήταν η πιο δύσκολη περίπτωση διότι είχαμε τις χαμηλότερες τιμές AU ROC εμφανίστηκαν μέτρα πολυπλοκότητας και εντροπίας σε μεγαλύτερη συχνότητα καθώς επίσης και απλά στατιστικά και μέτρα μη-γραμμικών συσχετίσεων. Οσων αφορά την κατά μέσο όρο κατάταξη πρέπει να αναφέρουμε πως ήταν αναμενόμενο να υπάρχουν αρκετά μέτρα γραμμικών και μη-γραμμικών συσχετίσεων όμως τα μέτρα πολυπλοκότητας, ενέργειας και συσχετίσεων μακράς εμβέλειας δεν εμφανίζονταν 67
83 Κεφάλαιο 4. Προσομοιωτικά δεδομένα (Mackey - Glass) συχνά στα πρώτα 10 πράγμα που σημαίνει πως κρατάνε σταθερά σχετικά καλή απόδοση όχι όμως τόσο καλή ώστε να μπαίνουν στα 10 καλύτερα ανά περίπτωση. 68
84 Κεφάλαιο 5 Εφαρμογή με πραγματικά δεδομένα (EEG) Σε αυτό το κεφάλαιο παρουσιάζουμε την σχετική ανάλυση των πραγματικών δεδομένων που προέρχονται από ηλεκτροεγκεφαλογραφήματα (EEG) ασθενών με επιληψία αλλά και υγειών ανθρώπων. Πρόκειται και πάλι για διάκριση καταστάσεων από χαρακτηριστικά των σημάτων που λαμβάνουμε από τα ηλεκτρόδια που τοποθετούνται στο κρανίο. Στις επόμενες ενότητες παρουσιάζουμε το πρόβλημα που μελετάμε, τον τρόπο με τον οποίο υλοποιήσαμε την υπολογιστική διεργασία και τα αποτελέσματα της μεθόδου. 5.1 Πρόβλημα και σχεδιασμός Οπως βλέπουμε στο σχήμα 5.2 στο σχεδιασμό μέτρησης EEG που εφαρμόστηκε σε αυτή τη μελέτη υπάρχουν 60 σημεία στο κρανίο απ όπου μπορούμε να λάβουμε σήμα με τη χρήση ηλεκτροδίου. Άλλα βρίσκονται στο μπροστινό μέρος, άλλα στο πίσω και άλλα πλάγια και επάνω ώστε να καλύπτουν κάθε περιοχή. Στην δική μας περίπτωση χρησιμοποιούμε 21 από αυτά τα οποία βρίσκονται στην περιοχή ενδιαφέροντος όπως ονομάζεται (Region Of Interest) όπου είναι το επάνω μέρος του κρανίου. Οι θέσεις αυτών των σημείων παρατίθενται στον πίνακα F1 8 FC4 15 CP1 2 FZ 9 C3 16 CPZ 3 F2 10 C1 17 CP2 4 FC3 11 CZ 18 CP4 5 FC1 12 C2 19 P1 6 FCZ 13 C4 20 PZ 7 FC2 14 CP3 21 P2 Πίνακας 5.1: Θέσεις ηλεκτροδίων στην περιοχή ενδιαφέροντος (ROI) 69
85 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) Σχήμα 5.1: Ηλεκτροεγκεφαλογράφημα από ένα ηλεκτρόδιο. Αριστερά: πριν το TMS, δεξιά: μετά το TMS Από αυτά τα σημεία θέλουμε να λάβουμε σήμα, από άτομα υγιή και άτομα με επιληψία, που αντιστοιχεί σε κάποιες πηγές του εγκεφάλου και ύστερα να τα επεξεργαστούμε κατά τον ίδιο τρόπο με τα προσομοιωτικά δεδομένα κάνοντας την διάκριση ανάμεσα στις καταστάσεις υγιής - ασθενής. Δηλαδή ουσιαστικά θα ψάξουμε να βρούμε μέτρα που να μπορούν μέσα από μία τέτοια διαδικασία να κάνουν διάγνωση της επιληψίας. Σε κάθε άτομο τοποθετήθηκαν ηλεκτρόδια όπως στην Εικόνα 5.2 και όντας σε ηρεμία του χορηγείται μπλοκ δύο διαδοχικών διακρανιακών μαγνητικών ερεθισμών (TMS) (στο Σχήμα 5.3 είναι οι δύο κάθετες γραμμές) και αυτό αποτελεί ένα επεισόδιο, με χρόνο μεταξύ των δύο ερεθισμών 4Hz=0.25sec. Σε μία καταγραφή έχουμε περίπου 15 τέτοια επεισόδια ένα κάθε περίπου 1-2 λεπτά. Σε κάθε επεισόδιο κρατάμε για ανάλυση 2048 τιμές δηλαδή 2048/1450sec πριν το TMS (PreTMS) και μετά το TMS (PostTMS), Σχήμα 5.1, αφαιρώντας 0.010sec πριν και 0.030sec μετά το TMSγια να μειώσουμε την επίδραση του μηχανικού παρασίτου που προκαλεί το TMS στο EEG (βλέπε Σχήμα 5.3). Ολο αυτό το διάστημα που κρατάμε τα δεδομένα ανά επεισόδιο το ονομάζουμε χρονική περιοχή (epoch). Κάποιες από τις χρονικές περιοχές απορρίφθηκαν για μελέτη από τους γιατρούς κι έτσι έχουμε για κάθε άτομο από 5 έως 23. Σε κάθε μία από αυτές τις ομάδες χρονοσειρών για κάθε άτομο έχουμε το πολύ 21 χρονοσειρές από τα 21 ηλεκτρόδια που και πάλι κάποιες απορρίφθηκαν για μελέτη για διάφορους λόγους, για παράδειγμα μπορεί κάποιο ηλεκτρόδιο να μην τοποθετήθηκε σωστά. Στο σχήμα 5.3 βλέπουμε μία χρονική περιοχή (epoch) στην καταγραφή ενός ατόμου από την οποία εμείς χρησιμοποιούμε τις 13 χρονοσειρές πριν την πρώτη κάθετη γραμμή και 13 χρονοσειρές μετά την δεύτερη κάθετη γραμμή οι οποίες είναι το σήμα που λαμβάνουμε από την περιοχή ενδιαφέροντος. Τέλος έχουμε δύο κατηγορίες ατόμων υγιείς και ασθενείς με επιληψία, 11 και 24 αντίστοιχα. Αυτό σημαίνει, τελικά, πως έχουμε να κάνουμε διάκριση μεταξύ των δύο καταστάσεων (υγιείς - ασθενείς) και να ελέγξουμε 70
86 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) (αʹ) Wikipedia (βʹ) Σημεία καταγραφής στο κρανίο Σχήμα 5.2: Καταγραφή ηλεκτροεγκεφαλογραφήματος Σχήμα 5.3: Χρονική περιοχή. Σήμα από 13 ηλεκτρόδια ενός υγιή πριν, κατά τη διάρκεια και μετά το TMS (Raw Data) 71
87 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) ποια είναι εκείνα τα μέτρα που έχουν την καλύτερη διακριτική ικανότητα, με δεδομένα 5388 χρονοσειρές εκ των οποίων 1417 από υγιείς και 3971 από ασθενείς (αυτό θα το εξηγήσουμε περισσότερο αργότερα). Ας σταθούμε λίγο σε αυτό το σημείο για να αναφερθούμε στους διαφορετικούς τύπους δεδομένων που μελετήσαμε. Πρώτα χρησιμοποιήσαμε τις μετρήσεις EEG με αναφορά στο μαστοειδή και μετά από φίλτρο bandpass [0.01,70] Hz FIR με τάξη 65 (Raw data), ενώ στη συνέχεια μορφοποιήσαμε τα δεδομένα με δύο τρόπους ως εξής: Σε κάθε χρονική στιγμή η τιμή του κάθε ηλεκτροδίου διαμορφωνόταν από τη διαφορά της αρχικής τιμής του και του μέσου όρου όλων των τιμών των ηλεκτροδίων εκείνη τη χρονική στιγμή. Αυτή η μέθοδος ονομάζεται Common Average Reference, η οποία δηλαδή υπολογίζει την τιμή του ηλεκτροδίου μια δεδομένη στιγμή αναφορικά με τον κοινό μέσο όρο όλων. Και τέλος χρησιμοποιήθηκε η μέθοδος REST (Reference Electrode Standardization Technique) η οποία γενικά θεωρείται πιο αξιόπιστη από τις υπόλοιπες. Η μέθοδος αυτή υπολογίζει τις τιμές σε κάθε ηλεκτρόδιο σύμφωνα με έναν πίνακα μετάβασης G, από τις πηγές στο εσωτερικό του εγκεφάλου στα δυναμικά V στην επιφάνειά του και ένα διάνυσμα S που δίνει την κατανομή των πηγών που παράγουν τα δυναμικά, για πιο εκτενή ανάλυση [6]. Για κάθε τύπο δεδομένων υπολογίσαμε τα μέτρα για όλες τις χρονοσειρές (υγιείς - ασθενείς, πριν - μετά το TMS) φτιάχνοντας έτσι τρεις πίνακες (10776=5388 χρονοσειρές PreTMS χρονοσειρές PostTMS). Από αυτούς πήραμε τα δεδομένα για να πραγματοποιήσουμε την ίδια διαδικασία όπως και στο προηγούμενο κεφάλαιο υπολογίζοντας τα καλύτερα μέτρα σύμφωνα με το AUROC για της χρονοσειρές μετά το TMS (PostTMS, 5388 χρονοσειρές). Επίσης υπολογίσαμε και κατά πόσο κάνουν καλό διαχωρισμό οι διαφορές των μέτρων πριν και μετά τον ερεθισμό (DIF, 5388 χρονοσειρές) για να πάρουμε την πληροφορία πριν τον ερεθισμό, καθώς και οι σχετικές διαφορές (RELDIF, 5388 χρονοσειρές). Ετσι συνοπτικά έχουμε για τρεις τύπους δεδομένων από τρεις αξιολογήσεις των μέτρων σύμφωνα με την διαδικασία που αναλύσαμε στο 3 ο κεφάλαιο και τα αντίστοιχα ιστογράμματα. Μια συνοπτική αναφορά των παραπάνω κάνουμε στον πίνακα 5.2. Raw PostTMS DIF RELDIF 5388=1417Υ Α 5388=1417Υ Α 5388=1417Υ Α 1. μ μ 540 ComAve REST Πίνακας 5.2: Διάκριση καταστάσεων ανά τύπο δεδομένων (3 αξιολογήσεις) 72
88 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) 5.2 Αποτελέσματα Σε αυτήν την ενότητα θα παρουσιάσουμε τα αποτελέσματα της υπολογιστικής διεργασίας όσων αφορά στα πραγματικά δεδομένα. Για την καλύτερη οργάνωση θα τα εκθέσουμε σε τρεις ενότητες για τους τρεις διαφορετικούς τύπους δεδομένων (Raw, Common Average, REST). Στην κάθε ενότητα θα παραθέτουμε τρεις λίστες με τα δέκα καλύτερα μέτρα, μία για την διάκριση των καταστάσεων με χαρακτηριστικά των χρονοσειρών που παράγονται μετά το TMS, μία για την διαφορά των μέτρων πριν και μετά τον ερεθισμό (PostTMS-PreTMS) και μία για την σχετική διαφορά ((PostTMS- PreTMS)/PreTMS ). Η διαδικασία που ακολουθήθηκε είναι αυτή που περιγράφουμε στο κεφάλαιο 3 όπου πρώτα εφαρμόζουμε t test και στη συνέχεια AUROC. Παράλληλα θα παρουσιάσουμε και οπτικά τα αποτελέσματα παραθέτοντας για κάθε μέτρο την κατανομή του όταν προέρχεται από χρονονοσειρές υγιών μαζί με την κατανομή του όταν προέρχεται από χρονοσειρές ασθενών για να δούμε την επικάλυψη των ιστογραμμάτων. Για την καλύτερη ανάγνωση των αποτελεσμάτων ξεκινάμε την παρουσίασή τους από την επόμενη σελίδα. 73
89 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) Raw Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις PostTMS χρονοσειρές, ενώ στο γράφημα 5.4 εμφανίζονται τα αντίστοιχα ιστογράμα\α Μέτρο AU ROC 1 P ee x ( ˆm) r(c x, 8, 10) r(c x, 10, 10) r(c x, 5, 10) F gp ee x ( ˆm, τ = 10) F gp ee x ( ˆm) r(c x, 10, 1) r(c x, 8, 1) P ee x (8) IQR Πίνακας 5.3: Πίνακας καλύτερων μέτρων. Raw data, PostTMS ματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.4: Ιστογράμματα καλύτερων μέτρων. Raw, PostTMS Παρατηρούμε πως όλα τα μέτρα κάνουν έναν μέτριο διαχωρισμό στην περίπτωση PostTMS αφού έχουν επικαλύψεις. Ενα θετικό σημάδι είναι πως το P ee x ( ˆm) έχει σχετικά ψηλή τιμή AUROC από μόνο του, πράγμα που μας προϊδεάζει πως σε μελλοντική δουλειά που θα γίνει για επιλογή χαρακτηριστικών (feature selection) τα αποτελέσματα θα είναι αρκετά καλύτερα. Στην επιλογή χαρακτηριστικών χρησιμοποιείτε ένας δείκτης 74
90 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) (Rand Index) με τον οποίο αξιολογείται κατά πόσο αυξήθηκε η ικανότητα κατηγοριοποίησης κάθε φορά που προστίθεται ένα μέτρο σε μία ομάδα μέτρων που χρησιμοποιούμε για την κατηγοριοποίηση, ενδεικτικά [61]. Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις DIF χρονοσειρές: α\α Μέτρο AU ROC 1 rx P (10) r(c x, ˆm, 10) µ 5 /σ DF S x DF C x di x (5) µ 3 /σ rx P (20) µ 4 /σ di x (10) Πίνακας 5.4: Πίνακας καλύτερων μέτρων. Raw data, DIF Στο γράφημα 5.5 εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.5: Ιστογράμματα καλύτερων μέτρων. Raw, DIF 75
91 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις RELDIF χρονοσειρές: α\α Μέτρο AU ROC 1 rx P (10) r(c x, ˆm, 10) µ 5 /σ DF S x DF C x di x (5) µ 3 /σ rx P (20) µ 4 /σ di x (10) Πίνακας 5.5: Πίνακας καλύτερων μέτρων. Raw data, RELDIF Στο γράφημα 5.6 εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.6: Ιστογράμματα καλύτερων μέτρων. Raw, RELDIF Στις περιπτώσεις DIF και RELDIF τα αποτελέσματα δεν είναι καθόλου καλά α- φού η καλύτερη τιμή AU ROC είναι 0.71, έτσι η καλύτερη διάκριση των καταστάσεων επιτυγχάνεται με τις χρονοσειρές που λαμβάνουμε μετά τον ερεθισμόtms. 76
92 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) ComAve Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις PostTMS χρονοσειρές: α\α Μέτρο AU ROC 1 P ee x (5) LLe x, P ee x (8) HigD x (5) LLex, EnRP ee(8) F gp ee x (8) LLe x, EnRP ee(5) F gp ee x (5) Πίνακας 5.6: Πίνακας καλύτερων μέτρων. ComAve, PostTMS Στο γράφημα 5.7 εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.7: Ιστογράμματα καλύτερων μέτρων. ComAve, PostTMS Ο διαχωρισμός σε αυτή την περίπτωση είναι δύσκολος και αυτό φαίνεται από τα όχι καλά αποτελέσματα τόσο στον δείκτη AU ROC, όσο και στα ιστογράμματα. 77
93 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις DIF χρονοσειρές: α\α Μέτρο AU ROC 1 DF C x rx P (10) HeC x DF S x h LLex,τe HeS x mf x rx S (10) HjC x Πίνακας 5.7: Πίνακας καλύτερων μέτρων. ComAve, DIF Στο γράφημα 5.8 εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.8: Ιστογράμματα καλύτερων μέτρων. ComAve, DIF Εδώ όπως φαίνεται ο διαχωρισμός είναι ακόμη πιο δύσκολη υπόθεση και τα μέτρα ουσιαστικά αδυνατούν να διακρίνουν της δύο καταστάσεις. 78
94 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις RELDIF χρονοσειρές: α\α Μέτρο AU ROC 1 EnRAE( ˆm, τ = 10) EnRAE( ˆm) DF S x h HeS x h 2ˆm HjC x rx S (10) EnRP ee( ˆm) rx P (5) Πίνακας 5.8: Πίνακας καλύτερων μέτρων. ComAve, RELDIF Στο γράφημα 5.9 εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.9: Ιστογράμματα καλύτερων μέτρων. ComAve, RELDIF 79
95 Κεφάλαιο 5. Εφαρμογή με πραγματικά δεδομένα (EEG) REST Στον πιο κάτω πίνακα εμφανίζονται τα μέτρα με τον υψηλότερο δείκτη AUROC για τις PostTMS χρονοσειρές: α\α Μέτρο AU ROC 1 HigD x (5) P ee x (5) EnRP ee(8) P ee x (8) P ee x ( ˆm) EnRP ee(5) F gp ee x (5) F gp ee x (8) HigD x (10) EnRP ee( ˆm) Πίνακας 5.9: Πίνακας καλύτερων μέτρων. REST, PostTMS Στο γράφημα 5.10 εμφανίζονται τα αντίστοιχα ιστογράμματα των μέτρων για τις καταστάσεις υγιής (πράσινο) - ασθενής (κόκκινο): Σχήμα 5.10: Ιστογράμματα καλύτερων μέτρων. REST, PostTMS Ο διαχωρισμός σε αυτή την περίπτωση και πάλι είναι δύσκολος και αυτό φαίνεται από τα άσχημα αποτελέσματα τόσο στον δείκτη AU ROC, όσο και στα ιστογράμματα. 80
Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα
Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα - Ανακατασκευή του χώρου καταστάσεων παρατήρηση της πολυπλοκότητας / στοχαστικότητας / δομής του συστήματος - Εκτίμηση χαρακτηριστικών
Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,
Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»
Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων» Οδηγίες: Σχετικά με την παράδοση της εργασίας θα πρέπει: Το κείμενο
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο
Χρονοσειρές - Μάθημα 7. Μη-γραμμική ανάλυση χρονοσειρών
Χρονοσειρές - Μάθημα 7 Μη-γραμμική ανάλυση χρονοσειρών Γραμμική ανάλυση / Γραμμικά μοντέλα αυτοσυσχέτιση AR μοντέλο ARMA(p,q) μοντέλο x x px p z z z q q Πλεονεκτήματα:. Απλά 2. Κανονική διαδικασία, ανεπτυγμένη
Χρονοσειρές, Μέρος Β 1 Πρόβλεψη Χρονικών Σειρών
Χρονοσειρές, Μέρος Β Πρόβλεψη Χρονικών Σειρών Ο βασικός σκοπός της μελέτης των μοντέλων για χρονικές σειρές (όπως AR, MA, ARMA, ARIMA, SARIMA) είναι η πρόβλεψη (predicio, forecasig) Η πρόβλεψη των μελλοντικών
Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17
Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις
Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική
ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΡΟΣ B Δημήτρης Κουγιουμτζής e-mal: dkugu@auth.gr Ιστοσελίδα αυτού του τμήματος του μαθήματος: http://uer.auth.gr/~dkugu/teach/cvltraport/dex.html Εφαρμοσμένη Στατιστική:
Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή
Χρονικές σειρές 12 Ο μάθημα: Έλεγχοι στασιμότητας ΑΝΑΚΕΦΑΛΑΙΩΣΗ: Εκτίμηση παραμέτρων γραμμικών μοντέλων Συνάρτηση μερικής αυτοσυσχέτισης Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική
Εκτίμηση μη-γραμμικών χαρακτηριστικών
Εκτίμηση μη-γραμμικών χαρακτηριστικών Μη-γραμμικά χαρακτηριστικά ή αναλλοίωτα μέτρα Διάσταση. Ευκλείδια. Τοπολογική 3. Μορφοκλασματική (συσχέτισης, πληροφορίας, μέτρησης κουτιών, ) Εκθέτες Lypunov (μεγαλύτερος,
HMY 799 1: Αναγνώριση Συστημάτων
HMY 799 : Αναγνώριση Συστημάτων Διάλεξη Στοχαστικές Τυχαίες Μεταβλητές/ Στοχαστικά Σήματα Πειραματικά δεδομένα >Επιλογή τύπου μοντέλου >Επιλογή κριτηρίου >Υπολογισμός >Επικύρωση Προσαρμογή καμπύλης (Curve
Αριθμητική Ανάλυση και Εφαρμογές
Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Πεπερασμένες και Διαιρεμένες Διαφορές Εισαγωγή Θα εισάγουμε την έννοια των διαφορών με ένα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,
ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ
ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ 1.1 Πίνακες, κατανομές, ιστογράμματα... 1 1.2 Πυκνότητα πιθανότητας, καμπύλη συχνοτήτων... 5 1.3
Μάθημα 1: Εισαγωγή στην ανα λυση χρονοσειρω ν, στασιμο τητα και αυτοσυσχε τιση
«Ποσοτικε ς Με θοδοι στα Οικονομικα : Ανα λυση οικονομικω ν χρονοσειρω ν με γραμμικε ς μεθο δους» - Με ρος Α, Διδάσκων: Κουγιουμτζής Δημήτρης Quaiaive Topics i Ecoomics: Time Series Aalysis wih Liear Mehods
ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ
ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά
Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008
Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008 1 Τύποι Οικονομικών Δεδομένων Τα οικονομικά δεδομένα που χρησιμοποιούνται για την εξέταση οικονομικών φαινομένων μπορεί να έχουν τις ακόλουθες
Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης
Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να
ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.
ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα. Στα παραπάνω ιστογράμματα, παρατηρούμε, ότι αν και υπάρχει διαφορά στη διασπορά των τιμών
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της
Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)
Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2) Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα,
website:
Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ιδρυμα Θεσσαλονίκης Τμήμα Μηχανικών Αυτοματισμού Μαθηματική Μοντελοποίηση Αναγνώριση Συστημάτων Μαάιτα Τζαμάλ-Οδυσσέας 6 Μαρτίου 2017 1 Εισαγωγή Κάθε φυσικό σύστημα
Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο
Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο «Περιγραφική & Επαγωγική Στατιστική» 1. Πάνω από το 3 ο τεταρτημόριο ενός δείγματος βρίσκεται το: α) 15%
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 5ο
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΜΑΘΗΜΑ 5ο Μοναδιαία ρίζα Είδαμε προηγουμένως πως ο έλεγχος της στασιμότητας μιας χρονικής σειράς μπορεί να γίνει με τη συνάρτηση αυτοσυσχέτισης.
MATLAB. Εισαγωγή στο SIMULINK. Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής
MATLAB Εισαγωγή στο SIMULINK Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής Εισαγωγή στο Simulink - Βιβλιοθήκες - Παραδείγματα Εκκίνηση BLOCKS click ή Βιβλιοθήκες Νέο αρχείο click ή Προσθήκη block σε αρχείο
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Χρονοσειρές - Μάθημα 8. Μη-γραμμική ανάλυση χρονοσειρών
Χρονοσειρές - Μάθημα 8 Μη-γραμμική ανάλυση χρονοσειρών Γραμμική ανάλυση / Γραμμικά μοντέλα αυτοσυσχέτιση AR μοντέλο ARMA(,q) μοντέλο x x x z z z q q Πλεονεκτήματα:. Απλά. Κανονική διαδικασία, ανεπτυγμένη
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ
ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ Ενότητα 4: Time and Frequency Analysis Διδάσκων: Γεώργιος Στεφανίδης Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών Σκοποί ενότητας Για την περιγραφή ενός συστήματος κρίσιμο
ΜΑΘΗΜΑ 3ο. Βασικές έννοιες
ΜΑΘΗΜΑ 3ο Βασικές έννοιες Εισαγωγή Βασικές έννοιες Ένας από τους βασικότερους σκοπούς της ανάλυσης των χρονικών σειρών είναι η διενέργεια των προβλέψεων. Στα υποδείγματα αυτά η τρέχουσα τιμή μιας οικονομικής
ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ
ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ & ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΘΕΩΡΙΑΣ-ΥΠΟΔΕΙΓΜΑΤΑ ΚΙΝΗΤΟΥ ΜΕΣΟΥ MA(q) ΚΑΙ ΜΙΚΤΑ ΥΠΟΔΕΙΓΜΑΤΑ ARMA (p,q) ΕΠΙΧ - Τεχνικές Προβλέψεων & Ελέγχου
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση
ΜΑΘΗΜΑ 4 ο. Μοναδιαία ρίζα
ΜΑΘΗΜΑ 4 ο Μοναδιαία ρίζα Είδαμε προηγουμένως πως ο έλεγχος της στασιμότητας μιας χρονικής σειράς μπορεί να γίνει με τη συνάρτηση αυτοσυσχέτισης. Ένας άλλος τρόπος που χρησιμοποιείται ευρύτατα στην ανάλυση
1. Ποιες είναι οι διαφορές μεταξύ αυτοπαλίνδρομων υποδειγμάτων (AR) και υποδειγμάτων κινητού μέσου (MA);
Ερωτήσεις: 1. Ποιες είναι οι διαφορές μεταξύ αυτοπαλίνδρομων υποδειγμάτων (AR) και υποδειγμάτων κινητού μέσου (MA); Στα αυτοπαλίνδρομα υποδείγματα η τρέχουσα τιμή της y είναι συνάρτηση p υστερήσεων της
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΤΡΙΤΟ ΣΥΝΑΡΤΗΣΗ ΑΥΤΟΣΥΣΧΕΤΙΣΗΣ-ΕΛΕΓΧΟΣ ΣΤΑΣΙΜΟΤΗΤΑΣ Δρ. Κουνετάς Η Κωνσταντίνος ΕΠΙΧ Τεχνικές Προβλέψεων & Ελέγχου
Χρονικές σειρές 10 Ο μάθημα: Μη στάσιμα μοντέλα ARIMA Μεθοδολογία Box-Jenkins Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 10 Ο μάθημα: Μη στάσιμα μοντέλα ARIMA Μεθοδολογία Box-Jenkins Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ.
4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER
4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων
ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 5 : Θόρυβος Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Ομιλίας Είδη θορύβου Περιγραφή θορύβου Θεώρημα Shannon Hartley Απόδοση ισχύος και εύρους
Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων
Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων Copyright 2009 Cengage Learning 8.1 Συναρτήσεις Πυκνότητας Πιθανοτήτων Αντίθετα με τη διακριτή τυχαία μεταβλητή που μελετήσαμε στο Κεφάλαιο 7, μια συνεχής τυχαία
Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii
Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ
Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o
ΙΩΑΝΝΗΣ Κ. ΔΗΜΗΤΡΙΟΥ Εφαρμογές Ποσοτικές Ανάλυσης με το Excel 141 ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Ανάλυση Δεδομένων Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,
Στατιστική Συμπερασματολογία
Στατιστική Συμπερασματολογία Διαφάνειες 1 ου κεφαλαίου Βιβλίο: Κολυβά Μαχαίρα, Φ. & Χατζόπουλος Στ. Α. (2016). Μαθηματική Στατιστική, Έλεγχοι Υποθέσεων. [ηλεκτρ. βιβλ.] Αθήνα: Σύνδεσμος Ελληνικών Ακαδημαϊκών
Στατιστική, Άσκηση 2. (Κανονική κατανομή)
Στατιστική, Άσκηση 2 (Κανονική κατανομή) Στον πίνακα που ακολουθεί δίνονται οι μέσες παροχές όπως προέκυψαν από μετρήσεις πεδίου σε μια διατομή ενός ποταμού. Ζητείται: 1. Να αποδειχθεί ότι το δείγμα προσαρμόζεται
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο
HMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις
Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών
Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών Δημήτρης Κουτσογιάννης Τομέας Υδατικών Πόρων και Περιβάλλοντος, Σχολή Πολιτικών Μηχανικών, Εθνικό Μετσόβιο Πολυτεχνείο Αθήνα Επανέκδοση
Στατιστική. Εκτιμητική
Στατιστική Εκτιμητική Χατζόπουλος Σταύρος 28/2/2018 και 01 /03/2018 Εισαγωγή Το αντικείμενο της Στατιστικής είναι η εξαγωγή συμπερασμάτων που αφορούν τον πληθυσμό ή το φαινόμενο που μελετάμε, με τη βοήθεια
Στατιστική Ι. Ανάλυση Παλινδρόμησης
Στατιστική Ι Ανάλυση Παλινδρόμησης Ανάλυση παλινδρόμησης Η πρόβλεψη πωλήσεων, εσόδων, κόστους, παραγωγής, κτλ. είναι η βάση του επιχειρηματικού σχεδιασμού. Η ανάλυση παλινδρόμησης και συσχέτισης είναι
Βιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2013-2014 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητή: ένα χαρακτηριστικό ή ιδιότητα που μπορεί να πάρει διαφορετικές τιμές
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Αριάδνη Αργυράκη ΣΤΑΔΙΑ ΕΚΤΕΛΕΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΓΕΩΧΗΜΙΚΩΝ ΕΡΕΥΝΩΝ 1.ΣΧΕΔΙΑΣΜΟΣ: - Καθορισμός στόχων έρευνας - Ιστορικό περιοχής 2 4.
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΟΝ ΕΝΤΟΠΙΣΜΟ ΓΕΩΧΗΜΙΚΗΣ ΑΝΩΜΑΛΙΑΣ Στατιστική ανάλυση του γεωχημικού δείγματος μας δίνει πληροφορίες για τον
9. Παλινδρόμηση και Συσχέτιση
9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε
Χρονοσειρές Μάθημα 1
Χρονοσειρές Μάθημα Περιεχόμενα - Στασιμότητα, αυτοσυσχέτιση, μερική αυτοσυσχέτιση, απομάκρυνση στοιχείων μη-στατικότητας, έλεγχος ανεξαρτησίας για χρονικές σειρές - Γραμμικές στοχαστικές διαδικασίες: αυτοπαλινδρομούμενη
ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ
ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ 1.Έστω ο δειγματικός χώρος Ω = { 1,,, K,10} με ισοπίθανα απλά ενδεχόμενα. Να 4 βρείτε την πιθανότητα ώστε η συνάρτηση f ( x ) = x 4x + λ να
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΤΕΤΑΡΤΟ ΑΥΤΟΠΑΛΙΝΔΡΟΜΑ ΥΠΟΔΕΙΓΜΑΤΑ AR(p) Δρ. Κουνετάς Η Κωνσταντίνος ΕΠΙΧ Τεχνικές Προβλέψεων & Ελέγχου ιαφάνεια
Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική
Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR
Διάστημα εμπιστοσύνης της μέσης τιμής
Διάστημα εμπιστοσύνης της μέσης τιμής Συντελεστής εμπιστοσύνης Όταν : x z c s < μ < x +z s c Ν>30 Στον πίνακα δίνονται κρίσιμες τιμές z c και η αντιστοίχισή τους σε διάφορους συντελεστές εμπιστοσύνης:
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Συσχέτιση μεταξύ δύο συνόλων δεδομένων
Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,
Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)
Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει
Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου
Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα, Πανεπιστήμιο
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά
Περιεχόμενα. σελ. Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii
Περιεχόμενα Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii 1. Ειδικές συναρτήσεις 1.0 Εισαγωγή... 1 1.1 Εξίσωση του Laplace Συστήματα συντεταγμένων... 2 1.2 Συνάρτηση δ του Dirac...
ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ
ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΣΤΗΝ ΑΘΛΗΤΙΚΗ ΕΠΙΣΤΗΜΗ ΜΕ ΠΑΡΑΔΕΙΓΜΑΤΑ ΣΤΟ SPSS 6 η Έκδοση Γιώργος Βαγενάς Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών ΕΚ ΟΣΕΙΣ ΤΖΙΟΛΑ Αποκλειστικότητα για την ελληνική γλώσσα: ΕΚ
Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017
Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης
Αριθμητική Ανάλυση και Εφαρμογές
Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα
x[n] = e u[n 1] 4 x[n] = u[n 1] 4 X(z) = z 1 H(z) = (1 0.5z 1 )(1 + 4z 2 ) z 2 (βʹ) H(z) = H min (z)h lin (z) 4 z 1 1 z 1 (z 1 4 )(z 1) (1)
Ασκήσεις με Συστήματα στο Χώρο του Ζ Επιμέλεια: Γιώργος Π. Καφεντζης Δρ. Επιστήμης Η/Υ Πανεπιστημίου Κρήτης Δρ. Επεξεργασίας Σήματος Πανεπιστημίου Rennes 1 7 Νοεμβρίου 015 1. Υπολόγισε τον μετ. Ζ και την
1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης
1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης Στη συγκεκριμένη ενότητα εξετάζουμε θέματα σχετικά με την αριθμητική πεπερασμένης ακρίβειας που χρησιμοποιούν οι σημερινοί υπολογιστές και τα
HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)
HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 5: Στοχαστικά/Τυχαία Σήματα Διακριτού Διάλεξη 5: Στοχαστικά/Τυχαία Σήματα Διακριτού Χρόνου (Ι) Στοχαστικά σήματα Στα προηγούμενα: Ντετερμινιστικά
Αριθμητική Ανάλυση και Εφαρμογές
Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 2017-2018 Παρεμβολή και Παρεκβολή Εισαγωγή Ορισμός 6.1 Αν έχουμε στη διάθεσή μας τιμές μιας συνάρτησης
Μαθηματική Εισαγωγή Συναρτήσεις
Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας Διανύσματα Καστοριά,
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΤΡΙΤΟ ΣΥΝΑΡΤΗΣΗ ΑΥΤΟΣΥΣΧΕΤΙΣΗΣ-ΕΛΕΓΧΟΣ ΣΤΑΣΙΜΟΤΗΤΑΣ Δρ. Κουνετάς Η Κωνσταντίνος ΕΠΙΧ Τεχνικές Προβλέψεων & Ελέγχου
Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση
Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ Μαθηματικά Σταύρος Παπαϊωάννου Ιούνιος 015 Τίτλος Μαθήματος Περιεχόμενα Χρηματοδότηση... Error! Bookmark not defined. Σκοποί Μαθήματος (Επικεφαλίδα
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Σημειακή επεξεργασία και μετασχηματισμοί Κατηγορίες μετασχηματισμού εικόνων Σημειακοί μετασχηματισμοί
Βιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών
Μαθηματική Εισαγωγή Συναρτήσεις
Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς Καστοριά, Ιούλιος 14 A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας
Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:
Άσκηση 1: Δύο τυχαίες μεταβλητές Χ και Υ έχουν στατιστικές μέσες τιμές 0 και διασπορές 25 και 36 αντίστοιχα. Ο συντελεστής συσχέτισης των 2 τυχαίων μεταβλητών είναι 0.4. Να υπολογισθούν η διασπορά του
E[ (x- ) ]= trace[(x-x)(x- ) ]
1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού
Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων
Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί
Στατιστική ανάλυση αποτελεσμάτων
HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme Στατιστική ανάλυση αποτελεσμάτων Βασίλης Αγγελής Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων Πανεπιστήμιο Αιγαίου Κατερίνα Δημάκη Αν. Καθηγήτρια
Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα
Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα Ορισμός τυχαίας μεταβλητής Τυχαία μεταβλητή λέγεται η συνάρτηση
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών
6. ΚΕΦΑΛΑΙΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ LAPLACE
6. ΚΕΦΑΛΑΙΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ APACE Σκοπός του κεφαλαίου είναι να ορίσει τον αμφίπλευρο μετασχηματισμό aplace ή απλώς μετασχηματισμό aplace (Μ) και το μονόπλευρο μετασχηματισμό aplace (ΜΜ), να περιγράψει
Συμπίεση Δεδομένων
Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Αναλογικά Ψηφιακά Σήματα Αναλογικό Σήμα x t, t [t min, t max ], x [x min, x max ] Δειγματοληψία t n, x t x n, n = 1,, N Κβάντιση x n x(n) 3 Αλφάβητο
Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA)
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ (Time-series Analysis)
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ (Time-series Analysis) Δρ Ιωάννης Δημόπουλος Καθηγητής Τμήμα Διοίκησης Μονάδων Υγείας και Πρόνοιας -ΤΕΙ Καλαμάτας Τι είναι η χρονολογική σειρά Χρονολογική σειρά ή Χρονοσειρά
Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών
Στατιστική Ι Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης
Πραγματικές χρονοσειρές
3. 4.. 5... Γενικά για χρονοσειρές (πειραματικά δεδομένα και θόρυβος). Ανακατασκευή χώρου φάσεων 3. Υπολογισμός διάστασης χαοτικών ελκυστών 4. Υπολογισμός εκθετών Lyapunov 5. Μέθοδοι πρόβλεψης φυσιολογία
Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv
Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,
Στατιστική. Ενότητα 3 η : Χαρακτηριστικά Τυχαίων Μεταβλητών Θεωρητικές Κατανομές Πιθανότητας για Διακριτή Τυχαία Μεταβλητή
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 3 η : Χαρακτηριστικά Τυχαίων Μεταβλητών Θεωρητικές Κατανομές Πιθανότητας για Διακριτή Τυχαία Μεταβλητή Γεώργιος Ζιούτας Άδειες
Αριθμητική Ανάλυση & Εφαρμογές
Αριθμητική Ανάλυση & Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 2017-2018 Υπολογισμοί και Σφάλματα Παράσταση Πραγματικών Αριθμών Συστήματα Αριθμών Παράσταση Ακέραιου
ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ
Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται