AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ
|
|
- Σελήνη Λόντος
- 8 χρόνια πριν
- Προβολές:
Transcript
1 AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ ΕΚΤΙΜΗΣΗ ΑΙΤΙΟΤΗΤΑΣ ΚΑΤΑ GRANGER ΜΕ ΧΡΗΣΗ ΑΝΑΛΥΣΗΣ ΑΝΕΞΑΡΤΗΤΩΝ ΣΥΝΙΣΤΩΣΩΝ (ICA) Μεταπτυχιακή Διπλωματική Εργασία Χάνδακας Ευάγγελος Χημικός Μηχανικός ΑΠΘ Επιβλέπων καθηγητής: Κουγιουμτζής Δημήτρης Αναπληρωτής Καθηγητής Τμήμα Η.Μ.Μ.Υ ΑΠΘ Θεσσαλονίκη 2016
2 AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ ΕΚΤΙΜΗΣΗ ΑΙΤΙΟΤΗΤΑΣ ΚΑΤΑ GRANGER ΜΕ ΧΡΗΣΗ ΑΝΑΛΥΣΗΣ ΑΝΕΞΑΡΤΗΤΩΝ ΣΥΝΙΣΤΩΣΩΝ (ICA) ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Χάνδακας Ευάγγελος Επιβλέπων καθηγητής: Κουγιουμτζής Δημήτριος Αναπληρωτής Καθηγητής Τμήμα Η.Μ.Μ.Υ ΑΠΘ Τριμέλης εξεταστική επιτροπή Δ. Κουγιουμτζής Αν. Καθηγητής Α.Π.Θ. Τμήμα ΗΜΜΗ/Υ Ι. Αντωνίου Καθηγητής Α.Π.Θ. Τμήμα Μαθηματικών Π. Μπαμίδης Αν. Καθηγητής Α.Π.Θ. Ιατρική Σχολή Θεσσαλονίκη
3 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να εκφράσω τις θερμές μου ευχαριστίες για την αμέριστη συμπαράσταση και εποπτεία την όποια έλαβα από τον επιβλέποντα αυτής της εργασίας Αναπληρωτή Καθηγητή κ. Δημήτριο Κουγιουμτζή, του τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, ο οποίος μου εμπιστεύτηκε το θέμα και με καθοδήγησε σε όλα τα στάδια της εργασίας. Επιπλέον, θα ήθελα να ευχαριστήσω το φίλο συμφοιτητή Υποψήφιο Διδάκτορα Χρήστο Κουτλή, του τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για την συνεχή υποστήριξη που παρείχε και το ενδιαφέρον που επέδειξε κατά την εκπόνηση της εργασίας. Ακόμα, θα ήθελα να ευχαριστήσω το φίλο και συμφοιτητή Ιωάννη Τζανή για την αμέριστη υποστήριξη και βοήθεια καθώς επίσης και για τη μεταξύ μας συνεργασία καθ όλη τη διάρκεια φοίτησης στις μεταπτυχιακές σπουδές. Επίσης, θα ήθελα να ευχαριστήσω την σύζυγο μου Ελένη για την κατανόηση που επέδειξε καθ όλο το χρονικό διάστημα της εκπόνησης της εργασίας αλλά και των μεταπτυχιακών μου σπουδών. Τέλος, θα ήθελα να ευχαριστήσω όσους συνέβαλλαν στην ολοκλήρωση της παρούσας διπλωματικής αλλά και των μεταπτυχιακών μου σπουδών. -3-
4 ΠΕΡΙΛΗΨΗ H αιτιότητα κατά Granger επιτρέπει τη διερεύνηση των εξαρτήσεων σε συστήματα πολυμεταβλητών χρονοσειρών αναδεικνύοντας την αλληλεξάρτηση μεταξύ των μεταβλητών. Η ανάλυση των ανεξαρτήτων συνιστωσών (Independent Component Analysis, ICA) επιτρέπει το διαχωρισμό σήματος και αποτελεί μέθοδο του τυφλού διαχωρισμού. Ως εκ τούτου, η συνδυαστική τους χρήση συνεισφέρει στη μελέτη των πολυμεταβλητών χρονοσειρών και ειδικότερα στο τομέα της νευρολογίας δίνοντας τη δυνατότητα εξέτασης της λειτουργικότητας του εγκεφάλου σε διαφορετικές καταστάσεις. Στην παρούσα εργασία μελετάται η συμπεριφορά των δυο εργαλείων σε προσομοιωτικά και πειραματικά δεδομένα πολυμεταβλητών χρονοσειρών και ειδικότερα η ικανότητα του δείκτη Conditional Granger Causality Index (CGCI), να διαχωρίζει τις διαφορετικές καταστάσεις του συστήματος έπειτα από τη χρήση της μεθόδου ICA. Κατά τις προσομοιώσεις χρησιμοποιήθηκαν διανυσματικά αυτοπαλινδρομούμενα μοντέλα (vector autoregressive VAR) τάξης 1, VAR(1). Τα VAR(1) μοντέλα σχηματίστηκαν από πίνακες γειτνίασης με δομή δικτύων small-world, free scale και random network. Τα VAR μοντέλα εξετάστηκαν αυτούσια αλλά και σε συνδυασμό με τρεις περιπτώσεις μίξης με θόρυβο. Με την χρήση μέτρων δικτύου ελέγχθηκε η συμπεριφορά του συστήματος έπειτα από την επιλογή διαφορετικού αριθμού ανεξαρτήτων συνιστωσών. Εν συνεχεία πραγματοποιήθηκε εφαρμογή σε πραγματικά δεδομένα εγκεφαλογραφήματος ασθενούς με επιληψία. Το δείγμα μελετήθηκε αφού επεξεργάστηκε και χωρίστηκε στις καταστάσεις πριν την εμφάνιση κρίσης (pre-ictal) και κατά τη διάρκεια της κρίσης (ictal) και αναλύθηκε όπως και στα προσομοιωτικά δεδομένα. Η διάκριση καταστάσεων ελέγχθηκε με εφαρμογή του στατιστικού ελέγχου t (t-test) και της Area Under receiver operating characteristic (AUROC). Τα αποτελέσματα κατά τις προσομοιώσεις των υπολογιστικών δεδομένων έδειξαν ότι ο CGCI δε μπορεί να εφαρμοστεί στην περίπτωση που επιχειρείται αντίστροφος μετασχηματισμός μετά την απόρριψη έστω και μίας ανεξάρτητης μεταβλητής, καθώς δημιουργούνται γραμμικές συσχετίσεις μεταξύ των μεταβλητών του συστήματος. Παρόλα αυτά εάν εκ των προτέρων ο αριθμός των ανεξαρτήτων συνιστωσών καθοριστεί να είναι μικρότερος από τον αριθμό των παρατηρούμενων συνιστωσών του συστήματος τότε o CGCI μπορεί να υπολογιστεί χωρίς όμως ο διαφορετικός αριθμός ανεξαρτήτων συνιστωσών πάντα να εμφανίζει σημαντικές διαφορές. Στην περίπτωση της ανάλυσης του εγκεφαλογραφήματος τα αποτελέσματα του AUROC και του t-test έδειξαν ότι οι καταστάσεις pre-ictal και ictal εμφανίζουν στατιστικά σημαντικές διαφορές. Ειδικότερα παρατηρήθηκε ότι -4-
5 κατά την επιλογή 15 ανεξαρτήτων συνιστωσών από τις συνολικά 22, υπάρχουν σημαντικά στατιστικές διαφορές πριν και μετά την κρίση σε 10 από 15 χρησιμοποιούμενα μέτρα δικτύου. Επιπλέον η τιμή της AUROC σε 6 από τα 15 μέτρα είναι 0.8, τιμή η οποία δείχνει την αυξημένη συνέπεια των μέτρων αυτών στο διαχωρισμό καταστάσεων στην συγκεκριμένη μελέτη. Συμπερασματικά, παρότι ο συνδυασμός των μέτρων δικτύων με τις ICA και GC έχει την ικανότητα να εντοπίσει αλλαγές στην συνδεσιμότητα του εγκεφάλου στο υπό μελέτη πρόβλημα, απαιτείται εκτενέστερη αξιολόγηση και μελέτη εφαρμόζοντας περαιτέρω μέτρα αιτιότητας και δικτύου σε περισσότερους ασθενείς της ίδιας κατηγορίας. -5-
6 ABSTRACT The Granger Causality (GC) test is a statistical hypothesis test that allows the investigation of the dependence of the multivariate time series and reveals the correlations between the variables. The Independent Component Analysis (ICA) that belongs to the methods of Blind Source (Signal) Separation (BSS), it allows the separation of a signal. Combing ICA and GC, it is enhanced the ability of studying multivariate time-series in many scientific fields. In particular, this combination has been used in the domain of neuroscience allowing the observation of the brain functionality in different statements. This diploma thesis studies the behavior of the abovementioned tools in both simulated and experimental data of multivariate time-series and it aims at distinguish of different statements in brain connectivity by applying Conditional Granger Causality Index (CGCI) and ICA. The simulation data was a first order vector autoregressive (VAR) model, VAR(1). The VAR(1) model was developed by adjacency matrices that were based on properties and structures of small-world, free scale and random network. The VAR model was examined as such, but also was mixed with noise. The behavior of the system was observed by using network measure and choosing different numbers of ICs. In addition, the same process was applied to an electroencephalography (EEG) of epilepsy patient. The selected EEG signal was split into 2 parts: the first before the epilepsy crisis (pre-ictal) and the second during the period of the crisis (ictal). The distinction of the statements was evaluated with the t-test as well as the Area Under receiver operating characteristic (AUROC). The results of the simulated data showed that the CGCI cannot be applied when inverse transformation is performed and simultaneous one or more independent variables are rejected. This happens because there are created linear correlations between the variables of the systems. However, if the a priori selected number of ICs that are calculated using ICA are lower than the observed number of the ICs, the CGCI can be successfully calculated. Additionally, in this case, statistical differences in the results are partially observed. Moreover, the results of the t-test and the AUROC of the EEG figured out that between the examined pre-ictal and ictal periods there was existed statistical differences. In particular, selecting 15 of the 22 ICs, 10 of the 15 examined network measures appeared statistical differences. It is worth mentioning than in 6 of the 15 examined network measures the AUROC value were equal to 0.8 revealing the high level of consistency of selected network measures during the process of this study. In conclusion, although the combination of network measures with the ICA and GC appears to have the ability to track changes in brain connectivity in the examined problem, it is required additionally study and evaluation by applying further causality as well as networks measures in similar patient groups. -6-
7 Περιεχόμενα Περιεχόμενα... 7 Περιεχόμενα Σχημάτων... 9 Περιεχόμενα Πινάκων Πρόλογος Μέθοδοι τυφλού διαχωρισμού σήματος Η μέθοδος της Ανάλυσης Ανεξαρτήτων Συνιστωσών (Independent Component Analysis) Η ιστορία της ICA Εφαρμογές ΙCA Ορισμός και βασικές ιδιότητες Ασυσχέτιστες μεταβλητές Μη Γκαουσιανές Κύρτωση Αρνητική Εντροπία Αλγόριθμοι ICA FastICA Κεντράρισματα (Centering) Στάδιο λεύκανση (Whitening) Επιλογή ανεξαρτήτων συνιστωσών Μονομεταβλητές και πολύμεταβλητές χρονοσειρές Ανάλυση χρονοσειρών Στασιμότητα Λευκός θόρυβος
8 Αυτοσυσχέτιση Ανεξάρτητες ισόνομες τυχαίες μεταβλητές (iid) Μονομεταβλητές χρονοσειρές Πολυμεταβλητές Χρονοσειρές Αυτοπαλινδρομούμενο διανυσματικό μοντέλο Granger causality Αιτιότητα κατά Granger και παραμετρικός έλεγχος Granger causality και ICA Θεωρία γράφων Βασικές έννοιες Τύποι δικτύων Small World network Κατανομή χωρίς κλίμακα (Scale-Free distribution) Random network Μέτρα δικτύου Μέτρα Διάκρισης AUROC - Area Under receiver operating characteristic t-test Μεθοδολογία Διερεύνηση Προσομοιώσεις σε υπολογιστικά δεδομένα Δημιουργία προσομοιωτικών δεδομένων και σχεδιασμός εργασιών Αποτελέσματα προσομοιώσεων η σειρά πειραμάτων χρήση αντίστροφο μετασχηματισμού η σειρά πειραμάτων προεπιλογή ανεξαρτήτων συνιστωσών Εφαρμογή σε πραγματικά δεδομένα
9 8.1. Πειρατικά δεδομένα και επεξεργασία Αποτελέσματα Θηκογράμματα t-test και AUROC Συμπεράσματα Βιβλιογραφία Παράρτημα Σχήματα αποτελεσμάτων μέτρων δικτύου Σχήματα αποτελεσμάτων μέτρων δικτύου, τύπος δικτύου: small world Σχήματα αποτελεσμάτων μέτρων δικτύου, τύπος δικτύου: random network Περιεχόμενα Σχημάτων Σχήμα 2-1 Διάγραμμα γενικής μεθοδολογίας Blind Source Separation (Naik and Kumar, 2011a) Σχήμα 2-2 Πολυμεταβλητή κατανομή δύο ανεξαρτήτων Γκαουσιανών μεταβλητών (Hyvärinen and Oja, 2000) Σχήμα 2-3 Συνάρτηση πυκνότητας πιθανότητας Γκαουσιανής, υπέρ-γκαουσιανής και υπό- Γκαουσιανής κατανομής Σχήμα 5-1 Αριστερά: κατευθυνόμενος γράφος (directed graph) δικτύου Δεξιά: ο αντίστοιχος πίνακας γειτνίασης του γράφου του σχήματος (Adjacency Matrix) Σχήμα 5-2: Δακτυλιοειδής απεικόνιση γράφων με βάση την πιθανότητα p (Watts and Strogatz, 1998) Σχήμα 5-3 Σχέσεις μονοπατιού L και ομαδοποίησης C συναρτήσει της πιθανότητας p (Watts and Strogatz, 1998) Σχήμα 6-1 Διάγραμμα AUROC
10 Σχήμα 7-1 Διάγραμμα εργασιών προσομοιωτικής μελέτης. Εντός των διακεκομμένων γραμμών βρίσκονται τα 2 επιμέρους διαφορετικά σενάρια μελέτης Σχήμα 7-2 Αντιπροσωπευτικοί γράφοι δικτύων για την 1 η, 2 η, 3 η και 4 η περίπτωση μελέτης a) αριστερά επάνω - 1 η περίπτωση: Δίκτυο 25 κόμβων, β) δεξιά επάνω 2 η περίπτωση: Δίκτυο 35 κόμβων - δύο γράφοι με 25 κόμβους και 10 κόμβους αντίστοιχα γ) αριστερά κάτω 3 η περίπτωση: Δίκτυο 35 κόμβων. Οι δέκα κόμβοι αποτελούν λευκό θόρυβο δ) δεξιά κάτω 4 η περίπτωση: Δίκτυο 35 κόμβων. Οι δέκα κόμβοι αποτελούν λευκό θόρυβο με αυτοσυσχέτιση Σχήμα 7-4 Χρονοσειρές πολυμεταβλητού μοντέλου VAR(1) για την περίπτωση μελέτης 2, χρονοσειρές Σχήμα 7-5 Διαδικασία αντίστροφου μετασχηματισμού (back projection) για το εξεταζόμενο μοντέλο VAR(1) μοντέλο, 6 παρατηρούμενων μεταβλητών Σχήμα 7-6 Χρονοσειρά VAR(1), μεταβλητές Υ1 και Υ3, στιγμιότυπο για τις χρονικές στιγμές από 1 έως Σχήμα 7-7 Χρονοσειρά VAR(1), 6 παρατηρούμενες μεταβλητές, στιγμιότυπο για τις χρονικές στιγμές από 1 έως Σχήμα 7-8 Χρονοσειρά μοντέλου VAR(1) μετά την εφαρμογή της ICA, 6 παρατηρούμενες μεταβλητές, στιγμιότυπο για τις χρονικές στιγμές από 1 έως Σχήμα 7-9 Αριστερά γράφος τύπου Scale Free ο οποίος χρησιμοποιήθηκε για την κατασκευή του πολυμεταβλητού μοντέλου χρονοσειρών VAR(1) και δεξιά ο γράφος που προέκυψε από την εφαρμογή του CGCI στο VAR μοντέλο Σχήμα 7-10 Γράφοι μεγέθους i) 10, ii) 15, iii) 20, iv) 25, v)30, vi) 35 ανεξαρτήτων συνιστωσών Σχήμα 7-11 Αποτελέσματα μέτρων δικτύου στο μετασχηματισμένο συστήματα, για διαφορετικό αριθμό ανεξαρτήτων συνιστωσών (άξονας Χ): i) characteristic path length, ii) global -10-
11 cluster coefficient, iii) global efficiency, iv) mean between centrality, v) mean degree και vi) standard deviation degree Σχήμα 7-12 Αποτελέσματα μέτρων δικτύου στο μετασχηματισμένο συστήματα, για διαφορετικό αριθμό ανεξαρτήτων συνιστωσών (άξονας Χ): i) mean edge between centrality, ii) modularity, iii) assortativity rdeg(in,in), iv) assortativity rdeg (in,out), v) assortativity rdeg (out,in), και vi) assortativity rdeg(out,out) Σχήμα 7-13 Αποτελέσματα μέτρων δικτύου στο μετασχηματισμένο συστήματα, για διαφορετικό αριθμό ανεξαρτήτων συνιστωσών (άξονας Χ): i) small worldness, ii) assortativity rdeg(und) και iii) transitivity Ratio BU Σχήμα 7-14 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICs, i) characteristic path length, ii) global cluster coefficient, iii) global efficiency, iv) mean between centrality, v) mean degree και vi) standard deviation degree Σχήμα 7-15 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICs, i) mean edge between centrality, ii) modularity, iii) assortativity rdeg(in,in), iv) assortativity rdeg(in,out), v) assortativity rdeg(out,in), και vi) assortativity rdeg(out,out) Σχήμα 7-16 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICs,i) small worldness, ii) assortativity rdeg(und) και iii) transitivity Ratio BU Σχήμα 8-1Διεθνές σύστημα καναλιών δειγματοληψίας εγκεφαλογαφημάτων ( 69 Σχήμα 8-2 Σήματα καταγραφής από τα παρατηρούμενα κανάλια. Στη μαύρη έντονη γραμμή ξεκινάει η κρίση (Goldberger et al., 2000) Σχήμα 8-3 Διάγραμμα εργασιών ανάλυση δεδομένων εγκεφαλογραφήματος από ασθενή με κρίση επιληψίας
12 Σχήμα 8-4 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου: i) pre-ictal, characteristic path length, ii) pre-ictal, characteristic path length, iii) ictal, global cluster coefficient, iv) pre-ictal, global cluster coefficient Σχήμα 8-5 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου: i) pre-ictal, global efficiency, ii) ictal, global efficiency, iii) pre-ictal, mean betweenness centrality BD, iv) ictal, mean betweenness centrality BD, v) pre-ictal, mean degree, vi) ictal, mean degree Σχήμα 8-6 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου: i) pre-ictal, mean edge betweenness centrality BD, ii) ictal, mean edge betweenness centrality BD, iii) pre-ictal, modurality, iv) ictal, modurality, v) pre-ictal, assortativity rdeg(in,in), vi) ictal, assortativity rdeg(in,in) Σχήμα 8-7 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου: i) pre-ictal, assortativity rdeg(in,out), ii) ictal, assortativity rdeg(in,out), iii) pre-ictal, assortativity rdeg(out,in), iv) ictal, assortativity rdeg(out,in), v) pre-ictal, assortativity rdeg(out, out), vi) ictal, assortativity rdeg(out, out) Σχήμα 8-8 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου: i) pre-ictal, assortativity rdeg(und), ii) ictal, assortativity rdeg(und), iii) pre-ictal, assortativity rdeg(und), iv) ictal, assortativity rdeg(und), v) pre-ictal, small worldness, vi) ictal, small worldness Σχήμα 8-9 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου: i) pre-ictal, transitivity, ii) ictal, transitivity Σχήμα 8-10 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου, 16 ανεξάρτητες μεταβλητές: i) small worldness, ii) transitivity Σχήμα 8-11 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου, 16 ανεξάρτητες μεταβλητές: i) characteristic path length, ii) global clustering efficiency BD, iii) global efficiency BD iv) mean betweenness centrality BD, v) mean degree, vi) mean edge betweenness centrality BD Σχήμα 8-12 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου, 16 ανεξάρτητες μεταβλητές: i) modularity ii) assortativity rdeg(in,in), iii) assortativity rdeg(in,out), iv) assortativity rdeg(out,in), v) assortativity rdeg(out,out), vi) assortativity rdeg(und) Σχήμα 8-13 Θηκογράμματα αποτελεσμάτων για 8,13 και 18 ανεξάρτητες μεταβλητές για τα μέτρα δικτύου: i) small worldness για 8 ICs, ii) small worldness για 13 ICs, iii) small worldness -12-
13 για 18 ICs, iv) global clustering coefficient για 8 ICs, v) global clustering coefficient για 13 ICs, vi) global clustering coefficient για 18 ICs, vii) modularity για 8 ICs, viii) modularity για 13 ICs και ix) modularity για 18 ICs Σχήμα 8-14 Θηκογράμματα αποτελεσμάτων μέτρων δικτύου για 15 ανεξάρτητες μεταβλητές: i) small worldness και ii) modularity Σχήμα 10-1 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICA, i) characteristic path length, ii) global cluster coefficient, iii) global efficiency, iv) mean between centrality, v) mean degree και vi) standard deviation degree Σχήμα 10-2 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICA,i) mean edge between centrality, ii) modularity, iii) assortativity (in,in), iv) assortativity (in,out), v) assortativity (out,in), και vi) assortativity (out,out) Σχήμα 10-3 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICA, i) assortativity (und), ii) small worldness και iii) transitivity Ratio BU Σχήμα 10-4 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICA, i) characteristic path length, ii) global cluster coefficient, iii) global efficiency, iv) mean between centrality, v) mean degree και vi) standard deviation degree Σχήμα 10-5 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICA,i) mean edge between centrality, ii) modularity, iii) assortativity (in,in), iv) assortativity (in,out), v) assortativity (out,in), και vi) assortativity (out,out) Σχήμα 10-6 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICA, i) assortativity (und), ii) small worldness και iii) transitivity Ratio BU
14 Περιεχόμενα Πινάκων Πίνακας 4-1 Αποτελεσμάτων βιβλιογραφικής ανασκόπησης στο SCOPUS, PUBMED και GOOGLE SCHORAL Πίνακας 6-1 περιπτώσεων μοντέλου στην αγγλική γλώσσα συναντάται με τον όρο confusion matrix Πίνακας 8-1 Αριθμός και θέση χρησιμοποιούμενου καναλιού στην περιοχή ενδιαφέροντος Πίνακας 8-2 Αποτελέσματα μεθόδου t-test (p τιμές) για τα μέτρα: mean degree, standard degree, transitivity Ratio BU, characteristic path length BD, global efficiency BD, global clustering coefficient BD, mean betweenness centrality BD, mean edge betweenness centrality BD. Οι τρεις διαβαθμίσεις του πράσινου είναι χωρισμένες για τις τιμές p από το πιο φωτεινό προς το πιο σκούρο ως εξής: ( ), ( ) και ( ) Πίνακας 8-3 Αποτελέσματα μεθόδου t-test (p τιμές) για τα μέτρα: modularity, assortativity (und), assortativity (out,in) assortativity (in,out), assortativity (out,out), assortativity( in,in) και small worldness (BD). Οι τρεις διαβαθμίσεις του πράσινου είναι χωρισμένες για τις τιμές p από το πιο φωτεινό προς το πιο σκούρο ως εξής: ( ), ( ) και ( ) Πίνακας 8-4 Αποτελέσματα μεθόδου AUROC για τα μέτρα: mean degree, standard degree, transitivity Ratio BU, characteristic path length BD, global efficiency BD, global clustering coefficient BD, mean betweenness centrality BD, mean edge betweenness centrality BD. Με πράσινο χρώμα δίδεται η μέγιστη τιμή κάθε στήλης Πίνακας 8-5 Αποτελέσματα εφαρμογής AUROC για τα μέτρα: modularity, assortativity (und), assortativity (out,in) assortativity (in,out), assortativity (out,out), assortativity( in,in) και small worldness (BD). Με πράσινο χρώμα δίδεται η μέγιστη τιμή κάθε στήλης
15 1. Πρόλογος Η παρούσα διπλωματική εργασία εκπονήθηκε στο πλαίσιο του Μεταπτυχιακού Προγράμματος «Στατιστικής και Μοντελοποίησης» του τμήματος Μαθηματικών του Αριστοτελείου Πανεπιστήμιου Θεσσαλονίκης. Στην εν λόγω εργασία πραγματοποιήθηκε μελέτη αιτιότητας κατά Granger πολυμεταβλητών χρονοσειρών εφαρμόζοντας την μέθοδο της ανάλυσης ανεξαρτήτων συνιστωσών (Independent Component Analysis, ICA). Τα κύρια εργαλεία της ανάλυσης είναι η μέθοδος ICA και η αιτιότητα κατά Granger. Σκοπός της εργασίας είναι να εξεταστούν οι συσχετίσεις από τις ανεξάρτητες συνιστώσες, να ελεγχθεί η συμπεριφορά του συστήματος σε διαφορετικό αριθμό ανεξαρτήτων συνιστωσών και να εντοπισθεί αν από τον συνδυασμό των δύο εργαλείων μπορεί να υπάρξει επιτυχής διαχωρισμός καταστάσεων. Κατά την εκπόνηση της εργασίας μελετήθηκαν προσομοιωτικά και πραγματικά δεδομένα. Μετά την επεξεργασία των πολυμεταβλητών συστημάτων με την μέθοδο ICA και το δείκτη αιτιότητας κατά Granger, υπολογίστηκαν μέτρα δικτύου και στα αποτελέσματα πραγματοποιήθηκε έλεγχος σημαντικότητας των καταστάσεων με την εφαρμογή του στατιστικού ελέγχου student και τη μεθόδου Area Under receiver operating characteristic (AUROC). Τα προσομοιωτικά δεδομένα στηρίχθηκαν σε πολυμεταβλητές χρονοσειρές, οι οποίες έχουν χαρακτηριστικά δικτύων small world, scale free και random network, εξετάστηκαν σε 4 διαφορετικές περιπτώσεις. Στην πρώτη περίπτωση, μελετήθηκε η πρωτογενής πολυμεταβλητή χρονοσειρά και στις άλλες τρεις περιπτώσεις στο σύστημα μελέτης εισήχθη θόρυβος. Εν συνεχεία, πραγματοποιήθηκε ανάλυση δεδομένα εγκεφαλογράφημα ασθενούς παιδικής ηλικίας ο οποίος εμφανίζει επιληπτικές κρίσης. Για τις προσομοιώσεις, χρησιμοποιήθηκε το υπολογιστικό περιβάλλον του Matlab. Στο πρόγραμμα αναπτύχθηκαν κατάλληλοί κώδικες για την επεξεργασία των δεδομένων, κάνοντας χρήση και τροποποιήσεις σε διαθέσιμες βιβλιοθήκες του λογισμικού. Παρακάτω παρουσιάζεται η συνοπτική δομή της θεματολογίας των κεφαλαίων της εργασίας: Κεφάλαιο 1 ο : Εισαγωγή στο θέμα, αναφορά στο σκοπό και τη μεθοδολογία που ακολουθήθηκε. -15-
16 Κεφάλαιο 2 ο : Παρουσίαση του τυφλού διαχωρισμού σήματος, της ICA, των βασικών ιδιοτήτων της ICA και του αλγορίθμου FastICA. Κεφάλαιο 3 ο : Μονομεταβλητές και πολυμεταβλητές χρονοσειρές, βασικές ιδιότητες και χαρακτηριστικά. Κεφάλαιο 4 ο : Θεωρία γράφων, βασικές έννοιες, τύποι και μέτρα δικτύων. Κεφάλαιο 5 ο : Αιτιότητα κατά Granger και παραμετρικός έλεγχος. Κεφάλαιο 6 ο : Μέτρα διάκρισης καταστάσεων, t-test και AUROC. Κεφάλαιο 7 ο : Μεθοδολογία και διεύρυνση πεδίου, προσομοιώσεις από υπολογιστικά δεδομένα, παρουσίαση των ακολουθούμενων πειραματικών διαδικασιών. Κεφάλαιο 8 ο : Εφαρμογή μεθοδολογίας σε πραγματικά δεδομένα, παρουσίαση προβλήματος, δείγματος δεδομένων και αποτελεσμάτων. Κεφάλαιο 9 ο : Συμπεράσματα και μελλοντική εργασία. Βιβλιογραφία: Ξενόγλωσση και ελληνική. Παράρτημα. -16-
17 2. Μέθοδοι τυφλού διαχωρισμού σήματος Ο σκοπός των μεθόδων τυφλού διαχωρισμού της πηγής (Blind Source Separation (BSS)) ή τυφλού διαχωρισμού σήματος (Blind Signal Separation (BSS)) είναι να επεξεργαστεί η διαθέσιμη πληροφορία μέσω αλγορίθμων ώστε τα αρχικά σήματα της άγνωστης πηγής να αναλυθούν και να διαχωριστούν σε άλλα σήματα χωρίς την ύπαρξη ή με γνώση περιορισμένης πληροφορίας (Naik and Kumar, 2011b). Αντίθετα, όταν δε χρησιμοποιείται τυφλός διαχωρισμός, τότε αυτό συνεπάγεται ότι υπάρχει γνώση εκ των προτέρων της πληροφορίας ή αυτή μπορεί να εκτιμηθεί από γνωστές παρατηρήσεις ή από γνωστά σήματα πηγής. Το πρόβλημα του τυφλού διαχωρισμού αναδείχθηκε ιδιαίτερα τη δεκαετία του 80 και εξελίσσεται διαρκώς (Comon and Jutten, 2010, Hyvärinen et al., 2004) σε ευρύ φάσμα επιστημονικών εφαρμογών όπως η βιοϊατρική μηχανική, η ιατρική απεικόνιση, η επεξεργασία ήχου, οι διαστημικές απεικονίσεις και οι τηλεπικοινωνίες (Zhao et al., 2014). Το γενικό μοντέλο του BBS θεωρεί ότι η πηγή αποτελείται από n ανεξάρτητα σήματα s1(t),,sn(t) και η παρατήρηση από ένα μίγμα σημάτων x1(t),,xn(t), τα οποία έχουν μηδενική μέση τιμή και o μετασχηματισμός τους είναι γραμμικός και στιγμιαίος και επιπλέον το καθένα από αυτά μπορεί να περιγραφεί από την ακόλουθη σχέση (Cardoso, 1998) : n x ( t) a s ( t) i ij j j1 Όπου α είναι παράμετρος. Μια από τις ευρέως χρησιμοποιούμενες τεχνικές BSS μέσω της οποίας μπορεί να εξαχθούν κρυμμένοι παράγοντες συνόλων μετρήσεων ή παρατηρούμενων σημάτων (Naik and Wang, 2014) είναι η ανάλυση ανεξαρτήτων συνιστωσών (Independent component analysis, ICA). Την ονομασία αυτήν πρότειναν και έδωσαν ο Herault and Jutten to 1986 λόγω των ομοιοτήτων της με την ανάλυση κύριων συνιστωσών (Principal component analysis, PCA). Η μέθοδος PCA παρουσιάζεται αναλυτικά στο βιβλίο «Principal component analysis» (Jolliffe, 2002). H ICA παρουσιάζεται στην παράγραφο 2.1. (2.1) -17-
18 2.1. Η μέθοδος της Ανάλυσης Ανεξαρτήτων Συνιστωσών (Independent Component Analysis) Ο αυστηρός ορισμός δόθηκε από τους Comon (1994) και Jutten and Herault (1991). Η περιγραφή της τεχνικής μπορεί να γίνει από ένα στατιστικό μοντέλο από «λανθάνουσες μεταβλητές» (latent variables), πράγμα που σημαίνει ότι οι μεταβλητές δεν μπορούν να παρατηρηθούν άμεσα, και το οποίο αποτελείται από γραμμικά μίγματα x,,xn από n ανεξάρτητες συνιστώσες. Το μοντέλο μπορεί να αποδοθεί σύμφωνα με τον παρακάτω τύπο: x a s a s a s j j1 1 j jn n Στην έκφραση αυτή δεν υπάρχει η έννοια του χρόνου. Στο μοντέλο της ICA θεωρείται ότι κάθε xj αλλά κάθε sk είναι τυχαίες μεταβλητές καθώς και ότι το μίγμα των μεταβλητών αλλά και των ανεξάρτητων συνιστωσών έχουν μέση τιμή μηδέν. Λόγω του είδους των δεδομένων είναι προτιμότερο να χρησιμοποιούνται διανύσματα αντί βαθμωτές μεταβλητές όπως παραπάνω. Οπότε γενικά θα μπορούσε να δηλωθεί με x το διάνυσμα το οποίο αποτελείται από τα x1,xn, με s το διάνυσμα των στοιχείων s1,,sn και με Α ο πίνακας (mixing matrix) των στοιχείων aij. Έτσι χρησιμοποιώντας πλέον τον παραπάνω συμβολισμό πινάκων και διανυσμάτων το μοντέλο μπορεί να γραφεί ως: x s (2.3) Το στατιστικό μοντέλο της εξίσωσης (2.3) καλείται μέθοδος ανεξαρτήτων συνιστωσών. Το εν λόγω μοντέλο είναι παραγωγικό, περιγράφοντας με αυτόν τον όρο πως τα παρατηρούμενα δεδομένα δημιουργούνται κατά τη διαδικασία μίξης των συστατικών si. Οι ανεξάρτητες συνιστώσες είναι «λανθάνουσες μεταβλητές» (latent variables), πράγμα που σημαίνει ότι δεν μπορούν να παρατηρηθούν απευθείας. Επιπλέον, ο πίνακας μίξης θεωρείται ότι είναι άγνωστός. Κατά την παρατήρηση τα διανύσματα είναι τυχαία και μέσα από τη λύση αυτών επιχειρείται να υπολογιστεί το A το s. Η χρήση της ICA ξεκινάει με την αρχική υπόθεση ότι οι ανεξάρτητες συνιστώσες είναι στατιστικώς ανεξάρτητες και επιπλέον δεν ακολουθούν Γκαουσιανή κατανομή. Ωστόσο, αυτές οι κατανομές στο βασικό μοντέλο δεν μπορούν να θεωρηθούν γνωστές. Πολλές φορές επίσης για λόγους απλότητας ο πίνακας μίξης Α, θεωρείται τετράγωνος. Οπότε, αφού υπολογιστεί ο πίνακας Α και δεδομένου της αντιστρεψιμότητάς του, μπορεί να υπολογιστεί ο αντίστροφος γραμμικός (2.2) -18-
19 μετασχηματισμός του Α, τον οποίο μπορούμε να ονομάσουμε W. Έτσι, η σχέση γράφεται έως εξής: s Wx (2.4) Η διαδικασία παρουσιάζεται στο παρακάτω διάγραμμα. Οι ανεξάρτητες συνιστώσες {s1,,sn} αναμιγνύονται με τον πίνακα Α του οποίου τα στοιχεία είναι άγνωστα. Βασική επιδίωξη είναι η προσέγγιση του διανυσμάτων s υπολογίζοντας των πίνακα W (un-mixing matrix). Εάν ο πίνακας W υπολογιστεί με ακρίβεια, τότε και η προσέγγιση των σημάτων της πηγής μπορεί να θεωρηθεί ως καλή (Naik and Kumar, 2011a). Σχήμα 2-1 Διάγραμμα γενικής μεθοδολογίας Blind Source Separation (Naik and Kumar, 2011a). Ωστόσο, σε πολλές εφαρμογές σύμφωνα με τους Hyvärinen (2013) και Hyvärinen et al. (2004) θα ήταν πιο ρεαλιστικό να υποθέσουμε ότι υπάρχει μία ποσότητα θορύβου στις μετρήσεις, πράγμα που θα απαιτούσε την προσθήκη ενός επιπλέον όρου στο μοντέλο. Για λόγους απλότητας, κατά την χρήση της ICA παραλείπονται οποιοιδήποτε όροι θορύβου, δεδομένου ότι η εκτίμηση του μοντέλου χωρίς θόρυβο είναι αρκετά δύσκολη από μόνη της και φαίνεται να είναι επαρκής για πολλές εφαρμογές Η ιστορία της ICA Η τεχνική της ICA, ξεκίνησε στις αρχές του 1980 από τους Herault, C. Jutten, and B. Ans. Σύμφωνα με την ανασκόπηση που πραγματοποιήθηκε από τον Jutten, το 1982, η χρήση της συναντάται κυρίως στις νευροεπιστήμες. Στη δεκαετία του 80, οι λίγες παρουσιάσεις σχετικά με ΙCA σε διεθνή συνέδρια νευρωνικών δικτύων, βρίσκονταν σε δεύτερη μοίρα, καθώς υπήρχε -19-
20 κατακλυσμός ενδιαφέροντος για την οπισθοδιάδοση (back propagation), για τα δίκτυα Hopfield (Hopfield, 1982) και για τη μέθοδο Kohonen ή αλλιώς της απεικόνισης της αυτο-οργάνωσης (Self- Organizing map, SOM)(Kohonen, 1998). Επίσης, ένα πεδίο στο οποίο κάνει την εμφάνιση της η ICA είναι αυτό της υψηλής τάξης φασματικής ανάλυσης (Cardoso, 1989)(Comon, 1989). Ειδικότερα, ο Cardoso (1989) χρησιμοποιεί αλγεβρικές μεθόδους και αθροιστικούς τανυστές ανώτερης τάξης, προσέγγιση η οποία τελικά οδήγησε στον αλγόριθμο JADE (Cardoso and Souloumiac, 1993), έναν από τους πιο γνωστούς αλγορίθμου της ICA. Εκτενέστερη και λεπτομερέστερη περιγραφή για ειδικότερες χρήσεις της ICA κατά την περίοδο αυτή αναφέρονται από τους Jutten and Taleb (2000). Στις αρχές της δεκαετίας του 90 η ICA χρησιμοποιήθηκε για το διαχωρισμό σήματος (Nadal and Parga, 1994) αλλά παρόλα αυτά συνέχιζε να παρουσιάζει μικρό ερευνητικό ενδιαφέρον. Αρκετοί αλγόριθμοι που προτάθηκαν και αφορούσαν ειδικού ενδιαφέροντος προβλήματα, δεν είχαν καλή εφαρμογή σε γενικά προβλήματα μέχρις ότου τέθηκαν κριτήρια στατιστικής βελτιστοποίησης στην τεχνική (Hyvärinen et al., 2004). Ιδιαίτερο ενδιαφέρον και προσοχή αποκτά η ICA στα μέσα της δεκαετίας του 90, όταν οι Bell και Sejnowsk (1995) δημοσίευσαν την προσέγγιση τους η οποία βασιζόταν στις αρχές inforamax. O αλγόριθμος αυτός τελειοποιήθηκε από τους Amari et al. (1996) χρησιμοποιήθηκε την εκτίμηση μεγίστης πιθανοφάνειας καθώς και τον αλγόριθμό Cichocki-Unbehauen. Οι Hyvärinen and Oja (1997) παρουσίασαν τον αλγόριθμο FastICA, (Hyvärinen, 1999, Hyvärinen, 1997), o οποίoς έχει συμβάλει στη χρησιμοποίηση της ICA σε προβλήματα μεγάλης κλίμακας, λόγω της υπολογιστικής του αποτελεσματικότητας, στρέφοντας έτσι τα βλέμματα των ερευνητικών ομάδων προς την ICA Εφαρμογές ΙCA H ICA έχει χρησιμοποιηθεί σε πληθώρα εφαρμογών διαχωρισμού του σήματος της πηγής. Ειδικότερα, έχει εφαρμοστεί στην ανίχνευση βλάβη μηχανής (Ypma et al., 1999, Kano et al., 2003), στην σεισμική παρακολούθηση (de la Rosa et al., 2004, Acernese et al., 2004), στην απόρριψη ανακλάσεων (Reflection-canceling) (Farid and Adelson, 1999, Yamazaki et al., 2006), στην ανάλυση κειμένου εγγράφου (Bingham et al., 2002, Pu and Yang, 2006), στις ραδιοεπικοινωνίες (Cichocki and Amari, 2002), στην εξόρυξη δεδομένων (Skillicorn, 2007), την πρόβλεψη του χρονοσειρών (Guo et al., 2008, Lu et al., 2009), στην επεξεργασία ιατρικών σημάτων (James and Hesse, 2005, Semmlow and Griffel, 2014, Castells et al., 2005, Safavi et al., -20-
21 2008, Calinon and Billard, 2005, De Martino et al., 2007) αλλά και στην ανάλυση δεδομένων στην μεταβολομική (metabolomics) (Bartel et al., 2013) 2.3. Ορισμός και βασικές ιδιότητες Για να οριστεί η έννοια της ανεξαρτησίας, θα υποθέσουμε τυχαίες βαθμωτές μεταβλητές y1 και y2. Με το όρο ανεξαρτησία ουσιαστικά ορίζεται για τα y1 και y2 η ιδιότητα του y1 να μη δίνει καμία σχετική πληροφορία για το y2 και ομοίως αντιστρόφως. Αυτό συμβαίνει και στο σύστημα που έχει περιγραφεί και στην παράγραφό 2.1 στην περίπτωση των συνιστωσών s1 και s2, αλλά όχι και στις x1 και x2. Την απόδειξη για την ανεξαρτησία δίνουν οι Hyvärinen και Oja (2000) σύμφωνα με τους οποίους η ανεξαρτησία μπορεί να οριστεί μέσα από την πυκνότητα πιθανότητας. Έτσι, αν ορισθεί p(y1,y2) η από κοινού συνάρτηση πυκνότητας πιθανότητας (probability density function, pdf) των y1 και y2 και p1(y1) το περιθώριο της pdf (marginal pdf) και αντίστοιχα για την p2(y2) τότε ισχύει ότι: Για να είναι ανεξάρτητες θα πρέπει να ισχύει: p( y ) p( y ) p( y ) dy (2.5) p( y ) p( y ) p( y ) dy. (2.6) p( y, y ) p( y ) p( y ) (2.7) Οπότε για δύο συναρτήσεις των y1 και y2 έχουμε: Αυτό αποδεικνύεται ως εξής: h ( ) h ( ) h ( )h ( ) h ( ) h ( ) E y y E y E y. (2.8) E h ( y ) h ( y ) h ( y ) h ( y ) p( y, y )d( y )d( y ) h 1( y1) p( y1) h 2( y2) p( y2)d( y1)d( y2) h 1( y1) p( y1) h 2( y2) p( y2)d( y1)d( y2) (2.9) E y E y Ασυσχέτιστες μεταβλητές Μια ασθενέστερη μορφή ανεξαρτησίας είναι η μη-συσχέτιση (uncorrelatedness). Δύο τυχαίες μεταβλητές y1 και y2 θεωρούνται ότι είναι ασυσχέτιστες, αν η συνδιασπορά (covariance) τους είναι μηδέν (Hyvärinen and Oja, 2000): -21-
22 E y y E y E y. (2.10) Αν οι μεταβλητές είναι ανεξάρτητες τότε είναι και ασυσχέτιστες, οπότε και έρχεται σε συμφωνία με την εξίσωση (2.8), όπου h1(y1)=y1 και h2(y2)=y2. Το αντίστροφο αυτού δεν ισχύει, δηλαδή η μη συσχέτιση δεν σημαίνει ταυτοχρόνως ότι ισχύει κι ανεξαρτησία. Με βάση αυτό, πολλές ICA μέθοδοι περιορίζουν τη διαδικασία εκτίμησης ώστε να δίδονται πάντα ασυσχέτιστες εκτιμήσεις των ανεξάρτητων συνιστωσών. Αυτό μειώνει τον αριθμό των ελεύθερων παραμέτρων και απλοποιεί το πρόβλημα Μη Γκαουσιανές Ο θεμελιώδης περιορισμός στην ICA είναι ότι οι ανεξάρτητες συνιστώσες {x1,,xν} πρέπει να είναι μη Γκαουσιανές αλλιώς δεν ισχύει η ICA. Αν υποθέσουμε ότι ο πίνακας μίξης είναι ορθογώνιος και τα si είναι Γκαουσιανά (Gaussian) και διάφορα της μονάδας (Hyvärinen and Oja, 2000) τότε η κοινή τους πυκνότητα θα δίνεται από την παρακάτω σχέση: 1 x x p( x1, x2) exp (2.11) Η γραφική απεικόνιση της κατανομής αυτής παρουσιάζεται στο Σχήμα 2-2. Στο σχήμα γίνεται αντιληπτό ότι η συνάρτηση πυκνότητας είναι συμμετρική ως προς τους άξονες και αυτό έχει ως αποτέλεσμα να μη είναι δυνατός ο υπολογισμός των κατευθύνσεων των ανεξαρτήτων συνιστωσών. Η πιο απλά, ο πίνακας Α δεν μπορεί να καθοριστεί για Γκαουσιανές ανεξάρτητες συνιστώσες. Ωστόσο, στην πραγματικότητα, αν μόνο μία από τις ανεξάρτητες συνιστώσες είναι Γκαουσιανή, το μοντέλο ICA μπορεί να εκτιμηθεί (Hyvärinen and Oja, 2000). -22-
23 Σχήμα 2-2 Πολυμεταβλητή κατανομή δύο ανεξαρτήτων Γκαουσιανών μεταβλητών (Hyvärinen and Oja, 2000) Στις περισσότερες περιπτώσεις μελέτης της κλασικής στατιστικής θεωρίας, οι τυχαίες μεταβλητές υποτίθεται ότι έχουν Γκαουσιανές κατανομές, αποκλείοντας έτσι οποιαδήποτε μεθόδους που σχετίζονται με την ICA. Σημειώνεται ότι το κεντρικό οριακό θεώρημα (ΚΟΘ) ορίζει ότι η κατανομή του αθροίσματος των ανεξάρτητων τυχαίων μεταβλητών τείνει προς μια Γκαουσιανή κατανομή, κάτω από υπό ορισμένες προϋποθέσεις (Petrov, 1995). Στην περίπτωση όπου έχουμε άθροισμα δύο ανεξάρτητων μεταβλητών και βάση του ΚΟΘ, συνήθως, η νέα κατανομή είναι κοντά στην Γκαουσιανή συγκριτικά με τις αρχικές κατανομές. Έτσι, για να χρησιμοποιηθεί η ΙCA χρειάζεται να γίνει ποσοτική εκτίμηση της ύπαρξης μη-γκαουσιανoύ σήμα. Απαραίτητη προϋπόθεση πριν από τη χρήση οποιοδήποτε μέτρου είναι η κανονικοποίηση του σήματος. Μερικά από τα πιο γνωστά μέτρα τα οποία και παρουσιάζονται παρακάτω είναι η κύρτωση και η εντροπία. -23-
24 Κύρτωση H κύρτωση ή ο αθροιστής τέταρτης τάξης είναι ένα κλασικό μέγεθος της μη προσαρμογής σε Γκαουσιανή κατανομή και ορίζεται ως εξής: kurt( y) E{ y } 3 E y (2.12) Η εξίσωση (2.12) είναι ο βασικό ορισμός της κύρτωσης ο οποίος βασίζεται στην υπόθεση ότι το σήμα έχει μηδενική μέση τιμή. Επιπλέον, θεωρώντας ότι έχει γίνει κανονικοποίηση του y, 2 η διακύμανση (variance) μπορεί να θεωρηθεί ίση με την μονάδα της E kurt y ( ) E{ y 4 } 3 E y 1. (2.13) Από εδώ προκύπτει ότι η κύρτωση είναι απλώς μια κανονοκοποιημένη ροπή τέταρτης τάξης 4 y 1, οπότε και για τη Γκαουσιανή y, η τέταρτη ροπή της θα ισούταν με E y 2 2. Έτσι, η κύρτωση είναι μηδέν για μια Γκαουσιανή τυχαία μεταβλητή. Για τα περισσότερα μη Γκαουσιανά σήματα η κύρτωση είναι μη μηδενική. Η κύρτωση μπορεί να πάρει και θετικές και αρνητικές τιμές. Τυχαίες μεταβλητές με θετική κύρτωση καλούνται υπέρ-γκαουσιανές ή μεταβλητές πλατυκύρτωσης (πλατόκυρτη)(platykurtotic) ενώ οι μεταβλητές με αρνητική κύρτωση καλούνται υπό Γκαουσιανές ή μεταβλητές λεπτόκυρτωσης (λεπτόκυρτη) (leptokurtostic). Οι υπεργκαουσιανές μεταβλητές έχουν μια «αιχμηρή» συνάρτηση πυκνότητας πιθανότητας με «βαριές» ουρές (kurt>0). Στο αντίποδα οι υπο-γκαουσιανές τυχαίες μεταβλητές (kurt<0), έχουν συνήθως μια επίπεδη συνάρτηση πυκνότητα πιθανότητας, η οποία είναι περισσότερο κοντά στο μηδέν. Η σύγκριση των τριών κατανομών δίδεται στη Σχήμα 2-3. Ωστόσο, η τιμή της δεν αποτελεί το ισχυρότερο μέτρο για τον έλεγχο της Γκαουσιανής κατανομής καθώς είναι ευαίσθητη στις ακραίες τιμές (Huber, 1985). Έτσι, η τιμή της μπορεί να εξαρτηθεί από λίγες παρατηρήσεις που βρίσκονται στις ουρές της κατανομής και άρα η στατιστική της σημαντικότητα χαρακτηρίζεται και ως χαμηλή. -24-
25 Σχήμα 2-3 Συνάρτηση πυκνότητας πιθανότητας Γκαουσιανής, υπέρ-γκαουσιανής και υπό-γκαουσιανής κατανομής Αρνητική Εντροπία Ένα επίσης σημαντικό μέτρο για το έλεγχο προσαρμογής σε Γκαουσιανή κατανομή είναι η αρνητική εντροπία. Η αρνητική εντροπία βασίζεται στη θεωρία της πληροφορίας. Επιπλέον, η εντροπία μιας τυχαίας μεταβλητής μπορεί να ερμηνευθεί ως το ποσό πληροφορίας που λαμβάνεται από μία μεταβλητή. Όσο περισσότερο «τυχαία» είναι (απρόβλεπτη και μη δομημένη) τόσο μεγαλύτερη είναι κι εντροπία του. Έτσι, η εντροπία (H) μπορεί να οριστεί ως εξής: H(Y) P( Y ai)log P( Y ai) (2.14) Όπου αi είναι οι πιθανές τιμές που μπορεί να λάβει η Y. Ο παραπάνω ορισμός μπορεί να γενικευτεί για συνεχείς τυχαίες μεταβλητές και διανύσματα και συναντάται και ως διαφορική εντροπία. Η διαφορική εντροπία ορίζεται ως (Cover and Thomas, 2012): -25-
26 H( y) f ( y)log f ( y) dy (2.15) Θεμελιώδες συμπέρασμα της θεωρίας της πληροφορίας αποτελεί το γεγονός ότι από ένα σύνολο μεταβλητών με ίδια διασπορά, αυτή με την μεγαλύτερη εντροπία έχει την καλύτερη προσαρμογή σε Γκαουσιανή κατανομή (Cover and Thomas, 2012). Η αρνητική εντροπία χρησιμοποιείται ως μέτρο για την εκτίμηση της εφαρμογής σε κανονική κατανομή και είναι μηδέν όταν υπάρχει Γκαουσιανή μεταβλητή. Επιπλέον, είναι αμετάβλητη για αντιστρέψιμους γραμμικούς μετασχηματισμούς. Ο ορισμός δίδεται από την παρακάτω σχέση: J(y) H( y gauss ) H(y) (2.16) Όπου ygauss είναι Γκαουσιανή μεταβλητή που έχει τον ίδιο πίνακα συνδιασποράς (covariance) με το πίνακας y Αλγόριθμοι ICA Ο τυφλός διαχωρισμός της πηγής πραγματοποιείται εφαρμόζοντας μεθόδους που στηρίζονται σε δεύτερης τάξης στατιστική (Second Order Statistics, SOS) ή υψηλής τάξης στατιστική (Higher Order Statistis, HOS) (Romero et al., 2008). Στη στατιστική δεύτερης τάξης (SOS), για να εκτιμηθεί ο πίνακας μίξης από τις αρχικές τιμές, γίνεται η υπόθεση ότι τα σήματα από την πηγή είναι ασυσχέτιστα. Οι τρεις βασικές τεχνικέςαλγόριθμοι HOS είναι: η μέθοδος των κυρίων συνιστωσών (principal comportments analysis, PCA), ο αλγόριθμος «εξόρυξης» (extraction) πολλαπλών άγνωστων σημάτων (algorithm for multiple unknown signals extraction, AMUSE) (Tong et al., 1991) και ο δεύτερης τάξης τυφλός προσδιορισμός (second-order blind identification, SOBI) (Belouchrani et al., 1997). Οι αλγόριθμοι AMUSE και SOBI ανήκουν στην ομάδα των χωροχρονικών διαδικασιών αποσυσχέτισης με SOS και σύμφωνα με τους Hyvärinen et al. (2004) μπορούν να καταταχθούν και αυτοί στις τεχνικές ICA. Η στατιστική υψηλής τάξης (high order statistics, HOS) (Mendel, 1991) είναι πολύ σημαντική σε περιπτώσεις όπου οι αρχικές πηγές είναι στατιστικά ανεξάρτητες. Η ανεξαρτησία είναι γενικότερη έννοια της αποσυσχέτισης (decorrelation) (Romero et al., 2008). -26-
27 Οι τρείς πιο ευρέως διαδεδομένοι και συχνά χρησιμοποιούμενοι αλγόριθμοι HOS είναι οι εξής: JADE (Cardoso and Souloumiac, 1993), Infomax (Bell and Sejnowski, 1995) και FastICA (Hyvärinen and Oja, 1997) FastICA O FastICA είναι ένας από τους πιο διαδεδομένους αλγορίθμους ICA, ο οποίος δημιουργεί ανεξάρτητες συνιστώσες με μη Γκαουσιανή κατανομή βασιζόμενος στη κύρτωση (κεφάλαιο ). Ο κανόνας εκμάθησης της αλγορίθμου είναι η εύρεση ενός διανύσματος w με σκοπό την μεγιστοποίηση της αρνητικής εντροπίας του w T x. Κατά τη διαδικασία της εφαρμογής του αλγορίθμου FastICA ορίζεται το μέγιστο ποσό της αρνητικής εντροπίας ώστε να βρίσκονται σε T συγκεκριμένα βέλτιστα G(w x). Τα βέλτιστα αυτά έχουν δημιουργηθεί στα σημεία όπου: T xg w x 2 w 0 (2.17) Και σύμφωνα με όρους Kunh-Tucker (Luenberger, 1968) και τον περιορισμό 2 2 T xg w x w 1 η επίλυση της εξίσωσης μπορεί να γίνει με τη μέθοδο Newton. Θέτοντας την συνάρτηση F και τον ιακωβιανό πίνακα JF(w) τότε γίνεται: Δεδομένου ότι τα δεδομένα είναι σφαιρικά ισχύει: T xg w x 2 w 0 (2.18) T ' T T ' T ' T xx g w x xx g w x g w x I (2.19) Οπότε ο ιακωβιανός πίνακας γίνεται διαγώνιος και άρα μπορεί να γίνει αντιστρέψιμός. Έτσι δημιουργείται η επαναληπτική μέθοδος Newton: w ' T xg w x w w (2.20) T g w x Αυτή ουσιαστικά η επανάληψη αποτελεί και τον αλγόριθμο FastICA. Στην πράξη οι προσδοκώμενοι υπολογισμοί πρέπει να αντικαθίστανται από τις υπολογισθείσες εκτιμήσεις. Λόγω των απαιτητικών υπολογισμών της μεθόδου τα διαθέσιμα δεδομένα δεν είναι πάντα εύκολα χρησιμοποιούμενα. Ως εκ τούτου, καθώς ο μέσος όρος των τιμών δημιουργείται από μικρότερο δείγμα, επηρεάζεται η ακρίβεια της μεθόδου δεδομένου ότι επηρεάζονται οι τελικές εκτιμήσεις. -27-
28 Σε περίπτωση που δεν υπάρχει ικανοποιητική σύγκλιση στον αλγόριθμό τότε μπορεί να αυξηθεί το μέγεθος του δείγματος. Πριν την εφαρμογή των παραπάνω η FastICA πλαισιώνεται από κεντράρισμα (centering) και προ-λεύκανσή (pre-whitening) Κεντράρισματα (Centering) Το στάδιο του κεντραρίσματος αποτελεί το πρώτο στάδιο προεπεξεργασίας του δείγματος μελέτης κατά το οποίο γίνεται το κεντράρισμα των παρατηρούμενων μεταβλητών. Η διαδικασία αυτή έχει σκοπό οι μεταβλητές να αποκτήσουν μηδενική μέση τιμή. Επίσης, το κεντράρισμα συμβάλει στην απλοποίηση του αλγορίθμου FastICA και ο πίνακας μετασχηματισμού Α (πίνακας μίξης) μένει ανεπηρέαστος. Αφού υπολογιστεί ο Α τότε μπορεί να προστεθεί η μέση τιμή η οποία έχει αφαιρεθεί. Η αφαίρεση αυτή συνίσταται στην αφαίρεση ενός μέσου διανύσματος m, (Ε{x}), έτσι ώστε το x να έχει μηδενική μέση τιμή. Όπως προκύπτει από την εξίσωση (2.3), με αυτών τον τρόπο και οι παρατηρούμενες συνιστώσες s θα είναι και αυτές κεντραρισμένες. Οπότε: ' x x E x (2.21) x A s ' A 1 x ' A 1 E x 1 x A 1 E x s E s (2.22) Στάδιο λεύκανση (Whitening) Το στάδιο της λεύκανσης είναι μια διαδικασία η οποία ακολουθεί το στάδιο του κεντραρίσματος και επιτυγχάνεται με το μετασχηματισμό του x σε ένα νέο διάνυσμα x το οποίο είναι «λευκό». Ένα διάνυσμα λέγεται λευκό εάν όλα του τα στοιχεία έχουν διακύμανση (variance) ίση με 1. E xx (2.23) Ένας από τους πιο δημοφιλής τρόπους λεύκανσης είναι o υπολογισμός της διάσπασης των ιδιοτιμών (Eigen Value Decomposition, EVD) του πίνακα διακύμανση: T EDE E xx (2.24) -28-
29 Όπου Ε είναι ο ορθογώνιος πίνακας των ιδιοδιανυσμάτων του των ιδιοτιμών, D diag ( d,..., ) 1 dn Όπου ο D -1/2 υπολογίζεται από: D E xx. Έτσι η λεύκανσης υπολογίζεται ως εξής: 1/2 T x ED E x και D ο διαγώνιος πίνακας ` (2.25) diag(d,...,d ). O πίνακας λεύκανσης V είναι ίσως: 1/2 1/2 1/2 1 n V ED E Έτσι, από τις εξισώσεις (2.3) και (2.25) προκύπτει: 1/2 T (2.26) 1/2 T x ED E As As (2.27) Ο πίνακας A είναι τετραγωνικός και μειώνει την πολυπλοκότητα του προβλήματος του αντίστροφου μετασχηματισμού. Η διαδικασία της λεύκανσης (whitening) μειώνει τις παραμέτρους οι οποίες πρέπει να υπολογιστούν και αποτελεί μία πολύ καλή τεχνική για τη μείωση της πολυπλοκότητας του προβλήματος πριν τη χρησιμοποίηση της ICA (Hyvärinen and Oja, 2000). Αυτό προκύπτει από το γεγονός ότι, αντί για τον υπολογισμό n 2 παραμέτρων τα οποία υπάρχουν στο πίνακα, χρειάζεται μόνο να υπολογιστούν τα στοιχεία του ορθογώνιου πίνακα A ο οποίος έχει n(n-1)/2 βαθμούς ελευθερίας Επιλογή ανεξαρτήτων συνιστωσών Ένα από τα πιο σημαντικά ζητήματα κατά τη χρήση της ICA είναι η ταξινόμηση των ανεξαρτήτων συνιστωσών υπό το πρίσμα της σημασίας και της βαρύτητας τους, δεδομένου ότι τα οι ανεξάρτητες συνιστώσες δημιουργούνται από τυχαία αρχικά προβολικά διανύσματα. Συγκρίνοντας, με την PCA η οποία δίνει τις κύριες συνιστώσες κατά σειρά σύμφωνα με το μέγεθος των ιδιοτιμών, η ύπαρξη αντίστοιχου κριτηρίου δεν υπάρχει στην ICA καθώς κατά τη βιβλιογραφική έρευνα βρέθηκαν ελάχιστες μελέτες που ασχολούνται με το εν λόγω θέμα ή έχουν αναπτύξει ολοκληρωμένη μεθοδολογία. Αυτό οφείλεται, σύμφωνα και με τους Wang and Chang (2006), στο γεγονός ότι η ICA δεν έχει σχεδιαστεί με σκοπό τη μείωση των συνιστωσών αλλά και λόγω του ότι κατά τη διαδικασία δεν υπάρχει εξιδεικευμένο κριτήριο για την ταξινόμηση των συνιστωσών. Υπάρχουν περιπτώσεις όπου η μείωση των δεδομένων έχει θετική επίδραση στην εφαρμογή τεχνικών BSS. Αυτό κυρίως παρατηρείται όταν υπάρχει υψηλής πυκνότητας εξοπλισμός καταγραφής, οπότε και εμφανίζεται το εξής φαινόμενο: ο αριθμός των ουσιαστικών συνιστωσών -29-
30 να είναι μικρότερος των διαθέσιμων καναλιών (Ikeda and Toyama, 2000, James and Hesse, 2005). Η μείωση των διαστάσεων έχει ως αποτέλεσμα την αποφυγή του overfitting 1 (Vigário and Oja, 2008) καθώς επίσης και την μείωση της επίδρασης του εξωτερικού θορύβου (Ikeda and Toyama, 2000). Οι Ikeda and Toyama (2000) αναφέρουν ότι το φαινόμενο αυτό παρατηρείται συχνά σε βιολογικά-βiϊατρικά δεδομένα σε περιπτώσεις όπου ο αριθμός των αισθητήρων/σημάτων/πηγών είναι μεγάλος. Oι Hyvärinen et al. (2004) αναφέρουν ότι η επιλογή του πίνακα W (Σχήμα 2-1) μπορεί να γίνει θέτοντας ως κριτήριο τους εξής περιορισμούς: να είναι οι συνιστώσες y όσο το δυνατόν λιγότερες και ταυτοχρόνως ο πίνακας W να περιέχει όσο το δυνατόν περισσότερες πληροφορίες σχετικά με τα δεδομένα. Αυτού του είδους οι διαδικασίες οδηγούν στη μεθοδολογία που ουσιαστικά πραγματοποιείται από την PCA. Γενικότερα, η μείωση των διαστάσεων μπορεί να γίνει ακολουθώντας δύο διαφορετικές προσεγγίσεις. Κατά την πρώτη προσέγγιση γίνεται μείωση των διαστάσεων πριν την εφαρμογή της ICA ενώ κατά τη δεύτερη προσέγγιση αφού εφαρμοστεί η ICA. Η πρώτη προσέγγιση συναντάται στη βιβλιογραφία με τον όρο pre-whitening. Οι Ikeda and Toyama (2000) ανέπτυξαν ένα αλγόριθμο για το διαχωρισμό των δεδομένων θορύβου που έχουν «μολυνθεί» εξωτερικά χωρίς να γνωρίζουν τον αριθμό των ανεξάρτητων συνιστωσών. Έχοντας παρατηρήσει ότι τα προεπεξεργασμένα δεδομένα με PCA εσωκλείουν θόρυβο εφάρμοσαν αντί της PCA την ανάλυση παραγόντων (Factor Analysis). Ωστόσο, ένα χρόνο πριν, o Attias (1999) πρότεινε για την επίλυση ανάλογου προβλήματος την προεπεξεργασία των σημάτων με ανάλυση ανεξαρτήτων παραγόντων (Independent Factor Analysis, IFA). H IFA δίνει ένα παραμετρικό μοντέλο και το επιλύσει με υπολογισμό της μεγίστης πιθανοφάνειας. H PCA επιτρέπει την απομάκρυνση της συσχέτισης δεύτερης τάξης ανάμεσα σε τυχαίες διαδικασίες. Υπολογίζοντας τα ιδιοδιανύσματα του πίνακα συνδιακύμανσης των διανυσμάτων εισόδου, η PCA πραγματοποιεί γραμμικό μετασχηματισμό μεγάλων διαστάσεων διανυσμάτων εισόδου σε χαμηλότερες των οποίων οι συνιστώσες είναι ασυσχέτιστες. Η PCA σχετίζεται με την singular value decomposition (SVD) οπότε και συνηθίζεται η PCA να εφαρμόζεται μέσω της 1 υπερπροσαρμογής ενός στατιστικού μοντέλου συμβαίνει όταν ένα τυχαίο σφάλμα ή θόρυβος εισάγεται αντί της υποκείμενης-βασικής σχέσης -30-
31 SVD. Ωστόσο, η ικανότητα του SVD είναι περιορισμένη όταν υπάρχει μεγάλο σύνολο δεδομένων (Qiu et al., 2012). Κατά την εφαρμογή της ICA δεν υπάρχει η δυνατότητα χρήσης των κριτηρίων της μεγέθους της ιδιοτιμής, του λόγου της διασποράς του σήματος και του θορύβου (signal to noise ratio, SNR) (Shlens, 2014), της μεγιστοποίησης του λόγου του θορύβου (maximum noise fraction, MNF) (Green et al., 1988) ή της προσαρμογής του θορύβου στις κύριες συνιστώσες (noise-adjusted principal components,napc) (Lee et al., 1990). Για τον λόγο αυτό οι Wang and Chang (2006), αναφέρουν ότι οι επιλογή των ανεξαρτήτων συνιστωσών θα μπορούσε να γίνει χρησιμοποιώντας μέτρα και ειδικότερα μπορούν να χρησιμοποιηθούν η κύρτωση και η ασυμμετρία. Σε ειδικές περιπτώσεις όπου η σημαντικότητα μιας ανεξάρτητής συνιστώσας μετρείται με τη διακύμανση, τότε στην πραγματικότητα γίνεται μετατροπή της ICA σε PCA ή MNF και ως εκ τούτου πλέον η ICA συμπεριφέρεται όπως και η PCA, μετρώντας τελικά πόσες είναι οι κύριες συνιστώσες οι οποίες πρέπει να διατηρηθούν χωρίς να χαθεί σημαντική πληροφορία. Έτσι οι Wang and Chang (2006) πρότειναν δύο μεθοδολογίες. Η μία βασίζεται στην εικονική διάσταση (virtual dimensionality, VD) (Chang, 2003) (Chang and Du, 2004) και η άλλη στην φύση της τυχαιότητας που προκαλείται από τη χρήση τυχαίων αρχικών φορέων της προβολής στην ICA. Υπό το πρίσμα αυτό, δημιούργησαν 3 αλγορίθμους βασισμένους στη γενική μεθοδολογία την οποία και ονόμασαν ICA-DR. Ο ICA-DR1 χρησιμοποιεί το κριτήριο VD σε συνδυασμό με αυτό της ιεράρχησης και επιλογής των συνιστωσών. Ο ICA-DR2 εισάγει την ICA ως ένα τυχαίο αλγόριθμο που χαρακτηρίζεται από την τυχαία αρχική πρόβλεψη των διανυσμάτων σύμφωνα με τον οποίο αυτόματα καθορίζεται ένας επιθυμητός αριθμός ανεξαρτήτων συνιστωσών κατά την DR χωρίς να τίθεται κάποιο κριτήριο. Και τέλος, ο ICA-DR3 ο οποίος δημιουργεί ένα κατάλληλο σύνολο αρχικών διανυσμάτων το οποίο αντικαθιστά τα τυχαία διανύσματα που χρησιμοποιούνται στην ICA κατά τη δημιουργία των ανεξαρτήτων συνιστωσών. Έτσι, η σειρά των ανεξαρτήτων συνιστωσών δεν είναι πλέον τυχαία και πλέον ταξινομούνται με βάση τους επιλεγμένους αρχικούς φορείς που χρησιμοποιήθηκαν κατά την ICA. Οι παραπάνω αλγόριθμοί συνδυάζονται με τον αλγόριθμο FastICA, καθώς οι ανεξάρτητες συνιστώσες που παράγονται από τη χρήση αυτού του αλγορίθμου δεν παράγονται με σειρά που να αποδίδει την σημασία της πληροφορίας όπως γίνεται κατά την PCA και γενικότερα την κατηγορία αυτών των τεχνικών αλλά ούτε και πάντα με την ίδια σειρά. -31-
32 Οι Cichocki et al. (1999) πρότειναν την προ-επεξεργασία του σήματος πριν το διαχωρισμό του έτσι ώστε να εξαλείψουν τα περιττά σήματα. Η εφαρμογή τους στηρίζεται σε νευρωνικό δίκτυο όπου αποτελείται από ένα πρώτο δίκτυο (ενός ή περισσοτέρων στρωμάτων) το οποίο εξαλείφει περιττά σήματα. Στην περίπτωση που ο αριθμός των αισθητήρων n είναι μεγαλύτερος από το αριθμό των πρωτογενών πηγών m, κατά την προ-επεξεργασία καθορίζεται ο αριθμός των ενεργών πηγών. Κάθε στρώμα περιγράφεται από έναν γραμμικό μετασχηματισμό z(t)=w(t)y(t), όπου τα βάρη του πίνακα W ανανεώνονται ακολουθώντας ένα προσαρμοστικό αλγόριθμο τοπικής μάθησης. Σύμφωνα με σύγκριση της PCA και της ICA που εφαρμόστηκε σε ήλεκτρο-εγκεφαλικά σήματα και έχοντας ως κριτήριο την μέση τετραγωνική διαφορά του αρχικού σχήματος από το ανακατασκευασμένο σήμα αναφέρεται ότι ο αριθμός των κυρίων συνιστωσών όπως προκύπτουν από την PCA θα μπορούσε να χρησιμοποιηθεί ως διάσταση για τις κύριες συνιστώσες (Bugli and Lambert, 2007). Το παραπάνω στηρίζεται στο γεγονός ότι δεν υπάρχει απώλεια πληροφορίας κατά των μετασχηματισμό των σημάτων κατά τη εφαρμογή της ICA. O Lappalainen (1999) εισήγαγε ένα φορμαλιστικό σύνολο εκμάθησης (ensemble learning formalism) κατά την εφαρμογή της ICA όπου υπολογίζονται οι εκ των υστέρων κρυφές μεταβλητές και παράμετροι βάσει του παραπάνω συνόλου. Οι εκ των προτέρων παράμετροι είναι Γκαουσιανής κατανομής και οι εκ των υστέρων θεωρείται ότι τελικά αποκτούν και αυτοί Γκαουσιανή κατανομή. Αν τελικά οι εκ των υστέρων παράμετροι δεν αποκτούν τη Γκαουσιανή κατανομή η μέθοδος μάλλον δεν δίδει σωστό αποτέλεσμα. Παρόμοια μέθοδος η οποία προσφέρει μεγαλύτερη ποικιλία λειτουργικών μορφών για τις εκ των προτέρων συνθήκες αναπτύχθηκε από τους (Bell and Sejnowski, 1995). Σημαντικό βήμα στην κατεύθυνση αυτή είναι η προσθήκη μιας ακόμη εκ των προτέρων συνθήκης η οποία τοποθετείται με βάση τις διακυμάνσεις του πίνακα μίξης με βασικό σκοπό το αυτοματοποιημένο καθορισμό μίας σειράς κρυφών πηγών. Η μέθοδος αυτή στηρίζεται στην μέθοδο Automatic Relevance Determination (ARD) (MacKay, 1995). Για τις κατανομές των εκ των υστέρων υπολογισμών δεν υπάρχει κάποια αρχική συνθήκη και η έκφραση αυτών γίνεται κατά τη διαδικασία βελτιστοποίησης που υπάρχει στον αλγόριθμο. Σημαντικός κίνδυνος για το μοντέλο αποτελεί ο κακός ορισμός και επιλογή των αρχικών συνόλων εκμάθησης. Ο Choudrey et al. (2000) συνδυάζοντας τα παραπάνω αλλά και ένα μπεϋσιανό (Bayesian) πλαίσιο εκμάθησης, τόσο για τις παραμέτρους όσο και για τις μεταβλητές του αλγορίθμου, στηριζόμενο είτε σε Variational μεθόδους (Weiss, 1999) είτε σε Ensemble -32-
33 Learning, πέτυχε καλύτερα αποτελέσματα κατά σε μελέτη στην όποια επιχείρησαν διαχωρισμό σήματος προερχόμενο από μουσικά όργανα. Οι De Lathauwer et al. (2004), προσπάθησαν να μειώσουν την υπολογιστική πολυπλοκότητα του προβλήματος και να μειώσουν τη διακύμανση των αποτελεσμάτων αλλά και τις διαστάσεις του προβλήματος (αριθμό παρατηρούμενων καναλιών) στηριζόμενοι σε αριθμητικές μεθόδους και ειδικότερα στη γενίκευση του τανυστή Rayleigh Quotient Interator (RQI), ώστε να υπολογίσουν ένα αμετάβλητο υποχώρο ενός δοσμένου πίνακα χωρίς αρχικά να υπάρξει προ-λεύκανση (pre-whitening). Η σύγκλιση είναι τετραγωνική και για κάθε βήμα επανάληψης πραγματοποιείται επίλυση ενός ορθογωνίου συστήματος γραμμικών εξισώσεων. Ο αλγόριθμος αυτός σε κάθε επανάληψη περιλαμβάνει ένα μερικό υπολογισμό ενός αριθμού SVD και η σύγκλιση του είναι περισσότερο γραμμική. -33-
34 3. Μονομεταβλητές και πολύμεταβλητές χρονοσειρές 3.1. Ανάλυση χρονοσειρών Ως χρονοσειρά καλείται η ακολουθία από x παρατηρήσεις, όπου κάθε παρατήρηση x εκφράζει την κατάσταση ενός εξελισσόμενου συστήματος όπως αυτή έχει καταγραφεί έως μια χρονική στιγμή t. Ο σκοπός της ανάλυσης των χρονοσειρών μπορεί να διαφέρει ανάλογα με το είδος της μελέτης, όπως για παράδειγμα συμπαγής περιγραφή των δεδομένων, ερμηνεία του φαινόμενου, πρόβλεψη και έλεγχος της διαδικασίας, εφαρμογή ελέγχου υποθέσεων, ανάπτυξη μοντέλου προσομοίωσης και προσαρμογής των δεδομένων. Η ανάλυση των χρονοσειρών παρουσιάζει ιδιαίτερο ενδιαφέρον σε πολλούς κλάδους της επιστήμης κατά την καταγραφή φαινομένων όπως για παράδειγμα στη βιολογία, στη μηχανική, στη χρηματοοικονομική κλπ. Η ανάλυση τους μπορεί να επιτευχθεί είτε στο πεδίο του χρόνου (Chatfield, 2013) είτε στο πεδίο των συχνοτήτων (Brillinger and Krishnaiah, 1983) και η επιλογή του πεδίου εξαρτάται κυρίως από τους τύπους των ερωτήσεων και των προβλημάτων του κλάδου της επιστήμης. Για παράδειγμα, στον κλάδο των χρηματοοικονομικών επιστημών παρουσιάζει συχνότερο ενδιαφέρων η χρήση του πεδίου του χρόνου (Gopikrishnan et al., 2000, Oświȩcimka et al., 2005), ενώ το πεδίο των συχνοτήτων παρουσιάζει ιδιαίτερο ενδιαφέρων στους κλάδους της μηχανικής (Gorokhov and Linnartz, 2004, Puce et al., 1995). Η ύπαρξη των μοντέλων των χρονοσειρών υποθέτει την ύπαρξη δομής και η δομή αυτή δηλώνει τις συσχετίσεις μεταξύ των μεταβλητών {xt, xt+1,, xt+n}, οι οποίες προσπαθούν να εκφραστούν με μαθηματικό τρόπο. Έτσι σημαντικό βήμα για την ανάλυση των χρονοσειρών είναι η διερεύνησή και η περιγραφή των συσχετίσεων αλλά και άλλων βασικών χαρακτηριστικών της Στασιμότητα Όταν οι στατιστικές ιδιότητες μία χρονοσειράς παραμένουν σταθερές στο χρόνο, τότε η στοχαστική διαδικασία ορίζεται ως στάσιμη (Mills, 1991). Η στασιμότητα μπορεί να είναι αυστηρά στάσιμη [strict-sense stationary] όταν όλες οι κατανομές είναι σταθερές στο χρόνο ή να είναι ασθενώς στάσιμη όταν οι ροπές πρώτης και δεύτερης τάξης είναι σταθερές (Κουγιουμτζής, 2014). Η στασιμότητα μπορεί να εντοπισθεί και να αξιολογηθεί και από το διάγραμμα της χρονοσειράς με τη χρήση στατιστικών και γραφικών μέσων (Nagpaul, 2005). -34-
35 Λευκός θόρυβος O λευκός θόρυβος είναι μια στοχαστική διαδικασία η οποία έχει αποδοθεί με διάφορους ορισμούς στη βιβλιογραφία. Για παράδειγμα κατά τους Brown and Hwang (1997) λευκός θόρυβος καλείται μια στάσιμη στοχαστική διαδικασία με σταθερό/επίπεδο φάσμα συχνοτήτων ή κατά τους Papoulis and Pillai (2002) μπορεί να διαδικασία u(t) να είναι λευκός θόρυβος αν όλες οι τιμές (ti) και u(tj) είναι ασυσχέτιστες για ti και tj: C(ti,tj)=0, ti tj. Ο μαθηματικός ορισμός του λευκού θορύβου ορίζεται ως E[XiXj]=δijσx 2 για 2 τυχαίες μεταβλητές της χρονοσειράς t X και όπου δij το δέλτα του Κρόνεκερ. Τέλος, ο λευκός θόρυβος συμβολίζεται με την μορφή WN(0, σx 2 ), όπου μηδέν η μέση τιμή της χρονοσειράς και σx 2 η διασπορά της (Κουγιουμτζής, 2014) Αυτοσυσχέτιση Η αυτοσυσχέτιση μιας χρονοσειράς αποτελεί την κανονικοποημένη μορφή της συνάρτησης αυτοδιακύμανσης και είναι μέτρο της συσχέτισης των μεταβλητών της X t t που βρίσκονται σε χρονική υστέρηση τ και αποτελούν μέτρο της μνήμης της στοχαστικής διαδικασίας. Η αυτοσυσχέτιση ορίζεται ως: ( ) ( ) (4.1) (0) Όπου γ η συνάρτηση αυτοδιακύμανσης. H εκτίμηση της αυτοσυσχέτισης μπορεί να γίνει με τη μέσω των εκτιμητών αυτοσυσχέτισης. ˆ( k) ck ˆ( ) rk ˆ(0) c o nk t1 (x x)(x x) t n t1 tk (x x) Εκτενέστερη ανάλυση του μέτρου και των ιδιοτήτων της αυτοσυσχέτισης γίνεται από τους Box et al. (2011). t 2 (4.2) ισχύει ότι: Ανεξάρτητες ισόνομες τυχαίες μεταβλητές (iid 2 ) Με βάση τη θεωρία πιθανοτήτων για να είναι ανεξάρτητες οι μεταβλητές Χi, θα πρέπει να 2 independent and identically distributed -35-
36 P( x, x,..., x ) P( x ) P( x )... P( x ) (4.3) 1 t1 2 t2 n tn 1 t1 2 t2 n tn Όπου P η πιθανότητα, Χi οι τυχαίες μεταβλητές και xi πραγματικές τιμές. Η διαδικασία η οποία παράγεται ικανοποιώντας την παραπάνω σχέση δημιουργεί μια τυχαία χρονοσειρά με μηδενικές αυτοσυσχετίσεις, οπότε και η ανάλυση της γίνεται με στατιστικές μεθόδους (Κουγιουμτζής, 2014) Μονομεταβλητές χρονοσειρές Το αυτοπαλινδρομούμενο μοντέλο (autoregressive model, AR) είναι ένα γραμμικό μοντέλο παλινδρόμησης, κατά το οποίο η εξαρτημένη μεταβλητή είναι γραμμικός συνδυασμός των ανεξαρτήτων συνιστωσών. Στο μοντέλο αυτό ως εξαρτημένη μεταβλητή θεωρείται η τυχαία μεταβλητή της χρονοσειράς και ως ανεξάρτητες μεταβλητές θεωρούνται οι τιμές της τυχαίας μεταβλητής σε προηγούμενους χρόνους (xt-1, xt-p). Ως p καλείται ο αριθμός των τελευταίων όρων οι οποίοι λαμβάνονται για την παραγωγή νέων τιμών. Ο αριθμός p καλείται και ως τάξη του AR μοντέλου και δηλώνεται ως AR(p). Η μορφή του έχει ως εξής: p x x e (4.4) t o i t i t i1 Ή αλλιώς: x 1x 1... x e (4.5) t o t p tp t Όπου φ1,... φp είναι οι παράμετροι του μοντέλου, φο είναι σταθερά και et είναι λευκός θόρυβος με μέση τιμή μηδέν και διασπορά σ 2. Η τάξη του μοντέλου μπορεί να εκτιμηθεί από τις μερικές αυτοσυσχετίσεις, το κριτήριο της πληροφορίας τους Akaike (Akaike information criterion, AIC) και το κριτήριο μπεϋζιανής πληροφορίας (Bayesian information criterion, BIC) (Box et al., 2011). Το AR(p) μοντέλο είναι εκτός από γραμμικό και στάσιμό, οπότε οι συντελεστές του μοντέλου θα πρέπει να εκτιμώνται από μια υπάρχουσα στάσιμη χρονοσειρά. Αφού εκτιμηθεί η τάξη p του μοντέλου εν συνεχεία μπορεί να πραγματοποιηθεί εκτίμηση των συντελεστών του μοντέλου με τη μέθοδο ελαχίστων τετραγώνων ή την μέθοδο των ροπών, γνωστή και ως Yule-Walker (Κουγιουμτζής, 2014). -36-
37 3.3. Πολυμεταβλητές Χρονοσειρές Πολλές φορές κατά την εξέλιξη φαινομένων συμβαίνουν ταυτοχρόνως διάφορες αλλαγές οι οποίες καταγράφονται και συνθέτουν ένα σύνολο χρονοσειρών. Οι χρονοσειρές αυτές, όπως προαναφέρθηκε στην προηγούμενη ενότητα των μονομεταβλητών χρονοσειρών, δίνουν την δυνατότητα ανάλυσης του μοντέλου και πρόβλεψης μελλοντικών τιμών. Κατά την περίπτωση όπου οι τιμές κάποιας χρονοσειράς εξελίσσονται παράλληλα και υπάρχει αλληλεπίδραση με κάποια άλλη, τότε μιλάμε για πολυμεταβλητές χρονοσειρές. Η χρήση των πολυμεταβλήτων χρονοσειρών έχει γίνει σε πολλά πεδία της επιστήμης. Για παράδειγμα στον τομέα του περιβάλλοντος και της υγείας οι πολυμεταβλητές χρονοσειρές περιέγραψαν την εξέλιξη των αερίων ρύπων και ταυτοχρόνως την χρονοσειρά θνησιμότητας εξάγοντας συμπεράσματα σχετικά με την συσχέτιση τους (Zeger et al., 2000). Επίσης, με τη χρήση πολυμεταβλητών χρονοσειρών εξετάστηκαν οι λόγοι αυτοκτονίας στην Αγγλία κατά την περίoδο , λαμβάνοντας υπόψη την κοινωνικοοικονομική κατάσταση των αυτοχείρων (Gunnell et al., 2003). Τέλος, ενδιαφέρον παρουσιάζει η μελέτη στο τομέα των χρηματο-οικονομικών κατά την οποία αναλύεται η επίδραση της ανανέωσης/αλλαγής και των καινοτομιών στο χρηματοπιστωτικό σύστημα, στην τραπεζική δραστηριότητα και ανάπτυξη νέων τεχνολογιών κατά την περίοδο έως 1850 (Rousseau and Sylla, 2005). Η ανάλυση πολύ-μεταβλητών χρονοσειρών συχνά γίνεται με επέκταση μοντέλων μονομεταβλητών χρονοσειρών. Ένα από τα πιο γνωστά μοντέλα πολύ-μεταβλητών χρονοσειρών είναι το διανυσματικό αυτοπαλινδρομούμενο μοντέλο Αυτοπαλινδρομούμενο διανυσματικό μοντέλο Το αυτόπαλινδρομούμενο διανυσματικό μοντέλο (vector autoregressive, VAR) είναι μία γενίκευση του μονοδιάστατου αυτοπαλινδρομούμενου μοντέλου (AR) σε πολυ-μεταβλητή χρονοσειρά (K 1) με διανύσματα χρονοσειρών {xτ}, μεταβλητών xt = {x1t, x2t,..., xkt} όπου αποτελεί ένα (K 1) σε ένα ορισμένο διάστημα χρόνου [1,n] (Rousseau and Sylla, 2005). Έτσι, συνολικά το μοντέλο ορίζεται ως εξής: xt o 1xt 1... pxt p et (4.6) -37-
38 Όπου K ο αριθμός των χρονοσειρών του πολύ-μεταβλητού μοντέλου, φi οι πίνακες των συντελεστών του μοντέλου μεγέθους (K K) και et =( e1t,...,ekt)' είναι ένα (K 1) διάνυσμα λευκού θορύβου για το οποίο ισχύουν τα εξής: E (et) = 0, E (et et ')' = Σe και E (et es ') = 0 για s t, όπου Σe ο πίνακας συνδιακύμανσης. Ένα μοντέλο VAR(1) αποτελείται από 3 μεταβλητές τότε από την σχέση (4.6) προκύπτει ότι: x x x x e (4.7) 1t o 11 1, t1 12 2, t1 13 3, t1 1, t x x x x e (4.8) 2t o 21 1, t1 22 2, t1 23 3, t1 2, t x x x x e (4.9) 3t o 31 1, t1 32 2, t1 33 3, t1 3, t Ο αριθμός 1 στo VAR(1) δηλώνει ότι μοντέλο είναι πρώτης τάξης και ουσιαστικά δηλώνει την υστέρηση του. Για να είναι ένα μοντέλο πρώτης τάξης στάσιμο θα πρέπει οι ιδιοτιμές του πίνακα A των συντελεστών του μοντέλου να έχουν modulus μικρότερο από 1 (Rousseau and Sylla, 2005). Η συνθήκη αυτή επεκτείνεται και σε μεγαλύτερης τάξης μοντέλα. Στην περίπτωση αυτή το αντίστροφο χαρακτηριστικό πολυώνυμο του δεν έχει ρίζες στο μοναδιαίο κύκλο και τότε ισχύει ότι: p det( IK A1 z A z ) 0 z 1 (4.10) Όταν η τάξη του μοντέλου VAR δεν είναι εκ των προτέρων γνωστή, μπορεί να εκτιμηθεί με το κριτήριο του AIC ή το κριτήριο του τελικού σφάλματος (Rousseau and Sylla, 2005). p -38-
39 4. Granger causality Ο εντοπισμός και η ανάλυση των αλληλεπιδράσεων των μεταβλητών που προέρχονται από ταυτόχρονη καταγραφή παρουσιάζει ιδιαίτερο ενδιαφέρον καθώς οι αλληλεπιδράσεις μπορούν να περιγράψουν τη δυναμική του συστήματος παρατήρησης αλλά και να συμβάλουν στο καθορισμό των μηχανισμών σχέσεων αιτιότητας του. Για παράδειγμα, στις νευροεπιστήμες η γνώση των σημάτων που προέρχονται από ένα εγκεφαλογράφημά και η καταγραφή από διαφορετικό σημείο θα μπορούσε να βοηθήσει στην καλύτερη κατανόηση του νευρικού συστήματος (Kamiński et al., 2001, Faes et al., 2012). Οι δυναμικές σχέσεις είναι δυνατόν να απεικονιστούν με διαγράμματα διαδρομής (γράφους), στα οποία οι μεταβλητές αντιπροσωπεύονται από κορυφές ή κόμβους, και κατευθυνόμενες ακμές μεταξύ των κορυφών, δείχνοντας τη δυναμική ή την αιτιώδη επίδραση μεταξύ των μεταβλητών. Βασικό ρόλο στη θεωρία των γράφων έχουν οι γενικές Μαρκοβιανές ιδιότητες (global Markov properties) (Lauritzen et al., 1990) οι οποίες παρέχουν τις συνθήκες για τις σχέσεις και τις εξαρτήσεις ή όχι μεταξύ των μεταβλητών. Η περιγραφή της δυναμικής του συστήματος και των σχέσεων αιτιότητας στις πολυμεταβλητές χρονοσειρές μπορεί να πραγματοποιηθεί, εκτός των άλλων προσεγγίσεων όπως παρουσιάζεται από την ανασκόπηση στο θέμα από τους Hlaváčková-Schindler et al. (2007) και με τη χρήση της αιτιότητας κατά Granger (Granger causality) (Granger, 1969). Η προσέγγιση αυτή βασίζεται στην κοινή αντίληψη (αίσθηση) ότι κάθε πράγμα προκαλεί μία επίπτωση η οποία εμφανίζεται μετά από χρονικό διάστημα t. Αν λοιπόν μία χρονοσειρά έχει σχέση αιτιότητας με άλλες χρονοσειρές, τότε θα μπορούσε να γίνει πρόβλεψη για αυτές. Επιπλέον, η ανάλυση των δυναμικών σχέσεων των πολυμεταβλητών χρονοσειρών μπορεί να γίνει με τη χρήση των διαγραμμάτων διαδρομών (path diagrams) (Eichler, 2000, Eichler, 2001), τα οποία μπορούν να αναπαραστήσουν τις σχέσεις κατά Granger (Eichler, 2007). Ως αιτιότητα κατά Granger ορίζεται η περίπτωση όπου η αιτιότητα είναι βασισμένη στην πρόβλεψη. Έτσι, σύμφωνα με αυτό, εάν ένα σήμα X αιτιάζει σε ένα σήμα Y, τότε οι παρελθούσες τιμές του X μπορεί να περιέχουν πληροφορία η οποία θα μπορούσε να συμβάλει στην πρόβλεψη του Υ (Granger, 1969) Αιτιότητα κατά Granger και παραμετρικός έλεγχος Έστω ότι υπάρχει ένα μοντέλο το οποίο αποτελείται από δύο χρονοσειρές Χt και Yt. Έτσι η απλούστερη σχέση αιτιότητας μεταξύ τους είναι: -39-
40 m a X b e t j tj j tj t j1 j1 m (4.11) m Y c X d t j tj j tj t j1 j1 m (4.12) Όπου et και ηt είναι ασυσχέτιστος λευκός θόρυβος. Επιπλέον οι όροι α,b,c και d είναι παράμετροι. Για το μοντέλο το οποίο περιγράφεται παραπάνω η σχέση (4.11) θα ονομαστεί ως «r» από τον όρο «restricted» και η σχέση (4.12) ως «u» από τον όρο «unrestricted». Χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων για την προσαρμογή του u και του r, μπορεί να υπολογιστεί το υπόλοιπο των συνδιακύμανσεων (residual variances) 2 ˆu και 2 ˆr. Με τη βοήθεια αυτών υπολογίζεται και ο Conditional Granger Causality Index (CGCI), οποίος αποτελεί την ποσοτικοποίηση της αιτιότητας. O CGCI από το Χ στο Υ, βρίσκεται από την παρακάτω σχέση: CGCI X ˆ (4.13) Y 2 ln 2 ˆr u Όταν ο CGCI είναι μηδέν, τότε το Χ δε βελτιώνει την πρόβλεψη του Υ. Αυτό συμβαίνει όταν το u και το r δίνουν το ίδιο σφάλμα προσαρμογής διασποράς. Ο CGCI παίρνει θετικές τιμές όταν X αιτιάζει στο Y. Η στατιστική σημαντικότητα του CGCI μπορεί να εκτιμηθεί με το στατιστικό κριτήριο της κατανομής Fisher (F-test). Έτσι, στο μοντέλο αιτιότητας γίνεται οι παρακάτω υποθέσεις: H0: H X μεταβλητή δεν έχει σχέση αιτιότητας κατά Granger με το Y οπότε και οι συντελεστές για κάθε j είναι bj=0. H1: H X μεταβλητή έχει σχέση αιτιότητας κατά Granger με το Y οπότε και οι συντελεστές για κάθε j είναι bj 0. Θεωρώντας τη μηδενική υπόθεση, H0, για την εξίσωση (4.11), απαλείφονται οι όροι του Yt και το στατιστικό κριτήριο της κατανομής F θε έχει ως εξής: F SSEr SSE u p SSEu (( N p) Kp ) (4.14) -40-
41 Όπου SSE (sum of squared errors, άθροισμα τετραγωνικών σφαλμάτων), Ν-p είναι ο αριθμός των εξισώσεων, p η τάξη του μοντέλου, Ν το μήκος της χρονοσειράς και Κp ο αριθμός των συντελεστών του u. Η μέθοδος Fisher υποθέτει την ανεξαρτησία των παρατηρήσεων, την κανονικότητα και την ίση διακύμανση των παρατηρούμενων μεταβλητών, τα οποία ίσως δεν εμφανίζονται στην πράξη. Έτσι σύμφωνα με την μηδενική υπόθεση, εάν το F είναι μεγαλύτερο του μηδενός τότε υπάρχει αιτιότητα ενώ όταν το F είναι μηδέν τότε δεν υπάρχει αιτιότητα. Επιπλέον, για αρνητικές τιμές ισχύει ότι δεν υπάρχει αιτιότητα Granger causality και ICA Σε βιβλιογραφική αναζήτηση που έγινε στο διαδίκτυο σχετικά με την συνδυασμένη χρήση του μέτρου αιτιότητας Granger και της μεθόδου ICA, με την προϋπόθεση ότι λέξεις κλειδιά βρίσκονται στο τίτλο ή στην περίληψη, προέκυψαν τα εξής αποτελέσματα. Πίνακας 4-1 Αποτελεσμάτων βιβλιογραφικής ανασκόπησης στο SCOPUS, PUBMED και GOOGLE SCHORAL. Λέξεις κλειδιά στο τίτλο ή στην περίληψη του κειμένου Μηχανή - βιβλιοθήκη αναζήτησης Αποτελέσματα Independent Component Analysis + Granger Causality SCOPUS 59 Independent Component Analysis + EEG + Granger Causality SCOPUS 34 Independent Component Analysis + EEG + Granger Causality PUBMED 5 Independent Component Analysis + EEG + Granger Causality GOOGLE SCHORAL 904 Εξετάζοντας τα αποτελέσματα από τη βιβλιοθήκη Scopus, προέκυψαν 59 επιστημονικά άρθρα εκ των οποίων τα 58 είναι σχετικά με την ιατρική και τις νευροεπιστήμες. Σύμφωνα με τα δημοσιευμένα έργα, ο συνδυασμός τους χρησιμοποιείται στις νευροεπιστήμες κυρίως στον τομέα της ανάλυσης των εγκεφαλογραφημάτων. Ειδικότερα, η εφαρμογή της μεθόδου των ανεξαρτήτων συνιστωσών σε συνδυασμό με το μέτρο αιτιότητας κατά Granger σε ποσοστό άνω των 90%, έχει χρησιμοποιηθεί με επιτυχία για την ανάλυση της λειτουργίας και της δραστηριότητας του εγκεφάλου καθώς επίσης και για την εύρεση σχέσεων αιτιότητας μεταξύ των περιοχών του εγκεφάλου έπειτα από την επεξεργασία σήματος προερχόμενο από ηλεκτροεγκεφαλογραφήματα (Chen et al., 2013, Hua et al., 2014, Londei et al., -41-
42 2007, Winkler et al., 2015, Zhong et al., 2012). Επιπλέον, η ίδια εργασία έχει εφαρμογή και στην ανάλυση σήματος μαγνητικού εγκεφαλογραφήματος (Magnetoencephalography (MEG)) (Shahbazi et al., 2010). Σε κάθε περίπτωση εξετάστηκαν διαφορετικές περιπτώσεις ασθενών για την εξερεύνηση του εγκεφάλου όπως για παράδειγμα ασθενείς με Αλζχάιμερ, (Yan et al., 2013) αλλά και ασθενείς με επιληπτική πάθηση ή κρίσεις επιληψίας με σκοπό την παρατήρηση της διαδικασίας η οποία ελέγχει την επιληψία (Coben et. al, 2015). Τέλος, στη χημική βιομηχανία έχει εφαρμοστεί ο συνδυασμός τους σε εγκαταστάσεις παραγωγής μονομερούς βινυλοχλωρίου με σκοπό την αναγνώριση των ταλαντωτικών θορύβων στις συσκευές ρύθμισης του συστήματος έτσι ώστε να βρεθούν οι παράμετροι που χαρακτηρίζουν το θόρυβο (Jiabin et al., 2011). -42-
43 5. Θεωρία γράφων 5.1. Βασικές έννοιες Η θεωρία γράφων αποτελεί ένα γνωστικό πεδίο της επιστήμης των μαθηματικών που έχει ως σκοπό την μελέτη των γράφων - μαθηματικών δομών - δικτύων που χρησιμοποιούνται για τη μοντελοποίηση και την αναπαράσταση των σχέσεων που εμφανίζονται μεταξύ ζευγών αντικειμένων. Η μελέτη τέτοιων δικτύων εμφανίζεται από τον 18 ο αιώνα. Στο τομέα των μαθηματικών ως γράφος G (Graph) καλείται ένα διατεταγμένο ζεύγος συνόλων G(V,E) (Σχήμα 5-1). Συμβολίζουμε με ( V) { v1, v2,, v m } τις κορυφές του γραφήματος, όπου n o αριθμός των κορυφών και V = V(G) η τάξη του γραφήματος. Συμβολίζουμε με ( G) { x1, x2, x } τις ακμές του γραφήματος, όπου m ο αριθμός των ακμών, m και E = E(G) το μέγεθος του γραφήματος. Ως πίνακας γειτνίασης Α (Adjacency Matrix) καλείται ένας τετραγωνικός πίνακας διαστάσεων n n ο οποίος δηλώνει αν υπάρχει ακμή μεταξύ δύο κόμβων. Οι τιμές που μπορεί να πάρει είναι 0 και 1, οπότε εάν το στοιχείο Α(i,j)=0 δεν υπάρχει ακμή, σε διαφορετική αλλιώς υπάρχει ακμή. n Σχήμα 5-1 Αριστερά: κατευθυνόμενος γράφος (directed graph) δικτύου Δεξιά: ο αντίστοιχος πίνακας γειτνίασης του γράφου του σχήματος (Adjacency Matrix) -43-
44 Το άθροισμα όλων των εισερχομένων και εξερχομένων ακμών σε μία κορυφή/κόμβο του γραφήματος ονομάζεται βαθμός (degree). Στην περίπτωση που μας ενδιαφέρει ο προσανατολισμός της σύνδεσης τότε μπορούμε να μετρήσουμε ξεχωριστά του κόμβους που εισέρχονται αλλά και εξέρχονται από τον κόμβο. Ο συμβολισμός γίνεται με τόξα και στην περίπτωση αυτή ο γράφος ονομάζεται κατευθυνόμενος γράφος (directed graph ή digraph) Τύποι δικτύων Small World network Τα δίκτυα μικρόκοσμου (small world) είναι ένας μαθηματικός τύπος γράφου στον οποίο οι περισσότεροι κόμβοι δεν είναι γειτνιάζουν με κάποιον άλλο, αλλά υπάρχει η δυνατότητα μετάβασης από τον ένα κόμβο στο άλλο μέσω μικρού μέγεθος μονοπατιών και δεν χαρακτηρίζονται από ισχυρή ομαδοποίηση C (Watts and Strogatz, 1998). Ένα γράφος είναι τύπου small world όταν η τυπική απόσταση L μεταξύ δύο τυχαίων επιλεγμένων κόμβων (αριθμός των βημάτων που απαιτούνται από τον ένα στο άλλο) αναπτύσσεται αναλογικά προς το λογάριθμό του αριθμού των κόμβων Ν στο δίκτυο. Κατασκευάζοντας έναν γράφο, η πιθανότητα ένας κόμβος να συνδέεται με ακμές δίνεται από την πιθανότητα p, η οποία μπορεί να πάρει τιμή 0 έως 1. Όσο αυξάνεται η πιθανότητα τόσο το μήκος μονοπατιού μειώνεται L(p), ενώ ο συντελεστή ομαδοποίησης C(p) παραμένει σταθερός έως την πιθανότητα p = 0.01(Watts and Strogatz, 1998). Σχήμα 5-2: Δακτυλιοειδής απεικόνιση γράφων με βάση την πιθανότητα p (Watts and Strogatz, 1998) -44-
45 Σχήμα 5-3 Σχέσεις μονοπατιού L και ομαδοποίησης C συναρτήσει της πιθανότητας p (Watts and Strogatz, 1998) Κατανομή χωρίς κλίμακα (Scale-Free distribution) Ένα δίκτυο κατανομής χωρίς κλίμακα είναι ένα δίκτυο του οποίου ο βαθμός κατανομής ακολουθεί το νόμο της δύναμης (power law) (P(k)~k -γ ) (Clauset et al., 2009). Ως κατανομή αναφέρεται η πιθανότητα ένας κόμβος να είναι k βαθμού. Οι Barabási and Albert (1999) πρότειναν δίκτυα με κατανομή χωρίς κλίμακα τα οποία ορίζονται από δύο σημαντικά χαρακτηριστικά, την ανάπτυξη (growth) και την επιλεκτική προσκόλληση (preferential attachment). Χαρακτηριστικό γνώρισμά τους αποτελεί η διαρκής τους επέκταση με προσθήκη νέων κόμβων ή με ήδη υπάρχοντες. Στις περιπτώσεις δικτύων τύπου scale free η παράμετρος γ ανήκει συνήθως μεταξύ της τιμής (2,3) (Clauset et al., 2009). Οι γράφοι αυτού του τύπου χαρακτηρίζονται από κόμβους που είναι συνδεμένοι με πολλές ακμές και όταν η τιμή αυτή ξεπεράσει την μέση τιμή συνδέσεων ο κόμβος καλείται και ως «hub» Random network Οι γράφοι τυχαίου τύπου έχουν την ιδιότητα η κάθε ακμή τους να σχηματίζεται με πιθανότητα p και ανεξάρτητα από τις άλλες (Erdős and Rényi, 1959). Σύμφωνα το ορισμό των που δόθηκε στην εργασία On Random Graphs I (Erdős and Rényi, 1959), οι γράφοι με n σημεία και M ακμές έχουν την παρακάτω πιθανότητα: -45-
46 M p (1 p) n M 1 (5.1) Όπου ρ παίρνει τιμές μεταξύ (0,1). Καθώς το p αυξάνει από 0 στο 1 ο γράφος είναι πιθανόν να περιλαμβάνει περισσότερες ακμές παρά λιγότερες (Σχήμα 5-2) Μέτρα δικτύου Assortativity είναι ένας συντελεστής συσχετισμού μεταξύ των βαθμών όλων των κόμβων ή αλλιώς της κοινωνικότητας του δικτύου σε δύο άκρα ενός συνδέσμου (Newman, 2002). Ο συντελεστής μπορεί να πάρει τιμές μεταξύ [-1,1] και η θετική τιμή του δείχνει ότι οι κόμβοι έχουν την τάση να συνδεθεί με άλλους κόμβους με βαθμό assortavity ίδιο ή παρόμοιας τάξης (Noldus and Van Mieghem, 2015). Clustering coefficient (Cp) - συντελεστής ομαδοποίησης - είναι το κλάσμα των τριγώνων γύρω από ένα κόμβο και είναι ισοδύναμο με το κλάσμα των γειτονικών κόμβων που είναι γειτονικοί μεταξύ τους (Watts and Strogatz, 1998). Characteristic path length (Cl) χαρακτηριστικό μονοπάτι σύνδεσης - περιγράφει το μονοπάτι σύνδεσης κόμβων (προσβάσιμοτητα) και δίνει τη μέση συντομότερη διαδρομή στο δίκτυο (Watts and Strogatz, 1998). Τα αποτελέσματα μπορούν να δοθούν σε ένα πίνακα ο οποίος περιέχει τα μήκη με τα συντομότερα μονοπάτια μεταξύ όλων των ζευγών των κόμβων. Average path length (L) μέσο μήκος μονοπατιού είναι ο μέσος όρος των μηκών των μονοπατιών του δικτύου. Global efficiency ολική απόδοση είναι ένα μέτρο συγκρίσιμό με το 1/L που αποτελεί το μέσο αντίστροφο μήκος της συντομότερης διαδρομής στο δίκτυο και είναι αντιστρόφως ανάλογος με το χαρακτηριστικό μήκος διαδρομής. Βetweenness centrality κεντρικότητα είναι ένας δείκτης της κεντρικότητας ενός κόμβου σε ένα δίκτυο. Ο δείκτης δηλώνει την επιρροή του κόμβου στη μεταβίβαση της πληροφορίας στο δίκτυο υπό την προϋπόθεση ότι η μεταβίβαση της πληροφορίας ακολουθεί τα συντομότερα μονοπάτια (Freeman, 1977). Εdge betweenness centrality (EBC) - είναι ένα δείκτης ο οποίος στηρίζεται στο δείκτη Βetweenness centrality και δίδει το μέτρο της σημαντικότητας του κάθε κόμβου στο δίκτυο (Cuzzocrea et al., 2012). Mean degree μέσος βαθμός ενός γράφου G είναι το μέτρο με το οποίο δίδεται η σύγκριση του αριθμού των ακμών (Ε) σε σχέση με τον αριθμό των κορυφών του συνόλου (V). -46-
47 Στην περίπτωση όπου έχουμε μη-κατευθυνόμενο γράφημα η τιμή είναι 2 * Ε / V γιατί η άκρη κάθε ακμής προσπίπτει σε δύο κορυφές και βαθμός μετριέται σε δύο κορυφές (Pinto and Markenzon, 2007). Transitivity Μεταβατικότητα είναι η αναλογία των τριγώνων στο δίκτυο και είναι ένα εναλλακτικό μέτρο αντί του συντελεστή ομαδοποίησης (clustering coefficient). Modularity Επεκτασιμότητα ορίζει το βαθμό στον οποίο ένα δίκτυο είναι οργανωμένο σε μια σπονδυλωτή (modular) δομή ή κοινότητα. Modules (σπονδυλωτές δομές) αναφέρονται σε ένα σύνολο κόμβων που είναι πυκνά συνδεδεμένο με δεσμούς μεταξύ τους και το υπόλοιπο δίκτυο χαρακτηρίζεται από αραιές συνδέσεις (Newman, 2006). Δίκτυα με υψηλό modularity εμφανίζουν έντονα το παραπάνω χαρακτηριστικό και η τιμή του κυμαίνεται από [-1.1] και όταν η τιμή είναι θετική, δείχνει ότι το modularity είναι μεγαλύτερο του αναμενόμενου (Zhang et al., 2010). Small worldness είναι το μέτρο το οποίο δείχνει εάν ένα δίκτυο έχει χαρακτηριστικά μικρόκοσμου (small world) και προκύπτει από τη διαίρεση του γ = Cp/Cp rand > 1 και λ = Lp/Lp rand 1, όπου αντιστοίχως Cp rand και Lp rand είναι το clustering coefficient και το characteristic path length από τα συνδυαζόμενα τυχαία δίκτυα (όπου τα τυχαία δίκτυα έχουν χαμηλό Cp και μικρό Lp) (Humphries and Gurney, 2008) Standard deviation είναι η τυπική απόκλιση του βαθμού κατανομής ενός γράφου (δεύτερη ροπή). -47-
48 6. Μέτρα Διάκρισης Η ταξινόμηση (classification) είναι μια γενική διαδικασία που συνδέεται με την κατηγοριοποίηση όπου στην στατιστική είναι η διαδικασία κατά την οποία τα αποτελέσματα και οι καταστάσεις αναγνωρίζονται και διαφοροποιούνται με απώτερο σκοπό την ταξινόμηση τους. Η χρήση μεθόδων ταξινόμησης και διάκρισης καταστάσεων εμφανίζεται σε ένα ευρύ φάσμα επιστημών όπως στην ιατρική, στα χρηματοοικονομικά, στην επιστήμη των υπολογιστών κλπ. Για παράδειγμα, στην ιατρική έχουν χρησιμοποιηθεί μέθοδοι διαφοροποίησης καταστάσεων ώστε να εξεταστεί το κατά πόσο ο βαθμός της ηπατικής ανεπάρκειας μπορεί να επιφέρει δυσλειτουργία στο σύστημα των εξωηπατικών οργάνων εξετάζοντας μία σειρά ασθενών και την πορεία της υγείας τους (Wehler et al., 2001). Στον τομέα των χρηματοοικονομικών επιστημών μαθηματικά εργαλεία κατηγοριοποίησης έχουν χρησιμοποιηθεί για να αναλυθεί ο ρόλος των μακροοικονομικών και διαρθρωτικών πολικών του κράτους, στην εμφάνιση τραπεζικών πιστωτικών προβλημάτων στις χώρες της Ανατολικής Ευρώπης (Männasoo and Mayes, 2009). Επιπλέον, εργαλεία διάκρισης έχουν χρησιμοποιηθεί για την αξιολόγηση συστημάτων εκμάθησης (machine learning) (Bradley, 1997). Τέλος, ενδιαφέρον παράδειγμα χρήσης δεικτών διάκρισης αποτελεί η μελέτη που πραγματοποιήθηκε για την εμφάνιση του καρκίνου μέσα από την παρακολούθηση της γενικής έκφρασης του DNA σε πάσχοντες από οξεία λευκαιμία (Golub et al., 1999) AUROC - Area Under receiver operating characteristic H AUROC (Area Under receiver operating characteristic) ή ROC είναι μια μέθοδος οπτικοποίησης, οργάνωσης και επιλογής χαρακτηριστικών από σήματα με βάση τη διακριτική τους ικανότητας (Fawcett, 2006). Έστω ότι σε σύστημα πρόβλεψης υπάρχουν 2 καταστάσεις/κλάσεις πρόβλεψης τα οποία μπορεί να είναι είτε θετικά (Positive, p) είτε αρνητικά (Negative, n). Οι εκδοχές όμως του συστήματος πρόβλεψης στην πραγματικότητα αν αυτό δεν είναι τέλειο στις προβλέψεις του θα είναι: Η πρόβλεψη να είναι p και να ανήκει στην κλάση p (True Positive) Η πρόβλεψη να είναι p και να ανήκει στην κλάση n (False Negative) Η πρόβλεψη να είναι n και να ανήκει στην κλάση p (False Positive) -48-
49 Η πρόβλεψη να είναι n και να ανήκει στην κλάση n (True Negative) Πίνακας 6-1 περιπτώσεων μοντέλου στην αγγλική γλώσσα συναντάται με τον όρο confusion matrix Condition positive (p) Condition negative (n) Predicted condition positive Predicted condition negative True positive False negative (Type II error) False positive (Type I error) True negative Με βάση των παραπάνω πίνακα είναι δυνατόν να γίνει υπολογισμός των παρακάτω δεικτών: True Positive Sensitivity, Recall Condition Positive (6.1) False Positive Fall out Condition Negative (6.2) False Negative Miss Rate Condition Positive (6.3) True Negative Specificity Condition Negative (6.4) H καμπύλη ROC σχεδιάζεται χρησιμοποιώντας στο άξονα Χ το specificity (6.4) και στο άξονα Y το sensitivity (6.1) απεικονίζοντας έτσι τις ισορροπίες των δύο ποσοστών (Σχήμα 6-1). Ο δείκτης AUROC είναι το εμβαδό κάτω από την καμπύλη που σχηματίζει η διακριτική ικανότητα του μέτρου. Ο δείκτης παίρνει τιμές από [0,1]. Όταν η τιμή είναι μονάδα τότε ο διαχωρισμός είναι τέλειος. Στην περίπτωση όπου η τιμή είναι 0.5 έχουμε τυχαίο διαχωρισμό. Το AUROC υπολογίζεται από τον παρακάτω τύπο(bradley, 1997): AUROC N X X Y X k1 k k1 k k1 1 2 (6.5) Όπου Ν ο αριθμός του συνόλου των σημείων και Χ,Υ οι συνταγμένες. -49-
50 Σχήμα 6-1 Διάγραμμα AUROC 6.2. t-test Ο έλεγχος t (t-test) είναι μια δοκιμή στατιστικής υπόθεσης στην οποία η στατιστική δοκιμή ακολουθεί κατανομή student και ελέγχει αν η μηδενική υπόθεση είναι σωστή (Κούνιας and Καλυβά - Μαχαίρα 2000). Είναι ουσιαστικό ένα μέτρο το οποίο μπορεί να χρησιμοποιηθεί για να προσδιοριστεί αν δύο σύνολα δεδομένων εμφανίζουν στατιστικές σημαντικές διαφορές και εφαρμόζεται συνήθως όταν η στατιστική δοκιμή ακολουθεί κανονική κατανομή. Έστω ότι έχουμε δύο κατανομές τιμών για ένα μέτρο από 2 δείγματα παρατηρήσεων m και n. Εάν οι διαδικασίες έχουν διαφορετικές κατανομές αποτελεσμάτων τότε μπορούμε να πούμε ότι παρατηρείται διάκριση για αυτό το μέτρο και ο έλεγχος γίνεται με τις εξής υποθέσεις: H : H : (6.6) με περιοχή απόρριψης R t tn m 2; a/2 όπου: t ' 2 2 (n1)s 1 (m1)s n m 2 n m (6.7) Σε περίπτωση όπου οι διασπορές των δειγμάτων είναι άγνωστες αλλά ίσες, τότε χρησιμοποιείται ο παρακάτω έλεγχος: H : H : (6.8) -50-
51 με περιοχή απόρριψης R t t ; a/2 όπου: t ' s n s m (6.9) -51-
52 7. Μεθοδολογία Διερεύνηση 7.1. Προσομοιώσεις σε υπολογιστικά δεδομένα Σε αυτό το κεφάλαιο θα γίνει παρουσίαση της μεθοδολογίας που χρησιμοποιήθηκε για το διαχωρισμό και την μελέτη πολυμεταβλητών χρονοσειρών με τη χρήση του μέτρου αιτιότητας κατά Granger (παράγραφος 4.1) και με της μεθόδου των ανεξαρτήτων συνιστωσών. Αρχικά, δημιουργήθηκαν μοντέλα πολυμεταβλητών χρονοσειρών, τα οποία εμφανίζουν χαρακτηριστικά δικτύου τύπου Small-World, Scale-Free και Random network (παράγραφος 5.2). Εν συνεχεία εκτελέστηκε η μεθοδολογία FastICA (παράγραφος 2.4.1) με την οποία πραγματοποιήθηκε διαχωρισμός του σήματος σε ανεξάρτητες συνιστώσες και εξετάστηκε η αιτιότητα κατά Granger. Πιο συγκεκριμένα εφαρμόστηκε ο δείκτης Conditional Granger Causality Index, CGCI, (παράγραφος 4.1) έπειτα από την επιλογή διαφορετικού αριθμού ανεξαρτήτων συνιστωσών. Κατά την εφαρμογή της μεθόδου ICΑ εξετάστηκαν 2 σενάρια προσομοιώσεων. Κατά το πρώτο σενάριο υπολογίστηκε το πλήθος, U, των ανεξαρτήτων συνιστωσών του μοντέλου το οποίο ήταν ίσο με το πλήθος των παρατηρούμενων μεταβλητών. Εν συνεχεία, επιλέχθηκαν από αυτό n ανεξάρτητες συνιστώσες (n U), πραγματοποιήθηκε αντίστροφος μετασχηματισμός (back projection) στο σύστημα με τις n ανεξάρτητες συνιστώσες και απευθείας εφαρμόστηκε το μέτρο CGCI στο νέο μετασχηματισμένο σύστημα. Κατά το 2 ο σενάριο, υπολογίστηκε εκ των προτέρων ο αριθμός n των ανεξαρτήτων συνιστωσών οι οποίες εξήχθησαν από την χρήση της ICA, (n U), και έπειτα εφαρμόστηκε απευθείας το μέτρο αιτιότητας CGCI σε αυτών τον αριθμό συνιστωσών. Οι επιλεχθείσες n ανεξάρτητες συνιστώσες, είναι οι n πρώτες συνιστώσες μετά των μετασχηματισμό ICA, η σειρά των οποίων προκύπτει από την εφαρμογή της EVD. Η EVD πραγματοποιείται κατά το στάδιο της προ-λεύκανσης (παράγραφος 2.4.2) και αμέσως μετά το στάδιο του κεντραρίσματος (παράγραφος 2.4.1). Τέλος, και στα 2 σενάρια εφαρμόστηκαν μέτρα δικτύου στα δημιουργηθέντα συστήματα ώστε να ελεγχθεί αν υπάρχει διατήρηση των χαρακτηριστικών του αρχικού συστήματος μετά την εφαρμογή της ICA. Η υλοποίηση των παραπάνω έγινε χρησιμοποιώντας το υπολογιστικό περιβάλλον του λογισμικού Matlab (R2014.a). Στην επόμενες παραγράφους παρουσιάζεται εκτενέστερα ο σχεδιασμός των εργασιών. -52-
53 7.2. Δημιουργία προσομοιωτικών δεδομένων και σχεδιασμός εργασιών Στην παρούσα εργασία, όπως προαναφέρθηκε, επιλέχθηκε να εξεταστούν πολυμεταβλητές χρονοσειρές. Αρχικά ορίστηκε το μήκος της πολυμεταβλητής χρονοσειράς σε 2048 (2 11 ) σημεία. Η δημιουργία του μοντέλου προϋποθέτει τη γνώση του πίνακα γειτνίασης (Adjacency Matrix), καθώς βάσει αυτού δημιουργήθηκαν τα VAR(1). Στους πίνακες γειτνίασης δόθηκε η δομή τριών διαφορετικών τύπων. Τα χαρακτηριστικά των πινάκων γειτνίασης δημιουργήθηκαν σύμφωνα με τα γενικά χαρακτηριστικών των δικτύων όπως αυτά παρουσιάζονται στη βιβλιογραφία. Έτσι για την περίπτωση του δικτύου small world (SW), ο πίνακας γειτνίασης δημιουργήθηκε ορίζοντας την πιθανότητα p=0.2 (Watts and Strogatz, 1998) και το βαθμό συνδέσεων ανά κόμβο ίσο με 4. Για το δίκτυο scale free (SCF), του οποίου ο βαθμός κατανομής στους κόμβους ακολουθεί κατανομή νόμου δύναμης (power law), ορίσθηκε γ=2,3 (Clauset et al., 2009). Τέλος, για τη δημιουργία του δικτύου τυχαίου τύπου (RAND), στο χρησιμοποιούμενο αλγόριθμό (Erdős Rényi model) η πιθανότητα p ορίστηκε (Barabási and Albert, 1999). Για τις ανάγκες της διεύρυνσης του πεδίου διεξήχθησαν 4 διαφορετικά σενάρια προσομοιώσεων πολυμεταβλητών χρονοσειρών για κάθε διαφορετικό τύπο δικτύου, τα οποία είναι: i) Εξέταση πολυμεταβλητής χρονοσειράς αποτελούμενη από 25 μεταβλητές (case 1). ii) Εξέταση πολυμεταβλητής χρονοσειράς αποτελούμενη από 25 μεταβλητές και ταυτοχρόνως από ένα δεύτερο δίκτυο 10 μεταβλητών το οποίο δεν έχει αλληλεπίδραση με το πρώτο (case 2). iii) Εξέταση πολυμεταβλητής χρονοσειράς αποτελούμενη από 25 μεταβλητές και ταυτοχρόνως 10 τυχαίες χρονοσειρές (λευκός θόρυβος) (case 3). iv) Εξέταση πολυμεταβλητής χρονοσειράς αποτελούμενη από 25 μεταβλητές και ταυτοχρόνως 10 τυχαίες χρονοσειρές οι οποίες παρουσιάζουν αυτοσυσχέτιση (case 4). Μετά τη δημιουργία των VAR(1) μοντέλων εφαρμόστηκε αρχικά ο CGCI και ελέγχθηκε κατά πόσο ο δείκτης μπορεί να προβλέψει σωστά την αιτιότητα. Εν συνεχεία, στα VAR(1) μοντέλα εφαρμόστηκε η μέθοδος FastICA (Gävert et al., 2005) και έγινε επιλογή του αριθμού των ανεξαρτήτων συνιστωσών. Στα δημιουργούμενα σύστημα ni ανεξαρτήτων συνιστωσών υπολογίστηκε το μέτρο της αιτιότητας κατά Granger. Τελικά, μετά την επεξεργασία των VAR(1) δημιουργήθηκαν οι πίνακες γειτνίασής των: -53-
54 Αρχικών χρονοσειρών. Μετασχηματισμένων χρονοσειρών μετά τη χρήση της ICA. Αντίστροφα μετασχηματισμένων χρονοσειρών μετά τη χρήση ICA. Στο Σχήμα 7-1 παρουσιάζεται το προσομοιωτικό διάγραμμα ροής του συστήματος μελέτης. Σχήμα 7-1 Διάγραμμα εργασιών προσομοιωτικής μελέτης. Εντός των διακεκομμένων γραμμών βρίσκονται τα 2 επιμέρους διαφορετικά σενάρια μελέτης -54-
55 Στους δημιουργηθέντες πίνακες γειτνίασης υπολογίστηκαν τα παρακάτω μέτρα δικτύου: assortativity 3, clustering coefficient, characteristic path length, global, betweenness centrality, edge betweenness centrality, mean degree, transitivity, modularity και small worldness. Οι παραπάνω εργασίες επαναλήφθηκαν 100 φορές σε κάθε περίπτωση μελέτης (case 1-4) Αποτελέσματα προσομοιώσεων Τα αποτελέσματα των προσομοιώσεων θα παρατεθούν σε 2 επιμέρους παραγράφους, μία για κάθε διαφορετικό σενάριο μελέτης. Αρχικά και τα δύο σενάρια μελέτης ακολουθούν την ίδια μεθοδολογία (Σχήμα 7-1). Έτσι, αρχικά εφαρμόστηκε η μεθοδολογία της παραγράφου 7.2 και δημιουργήθηκαν οι πίνακες γειτνίασης για τα 4 διαφορετικά σενάρια. Στο Σχήμα 7-2 παρουσιάζονται οι γράφοι μιας εκ των 100 επαναλήψεων, όπως αυτοί προέκυψαν από τους αντίστοιχους πίνακες γειτνίασης. Σχήμα 7-2 Αντιπροσωπευτικοί γράφοι δικτύων για την 1 η, 2 η, 3 η και 4 η περίπτωση μελέτης. a) αριστερά επάνω - 1 η περίπτωση: Δίκτυο 25 κόμβων, β) δεξιά επάνω 2 η περίπτωση: Δίκτυο 35 κόμβων - δύο γράφοι με 25 κόμβους και 10 κόμβους αντίστοιχα. γ) αριστερά κάτω 3 η περίπτωση: Δίκτυο 35 κόμβων. Οι δέκα κόμβοι αποτελούν λευκό θόρυβο. δ) δεξιά κάτω 4 η περίπτωση: Δίκτυο 35 κόμβων. Οι δέκα κόμβοι αποτελούν λευκό θόρυβο με αυτοσυσχέτιση. 3 Ο βαθμός του μέτρου assortavity υπολογίστηκε για τις περιπτώσεις (in,in), (in,out), (out,in) και (out,out). -55-
56 Με βάση τον πίνακα γειτνίασης δημιουργήθηκε το VAR(1) σύστημα το οποίο παράγει της πολυμεταβλητή χρονοσειρά σε κάθε περίπτωση μελέτης. Εφαρμόζοντας την FastICA, έγινε επεξεργασία της κάθε πολυμεταβλητής χρονοσειράς και δημιουργήθηκαν στην πρώτη περίπτωση 25 ανεξάρτητες συνιστώσες και στις υπόλοιπες 3 περιπτώσεις από 35. Σχήμα 7-3 Χρονοσειρές πολυμεταβλητού μοντέλου VAR(1) για την περίπτωση μελέτης 2, χρονοσειρές Σχήμα 7-4 Χρονοσειρές πολυμεταβλητού μοντέλου VAR(1) για την περίπτωση μελέτης 2, χρονοσειρές
57 η σειρά πειραμάτων χρήση αντίστροφο μετασχηματισμού Κατά την υλοποίηση του 1 ου συστήματος μελέτης, σε κάθε περίπτωση μελέτης (case 1 έως 4) επιλέχθηκαν n ανεξάρτητες συνιστώσες μικρότερου αριθμού από τον αριθμό των μεταβλητών του VAR(1) μοντέλου και εν συνεχεία πραγματοποιήθηκε αντίστροφος μετασχηματισμός. Για παραδείγματά στο «case 1», οι υπολογισθείσες συνιστώσες ήταν 25, όσες και ο μέγιστος αριθμός των μεταβλητών του VAR(1) μοντέλου και από αυτές επιλέχθηκαν οι 24. Στο μετασχηματισμένο σύστημα εφαρμόστηκε ο δείκτης αιτιότητας CGCI ώστε να συγκριθούν τα χαρακτηριστικά του αρχικού δικτύου με το νέο. Ωστόσο, ο υπολογισμός του μέτρου αιτιότητας κατέστη αδύνατος καθώς ο πίνακας γειτνίασης εμφάνισε σε όλες τις θέσεις του την τιμή μηδέν, πράγμα που συμβαίνει στο δείκτη CGCI όταν ο λογάριθμος της διασπορά δίνει τιμές που τείνουν στο μηδέν, CGCI XY ˆ ln 0, όπως έγινε στο ˆ υπό μελέτη σύστημα. Ειδικότερα, το φαινόμενο οφείλεται στο ότι η επιλογή λιγότερων ανεξαρτήτων συνιστωσών από ότι περιλαμβάνει το υπό μελέτη σύστημα πολυμεταβλητών χρονοσειρών τάξης 1 (VAR(1)), δηλαδή από τις παρατηρούμενες μεταβλητές, δημιουργεί ένα νέο σύστημα το οποίο εμπεριέχει γραμμικές εξαρτήσεις. Το παραπάνω ζήτημα ελέγχθηκε και εξετάστηκε σε νέο σύστημα με 6 παρατηρούμενες μεταβλητές. Έτσι, αρχικά δημιουργήθηκε ένα VAR(1) μοντέλο και σε αυτό εφαρμόστηκε αντίστροφος μετασχηματισμός. Κατά τον μετασχηματισμό αφαιρέθηκε μια από τις ανεξάρτητες συνιστώσες και εν συνεχεία έγινε εφαρμογή του CGCI. Τέλος, ελέγχθηκαν οι τιμές των συνδιακυμάνσεων και βρέθηκε ότι τιμές ˆ 2 ˆ ˆ r, ή 2 ˆ 2 2 r u u 1, οπότε CGCI X ˆ Y ln 0 ˆ, Κατά τον έλεγχο των τιμών επιβεβαιώθηκε ότι η τιμή του δείκτη CGCI έχει τιμές που είναι ή τείνουν στο μηδέν 4. Το διάγραμμα εργασιών της παραπάνω διαδικασίας παρουσιάζεται στο Σχήμα 7-5. Από την εκτύπωση των 30 πρώτων σημείων του VAR(1) μετασχηματισμένου μοντέλου γίνεται αντιληπτό ότι εμφανίζονται γραμμικές εξαρτήσεις. Το φαινόμενο αυτό παρουσιάζεται στο Σχήμα 7-7 και ειδικότερα κατά τις χρονικές στιγμές 5 έως 7 αλλά και 27 έως 29, όπου οι Υ 1, Υ 3 και Υ 4 μετασχηματισμένες μεταβλητές ακολουθούν την ίδια τάση. Η γραμμική εξάρτηση μεταξύ των παρατηρούμενων μεταβλητών Υ 1 και Υ 3 παρουσιάζεται στο Σχήμα r 2 u 2 r 2 u 4 Οι τιμές αυτές έχουν εύρος μεταξύ και
58 Σχήμα 7-5 Διαδικασία αντίστροφου μετασχηματισμού (back projection) για το εξεταζόμενο μοντέλο VAR(1) μοντέλο, 6 παρατηρούμενων μεταβλητών. Σχήμα 7-6 Χρονοσειρά VAR(1), μεταβλητές Υ1 και Υ3, στιγμιότυπο για τις χρονικές στιγμές από 1 έως
59 Σχήμα 7-7 Χρονοσειρά VAR(1), 6 παρατηρούμενες μεταβλητές, στιγμιότυπο για τις χρονικές στιγμές από 1 έως 30 Σχήμα 7-8 Χρονοσειρά μοντέλου VAR(1) μετά την εφαρμογή της ICA, 6 παρατηρούμενες μεταβλητές, στιγμιότυπο για τις χρονικές στιγμές από 1 έως
60 η σειρά πειραμάτων προεπιλογή ανεξαρτήτων συνιστωσών Στο δεύτερο κύκλο πειραμάτων έγινε εκ νέου μελέτη σε προσομοιωτικά δεδομένα επιλέγοντας εκ των προτέρων από την FastICA τον αριθμό των ανεξαρτήτων συνιστωσών που θα προέκυπταν. Κατά το στάδιο αυτό επιλέχθηκε ο αριθμός των ανεξαρτήτων συνιστωσών μετά από εφαρμογή της EDV. Στα αποτελέσματα εφαρμόστηκε το μέτρο CGCI και στο δημιουργούμενο πίνακα γειτνίασης εφαρμόστηκαν 15 μέτρα δικτύου. Ως ελάχιστο μέγεθος ανεξαρτήτων συνιστωσών ορίστηκαν οι 9 ενώ ως μέγιστος όσες και οι παρατηρούμενες μεταβλητές του εκάστοτε VAR(1) μοντέλου. Παρακάτω παρουσιάζονται τα αποτελέσματα της 3 ης περίπτωσης μελέτης όπου ο πίνακας γειτνίασης έχει δομή δικτύου scale free. Πιο συγκεκριμένα για την 3 η περίπτωση μελέτης, όπου υπενθυμίζεται ότι είναι η περίπτωση του δικτύου 35 κόμβων εκ των οποίων οι 10 είναι λευκός θόρυβος, παρατίθενται οι γράφοι όπως προέκυψαν από τους πίνακες γειτνίασης για τις περιπτώσεις όπου επιλέχθηκαν 10, 15, 20, 25, 30 και 35 ανεξάρτητες μεταβλητές. Σχήμα 7-9 Αριστερά γράφος τύπου Scale Free ο οποίος χρησιμοποιήθηκε για την κατασκευή του πολυμεταβλητού μοντέλου χρονοσειρών VAR(1) και δεξιά ο γράφος που προέκυψε από την εφαρμογή του CGCI στο VAR μοντέλο. Όπως διακρίνεται από το Σχήμα 7-9 ο δείκτης της αιτιότητας CGCI στο παρόν σύστημα μελέτης δημιουργεί περισσότερες συνδέσεις από αυτές που υπήρχαν στο αρχικό γράφο (original) και δε μπορεί να εντοπίσει το λευκό θόρυβο ο οποίος έχει εισαχθεί στο VAR μοντέλο (arsim). Στα διαγράμματα των αποτελεσμάτων αυτού του κεφαλαίου ο πίνακα γειτνίασης ο οποίoς χρησιμοποιήθηκε αρχικά για να δημιουργηθεί το VAR μοντέλο θα αναφέρεται ως original και το μοντέλο VAR ως arsim. -60-
61 i ii iii iv v vi Σχήμα 7-10 Γράφοι μεγέθους i) 10, ii) 15, iii) 20, iv) 25, v)30, vi) 35 ανεξαρτήτων συνιστωσών. Από το Σχήμα 7-10 γίνεται αντιληπτό ότι τα χαρακτηριστικά του δικτύου επηρεάζονται από τον αριθμό των ανεξαρτήτων συνιστωσών. Στην παρούσα μελέτη, η αύξηση των επιλεχθέντων ανεξαρτήτων συνιστωσών συνεπάγεται και αύξηση των συνδέσεων μεταξύ των κόμβων του δικτύου. Για το συγκεκριμένο σύστημα παρατίθενται παρακάτω 15 μέτρα δικτύου. -61-
62 i ii iii iv Σχήμα 7-11 Αποτελέσματα μέτρων δικτύου στο μετασχηματισμένο συστήματα, για διαφορετικό αριθμό ανεξαρτήτων συνιστωσών (άξονας Χ): i) characteristic path length, ii) global cluster coefficient, iii) global efficiency, iv) mean between centrality, v) mean degree και vi) standard deviation degree Από το Σχήμα 7-11 παρατηρείται ότι τα μέτρα characteristic path length και global efficiency παραμένουν στα ίδια επίπεδα τιμών κατά την επιλογή διαφορετικού αριθμού ICA ενώ οι τιμές του αρχικού γράφου είναι σε διαφορετικά επίπεδα. Το μέτρο clustering coefficient μας δείχνει ότι ο αριθμός των κόμβων τριγώνων μειώνεται με την αύξηση των ICA και τέλος τα μέτρα mean degree, standard deviation degree και betweenness centrality αυξάνονται με την αύξηση των ICA. v axis x: selected number of independent components vi -62-
63 i ii iii iv v vi Σχήμα 7-12 Αποτελέσματα μέτρων δικτύου στο μετασχηματισμένο συστήματα, για διαφορετικό αριθμό ανεξαρτήτων συνιστωσών (άξονας Χ): i) mean edge between centrality, ii) modularity, iii) assortativity rdeg(in,in), iv) assortativity rdeg (in,out), v) assortativity rdeg (out,in), και vi) assortativity rdeg(out,out) Τα αποτελέσματα του μέτρο mean edge between centrality και modularity παραμένουν σταθερά σε όλες τις περιπτώσεις κατά την αύξηση του αριθμού των ICA, ενώ το μέτρο assortativity και για τις περιπτώσεις rdeg(in,in), rdeg(in,out), rdeg(out,in) και rdeg(out,out) παρουσιάζει αυξομειώσεις μεταξύ της τιμής -0,3 και 0,3. axis x: selected number of independent components -63-
64 i ii Σχήμα 7-13 Αποτελέσματα μέτρων δικτύου στο μετασχηματισμένο συστήματα, για διαφορετικό αριθμό ανεξαρτήτων συνιστωσών (άξονας Χ): i) small worldness, ii) assortativity rdeg(und) και iii) transitivity Ratio BU Το μέτρο transitivity (Σχήμα 7-13, iii) ακολουθεί φθίνουσα πορεία με την αύξηση των επιλεχθέντων ICA και έρχεται σε συμφωνία με το μέτρο clustering coefficient (Σχήμα 7-11, ii) δείχνοντας επίσης ότι ο αριθμός των τριγώνων μειώνεται αντίστροφα, ανάλογα με τον αριθμό των ICA. Το μέτρο small worldness δεν εμφανίζει κάποια τάση. Για το γράφο που προέκυψε από το VAR μοντέλο έπειτα από την εφαρμογή του CGCI και για τον γράφο που δημιουργήθηκε αρχικά για την κατασκευή του VAR μοντέλου η τιμή είναι μηδέν, ενώ για τις υπόλοιπες περιπτώσεις η τιμή κυμαίνεται γύρω από την μονάδα, όπου η τιμή αυτή κατηγοριοποιεί εάν το δίκτυο έχει χαρακτηριστικά small-world (Telesford et al., 2011). Η διαδικασία επαναλήφθηκε εκατό φορές για τις 4 περιπτώσεις μελέτης (case από 1 έως 4) ώστε να βρεθεί η συνέπεια των μέτρων σε κάθε περίπτωση. Στα επόμενα διαγράμματα παρουσιάζονται τα αποτελέσματα των τιμών των μέτρων από τις προσομοιώσεις και η τυπική τους απόκλιση. iii axis x: selected number of independent components -64-
65 i ii iii iv v vi Σχήμα 7-14 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICs, i) characteristic path length, ii) global cluster coefficient, iii) global efficiency, iv) mean between centrality, v) mean degree και vi) standard deviation degree. Από το Σχήμα 7-14 παρατηρείται ότι τα διαγράμματα των μέτρων (case 2) έχουν την ίδια τάση με την μεμονωμένη περίπτωση μελέτης, όπου παρατέθηκε προηγουμένως. Τα μέτρα characteristic path length και global efficiency παραμένουν σε σταθερή τιμή κατά την επιλογή διαφορετικού αριθμού ICA και μεταβλητότητα που μειώνεται με την αύξηση των ICA ενώ οι τιμές του αρχικού γράφου και του γράφου από το VAR μοντέλο είναι σε παρόμοια επίπεδα μεταξύ τους. -65-
66 \ i ii iii iv v vi Σχήμα 7-15 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICs, i) mean edge between centrality, ii) modularity, iii) assortativity rdeg(in,in), iv) assortativity rdeg(in,out), v) assortativity rdeg(out,in), και vi) assortativity rdeg(out,out) Για την 2 η περίπτωση μελέτης (case 2), το μέτρο clustering coefficient, (Σχήμα 7-14, ii) δείχνει ότι ο αριθμός των τριγώνων γύρω από ένα κόμβο παραμένει σταθερός. Επιπλέον τα μέτρα mean degree, standard deviation degree και betweenness centrality αυξάνονται με την αύξηση των ICA. Ομοίως, στο Σχήμα 7-15, στα επιμέρους διαγράμματα (iii,iv,vi και vi), και στο Σχήμα 7-16, -66-
67 στο επιμέρους διάγραμμα (iii), φαίνεται ότι η τιμή του Assortativity είναι κυρίως αρνητική πράγμα το οποίο δηλώνει ότι οι κόμβοι δεν έχουν την τάση να συνδεθούν με άλλους κόμβους με βαθμό assortativity ίδιας ή παρόμοιας τάξης (Noldus and Van Mieghem, 2015). i ii iii Σχήμα 7-16 Αποτελέσματα μέτρων δικτύου για τις 4 διαφορετικές περιπτώσεις, για τον αρχικό γράφο, το VAR μοντέλο και την επιλογή διαφορετικού αριθμού ICs,i) small worldness, ii) assortativity rdeg(und) και iii) transitivity Ratio BU. Από το Σχήμα 7-16 (ii) γίνεται αντιληπτό πως το μέτρο του small worldness έχει για όλες τις περιπτώσεις επιλογής ICs μέση τιμή μονάδα ενώ ο αρχικός γράφος και το σύστημα VAR έχουν τιμή κάτω από την μονάδα ή κοντά στο μηδέν, πράγμα το οποίο είναι αναμενόμενο καθώς ο αρχικός γράφος είναι τύπου scale free. Εξετάζοντας τις 4 διαφορετικές περιπτώσεις μεταξύ τους (case 1,2,3 και 4) για τύπο αρχικού δικτύου scale free παρατηρούμε από σχήματα 7-14, 7-15 και 7-16 ότι δεν υπάρχουν σημαντικές διαφορές στις τάσεις των μέτρων στα διαγράμματα. Τα διαγράμματα των τεσσάρων περιπτώσεων για τους τύπους δικτύου small world και random εμφανίζουν παρόμοια συμπεριφορά όπως αυτή που παρουσιάστηκε παραπάνω και δεν εμφανίζουν κανένα ιδιαίτερο ενδιαφέρον. Τα διαγράμματα τους παρατίθενται στο παράρτημα. -67-
68 8. Εφαρμογή σε πραγματικά δεδομένα Στο κεφάλαιο αυτό θα παρουσιαστεί η εφαρμογή της μεθόδου των ανεξαρτήτων συνιστωσών και η εφαρμογή του μέτρου αιτιότητας κατά Granger σε πραγματικά δεδομένα προερχόμενα από ηλεκτροεγκεφαλογράφημα ασθενούς ο οποίος πάσχει από επιληψία. Η επιληψία αποτελεί ένα σύνολο από διαφορετικών ασθενειών/διαταραχών που έχουν ως κοινό σημείο τους επαναλαμβανόμενους παροξυσμούς με αιφνίδια, υπέρμετρη και ανώμαλη εκφόρτιση εγκεφαλικών νευρώνων (Fisher et al., 2005) και είναι μία πάθηση η οποία μελετάται από τους επιστήμονες ώστε να μπορεί να αντιμετωπισθεί εγκαίρως και αποτελεσματικά, με σκοπό τη βελτίωση της ποιότητας ζωής των ασθενών που πάσχουν από αυτή. Η ανάλυση θα γίνει σε δεδομένα σήματος το οποίο λαμβάνεται από ηλεκτρόδια τοποθετούμενα στο κρανίο ασθενών, δηλαδή από ήλεκτρο-εγκεφαλογράφημα. Στην παρούσα φάση της μελέτης θα εφαρμοστεί η μεθοδολογία όπως αυτή παρουσιάστηκε στην παράγραφό 7.2 (2 ο σύστημα μελέτης ) με απώτερο σκοπό να γίνει διάκριση της φάσης πριν την κρίση (pre-ictal) και κατά τη διάρκεια της κρίσης (ictal) επιληψίας. Επιπλέον, μέσα από την ανάλυση επιδιώκεται να απαντηθεί το ερώτημα του καταλλήλου αριθμού των ανεξαρτήτων συνιστωσών ο οποίος είναι ικανός να ξεχωρίσει την κρίση επιληψίας από δεδομένα καταγραφής. Τέλος, για τη διάκριση των δύο φάσεων θα εφαρμοστούν επιπλέον oι έλεγχοι t-test και AUROC. Στις επόμενες ενότητες θα γίνει παρουσίαση του προβλήματος μελέτης, του υπολογιστικού μέρους της εργασίας και των αποτελεσμάτων της Πειρατικά δεδομένα και επεξεργασία Τα δεδομένα μελέτης προέρχονται από τη βάση δεδομένων του PhysionNet ( (Goldberger et al., 2000) και ειδικότερα το επιλεχθέν σήμα ανήκει στη βάση δεδομένων του νοσοκομείου παίδων της Βοστώνης. Στην εν λόγω βάση δεδομένων έχουν καταγραφεί 23 περιστατικά από 22 ασθενείς (5 αγόρια ηλικίας 3 έως 22 ετών και 15 κορίτσια ηλικίας 1.5 έως 19 ετών). Για την παρούσα εργασία, επιλέχθηκε το σήμα που αφορά τον ασθενή με κωδικό chb08 (αγόρι, 3.5 ετών), στο οποίο έχουν διεξαχθεί 29 καταγραφές. Από τις 29 καταγραφές επιλέχθηκε η 13 η. Ο λόγος που επιλέχθηκε εν λόγω σήμα ήταν η αυξημένη διάρκεια του σε σχέση με τα άλλα διαθέσιμα σήματα της βάσης. -68-
69 Το σήμα προέρχεται από καταγραφή 23 ηλεκτροδίων 5 τα οποία έχουν τοποθετηθεί σε κατάλληλες θέσεις ώστε να λαμβάνεται το σήμα από τα ζητούμενα κανάλια. Τα κανάλια αυτά αντιστοιχούν σε προκαθορισμένες θέσεις βάσει του διεθνούς συστήματος για την καταγραφή ήλεκτρο-εγκεφαλογραφημάτων για πειράματα. Οι θέσεις των ηλεκτροδιών του επιλεχθέντος σήματος αναφέρεται και ως περιοχή ενδιαφέροντος (Region Of Interest). Οι χρησιμοποιούμενες θέσεις από τις οποίες προήλθε το σήμα επεξεργασίας παρουσιάζονται στο πίνακα 8-1 και τα σημεία συνδέσεων μπορούν να εντοπισθούν στο Σχήμα 8-1. Περισσότερες πληροφορίες του τρόπου δειγματοληψίας και των συνθηκών καταγραφής του σήματος βρίσκονται διαθέσιμα στη μελέτη των Goldberger et al. (2000). Τα εγκεφαλογραφήματα εμφανίζουν την μορφή του σχήματος Σχήμα 8-2. Πίνακας 8-1 Αριθμός και θέση χρησιμοποιούμενου καναλιού στην περιοχή ενδιαφέροντος Αριθμός καναλιού Κωδικός θέσης Αριθμός καναλιού Κωδικός θέσης 1 FP1-F7 13 FP2-F8 2 F7-T7 14 F8-T8 3 T7-P7 15 T8-P8 4 P7-O1 16 P8-O2 5 FP1-F3 17 FZ-CZ 6 F3-C3 18 CZ-PZ 7 C3-P3 19 P7-T7 8 P3-O1 20 T7-FT9 9 FP2-F4 21 FT9- FT10 10 F4-C4 22 FT10-T8 11 C4-P4 23 T8-P8 12 P4-O2 Σχήμα 8-1Διεθνές σύστημα καναλιών δειγματοληψίας εγκεφαλογαφημάτων ( Το σήμα καταγραφής είχε διάρκεια 60 λεπτά. Ωστόσο, η ανάλυση των δεδομένων πραγματοποιήθηκε σε χρονικό παράθυρο 3 λεπτών πριν την κρίση και 3 λεπτών κατά τη διάρκεια της κρίσης. Η δειγματοληψία του σήματος καταγραφής έγινε με συχνότητα 256 Hz. Ωστόσο, στην παρούσα εργασία έγινε υποδειγματοληψία (downsampling) του σήματος στα 100Hz. Το τελικό σήμα προς επεξεργασία αποτελούνταν από στιγμιότυπα. Το δείγμα αυτό χωρίστηκε σε 2 5 Σημειώνεται ότι κανάλι 15 είναι όμοιο με το 23 οπότε και στην πραγματικότητα αναλύονται 22 κανάλια. -69-
70 μέρη. Το πρώτο περιλαμβάνει το χρόνο πριν και το δεύτερο κατά τη διάρκεια της κρίσης (pre-ictal και ictal αντιστοίχως) και επιπλέον κάθε μέρος από αυτά χωρίστηκε σε επιμέρους 10 τμήματα. Σχήμα 8-2 Σήματα καταγραφής από τα παρατηρούμενα κανάλια. Στη μαύρη έντονη γραμμή ξεκινάει η κρίση (Goldberger et al., 2000). Εν συνεχεία στα 20 δημιουργηθέντα τμήματα του σήματος (10 πριν την κρίση και 10 κατά τη διάρκεια της κρίσης), στο καθένα ξεχωριστά, εφαρμόστηκε η μέθοδος FastICA. Ο ελάχιστος αριθμός ανεξαρτήτων συνιστωσών για τον οποίο εφαρμόστηκε η ακολουθούμενη μεθοδολογία ήταν 8 ενώ ο μέγιστος 22. Έτσι, σε κάθε ένα από 20 τμήματα δημιουργήθηκαν 16 περιπτώσεις (15 διαφορετικοί συνδυασμοί ανεξαρτήτων συνιστωσών και 1 το αρχικό σήμα) οι οποίες και μελετήθηκαν. Σε κάθε τμήμα εφαρμόστηκε το μέτρο CGCI και ακολούθως στο πίνακα γειτνίασης εφαρμόστηκαν τα μέτρα δικτύου. Στα αποτελέσματα των μέτρων δικτύων για τα δείγματα preictal και ictal πραγματοποιήθηκε έλεγχος υποθέσεων t-test έτσι ώστε να εξεταστεί η ύπαρξη -70-
71 στατιστικών σημαντικών διαφορών. Εν συνεχεία, η ικανότητα των μέτρων δικτύων να διακρίνουν τις 2 αυτές καταστάσεις (pre-ictal και ictal) αξιολογήθηκε με την AUROC. Ο ελάχιστος αριθμός ανεξαρτήτων συνιστωσών για τον οποίο εφαρμόστηκε η ακολουθούμενη μεθοδολογία ήταν 8. Έτσι συνολικά μελετήθηκε η περίπτωση του αρχικού σήματος και οι περιπτώσεις όπου το μετασχηματισμένο σύστημα περιέχει από 8 έως 22 ανεξάρτητες μεταβλητές. Η ακολουθούμενη μεθοδολογία παρουσιάζεται στο Σχήμα 8-3. Σχήμα 8-3 Διάγραμμα εργασιών ανάλυση δεδομένων εγκεφαλογραφήματος από ασθενή με κρίση επιληψίας. Τα αποτελέσματα της μελέτης του δείγματος παρουσιάζονται στην επόμενη παράγραφο. -71-
7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ
7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ 1 Principal & Independent Component Analysis (PCA, ICA) PRINCIPAL COMPONENT ANALYSIS (PCA) Principal Component Analysis (PCA): ορθογώνιος μετασχηματισμός κατά τον οποίο αφαιρείται
HMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ Δ.Π.Μ.Σ. ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΑΝΑΛΥΣΗΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ Δ.Π.Μ.Σ. ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΑΝΑΛΥΣΗΣ ΑΝΕΞΑΡΤΗΤΩΝ ΚΥΡΙΑΡΧΩΝ ΣΥΝΙΣΤΩΣΩΝ (INDEPENDENT COMPONENT ANALYSIS)
Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή
Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,
HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2
HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Θεωρία πιθανοτήτων Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (αντίθετα με τις ντετερμινιστικές μεταβλητές)
Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)
Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός
Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1
Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές
Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»
Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία
E[ (x- ) ]= trace[(x-x)(x- ) ]
1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού
ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)
ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr
Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας
Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.
27-Ιαν-2009 ΗΜΥ 429. 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό
ΗΜΥ 429 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό 1 (i) Βασική στατιστική 2 Στατιστική Vs Πιθανότητες Στατιστική: επιτρέπει μέτρηση και αναγνώριση θορύβου και
ΠΩΣ ΕΠΗΡΕΑΖΕΙ Η ΜΕΡΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ ΤΙΣ ΑΠΟΔΟΣΕΙΣ ΤΩΝ ΜΕΤΟΧΩΝ ΠΡΙΝ ΚΑΙ ΜΕΤΑ ΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΡΙΣΗ
Σχολή Διοίκησης και Οικονομίας Κρίστια Κυριάκου ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΜΠΟΡΙΟΥ,ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΝΑΥΤΙΛΙΑΣ Της Κρίστιας Κυριάκου ii Έντυπο έγκρισης Παρουσιάστηκε
Περιεχόμενα. Πρόλογος... 15
Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...
ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ
ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ 1. ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: Προχωρημένη Στατιστική 2. ΠΕΡΙΓΡΑΜΜΑ ΕΙΣΗΓΗΣΕΩΝ
iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος
iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,
Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,
Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διπλωματική Εργασία
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ Διπλωματική Εργασία του Φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και
Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης
Ψηφιακές Τηλεπικοινωνίες Βέλτιστος Δέκτης Σύνδεση με τα Προηγούμενα Επειδή το πραγματικό κανάλι είναι αναλογικό, κατά τη διαβίβαση ψηφιακής πληροφορίας, αντιστοιχίζουμε τα σύμβολα σε αναλογικές κυματομορφές
ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ
1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού
ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 3 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29
ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 Μεταβλητές...5 Πληθυσμός, δείγμα...7 Το ευρύτερο γραμμικό μοντέλο...8 Αναφορές στη βιβλιογραφία... 11 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 Περίληψη... 13 Εισαγωγή... 13 Με μια ματιά...
Μάθημα 5-6: Στάσιμες πολυμεταβλητές χρονοσειρές και μοντέλα Διασυσχέτιση Διανυσματικά αυτοπαλίνδρομα μοντέλα Δίκτυα από πολυμεταβλητές χρονοσειρές
Μάθημα 5-6: Στάσιμες πολυμεταβλητές χρονοσειρές και μοντέλα Διασυσχέτιση Διανυσματικά αυτοπαλίνδρομα μοντέλα Δίκτυα από πολυμεταβλητές χρονοσειρές Αιτιότητα κατά Granger Ασκήσεις Ανάλυση μονομεταβλητής
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται
Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17
Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7ο μάθημα: Πολυμεταβλητή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
HMY 799 1: Αναγνώριση Συστημάτων
HMY 799 : Αναγνώριση Συστημάτων Διάλεξη Στοχαστικές Τυχαίες Μεταβλητές/ Στοχαστικά Σήματα Πειραματικά δεδομένα >Επιλογή τύπου μοντέλου >Επιλογή κριτηρίου >Υπολογισμός >Επικύρωση Προσαρμογή καμπύλης (Curve
HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)
HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 5: Στοχαστικά/Τυχαία Σήματα Διακριτού Διάλεξη 5: Στοχαστικά/Τυχαία Σήματα Διακριτού Χρόνου (Ι) Στοχαστικά σήματα Στα προηγούμενα: Ντετερμινιστικά
ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2
ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 5.4: Στατιστικοί Μέσοι Όροι 5.5 Στοχαστικές Ανελίξεις (Stochastic Processes)
Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)
Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2) Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα,
Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.
Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ περισσότερων από δύο ανεξάρτητων δειγμάτων, που διαχωρίζονται βάσει ενός ανεξάρτητου παράγοντα (Ανάλυση διακύμανσης για ανεξάρτητα δείγματα ως προς
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της
ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71
ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα
ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ
Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 18 ου Πανελληνίου Συνεδρίου Στατιστικής (2005) σελ.247-256 ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ ΣΥΜΠΤΩΣΕΩΝ
Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών
Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Π E Ρ IEXOMENA Πρόλογος... xiii ΜΕΡΟΣ ΠΡΩΤΟ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ 1.1 Εισαγωγή... 3 1.2 Ορισµός και αντικείµενο της στατιστικής... 3
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Διπλωματική Εργασία της φοιτήτριας του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ: ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία της φοιτήτριας
E [ -x ^2 z] = E[x z]
1 1.ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτήν την διάλεξη θα πάμε στο φίλτρο με περισσότερες λεπτομέρειες, και θα παράσχουμε μια νέα παραγωγή για το φίλτρο Kalman, αυτή τη φορά βασισμένο στην ιδέα της γραμμικής
Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.
Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δειγμάτων, που διαχωρίζονται βάσει ενός επαναλαμβανόμενου και ενός ανεξάρτητου παράγοντα (Ανάλυση διακύμανσης για εξαρτημένα δείγματα ως προς δύο παράγοντες,
Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική
Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR
HMY 220: Σήματα και Συστήματα Ι
HMY 220: Σήματα και Συστήματα Ι Διδάσκων: Γεώργιος Μήτσης, Λέκτορας, Τμήμα ΗΜΜΥ Γραφείο: 401 Πράσινο Άλσος Ώρες γραφείου: Οποτεδήποτε (κατόπιν επικοινωνίας) Ηλ. Ταχ.: : gmitsis@ucy.ac.cy Ιωάννης Τζιώρτζης
ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13
ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα
ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ
ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ 1.1 Πίνακες, κατανομές, ιστογράμματα... 1 1.2 Πυκνότητα πιθανότητας, καμπύλη συχνοτήτων... 5 1.3
ΜΑΘΗΜΑ 3ο. Βασικές έννοιες
ΜΑΘΗΜΑ 3ο Βασικές έννοιες Εισαγωγή Βασικές έννοιες Ένας από τους βασικότερους σκοπούς της ανάλυσης των χρονικών σειρών είναι η διενέργεια των προβλέψεων. Στα υποδείγματα αυτά η τρέχουσα τιμή μιας οικονομικής
Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017
Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης
Γκούσκου Μαρία του Διονυσίου-Αναστασίου Αριθμός Μητρώου: Θέμα «Υλοποίηση του αλγορίθμου FAST-ICA στον μικροελεγκτή ADuC7020»
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ: ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία της φοιτήτριας
ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ
ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ ΜΑΜΜΑΣ ΚΩΝ/ΝΟΣ ΑΜ:331/2003032 ΝΟΕΜΒΡΙΟΣ 2010 Ευχαριστίες Σε αυτό το σημείο θα ήθελα να ευχαριστήσω όλους όσους με βοήθησαν να δημιουργήσω την παρούσα
Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:
Άσκηση 1: Δύο τυχαίες μεταβλητές Χ και Υ έχουν στατιστικές μέσες τιμές 0 και διασπορές 25 και 36 αντίστοιχα. Ο συντελεστής συσχέτισης των 2 τυχαίων μεταβλητών είναι 0.4. Να υπολογισθούν η διασπορά του
ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19
ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα
Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα
Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια
Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100
Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς
Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης
Πιθανότητες & Τυχαία Σήματα Διγαλάκης Βασίλης Τυχαία Σήματα Γενίκευση τυχαίων διανυσμάτων Άπειρο σύνολο πιθανά αριθμήσιμο από τυχαίες μεταβλητές Παραδείγματα τυχαίων σημάτων: Τηλεπικοινωνίες: Σήμα πληροφορίας
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Αριάδνη Αργυράκη ΣΤΑΔΙΑ ΕΚΤΕΛΕΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΓΕΩΧΗΜΙΚΩΝ ΕΡΕΥΝΩΝ 1.ΣΧΕΔΙΑΣΜΟΣ: - Καθορισμός στόχων έρευνας - Ιστορικό περιοχής 2 4.
ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29
ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 Μεταβλητές...5 Πληθυσμός, δείγμα...7 Το ευρύτερο γραμμικό μοντέλο...8 Αναφορές στη βιβλιογραφία... 11 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 Περίληψη... 13 Εισαγωγή... 13 Με μια ματιά...
HMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διαλέξεις 5 6 Principal component analysis EM for Gaussian mixtures: μ k, Σ k, π k. Ορίζουμε το διάνυσμα z (διάσταση Κ) ώστε K p( x θ) = π ( x μ, Σ ) k = k k k Eκ των υστέρων
5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο
5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο Ένα εναλλακτικό μοντέλο της απλής γραμμικής παλινδρόμησης (που χρησιμοποιήθηκε
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 5: Ανάλυση γραμμικού υποδείγματος Πολυμεταβλητή παλινδρόμηση (1 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: ageliki.papaa@gmail.com, agpapaa@auth.gr Webpage: http://users.auth.gr/agpapaa
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για
Επιστημονικοί Υπολογισμοί (ή Υπολογιστική Επιστήμη)
Επιστημονικοί Υπολογισμοί (ή Υπολογιστική Επιστήμη) Ασχολoύνται με την κατασκευή μαθηματικών μοντέλων και με τεχνικές ποσοτικής ανάλυσης και τη χρήση υπολογιστών για την ανάλυση και την επίλυση επιστημονικών
Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων
ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 5 : Θόρυβος Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Ομιλίας Είδη θορύβου Περιγραφή θορύβου Θεώρημα Shannon Hartley Απόδοση ισχύος και εύρους
Αν έχουμε δύο μεταβλητές Χ και Υ και σύμφωνα με την οικονομική θεωρία η μεταβλητή Χ προσδιορίζει τη συμπεριφορά της Υ το ερώτημα που τίθεται είναι αν
ΜΑΘΗΜΑ 12ο Αιτιότητα Ένα από τα βασικά προβλήματα που υπάρχουν στην εξειδίκευση ενός υποδείγματος είναι να προσδιοριστεί η κατεύθυνση που μία μεταβλητή προκαλεί μία άλλη σε μία εξίσωση παλινδρόμησης. Στην
HMY 799 1: Αναγνώριση Συστημάτων
HMY 799 : Αναγνώριση Συστημάτων Διάλεξη Γραμμική παλινδρόμηση (Linear regression) Εμπειρική συνάρτηση μεταφοράς Ομαλοποίηση (smoothing) Y ( ) ( ) ω G ω = U ( ω) ω +Δ ω γ ω Δω = ω +Δω W ( ξ ω ) U ( ξ) G(
Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή
Χρονικές σειρές 12 Ο μάθημα: Έλεγχοι στασιμότητας ΑΝΑΚΕΦΑΛΑΙΩΣΗ: Εκτίμηση παραμέτρων γραμμικών μοντέλων Συνάρτηση μερικής αυτοσυσχέτισης Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΑΝΑΠΤΥΞΗ ΕΙΚΟΝΙΚΗΣ ΠΛΑΤΦΟΡΜΑΣ ΠΡΟΣΟΜΟΙΩΣΗΣ ΤΗΣ ΠΑΡΑΜΟΡΦΩΣΗΣ ΑΝΘΡΩΠΙΝΟΥ ΗΠΑΤΟΣ ΜΕ ΤΗ ΧΡΗΣΗ ΑΠΤΙΚΟΥ ΜΕΣΟΥ Δηµήτρης Δούνας
Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας
A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΟΝ ΕΝΤΟΠΙΣΜΟ ΓΕΩΧΗΜΙΚΗΣ ΑΝΩΜΑΛΙΑΣ Στατιστική ανάλυση του γεωχημικού δείγματος μας δίνει πληροφορίες για τον
Ανάλυση πινάκων συμ-μεταβλητοτήτων σε παραμετρικές συνιστώσες
Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2017-2018 Ανάλυση πινάκων συμ-μεταβλητοτήτων σε παραμετρικές συνιστώσες Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων και Τοπογράφων Μηχανικών
Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες
Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού
Ψηφιακές Τηλεπικοινωνίες. Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση
Ψηφιακές Τηλεπικοινωνίες Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση Σύνδεση με τα Προηγούμενα Σχεδιάστηκε ο βέλτιστος δέκτης για κανάλι AWGN Επειδή πάντοτε υπάρχει ο θόρυβος, ακόμη κι ο βέλτιστος δέκτης
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών
Μεταπτυχιακή διατριβή Η ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΗ ΕΠΙΔΡΑΣΗ ΑΠΟ ΔΙΑΤΑΡΑΧΕΣ ΤΩΝ ΤΙΜΩΝ ΤΟΥ ΠΕΤΡΕΛΑΙΟΥ ΣΕ ΧΩΡΕΣ ΠΟΥ ΕΙΣΑΓΟΥΝ ΚΑΙ ΕΞΑΓΟΥΝ ΠΕΤΡΕΛΑΙΟ
Μεταπτυχιακή διατριβή Η ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΗ ΕΠΙΔΡΑΣΗ ΑΠΟ ΔΙΑΤΑΡΑΧΕΣ ΤΩΝ ΤΙΜΩΝ ΤΟΥ ΠΕΤΡΕΛΑΙΟΥ ΣΕ ΧΩΡΕΣ ΠΟΥ ΕΙΣΑΓΟΥΝ ΚΑΙ ΕΞΑΓΟΥΝ ΠΕΤΡΕΛΑΙΟ Αδαμαντία Γεωργιάδου Λεμεσός, Μάιος 2017 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ
Χρονοσειρές - Μάθημα 7. Μη-γραμμική ανάλυση χρονοσειρών
Χρονοσειρές - Μάθημα 7 Μη-γραμμική ανάλυση χρονοσειρών Γραμμική ανάλυση / Γραμμικά μοντέλα αυτοσυσχέτιση AR μοντέλο ARMA(p,q) μοντέλο x x px p z z z q q Πλεονεκτήματα:. Απλά 2. Κανονική διαδικασία, ανεπτυγμένη
Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ
Αναγνώριση Προτύπων Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern Recognition A Matlab Approach, S. Theodoridis,
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα
Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής
Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2016-2017 Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής (Least squares collocation) Χριστόφορος
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης
Αναλυτική Στατιστική
Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ
A εξάμηνο 2009-2010 ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ Μεθοδολογία Έρευνας και Στατιστική ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Χειμερινό Εξάμηνο 2009-2010 Ποιοτικές και Ποσοτικές
Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής
Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2018-2019 Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής (Least squares collocation) Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 13: Επανάληψη Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1 Γιατί μελετούμε την Οικονομετρία;
Στοχαστικές Ανελίξεις (2) Αγγελική Αλεξίου
Στοχαστικές Ανελίξεις (2) Αγγελική Αλεξίου alexiou@unipi.gr 1 Στοχαστικές Διαδικασίες 2 Στοχαστική Διαδικασία Στοχαστικές Ανελίξεις Α. Αλεξίου 3 Στοχαστική Διαδικασία ως συλλογή από συναρτήσεις χρόνου
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΠΙΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΜΕΤΑΔΟΣΗΣ ΣΕ ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ ΜΕ ΣΥΣΚΕΥΕΣ ΔΙΑΚΡΙΤΩΝ ΤΙΜΩΝ ΙΣΧΥΟΣ ΜΕ ΤΗ ΧΡΗΣΗ
ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1
ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1 5.1: Εισαγωγή 5.2: Πιθανότητες 5.3: Τυχαίες Μεταβλητές καθ. Βασίλης Μάγκλαρης
ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ονοματεπώνυμο Κεντούλλα Πέτρου Αριθμός Φοιτητικής Ταυτότητας 2008761539 Κύπρος
Ψηφιακή Επεξεργασία Σημάτων
Ψηφιακή Επεξεργασία Σημάτων Ενότητα 3: Συστήματα Διακριτού Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Συστήματα Διακριτού Χρόνου Εισαγωγή στα Συστήματα Διακριτού Χρόνου Ταξινόμηση Συστημάτων ΔΧ
Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν
Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης
Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών
Η μέθοδος PCA -Ανάλυση Κύριων Συνιστωσών
Η μέθοδος PCA -Ανάλυση Κύριων Συνιστωσών Γιώργος Παπαδουράκης Κώστας Μαριάς Technological Educational Institute Of Crete Department Of Applied Informatics and Multimedia Intelligent Systems Laboratory
ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13
ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7 ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13 1.1. Εισαγωγή 13 1.2. Μοντέλο ή Υπόδειγμα 13 1.3. Η Ανάλυση Παλινδρόμησης 16 1.4. Το γραμμικό μοντέλο Παλινδρόμησης 17 1.5. Πρακτική χρησιμότητα
Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο
Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας
ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ
ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα
ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ
Σχολή Mηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ Στέλιος Καράσαββας Λεμεσός, Μάιος 2017
Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική
ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΡΟΣ B Δημήτρης Κουγιουμτζής e-mal: dkugu@auth.gr Ιστοσελίδα αυτού του τμήματος του μαθήματος: http://uer.auth.gr/~dkugu/teach/cvltraport/dex.html Εφαρμοσμένη Στατιστική:
Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ. M. Kούτρας
Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ M. Kούτρας Πειραιάς, 2015 Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ M. Kούτρας Πειραιάς, 2015 1 Από κοινού συνάρτηση πιθανότητας μιας δισδιάστατης διακριτής τυχαίας μεταβλητής