Χατζηιωαννίδης Γεώργιος
|
|
- Κύνθια Κουβέλης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Επιστήμη του Διαδικτύου «Web Science» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Χατζηιωαννίδης Γεώργιος ΕΠΙΒΛΕΠΩΝ: Δημήτριος Κουγιουμτζής Αν. Καθηγητής Α.Π.Θ. Βέροια, Ιανουαριος 203
2 2
3 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Επιστήμη του Διαδικτύου «Web Science» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Χατζηιωαννίδης Γεώργιος ΕΠΙΒΛΕΠΩΝ: Δημήτριος Κουγιουμτζής Αν. Καθηγητής Α.Π.Θ. Εγκρίθηκε από την Τριμελή Εξεταστική Επιτροπή την 3η Ιανουαρίου 203. Δ. Κουγιουμτζής Ν. Φαρμάκης Π. Μωϋσιάδης Αν. Καθηγητής Α.Π.Θ. Αν. Καθηγητής Α.Π.Θ. Καθηγητής Α.Π.Θ. Βέροια, Ιανουάριος 203 3
4 .. Χατζηιωαννίδης Γεώργιος Πτυχιούχος Μαθηματικός Α.Π.Θ. Copyright Χατζηιωαννίδης Α. Γεώργιος, 203 Με επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι εκφράζουν τις επίσημες θέσεις του Α.Π.Θ 4
5 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Περίληψη Στόχος αυτής της εργασίας είναι η αξιολόγηση μέτρων συνδεσιμότητας χρονοσειρών στον εντοπισμό των συνδέσεων και της αλλαγής κατάστασης σε δυναμικά δίκτυα που σχηματίζονται από χρονοσειρές. Οι υπολογισμοί γίνονται σε ένα χρονικό παράθυρο που κινείται κατά μήκος του χρονικού διαστήματος. Τα μέτρα που μελετώνται είναι ο δείκτης αιτιότητας κατά Granger, ο δείκτης αιτιότητας κατά Granger υπό συνθήκη, ο συντελεστής διασυσχέτισης και ο συντελεστής μερικής διασυσχέτισης. Για την αξιολόγηση των μέτρων στην εύρεση των συνδέσεων θα χρησιμοποιήσουμε τις έννοιες της ευαισθησίας και της ειδικότητας, ενώ για τον εντοπισμό της αλλαγής χρησιμοποιούμε τις καμπύλες ROC. Για τη σύγκριση των μέτρων χρησιμοποιούνται μέτρα δικτύων: ο μέσος βαθμός, το μέσο μήκος μονοπατιού και ο συντελεστής συσταδοποίησης. Στο τέλος εφαρμόζουμε τη διαδικασία που αναπτύξαμε σε δεδομένα χρηματιστηριακών δεικτών. Λέξεις κλειδιά: Δυναμικά δίκτυα, χρονοσειρές, μέτρα συνδεσιμότητας χρονοσειρών, ευαισθησία, ειδικότητα 5
6 Χατζηιωαννίδης Γεώργιος Abstract The aim of this study is to evaluate time series connectivity measures to identify connections and structural changes in dynamic networks formed by time series. The calculations are made in a time window that moves along the interval. The selected measures are Granger causality index, conditional Granger causality index, crosscorrelation and partial cross-correlation. In order to evaluate the ability of the measures in detecting correctly the connections we use the indices of sensitivity and specificity, and we use also the ROC curves in order to identify the time of the change. The network measures used to compare the connectivity measures are the average degree, the average shortest path and the clustering coefficient. At the end we apply the developed procedure to international stock-market data. Keywords: dynamic networks, time series, connectivity measures, sensitivity, specificity 6
7 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Περιεχόμενα Εισαγωγή Χρονοσειρές Ορισμός Παράμετροι χρονοσειρών Στασιμότητα Στοχαστικά μοντέλα για την κατασκευή χρονοσειρών Λευκός θόρυβος (white noise) Τυχαίος περίπατος (random walk) Αυτοπαλινδρομούμενη διαδικασία (auto-regressive process) Μέτρα αιτιότητας και συσχέτισης χρονοσειρών Διασυσχέτιση (cross-correlation) Μερική διασυσχέτιση (partial cross-correlation) Δείκτης Αιτιότητας κατά Granger (Granger causality index) Δείκτης αιτιότητας κατά Granger υπό συνθήκη (Conditional Granger Causality Index) Έλεγχοι για την ύπαρξη σχέσης ανάμεσα σε χρονοσειρές Τα είδη των ελέγχων Παραμετρικός έλεγχος για τους δείκτες και Παραμετρικός έλεγχος για το συντελεστή διασυσχέτισης και το συντελεστή μερικής διασυσχέτισης Έλεγχος τυχαιοποίησης (randomization test) Προλεύκανση (prewhitening) Δίκτυα Βασικοί ορισμοί Μέτρα δικτύων Μέσος βαθμός (average degree) Μέσο μήκος μονοπατιού (minimum shortest path length) Συντελεστής συσταδοποίησης (clustering coefficient) Δίκτυα χρονοσειρών Τι είναι τα δίκτυα χρονοσειρών Λανθασμένο ποσοστό ανακαλύψεων (False Discovery Rate FDR) Εντοπισμός αλλαγών σε δυναμικά δίκτυα Ευαισθησία (sensitivity) Ειδικότητα (specificity) Καμπύλες ROC
8 Χατζηιωαννίδης Γεώργιος 4.3 Area under ROC curve (AUROC) Εργασίες σχετικές με δυναμικά δίκτυα χρονοσειρών Οι προσομοιώσεις Η διαδικασία που ακολουθήθηκε Στασιμότητα των μοντέλων H επιλογή των συνδέσεων στις προσομοιώσεις Η αξιολόγηση των αποτελεσμάτων Τα αποτελέσματα των προσομοιώσεων Σύστημα 6 χρονοσειρών Σύστημα 0 χρονοσειρών με 5 συνδέσεις Σύστημα 0 χρονοσειρών με συνδέσεις Σύστημα 20 χρονοσειρών με 20 συνδέσεις Σύστημα 30 χρονοσειρών με 55 συνδέσεις και 8 αλλαγές Σύστημα 30 χρονοσειρών με 08 συνδέσεις Σύστημα 30 χρονοσειρών με 55 συνδέσεις και 3 αλλαγές Τα αποτελέσματα συνοπτικά Εφαρμογή σε χρηματιστηριακά δεδομένα Η διαδικασία που ακολουθήσαμε Το δίκτυο του δείκτη αιτιότητας κατά Granger Το δίκτυο του δείκτη αιτιότητας κατά Granger υπό συνθήκη Το δίκτυο του συντελεστή διασυσχέτισης Το δίκτυο του συντελεστή μερικής διασυσχέτισης Τα αποτελέσματα της εφαρμογής Συμπεράσματα Βιβλιογραφία Παράρτημα
9 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Εισαγωγή Τα δυναμικά δίκτυα και οι χρονοσειρές, αποτελούν επιστημονικά πεδία με μεγάλο εύρος εφαρμογών. Πολύ πρόσφατα έχουν γίνει αντικείμενο έρευνας τα δυναμικά δίκτυα που κατασκευάζονται από χρονοσειρές, κυρίως στις επιστήμες της υγείας και τα εγκεφαλογραφήματα, στην κλιματολογία, στο διαδίκτυο και στο εμπόριο. Στόχος αυτής της εργασίας είναι η σύγκριση γραμμικών μέτρων συνδεσιμότητας χρονοσειρών, ως προς την ικανότητά τους να μας αποδώσουν τις πραγματικές συνδέσεις, σε ένα δίκτυο χρονοσειρών που αλληλεπιδρούν μεταξύ τους. Για να το πετύχουμε αυτό σχηματίζουμε ένα σύστημα χρονοσειρών με εκ των προτέρων καθορισμένες σχέσεις μεταξύ τους. Στο σύστημα αυτό εφαρμόζουμε τα μέτρα συνδεσιμότητας και εξετάζουμε κατά πόσο τα παρατηρούμενα δίκτυα προσεγγίζουν το πραγματικό. Τα μέτρα που θα συγκρίνουμε είναι ο δείκτης αιτιότητας κατά Granger, ο δείκτης αιτιότητας κατά Granger υπό συνθήκη, ο συντελεστής διασυσχέτισης και ο συντελεστής μερικής διασυσχέτισης. Για να αξιολογήσουμε τα μέτρα ως προς την ικανότητά τους να αποδώσουν τις συνδέσεις του δικτύου, χρησιμοποιούμε τις έννοιες της ευαισθησίας και της ειδικότητας. Ακόμα στα δίκτυα που θα δημιουργηθούν θα εφαρμόσουμε τρία μέτρα δικτύων, το μέσο βαθμό, το μέσο μήκος μονοπατιού και το συντελεστή συσταδοποίησης για να ποσοτικοποιήσουμε τα αποτελέσματα. Επιπλέον θα χρησιμοποιήσουμε τις καμπύλες ROC για να συγκρίνουμε τα τέσσερα μέτρα συνδεσιμότητας ως προς την ικανότητά τους να εντοπίζουν το σημείο αλλαγής κατάστασης του δικτύου. Η δομή της εργασίας είναι η εξής: Στο πρώτο κεφάλαιο περιγράφουμε βασικές έννοιες που αφορούν τις χρονοσειρές και είναι απαραίτητες στην κατανόηση της εργασίας και εστιάζουμε κυρίως στις διαδικασίες που παράγουν τα αυτοπαλινδρομούμενα μοντέλα πρώτης τάξης. Στη συνέχεια περιγράφουμε τα γραμμικά μέτρα συνδεσιμότητας που θα αξιολογήσουμε στην παρούσα εργασία. Αυτά είναι ο δείκτης αιτιότητας κατά Granger, ο δείκτης αιτιότητας κατά Granger υπό συνθήκη, ο συντελεστής διασυσχέτισης και ο συντελεστής μερικής διασυσχέτισης. Τέλος αναφέρουμε τους ελέγχους που πραγματοποιούνται για τον προσδιορισμό μιας σύνδεσης ως σημαντικής, και περιγράφουμε τη διαδικασία της προλεύκανσης. Στο δεύτερο κεφάλαιο αναφέρονται ορισμένες βασικές έννοιες δικτύων και περιγράφονται τα τρία μέτρα συνδεσιμότητας δικτύων που θα χρησιμοποιηθούν στην εργασία: ο μέσος βαθμός, το μέσο μήκος μονοπατιού και ο συντελεστής συσταδοποίησης. 9
10 Χατζηιωαννίδης Γεώργιος Επίσης εξηγούμε και πως γίνεται ο υπολογισμός των μέτρων αυτών και αναλύουμε πως άρουμε την απροσδιοριστία στην περίπτωση απομακρυσμένων κόμβων στο δίκτυο. Στο τρίτο κεφάλαιο συζητάμε την έννοια του δικτύου χρονοσειρών και πως αυτό σχηματίζεται με τη βοήθεια των μέτρων συνδεσιμότητας. Περιγράφουμε στη συνέχεια τη διαδικασία false discovery rate, που ακολουθούμε επειδή έχουμε να πραγματοποιήσουμε πολλαπλούς ελέγχους. Στο τέταρτο κεφάλαιο αναλύουμε τις έννοιες της ευαισθησίας και της ειδικότητας. Οι έννοιες αυτές μας χρησιμεύουν στη σύγκριση των μέτρων συνδεσιμότητας, αφού μας δίνουν άμεσα συγκρίσιμες ποσότητες για το κατά πόσο κάθε μέτρο προσέγγισε το πραγματικό δίκτυο στις προβλέψεις του. Στη συνέχεια του κεφαλαίου περιγράφεται ένας τρόπος εντοπισμού αλλαγής κατάστασης στο δίκτυο, με τη βοήθεια των καμπύλων ROC. Στο τέλος του κεφαλαίου αυτού παρουσιάζουμε ένα σύνολο εργασιών που έχουν γίνει σχετικά με δυναμικά δίκτυα χρονοσειρών, ή γενικότερα με εξελικτικά δίκτυα. Εστιάζουμε κυρίως σε εργασίες από τις οποίες αντλήσαμε μεθόδους και διαδικασίες. Στο πέμπτο κεφάλαιο παρουσιάζονται αναλυτικά οι προσομοιώσεις τις οποίες πραγματοποιήσαμε και τα αποτελέσματα που πήραμε από αυτές. Αρχικά περιγράφουμε τη διαδικασία που ακολουθήθηκε για να γίνουν αυτές. Καταγράφουμε όλες τις παραμέτρους και πως στήθηκαν τα πειράματα. Στη συνέχεια εξηγούμε πως πετύχαμε τη στασιμότητα στα συστήματα χρονοσειρών που φτιάξαμε και πως καταλήξαμε σε παραμετρικό έλεγχο απορρίπτοντας τη μέθοδο των surrogates. Στη συνέχεια του κεφαλαίου παρουσιάζονται τα αποτελέσματα κάθε προσομοίωσης και στο τέλος συνοψίζουμε τα αποτελέσματα που πήραμε συνολικά. Στο έκτο κεφάλαιο εφαρμόζουμε τη μεθοδολογία που αναπτύξαμε σε πραγματικά δεδομένα, που αφορούν χρηματιστηριακούς δείκτες από 23 ανεπτυγμένες χώρες από όλο τον κόσμο. Είχαμε στη διάθεσή μας 300 ημερήσιες τιμές σε ένα διάστημα πέντε ετών. Χωρίσαμε το διάστημα αυτό σε χρονικά παράθυρα 200 ημερών που κινούνταν στο χρόνο με βήμα 00 και σε κάθε παράθυρο εφαρμόσαμε τα μέτρα συνδεσιμότητας χρονοσειρών που μας απασχολούν. Τέλος στο έβδομο κεφάλαιο παρουσιάζονται συνοπτικά τα συμπεράσματα που προέκυψαν από την εργασία. 0
11 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών. Χρονοσειρές Σε αυτό το πρώτο κεφάλαιο θα παρουσιάσουμε περιληπτικά τα κύρια χαρακτηριστικά και ιδιότητες των χρονοσειρών. Θα εστιάσουμε κυρίως στα στοιχεία εκείνα που είναι απαραίτητα στον αναγνώστη για να κατανοήσει την εργασία. Τέτοια στοιχεία είναι ο τρόπος σχηματισμού χρονοσειρών και ο τρόπος μέτρησης της σχέσης ανάμεσα σε δύο χρονοσειρές.. Ορισμός Μια χρονοσειρά μήκους n αποτελείται από ένα σύνολο διατεταγμένων παρατηρήσεων {Χ t }, t=,2,,n, μιας τυχαίας μεταβλητής Χ, η οποία γενικά θεωρούμε ότι προέρχεται από κάποια στοχαστική διαδικασία. Συνήθως θεωρούμε ότι οι παρατηρήσεις λαμβάνονται σε χρονικά σημεία t=,2,,n που ισαπέχουν. Οι χρονοσειρές χωρίζονται σε διακριτές και συνεχείς, όπως επίσης σε μονοδιάστατες και πολυδιάστατες. Με πιο απλά λόγια οι χρονοσειρές είναι ένα σύνολο αριθμών που περιγράφουν την εξέλιξη μιας μεταβλητής στο χρόνο..2 Παράμετροι χρονοσειρών Παρακάτω παρουσιάζονται οι πιο συνηθισμένοι παράμετροι που χρησιμοποιούνται στην ανάλυση χρονοσειρών, οι οποίες αφορούν τη στοχαστική διαδικασία από την οποία προέρχεται η χρονοσειρά, καθώς και τα στατιστικά που λαμβάνουμε όταν έχουμε στη διάθεσή μας μόνο περιορισμένες πραγματώσεις της χρονοσειράς, όταν έχουμε δηλαδή κάποιο δείγμα. Μέση τιμή (mean value): Πληθυσμού: =E [ ] Στατιστικό: Διακύμανση (covariance): Πληθυσμού: 2 = [ ] = E ( ) 2 Στατιστικό:
12 Χατζηιωαννίδης Γεώργιος Aυτο-συνδιακύμανση (auto-covariance): Πληθυσμού: Στατιστικό: c τ Αυτο-συσχέτιση (auto-correlation): Πληθυσμού: τ = Στατιστικό: r τ = = Δια-συνδιακύμανση (cross-covariance): Πληθυσμού: ( )= [, + ] Ε[ )( + )] ( ) = [ +, ] Ε[ + )( )] Στατιστικό: cxy τ cyx(τ)= Διασυσχέτιση (cross-correlation): Πληθυσμού: Στατιστικό: Οι παράμετροι αυτο-διασποράς και αυτο-συσχέτισης ορίζονται μόνο αν η χρονοσειρά μας είναι στάσιμη..3 Στασιμότητα Η στασιμότητα (stationarity) είναι μια θεμελιώδης έννοια για την ανάλυση χρονοσειρών. Με απλά λόγια στάσιμη λέμε μια χρονοσειρά η οποία δεν έχει αλλαγή στη μέση τιμή και τη διακύμανσή της και από την οποία έχουν αφαιρεθεί οποιεσδήποτε περιοδικές μεταβολές []. Η στασιμότητα διαχωρίζεται σε αυστηρή και ασθενή στασιμότητα. 2
13 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Μια χρονοσειρά { } καλείται αυστηρά στάσιμη (strictly stationary), αν η κοινή συνάρτηση κατανομής της στοχαστικής διαδικασίας που την παράγει παραμένει ανεπηρέαστη σε σχέση με το χρόνο. Επομένως ισχύει: (, 2, )= ( +κ,, +κ ), κ R Στην πράξη η αυστηρή στασιμότητα είναι μια συνθήκη πολύ δύσκολο να επιβεβαιωθεί. Για αυτό το λόγο στις περισσότερες περιπτώσεις χρησιμοποιούμε μια απλούστερη εκδοχή, την ασθενή στασιμότητα. Μια χρονοσειρά καλείται ασθενώς στάσιμη (weakly stationary) αν η μέση τιμή της { } καθώς και η αυτο-συνδιασπορά των { } και { +κ } παραμένουν ανεπηρέαστες από την επιλογή του t. Πιο συγκεκριμένα, η { } είναι ασθενώς στάσιμη αν ισχύουν ταυτόχρονα: α Ε μ R και β Cov(, +k)= γk, γk R που εξαρτάται μόνο από την επιλογή του κ. Αποδεικνύεται εύκολα, πως αν μια χρονοσειρά είναι αυστηρώς στάσιμη, τότε είναι αυτόματα και ασθενώς στάσιμη. Στην πράξη πολλές φορές αντιμετωπίζουμε χρονοσειρές που δεν είναι στάσιμες, μπορούμε ωστόσο με διάφορους τρόπους να άρουμε τη μηστασιμότητα. Ένας τρόπος είναι η σταθεροποίηση της διασποράς, η οποία επιτυγχάνεται αν πάρουμε τις τετραγωνικές ρίζες ή τους λογάριθμους της αρχικής χρονοσειράς. Επίσης αν η χρονοσειρά έχει κάποια τάση, πρέπει αυτή να απομακρυνθεί (detrending). Αυτό επιτυγχάνεται με διάφορες μεθόδους όπως ο κινούμενος μέσος (moving average) και οι πρώτες διαφορές. Ακόμα πρέπει να απομακρυνθεί από τη χρονοσειρά, αν υπάρχει, η συνιστώσα της εποχικότητας..4 Στοχαστικά μοντέλα για την κατασκευή χρονοσειρών Σε αυτή την ενότητα θα περιγράψουμε τις πιο γνωστές διαδικασίες που παράγουν χρονοσειρές. Σε πραγματικές εφαρμογές, που συνήθως έχουν μεγάλη πολυπλοκότητα, οι παρακάτω απλές διαδικασίες χρησιμοποιούνται συνδυαστικά για να περιγράψουν ένα 3
14 Χατζηιωαννίδης Γεώργιος μοντέλο. Σε κάθε μία από τις διαδικασίες που περιγράφονται παρακάτω δίνεται αρχικά η μονοδιάστατη και στη συνέχεια η πολυδιάστατή της εκδοχή..4. Λευκός θόρυβος (white noise) Ο λευκός θόρυβος WN(μ, 2 ) είναι μια ακολουθία {e t } ανεξάρτητων και ισόνομων τυχαίων μεταβλητών (identically and independently distributed - iid). Εφόσον είναι ισόνομες, προέρχονται από την ίδια κατανομή πιθανότητας, και επομένως για κάθε μια από αυτές ισχύουν: Ε{et} μ συνήθως μ 0 και { } Επίσης εξαιτίας της ανεξαρτησίας των μεταβλητών, ισχύει: ( e, e +k 0 αν k 0 και ( e, e +k )= 2 αν k=0. Ένας κ-διάστατος λευκός θόρυβος (vector white noise) μπορεί να παρασταθεί με ένα διάνυσμα διάστασης κ ως εξής: Εt ={e,t, e2,t ek,t} Σε αυτό το διάνυσμα κάθε ένα από τα e i,t αποτελεί ένα λευκό θόρυβο με μέση τιμή μ και διακύμανση. Επίσης η μέση τιμή και η διακύμανση ενός κ-διάστατου λευκού θορύβου μπορούν να παρασταθούν αντίστοιχα από ένα διάνυσμα M και ένα διαγώνιο πίνακα Σ. Ο λευκός θόρυβος είναι μια διαδικασία που εμφανίζεται πολύ συχνά σε προσομοιώσεις πραγματικών χρονοσειρών. Επίσης από τις ιδιότητές του φαίνεται ότι είναι μια διαδικασία ασθενώς στάσιμη..4.2 Τυχαίος περίπατος (random walk) Είναι μια στοχαστική διαδικασία που προέρχεται από τη διαδικασία του λευκού θορύβου. Έστω ότι έχουμε μια διαδικασία λευκού θορύβου {Εt} με μέση τιμή μ και διακύμανση. Μια διαδικασία {Χ i } ονομάζεται τυχαίος περίπατος, αν ισχύει: Xi= Xi- + Ei και επιπλέον ισχύει: Χ Ε Αποδεικνύεται εύκολα για τη διαδικασία {X i } πως ισχύουν: Ε[Xi]=tμ και Var[Xi]=t. Επειδή η μέση τιμή και η διακύμανση εξαρτώνται από το χρόνο, ο τυχαίος περίπατος δεν θεωρείται στάσιμη διαδικασία []. 4
15 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Ένας κ-διάστατος τυχαίος περίπατος (vector random walk) μπορεί να περιγραφεί από τις εξισώσεις: Xi= Xi- + Ei και Χ Ε, με τη διαφορά ότι πλέον τα Χi και Εi είναι διανύσματα..4.3 Αυτοπαλινδρομούμενη διαδικασία (auto-regressive process) Μια αυτοπαλινδρομούμενη διαδικασία τάξης p, AR(p), είναι μια διαδικασία όπου κάθε μεταβλητή της χρονοσειράς, εξαρτάται από τις p προηγούμενες τιμές της. Στη μονοδιάστατη περίπτωση έχουμε μία χρονοσειρά, η οποία περιγράφεται από την εξίσωση: = e, όπου e ~WN(0, και φi R Μπορεί να δειχθεί πως η AR(p) διαδικασία είναι στάσιμη, εφόσον οι ρίζες της χαρακτηριστικής εξίσωσης: λ p - φλ p- - - φp-λ φp = 0 είναι όλες εντός του μοναδιαίου κύκλου [2]. Μια πολυδιάστατη αυτοπαλινδρομούμενη διαδικασία τάξης p (vector autoregressive process VAR(p) ) και διάστασης k, είναι ένα σύνολο k χρονοσειρών, στο οποίο η τιμή κάθε χρονοσειράς στη χρονική στιγμή t, καθορίζεται από τις p προηγούμενες τιμές των χρονοσειρών της διαδικασίας, με τη βοήθεια κάποιων συντελεστών. Η πολυδιάστατη περίπτωση μπορεί να περιγραφεί με καταγραφή όλων των εξισώσεων:, φ,0+,, + +,, + e,, φκ,0+,, + +,, + e, με e i,j ~ WN(0, ) και φ i,j R, επίσης συνήθως θεωρούμε φ i,0 =0 Εναλλακτικά μπορούμε για συντομία να περιγράψουμε τη διαδικασία με χρήση πινάκων ως εξής: Φ + +Φ + e όπου Φi κ-διάστατοι πραγματικοί πίνακες και το e t κ-διάστατος διάνυσμα [3]. Στην παρούσα εργασία ασχοληθήκαμε κατά κύριο λόγο με στάσιμες VAR() διαδικασίες. Όπως προκύπτει από τον ορισμό τους, η τιμή κάθε χρονοσειράς τη χρονική στιγμή t, εξαρτάται μόνο από τις τιμές που είχαν οι χρονοσειρές της διαδικασίας στην αμέσως προηγούμενη χρονική στιγμή t-. 5
16 Χατζηιωαννίδης Γεώργιος.5 Μέτρα αιτιότητας και συσχέτισης χρονοσειρών Ένα μεγάλο μέρος της έρευνας που αφορά στις χρονοσειρές ασχολείται με την εξεύρεση σχέσεων μεταξύ τους, ενώ ο κατάλογος των μέτρων που προτείνεται για αυτό το σκοπό ανανεώνεται συνεχώς. Τα μέτρα χωρίζονται σε γραμμικά αν ανακαλύπτουν μόνο γραμμικές σχέσεις και μη-γραμμικά αν έχουν δυνατότητα να βρουν και μη-γραμμικές σχέσεις. Επίσης χωρίζονται σε άμεσα και έμμεσα. Άμεσα είναι τα μέτρα που έχουν τη δυνατότητα να διαχωρίσουν τις συσχετίσεις που εμφανίζονται και να κρατήσουν μόνο τις άμεσες, αποβάλλοντας αυτές που οφείλονται σε κοινή επιρροή από κάποια τρίτη χρονοσειρά. Έμμεσα είναι τα μέτρα που δεν έχουν αυτή τη δυνατότητα και εμφανίζουν τελικά όλες τις συσχετίσεις, έμμεσες και άμεσες. Παρακάτω θα περιγραφούν τα παρακάτω γραμμικά μέτρα: Διασυσχέτιση (cross correlation ), Μερική Διασυσχέτιση (partial cross-correlation - ), Δείκτης Αιτιότητας κατά Granger (Granger causality index ) και Δείκτης αιτιότητας κατά Granger υπό συνθήκη (Conditional Granger Causality Index )..5. Διασυσχέτιση (cross-correlation) Η διασυσχέτιση είναι ένα έμμεσο γραμμικό μέτρο, πολύ απλό στον υπολογισμό του. Η αυτοσυσχέτιση που αναφέρθηκε πιο πάνω, υπολογίζει τη συσχέτιση μιας χρονοσειράς με τον εαυτό της για διάφορες χρονικές υστερήσεις. Αν θέλουμε να βρούμε συσχέτιση ανάμεσα σε δύο χρονοσειρές με μηδενική υστέρηση παίρνουμε το συντελεστή Pearson, ενώ αν στο συντελεστή αυτό η υστέρηση είναι διάφορη του μηδενός το αποτέλεσμα που προκύπτει είναι η διασυσχέτιση. Το μέτρο της διασυσχέτισης είναι σχετικά απλό στον υπολογισμό του, αλλά έχει και ορισμένα μειονεκτήματα. Μπορεί να εντοπίσει μόνο γραμμικές σχέσεις ανάμεσα στις χρονοσειρές, ενώ δεν μπορεί να διαχωρίσει τις άμεσες από τις έμμεσες συσχετίσεις. Η διασυσχέτιση παίρνει τιμές στο διάστημα [-,]. Οι ερμηνείες που δίνονται είναι οι εξής: Αν r>0 υπάρχει θετική γραμμική συσχέτιση ανάμεσα στις δύο χρονοσειρές, αν r<0 6
17 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών η γραμμική συσχέτιση είναι αρνητική, ενώ αν r=0 δεν υπάρχει κάποια γραμμική συσχέτιση ανάμεσα στις χρονοσειρές. Ένα άλλο στοιχείο που παίρνουμε από τη διασυσχέτιση είναι η σχέση αιτιότητας. Αν rxy τ 0 για τ>0, αυτό σημαίνει ότι η χρονοσειρά Χ επηρεάζει τη Υ σε επόμενο χρόνο, ενώ αν αυτό συμβαίνει για τ<0 τότε η Υ είναι αυτή που επηρεάζει την Χ. Στην περίπτωση που έχουμε rxy τ 0 για τ 0, τότε οι Χ και Υ αλληλεπιδρούν. Ένα απλό παράδειγμα στο οποίο εμφανίζεται το μειονέκτημα της διασυσχέτισης είναι το εξής: Έστω ότι έχουμε τρεις χρονοσειρές, τις Χ, Υ και Ζ με την Χ να επηρεάζει την Υ και την Υ να επηρεάζει τη Ζ. Επειδή το μέτρο χρησιμοποιεί κάθε φορά μόνο τις τιμές των 2 χρονοσειρών που μελετάει, τελικά θα βρει τις συνδέσεις Χ Υ, Υ Ζ, αλλά θα βρει επίσης και ότι η χρονοσειρά Χ επηρεάζει την Ζ, κάτι που στην πραγματικότητα δεν ισχύει, καθώς αυτή η ψευδής σχέση οφείλεται στην ύπαρξη της Υ..5.2 Μερική διασυσχέτιση (partial cross-correlation) Το μέτρο της μερικής διασυσχέτισης είναι μια ενισχυμένη εκδοχή της διασυσχέτισης, με την ιδιότητα να αναγνωρίζει και να αγνοεί σχέσεις μεταξύ χρονοσειρών, οι οποίες εμφανίζονται έμμεσα εξαιτίας κάποιας άλλης χρονοσειράς. Έστω ότι έχουμε δύο χρονοσειρές {X t } και {Y t } για τις οποίες θέλουμε να βρούμε αν υπάρχει άμεση συσχέτιση και υπάρχει και ένα πλήθος n χρονοσειρών, Ζt={Z,t,, Z,n } οι οποίες ενδέχεται να τις επηρεάζουν. Ο τρόπος υπολογισμού του συντελεστή μερικής διασυσχέτισης γίνεται ως εξής: Αρχικά κάνουμε πολλαπλή γραμμική παλινδρόμηση των δύο χρονοσειρών Χ και Υ με τη βοήθεια των τιμών των χρονοσειρών Ζ i και στη συνέχεια υπολογίζουμε το συντελεστή συσχέτισης των υπολοίπων από κάθε γραμμική παλινδρόμηση. Η γραμμική παλινδρόμηση έχει την εξής μορφή: Από εδώ παίρνουμε: Ο τύπος υπολογισμού του μέτρου για να εξετάσει την επίδραση μιας χρονοσειράς μπορεί να παρασταθεί με τη βοήθεια απλών διασυσχετίσεων ως εξής: 7
18 Χατζηιωαννίδης Γεώργιος Η τιμή της μερικής διασυσχέτισης ανάμεσα σε δύο χρονοσειρές μπορεί να διαφέρει πολύ από την αντίστοιχη της απλής διασυσχέτισης..5.3 Δείκτης Αιτιότητας κατά Granger (Granger causality index) Το γραμμικό αυτό μέτρο προτάθηκε το 969 από τον Βρετανό Clive Granger [5]. H ιδέα πίσω από το μέτρο αυτό είναι εξαιρετικά απλή: Εξετάζουμε εάν μπορούμε να προβλέψουμε καλύτερα τις μελλοντικές τιμές μιας χρονοσειράς {Y t } εάν στο μοντέλο μας συμπεριλάβουμε και τη χρονοσειρά {X t }, σε σχέση με το να συμπεριλάβουμε αποκλειστικά προηγούμενες τιμές της {Y t }. Σε αυτή την περίπτωση θεωρούμε ότι η χρονοσειρά {X t } επηρεάζει την {Y t }. Το μέτρο αυτό, μπορεί να περιγραφεί μαθηματικά με τον ακόλουθο τρόπο: Έστω ότι έχουμε τις δύο χρονοσειρές {X t } και {Y t }. Κατασκευάζουμε δύο μοντέλα για την πρόβλεψη της {Y t }, το ένα από τα οποία περιέχει μόνο παρελθοντικές τιμές της {Y t } και άρα έχει την ακόλουθη έκφραση: yt= + Το δεύτερο μοντέλο περιέχει και παρελθοντικές τιμές της χρονοσειράς {X t } και έχει τη μορφή: y t = + + Οι συντελεστές και οι οποίοι εμφανίζονται στα δύο παραπάνω μοντέλα εκτιμώνται από κάποια μέθοδο η οποία ελαχιστοποιεί τις διασπορές των όρων και. Τέτοιες μέθοδοι είναι η μέθοδος μέγιστης πιθανοφάνειας και η μέθοδος ελαχίστων τετραγώνων. Την απάντηση στο αν τελικά η Χ χρονοσειρά επηρεάζει την Υ θα μας την δώσουν οι δύο αυτοί όροι και. Για αυτό το σκοπό παίρνουμε τις διασπορές των δύο αυτών όρων και τις συγκρίνουμε. Αν ο δεύτερος όρος εμφανίσει μικρότερη διασπορά, αυτό σημαίνει ότι κάνουμε καλύτερη πρόβλεψη αν συμπεριλάβουμε την Χ και επομένως θεωρούμε ότι η χρονοσειρά {X t } επηρεάζει την {Y t }. Ο τύπος από τον οποίο παίρνουμε το δείκτη Granger είναι ο εξής: 8
19 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών X Y=ln [ ] [ ] Το μέτρο αυτό απαιτεί για την υλοποίησή του ασθενή στασιμότητα, πρόβλημα το οποίο μπορεί να αντιμετωπιστεί με υπολογισμούς σε κομμάτια της χρονοσειράς που θεωρείται ότι ικανοποιούν την ιδιότητα. Επίσης είναι φανερό ότι τα αποτελέσματα αφορούν μόνο τις μεταβλητές που ελέγχουμε, οπότε αγνοούμε την επιρροή άλλων παραγόντων στο τελικό συμπέρασμα. Τέλος παρόλο που το μέτρο αναπτύχθηκε αρχικά για να εντοπίζει γραμμικές συσχετίσεις, τελευταία έχουν αναπτυχθεί διάφορες μέθοδοι που βασίζονται στη φιλοσοφία του δείκτη Granger για την ανίχνευση μη-γραμμικών σχέσεων..5.4 Δείκτης αιτιότητας κατά Granger υπό συνθήκη (Conditional Granger Causality Index) Το μέτρο αυτό έρχεται να συμπληρώσει τον δείκτη κατά Granger, για την περίπτωση που θέλουμε να απαλλαγούμε από τις έμμεσες συσχετίσεις. Ακολουθεί ακριβώς την ίδια λογική στον τρόπο υπολογισμού του, με τη διαφορά ότι τώρα προστίθεται και ένας επιπλέον όρος στις αρχικές σχέσεις, ώστε να εντοπιστεί πιθανή επιρροή κάποιας τρίτης χρονοσειράς. Έστω ότι έχουμε δύο χρονοσειρές {X t } και {Y t } για τις οποίες θέλουμε να βρούμε αν υπάρχει άμεση συσχέτιση και υπάρχει και ένα πλήθος n χρονοσειρών, Ζt={Z,t,, Z,n } οι οποίες ενδέχεται να τις επηρεάζουν. Τα αντίστοιχα μοντέλα πλέον για τον υπολογισμό του δείκτη θα διαμορφωθούν ως εξής: yt= + + και yt= Ο υπολογισμός του τελικού δείκτη και τα συμπεράσματα που εξάγονται είναι παρόμοια με του δείκτη Granger. Υπολογίζουμε τις διασπορές τον όρων και και αν η διασπορά στο δεύτερο μοντέλο είναι μικρότερη από του πρώτου, τότε θεωρούμε ότι η χρονοσειρά {X t } επηρεάζει την {Y t }. Η τιμή του δείκτη προκύπτει ανάλογα από τον τύπο: X Y=ln [ ] [ ] 9
20 Χατζηιωαννίδης Γεώργιος.6 Έλεγχοι για την ύπαρξη σχέσης ανάμεσα σε χρονοσειρές Σε αυτό το κεφάλαιο περιγράφουμε τους τρόπους με τους οποίους ελέγχουμε αν δύο χρονοσειρές έχουν κάποια σχέση εξάρτησης ή αιτιότητας. Αρχικά παραθέτουμε περιληπτικά όλα τα είδη των ελέγχων που μπορούν να χρησιμοποιηθούν, στη συνέχεια αναλύουμε τους ελέγχους που χρησιμοποιήσαμε στην παρούσα εργασία και τέλος περιγράφουμε τη διαδικασία με την οποία ξεφορτωνόμαστε ψευδείς συσχετίσεις που οφείλονται σε αυτοσυσχετίσεις..6. Τα είδη των ελέγχων Το μέτρο που θα επιλέξουμε για να εξετάσουμε αν οι χρονοσειρές μας έχουν κάποια σχέση, θα μας δώσει μια τιμή, η οποία σπάνια θα είναι ακριβώς ίση με το μηδέν. Σε αυτή την παράγραφο θα περιγράψουμε συνοπτικά τους τρόπους με τους οποίους διαχωρίζουμε αν η σύνδεσή μας είναι σημαντική ή όχι. Ο πιο απλός τρόπος είναι η επιλογή ενός σημείου διαχωρισμού. Αν η σύνδεση έχει τιμή μεγαλύτερη από αυτή, θεωρούμε ότι είναι σημαντική και την κρατάμε, αλλιώς την απορρίπτουμε. Αυτός ο τρόπος αν και εξαιρετικά απλός στην εφαρμογή, είναι αυθαίρετος και στηρίζεται καθαρά στην εμπειρία του ερευνητή. Ένας άλλος τρόπος διαχωρισμού είναι οι παραμετρικά έλεγχοι (parametric tests). Αυτοί οι έλεγχοι χρειάζονται συγκεκριμένες υποθέσεις που αφορούν στην κατανομή του πληθυσμού για να μπορούν να εφαρμοστούν. Αφού ελεγχθούν οι υποθέσεις αυτές, στη συνέχεια ορίζουμε τη μηδενική υπόθεση H 0 : η σύνδεση είναι μη σημαντική και την εναλλακτική Η : η σύνδεση είναι σημαντική. Υπολογίζουμε ένα στατιστικό από τα δεδομένα και στη συνέχεια, βρίσκουμε τη θέση στην οποία βρίσκεται το στατιστικό αυτό σε σχέση με την κατανομή που υποθέτουμε ότι ακολουθεί. Αν βρίσκεται στα άκρα της κατανομής, θεωρούμε ότι πρόκειται για ακραία τιμή και άρα η μηδενική υπόθεση απορρίπτεται. Αν η μηδενική υπόθεση ήταν σωστή, το στατιστικό μας θα εμφανιζόταν μέσα στην κατανομή ως τυπική τιμή. Όταν συλλέγουμε τα δεδομένα και δεν είμαστε σίγουροι για την κατανομή που αυτά ακολουθούν, καταφεύγουμε στους μη-παραμετρικούς ελέγχους. Οι μη-παραμετρικοί έλεγχοι (non-parametric tests) έχουν παρόμοια μεθοδολογία με τους παραμετρικούς, με τη διαφορά ότι δεν κάνουν κάποιες υποθέσεις για την κατανομή του στατιστικού και δεν απαιτούν την κανονικότητα στις κατανομές των μεταβλητών. 20
21 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι έλεγχοι τυχαιοποίησης (randomization tests) διαφέρουν από τους δύο προηγούμενους στη διαδικασία που ακολουθούν. Για να απαντήσουν αν η σύνδεση είναι σημαντική ή όχι, συγκρίνουν το στατιστικό που σχηματίζεται από το μέτρο των δύο χρονοσειρών, με μια κατανομή που σχηματίζεται με τυχαίο τρόπο από το ίδιο μέτρο. Για να πάρουμε την κατανομή αυτή, διατηρούμε σε κάθε επανάληψη τη μία χρονοσειρά αναλλοίωτη, ενώ μεταθέτουμε τη δεύτερη, με διαδικασία που να μην αλλοιώνει την εσωτερική της συνοχή. Όπως πριν, αν το στατιστικό μας βρίσκεται στα άκρα της κατανομής, θεωρούμε τη σύνδεση σημαντική..6.2 Παραμετρικός έλεγχος για τους δείκτες και Όπως αναφέρθηκε και πιο πάνω, στον υπολογισμό των δεικτών αιτιότητας κατά Granger και αιτιότητας κατά Granger υπό συνθήκη, αυτό που μας απασχολεί είναι η σχέση μεταξύ των διακυμάνσεων των υπολοίπων και από τα δύο μοντέλα που σχηματίσαμε. Η τιμή που κρατάμε ως δείκτη, είναι ο λογάριθμος του πηλίκου των δύο αυτών διακυμάνσεων. Αυτό που μας ενδιαφέρει με το δείκτη Granger, είναι εάν η διακύμανση του δεύτερου μοντέλου [ ] είναι σημαντικά μικρότερη από τη διακύμανση του πρώτου [ ]. Αυτό θα μας έδειχνε ότι η χρονοσειρά {X t } επηρεάζει την {Y t }. Στην περίπτωση που είχαμε [ ] [ ] αυτό θα σήμαινε ότι δεν υπάρχει τέτοια επιρροή και άρα η σύνδεση θεωρούμε ότι δεν υπάρχει. Αφού θεωρήσουμε ότι τα δεδομένα των χρονοσειρών μας προέρχονται από την κανονική κατανομή, σχηματίζουμε τη μηδενική και την εναλλακτική υπόθεση του ελέγχου μας. Σε ένα έλεγχο για τη σύγκριση των διακυμάνσεων δύο πληθυσμών, η αρχική υπόθεση είναι : ενώ η εναλλακτική υπόθεση μπορεί να είναι μία από τις παρακάτω: : ή : < Η εναλλακτική υπόθεση που μας ενδιαφέρει είναι η : < και αυτή θα κρατήσουμε στον έλεγχό μας. Επομένως η μηδενική και εναλλακτική υπόθεση διαμορφώνονται ως εξής: : : < 2
22 Χατζηιωαννίδης Γεώργιος Το στατιστικό για τον έλεγχό μας είναι το. Απορρίπτουμε τη μηδενική υπόθεση στην περίπτωση που έχουμε [0]: > όπου η τιμή προέρχεται από την F κατανομή, το n είναι ίσο με το πλήθος του δείγματος και άρα με το μήκος των χρονοσειρών μας και α είναι το επίπεδο σημαντικότητας που θέλουμε στον έλεγχο, συνήθως ίσο με Ο έλεγχος αυτός γίνεται με τον ίδιο ακριβώς τρόπο για τους δύο δείκτες κατά Granger..6.3 Παραμετρικός έλεγχος για το συντελεστή διασυσχέτισης και το συντελεστή μερικής διασυσχέτισης Από τις δύο χρονοσειρές των οποίων θέλουμε να εντοπίσουμε τη σχέση, παίρνουμε την τιμή Για να ελέγξουμε αν η σύνδεση αυτή είναι σημαντική, πραγματοποιούμε ένα παραμετρικό έλεγχο, θεωρώντας και πάλι ότι οι τιμές των χρονοσειρών ακολουθούν την κανονική κατανομή. Στη συνέχεια θα καθορίσουμε τη μηδενική και εναλλακτική υπόθεση του ελέγχου. Η μηδενική υπόθεση είναι ότι η θεωρητική διασυσχέτιση των χρονοσειρών είναι 0, ενώ η εναλλακτική υπόθεση ότι είναι διάφορη του μηδενός: : 0 : 0 Η θεωρητική τιμή της διασυσχέτισης προσεγγίζεται με τη βοήθεια του συντελεστή διασυσχέτισης που πήραμε από τις δύο χρονοσειρές σύμφωνα με τον τύπο [0]: όπου είναι ο συντελεστής συσχέτισης και n είναι το πλήθος του δείγματος, δηλαδή το μήκος των χρονοσειρών. Η μηδενική υπόθεση απορρίπτεται στην περίπτωση που ισχύει [0]: όπου το > προέρχεται από την κατανομή student, n είναι το μήκος των χρονοσειρών και α το επίπεδο σημαντικότητας που θέλουμε. Με παρόμοιο τρόπο γίνεται και ο έλεγχος για τη σύνδεση χρονοσειρών με τη μερική διασυσχέτιση. 22
23 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών.6.4 Έλεγχος τυχαιοποίησης (randomization test) Ο έλεγχος τυχαιοποίησης μπορεί να εφαρμοστεί σε όλα τα μέτρα που χρησιμοποιούνται για να βρούμε σχέσεις ανάμεσα σε χρονοσειρές { } και { }. Η ιδέα είναι η εξής: Παίρνουμε αρχικά την τιμή του μέτρου από τις αρχικές χρονοσειρές. Στη συνέχεια μεταθέτοντας συνεχώς τη μία από τις χρονοσειρές μας, παίρνουμε την τιμή του μέτρου για τα καινούρια ζευγάρια που προκύπτουν και σχηματίζουμε την κατανομή των μέτρων αυτών. Επειδή οι χρονοσειρές αυτές προέκυψαν με τυχαίο τρόπο, αν το αρχικό μας ζευγάρι είχε όντως κάποια σχέση, η τιμή του μέτρου θα ήταν ακραία σε σχέση με όλες τις υπόλοιπες και επομένως περιμένουμε να εμφανιστεί στα άκρα της κατανομής. Αν συμβεί αυτό θεωρούμε σημαντική την τιμή του μέτρου και άρα τη σχέση των χρονοσειρών υπαρκτή. Αναλυτικότερα ο έλεγχος έχει ως εξής: Ας υποθέσουμε ότι εφαρμόσαμε ένα μέτρο m στις συνδέσεις του δικτύου μας και τώρα θέλουμε να εξετάσουμε αν η σύνδεση των χρονοσειρών { } και { } είναι σημαντική. Στον έλεγχο που θα πραγματοποιήσουμε η μηδενική υπόθεση είναι ότι η τιμή που πήραμε για τη σύνδεση οφείλεται σε τυχαίους παράγοντες και άρα πρέπει να τη θεωρήσουμε μηδενική. Η εναλλακτική υπόθεση είναι προφανώς ότι η σύνδεση αυτή είναι σημαντική και επομένως διάφορη του μηδενός. Αν συμβολίσουμε με την τιμή του μέτρου, τότε οι δύο υποθέσεις γίνονται: : 0 : 0 Στη συνέχεια θα σχηματίσουμε την τυχαιοποιημένη κατανομή, με τη βοήθεια της οποίας θα αποφασίσουμε αν η τιμή του μέτρου είναι σημαντική ή όχι. Η κατανομή αυτή σχηματίζεται από τις τιμές του ίδιου μέτρου σε Μ διαφορετικά ζευγάρια χρονοσειρών που προέρχονται από το αρχικό, μετά από κάποια μετάθεση. Τα καινούρια ζευγάρια χρονοσειρών παράγονται ως εξής: Διατηρούμε σταθερή την χρονοσειρά { } και μεταθέτουμε τη χρονοσειρά y κατά ένα βήμα p, διαφορετικό σε κάθε επανάληψη. Η χρονοσειρά που προκύπτει παίρνει την ακόλουθη μορφή: { } Ο τρόπος που γίνεται η μετάθεση σύμφωνα με το παραπάνω είναι τέτοιος ώστε να διατηρούνται οι εσωτερικοί δεσμοί και η δυναμική της αρχικής χρονοσειράς. Αυτό 23
24 Χατζηιωαννίδης Γεώργιος συμβαίνει επειδή ορισμένα μέτρα χρειάζονται αυτούς τους δεσμούς για να δώσουν σωστά αποτελέσματα. Καλό είναι επίσης το Μ να είναι αρκετά μεγάλος αριθμός, ώστε να μπορούμε να πάρουμε αποτελέσματα στο επιθυμητό επίπεδο σημαντικότητας. Ωστόσο δεν είναι απαραίτητα καλό να πάρουμε όλες τις n- δυνατές μεταθέσεις, γιατί θα προκύψει υπολογιστικό κόστος, ειδικά για μεγάλα n. Στη συνέχεια υπολογίζουμε την τιμή του μέτρου για καθένα από τα παραπάνω Μ ζευγάρια της μορφής { } { } που θα προκύψουν για καθεμία από τις μεταθέσεις και συμβολίζουμε τα Μ+ αποτελέσματα με, όπου η τιμή του αρχικού ζευγαριού. Τα αποτελέσματα αυτά τα ταξινομούμε σε αύξουσα σειρά και κοιτάμε αν η τιμή βρίσκεται στα άκρα της λίστας. Το στατιστικό που θα χρησιμοποιήσουμε για να πραγματοποιήσουμε τον έλεγχο της υπόθεσής μας, το παίρνουμε από τους τύπους []: ή ά < + ά + Κατόπιν αυτού κάνουμε τον έλεγχο: Αν η p-τιμή < α, όπου α το επίπεδο σημαντικότητας, τότε η μηδενική υπόθεση απορρίπτεται και επομένως η σύνδεση που έχουμε είναι σημαντική..6.5 Προλεύκανση (prewhitening) Σε πολλές περιπτώσεις στις οποίες εξετάζουμε τη διασυσχέτιση ανάμεσα σε δύο χρονοσειρές, η τιμή που παίρνουμε επηρεάζεται σημαντικά από την ύπαρξη αυτοσυσχετίσεων μέσα στις χρονοσειρές μας. Αυτή η κατάσταση αλλοιώνει σημαντικά τα αποτελέσματα κυρίως στα γραμμικά μέτρα συσχέτισης. Στην προσπάθειά μας να πάρουμε αξιόπιστα αποτελέσματα καταφεύγουμε σε ορισμένες μεθόδους για να εξαλείψουμε όσο το δυνατόν τις αυτοσυσχετίσεις που εμφανίζονται στις χρονοσειρές. Μία από τις μεθόδους που χρησιμοποιούμε για το σκοπό αυτό είναι η διαδικασία της προλεύκανσης (prewhitening). Η προλεύκανση είναι μια διαδικασία η οποία εξουδετερώνει την επίδραση προηγούμενων τιμών της ίδιας της χρονοσειράς σε επόμενες τιμές της. Η διαδικασία αυτή εφαρμόζεται και στις δύο χρονοσειρές. Στη συγκεκριμένη εργασία θα χρησιμοποιήσουμε 24
25 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών ένα γραμμικό αυτοπαλινδρομούμενο μοντέλο (AR model) το οποίο θα προσαρμοστεί στις χρονοσειρές μας για να γίνει η προλεύκανση. Αν υποθέσουμε ότι στην { } χρονοσειρά μας εφαρμοστεί ένα μοντέλο κ-τάξης, η χρονοσειρά { } που θα πάρουμε μετά την προλεύκανση θα έχει τη μορφή [6]: Το αποτέλεσμα που παίρνουμε είναι η αρχική σειρά { } από την οποία έχουμε αφαιρέσει το αυτοπαλινδρομούμενο μοντέλο τάξης κ και έχει τη μορφή λευκού θορύβου. Αν υπολογίσουμε τις τιμές των γραμμικών μέτρων στις χρονοσειρές που έχουν προκύψει από την προλεύκανση τα αποτελέσματα θα είναι πιο αξιόπιστα []. 25
26 Χατζηιωαννίδης Γεώργιος 2. Δίκτυα Σε αυτό το κεφάλαιο θα παρουσιάσουμε συνοπτικά τα κύρια στοιχεία που απαρτίζουν τα δίκτυα, τις κατηγορίες στις οποίες χωρίζονται και ορισμένες σημαντικές έννοιες που σχετίζονται με αυτά και είναι απαραίτητες για την κατανόηση των μέτρων δικτύων. Στη συνέχεια περιγράφουμε τα μέτρα δικτύων που χρησιμοποιούμε στην παρούσα εργασία. 2. Βασικοί ορισμοί Δίκτυο (ή γράφημα) είναι ένας τρόπος αναπαράστασης ενός συνόλου οντοτήτων, στο οποίο ορισμένα ζευγάρια οντοτήτων συνδέονται μεταξύ τους. Οι οντότητες που σχηματίζουν το δίκτυο ονομάζονται κόμβοι (vertices) και συμβολίζουμε το πλήθος τους με n, ενώ οι δεσμοί που σχηματίζονται μεταξύ τους ονομάζονται ακμές (edges) και το πλήθος τους m. Ο αριθμός n ονομάζεται τάξη (order) ενώ ο αριθμός m το μέγεθος (size) του δικτύου. Συνοπτικά μπορούμε να πούμε ότι γράφημα είναι ένα διατεταγμένο ζεύγος G(V,E), όπου το σύνολο E είναι οι ακμές και V το σύνολο των κόμβων του. Τα δίκτυα χωρίζονται σε κατευθυνόμενα και μη-κατευθυνόμενα. Στα μηκατευθυνόμενα δίκτυα, οι ακμές δεν έχουν προσανατολισμό. Η ύπαρξη της ακμής Α-Β συνεπάγεται αυτόματα και την ύπαρξη της ακμής Β-Α και η ακμή αναπαριστάται με ένα ευθύγραμμο τμήμα. Στα κατευθυνόμενα δίκτυα ενδέχεται να υπάρχει η ακμή Α-Β αλλά όχι η Β-Α. Για να γίνεται αντιληπτή η κατεύθυνση μιας ακμής στα δίκτυα αυτά, οι συνδέσεις αναπαριστώνται με βελάκια. Το σύνολο Ε στα μη-κατευθυνόμενα δίκτυα αποτελείται από διμελή σύνολα κόμβων {κ,λ} ενώ στα κατευθυνόμενα από διατεταγμένα ζεύγη {κ,λ}. Ένα κατευθυνόμενο δίκτυο καλείται συμμετρικό, εάν για κάθε ζεύγος {κ,λ} που ανήκει στο Ε, υπάρχει και το αντίστοιχο ζεύγος {λ,κ}. Βαθμός (degree) ενός κόμβου κ ονομάζεται το πλήθος των ακμών με τις οποίες συνδέεται και συμβολίζεται με deg(κ). Στα κατευθυνόμενα δίκτυα χωρίζεται μέσα-βαθμό (σύνολο ακμών που εισέρχονται στον κόμβο) και έξω-βαθμό (σύνολο ακμών που εξέρχονται από τον κόμβο). Αν ο βαθμός ενός κόμβου είναι μηδέν, ο κόμβος θεωρείται απομακρυσμένος. Αν είναι ίσος με τη μονάδα, ονομάζεται τελικό σημείο, ενώ αν είναι ίσος με n- ονομάζεται κυρίαρχος κόμβος. Το δίκτυο ονομάζεται συνεκτικό, αν δεν υπάρχουν απομακρυσμένοι κόμβοι. 26
27 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Περίπατος από έναν κόμβο κ σε έναν κόμβο λ ενός γράφου ονομάζεται μια ακολουθία κόμβων, όπου κάθε κόμβος της ακολουθίας συνδέεται με τον επόμενό του μέσω μιας ακμής. Μονοπάτι (path) από ένα κόμβο κ σε ένα κόμβο λ ονομάζεται ο περίπατος που δεν περνάει δεύτερη φορά από τον ίδιο κόμβο. Μήκος μονοπατιού ονομάζεται το πλήθος των ακμών που ανήκουν στο μονοπάτι. Απόσταση (distance) ανάμεσα σε δύο κόμβους κ και λ είναι το μήκος του μικρότερου μονοπατιού που τους συνδέει (ονομάζεται και γεωδαισικό μονοπάτι ή shortest path ) και συμβολίζεται με dist(κ,λ). Συστάδα (cluster) είναι ένα σύνολο τριών κόμβων που συνδέονται μεταξύ τους. Ο πιο συνηθισμένος τρόπος αναπαράστασης ενός δικτύου είναι ένα σύνολο σημείων για τους κόμβους, τα οποία ενώνονται με ευθύγραμμα τμήματα ή βέλη τα οποία αποτελούν τις ακμές. Ένας άλλος τρόπος να περιγράψουμε το δίκτυο είναι ο πίνακας γειτνίασης (adjacency matrix), ο οποίος είναι ένας nxn πίνακας, όπου n το πλήθος των κόμβων του γραφήματος. Αν υπάρχει η ακμή από τον κόμβο i στον κόμβο j, τότε το στοιχείο a ij του πίνακα είναι ίσο με τη μονάδα, αλλιώς είναι ίσο με το μηδέν. Αυτός ο τρόπος αναπαράστασης είναι πολύ βολικός αν θέλουμε να κάνουμε υπολογισμούς για το δίκτυό μας. 2.2 Μέτρα δικτύων Σε αυτή την παράγραφο περιγράφονται τα μέτρα δικτύου που θα χρησιμοποιηθούν στην παρούσα εργασία (μέσος βαθμός, μέσο μήκος μονοπατιού και συντελεστής συσταδοποίησης). Θα εστιάσουμε στους τύπους των μέτρων για δίκτυα χωρίς βάρη, αφού μόνο τέτοια θα χρησιμοποιήσουμε στην εργασία Μέσος βαθμός (average degree) Στα κατευθυνόμενα δίκτυα κάθε κόμβος όπως αναφέρθηκε και παραπάνω έχει δύο βαθμούς. Τον μέσα-βαθμό και τον έξω βαθμό. Ο υπολογισμός των βαθμών αυτών για κάθε κόμβο σε ένα δίκτυο γίνεται εύκολα με τη βοήθεια του πίνακα γειτνίασης ως εξής: Για τον μέσα-βαθμό του i κόμβου, παίρνουμε το άθροισμα των στοιχείων της i στήλης του πίνακα γειτνίασης [9]: = 27
28 Χατζηιωαννίδης Γεώργιος Αντίστοιχα για τον έξω-βαθμό του i κόμβου παίρνουμε το άθροισμα των στοιχείων της i γραμμής του πίνακα [9]: = Ο βαθμός του i κόμβου δίνεται από το άθροισμα του μέσα βαθμού και του έξω βαθμού του κόμβου [9]: = + Τέλος για το μέσο βαθμό του δικτύου παίρνουμε τη μέση τιμή των παραπάνω παρατηρήσεων [9]: Με παρόμοιο τρόπο γίνεται ο υπολογισμός του μέσου βαθμού για μηκατευθυνόμενα δίκτυα. Σε αυτά, επειδή η ύπαρξη της ακμής (κ,λ) συνεπάγεται και την ύπαρξη της (λ,κ) ο πίνακας γειτνίασης είναι συμμετρικός, οπότε δεν έχει νόημα να ψάχνουμε μέσα και έξω βαθμό. = και για το μέσο βαθμό παίρνουμε: Μέσο μήκος μονοπατιού (average shortest path) Το μέσο μήκος μονοπατιού για ένα δίκτυο, είναι η μέση τιμή των αποστάσεων ανάμεσα σε όλα τα πιθανά ζευγάρια κόμβων του δικτύου. Για να κάνουμε τον υπολογισμό πρέπει αρχικά να σχηματίσουμε τον πίνακα αποστάσεων d ij, όπου d ij η απόσταση του κόμβου i από τον κόμβο j. Για τα στοιχεία της διαγωνίου θεωρούμε d ii =0 και τελικά το μέσο μήκος μονοπατιού υπολογίζεται από τον τύπο: Στον υπολογισμό αυτό, στην περίπτωση των μη-συνδετικών δικτύων παρουσιάζεται ένα πρόβλημα. Οι αποστάσεις d για απομακρυσμένους κόμβους έχουν άπειρη τιμή και έτσι η μέση τιμή μας πάει στο άπειρο. 28
29 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Ένας τρόπος να αντιμετωπιστεί αυτό το πρόβλημα είναι να πάρουμε τη μεγαλύτερη συνιστώσα του δικτύου μας που παραμένει συνδετική και να υπολογίσουμε σε αυτή την τιμή του μέτρου. Σε αυτή την περίπτωση ενδέχεται να βγουν από τον υπολογισμό κόμβοι που δεν είναι απομακρυσμένοι. Ένας δεύτερος τρόπος είναι να πάρουμε μόνο τα ζευγάρια κόμβων που συνδέονται μεταξύ τους με κάποιο μονοπάτι. Με αυτό τον τρόπο αποφεύγουμε τις άπειρες τιμές και ταυτόχρονα δεν βγάζουμε μη-απομακρυσμένους κόμβους από τον υπολογισμό. Σε αυτή την περίπτωση, για κάθε ζευγάρι κόμβων κ και λ που δεν συνδέονται με μονοπάτι, θέτουμε d κλ =0 και επιπλέον το πλήθος των απομακρυσμένων κόμβων το αφαιρούμε από τον παρανομαστή. Ο τύπος πλέον γίνεται: όπου το πλήθος των μη συνδεδεμένων ζευγαριών. Εναλλακτικά, αν το πλήθος αυξηθεί πολύ και αλλοιώνει τη σημασία του τελικού αποτελέσματος, μπορούμε να μην το αφαιρέσουμε από τον παρανομαστή Συντελεστής συσταδοποίησης (clustering coefficient) Ο συντελεστής συσταδοποίησης είναι ένα μέτρο που δείχνει σε τι ποσοστό οι γειτονικοί κόμβοι ενός κόμβου συνδέονται και αυτοί μεταξύ τους. Με πιο απλά λόγια μας δείχνει πόσο καλά συνδέεται η γειτονιά του κόμβου. Αν ο κόμβος i έχει βαθμό κ i ο συντελεστής συσταδοποίησης για τον i υπολογίζεται από τον τύπο [9]: Ο συντελεστής συσταδοποίησης για όλο το δίκτυο είναι η μέση τιμή των συντελεστών των κόμβων [9]: Είναι προφανές από τον τύπο υπολογισμού του συντελεστή ότι στην περίπτωση απομακρυσμένων κόμβων, δηλαδή όταν, έχουμε απροσδιοριστία. Αυτό το πρόβλημα μπορεί να αντιμετωπιστεί με δύο τρόπους. Είτε να θέσουμε το συντελεστή 29
30 Χατζηιωαννίδης Γεώργιος για τους προβληματικούς κόμβους ίσο με το μηδέν, είτε να αγνοήσουμε τους προβληματικούς κόμβους και να τους αφαιρέσουμε από τον παρανομαστή. Για αυτές τις δύο περιπτώσεις ο συντελεστής του κόμβου υπολογίζεται ως εξής: 0 > τον τύπο : Στην πρώτη από τις δύο περιπτώσεις, ο συντελεστής συσταδοποίησης δίνεται από Ενώ στη δεύτερη περίπτωση παίρνουμε τον τύπο: ό ή ό 30
31 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών 3. Δίκτυα χρονοσειρών Στα δύο προηγούμενα κεφάλαια περιγράψαμε συνοπτικά τις βασικές έννοιες των χρονοσειρών και των δικτύων. Σε αυτό το κεφάλαιο θα περιγράψουμε πως συνδυάζονται οι δύο αυτές έννοιες ώστε να πάρουμε δίκτυα τα οποία αποτελούνται από χρονοσειρές που αλληλεπιδρούν μεταξύ τους. 3. Τι είναι τα δίκτυα χρονοσειρών Όπως περιγράφηκε παραπάνω, δίκτυο είναι ένα σύνολο οντοτήτων, ορισμένες από τις οποίες συνδέονται μεταξύ τους με κάποιες σχέσεις. Όταν αναφερόμαστε σε δίκτυα από χρονοσειρές, αυτές οι οντότητες είναι οι χρονοσειρές που μας απασχολούν, ενώ οι συνδέσεις μεταξύ τους είναι οι σχέσεις που πιθανόν να υπάρχουν ανάμεσα σε κάθε ζευγάρι των χρονοσειρών αυτών. Για να υπάρξει δίκτυο, πρέπει να έχουμε στη διάθεσή μας τουλάχιστον δύο χρονοσειρές ως κόμβους. Κατόπιν πρέπει να αποφασίσουμε ποιο μέτρο θα χρησιμοποιήσουμε για την εύρεση σχέσεων ανάμεσα στις χρονοσειρές αυτές και με ποιον έλεγχο θα καταλήξουμε αν θα δεχτούμε την ύπαρξη ή όχι κάθε σχέσης από αυτές. Ανάλογα με το μέτρο που θα επιλέξουμε το δίκτυο θα σχηματιστεί ως μη-κατευθυνόμενο, αν έχουμε συσχέτιση ή κατευθυνόμενο, αν το μέτρο μας δίνει σχέσεις αιτιότητας, αν δηλαδή η μία χρονοσειρά επηρεάζει την άλλη αλλά όχι το ανάποδο. Επίσης θα πρέπει να αποφασίσουμε αν το δίκτυό μας θα έχει βάρη, ή οι ακμές θα έχουν αποκλειστικά τιμές και 0 (υπάρχει ή δεν υπάρχει η σύνδεση). Οι τρόποι με τους οποίους ελέγχουμε αν μια σύνδεση θεωρείται σημαντική ή όχι, έχουν περιγραφεί αναλυτικά στην παράγραφο.6. Όποια μέθοδο διαλέξουμε για το διαχωρισμό των σημαντικών συνδέσεων, την εφαρμόζουμε σε όλες τις πιθανές συνδέσεις του δικτύου και σχηματίζουμε τις ακμές του. 3.2 Λανθασμένο ποσοστό ανακαλύψεων (False Discovery Rate FDR) Στην προσπάθειά μας να εντοπίσουμε τις υπαρκτές συνδέσεις σε ένα δίκτυο n χρονοσειρών, πραγματοποιούμε ταυτόχρονα n(n-) ελέγχους υποθέσεων. Κατά την πραγματοποίηση τέτοιων ελέγχων υπάρχουν 2 τύποι σφαλμάτων που ενδέχεται να προκύψουν: Τα σφάλματα τύπου Ι, όπου η μηδενική υπόθεση απορρίπτεται ενώ είναι 3
32 Χατζηιωαννίδης Γεώργιος αληθής και τα σφάλματα τύπου ΙΙ όπου η μηδενική υπόθεση δεν απορρίπτεται ενώ στην πραγματικότητα είναι ψευδής. Σε αυτή την παράγραφο θα μας απασχολήσουν τα σφάλματα τύπου Ι. Σε ένα έλεγχο τα σφάλματα τύπου Ι ελέγχονται από τη στάθμη σημαντικότητας α, που συνήθως είναι Αυτό σημαίνει ότι σε ένα απλό έλεγχο υπόθεσης υπάρχει πιθανότητα 5% να απορρίψουμε τη μηδενική υπόθεση ενώ είναι αληθής. Το πρόβλημα βρίσκεται στο γεγονός ότι αν πραγματοποιήσουμε ταυτόχρονα πολλούς ελέγχους, η πιθανότητα να συμβεί τέτοιο σφάλμα αυξάνεται σημαντικά. Σε m ταυτόχρονους ελέγχους η πιθανότητα σφάλματος γίνεται -5 m. Ενδεικτικά αναφέρουμε ότι σε ένα δίκτυο 5 μόνο χρονοσειρών, όπου θα πραγματοποιηθούν 5(5-)=20 έλεγχοι, η πιθανότητα εμφάνισης σφάλματος είναι p=-5 20 = = 45 = 64.5% και επομένως σε ένα σχετικά μικρό δίκτυο η πιθανότητα σφάλματος είναι μεγαλύτερη από την πιθανότητα μη-εμφάνισης. Λανθασμένο ποσοστό ανακαλύψεων ονομάζεται η στατιστική μέθοδος που χρησιμοποιείται σε πολλαπλούς ελέγχους υποθέσεων για να διορθώσει το παραπάνω πρόβλημα. Σε ένα σύνολο αποτελεσμάτων όπου η μηδενική υπόθεση απορρίφθηκε, η διαδικασία FDR είναι σχεδιασμένη έτσι ώστε να ελέγχει το αναμενόμενο ποσοστό των μηδενικών υποθέσεων που απορρίφθηκαν λανθασμένα (λανθασμένες ανακαλύψεις). Η έννοια λανθασμένο ποσοστό ανακαλύψεων προτάθηκε για πρώτη φορά το 995 από τους Yoav Benjamini και Yosi Hochberg [3] και καθιερώθηκε ως κοινά αποδεκτός τρόπος για τον έλεγχο του ποσοστού των σφαλμάτων. Πίνακας 3.: Πλήθος σφαλμάτων που πραγματοποιούνται σε m ελέγχους υποθέσεων. Απορριπτέες μηδενικές υποθέσεις Δεκτές μηδενικές υποθέσεις Αληθείς μηδενικές υποθέσεις Αληθείς εναλλακτικές υποθέσεις Σύνολο V S R U T m-r Σύνολο m 0 m-m 0 m Ας υποθέσουμε ότι έχουμε m πολλαπλούς ελέγχους για μηδενικές υποθέσεις από τις οποίες m 0 είναι αληθείς, R είναι το πλήθος των ανακαλύψεων δηλαδή των 32
33 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών υποθέσεων που απορρίφθηκαν και V είναι το πλήθος αυτών που ενώ ήταν αληθείς, εσφαλμένα απορρίφθηκαν. Στους ελέγχους μας η R είναι παρατηρούμενη τυχαία μεταβλητή, ενώ οι μεταβλητές S, T, U, V όπως φαίνονται στον πίνακα 3. είναι μη παρατηρούμενες τυχαίες μεταβλητές. Αν θέσουμε ως Q το ποσοστό των λανθασμένων ανακαλύψεων, τότε το λανθασμένο ποσοστό ανακαλύψεων δίνεται από τον τύπο: FDR = E (Q) = E {V/ (V+S)} = E (V/R) Την τιμή αυτή θέλουμε να την κρατήσουμε κάτω από ένα συγκεκριμένο κατώφλι α. Η διαδικασία που προτάθηκε από τους Benjamini και Hochberg είναι η εξής: Έστω p, p m οι παρατηρούμενες p-τιμές των m ελέγχων υπόθεσης, διαταγμένες σε αύξουσα σειρά. Βρίσκουμε τη μεγαλύτερη τιμή k, για την οποία ισχύει: όπου α το επίπεδο σημαντικότητας της διαδικασίας FDR και απορρίπτουμε (τις θεωρούμε θετικές ανακαλύψεις) όλες τις μηδενικές υποθέσεις H i για i=,2,, k. Με αυτή τη διαδικασία πλέον μπορούν να συμβούν α% σφάλματα τύπου I στους πολλαπλούς μας ελέγχους. 33
34 Χατζηιωαννίδης Γεώργιος 4. Εντοπισμός αλλαγών σε δυναμικά δίκτυα Στην παράγραφο αυτή περιγράφονται οι έννοιες της ευαισθησίας και της ειδικότητας, όπως αυτές προκύπτουν από ένα έλεγχο κατηγοριοποίησης. Στη συνέχεια με τη βοήθεια αυτών των εννοιών θα περιγραφούν οι ROC καμπύλες και ο τρόπος με τον οποίο η περιοχή κάτω από την καμπύλη ROC προσδιορίζει την ακρίβεια ενός ελέγχου. 4. Ευαισθησία (sensitivity) Ειδικότητα (specificity) Η ευαισθησία και η ειδικότητα είναι στατιστικά μέτρα για την επίδοση ενός δυαδικού ελέγχου κατηγοριοποίησης, τα οποία έχουν τις ρίζες τους σε διαγνωστικούς ελέγχους. Με ιατρικούς όρους θα μπορούσαμε να πούμε ότι η ευαισθησία υπολογίζει την αναλογία των πραγματικά ασθενών που ανιχνεύτηκαν ως τέτοιοι, ενώ η ειδικότητα την αναλογία των μη-ασθενών που σωστά ανιχνεύτηκαν ως υγιείς. Αυτά τα δύο μέτρα έχουν στενή σχέση με τα σφάλματα τύπου I και II στους ελέγχους υποθέσεων. Για κάθε έλεγχο, υπάρχει συνήθως μία αντιστρόφως ανάλογη σχέση ανάμεσα στα δύο αυτά μέτρα, μέσα από την οποία προσπαθούμε να βρούμε το βέλτιστο για εμάς σημείο ισορροπίας. Σε ορισμένες περιπτώσεις επιθυμούμε μεγάλη ευαισθησία και μικρότερη ειδικότητα, ενώ σε άλλες το αντίθετο. Αυτή η σχέση ανάμεσα στα δύο μέτρα παριστάνεται γραφικά με τις καμπύλες ROC (receiver operating characteristic curves) που θα περιγραφούν αργότερα. Στον πίνακα 4. παρουσιάζονται τα πιθανά αποτελέσματα ενός διαγνωστικού ελέγχου και στη συνέχεια ορίζονται οι έννοιες της ευαισθησίας και της ειδικότητας με βάση τα αποτελέσματα αυτά. Πίνακας 4.: Όλα τα πιθανά αποτελέσματα ενός ελέγχου κατηγοριοποίησης True False Test positive True positives (TP) False positives (FP) Test negative False negative (FN) True negatives (TN) 34
35 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Ως ευαισθησία (sensitivity) ενός ελέγχου είναι η πιθανότητα ο έλεγχος να είναι θετικός (P) δεδομένου ότι κάποιος έχει τη νόσο (T) P(P/T) = Ως ειδικότητα (specificity) ενός ελέγχου ορίζεται η πιθανότητα ο έλεγχος να βγει αρνητικός, δεδομένου ότι κάποιος δεν έχει το χαρακτηριστικό που εξετάζουμε. P(N/F) = 4.2 Καμπύλες ROC Οι παραπάνω ορισμοί βασίζονται σε ένα συγκεκριμένο έλεγχο, ο οποίος είναι προσδιορισμένος έτσι ώστε να μας δίνει καταφατική ή αρνητική απάντηση στην ερώτηση αν ο ασθενής έχει ή όχι την ασθένεια. Στην πράξη τα αποτελέσματα που παίρνουμε από έναν έλεγχο είναι ποσοτικά και συνήθως συνεχείς μεταβλητές και η απάντησή μας καθορίζεται από ένα κατώφλι (ή σημείο διαχωρισμού) το οποίο έχουμε θέσει εκ των προτέρων. Αν θελήσουμε να πάρουμε αποτελέσματα με μεγαλύτερη ευαισθησία ή ειδικότητα, μπορούμε να διαφοροποιήσουμε κατάλληλα αυτό το κατώφλι. Με τη διαφοροποίηση αυτή βελτιώνεται το ένα μέτρο σε βάρος του άλλου. Στο σχήμα 4. έχουμε την κατανομή συχνοτήτων για τις τιμές που πήραμε από τον έλεγχο για τους δύο πληθυσμούς των υγιών και των αρρώστων. Η κάθετη μαύρη γραμμή παριστάνει το κατώφλι που έχουμε θέσει στον έλεγχο. Αν σύρουμε αυτό το κατώφλι δεξιότερα, αυξάνεται το πλήθος των ψευδώς αρνητικών (false negative - FN) και μειώνεται το πλήθος των ψευδώς θετικών (false positive - FP). Επομένως σε αυτή την αλλαγή αυξάνεται η ειδικότητα και μειώνεται η ευαισθησία του ελέγχου. Το ανάποδο συμβαίνει αν κινηθούμε προς τα αριστερά. Σχήμα 4.: Η κατανομή συχνοτήτων της τιμής του ελέγχου στους 2 πληθυσμούς [38] 35
36 Χατζηιωαννίδης Γεώργιος Για την επιλογή του σημείου διαχωρισμού χρησιμοποιούμε τις καμπύλες ROC (Receiver Operating Characteristic curves - ROC curves). Αυτές οι καμπύλες απεικονίζουν τους συνδυασμούς της αναλογίας των ψευδών θετικών περιπτώσεων (false positive rate FPR) που είναι ίση με -ειδικότητα στον άξονα Χ και της ευαισθησίας (true positive rate TPR) στον άξονα Y, για όλες τις τιμές του ελέγχου Τ που παρατηρούμε στο δείγμα (σχήμα 4.2). Σχήμα 4.2: Καμπύλη ROC [38] Τα καλύτερα σημεία στο παραπάνω διάγραμμα είναι αυτά που απεικονίζονται πάνω αριστερά, δηλαδή με ευαισθησία κοντά στο και την τιμή FPR κοντά στο 0. Οι καμπύλες ROC είναι η διαγραμματική απεικόνιση των χαρακτηριστικών ενός ποσοτικού διαγνωστικού ελέγχου και έχουν τις εξής ιδιότητες: ) μας βοηθάνε να εξετάσουμε την απόδοση του ελέγχου για διαφορετικά σημεία προγνωστικού ελέγχου, 2) μας βοηθάνε να επιλέξουμε το σημείο απόφασης όσον αφορά αν ένας έλεγχος θεωρείται θετικός ή αρνητικός, 3) μας δείχνουν τη διαφοροποίηση που συμβαίνει ανάμεσα στην ευαισθησία και την ειδικότητα καθώς διαφοροποιούμε το κατώφλι, 4) Όσο πιο κοντά είναι η καμπύλη μας στην αριστερή και την πάνω πλευρά του τετραγώνου, τόσο πιο ακριβής είναι ο έλεγχος και 5) η περιοχή κάτω από την καμπύλη είναι ένα μέτρο ακρίβειας για τον έλεγχό μας. Τον τρόπο με τον οποίο το εμβαδό της περιοχής κάτω από την καμπύλη προσδιορίζει την ακρίβεια του ελέγχου μας, θα αναλύσουμε στην επόμενη παράγραφο. 36
37 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών 4.3 Area under ROC curve (AUROC) Η περιοχή κάτω από την καμπύλη μετράει την ακρίβεια, δηλαδή την ικανότητα του ελέγχου να διαχωρίσει σωστά τους ασθενείς από τους υγιείς. Αν υποθέσουμε ότι έχουμε χωρίσει τον πληθυσμό μας σε υγιείς και αρρώστους και επιλέξουμε δύο άτομα, ένα από κάθε ομάδα και τους κάνουμε τον έλεγχο, το εμβαδό της περιοχής κάτω από την καμπύλη ROC, μας δίνει την πιθανότητα το άτομο με τη μεγαλύτερη τιμή, να είναι όντως το υγιές άτομο (υποθέτοντας ότι τα υγιή άτομα εμφανίζουν φυσιολογικά μεγαλύτερες τιμές). Σύμφωνα με το παραπάνω, αν θέλουμε να δούμε αν ένας πληθυσμός είναι καλά ταξινομημένος σε δύο ομάδες ως προς κάποια συγκεκριμένη ποσοτική μεταβλητή, μπορούμε να πάρουμε την ROC καμπύλη και να υπολογίσουμε το εμβαδό της περιοχής κάτω από την καμπύλη αυτή. Όσο πιο κοντά στη μονάδα είναι το εμβαδό αυτό, τόσο πιο καλά διαχωρισμένος είναι ο πληθυσμός μας. Μία άλλη χρήση του παραπάνω εμβαδού, είναι να εντοπίσουμε εάν σε ένα πλήρως διατεταγμένο σύνολο n στοιχείων, τα οποία ελέγχονται ως προς κάποια συγκεκριμένη ποσοτική μεταβλητή, υπάρχει κάποια θέση k στην οποία ο πληθυσμός μας διαχωρίζεται με ακρίβεια σε δύο τάξεις. Aς υποθέσουμε ότι το δείγμα μας είναι το σύνολο {x, x 2,, x n }. Για να βρούμε αν υπάρχει το ζητούμενο σημείο, κάνουμε το εξής: Χωρίζουμε το δείγμα σε δύο ομάδες, από τις οποίες η πρώτη αποτελείται από τον x μέχρι τον x κ, και η άλλη ομάδα από τον x k+ μέχρι τον x n. Η μία από τις δύο ομάδες θεωρείται θετική και η άλλη αρνητική. Σχηματίζονται με αυτό τον τρόπο δύο κατανομές, μία για κάθε ομάδα, σαν αυτές του σχήματος 4. από τις οποίες μπορούμε να πάρουμε κάθε φορά τις τιμές των FPR και TPR για διάφορα σημεία διαχωρισμού και να σχηματίσουμε έτσι την καμπύλη ROC. Κατόπιν υπολογίζουμε το εμβαδό κάτω από την καμπύλη. Αν η τιμή του εμβαδού είναι κοντά στο, μπορούμε να πούμε ότι στο κ ταξινομείται καλά το δείγμα μας σε δύο ομάδες. Επαναλαμβάνουμε αυτή τη διαδικασία για k=2,3,, n- και παίρνουμε σε κάθε διαχωρισμό που πραγματοποιείται το εμβαδό κάτω από την καμπύλη. Όσο πιο κοντά είναι η τιμή που παίρνουμε στη μονάδα, τόσο πιο καλά χωρίζεται το δείγμα μας στο συγκεκριμένο k. 37
38 Χατζηιωαννίδης Γεώργιος 4.4 Εργασίες σχετικές με δυναμικά δίκτυα χρονοσειρών Τα δυναμικά δίκτυα που παράγονται από χρονοσειρές είναι ένα αντικείμενο που εξελίχθηκε σχετικά πρόσφατα και η βιβλιογραφία αναφορικά με αυτό είναι πολύ περιορισμένη. Παρακάτω θα παρουσιάσουμε συνοπτικά ορισμένες εργασίες που έχουν γίνει σχετικά με δίκτυα που παράγονται από χρονοσειρές, άλλες που ασχολούνται με δυναμικά δίκτυα και κάποιες που συνδυάζουν τα δύο αυτά θέματα και ταιριάζουν με το αντικείμενο της παρούσης εργασίας. Ένα μεγάλο πλήθος επιστημονικών περιοχών έχει αντιμετωπιστεί από τη σκοπιά των εξελικτικών δικτύων. Κάθε περιοχή έχει τις δικές της ιδιαιτερότητες, τις οποίες οφείλει να λαμβάνει κάθε φορά υπόψη ο ερευνητής στο μοντέλο που σχηματίζει. Από τα πρώτα δίκτυα που μελετήθηκαν ήταν τα βιολογικά δίκτυα. Στην εργασία [6] παρουσιάζεται και αξιολογείται ένα μοντέλο κατάλληλο για βιολογικά δίκτυα που προβλέπει κατά την ανάπτυξή του τη δυνατότητα συγχώνευσης οντοτήτων καθώς και την προσαρμοστική προνομιακή προσάρτηση (fitness-driven PA). Το δίκτυο του παγκόσμιου εμπορίου αποτέλεσε αντίστοιχα αντικείμενο έρευνας από τη σκοπιά των εξελικτικών δικτύων. Στις εργασίες [7], [8] ερευνώνται μοντέλα που περιγράφουν τον τρόπο ανάπτυξης του, ενώ στην [9] αποδεικνύεται η σημασία του ακαθάριστου εθνικού προϊόντος (ΑΕΠ) στην εξέλιξη κάθε κόμβου χώρας στο δίκτυο. Δεδομένα που προέρχονται από εγκεφαλογραφήματα διαφορετικών περιοχών του εγκεφάλου σχηματίζουν συστήματα πολυμεταβλητών χρονοσειρών [20],[2],[22], [23]. Αυτά τα συστήματα αντιμετωπίζονται σαν εξελικτικά δίκτυα στα οποία προσπαθούμε να κάνουμε προβλέψεις, καθώς και να εντοπίσουμε αλλαγές στην κατάστασή τους. Οι εργασίες αυτές θα περιγραφούν αναλυτικότερα παρακάτω. Ένα άλλο αντικείμενο που πρόσφατα μελετήθηκε με τη βοήθεια εξελικτικών δικτύων είναι η θεωρία παιγνίων. Στην εργασία [24] ερευνάται η εξέλιξη στο χρόνο του παιγνίου το δίλημμα του φυλακισμένου. Οι ερευνητές καταλήγουν στο συμπέρασμα πως οποιοδήποτε δίκτυο που προέρχεται από παίγνια φτάνει σε ένα σημείο στασιμότητας, όπου οι παίκτες δεν έχουν λόγο να αλλάξουν πλέον τις συνδέσεις τους (Nash equilibrium). Στην εργασία [20] εξετάζεται η σύνδεση διαφορετικών περιοχών του εγκεφάλου με τη βοήθεια δύο μέτρων (directed transfer function DTF και partial directed coherence PDC) που στηρίζονται στην αιτιότητα κατά Granger. Τα μέτρα αυτά υπολογίζονται από πολυμεταβλητό αυτοπαλινδρομούμενο μοντέλο (MVAR) που προσαρμόζεται σε 38
39 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών εγκεφαλογραφήματα υψηλής ανάλυσης (EEG). Για τον υπολογισμό των δύο αυτών μέτρων απαιτείται στασιμότητα, καθώς επίσης θέλουμε το μοντέλο μας να εντοπίζει παροδικές διαδρομές μεταφοράς πληροφορίας, κάτι που δε μπορεί να συμβεί με τη χρήση μιας και μόνο MVAR. Για να καλυφθούν οι παραπάνω περιορισμοί χρησιμοποιήθηκε ένας αναδρομικός αλγόριθμος ελαχίστων τετραγώνων (RLS) που αποδείχθηκε ότι έχει μεγάλη προσαρμοστικότητα. Τα MVAR μοντέλα που αναφέρονται εδώ είναι δεν είναι τίποτε άλλο από τα αυτοπαλινδρομούμενα μοντέλα της εργασίας μας, που εμείς ονομάζουμε VAR (vector auto-regressive models). Για να εξαλείψει το πρόβλημα της μη-στασιμότητας στα προκλητά δυναμικά» (event related potentials - ERP), ο Ding στην εργασία [2] πρότεινε τη χρησιμοποίηση μικρών επικαλυπτόμενων παραθύρων κατά μήκος του χρονικού διαστήματος (short-time windows), στα οποία υποθέτουμε στασιμότητα. Σε καθένα από αυτά τα παράθυρα προσάρμοσε ένα ξεχωριστό πολυμεταβλητό αυτοπαλινδρομούμενο μοντέλο (MVAR), για καθένα από τα οποία υπολόγισε κάποιες παραμέτρους. Οι ποσότητες αυτές αφού υπολογίζονταν στα διαδοχικά μοντέλα που σχηματίσαμε, παρουσίαζαν κάποια εξέλιξη στο χρόνο, η οποία τελικά αναπαριστά την εξέλιξη της δυναμικής του φλοιού, την οποία και μελετάμε. Λόγω αυτής της προσαρμοστικότητας του, το μοντέλο ονομάζεται προσαρμοστικό MVAR (Adaptive AMVAR). Στην εργασία [22] περιγράφεται μια διαδικασία με την οποία παίρνουμε ένα πολυμεταβλητό αυτοπαλινδρομούμενο μοντέλο από εγκεφαλογραφήματα (EEG). Η διάσταση του μοντέλου, δηλαδή το πλήθος των χρονοσειρών που την αποτελούν, είναι ίδια με το πλήθος των καναλιών του EEG. Για την εκτίμηση των παραμέτρων του μοντέλου, χρησιμοποιήθηκε ένας αλγόριθμος RLS ο οποίος ήταν πιο εύκολος στους υπολογισμούς σε σχέση με την τεχνική χρονικών παράθυρων. Οι προσομοιώσεις έγιναν με 9-διάστατα μοντέλα και παρατηρήθηκε ότι η προσαρμοστικότητα του αλγορίθμου δεν επηρεάζονταν από τη διάσταση αυτή. Η εργασία κατέληξε στο συμπέρασμα ότι το χρονικό σημείο της μέγιστης συνοχής (coherence), ήταν ίδιο με το χρονικό σημείο της αντίδρασης. Αντίστοιχα στην εργασία [23] χρησιμοποιείται για τον εντοπισμό κατευθυνόμενων σχέσεων στα εγκεφαλογραφήματα, η τεχνική χρονικών παραθύρων σε καθένα από τα οποία υποθέτουμε στασιμότητα. Για τον εντοπισμό των σχέσεων ανάμεσα στις χρονοσειρές που εξετάζουμε, χρησιμοποιήθηκε το μέτρο αιτιότητας κατά Granger μεταβλητού χρόνου (time-variant Granger causality) και η σημαντικότητα των αποτελεσμάτων καθορίστηκε με τη μέθοδο υποκατάστατων (surrogate data). Με τη 39
40 Χατζηιωαννίδης Γεώργιος μέθοδο που χρησιμοποιήθηκε, εντοπίστηκαν με επιτυχία προσωρινές κατευθυνόμενες διαδράσεις ανάμεσα σε σήματα που προέρχονται από διαφορετικές περιοχές του εγκεφάλου κατά τη γνωστική διαδικασία. Στις εργασίες [25], [26] και [27] που ασχολούνται με εξελικτικά δίκτυα, προτείνεται ένας νέος τρόπος υπολογισμού της προσάρτησης ενός νέου κόμβου σε ένα δίκτυο, ο οποίος ξεφεύγει από τον κλασσικό τύπο των δικτύων ελεύθερης κλίμακας (scale free) αλλά δίνει μεγαλύτερη έμφαση στους γειτονικούς κόμβους του νεοεισερχόμενου κόμβου. Ο νέος κόμβος έχει μεγαλύτερη πιθανότητα να προσαρτηθεί σε κόμβους που βρίσκονται στη γειτονιά του. Αυτή η μέθοδος που φαίνεται να βρίσκεται κάπου ανάμεσα στα εκθετικά και τα ελεύθερα κλίμακας δίκτυα, βρίσκει εφαρμογή σε πολλούς τύπους δυναμικών δικτύων. Στην εργασία [28] ερευνάται η εξέλιξη της σημασίας ενός κόμβου σε ανθρώπινα δίκτυα. Η σημασία αυτή εκτιμάται με τη βοήθεια της εκκεντρότητας, ενός μέτρου που δείχνει κατά πόσο ο κόμβος κατέχει κεντρική θέση στο δίκτυο με την έννοια ότι η επικοινωνία μεταξύ των υπολοίπων κόμβων εξαρτάται από αυτόν. Προτείνονται και εκτιμούνται 8 συναρτήσεις για την πρόβλεψη τριών μέτρων εκκεντρότητας (degree, closeness και betweenness centrality) για το δίκτυο. Η αξιολόγηση γίνεται με βάση ήδη υπάρχοντα δεδομένα από τα οποία ελέγχουμε κατά πόσο αποκλίνει σε κάθε συνάρτηση η προβλεπόμενη από την παρατηρούμενη τιμή. Στην εργασία [29] ερευνάται ένα μοντέλο εξελικτικού δικτύου ελεύθερης κλίμακας, στο οποίο στην πορεία του χρόνου εισάγονται και εξάγονται συνδέσεις. Στα δίκτυα αυτά ελέγχουμε την κατανομή των βαθμών του δικτύου. Κατά τις μεταβάσεις οι συνδέσεις εισάγονται με τη διαδικασία προνομιακής προσάρτηση (preferential attachment - PA), ενώ εξάγονται με μια αντίστοιχη διαδικασία. PA είναι η ιδιότητα που έχουν πολλά δίκτυα στη φύση, κατά την οποία όταν ένας νέος κόμβος εισέρχεται σε ένα δίκτυο, τείνει να δημιουργήσει δεσμούς με τους πιο ισχυρούς ήδη υπάρχοντες κόμβους. Αντίστοιχα ένας κόμβος στο δίκτυο με ελάχιστες συνδέσεις, τείνει να τις χάσει σε επόμενο χρόνο (antipreferential attachment). Η κατανομή των βαθμών στο εξελικτικό δίκτυο που παράγεται εξακολουθεί να ακολουθεί την μορφή των δικτύων ελεύθερης κλίμακας με μικρές διαφοροποιήσεις. Παρόμοιες εργασίες που παρακολουθούν την κατανομή βαθμών σε εξελικτικά δίκτυα είναι οι [30], [3] και [32]. Στην [30] παρουσιάζεται η έννοια duplication με την έννοια ότι μπορεί να δημιουργηθούν αντίγραφα ενός κόμβου στο δίκτυο. Στην εργασία 40
41 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών [32] παρουσιάζεται ένα μοντέλο προνομιακής διαγραφής συνδέσεων (preferential deletion) που έχει μεγάλη εφαρμογή στο διαδίκτυο. Όπως προαναφέρθηκε, αντικείμενο μελέτης αποτέλεσε και το δίκτυο του παγκόσμιου εμπορίου [7], [8]. Το ζητούμενο στις συγκεκριμένες εργασίες είναι εάν και κατά πόσο οι τοπικές ιδιότητες του δικτύου αυτού είναι ικανές να μας δώσουν ιδιότητες υψηλότερης τάξης. Στο δίκτυο αυτό κόμβοι είναι οι χώρες ενώ οι ακμές σχηματίζονται από τον όγκο εμπορίου με άλλες χώρες. Σχηματίζονται δίκτυα κατευθυνόμενα και μη, καθώς και δίκτυα με βάρη [8] και χωρίς βάρη [7]. Τοπικές ιδιότητες στο συγκεκριμένο δίκτυο είναι ο όγκος εισαγωγών ή εξαγωγών καθώς και το πλήθος των χωρών με τις οποίες συναλλάσσεται μια χώρα. Τα μέτρα δικτύου που ελέγχονται σε πρώτη φάση είναι η ακολουθία βαθμών, ο μέσος βαθμός άμεσου γείτονα καθώς και ο συντελεστής συσταδοποίησης. Το δίκτυο ερευνάται σε βάθος έντεκα ετών, κάθε έτος από τα οποία μας δίνει ξεχωριστό δίκτυο ώστε να ελέγξουμε την εξέλιξή του στο χρόνο. Η μελέτη καταλήγει στο συμπέρασμα πως η ακολουθία βαθμών και μόνο του δικτύου είναι αρκετή για να μας δώσει τις ιδιότητες υψηλότερης τάξης του δικτύου καθώς και στο γεγονός ότι ο πιο σημαντικός παράγοντας για το βαθμό κάθε χώρας στο δίκτυο είναι το μέγεθος του ακαθάριστου εθνικού προϊόντος (ΑΕΠ). Σε πολλές εφαρμογές που η παραδοσιακή στατιστική ανάλυση αποτυγχάνει να δώσει απαντήσεις, μπορούμε να χρησιμοποιήσουμε μη-γραμμικές μεθόδους. Στην εργασία [33] χρησιμοποιούνται μη-γραμμικές μέθοδοι ανάλυσης χρονοσειρών (συγκεκριμένα η ανάλυση δικτύων που προκύπτουν από τη λεγόμενη ανάλυση επανεμφάνισης (recurrence analysis) και αναφέρονται ως recurrence network RN) για να εντοπιστούν κλιματικές αλλαγές και η επιρροή αυτών των αλλαγών στην εξέλιξη του ανθρώπινου είδους. Η RNανάλυση είναι αποτελεσματική όταν το πλήθος των παρατηρήσεων είναι περιορισμένο και η κατανομή τους στο χώρο δεν είναι ομοιόμορφη. Επίσης εμφανίζει ευαισθησία στις αλλαγές και επομένως είναι ιδανική για εντοπισμό κρίσιμων σημείων και αλλαγών στη συμπεριφορά πολύπλοκων συστημάτων. Στην έρευνα εφαρμόστηκαν τα μέτρα μέσο μήκος μονοπατιού και μεταβατικότητας (transitivity) σε χρονοσειρές ροής σκόνης. Τα δεδομένα πάρθηκαν από διάφορες περιοχές κοντά στην Αφρικανική ήπειρο, η μελέτη έγινε σε συνεχόμενα χρονικά παράθυρα (time windows) και η ανάλυση των αποτελεσμάτων οδήγησε στον καθορισμό τριών μεταβατικών εποχών. Για τον εντοπισμό αλλαγών της κατάστασης σε δυναμικά συστήματα στην εργασία [34] χρησιμοποιήθηκαν οι καμπύλες ROC και συγκεκριμένα η περιοχή κάτω από την 4
42 Χατζηιωαννίδης Γεώργιος καμπύλη (area under curve AUC). Η περιοχή αυτή χρησιμοποιήθηκε για να υπολογίσουμε την ακρίβεια με την οποία ένα μέτρο βρίσκει το σημείο αλλαγής κατάστασης στο πεδίο του χρόνου. Η χρήση των καμπύλων ROC για τον υπολογισμό της ακρίβειας ενός ελέγχου, περιγράφεται αναλυτικότερα στην παράγραφο
43 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών 5. Οι προσομοιώσεις Σε αυτό το κεφάλαιο θα περιγράψουμε τα πειράματα που έγιναν για να αξιολογηθούν τα μέτρα σύνδεσης χρονοσειρών που περιγράφηκαν στο κεφάλαιο.5, καθώς και για την εκτίμηση της ικανότητας των μέτρων δικτύου που περιγράφηκαν στο κεφάλαιο 2.2 στο να αποδώσουν τη συνδεσιμότητα του δικτύου. Επιπλέον μας ενδιαφέρει να βρούμε ποιος συνδυασμός μέτρου συνδεσιμότητας χρονοσειρών μέτρου δικτύου αποδίδει καλύτερα το πραγματικό δίκτυο. Για να οδηγηθούμε στα συμπεράσματά μας χρησιμοποιήσαμε χρονοσειρές στις οποίες στήσαμε εμείς τις συνδέσεις και η αξιολόγηση κάθε μέτρου έγινε με βάση το κατά πόσο τα αποτελέσματα που παίρνουμε κάθε φορά συμβαδίζουν με τις εκ των προτέρων γνωστές συνδέσεις του μοντέλου. Σε καθένα από τα πειράματα που έγιναν κρατάμε σταθερές ορισμένες παραμέτρους, ενώ μεταβάλλουμε κάποιες άλλες για να κατανοήσουμε τη συμπεριφορά των μέτρων σε διαφορετικές περιπτώσεις. 5. Η διαδικασία που ακολουθήθηκε Σε αυτή την παράγραφο περιγράφεται η διαδικασία που ακολουθήθηκε σε καθένα από τα πειράματα που πραγματοποιήσαμε, καθώς και οι τιμές των παραμέτρων που έμειναν αμετάβλητες σε κάθε περίπτωση. Κατασκευάσαμε ένα αυτοπαλινδρομούμενο μοντέλο τάξης (VAR) που παρήγαγε κ στάσιμες χρονοσειρές (βλ. παρ. 5.. ) με μεγάλο μήκος n=6.44. Σε αυτό επιλέξαμε και κατασκευάσαμε p από τις k(k-) πιθανές συνδέσεις στο πρώτο μισό του μήκους του, δηλαδή μέχρι το χρονικό σημείο n =3.072, ενώ στο δεύτερο μισό μεταβάλλουμε ορισμένες συνδέσεις (προσθέτουμε νέες ή αφαιρούμε ήδη υπάρχουσες) και έχουμε πλέον p συνδέσεις. Δημιουργείτε έτσι μια αλλαγή στις συνδέσεις σε κάποιο σημείο του δικτύου. Για να αποφύγουμε ψευδείς συσχετίσεις που οφείλονται σε αυτοσυσχετίσεις, εφαρμόσαμε σε όλες τις χρονοσειρές του μοντέλου τη διαδικασία της προλεύκανσης, όπως αυτή περιγράφεται στην παράγραφο.6.5, πριν προχωρήσουμε στους υπολογισμούς. Οι υπολογισμοί για τα μέτρα του δικτύου δεν θα γίνουν σε όλο το μήκος n των χρονοσειρών, αλλά σε ένα χρονικό παράθυρο μήκους w το οποίο ξεκινώντας από την χρονική στιγμή t 0 =, προχωράει κατά μήκος του με βήμα v. Οι τιμές που επιλέξαμε για αυτές τις παραμέτρους ήταν w=52 και v=28 και τις κρατήσαμε σταθερές σε κάθε 43
44 Χατζηιωαννίδης Γεώργιος προσομοίωση. Δημιουργήθηκαν με αυτό τον τρόπο 45 επικαλυπτόμενα χρονικά παράθυρα σε κάθε προσομοίωση. Σε κάθε χρονικό παράθυρο που δημιουργήθηκε υπολογίζουμε τα τέσσερα μέτρα χρονοσειρών που επιλέξαμε και σχηματίζουμε και σχηματίζουμε αντίστοιχα τέσσερα δίκτυα. Για να κατασκευαστούν αυτά υπολογίζουμε το μέτρο που μας ενδιαφέρει για κάθε μια από τις k(k-) πιθανές συνδέσεις ανάμεσα στις χρονοσειρές και επιλέγουμε με τρόπο που θα αναλύσουμε παρακάτω (βλ. παρ. 5..2) ποιες θα κρατήσουμε ως σημαντικές. Τα δίκτυα που σχηματίζουμε είναι μη-σταθμισμένα, δηλαδή χωρίς βάρη. Σε καθένα από αυτά τα 45 δίκτυα υπολογίζουμε τα μέτρα δικτύου που καθορίσαμε εξαρχής: το μέσο βαθμό, το μέσο μήκος μονοπατιού και το συντελεστή συσταδοποίησης. Τα αποτελέσματα που θα πάρουμε από την παραπάνω διαδικασία τα συγκρίνουμε στη συνέχεια με τα αναμενόμενα σε κάθε περίπτωση και καταλήγουμε έτσι στην αξιολόγηση των μέτρων μας, η οποία γίνεται με τις μεθόδους που περιγράφονται στην παράγραφο Στασιμότητα των μοντέλων Για να εφαρμοστούν τα μέτρα χρονοσειρών στα μοντέλα που χρησιμοποιήσαμε στις προσομοιώσεις μας, θα έπρεπε τα μοντέλα αυτά να είναι στάσιμα, όπως αυτό αναφέρεται στην παράγραφο.3. Για να πετύχουμε εύκολα τη στασιμότητα στα αυτοπαλινδρομούμενα μοντέλα που σχηματίσαμε, οι πίνακες των συντελεστών που πήραμε ήταν όλοι άνω τριγωνικοί με στοιχεία διαγωνίου κατά απόλυτη τιμή μικρότερα της μονάδας. Όταν οι πίνακες σχηματίζονται με αυτό τον τρόπο, οι ρίζες της χαρακτηριστικής εξίσωσης (ιδιοτιμές) είναι εντός του μοναδιαίου κύκλου και έτσι η AR(p) διαδικασία μας είναι τελικά στάσιμη, σύμφωνα με την παράγραφο H επιλογή των συνδέσεων στις προσομοιώσεις Αρχικά δοκιμάσαμε να πάρουμε τις συνδέσεις με τη βοήθεια ενός ελέγχου τυχαιοποίησης (surrogates). Αυτός ο τρόπος για δίκτυα μεγάλης τάξης, πάνω από 0, δεν έδινε καθόλου συνδέσεις εξαιτίας της διαδικασίας ελέγχου false discovery rate που εφαρμόζονταν στη συνέχεια. Με τη μέθοδο surrogate η ακρίβεια που μπορούμε να πετύχουμε είναι σταθερή και εξαρτάται από το πλήθος s των surrogate που χρησιμοποιούμε και είναι περίπου ίση με 44
45 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών /s. Όμως εξαιτίας του μεγάλου πλήθους των επαναλήψεων, κ(κ-) όπου κ το πλήθος των χρονοσειρών του μοντέλου, η διαδικασία FDR έχει αυξημένες απαιτήσεις σε ακρίβεια, την οποία δεν μπορούμε να πετύχουμε. Ένας άλλος λόγος που απορρίφθηκε τελικά αυτή η μέθοδος είναι ο μεγάλος χρόνος που απαιτήθηκε για τους υπολογισμούς, δεδομένου ότι για κάθε χρονικό παράθυρο έπρεπε να γίνουν υπολογισμοί των μέτρων για κάθε ένα από τους κ(κ-) συνδυασμούς, και σε καθένα από αυτούς, σε κάθε ένα από τα s surrogates. Τελικά καταφύγαμε σε ένα παραμετρικό έλεγχο με στάθμη σημαντικότητας α=0.05, του οποίου οι τιμές δεν είχαν κάτω φράγμα και έτσι η διαδικασία FDR δεν δημιουργούσε πρόβλημα. Επίσης ο υπολογιστικός χρόνος ήταν σημαντικά μειωμένος σε σχέση με τον αντίστοιχο της μεθόδου των surrogates. 5.2 Η αξιολόγηση των αποτελεσμάτων Αυτό που μας απασχολεί στην εργασία, είναι ποιο μέτρο χρονοσειρών από τα τέσσερα αποδίδει καλύτερα τις υπάρχουσες συνδέσεις, καθώς και ποιο από τα μέτρα δικτύου δίνει καλύτερη εικόνα συνολικά για το αρχικό δίκτυο. Επιθυμητό θα ήταν να βρούμε και ποιος συνδυασμός μέτρου χρονοσειρών μέτρου δικτύων λειτουργεί αποτελεσματικότερα σε αυτή την κατεύθυνση. Ένα άλλο ερώτημα που θελήσαμε να απαντήσουμε είναι ποιό μέτρο αντιλαμβάνεται καλύτερα την ύπαρξη αλλαγής κατάστασης στο δίκτυο, δηλαδή ποιο αντιδρά εντονότερα στην αλλαγή. Για να συγκρίνουμε τα μέτρα ως προς την ικανότητά τους να αποδώσουν τις σωστές συνδέσεις στο δίκτυο σε κάθε χρονικό παράθυρο, χρησιμοποιήσαμε τις έννοιες της ευαισθησίας και της ειδικότητας, όπως αυτές περιγράφηκαν στην παρ. 4.. Στις προσομοιώσεις μας, μια σύνδεση που έχουμε τοποθετήσει θεωρείται αληθής (True-T), ενώ αυτές που δεν υπάρχουν θεωρούνται ψευδείς (False-F). Αν το μέτρο που χρησιμοποιούμε απαντήσει θετικά για την ύπαρξη της σύνδεσης, θεωρείται η απάντηση θετική (Positive-P), ενώ αν τη θεωρήσει μη-υπαρκτή, θεωρείται αρνητική (Negative N). Επομένως η ευαισθησία ενός μέτρου καθορίζεται από το ποσοστό των υπαρκτών συνδέσεων που εντόπισε το μέτρο ως τέτοιες (TP), ενώ η ειδικότητα του μέτρου υπολογίζεται από το ποσοστό των μη-υπαρκτών συνδέσεων που το μέτρο θεώρησε ως τέτοιες (FN). Η τιμή που θέσαμε για τη στάθμη σημαντικότητας στους ελέγχους ήταν α=0.05. Στη συνέχεια για να ελέγξουμε αν υπάρχει κάποια άλλη τιμή α που να δίνει καλύτερα 45
46 Χατζηιωαννίδης Γεώργιος αποτελέσματα κάναμε το εξής: Σε κάθε προσομοίωση πήραμε τις τιμές της ευαισθησίας και της ειδικότητας των μέτρων, για διάφορες τιμές της στάθμης σημαντικότητας, από έως 0.05, για να τις συγκρίνουμε. Σε κάθε αλλαγή της τιμής α όπως ήταν αναμενόμενο το ένα μέτρο κέρδιζε σε βάρος του άλλου. Για να ελέγξουμε ποιο μέτρο χρονοσειρών όταν εφαρμοστεί δίνει καλύτερες τιμές στα μέτρα δικτύου, πήραμε και συγκρίναμε τις πραγματικές τιμές με τις παρατηρούμενες με τη βοήθεια του συντελεστή συσχέτισης του Pearson, καθώς και με τη βοήθεια του μέσου τετραγωνικού σφάλματος (ΜΤΣ). Πραγματικές τιμές είναι οι τιμές των μέτρων δικτύου που αναμέναμε από την κατασκευή του δικτύου, ενώ παρατηρούμενες είναι οι τιμές των μέτρων δικτύου που πήραμε από το δίκτυο που μας απόδωσε το μέτρο συνδεσιμότητας που μελετάμε. Όσο η τιμή του συντελεστή συσχέτισης πλησιάζει στη μονάδα, τόσο καλύτερα τα αποτελέσματα που δίνει το μέτρο. Όσον αφορά το σφάλμα, το μέτρο με το μικρότερο σφάλμα είναι και το καλύτερο. Ακόμα για να ελέγξουμε ποιος συνδυασμός μέτρων εντόπιζε με μεγαλύτερη ακρίβεια την αλλαγή στο σύστημα, χρησιμοποιήσαμε τις καμπύλες ROC και συγκεκριμένα το εμβαδό κάτω από τις καμπύλες (βλ. παρ. 4.3). Το αποτέλεσμα θεωρούνταν ικανοποιητικό εάν στο σημείο που έχουμε τοποθετήσει την αλλαγή, η τιμή AUROC ήτανε αρκετά κοντά στη μονάδα, κάτι που θα σήμαινε πως εντοπίζεται μια διαφοροποίηση στις τιμές του μέτρου πριν και μετά την αλλαγή, αλλά ταυτόχρονα στις υπόλοιπες χρονικές στιγμές η τιμή αυτή να είναι αρκετά μικρότερη της μονάδας. Η μέθοδος αυτή εφαρμόστηκε για όλα τα μέτρα δικτύου, σε όλα τα δίκτυα που πήραμε και θεωρούμε ότι εντοπίστηκε η αλλαγή εφόσον το αποτέλεσμα έχει τη τριγωνική μορφή με κορυφή στη μέση του διαστήματος. 5.3 Τα αποτελέσματα των προσομοιώσεων Σε αυτή την παράγραφο παρουσιάζονται οι πιο ενδεικτικές προσομοιώσεις από αυτές που φτιάξαμε και τα αποτελέσματα που πήραμε από αυτές. Οι υπόλοιπες προσομοιώσεις βρίσκονται στο Παράρτημα, στο τέλος της εργασίας. Όλα τα μέτρα για λόγους οικονομίας αναγράφονται με συντομογραφίες βάσει των αγγλικών τους ονομάτων και παρουσιάζονται αναλυτικά στην αρχή του παραρτήματος. Οι σχεδιασμοί που επιλέξαμε να πραγματοποιήσουμε ξεκινάνε από συστήματα μικρού σχετικά πλήθους χρονοσειρών το οποίο αυξάνεται σταθερά μέχρι να φτάσει τις 30 46
47 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών χρονοσειρές, που είναι περίπου το πλήθος των χρονοσειρών της εφαρμογής μας. Επίσης αλλάζουμε σε κάθε προσομοίωση το ποσοστό των συνδέσεων που τοποθετούμε καθώς και το ποσοστό των συνδέσεων που προστίθενται ή αφαιρούνται κατά την αλλαγή Σύστημα 6 χρονοσειρών Η προσομοίωση αυτή είναι ένα σύστημα 6 χρονοσειρών, στο οποίο τοποθετούμε αρχικά 6 συνδέσεις από τις 30 πιθανές και στη συνέχεια προστίθεται μία μόνο σύνδεση. Η προσομοίωση αυτή θα παρουσιαστεί αναλυτικά για να γίνει ευκολότερα κατανοητή η διαδικασία που ακολουθήθηκε και στις υπόλοιπες. Το σύστημα που παράγει τις χρονοσειρές είναι το εξής: Για n= έως : xm(t,)=0.3*xm(t-,)+*xm(t-,3)+*xm(t-,6)+wm(t,); xm(t,2)=0.4*xm(t-,2)+*xm(t-,4)+ wm(t,2); xm(t,3)=0.3*xm(t-,3)+*xm(t-,6)+wm(t,3); xm(t,4)=0.3*xm(t-,4)+0.3*xm(t-,5)+wm(t,4); xm(t,5)=0.3*xm(t-,5)+*xm(t-,6)+wm(t,5); xm(t,6)=0.4*xm(t-,6)+wm(t,6); Για n= έως 6.44 : xm(t,)=0.3*xm(t-,)+*xm(t-,3)+*xm(t-,6)+wm(t,); xm(t,2)=0.4*xm(t-,2)+*xm(t-,4)+*xm(t-,5)+wm(t,2); xm(t,3)=0.3*xm(t-,3)+*xm(t-,6)+wm(t,3); xm(t,4)=0.3*xm(t-,4)+0.3*xm(t-,5)+wm(t,4); xm(t,5)=0.3*xm(t-,5)+*xm(t-,6)+wm(t,5); xm(t,6)=0.4*xm(t-,6)+wm(t,6); Στο πρώτο κομμάτι οι συνδέσεις που τοποθετήσαμε είναι οι (3,), (6,), (4,2), (6,3), (5,4), (6,5) ενώ στο δεύτερο κομμάτι προστέθηκε η σύνδεση (5,2) που δεν υπήρχε προηγουμένως. Αυτές είναι οι συνδέσεις που αναμένουμε να εντοπίσουν τα μέτρα συνδεσιμότητας που χρησιμοποιούμε. Αν τις παραπάνω συνδέσεις τις θεωρήσουμε ως ακμές ενός δικτύου 6 κόμβων, τότε αυτό είναι το πραγματικό δίκτυο της προσομοίωσής 47
48 Μέσο μήκος μονοπατιού Μέσος βαθμός Χατζηιωαννίδης Γεώργιος μας. Με παρόμοιο τρόπο παράγονται και οι υπόλοιπες προσομοιώσεις, αλλά για λόγους συντομίας θα παραθέσουμε μόνο τα τελικά αποτελέσματα που πήραμε. Στο σχήμα 5. φαίνεται πως το μέσο βαθμό προσεγγίζει και πάλι καλύτερα ο, ενώ δεύτερος σε ακρίβεια είναι ο. Οι έμμεσοι δείκτες δίνουν και πάλι τιμές μεγαλύτερες από το αναμενόμενο. Στο σχήμα 5.2 όλοι οι δείκτες δείχνουν να κινούνται γύρω από την αναμενόμενη τιμή του μέσου μήκους μονοπατιού, με μόνο τον να δίνει σημαντικά μεγαλύτερες τιμές, γεγονός το οποίο φαίνεται και στον πίνακα 5. όπου ο έχει το μεγαλύτερο ΜΤΣ για το μέσο μήκος μονοπατιού. Όσον αφορά το συντελεστή συσταδοποίησης, από τους έμμεσους δείκτες παίρνουμε λανθασμένα μεγάλες τιμές, αφού ανακαλύπτουν συστάδες που δεν υπάρχουν στο δίκτυο Πείραμα 2 adr adc adp adg adcg Χρονικό σημείο Σχήμα 5. Ο μέσος βαθμός Πείραμα 2 aspr aspc aspp aspg aspcg Χρονικό σημείο Σχήμα 5.2 Το μέσο μήκος μονοπατιού 48
49 Συντελεστής συσταδοποίησης Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών ccr ccc ccp ccg cccg Πείραμα Χρονικό σημείο Σχήμα 5.3: Ο συντελεστής συσταδοποίησης Οι τιμές AUROC για το μέσο βαθμό Οι τιμές AUROC για το μέσο μήκος μονοπατιού Οι τιμές AUROC για το συντελεστή συσταδοποίησης Σχήμα 5.4 Οι τιμές AUROC του 2 ου πειράματος Το γεγονός ότι προσθέσαμε μόνο μια νέα σύνδεση μετά την αλλαγή, δυσκολεύει το έργο του δείκτη AUROC. Έτσι στο σχήμα 5.4 από τους 2 συνδυασμούς μέτρων, μόνο ο δείκτης στο συντελεστή συσταδοποίησης δίνει τιμή κοντά στη μονάδα και άρα εντοπίζει σωστά το σημείο της αλλαγής. Θεωρούμε ότι η αλλαγή εντοπίστηκε επιτυχημένα από το μέτρο, όταν οι τιμές AUROC έχουν τη συγκεκριμένη τριγωνική μορφή, με την κορυφή να είναι κοντά στη μονάδα στο κέντρο του διαστήματος. Στον πίνακα 5. φαίνεται 49
50 Χατζηιωαννίδης Γεώργιος πως στο μέσο βαθμό οι άμεσοι δείκτες δίνουν τα καλύτερα αποτελέσματα, ενώ στο μέσο μήκος μονοπατιού ο υστερεί σε σχέση με τους υπόλοιπους. Πίνακας 5. Ο συντελεστής συσχέτισης Pearson και το ΜΤΣ για το 2 ο πείραμα Συντελεστής συσχέτισης Pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσο τετραγωνικό σφάλμα Μέσος βαθμός Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης Σχήμα 5.5 Η ειδικότητα για διάφορες τιμές του α. 50
51 Μέσος βαθμός Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Η ευαισθησία είναι ίση με τη μονάδα για κάθε τιμή του α (για αυτό και δεν έχει νόημα να παραθέσουμε το αντίστοιχο σχήμα), ενώ οι τιμές της ειδικότητας είναι κοντά στη μονάδα για τους άμεσους δείκτες, ενώ στους έμμεσους δείκτες πέφτει στο 2 όταν η τιμή του α γίνει 0.05 (σχ. 5.5). Αυτό συμβαίνει επειδή όπως προείπαμε για τη στάθμη σημαντικότητας που επιλέξαμε, ανακαλύπτονται πολλές συνδέσεις που δεν υπάρχουν Σύστημα 0 χρονοσειρών με 5 συνδέσεις Σε αυτή την προσομοίωση, πήραμε ένα σύστημα 0 χρονοσειρών, στο οποίο σχηματίσαμε 5 από τις 90 πιθανές συνδέσεις, ενώ μετά την αλλαγή προστέθηκαν 4 συνδέσεις. Σε αυτό το σύστημα δεν δημιουργούνταν στο δίκτυο συστάδα και επομένως δεν είχε νόημα να κάνουμε τους υπολογισμούς για το συντελεστή συσταδοποίησης, αφού αυτός θα έβγαινε μηδενικός. 7 Πείραμα adr adc adp adg adcg Χρονικό σημείο Σχήμα 5.5: Ο μέσος βαθμός Στο σχήμα 5.5 φαίνονται οι αναμενόμενες τιμές του μέσου βαθμού κατά μήκος των 45 χρονικών παραθύρων, καθώς και οι παρατηρούμενες που πήραμε από τον υπολογισμό των τεσσάρων μέτρων χρονοσειρών. Τα μέτρα και είναι πολύ κοντά στις αναμενόμενες τιμές, ενώ αντίθετα ο και ο έχουν υψηλότερες τιμές, κάτι αναμενόμενο αφού εντόπισαν και αρκετές ψευδείς «έμμεσες» συσχετίσεις. Ομοίως στο 5.6 παίρνουμε τα αποτελέσματα των μέτρων για το μέσο μήκος μονοπατιού. Στο πρώτο μισό 5
52 Μέσο μήκος μονοπατιού Χατζηιωαννίδης Γεώργιος της χρονοσειράς όλα τα μέτρα προσεγγίζουν σημαντικά την πραγματική τιμή, ενώ στο δεύτερο μισό τα άμεσα μέτρα δίνουν καλύτερα αποτελέσματα. 2.6 Πείραμα aspr aspc aspp aspg aspcg Χρονικό σημείο Σχήμα 5.6 Το μέσο μήκος μονοπατιού. Στο σχήμα 5.7 παίρνουμε τις τιμές του εμβαδού κάτω από τις καμπύλες ROC για κάθε πιθανό σημείο αλλαγής στην πορεία του χρόνου. Και σε αυτή την περίπτωση τα άμεσα μέτρα (, ) εντοπίζουν σωστά την αλλαγή που βρίσκεται ακριβώς στη μέση του χρονικού διαστήματος και η τιμή που παίρνει η AUROC είναι η μονάδα, ενώ σε όλες τις προηγούμενες και τις επόμενες τιμές η τιμή είναι αρκετά χαμηλότερη της μονάδας. Οι δείκτες και στο μέσο βαθμό, ενώ εντοπίζουν την αλλαγή στη μέση του διαστήματος, έχοντας τιμή ίση με τη μονάδα, ωστόσο σε επόμενες τιμές η τιμή αυτή εξακολουθεί να βρίσκεται σταθερά κοντά στη μονάδα και επομένως η αλλαγή δε φαίνεται με αρκετή σιγουριά. Στο μέσο μήκος μονοπατιού οι τιμές των και είναι αρκετά χαμηλότερες της μονάδας και δε μπορούμε να θεωρήσουμε ότι εντοπίζεται κάποια αλλαγή. 52
53 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι τιμές AUROC για το μέσο βαθμό σε κάθε μέτρο χρονοσειρών Οι τιμές AUROC για το μέσο μήκος μονοπατιού σε κάθε μέτρο χρονοσειρών. Σχήμα 5.7 Οι τιμές AUROC του ου πειράματος Πίνακας 5.2: Ο Συντελεστής συσχέτισης Pearson και το ΜΤΣ στο ο πείραμα Συντελεστής συσχέτισης Pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσος βαθμός Μέσο τετραγωνικό σφάλμα Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης
54 Χατζηιωαννίδης Γεώργιος Στον πίνακα 5.2 παρουσιάζονται συνοπτικά οι τιμές του συντελεστή συσχέτισης Pearson ανάμεσα στα αναμενόμενα αποτελέσματα και τα παρατηρούμενα για κάθε ένα από τους 2 συνδυασμούς μέτρου χρονοσειράς μέτρου δικτύου. Στη δεύτερη στήλη του ίδιου πίνακα παρουσιάζεται το μέσο τετραγωνικό σφάλμα σε κάθε περίπτωση. Στο μέσο βαθμό όλοι οι δείκτες του συντελεστή συσχέτισης είχαν τιμές κοντά στη μονάδα, ενώ για το μέσο τετραγωνικό σφάλμα ο έχει τη μικρότερη τιμή με σημαντική διαφορά από το δεύτερο, ενώ οι έμμεσοι δείκτες (, ) δεν δίνουν καθόλου καλά αποτελέσματα. Αυτό σημαίνει ότι ενώ όλοι οι δείκτες ακολουθούν την ανοδική τάση της αναμενόμενης τιμής και αυτό φαίνεται από τις τιμές του συντελεστή συσχέτισης, ωστόσο οι τιμές στους έμμεσους δείκτες είναι μακριά από τις πραγματικές, όπως φάνηκε και στο σχήμα 5.5. Οι άμεσοι δείκτες υπερέχουν σε ακρίβεια και στο μέσο μήκος μονοπατιού με τις τιμές του συντελεστή συσχέτισής τους να είναι πολύ κοντά στη μονάδα, με τον να υπερισχύει ελαφρώς, ενώ το ίδιο συμβαίνει και με το μέσο τετραγωνικό σφάλμα όπου η διαφορά του από το να είναι αρκετά μεγάλη. Για το συντελεστή συσταδοποίησης δεν μπορούμε να πάρουμε αποτελέσματα μέσω του συντελεστή συσχέτισης, επειδή η πραγματική του τιμή είναι παντού μηδέν και έτσι μηδενίζεται ο παρανομαστής του Σχήμα 5.8: Η ειδικότητα για διάφορες τιμές του α. 54
55 Μέσος βαθμός Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι τιμές της ευαισθησίας και της ειδικότητας είναι σταθερά ίσες με τη μονάδα για τον, για κάθε τιμή της στάθμης σημαντικότητας α. Στο σχήμα 5.8 φαίνεται πως η τιμή της ειδικότητας για το πέφτει στο 5 για τιμές του α μεγαλύτερες του 0.0, ενώ η ευαισθησία για το δείκτη αυτό ήταν ίση με τη μονάδα για κάθε τιμή του α. Οι έμμεσοι δείκτες έχουν και αυτοί ευαισθησία ίση με τη μονάδα, αφού βρίσκουν όλες τις υπαρκτές συνδέσεις, όμως υστερούν σημαντικά σε ειδικότητα, αφού τείνουν να βρίσκουν πολλές συνδέσεις οι οποίες στην πραγματικότητα δεν υπάρχουν. Η ειδικότητα για τους δείκτες και πέφτει στις τιμές 8 και 5 αντίστοιχα για α=0.05 όπως φαίνεται στο σχήμα Σύστημα 0 χρονοσειρών με συνδέσεις Στην προσομοίωση αυτή ξεκινάμε έχοντας συνδέσεις στο μοντέλο από τις 90 δυνατές και στη συνέχεια αφαιρούμε 3 από αυτές. Τα μέτρα κινούνται με παρόμοιο τρόπο όπως και στις προηγούμενες προσομοιώσεις, με τον να χάνει και σε αυτό το παράδειγμα ορισμένες από τις υπάρχουσες συνδέσεις και επομένως να υστερεί σε ευαισθησία. Αυτό φαίνεται και από το σχήμα 5.9, όπου η τιμή του μέσου βαθμού από τον, είναι μικρότερη της πραγματικής σε ορισμένα σημεία Πείραμα 5 adr adc adp adg adcg Χρονικό σημείο Σχήμα 5.9 Ο μέσος βαθμός 55
56 Συντελεστής συσταδοποίησης Μέσο μήκος μονοπατιού Χατζηιωαννίδης Γεώργιος 2.8 Πείραμα aspr aspc aspp aspg aspcg Χρονικό σημείο Σχήμα 5.0 Το μέσο μήκος μονοπατιού Πείραμα ccr ccc ccp ccg cccg Χρονικό σημείο Σχήμα 5. Ο συντελεστής συσταδοποίησης Σε αυτό το παράδειγμα οι τιμές AUROC δεν προσεγγίζουν με καλή ακρίβεια το σημείο αλλαγής, εκτός από το μέσο βαθμό όπου και εκεί τα αποτελέσματα δεν φαίνονται ικανοποιητικά, αφού η τιμή είναι κοντά στη μονάδα περισσότερες από μία φορά. Στο μέσο μήκος μονοπατιού ο δείκτης εντοπίζει αλλαγή, αλλά σε λανθασμένο χρονικό σημείο και έτσι δε μπορούμε να θεωρήσουμε ότι έδωσε αξιόπιστη πρόβλεψη. Σε όλες τις άλλες περιπτώσεις δεν έχουμε τα αναμενόμενα αποτελέσματα. 56
57 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι τιμές AUROC για το μέσο βαθμό Οι τιμές AUROC για το μέσο μήκος μονοπατιού Οι τιμές AUROC για το συντελεστή συσταδοποίησης Σχήμα 5.2 Οι τιμές AUROC του 5 ου πειράματος Πίνακας 5.3 Ο συντελεστής συσχέτισης Pearson και το ΜΤΣ για το 5 ο πείραμα Συντελεστής συσχέτισης pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσος βαθμός Μέσο τετραγωνικό σφάλμα Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης
58 Χατζηιωαννίδης Γεώργιος Στον πίνακα 5.3 βλέπουμε τον να παίρνει μικρότερη τιμή από τους άλλους δείκτες στο μέσο βαθμό, ενώ στο μέσο μήκος μονοπατιού μόνο ο ακολουθάει σωστά την πορεία του δείκτη αυτού. Συνολικά ο δείκτης είναι πιο κοντά στα αναμενόμενα αποτελέσματα σε κάθε περίπτωση. Η ευαισθησία σε όλα τα μέτρα είναι ίση με τη μονάδα, ενώ η ειδικότητα για μικρές τιμές του α είναι πολύ κοντά στη μονάδα. Όταν το α γίνει 0.05 η ειδικότητα στα άμεσα μέτρα είναι περίπου 7 και στα έμμεσα 5. Στο σχ. 5.3 ο άξονας των y παίρνει τιμές από μέχρι Σχήμα 5.3 Η ειδικότητα για διάφορες τιμές του α Σύστημα 20 χρονοσειρών με 20 συνδέσεις Σε αυτή την προσομοίωση είχαμε αρχικά 20 από τις 380 δυνατές συνδέσεις και στη συνέχεια προσθέσαμε ακόμα 8. Στο σχήμα 5.4 φαίνεται πόσο μεγάλη διαφορά έχουν οι αναμενόμενες τιμές του μέσου βαθμού σε σχέση με τους έμμεσους δείκτες, ιδιαίτερα στο δεύτερο μισό του χρονικού διαστήματος. Στο μέσο μήκος μονοπατιού ο δίνει πολύ μεγάλες τιμές σε σχέση με το αναμενόμενο (σχ. 5.5). 58
59 Συντελεστής συσταδοποίησης Μέσο μήκος μονοπατιού Μέσος βαθμός Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών 30 Πείραμα adr adc adp adg adcg Χρονικό σημείο Σχήμα 5.4 Ο μέσος βαθμός aspr aspc aspp aspg aspcg Πείραμα Χρονικό σημείο Σχήμα 5.5 Το μέσο μήκος μονοπατιού Πείραμα Χρονικό σημείο Σχήμα 5.6 Ο συντελεστής συσταδοποίησης 59
60 Χατζηιωαννίδης Γεώργιος Οι τιμές AUROC για το μέσο βαθμό Οι τιμές AUROC για το μέσο μήκος μονοπατιού Οι τιμές AUROC για το συντελεστή συσταδοποίησης Σχήμα 5.7 Οι τιμές AUROC του 9 ου πειράματος Πίνακας 5.4 Ο συντελεστής συσχέτισης Pearson και το ΜΤΣ για το 9 ο πείραμα Συντελεστής συσχέτισης pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσος βαθμός Μέσο τετραγωνικό σφάλμα Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης
61 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Στο σχήμα 5.6 φαίνεται πως οι τιμές του συντελεστή συσταδοποίησης που παίρνουμε από τα έμμεσα μέτρα, κινούνται σε αντίθετη κατεύθυνση σε σχέση με τις αναμενόμενες. Τα μέτρα δείχνουν αύξηση ενώ στην πραγματικότητα ο συντελεστής μειώνεται μετά την αλλαγή. Η αλλαγή στο σύστημα, εντοπίζεται από όλα τα μέτρα στο μέσο βαθμό (σχ. 5.7), μόνο από τον στο μέσο μήκος μονοπατιού και από όλα τα μέτρα εκτός του στο συντελεστή συσταδοποίησης. Από τον πίνακα 5.4 προκύπτει πως οι άμεσοι δείκτες κινούνται λανθασμένα στο μέσο μήκος μονοπατιού, με τον να δίνει κατά πολύ λανθασμένες τιμές, όπως φαίνεται και από το ΜΤΣ. Επιπλέον οι έμμεσοι δείκτες κινούνται αντίθετα στο συντελεστή συσταδοποίησης. Η ειδικότητα στα άμεσα μέτρα είναι κοντά στη μονάδα, ενώ στα έμμεσα πέφτει στο για α=0.05. Ακόμα και για α=0.000 η ειδικότητα στους έμμεσους δείκτες δεν ξεπερνάει την τιμή (σχ. 5.8). Ο άξονας y y παίρνει τιμές από 0.4 μέχρι Σχήμα 5.8 Η ειδικότητα για διάφορες τιμές του α Σύστημα 30 χρονοσειρών με 55 συνδέσεις και 8 αλλαγές Σε αυτή την προσομοίωση τοποθετήσαμε 54 συνδέσεις ανάμεσα στις 30 χρονοσειρές, από τις 870 πιθανές. Στη συνέχεια προσθέτουμε ακόμα 8 συνδέσεις στο σύστημα. 6
62 Συντελεστής συσταδοποίησης Μέσο μήκος μονοπατιού Μέσος βαθμός Χατζηιωαννίδης Γεώργιος 40 Πείραμα adr adc adp adg adcg Χρονικό σημείο Σχήμα 5.9 Ο μέσος βαθμός Πείραμα 0 aspr aspc aspp aspg aspcg Χρονικό σημείο Σχήμα 5.20 Το μέσο μήκος μονοπατιού ccr ccc ccp ccg cccg Πείραμα Χρονικό σημείο Σχήμα 5.2 Ο συντελεστής συσταδοποίησης 62
63 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι τιμές AUROC για το μέσο βαθμό Οι τιμές AUROC για το μέσο μήκος μονοπατιού Οι τιμές AUROC για το συντελεστή συσταδοποίησης Σχήμα 5.22 Οι τιμές AUROC του 0 ου πειράματος Πίνακας 5.5 Ο συντελεστής συσχέτισης Pearson και το ΜΤΣ για το 0 ο πείραμα Συντελεστής συσχέτισης Pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσος βαθμός Μέσο τετραγωνικό σφάλμα Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης
64 Χατζηιωαννίδης Γεώργιος Ο δείκτης φαίνεται να κινείται σε κάθε περίπτωση πιο κοντά στις αναμενόμενες τιμές, όμως αυτό όπως θα δούμε στην ευαισθησία, οφείλεται στο γεγονός ότι χάνει ορισμένες υπαρκτές συνδέσεις και ανακαλύπτει άλλες που δεν υπήρχαν. Η αλλαγή εντοπίζεται στο μέσο βαθμό από όλα τα μέτρα, ενώ στο μέσο μήκος μονοπατιού και στο συντελεστή συσταδοποίησης μόνο από τα έμμεσα μέτρα (σχ. 5.22). Στο μέσο βαθμό και στο μέσο μήκος μονοπατιού οι άμεσοι δείκτες δίνουν καλύτερα αποτελέσματα (πιν. 5.5), ενώ στο συντελεστή συσταδοποίησης οι άμεσοι δείκτες προσεγγίζουν καλύτερα την πορεία του μέτρου. Σε αυτή την προσομοίωση εντοπίσαμε ένα σημαντικό ελάττωμα στο δείκτη, που ως τώρα φαινόταν να υπερισχύει των υπόλοιπων μέτρων. Σε τόσο μεγάλο πλήθος συνδέσεων υστερεί κατά πολύ σε ευαισθησία σε σχέση με τα υπόλοιπα μέτρα. Ακόμα και για στάθμη σημαντικότητας α=0.05 η τιμή της ευαισθησίας είναι 8 που σημαίνει ότι δεν εντοπίζει περίπου το 2% των συνδέσεων του συστήματος. Τα υπόλοιπα μέτρα έχουν ευαισθησία πολύ κοντά στη μονάδα Σχήμα 5.24 Η ευαισθησία για διάφορες τιμές του α Μία σημαντική παρατήρηση είναι πως ο παρά το γεγονός ότι χάνει συνδέσεις, ωστόσο εξακολουθεί να παραμένει πιο κοντά στην προσέγγιση των μέτρων του δικτύου σε σχέση με τους υπόλοιπους δείκτες. Αυτό συμβαίνει επειδή πολύ απλά ενώ 64
65 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών χάνει ορισμένες συνδέσεις, εντοπίζει κάποιες άλλες που δεν υπάρχουν και έτσι καλύπτει τη διαφορά και δίνει ικανοποιητικές τιμές για τα μέτρα δικτύου. Τα υπόλοιπα μέτρα εντοπίζοντας όλες τις υπαρκτές συνδέσεις αλλά και ορισμένες λάθος ξεφεύγουν στις εκτιμήσεις τους σε μεγαλύτερες τιμές. Η ειδικότητα για τους έμμεσους δείκτες πέφτει σε πολύ χαμηλά επίπεδα, της τάξης του Σχήμα 5.25 Η ειδικότητα για διάφορες τιμές του α Σύστημα 30 χρονοσειρών με 08 συνδέσεις Σε αυτό το πείραμα τοποθετήσαμε 08 συνδέσεις από τις 870 αρχικά, ενώ στη συνέχεια προσθέσαμε ακόμη 8 συνδέσεις. Σε αυτή την προσομοίωση ο προσεγγίζει καλύτερα τα αποτελέσματα στο μέσο βαθμό και στο συντελεστή συσταδοποίησης, ενώ ο δίνει τις καλύτερες τιμές στο μέσο μήκος μονοπατιού. Η αλλαγή στο σύστημα εντοπίζεται από τα έμμεσα μέτρα και τον για το μέσο βαθμό, και μόνο από τα έμμεσα μέτρα στο μέσο μήκος μονοπατιού. Στο συντελεστή συσταδοποίησης η αλλαγή γίνεται αντιληπτή από όλα τα μέτρα εκτός του (σχ. 5.27). 65
66 Συντελεστής συσταδοποίησης Μέσο μήκος μονοπατιού Μέσος βαθμός Χατζηιωαννίδης Γεώργιος adr adc adp adg adcg Πείραμα Χρονικό σημείο Σχήμα 5.26 Ο μέσος βαθμός 2.8 Πείραμα aspr.4 aspc aspp.2 aspg aspcg Χρονικό σημείο Σχήμα 5.27 Το μέσο μήκος μονοπατιού Πείραμα 3 ccr ccc ccp ccg cccg Χρονικό σημείο Σχήμα 5.28 Ο συντελεστής συσταδοποίησης 66
67 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι τιμές AUROC για το μέσο βαθμό Οι τιμές AUROC για το μέσο μήκος μονοπατιού Οι τιμές AUROC για το συντελεστή συσταδοποίησης Σχήμα 5.27 Οι τιμές AUROC του 3 ου πειράματος Πίνακας 5.6 Ο συντελεστής συσχέτισης Pearson και το ΜΤΣ για το 3 ο πείραμα Συντελεστής συσχέτισης Pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσος βαθμός Μέσο τετραγωνικό σφάλμα Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης
68 Χατζηιωαννίδης Γεώργιος Στον πίνακα 5.6 φαίνεται χαρακτηριστικά από το ΜΤΣ πως ο προσεγγίζει καλύτερα τις τιμές του μέσου μήκους μονοπατιού Σχήμα 5.28 Η ευαισθησία για διάφορες τιμές του α Σχήμα 5.29 Η ειδικότητα για διάφορες τιμές του α 68
69 Μέσος βαθμός Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Όσον αφορά την ευαισθησία, ο δείκτης εμφανίζει τη χειρότερη τιμή ευαισθησίας σε σχέση με τους υπόλοιπους δείκτες. Για πολύ μικρές τιμές του α παίρνει τιμή 0.32, ενώ ακόμα και για α=0.05 η ευαισθησία του δεν ξεπερνά την τιμή. Οι υπόλοιποι δείκτες έχουν ευαισθησία σταθερά μεγαλύτερη από 5. Στην ειδικότητα οι άμεσοι δείκτες δεν πέφτουν σε τιμές μικρότερες του. Αντίθετα οι έμμεσοι δείκτες, ακόμα και για α=0.000 η ειδικότητά τους δεν ξεπερνά την τιμή. Για α=0.05 η τιμή της ειδικότητας για τον είναι 0.25 και για τον μόλις 0.2. Αυτό σημαίνει πολύ απλά ότι το 80% των μη υπαρκτών συνδέσεων, εντοπίστηκε από το δείκτη ως υπαρκτό Σύστημα 30 χρονοσειρών με 55 συνδέσεις και 3 αλλαγές Σε αυτή την προσομοίωση τοποθετήσαμε αρχικά 55 συνδέσεις και στη συνέχεια αφαιρέσαμε 3 από αυτές. Η αλλαγή στο πλήθος των συνδέσεων είναι πολύ μικρή και όπως ήταν αναμενόμενο, οι τιμές των μέτρων δε φαίνεται να αλλάζουν σημαντικά, όπως φαίνεται στο σχήμα Το ίδιο συμβαίνει και με το μέσο μήκος μονοπατιού, στο σχήμα 5.3. Αντίθετα στο συντελεστή συσταδοποίησης φαίνεται η αλλαγή αυτή να γίνεται αντιληπτή στο σχήμα Τα συμπεράσματα αυτά ενισχύονται και από τις τιμές του πίνακα 5.7, όπου ο συντελεστής συσχέτισης στο μέσο βαθμό είναι αρνητικός, ενώ στο μέσο μήκος μονοπατιού κινείται κοντά στο 0. Αντίθετα στο συντελεστή συσταδοποίησης οι τιμές είναι θετικές και μεγαλύτερες από, εκτός από τον δείκτη adr adc adp adg adcg Πείραμα Χρονικό σημείο Σχήμα 5.30 Ο μέσος βαθμός 69
70 Συντελεστής συσταδοποίησης Μέσο μήκος μονοπατιού Χατζηιωαννίδης Γεώργιος Πείραμα 4 aspr aspc aspp aspg aspcg Χρονικό σημείο Σχήμα 5.3 Το μέσο μήκος μονοπατιού 0.4 ccr ccc ccp ccg cccg Πείραμα Χρονικό σημείο Σχήμα 5.32 Ο συντελεστής συσταδοποίησης Οι τιμές AUROC για το μέσο βαθμό Οι τιμές AUROC για το μέσο μήκος μονοπατιού
71 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Οι τιμές AUROC για το συντελεστή συσταδοποίησης Σχήμα 5.33 Οι τιμές AUROC του 4 ου πειράματος Πίνακας 5.7 Ο συντελεστής συσχέτισης Pearson και το ΜΤΣ για το 4 ο πείραμα Συντελεστής συσχέτισης pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσος βαθμός Μέσο τετραγωνικό σφάλμα Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης Στο σχήμα 5.34 βλέπουμε και πάλι την ευαισθησία να κινείται σε ικανοποιητικά επίπεδα για τα μέτρα, εκτός του, του οποίου οι τιμές ξεκινάνε από 5 για α=0.000 και φτάνουν στην τιμή 8 για α=0.05. Η ειδικότητα για τα άμεσα μέτρα κυμαίνεται σε τιμές πάνω από 5, ενώ στα έμμεσα μέτρα για α=0.05 παίρνει τιμή 7, όπως φαίνεται στο σχήμα
72 Χατζηιωαννίδης Γεώργιος Σχήμα 5.34 Η Ευαισθησία για διάφορες τιμές του α Σχήμα 5.35 Η Ειδικότητα για διάφορες τιμές του α 72
73 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών 5.4 Τα αποτελέσματα συνοπτικά Σε αυτή την παράγραφο παρουσιάζεται συνοπτικά η αξιολόγηση των μέτρων όπως προέκυψε συνολικά από τις 4 προσομοιώσεις που πραγματοποιήθηκαν. Στην πρόβλεψη των πραγματικών τιμών των μέτρων δικτύου, την καλύτερη επίδοση από κάθε άποψη πέτυχε ο συντελεστής μερικής διασυσχέτισης (). Αυτό φαίνεται από τις τιμές του συντελεστή συσχέτισης αλλά ακόμα περισσότερο από το μέσο τετραγωνικό σφάλμα, που δείχνει ότι σχεδόν σε κάθε προσομοίωση προσέγγιζε με μεγάλη ακρίβεια τις αναμενόμενες τιμές (πιν. 5.8). Αμέσως μετά έρχεται ο δείκτης αιτιότητας κατά Granger υπό συνθήκη (), με μεγάλη διαφορά από τους έμμεσους δείκτες, των οποίων οι παρατηρούμενες τιμές απέκλιναν κατά πολύ των πραγματικών σε όλες σχεδόν τις περιπτώσεις. Πίνακας 5.8: Οι μέσες τιμές του συντελεστή συσχέτισης Pearson και του μέσου τετραγωνικού σφάλματος από τις προσομοιώσεις Συντελεστής συσχέτισης Pearson και μέσο τετραγωνικό σφάλμα Μέτρο χρονοσειρών Συντελεστής συσχέτισης Μέσο τετραγωνικό σφάλμα Μέσος βαθμός Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης
74 Χατζηιωαννίδης Γεώργιος Όσον αφορά τον εντοπισμό της αλλαγής στον πίνακα 5.9 φαίνεται πως το μεγαλύτερο ποσοστό επιτυχίας είχε ο μέσος βαθμός, με μέσο όρο 67,75%, με τη μεγαλύτερη τιμή να επιτυγχάνεται από το δείκτη 79% με το να ακολουθεί με ποσοστό 7%. Τα ποσοστά αυτά υπολογίστηκαν εποπτικά από τις σχήματα των τιμών AUROC στα οποία θεωρήσαμε επιτυχημένο τον εντοπισμό της αλλαγής, όταν μόνο στη μέση του διαστήματος, η τιμές πλησίαζαν τη μονάδα, ενώ στα άλλα χρονικά σημεία ήταν χαμηλότερες της μονάδας. Το μέσο μήκος μονοπατιού και ο συντελεστής συσταδοποίησης δεν έδωσαν καθόλου ικανοποιητικά αποτελέσματα συνολικά, με μόνους τους έμμεσους δείκτες στο συντελεστή συσταδοποίησης να πετυχαίνουν σε ποσοστό μεγαλύτερο του 50% την αλλαγή κατάστασης του συστήματος. Πίνακας 5.9 Ποσοστό επιτυχίας κάθε συνδυασμού μέτρου χρονοσειράς μέτρου δικτύου στον εντοπισμό της αλλαγής στις 4 προσομοιώσεις, και κατά μέσο όρο το ποσοστό επιτυχίας κάθε μέτρου. Μέσος βαθμός 7% 57% 64% 79% 67,75% Μέσο μήκος μονοπατιού Συντελεστής συσταδοποίησης 2% 4% 2% 2% 9,25% 57% 4% 57% 2% 37,25% 49,7% 28,3% 47,3% 40,3% Το τελευταίο θέμα που μας απασχόλησε στην εργασία ήταν το ποσοστό εντοπισμού υπαρκτών συνδέσεων από κάθε μέτρο (ευαισθησία) και το ποσοστό απόρριψης μη υπαρκτών συνδέσεων (ειδικότητα) από τα μέτρα. Όσον αφορά την ευαισθησία, τις καλύτερες επιδόσεις πέτυχε ο, με πολύ μικρή διαφορά από τους έμμεσους δείκτες, οι οποίοι κινήθηκαν στα ίδια επίπεδα. Ο σε αυτό τον τομέα έδειξε να υστερεί σημαντικά, με την ευαισθησία του να πέφτει σημαντικά καθώς το πλήθος των συνδέσεων του συστήματος μεγάλωνε. Στην ειδικότητα από την άλλη οι άμεσοι δείκτες κινήθηκαν σε κάθε περίπτωση σε τιμές μεγαλύτερες του 90%, ενώ οι έμμεσοι σε δίκτυα με πολλές συνδέσεις έπεσαν σε τιμές μέχρι και 20%. 74
75 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών 6. Εφαρμογή σε χρηματιστηριακά δεδομένα Σε αυτό το κεφάλαιο θα εφαρμόσουμε τα γραμμικά μέτρα συνδεσιμότητας που εξετάσαμε προηγουμένως σε δεδομένα χρηματιστηριακών δεικτών από 23 χώρες που χαρακτηρίζονται ως ανεπτυγμένες. Στόχος μας είναι να δημιουργήσουμε ένα εξελικτικό δίκτυο συσχετίσεων ανάμεσα στους δείκτες, το οποίο θα μελετήσουμε ως προς τα μέτρα δικτύου και θα εντοπίσουμε τυχόν αλλαγές στην κατάστασή τους με τη μεθοδολογία που περιγράφηκε στο προηγούμενο κεφάλαιο. Τα δεδομένα είναι παρμένα από τη Morgan Stanley [37] και αποτελούν σταθμισμένους δείκτες μετοχών εταιριών που θεωρούνται αντιπροσωπευτικές για των αγορών στις οποίες βρίσκονται, σε διάστημα πέντε ετών από 5/3/2004 έως 5/3/2009. Συνήθως για εξαγωγή συμπερασμάτων χρησιμοποιούνται οι αποδόσεις των μετοχών, κυρίως για να επιτευχθεί η στασιμότητα, εδώ όμως κρατήσαμε τις τιμές των δεικτών, στους οποίους η στασιμότητα επιτυγχάνεται με τη βοήθεια της προλεύκανσης που εφαρμόζουμε. Επίσης κρατήσαμε μόνο τις τιμές των εργάσιμων ημερών και έτσι πήραμε συνολικά.300 τιμές, αφού τα Σαββατοκύριακα και οι αργίες έχουν αφαιρεθεί. Οι χώρες που αφορούν τα δεδομένα φαίνονται στον πίνακα 6.. Πίνακας 6. Οι ανεπτυγμένες χώρες από τις οποίες πήραμε τους χρηματιστηριακούς δείκτες. Αυστρία 8. Ιρλανδία 5. Ελβετία 22. Νέα Ζηλανδία 2. Βέλγιο, 9. Ιταλία 6. Ηνωμένο Βασ. 23.Σιγκαπούρη 3. Δανία 0. Ολλανδία 7. Η.Π.Α. 4. Φιλανδία. Νορβηγία 8. Καναδάς 5. Γαλλία 2. Πορτογαλία 9. Αυστραλία 6. Γερμανία, 3. Ισπανία 20. Χονγκ-Κονγκ 7. Ελλάδα 4. Σουηδία 2. Ιαπωνία 75
76 Χατζηιωαννίδης Γεώργιος 6. Η διαδικασία που ακολουθήσαμε Για την μελέτη των δεδομένων σε αυτή την εφαρμογή, ακολουθήσαμε διαδικασία παρόμοια με αυτή των προσομοιώσεων. Χωρίσαμε το σύστημα χρονοσειρών με τη βοήθεια ενός χρονικού παραθύρου που κινείται με κάποιο βήμα κατά μήκος του χρονικού διαστήματος των.300 ημερών. Αρχικά έπρεπε να αποφασίσαμε τι μήκος θα είχε το χρονικό παράθυρο και αν τα παράθυρα θα ήταν επικαλυπτόμενα. Στην εφαρμογή μας πήραμε τελικά παράθυρα μήκους 200 ημερών, με βήμα 00 και επομένως τα παράθυρά μας ήταν επικαλυπτόμενα. Στη συνέχεια υπολογίσαμε τις τιμές των τεσσάρων μέτρων συνδεσιμότητας και πήραμε τις συνδέσεις των δικτύων με στάθμη σημαντικότητας α=0.05. Σε κάθε περίπτωση πήραμε ένα σύνολο 2 δικτύων σε όλη τη χρονική διάρκεια των πέντε ετών. Σε αυτά τα δίκτυα υπολογίσαμε τα μέτρα δικτύων, για να δούμε αν υπάρχει κάποια τάση. Επίσης με τις καμπύλες ROC ερευνήσαμε αν υπάρχει κάποιο σημείο αλλαγής κατάστασης στο δίκτυο. 6.2 Το δίκτυο του δείκτη αιτιότητας κατά Granger Σχήμα 6. Το δίκτυο που μας δίνει ο δείκτης αιτιότητας κατά Granger στο 3 ο βήμα. Η Ελλάδα και η Πορτογαλία δεν έχουν καμία σύνδεση, ενώ η Η.Π.Α. είναι ο κυρίαρχος κόμβος 76
77 Χρονικά αναπτυγμένα πολύπλοκα δίκτυα από κυλιόμενα παράθυρα σε καταγραφές χρονοσειρών Σχήμα 6.2 Το δίκτυο που μας δίνει ο δείκτης αιτιότητας κατά Granger στο 8 ο βήμα. Το πλήθος των συνδέσεων έχει αυξηθεί σημαντικά Στο σχήμα 6.3 βλέπουμε ότι ο μέσος βαθμός του δικτύου που παίρνουμε από το αυξήθηκε αισθητά με την πάροδο του χρόνου. Στα δίκτυα των σχημάτων 6. και 6.2 φαίνεται χαρακτηριστικά αυτή η αλλαγή στο πλήθος των ακμών. Ενώ θα περιμέναμε το μέσο μήκος μονοπατιού αντίστοιχα να μειώνεται, αυτό δε συμβαίνει. Ο συντελεστής συσταδοποίησης αυξάνεται αισθητά μετά το 7 ο χρονικό σημείο. Οι τιμές των δεικτών AUROC στο σχήμα 6.4 φαίνεται να μη συμφωνούν όσον αφορά την ύπαρξη αλλαγής, με το μέσο βαθμό να δείχνει πιθανή αλλαγή στο 4 ο βήμα, το μέσο μήκος μονοπατιού στο 8 ο και το συντελεστή συσταδοποίησης στο 7 ο. Από τα αποτελέσματα που πήραμε φαίνεται πως οι Η.Π.Α. αποτελούν τη χώρα με τη μεγαλύτερη επιρροή, ενώ οι χώρες που επηρεάζονται περισσότερο είναι το Χονγκ- Κονγκ, η Ιαπωνία, η Αυστραλία και η Νέα Ζηλανδία. Μεγάλη επιρροή φαίνεται να ασκεί και ο Καναδάς, όμως πολύ πιθανό αυτό να εμφανίζεται ως έμμεση συσχέτιση μέσω των Η.Π.Α.. 77
ΜΑΘΗΜΑ 3ο. Βασικές έννοιες
ΜΑΘΗΜΑ 3ο Βασικές έννοιες Εισαγωγή Βασικές έννοιες Ένας από τους βασικότερους σκοπούς της ανάλυσης των χρονικών σειρών είναι η διενέργεια των προβλέψεων. Στα υποδείγματα αυτά η τρέχουσα τιμή μιας οικονομικής
Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008
Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008 1 Τύποι Οικονομικών Δεδομένων Τα οικονομικά δεδομένα που χρησιμοποιούνται για την εξέταση οικονομικών φαινομένων μπορεί να έχουν τις ακόλουθες
Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,
Αναλυτική Στατιστική
Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων
Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21
ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις
Μάθημα 5-6: Στάσιμες πολυμεταβλητές χρονοσειρές και μοντέλα Διασυσχέτιση Διανυσματικά αυτοπαλίνδρομα μοντέλα Δίκτυα από πολυμεταβλητές χρονοσειρές
Μάθημα 5-6: Στάσιμες πολυμεταβλητές χρονοσειρές και μοντέλα Διασυσχέτιση Διανυσματικά αυτοπαλίνδρομα μοντέλα Δίκτυα από πολυμεταβλητές χρονοσειρές Αιτιότητα κατά Granger Ασκήσεις Ανάλυση μονομεταβλητής
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο
Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική
ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΡΟΣ B Δημήτρης Κουγιουμτζής e-mal: dkugu@auth.gr Ιστοσελίδα αυτού του τμήματος του μαθήματος: http://uer.auth.gr/~dkugu/teach/cvltraport/dex.html Εφαρμοσμένη Στατιστική:
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος
Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή
Χρονικές σειρές 12 Ο μάθημα: Έλεγχοι στασιμότητας ΑΝΑΚΕΦΑΛΑΙΩΣΗ: Εκτίμηση παραμέτρων γραμμικών μοντέλων Συνάρτηση μερικής αυτοσυσχέτισης Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική
Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά
Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων
Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης
1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από
ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική
ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική Ενότητα 3: Έλεγχοι υποθέσεων - Διαστήματα εμπιστοσύνης Δρ.Ευσταθία Παπαγεωργίου, Αναπληρώτρια Καθηγήτρια Οι ερευνητικές υποθέσεις Στην έρευνα ελέγχουμε
LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης
Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός
Κεφάλαιο 9. Έλεγχοι υποθέσεων
Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές
Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής
Κεφάλαιο 9. Έλεγχοι υποθέσεων
Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές
6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων
6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά
ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ
ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης
ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΣΜΕΝΗ ΝΕΥΡΟΑΝΑΤΟΜΙΑ» «Βιοστατιστική, Μεθοδολογία και Συγγραφή Επιστημονικής Μελέτης» Ενότητα 2: Έλεγχοι Υποθέσεων
Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv
Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,
Συσχέτιση μεταξύ δύο συνόλων δεδομένων
Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν
Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 3 Ο μάθημα: Βασικές στοχαστικές διαδικασίες Μη στάσιμες χρονοσειρές Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,
Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017
Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών
Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης
Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα
ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13
ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7 ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13 1.1. Εισαγωγή 13 1.2. Μοντέλο ή Υπόδειγμα 13 1.3. Η Ανάλυση Παλινδρόμησης 16 1.4. Το γραμμικό μοντέλο Παλινδρόμησης 17 1.5. Πρακτική χρησιμότητα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές
Χρονικές σειρές 10 Ο μάθημα: Μη στάσιμα μοντέλα ARIMA Μεθοδολογία Box-Jenkins Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ
Χρονικές σειρές 10 Ο μάθημα: Μη στάσιμα μοντέλα ARIMA Μεθοδολογία Box-Jenkins Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ.
Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς
Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας πληθυσμιακής παραμέτρου. Είναι
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής ΑΥΤΟΣΥΣΧΕΤΙΣΗ Στις βασικές υποθέσεις των γραμμικών υποδειγμάτων (απλών και πολλαπλών), υποθέτουμε ότι δεν υπάρχει αυτοσυσχέτιση (autocorrelation
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 4ο
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΜΑΘΗΜΑ 4ο Διαδικασία των συντελεστών αυτοσυσχέτισης Ονομάζουμε συνάρτηση αυτοσυσχέτισης (autocorrelation function) και συμβολίζεται με τα γράμματα
Χρονοσειρές, Μέρος Β 1 Πρόβλεψη Χρονικών Σειρών
Χρονοσειρές, Μέρος Β Πρόβλεψη Χρονικών Σειρών Ο βασικός σκοπός της μελέτης των μοντέλων για χρονικές σειρές (όπως AR, MA, ARMA, ARIMA, SARIMA) είναι η πρόβλεψη (predicio, forecasig) Η πρόβλεψη των μελλοντικών
ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ
9. Παλινδρόμηση και Συσχέτιση
9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε
Οικονομικές εφαρμογές υπολογιστικών πακέτων. Στοχαστικά υποδείγματα
Οικονομικές εφαρμοές υπολοιστικών πακέτων Στοχαστικά υποδείματα Στοχαστική διαδικασία Στοχαστικά υποδείματα: κάθε χρονολοική σειρά δημιουρείται μέσα από ένα μηχανισμό παραωής δεδομένων που αποτελεί μια
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 5ο
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΜΑΘΗΜΑ 5ο Μοναδιαία ρίζα Είδαμε προηγουμένως πως ο έλεγχος της στασιμότητας μιας χρονικής σειράς μπορεί να γίνει με τη συνάρτηση αυτοσυσχέτισης.
Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test
1 Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου One-Sample t-test 2 Μια σύντομη αναδρομή Στα τέλη του 19 ου αιώνα μια μεγάλη αλλαγή για την επιστήμη ζυμώνονταν στην ζυθοποιία Guinness. Ο William Gosset
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές
3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ
3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Πρόβλημα: Ένας ραδιοφωνικός σταθμός ενδιαφέρεται να κάνει μια ανάλυση για τους πελάτες του που διαφημίζονται σ αυτόν για να εξετάσει την ποσοστιαία μεταβολή των πωλήσεων
Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R
Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών
Αν έχουμε δύο μεταβλητές Χ και Υ και σύμφωνα με την οικονομική θεωρία η μεταβλητή Χ προσδιορίζει τη συμπεριφορά της Υ το ερώτημα που τίθεται είναι αν
ΜΑΘΗΜΑ 12ο Αιτιότητα Ένα από τα βασικά προβλήματα που υπάρχουν στην εξειδίκευση ενός υποδείγματος είναι να προσδιοριστεί η κατεύθυνση που μία μεταβλητή προκαλεί μία άλλη σε μία εξίσωση παλινδρόμησης. Στην
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές
Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17
Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις
Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών
Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για
Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος
ΜΑΘΗΜΑ 10 ο Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος Η μέθοδος της συνολοκλήρωσης είναι ένας τρόπος με τον οποίο μπορούμε να εκτιμήσουμε τη μακροχρόνια σχέση ισορροπίας που υπάρχει μεταξύ δύο ή
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7ο μάθημα: Πολυμεταβλητή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου
Χρονικές σειρές 8 Ο μάθημα: Μοντέλα κινητού μέσου Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα, Πανεπιστήμιο
Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )
Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική (Η
Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς
Στατιστική Ανάλυση ιασποράς με ένα Παράγοντα One-Way Anova Χατζόπουλος Σταύρος Κεφάλαιο 8ο. Ανάλυση ιασποράς 8.1 Εισαγωγή 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς 8.3 Ανάλυση ιασποράς με
Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017
Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ. Σημειώσεις Πανεπιστημιακών Παραδόσεων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ Τμήμα Μαθηματικών ΧΡΟΝΟΣΕΙΡΕΣ Σημειώσεις Πανεπιστημιακών Παραδόσεων ΑΛΕΞΑΝΔΡΟΣ ΜΗΛΙΏΝΗΣ ΟΚΤΩΒΡΙΟΣ 07 ΚΕΦΑΛΑΙΟ ΧΡΟΝΟΣΕΙΡΕΣ- ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. ΟΡΙΣΜΟΣ
ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 10: Οικονομετρικά προβλήματα: Παραβίαση των υποθέσεων Β μέρος: Ετεροσκεδαστικότητα Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr
Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)
Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2) Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό Τμήμα,
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΤΕΤΑΡΤΟ ΑΥΤΟΠΑΛΙΝΔΡΟΜΑ ΥΠΟΔΕΙΓΜΑΤΑ AR(p) Δρ. Κουνετάς Η Κωνσταντίνος ΕΠΙΧ Τεχνικές Προβλέψεων & Ελέγχου ιαφάνεια
Απλή Παλινδρόμηση και Συσχέτιση
Απλή Παλινδρόμηση και Συσχέτιση Πωλήσεις, Δαπάνες Διαφήμισης και Αριθμός Πωλητών Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) 98 050 6 3 989
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση
HMY 799 1: Αναγνώριση Συστημάτων
HMY 799 : Αναγνώριση Συστημάτων Διάλεξη Γραμμική παλινδρόμηση (Linear regression) Εμπειρική συνάρτηση μεταφοράς Ομαλοποίηση (smoothing) Y ( ) ( ) ω G ω = U ( ω) ω +Δ ω γ ω Δω = ω +Δω W ( ξ ω ) U ( ξ) G(
ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17
ΚΕΦΑΛΑΙΟ 17 ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο κεφάλαιο αυτό θα αναφερθούμε σε ένα άλλο πρόβλημα της Στατιστικής που έχει κυρίως (αλλά όχι μόνο) σχέση με τις παραμέτρους ενός πληθυσμού (τις παραμέτρους της κατανομής
ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ
ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Συντελεστής συσχέτισης (εκτιμητής Person: r, Y ( ( Y Y xy ( ( Y Y x y, όπου r, Y (ισχυρή θετική γραμμική συσχέτιση όταν, ισχυρή αρνητική
ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία
ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ Οικονομετρία 4.1 Πολλαπλό Γραμμικό Υπόδειγμα Παλινδρόμησης Γενικεύοντας τη διμεταβλητή (Y, X) συνάρτηση
Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο
Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο «Περιγραφική & Επαγωγική Στατιστική» 1. Πάνω από το 3 ο τεταρτημόριο ενός δείγματος βρίσκεται το: α) 15%
ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ
ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 6: Ανάλυση γραμμικού υποδείγματος Πολυμεταβλητή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage:
Γ. Πειραματισμός - Βιομετρία
Γ. Πειραματισμός - Βιομετρία Πληθυσμοί και δείγματα Πληθυσμός Περιλαμβάνει όλες τις πιθανές τιμές μιας μεταβλητής, δηλαδή αναφέρεται σε μια παρατήρηση σε όλα τα άτομα του πληθυσμού Ο πληθυσμός προσδιορίζεται
Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3
(ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,
2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για
2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο
Διαχείριση Υδατικών Πόρων
Εθνικό Μετσόβιο Πολυτεχνείο Διαχείριση Υδατικών Πόρων Γ.. Τσακίρης Μάθημα 3 ο Λεκάνη απορροής Υπάρχουσα κατάσταση Σενάριο 1: Μέσες υδρολογικές συνθήκες Σενάριο : Δυσμενείς υδρολογικές συνθήκες Μελλοντική
HMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις
Γ. Πειραματισμός Βιομετρία
Γενικά Συσχέτιση και Συμμεταβολή Όταν σε ένα πείραμα παραλλάσουν ταυτόχρονα δύο μεταβλητές, τότε ενδιαφέρει να διερευνηθεί εάν και πως οι αλλαγές στη μία μεταβλητή σχετίζονται με τις αλλαγές στην άλλη.
Εξαμηνιαία Εργασία Β. Κανονική Κατανομή - Επαγωγική Στατιστική
1 ΕΞΑΜΗΝΙΑΙΑ Β ΤΟ ΦΩΤΟΒΟΛΤΑΙΚΟ ΠΑΡΚΟ ΑΣΠΑΙΤΕ Τμήμα Εκπαιδευτικών Ηλεκτρολογίας Εργαστήριο Συλλογής και Επεξεργασίας Δεδομένων Διδάσκοντες: Σπύρος Αδάμ, Λουκάς Μιχάλης, Παναγιώτης Καράμπελας Εξαμηνιαία
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ
ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΤΡΙΤΟ ΣΥΝΑΡΤΗΣΗ ΑΥΤΟΣΥΣΧΕΤΙΣΗΣ-ΕΛΕΓΧΟΣ ΣΤΑΣΙΜΟΤΗΤΑΣ Δρ. Κουνετάς Η Κωνσταντίνος ΕΠΙΧ Τεχνικές Προβλέψεων & Ελέγχου
Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Προετοιμασία & Ανάλυση Χρονοσειράς http://www.fsu.gr
Διαδικασία Ελέγχου Μηδενικών Υποθέσεων
Διαδικασία Ελέγχου Μηδενικών Υποθέσεων Πέτρος Ρούσσος, Τμήμα Ψυχολογίας, ΕΚΠΑ Η λογική της διαδικασίας Ο σάκος περιέχει έναν μεγάλο αλλά άγνωστο αριθμό (αρκετές χιλιάδες) λευκών και μαύρων βόλων: 1 Το
Ενότητα 3. Έλεγχος υπόθεσης. Σύγκριση μέσων τιμών
Ενότητα 3 Έλεγχος υπόθεσης. Σύγκριση μέσων τιμών Εκτός από τις μέσες τιμές, τυπικές αποκλίσεις κλπ, θέλουμε να βρούμε κατά πόσον αυτές οι παρατηρούμενες τάσεις εξαρτώνται από συγκεκριμένες συνθήκες ή προϋποθέσεις.
Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών
(ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών ΠΑΝΕΠΙΣΤΗΜΙΟ
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34
Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης
ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά
ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 015 Ανάλυση Διακύμανσης Η Ανάλυση Διακύμανσης είναι μία τεχνική που
Αριθμητική Ανάλυση και Εφαρμογές
Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα
Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου Όρου (ARIMA)
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Αυτοπαλινδρομικά Μοντέλα Κινητού Μέσου
Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)
Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει
ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ
ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών
Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»
Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία
HMY 799 1: Αναγνώριση Συστημάτων
HMY 799 : Αναγνώριση Συστημάτων Διάλεξη Στοχαστικές Τυχαίες Μεταβλητές/ Στοχαστικά Σήματα Πειραματικά δεδομένα >Επιλογή τύπου μοντέλου >Επιλογή κριτηρίου >Υπολογισμός >Επικύρωση Προσαρμογή καμπύλης (Curve
ΜΑΘΗΜΑ 4 ο. Μοναδιαία ρίζα
ΜΑΘΗΜΑ 4 ο Μοναδιαία ρίζα Είδαμε προηγουμένως πως ο έλεγχος της στασιμότητας μιας χρονικής σειράς μπορεί να γίνει με τη συνάρτηση αυτοσυσχέτισης. Ένας άλλος τρόπος που χρησιμοποιείται ευρύτατα στην ανάλυση
Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017
Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική
ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ
ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ ΚΕΦΑΛΑΙΟ 1 ο : ΔΙΑΝΥΣΜΑΤΑ 1 ΜΑΘΗΜΑ 1 ο +2 ο ΕΝΝΟΙΑ ΔΙΑΝΥΣΜΑΤΟΣ Διάνυσμα ορίζεται ένα προσανατολισμένο ευθύγραμμο τμήμα, δηλαδή ένα ευθύγραμμο τμήμα
Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)
Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 11: Αυτοσυσχέτιση Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1 Περιεχόμενο ενότητας
Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..
Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας