Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 8 ου Πανελληνίου Συνεδρίου Στατιστικής (2005) σελ.29-36 ΑΝΑΛΥΣΗ ΔΙΤΙΜΩΝ ΧΡΟΝΟΣΕΙΡΩΝ: ΒΡΟΧΟΠΤΩΣΕΙΣ ΤΟΥ ΝΟΜΟΥ ΙΩΑΝΝΙΝΩΝ Μανώλης Δρυμώνης και Μαρία Κατέρη Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης Πανεπιστήμιο Πειραιά ΠΕΡΙΛΗΨΗ Στην εργασία αυτή θα αναφερθούμε εν συντομία στην θεωρία παλινδρόμησης για κατηγορικές χρονοσειρές, η οποία βασίζεται σε γνωστά αποτελέσματα των γενικευμένων γραμμικών μοντέλων καθώς και στην συμπερασματολογία με τη μέθοδο της μερικής πιθανοφάνειας. Η παραπάνω μεθοδολογία εφαρμόζεται στην μοντελοποίηση της δίτιμης χρονοσειράς των ημερησίων δεδομένων βροχόπτωσης του νομού Ιωαννίνων, για την περίοδο 4//995 έως την 3/2/999. Τα αποτελέσματα της ανάλυσής μας συμφωνούν με τον φυσικό μηχανισμό που διαμορφώνει τις βροχοπτώσεις στην συγκεκριμένη περιοχή.. ΕΙΣΑΓΩΓΗ Διαθέτουμε την ημερήσια βροχόπτωση σε mm για μια περίοδο Ν=823 ημερών από τις 4//995 έως τις 3/2/999, για τον νομό Ιωαννίνων. Με βάση τα δεδομένα μας, θα προσπαθήσουμε να ερμηνεύσουμε την συμπεριφορά του φαινομένου της βροχής στην δεδομένη περιοχή. Θα αναλύσουμε τη δίτιμη χρονοσειρά της βροχόπτωσης, ένα τμήμα της οποίας δίνεται στο Σχήμα. Η μεταβλητή ενδιαφέροντος λαμβάνει την τιμή 0 (δεν έβρεξε) εφόσον το ύψος της ημερήσιας βροχόπτωσης ήταν μικρότερο ή ίσο των 0. mm και την τιμή αν το ύψος της βροχής ήταν μεγαλύτερο των 0. mm (έβρεξε). Η βροχόπτωση ανα ημέρα διαμορφώνεται τόσο από τις βροχοπτώσεις προηγούμενων ημερών όσο και από εξωτερικούς παράγοντες (θερμοκρασία, ατμοσφαιρική πίεση, υγρασία) της εκάστοτε αλλά και προγενέστερων ημερών. Για την παραπάνω ανάλυση προσφέρονται τα Γενικευμένα Γραμμικά Μοντέλα Σχήμα : Δίτιμη χρονοσειρά βροχόπτωσης για Ν=04 ημέρες (Generalized Linear Models-GLM), τα οποία επιτρέπουν την μοντελοποίηση φαινομένων που επιδεικνύουν διαχρονική εξάρτηση. - 29 -
Αρχικά, στην Ενότητα 2, θα αναφερθούμε στην θεωρία των GLM για εξαρτημένα δεδομένα και εν συνεχεία θα παρουσιάσουμε την θεωρία της Μερικής Πιθανοφάνειας (Parial Likelihood-PL). Στην Ενότητα 3 θα μιλήσουμε για τις Δίτιμες Χρονοσειρές και την συμπερασματολογία τους μέσω της PL. Tέλος, στην Ενότητα 4 θα παρουσιάσουμε την προσπάθεια μοντελοποίησης των βροχοπτώσεων του νομού Ιωαννίνων βάση των προηγούμενων θεωρητικών αποτελεσμάτων. 2. GLM ΚΑΙ ΕΞΑΡΤΗΜΕΝΑ ΔΕΔΟΜΕΝΑ Η θεωρία των GLM εισήχθη απο τους elder and Wedderburn (972). Για την ανάλυση όμως των ποιοτικών χρονοσειρών μέσω GLM, η σχετική θεωρία απαιτείται να τροποποιηθεί καθώς οι παρατηρήσεις, ενώ προέρχονται απο την Εκθετική Οικογένεια Κατανομών (Ε.Ο.Κ), δεν είναι ανεξάρτητες μεταξύ τους. Τα GLM για εξαρτημένα δεδομένα αναφέρονται σε κατηγορικές μεταβλητές των οποίων η δεσμευμένη κατανομή δοθέντος του παρελθόντος ανήκει στην Ε.Ο.Κ. Έτσι για την δεσμευμένη κατανομή της Y δοθέντος του παρελθόντος ( I ) για κάθε χρονική στιγμή =,2,..., θα ισχύει Παρατηρώντας την σχέση () βλέπουμε ότι η μορφή της τυχαίας συνιστώσας δεν διαφοροποιείται απο εκείνη της περίπτωσης των ανεξάρτητων παρατηρήσεων. Η ίδια διαπίστωση γίνεται και για τη συστηματική συνιστώσα, την οποία θα παρουσιάσουμε στην συνέχεια στα πλαίσια των δίτιμων χρονοσειρών. Για την στατιστική ανάλυση των κατηγορικών χρονοσειρών μέσω μοντέλων παλινδρόμησης που βασίζονται στα GLM καθοριστικό ρόλο διαδραματίζει η θεωρία της Μερικής Πιθανοφάνειας (βλ. Fokianos and Kedem, 2002). Θεωρούμε τη διδιάστατη χρονοσειρά { Y, X }, =,2,..., με Y την αποκριτική μεταβλητή και X τη τυχαία χρονοεξαρτώμενη συμμεταβλητή. Για την από κοινού κατανομή της παραπάνω δειγματοληπτικής διαδρομής ισχύει f ( y, x,..., y, x yθ b(θ ) f ( y ;θ,φ / I ) = exp + c( y ;φ). α (φ) ; θ) = f ( x ; θ ) f ( x / d ; κ ) f ( y / c ; μ ), (2) = 2 = () Το I είναι η σ-άλγεβρα η οποία εμπεριέχει οτιδήποτε είναι γνωστό σε εμάς από την στιγμή που ξεκινήσαμε να παρατηρούμε το φαινόμενο (=0) μέχρι και τον χρόνο -. Συνάμα I μπορεί να περιέχει τιμές ντετερμινιστικών μεταβλητών που αναφέρονται στο χρόνο το. - 30 -
με d = ( y, x,..., y, x ) και c = ( y, x,..., y, x, x ). Το δεύτερο γινόμενο της (2) θα οδηγήσει στην PL. Στην παρούσα όμως μορφή δεν μπορεί να χρησιμοποιηθεί για συμπερασματολογία καθώς όσο περνάει ο χρόνος μεγαλώνει η διάσταση του συνόλου πληροφορίας c και επομένως αυξάνει ο αριθμός των προς εκτίμηση παραμέτρων 2. Προκειμένου να ξεπεραστεί αυτό το πρόβλημα, για κάθε χρονική στιγμή η f ( y / c ; μ ) αντικαταστήθηκε από την f ( y / I ). Συνάμα για κάθε χρόνο =,2,... θεωρούμε την p-διάστατη συμμεταβλητή διαδικασία { Z }(covariae process) με Z = ( Z ( ),..., Z ( ) p )'. Παρατήρηση: To Z περιέχει υστερήσεις τόσο της Y (π.χ Y, Y 2 ), όσο και υστερήσεις της X (π.χ X, X 2 ) καθώς και τιμές ντετερμινιστικών μεταβλητών οι οποίες είναι γνωστές το χρόνο ( W ). Έτσι το μοντέλο μας θα στηριχτεί στις δεσμευμένες ροπές 2 μ = E [ Y / I ] και σ = Var [ Y / I ] (3) και το πρόβλημα είναι η σύνδεση του μ με το Z. Κατάλληλη επιλογή του Z, σύμφωνα με την κρίση του ερευνητή, επιτρέπει parsimonious modeling. Με τον τρόπο αυτό η f / ) συμβολίζεται με f ( ; β), όπου ( y I p β R είναι το σταθερό διάνυσμα με το οποίο συνδέεται το 2 2 έχουμε μ = (β) και μ β μέσω της PL της { } σ y Z μ με το. Έτσι θα σ = και το πρόβλημα ανάγεται στην εκτίμηση του Y, =,2,... που έχει την τελική μορφή PL( β ; y,..., y ) = f ( y ; β). (4) = Το διάνυσμα το οποίο μεγιστοποιεί την (4) ονομάζεται εκτιμητής μέγιστης μερικής πιθανοφάνειας (maximum parial likelihood esimaor-mple). O MPLE είναι συνεπής και ασυμπτωτικά κανονικός (Wong, 986). 2 Tα διανύσματα κ και μ αποτελούν τις παραμέτρους των υπο συνθήκη πυκνοτήτων πιθανότητας των μεταβλητών X και Y αντιστοίχως και μαζί με το θ συνιστούν τις παραμέτρους του πιθανοθεωρητικού μοντέλου που καταλήξαμε με την (2). - 3 -
3. ΔΙΤΙΜΕΣ ΧΡΟΝΟΣΕΙΡΕΣ Μέσω της PL μας δίνεται η δυνατότητα οι μεταβλητές Y να μοντελοποιηθούν σαν ανεξάρτητες μέσω της θεωρίας των GLM. Αυτό συμβαίνει διότι, όπως αποδεικνύεται, οι εξισώσεις των σκορ για την έρευση του β μέσω της PL είναι ίδιες με τις εξισώσεις των σκορ που ισχύουν όταν έχουμε ανεξάρτητα δεδομένα. Πλέον τα τυπικά σφάλματα των εκτιμητριών είναι υπο συνθήκη σφάλματα δοθέντος της ιστορίας I Θεωρούμε λοιπόν την δίτιμη χρονοσειρά { Y }, =,2,... καθώς και την p- διάστατη συμμεταβλητή στοχαστική διαδικασία { }, =,2,... Z. Για την δεσμευμένη κατανομή του Y δοθέντος του I έχουμε ότι Y / I ~ Bernoulli(, π ) με π ( β ) = P ( Y = / I ). Η δεσμευμένη β συνάρτηση πυκνότητας πιθανότητας του και έχει την ακόλουθη μορφή Y δοθέντος του I ανήκει στην Ε.Ο.Κ π f ( y ;θ,φ / I ) = exp y log( ) + log( π ). π Το πρόβλημα είναι να συνδέσουμε την πιθανότητα «επιτυχίας» π με το διάνυσμα Z μέσω του διανύσματος β σύμφωνα με την σχέση g ( π ) = β' Z η οποία ισοδυνάμως γράφεται π = h(η ), με η = β' Z. Η g είναι μια γνωστή μονότονη συνάρτηση και ονομάζεται συνάρτησης σύνδεσης, ενώ η h είναι η αντίστροφη της. Επειδή η R και π ( β ) [ 0, ] καταλήγουμε ότι h : R [0,]. Επομένως θα επιλέξουμε την h ανάμεσα απο κάποιες γνωστές cdf. Έτσι το μοντέλο συμπερασματολογίας για την π θα έχει την μορφή P Y = / I ) = F( β' Z ) h( β' Z ). β ( = Οι πιο συνηθισμένες επιλογές για την h στις δίτιμες χρονοσειρές είναι οι sandard logisic disribuion, exreme value disribuion και η sandardized normal disribuion. Στην ανάλυση των βροχοπτώσεων του νομού Ιωαννίνων θα χρησιμοποιήσουμε μοντέλα λογιστικής παλινδρόμησης ( π ( β ) = /( + exp[ β' Z ]) h(η ) ) και η μερική πιθανοφάνεια του β παίρνει την ακόλουθη απλή μορφή PL( β) = = [ π ] y [ π ] y. - 32 -
4. ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΒΡΟΧΟΠΤΩΣΗΣ ΤΟΥ ΝΟΜΟΥ ΙΩΑΝΝΙΝΩΝ Το φαινόμενο της βροχής επιδεικνύει εξαιρετικά πολύπλοκη δομή. Οι βροχοπτώσεις σχετίζονται πρωτίστως με την ατμοσφαιρική κυκλοφορία. Παράλληλα οι βροχοπτώσεις επηρεάζονται απο τοπικούς παράγοντες θερμοκρασίας, υγρασίας και ατμοσφαιρικής πίεσης (Lolis, Barzokas and Kasoulis, 2004). To γεγονός αυτό, σε συνδυασμό και με την σύνδεση της βροχής με τα γεωγραφικά χαρακτηριστικά της κάθε περιοχής, μας οδηγεί στο συμπέρασμα ότι τα αποτελέσματα που θα παρουσιάσουμε για τα Ιωάννινα σε καμία περίπτωση δεν μπορούν να γενικευθούν για την ερμηνεία των βροχοπτώσεων άλλων περιοχών. Για την ανάλυση μας διαθέτουμε τις ακόλουθες μεταβλητές Y : βροχόπτωση τη μέρα (δίτιμη). T : θερμοκρασία τη μέρα (ελάχιστη, μέγιστη, εύρος). H : υγρασία τη μέρα (τιμή της ανα δυο ώρες). A : ατμοσφαιρική πίεση τη μέρα (τιμή της ανα δυο ώρες). Για την ( H ) και την ( A ) υπολογίσαμε τις μέσες τιμές των 2 μετρήσεων που διαθέτουμε για αυτές ημερησίως. Για την ( T ) επιλέξαμε το εύρος διότι σύμφωνα με τα κλιματολογικά δεδομένα, τις ημέρες που έχουμε συννεφιά παρατηρείται σχετικά μικρότερο εύρος θερμοκρασίας απο αυτό που καταγράφεται τις ημέρες που επικρατεί ξαστεριά. Για την στατιστική επεξεργασία των δεδομένων χρησιμοποιήσαμε το S-PLUS και την βιβλιοθήκη MASS που είναι κατάλληλη για GLM και εξαρτημένα δεδομένα. Τέλος για την επιλογή βέλτιστου μοντέλου στηριχτήκαμε κυρίως στα κριτήρια πληροφορίας του AIC και BIC. Προσαρμόζοντας μοντέλα στην αρχική μας χρονοσειρά διαπιστώσαμε ότι αν και δεν ήταν parsimonious, δεν παρουσίαζαν καλή προσαρμογή. Η διαπίστωση αυτή συμφωνεί με την διεθνή βιβλιογραφία σχετικά με δεδομένα τέτοιας μορφής. Προκειμένου να βρούμε πιο ελκυστικά μοντέλα τα οποία θα μας παρέχουν συγκεκριμένες πληροφορίες για το μηχανισμό των βροχοπτώσεων στον νομό Ιωαννίνων, αποφασίσαμε να λάβουμε υπόψη μας τα μετεωρολογικά γνωρίσματα της δεδομένης περιοχής. Τους χειμερινούς μήνες λοιπόν στα Ιωάννινα οι βροχές οφείλονται κυρίως σε συστήματα χαμηλών πιέσεων τα οποία κινούνται από την δυτική προς την ανατολική Μεσόγειο. Διαφορετική κατάσταση επικρατεί τα καλοκαίρια όπου οι βροχοπτώσεις προκαλούνται πρωτίστως από τοπικούς παράγοντες θερμικής φύσεως. Με βάση τα προαναφερθέντα φαίνεται ρεαλιστικό να μοντελοποιήσουμε ξεχωριστά κάθε χειμώνα (αρχές Νοέμβρη-τέλος Μάρτη) και ξεχωριστά κάθε καλοκαίρι (αρχές Μαΐου-τέλος Σεπτέμβρη), εξαιρώντας από την ανάλυση μας τους μήνες Απρίλιο και Οκτώβρη που συνιστούν τις λεγόμενες buffer ζώνες. Τα αρχικά μοντέλα για κάθε χειμώνα δεν θα περιέχουν συμμεταβλητές της θερμοκρασίας και τα αρχικά υποδείγματα των καλοκαιριών δεν θα έχουν ερμηνευτικές μεταβλητές της ατμοσφαιρικής πίεσης. Έτσι θα καταλήξουμε σε υποδείγματα με μικρό αριθμό παραμέτρων. - 33 -
Για οικονομία χώρου θα παρουσιάσουμε την προσπάθεια μοντελοποίησης των χειμώνων. Έτσι για κάθε χειμερινή περίοδο (περίοδοι: 95-96, 96-97, 97-98, 98-99), σύμφωνα με τα προαναφερθέντα, το αρχικό μοντέλο θα περιλαμβάνει τις ακόλουθες μεταβλητές Y, Y 2, Y 3, H, H, H 2, H 3, A, A, A 2, A 3, Την καλύτερη προσαρμογή στα δεδομένα παρατηρούμε τον χειμώνα 96-97 (ΜΧ96.97) όπου τόσο το αρχικό μοντέλο όσο και το βέλτιστο (συνάρτηση sepaic- ΜΧ96.97sep) H, A, A έχουν μικρότερο AIC σε σχέση με τους υπόλοιπους χειμώνες. Στον πίνακα που ακολουθεί δίνονται για αυτά τα διαγνωστικά κριτήρια AIC, BIC, η απόκλιση (Deviance-D), το 2 του Pearson καθώς και το μέσο τετραγωνικό σφάλμα (Μean Square Error-MSE). Aκόμη για κάθε υπόδειγμα δίνεται ο αριθμός των παραμέτρων (p) καθώς και οι αντίστοιχοι βαθμοί ελευθερίας (df). To μοντέλο ( H, A, A ) είναι parsimonious και παρατηρούμε ότι συμφωνεί με τον φυσικό μηχανισμό που διαμορφώνει τις βροχοπτώσεις στα Ιωάννινα τους χειμερινούς μήνες. Η προσαρμογή του δεδομένου υποδείγματος στις υπόλοιπες χειμερινές ζώνες έδωσε εξίσου καλά αποτελέσματα. Το γεγονός αυτό δείχνει πως θα είχε νόημα η από κοινού μοντελοποίηση των βροχοπτώσεων βάση και των τεσσάρων χρονοσειρών του χειμώνα. Κάτι τέτοιο όμως δεν παρέχεται αυτοματοποιημένα απο τα στατιστικά πακέτα. Το δεδομένο πρόβλημα θα αποτελέσει αντικείμενο μελλοντικής έρευνας. 4. Αυτοπαλινδρομούμενα Μοντέλα Για την στατιστική ανάλυση δεδομένων βροχόπτωσης συχνά χρησιμοποιούνται μοντέλα λογιστικής παλινδρόμησης με συμμεταβλητές τις χρονικές υστερήσεις της βροχής (Chandler, 2003). Για την δειγματοληπτική διαδρομή των 823 ημερών προσαρμόσαμε τα ακόλουθα μοντέλα - 34 -
για τα οποία προέκυψαν Βλέπουμε λοιπόν ότι οι βροχοπτώσεις ανα ημέρα διαμορφώνονται κυρίως απο τις χρονικές υστερήσεις της βροχής πρώτης και τρίτης τάξης αφού παρατηρούμε ότι τα υποδείγματα ΜΧF και MΧ4F παρουσιάζουν την καλύτερη προσαρμογή στα δεδομένα. 4.2 Μοντελοποίηση των βροχοπτώσεων για ομαδοποιημένα δεδομένα Οι μετεωρολόγοι συχνά παρέχουν προβλέψεις για την βροχόπτωση της επόμενης εβδομάδας ή του επόμενου δεκαπενθημέρου. Με βάση αυτή την τακτική ομαδοποιήσαμε τα αρχικά δεδομένα, θεωρώντας ως νέα μονάδα παρατήρησης το δεκαπενθήμερο. Αρχικά λοιπόν θεωρήσαμε ένα σύνολο C, 620 ημερών που καταγράψαμε την κατάσταση της βροχόπτωσης. Εν συνεχεία, διαμερίσαμε το σύνολο αυτό σε 08 διαδοχικά δεκαπενθήμερα C i, i =,2,... 08 με C = Y, Y,..., Y,..., Y ) όπου i ( i 2i i 5i Y i : η βροχόπτωση (σε mm ) την -οστή μέρα του i-οστού δεκαπενθήμερου. Mε τον τρόπο αυτό προέκυψε η δίτιμη μεταβλητή D i η οποία λαμβάνει τις τιμές 0 (ξηρό δεκαπενθήμερο) και (βροχερό δεκαπενθήμερο) σύμφωνα με την παρακάτω κωδικοποίηση Στην νέα δίτιμη χρονοσειρά D, D2,..., D08 προσαρμόστηκαν τα αυτοπαλίνδρομα υποδείγματα που παρουσιάσαμε στην παράγραφο 4.. Αυτό που διαπιστώσαμε ήταν ότι στα ομαδοποιημένα δεδομένα επικρατεί η ίδια δομή, που διαμορφώνει τις βροχοπτώσεις, με εκείνη των ημερησίων μετρήσεων. - 35 -
5. ΣΥΜΠΕΡΑΣΜΑΤΑ Γενικά τα GLM που στηρίζονται σε δεδομένα βροχοπτώσεων αξιοποιούνται κυρίως για την ανίχνευση κλιματολογικών αλλαγών σε συγκεκριμένες γεωγραφικές ζώνες. Παράλληλα μέσω των δεδομένων μοντέλων επιδιώκεται η ανάδειξη του φυσικού μηχανισμού που διαμορφώνει τις βροχοπτώσεις ανα περιοχή. Τέλος να σημειώσουμε ότι τα GLM δεν συνηθίζεται να χρησιμοποιούνται για την παροχή προβλέψεων στην μετεωρολογία. Η πρόβλεψη διεξάγεται μέσω χωρικών δεδομένων (spaial daa). ABSTRACT A his projec we will refer o caegorical ime series, whose foundaion is based on generalized linear models and parial likelihood inference. This approach will be used for he modeling of binary ime series of daily rainfall daa from Ioannina, for he period beween 4//995 unil 3/2/999. The resuls from our analysis agree wih he naural mechanism which modes he rainfall a his region. AAΦΟΡΕΣ Chandler, R. E. (2003). On he use of generalized linear models for inerpreing climae variabiliy. Research Repor, o.232, Deparmen of Saisical Science, Universiy College London. Lolis, C. J., Barzokas, A. and Kasoulis, B. D. (2004). Relaion beween sensible and laen hea fluxes in he Medierranean and precipiaion in he greek area during winer. Inernaional Journal of Climaology, 24, 803-86. elder, J. A. and Wedderburn, R. W. M. (972). Generalized Linear Models. Journal of he Royal Saisical Sociey, Series A, 35, 370-384. Fokianos, K. and Kedem, B. (2002). Regression Models for Time Series Analysis, John Wiley, Hoboken J. Wong, W. H. (986). Theory of parial likelihood. Annals of Saisics, 4, 88-23. - 36 -