ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΟΝΤΕΛΑ ΠΡΟΒΛΕΨΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ Ε ΟΜΕΝΩΝ. ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΟΥ ΟΖΟΝΤΟΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ουράνη Μαρία Επιβλέπων : Νικόλαος Ατρέας, Λέκτορας A.Π.Θ. Θεσσαλονίκη, Οκτώβριος 008
Ευχαριστίες Θα ήθελα να ευχαριστήσω τον Λέκτορα του Τµήµατος Πληροφορικής κ. Νικόλαο Ατρέα για την δυνατότητα που µου πρoσέφερε να πραγµατοποιήσω αυτή την εργασία, για τις πολύτιµες συµβουλές του αλλά και για την υποµονή του και την αφιέρωση πολύτιµου µέρους από τον χρόνο του για την αποσαφήνιση των ερωτηµάτων µου.
ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ 4. ΧΡΗΣΙΜΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΣΤΑΤΙΣΤΙΚΗ 6 3. ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ.... Αυτοσυσχετιζόµενα µοντέλα (AR(p) models). Μoντέλα κινητού µέσου όρου (MA(q) models).4 3. Μίξη των δύο µοντέλων (ARMA(p,q) models)..5 4. AutoRegressive Intergrated Moving Average Models-ARIMA Αυτοσυσχετιζόµενα µοντέλα κινητού µέσου όρου...5 4. ΠΡΑΚΤΙΚΟΙ ΚΑΝΟΝΕΣ ΓΙΑ ΤΗ ΜΕΤΑΤΡΟΠΗ ΜΗ ΣΤΑΣΙΜΗΣ ΧΡΟΝΟΣΕΙΡΑΣ ΣΕ ΣΤΑΣΙΜΗ 8 5. ΠΕΡΙΒΑΛΛΟΝΤΙΚΑ ΜΟΝΤΕΛΑ (SEASONAL MODELS)... 6. ΕΦΑΡΜΟΓΗ : ΚΑΤΑΣΚΕΥΗ ΜΟΝΤΕΛΟΥ ΠΡΟΒΛΕΨΗΣ ΤΟΥ ΟΖΟΝΤΟΣ...3 7. ΒΙΒΛΙΟΓΡΑΦΙΑ..3 3
. ΕΙΣΑΓΩΓΗ Από πολύ νωρίς στην ιστορία, ο άνθρωπος δέχθηκε το γεγονός ότι πολλά από τα φαινόµενα που παρατηρούσε στη φύση ακολουθούσαν µια αυστηρή λογική συνέπεια. Από την άλλη µεριά, υπήρχαν φυσικά φαινόµενα που φαινόταν πως µε κανένα τρόπο δεν µπορούσαν να προβλεφθούν, όπως ο χρόνος που θα συµβεί ένας σεισµός και η έντασή του, η στιγµή που θα πέσει ένας κεραυνός στη διάρκεια µιας καταιγίδας, µια φουρτούνα στη θάλασσα κλπ. Την πεποίθηση του για την ύπαρξη κάποιας λογικής συνέπειας σε κάποια φυσικά φαινόµενα προσπάθησε ο άνθρωπος να την εκφράσει µε νόµους και για το σκοπό αυτό ήταν απαραίτητο να καταφύγει σε συµβολισµούς τους οποίους άντλησε από την επιστήµη των Μαθηµατικών. Σήµερα, για να περιγράψουµε φυσικά φαινόµενα χρησιµοποιούµε συνήθως µαθηµατικά µοντέλα. Η κύρια δυσκολία εντοπίζεται στη µελέτη φαινοµένων που δεν είναι απόλυτα ντετερµινιστικά (ντετερµινιστικά φαινόµενα είναι αυτά για τα οποία η εξέλιξη του φαινοµένου είναι δυνατή µε όση ακρίβεια και σε όσο βάθος χρόνου επιθυµούµε). Σε µη ντετερµινιστικά φαινόµενα δεν ισχύει το γεγονός ότι τα ίδια αίτια οδηγούν στο ίδιο αποτέλεσµα. Αυτό µπορούµε να το καταλάβουµε και µε το λεγόµενο παράδοξο της πεταλούδας: Το τι καιρό θα κάνει µια συγκεκριµένη µέρα σε µια πόλη της Αµερικής, εξαρτάται από τον τρόπο που πέταξε µερικές µέρες πριν µια πεταλούδα στην Κίνα. Τι σηµαίνει αυτό το παράδοξο; Ότι όσο καλά κι αν υπολογίσουµε σήµερα την κατάσταση της ατµόσφαιρας (τις αρχικές µας συνθήκες), αν αγνοήσουµε µια τόσο µικρή διαταραχή όπως το πέταγµα της πεταλούδας, η τελική κατάσταση στην οποία θα οδηγηθεί το σύστηµα µπορεί να είναι εντελώς διαφορετική από αυτή που θα περιµέναµε βάσει των υπολογισµών µας. Στις µέρες µας υπάρχει µια πληθώρα µαθηµατικών πρoβληµάτων αλλά και πρoβληµάτων της καθηµερινής ζωής στα oπoία προσπαθούµε από συγκεκριµένα δεδoµένα παρατηρήσεων να πρoβλέψoυµε την εξέλιξη µιας διαδικασίας (ΠΡΟΒΛΕΨH είναι ο καθορισµός της πορείας ενός φαινοµένου προτού αυτό εκτελεστεί). Για παράδειγµα, εάν ένας µετεωρoλoγικός σταθµός καταγράφει τη µεταβoλή της θερµoκρασίας κάθε µια ώρα, µας ενδιαφέρει να υπoλoγίσoυµε πoια είναι η θερµoκρασία σε µια τυχαία χρoνική στιγµή (π.χ. στις :5) ή να πρoβλέψoυµε πoιά θα είναι η θερµoκρασία στις 0:00 αν έχoυµε µετρήσεις µόνo ως τις 9:00. Επιπλέον, µοντέλα πρόβλεψης χρειαζόµαστε σε αρκετούς επιστηµονικούς τοµείς π.χ. στον κλάδο της ιατρικής, για πρόβλεψη ασθενειών και διαταραχών, αναγνώριση ανωµαλιών, κατανόηση και εξήγηση της δυναµικής της καρδιάς και του εγκεφάλου µε ηλεκτρο-εγκεφαλογράφηµα (EEG) και ηλεκτρο-καρδιογράφηµα (ΕCG), στη βιοπληροφορική όπου έχουµε πρόβλεψη ανωµαλιών στο DNA, στη φυσική, Σεισµολογία, Μετεωρολογία, Αστροφυσική κλπ. Ακόµη, µοντέλα πρόβλεψης χρησιµοποιούµε: Στον τοµέα της οικονοµίας, π.χ. για την εξέλιξη της τιµής του πετρελαίου, για το χρηµατιστήριο (αξία µετοχών), στις επιχειρήσεις (για έγκαιρη πρόβλεψη της απώλειας πελατών - κερδοφορία) και τέλος στις τράπεζες κυρίως για κερδοφορία. 4
Στο εµπόριο (marketing) βιοµηχανία µε σκοπό τον σχεδιασµό νέων προϊόντων όπως και στην πρόβλεψη των δαπανών για διαφηµίσεις και αυξήσεις στις πωλήσεις, στις µεταφορές (επίλυση κυκλοφοριακού προβλήµατος), στη ρύπανση του περιβάλλοντος κλπ. Στην παρούσα πτυχιακή καταγράφουµε ευρέως χρησιµοποιούµενα µοντέλα πρόβλεψης όπως είναι τα αυτοπαλινδροµούµενα µοντέλα (Αutoregressive AR models), τα µοντέλα κινητού µέσου όρου (Moving Average MA models), τα αυτοπαλινδροµούµενα µοντέλα κινητού µέσου όρου (Autoregressive Moving Average models) και τα µοντέλα ARIMA (Integrate Autoregressive Moving Average Models). Ο στόχος µας είναι να χρησιµοποιήσουµε ένα τέτοιο µοντέλο για να µοντελοποιήσουµε και κατ επέκταση να εκτιµήσουµε τη συµπεριφορά του όζοντος. Συγκεκριµένα, χρησιµοποιούµε µηνιαία δεδοµένα µέτρησης του όζοντος της ατµόσφαιρας από το 93 έως το 004, συνολικά 85 δεδοµένα. Όπως θα δούµε παρακάτω, τα δεδοµένα αυτά εµφανίζουν µία σαφή περιοδικότητα ανά χρόνο ( µήνες). Ο στόχος µας είναι η εύρεση ενός µοντέλου πρόβλεψης του όζοντος. Καταλήξαµε στο µοντέλο ARIMA της µορφής ( ) ( ) x = x + 0.74635 x x + 0.9659 x x i i i i 3 i i 4 ( ) + 0.478 x x + a 0.7967a, i 3 i 5 i i όπου x t είναι τα δεδοµένα του όζοντος, και α t είναι τυχαίος θόρυβος αναµενόµενης µέσης τιµής E( a ) = 0 και διασποράς σ. Στο επόµενο σχήµα παραθέτουµε t ετήσια πρόβλεψη για το έτος 005 της συµπεριφοράς του όζοντος χρησιµοποιώντας δεδοµένα από το 00-004: a 400 380 360 340 30 300 0 0 30 40 50 Σχήµα : Mε µαύρη γραµµή είναι τα δεδοµένα του όζοντος κατά τα έτη 00-004. Με κόκκινη γραµµή η πρόβλεψη 00-005. Σηµειώνουµε ότι όλα τα προγράµµατα υλοποιήθηκαν µε χρήση του λογισµικού Mathematica. 5
. XΡΗΣΙΜΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ Στην παράγραφο αυτή αναφέρουµε έννοιες κυρίως από τη Στατιστική που θα χρησιµοποιηθούν στη µελέτη µας. Μια χρονοσειρά είναι µια συλλογή από παρατηρήσεις που διαµορφώνονται διαδοχικά σε ορισµένες χρονικές στιγµές ή περιόδους. Η χαρακτηριστική ιδιότητα µιας χρονοσειράς είναι ότι τα δεδοµένα δεν δηµιουργούνται ανεξάρτητα. Ο κυριότερος στόχος στην ανάλυση χρονοσειρών είναι η επιλογή και προσαρµογή ενός µοντέλου που να προσεγγίζει ικανοποιητικά τα δεδοµένα και στη συνέχεια η χρήση του τελικού µοντέλου για πρόβλεψη. Αν η ανεξάρτητη µεταβλητή t (χρόνος) είναι συνεχής, µιλάµε για συνεχείς χρονοσειρές, ενώ αν η ανεξάρτητη µεταβλητή t είναι διακριτή, τότε µιλάµε για διακριτές χρονοσειρές. Στην παρούσα πτυχιακή εργασία θα ασχοληθούµε µε διακριτές χρονοσειρές της µορφής: z= { z,..., zn} όπου τα στοιχεία της χρονοσειράς είναι πραγµατικοί αριθµοί και οι τιµές της χρονοσειράς λαµβάνονται σε ισοκατανεµηµένες χρονικές στιγµές. Ορισµός Μέση τιµή (Μean value) της χρονοσειράς z καλείται ο αριθµός N zn N n= µ = z=. Στο ακόλουθο σχήµα απεικονίζεται η µέση τιµή (µε πράσινο χρώµα) µιας χρονοσειράς. Σχήµα Ορισµός ιασπορά (variance) της χρονοσειράς z καλείται ο τετραγωνικός µέσος όρος των αποκλίσεων της χρονοσειράς από τη µέση τιµή, δηλαδή: 6
N n= ( z ) n z σ z =. N Τυπική απόκλιση (standard deviation) µιας χρονοσειράς z καλείται η τετραγωνική ρίζα της διασποράς. Σχήµα 3 Στο σχήµα 3 παρατηρούµε ότι ανάµεσα στις δύο µπλε γραµµές (η επάνω αντιστοιχεί στο z + z ενώ η κάτω στο z - z ) βρίσκονται τα περισσότερα σηµεία της χρονοσειράς, και το παραπάνω διάστηµα µας δίνει τη διασπορά των τιµών της χρονοσειράς. Ορισµός 3 Συνδιασπορά (covariance) των χρονοσειρών z και w µε µέση τιµή z και w αντίστοιχα, καλείται ο αριθµός N n = ( n )( n ) N cov( z, w) = z z w w. Ορισµός 4 Αν οι µελλοντικές τιµές µιας χρονοσειράς καθορίζονται επακριβώς από µία µαθηµατική συνάρτηση, τότε µιλάµε για ντετερµινιστικές χρονοσειρές. 4 0.5.5 5 7.5 0.5 5 7.5 5 0 5 0 - -0.5-4 - Σχήµα 4 Σχήµα 5 Συνεχής ντετερµινιστική χρονοσειρά ιακριτή ντετερµινιστική χρονοσειρά 7
Ορισµός 5 Αν οι µελλοντικές τιµές µιας χρονοσειράς εµπεριέχουν αβεβαιότητα η οποία καθορίζεται από µία κατανοµή πιθανοτήτων, οι χρονοσειρές είναι µη ντετερµινιστικές ή πιο απλά στοχαστικές. Σχήµα 6 Σχήµα 7 Συνεχής στοχαστική χρονοσειρά Συνεχής στοχαστική χρονοσειρά Συµπερασµατικά: Ντετερµινιστική χρονοσειρά : επιτρέπει πρόβλεψη µε ακρίβεια. Στοχαστική χρονοσειρά : επιτρέπει προβλέψεις του τύπου: µε πιθανότητα p θα συµβεί το Α,... Nτετερµινιστικά και στοχαστικά µοντέλα Κάποια φαινόµενα δεν είναι απόλυτα ντετερµινιστικά και αυτό συµβαίνει επειδή άγνωστοι παράγοντες µπορούν να τα επηρεάσουν. Έτσι, δεν µπορούµε να χρησιµοποιήσουµε τα ντετερµινιστικά µοντέλα για να προσδιορίσουµε την µελλοντική συµπεριφορά αυτών των φαινοµένων. Ορισµός 6 Όταν η µελλοντική συµπεριφορά του µοντέλου προσδιορίζεται επακριβώς, έχουµε ντετερµινιστικό µοντέλο. Ορισµός 7 Όταν άγνωστοι παράγοντες δηµιουργούν αβεβαιότητα στη µελλοντική συµπεριφορά ενός µοντέλου τα µοντέλα καλούνται στοχαστικά (stochastic ή probability models). Ορισµός 8 Ενα στοχαστικό µοντέλο καλείται στάσιµο, (stationary) όταν βρίσκεται σε κατάσταση στατιστικής ισορροπίας, δηλαδή ο µέσος όρος, η διασπορά και η συνδιασπορά της αντίστοιχης χρονοσειράς δεν εξαρτώνται από το χρόνο. ηλαδή, µια χρονοσειρά είναι στάσιµη εάν δεν υπάρχει συστηµατική αλλαγή του µέσου όρου και της διασποράς στο χρόνο. Εστω z µία χρονοσειρά, δίνουµε τους κάτωθι ορισµούς: Ορισµός 9 Εστω ( z z)( z + z) N k k n n k N n= γ =, 8
τότε καλούµε αυτοσυσχέτιση (autocorrelation ACF) της χρονοσειράς ακολουθία: ztτην γ k ρ 0 =, k = 0, ρ,,..., k = k= N. σ Για στάσιµη διαδικασία ισχύει σ z = γ 0, άρα z ρ k = γ k γ. 0 Προφανώς ρ 0 = και η αυτοσυσχέτιση ρ k παίρνει τιµές από - έως +. Εστω ο Ν x N συµµετρικός πίνακας τα στοιχεία του οποίου είναι οι συντελεστές συνδιασποράς γ k που ορίστηκαν παραπάνω: Γ N = γ γ L γ γ γ γ γ M M O M γ γ L γ 0 N 0 N N N 0, τότε από τον ορισµό της αυτοσυσχέτισης έχουµε ότι Γ = σ N z ρ0 ρ L ρn ρ ρ0 ρ ρn M M O M ρn ρn ρ L 0 = σ z Ρ Ν, άρα έχουµε τον ακόλουθο: Ορισµός 0. Ο Πίνακας P N ρ0 ρ L ρn ρ ρ ρ ρ M M O M ρn ρn ρ L 0 0 N = καλείται πίνακας αυτοσυσχέτισης. Πρακτικά, αυτοσυσχέτιση (autocorrelation) είναι η πολλαπλή συσχέτιση του σήµατος µε τον εαυτό του σε διαφορετικές χρονικές στιγµές. Είναι χρήσιµη για την ανεύρεση 9
µοτίβων που επαναλαµβάνονται σε ένα µήνυµα (π.χ. περιοδικά σήµατα). Στο επάνω µέρος του σχήµατος 8 αναπαριστώνται γραφικά 00 τυχαίοι αριθµοί, ενώ στο κάτω µέρος η αυτοσυσχέτιση της σειράς. Σχήµα 8 Πρακτικά, για την εκτίµηση της αυτοσυσχέτισης χρησιµοποιούµε τον εξής τύπο : r k c c k =, k =,,N/4, 0 N K όπου ck = ( zn z)( zn+ k z) N, k = 0,,,.., Κ = Ν/4. n= Συνήθως για να αναγνωρίσουµε ένα µοντέλο που ταιριάζει σε µία χρονοσειρά, είναι χρήσιµο να έχουµε ένα στατιστικό test εάν η αυτοσυσχέτιση ρ k = 0 για κάποιο k>k 0. Ισχύει ότι για µία κανονική κατανοµή έχουµε var( rk ) ( ρn + ρn+ kρn k 4ρnρkρn k + ρnρk) (Barlett). N n= Eάν ρ k = 0 για κάποιο k>k 0, τότε όλοι οι προσθετέοι της παραπάνω σχέσης µηδενίζονται πλην του πρώτου όρου για k>k 0. Ετσι για k>k 0 ισχύει var( rk ) + N k0 ρn. n= Στην πράξη αντί των πραγµατικών αυτοσυσχετίσεων ρ k χρησιµοποιούµε τις r k και η τετραγωνική ρίζα 0
k 0 + N n= r n προσεγγίζει την τυπική απόκλιση της αυτοσυσχέτισης ρ. Ορισµός O προς τα πίσω τελεστής (backward shift operator) για µια χρονοσειρά z ορίζεται ως εξής: Β(z n ) = z n- συνεπώς: Β m (z n ) = z n-m, m =,,, όπου Β m m είναι η σύνθεση του τελεστή Β, δηλαδή B = Bo B... o B. Ορισµός O προς τα εµπρός τελεστής (forward shift operator) για µια χρονοσειρά z ορίζεται ως εξής: F(z n ) = z n+ συνεπώς: F m (z n ) = z n+m, m =,,, όπου F m m είναι η σύνθεση του τελεστή Β, δηλαδή B = Bo B... o B. Oρισµός 3 Ο τελεστής διαφορών (backward difference operator) για µια χρονοσειρά z oρίζεται ως εξής: z n = z n - z n- = (-Β) z n. Oρισµός 4 Μία στοχαστική διαδικασία z καλείται λευκός θόρυβος (white noise process), εάν η µέση τιµή της είναι µηδέν και η διασπορά της είναι σ z.
3. ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ Στην παράγραφο αυτή αναφέρουµε µοντέλα πρόβλεψης, η κατανόηση των οποίων θα µας βοηθήσει στην πρόβλεψη του όζοντος παρακάτω.. Αυτοσυσχετιζόµενα µοντέλα (AR(p) models) Τα αυτοσυσχετιζόµενα µοντέλα (autoregressive models) είναι στοχαστικά µοντέλα. Σε αυτά τα µοντέλα, η χρονοσειρά z εκφράζεται από ένα πεπερασµένο γραµµικό συνδυασµό από προηγούµενες τιµές της συν ένα σφάλµα α n, δηλαδή = φ ( z µ ) + φ ( z µ ) z n µ n +..... + φ p ( z n p µ ) n + α n. όπου µ είναι η µέση τιµή της z n. Η παραπάνω καλείται αυτοσυσχετιζόµενη διαδικασία τάξης p (autoregressive process of order p ή AR(p) process). Eάν: Φ(Β) = - φ Β φ Β... φ p Β p, τότε η διαδικασία γράφεται κατ οικονοµία ως Φ(Β)( z µ ) = α n. n Το µοντέλο περιλαµβάνει p+ άγνωστες παραµέτρους : µ, φ, φ,...., φ p, σ z οποίες υπολογίζουµε από τα δεδοµένα όπως θα δούµε παρακάτω. τις Θεώρηµα Ενα αυτοπαλινδοµούµενο µοντέλο τάξης p είναι στάσιµο όταν όλες οι ρίζες του πολυωνύµου - φ x φ x -..-φ p x p,
όπου τα φ,,φ p έχουν ορισθεί ως οι συντελεστές της αυτοπαλινδροµούµενης διαδικασίας, είναι εκτός του µοναδιαίου κύκλου στο µιγαδικό επίπεδο. Oρισµός 5 Η µερική αυτοσυσχέτιση (partial autocorrelation PACF) µας δίνει τη δυνατότητα να εκφράσουµε την συνάρτηση αυτοσυσχέτισης (ACF), η οποία είναι άπειρη, µιας αυτοσυσχετιζόµενης διαδικασίας τάξης p (autoregressive process of order p (AR(p)) process) µε p µη-µηδενικές συναρτήσεις αυτοσυσχέτισης. Επιπλέον, είναι χρήσιµη για την εύρεση της τάξης ενός αυτοσυσχετιζόµενου µοντέλου. Για µία αυτοσυσχετιζόµενη διαδικασία τάξης k έχουµε ότι: ρ j = φ k ρ j- +.. + φ k(k-) ρ j-k+ + φ kk ρ j-k j =,,.,k όπου φ kj είναι ο j-οστός συντελεστής σε µια αυτοσυσχετιζόµενη διαδικασία τάξης k και ρ j η συνάρτηση αυτοσυσχέτισης, Το σύνολο { φ jj : j=,,n} όπου ο φ kk είναι ο τελευταίος συντελεστής σε ένα αυτοπαλινδροµούµενο µοντέλο τάξης k καλείται συνάρτηση µερικής αυτοσυσχέτισης. Προφανώς: ρ ρ L ρk ϕk ρ ρ ρ L k ϕ k M M M L M M M M M L M M ρk ρk ρk 3 L ϕ kk = ρ ρ M M ρ k ή φ = (Ρ k ) - ρ οι οποίες καλούνται εξισώσεις Yule-Walker. Επιλύνοντας τις εξισώσεις για k =,,3,, έχουµε φ = ρ, φ = ρ ρ ρ ρ ρ = ρ ρ, φ 33 = ρ ρ ρ ρ ρ ρ ρ ρ3, κλπ. ρ ρ ρ ρ ρ ρ Γενικά, για το φ kk ο αριθµητής είναι ίδιος µε τον παρανοµαστή αντικαθιστώντας την τελευταία στήλη µε τα ρ k. 3
Για µια αυτοσυσχετιζόµενη διαδικασία τάξης p η συνάρτηση µερικής αυτοσυσχέτισης (PACF) φ kk είναι µη-µηδενική για k µικρότερο ή ίσο µε το p και µηδέν για k µεγαλύτερο του p. ηλαδή, παρατηρείται αποκοπή εφόσον: ϕ kk 0 k p =, (βλέπε σχήµα 9.) = 0, k > p ενώ η αυτοσυσχέτιση (ACF) φθίνει στο µηδέν (βλέπε σχήµα 9.3) όσον αφορά σε δεδοµένα του σχήµατος 9.. Σχήµα 9. Σχήµα 9. Σχήµα 9.3 Πρακτικά, για την εκτίµηση της µερικής αυτοσυσχέτισης έχουµε : r j = ϕ k, r j- + + ϕ k, k r j-k j =,,..,k. Mε την υπόθεση ότι έχουµε µία αυτοπαλινδροµούµενη διαδικασία τάξης p, τότε ισχύει ότι: Η τετραγωνική ρίζα var( ϕkk ), k > p. N k 0 + N n= r n προσεγγίζει την τυπική απόκλιση της συνάρτησης µερικής αυτοσυσχέτισης. 4
. Μoντέλα κινητού µέσου όρου (MA(q) models) Τα µοντέλα κινητού µέσου όρου (moving average models) περιγράφονται από τη σχέση zn z = α n - θ α n- - θ α n- -.... θ q α n-q, η οποία καλείται διαδικασία κινητού µέσου όρου ταξης q (moving average process of order q (MA(q))). Το κινητού µέσου όρου είναι λίγο παραπλανητικό επειδή τα βάρη, - θ, - θ,..., δεν είναι απαραίτητα θετικοί αριθµοί. Αν ορίσουµε τoν τελεστή κινητού µέσου όρου τάξης q ως: Θ(Β) = - θ Β θ Β -.... - θ q Β q, τότε η διαδικασία γράφεται κατ οικονοµία ως εξής: zn z = Θ(Β) α t. Το µοντέλο περιλαµβάνει q+ άγνωστες παραµέτρους : µ, θ, θ,...., θ q, σ z οποίες υπολογίζουµε από τα δεδοµένα. τις Θεώρηµα Ενα MA µοντέλο είναι στάσιµο όταν όλες οι ρίζες του πολυωνύµου - θ x θ x -..-θ q x q, όπου τα θ,,θ q έχουν ορισθεί ως οι συντελεστές της ΜA - διαδικασίας, είναι εκτός του µοναδιαίου κύκλου στο µιγαδικό επίπεδο. Για µια διαδικασία κινητού µέσου όρου τάξης q η συνάρτηση αυτοσυσχέτισης (ACF) ικανοποιεί την ακόλουθη σχέση: θk + θθ k+ +... ++ θq kθk 0 k q ρ θ... θ k = + + + q. = 0, k > q ηλαδή παρατηρείται αποκοπή για k > q, ενώ η συνάρτηση µερικής αυτοσυσχέτισης (PACF) φθίνει στο µηδέν. 3. Μίξη των δύο µοντέλων (ARMA(p,q) models) Για µεγαλύτερη ευελιξία µπορούµε να χρησιµοποιήσουµε µίξη των δυο µοντέλων : 5
z n µ = φ ( z n µ ) + φ ( z n µ ) + α n - θ α n- - θ α n- -.... θ q α n-q, ή Φ(Β) ( z µ ) = Θ(Β) α n χρησιµοποιώντας τους τελεστές όπως παραπάνω. n +..... + φ p ( z n p µ ) Το µοντέλο περιλαµβάνει ρ+q+ άγνωστες παραµέτρους : µ, φ, φ,...., φ p, θ, θ,...., θ q, σ z τις οποίες υπολογίζουµε από τα δεδοµένα. Θεώρηµα 3 Ενα ΑRMA µοντέλο είναι στάσιµο όταν όλες οι ρίζες του πολυωνύµου - φ x φ x -..-φ p x p, και - θ x θ x -..-θ q x q όπου τα φ,,φ p έχουν ορισθεί ως οι συντελεστές του αυτοπαλινδροµούµενου κοµµατιού, ενώ τα θ,,θ q έχουν ορισθεί ως οι συντελεστές του κινητού µέσου όρου είναι εκτός του µοναδιαίου κύκλου στο µιγαδικό επίπεδο. Το µοντέλο ΑRMA χρησιµοποιείται για την κατασκευή του µοντέλου ARIMA το οποίο είναι κατάλληλο για µη στάσιµες χρονοσειρες. 4. AutoRegressive Integrated Moving Average Models- ΑRIMA Aυτοσυσχετιζόµενα µοντέλα κινητού µέσου όρου Είναι η γενικότερη περίπτωση µοντέλου πρόβλεψης χρονοσειρών, όπου η χρονοσειρά δεν είναι στάσιµη, αλλά µετασχηµατίζεται σε στάσιµη µε ορισµένους µετασχηµατισµούς. Έστω ένα ARMA µοντέλο φ ( B) z =Θ ( B) z () n µη στάσιµο, τότε από το Θεώρηµα, η εξίσωση φ ( x) = 0 έχει τουλάχιστον µία ρίζα εντός του µοναδιαίου κύκλου. Αν υποθέσουµε ότι η εξίσωση φ ( x) = 0έχει το ως ρίζα µε πολλαπλότητα d, τότε η συνάρτηση φ ( x) γράφεται ως d φ( x) = ( x) ϕ( x), οπότε αντικαθιστώντας στην () έχουµε ότι n 6
d ( B) ϕ( B) z =Θ ( B) z, () και το µοντέλο καλείται αυτοσυσχετιζόµενο µοντέλο διαφορών κινητού µέσου όρου (ARIMA) µε παραµέτρους (p,d,q), όπου p αριθµών αυτοσυσχετιζόµενων όρων, d η τάξη του τελεστή διαφορών και q είναι ο αριθµός των λαθών πρόβλεψης στην εξίσωση πρόβλεψης. H σχέση () υπονοεί ότι το µοντέλο ( B) d Zt είναι στάσιµο και ικανοποιεί τη σχέση () για τα µοντέλα ARMA. Υπενθυµίζουµε ότι ο τελεστής διαφορών d-τάξης oρίζεται ως εξής: n n Ορισµός 6 Eστω {z n } δοθείσα χρονοσειρά, ο τελεστής διαφορών ορίζεται ως εξής: zn ης τάξης ενώ ο τελεστής διαφορών zn = zn zn = ( B) zn, zn ης τάξης ορίζεται ως εξής: z = z z + z = ( B) z. n n n n n Η εξίσωση διαφορών ης τάξης διακριτών σηµάτων είναι ανάλογη µε τη δεύτερη παράγωγο (derivative) από µια συνεχή συνάρτηση: µετράει την επιτάχυνση ( acceleration ) ή καµπυλότητα ( curvature ) της συνάρτησης το συγκεκριµένο χρόνο. Γενικότερα ο τελεστής διαφορών zn d-τάξης ορίζεται ως εξής: d d z = ( B) z. n XΡΗΣΙΜΑ ΜΟΝΤΕΛΑ τύπου ARIMA ARIMA(0,, 0): τυχαίος περίπατος Random-walk Η εξίσωση πρόβλεψης είναι η ακόλουθη: z n z n- = µ. Περιλαµβάνει ης τάξης διαφορά (nonseasonal difference) και ένα σταθερό µέσο όρο. (α) ARIMA(0,, ): χωρίς σταθερό µέσο όρο. Σε µερικές µη στάσιµες χρονοσειρές όπου ο θόρυβος ταλαντεύεται γύρω από το µέσο όρο που αλλάζει µε αργούς ρυθµούς, ο τυχαίος περίπατος δεν συµπεριφέρεται τόσο καλά όσο ένας κινητός µέσος όρος προηγούµενων παρατηρήσεων. ηλαδή, αντί να χρησιµοποιήσουµε την πιο πρόσφατη παρατήρηση για την εκτίµηση της επόµενης, n 7
είναι καλύτερα να χρησιµοποιήσουµε ένα µέσο όρο από κάποιες πρόσφατες παρατηρήσεις για να φιλτράρουµε το θόρυβο, εκτιµώντας έτσι µε µεγαλύτερη ακρίβεια τον τοπικό µέσο όρο. Εξίσωση πρόβλεψης: z n = z n- θ e n-, όπου e n- δείχνει το σφάλµα την χρονική στιγµή n-. (β) ARIMA(0,, ) µε σταθερό όρο. Μπορούµε να συµπεριλάβουµε έναν σταθερό όρο εάν έχουµε µία γραµµική τάση. Εξίσωση πρόβλεψης: z n = z n- + µ θ e n- 3. ARIMA(0,, ) ή ARIMA(0,, ) χωρίς σταθερό όρο. Εξίσωση πρόβλεψης: z n = z n- z n- θ e n- θ e n-, όπου θ και θ είναι ΜΑ() και ΜΑ() συντελεστές. 4. Μικτό µοντέλο: ARIMA(,, ). Αυτοσυσχετιζόµενο µοντέλο + µοντέλο κινητού µέσου όρου Εξίσωση πρόβλεψης: z n = µ + z n- + φ (z n- - z n- ) θ e n-. 8
4. ΠΡΑΚΤΙΚΟΙ ΚΑΝΟΝΕΣ ΓΙΑ ΤΗ ΜΕΤΑΤΡΟΠΗ ΜΗ ΣΤΑΣΙΜΗΣ ΧΡΟΝΟΣΕΙΡΑΣ ΣΕ ΣΤΑΣΙΜΗ Πρακτικά µία χρονοσειρά είναι στάσιµη, εάν το διάγραµµά της παραµένει παρόµοιο σε διαφορετικά σηµεία, π.χ. η χρονοσειρά του σχήµατος 0 δεν είναι στάσιµη ενώ η χρονοσειρά του σχήµατος είναι στάσιµη: 0 8 6.5.5 4 4 6 8 0 0.5 4 6 8 0 Σχήµα Σχήµα ηλαδή, στο σχήµα έχουµε µη σταθερή µέση τιµή µ(t), την οποία καλούµε τάση (trend). Για να γίνει η χρονοσειρά στάσιµη, πρώτα αφαιρούµε την τάση, είτε µε τη µέθοδο ελαχίστων τετραγώνων, είτε µε κινητό µέσο όρο τάξης r οριζόµενο ως y t r zt i =, i= 0 r είτε µε το µετασχηµατισµό: y = y + a( z z ), α (0,). t t t t Επίσης, η µη στασιµότητα µπορεί να οφείλεται και σε µη σταθερή διασπορά, οπότε για να κάνουµε τη διασπορά σταθερή χρησιµοποιούµε έναν λογαριθµικό µετασχηµατισµό, π.χ. yt = ln( zt ), οπότε η διασπορά σταθεροποιείται. Στο σχήµα 3 έχουµε την γραφική παράσταση του φυσικού λογάριθµου, 9
Σχήµα 3 ενώ στο σχήµα 5 απεικονίζεται η γραφική παράστασης των δεδοµένων που απεικονίζονται στο σχήµα 4 αφού έχουν υποστεί λογαριθµικό µετασχηµατισµό. Σχήµα 4 Σχήµα 5 Παρατηρούµε ότι η ανοδική τάση στην πάροδο του χρόνου είναι ακόµη ορατή, αλλά η διασπορά είναι περίπου ίδια σε όλο το σχήµα. Εφόσον λοιπόν γίνουν οι απαραίτητοι παραπάνω µετασχηµατισµοί σταθεροποίησης της διασποράς, για να µπορέσουµε να σταθεροποιήσουµε το µέσο όρο και συνεπώς για να διαλέξουµε το κατάλληλο µοντέλο ARIMA για µια µη στάσιµη χρονοσειρά, αρχικά βρίσκουµε την κατάλληλη τάξη d του τελεστή διαφορών που µετατρέπει τη χρονοσειρά σε στάσιµη. Για να προσδιορίσουµε ένα µοντέλο ARIMA πρέπει αρχικά να βρούµε την τάξη του τελεστή διαφορών που απαιτείται για να κάνουµε µία χρονοσειρά στάσιµη. Η καλύτερη τάξη, είναι η µικρότερη τάξη που αντιστοιχεί σε µια χρονοσειρά η οποία ταλαντεύεται γύρω από σταθερό µέσο όρο (Σχήµα 6) και της οποίας η γραφική αναπαράσταση αυτοσυσχετιζόµενης συνάρτησης (autocorrelation function (ACF)) φθίνει γρήγορα στο µηδέν (Σχήµα 7). Εάν η χρονοσειρά συνεχίζει να επιδεικνύει µία τάση ή υπάρχει έλλειψη τάσης ταλάντωσης γύρω από το µέσο όρο (Σχήµα 8), ή ο αριθµός των θετικών αυτοσυσχετίσεων είναι περίπου δέκα 0 ή και µεγαλύτερος (Σχήµα 9), τότε χρειαζόµαστε υψηλότερη τάξη για τον τελεστή διαφορών. 0
Σχήµα 6 Σχήµα 7 Σχήµα 8 Σχήµα 9 ΚΑΝΟΝΑΣ Εάν ο αριθµός των θετικών αυτοσυσχετίσεων είναι αρκετά µεγάλος, τότε η χρονοσειρά χρειάζεται υψηλότερη τάξη για τον τελεστή διαφορών. Η χρήση του τελεστή διαφορών τείνει να εισάγει αρνητική αυτοσυσχέτιση. Εάν η χρονοσειρά έχει ισχυρή θετική αυτοσυσχέτιση, τότε η ης τάξης διαφορές µειώνουν την αυτοσυσχέτιση οδηγώντας την σε αρνητικές τιµές. Εάν τελικά οδηγηθεί σε µηδενικές ή αρνητικές τιµές, δε χρειάζεται να χρησιµοποιήσουµε διαφορές µεγαλύτερης τάξης. Μάλιστα, εάν οι προκύπτουσες αυτοσυσχετίσεις είναι µικρότερες από -0.5 (το 0.5 είναι το όριο) τότε η σειρά έχει υποστεί µεγαλύτερη τάξη διαφορών από αυτή που θα έπρεπε (overdifferenced). ΚΑΝΟΝΑΣ Αν η ης τάξης διαφορές έχουν αυτοσυσχέτιση ρ()=0 ή ρ()<0 ή όλες οι αυτοσυσχετίσεις είναι αµελητέες τότε η χρονοσειρά δε χρειάζεται µεγαλύτερης τάξης διαφορά. ΚΑΝΟΝΑΣ 3 Η επιθυµητή τάξη διαφορών είναι αυτή στην οποία η τυπική απόκλιση είναι η ελάχιστη. Οι ελαφρώς «υποδιαιρεµένες» (underdifferenced) χρονοσειρές µπορούν να αντισταθµιστούν προσθέτοντας AR όρους στο µοντέλο. Οι ελαφρώς «υπερδιαιρεµένες» (overdifferenced) χρονοσειρές µπορούν να αντισταθµιστούν προσθέτοντας ΜΑ όρους στο µοντέλο.
ΚΑΝΟΝΑΣ 4 Ένα µοντέλο που δεν χρειάζεται καµία τάξη διαφορά είναι στάσιµο. Οι ης τάξης διαφορές υπονοούν ότι το µοντέλο έχει µια σταθερή τάση. Οι ης τάξης διαφορές υπονοούν ότι το µοντέλο έχει µια µεταβαλλόµενη τάση (time-varying trend). ΚΑΝΟΝΑΣ 5 Ένα µοντέλο χωρίς καµία τάξη περιέχει ένα σταθερό όρο. Αυτός είναι η µέση τιµή της χρονοσειράς. Τα ης τάξης µοντέλα ΑRΙΜA δεν περιλαµβάνουν (συνήθως) σταθερό όρο. Τα ης τάξης µοντέλα ΑRΙΜA περιλαµβάνουν ένα σταθερό όρο όταν η χρονοσειρά έχει µη-µηδενική µέση τάση (non-zero average trend). ΑΝΑΓΝΩΡΙΣΗ ΤΟΥ ΠΛΗΘΟΥΣ ΤΩΝ AR Ή ΜΑ ΟΡΩΝ Αφού η χρονοσειρά έχει γίνει στάσιµη µε χρήση του τελεστή διαφορών, το επόµενο βήµα είναι να καθορίσουµε πόσοι AR ή MA όροι απαιτούνται. Από τις γραφικές παραστάσεις των συναρτήσεων αυτοσυσχέτισης (ACF) και µερικής αυτοσυσχέτισης (partial autocorrelation (PACF)) της προκύπτουσας χρονοσειράς διαφορών, µπορούµε να αναγνωρίσουµε το πλήθος των AR και/ή MA όρων που είναι απαραίτητοι. ΚΑΝΟΝΑΣ 6 Aν η ACF φθίνει αργά και η PΑCF αποκόπτεται απότοµα, δηλαδή φ kk =0 για κάθε k>k 0, τότε χρειαζόµαστε k 0 τo πλήθος AR όρους. Κάποιες φορές καλό είναι να χρησιµοποιούµε µοντέλα µόνον κινητού µέσου όρου. Τότε η συνάρτηση αυτοσυσχέτισης (ACF) παίζει τον ίδιο ρόλο για MA όρους,όπως η PACF για AR όρους (δηλαδή πόσοι MA όροι απαιτούνται για να εξαλειφθεί η αποµένουσα αυτοσυσχέτιση). ΚΑΝΟΝΑΣ 7 Aν η PACF φθίνει αργά και η ΑCF αποκόπτεται απότοµα, δηλαδή ρ k =0 για κάθε k>k 0, τότε χρειαζόµαστε k 0 τo πλήθος ΜA όρους. Πολλές φορές είναι δύσκολο να χρησιµοποιήσουµε ένα µοντέλο µόνο µε AR ή µόνο µε ΜΑ όρους. Η καλύτερη λύση είναι η µίξη των δύο µοντέλων (µοντέλο µε AR και MA όρους). Ένα πρόβληµα που εµφανίζεται κατά τη µίξη µοντέλων είναι ότι οι δύο όροι (AR,MA) µπορεί να αλληλοαναιρούνται.
ΚΑΝΟΝΑΣ 8 Είναι πιθανό για έναν AR όρο και έναν MA όρο να αναιρούν ο ένας τα αποτελέσµατα του άλλου. Γι αυτό, πολλές φορές τροποποιούµε το µοντέλο µε ένα λιγότερο όρο AR και ένα λιγότερο όρο MA. ΚΑΝΟΝΑΣ 9 Αν το άθροισµα των AR συντελεστών είναι περίπου ένα, πρέπει να ελαττώσουµε τον αριθµό των AR όρων κατά ένα και να αυξήσουµε την τάξη διαφορών κατά ένα. ΚΑΝΟΝΑΣ 0 Αν το άθροισµα των ΜΑ συντελεστών είναι περίπου ένα, πρέπει να ελαττώσουµε τον αριθµό των ΜΑ όρων κατά ένα και να µειώσουµε την τάξη διαφορών κατά ένα. ΚΑΝΟΝΑΣ Εάν το προκύπτων µοντέλο πρόβλεψης εµφανίζει αλλοπρόσαλλη ή ασταθή συµπεριφορά, τότε µπορεί το άθροισµα των AR ή ΜΑ συντελεστών να είναι περίπου ένα. Σηµείωση: Καλύτερα να χρησιµοποιούµε µη-µικτά µοντέλα µόνο µε AR ή ΜΑ όρους. Αν χρησιµοποιούµε και τα δυο είδη όρων στο ίδιο µοντέλο µπορεί να οδηγηθούµε σε υπερπροσαρµογή (overfitting) δεδοµένων και να µην έχουµε µοναδικούς (non-uniqueness) συντελεστές. 3
5 ΠΕΡΙΒΑΛΛΟΝΤΙΚΑ ΜΟΝΤΕΛΑ (SEASONAL MODELS) Παρατηρώντας την ACF µιας χρονοσειράς µε εποχικές συνιστώσες (Σχήµα 0) διαπιστώνουµε ότι η ΑCF είναι ένα ηµιτονοειδές κύµα που φθίνει µε αργό ρυθµό, οπότε η χρονοσειρά είναι µη-στάσιµη. Η βραδύτητα µείωσης εµφανίζεται τόσο στα εποχικά(seasonal) όσο και στα µη-εποχικά επίπεδα(non-seasonal levels). Σχήµα 0 Στις µη-εποχικές χρονοσειρές(non-seasonal time series), όταν ψάχνουµε την τάξη d του τελεστή διαφορών, για να µετατρέψουµε τη χρονοσειρά σε στάσιµη, κοιτάµε τον αριθµό των θετικών µη-εποχικών αυτοσυσχετίσεων (non-seasonal lags) για να συµπεράνουµε αν χρειαζόµαστε υψηλότερη τάξη. Στις εποχικές χρονοσειρές (seasonal timeseries) κοιτάµε τόσο τα µη «εποχικά»(non-seasonal) όσο και τα «εποχικά» στοιχεία (seasonal lags) (lags στο L, L, 3L, 4L π.χ. αν τα δεδοµένα είναι µηνιαία L=, 4, 36, 48). 4
ΚΑΝΟΝΕΣ ΣΤΑΣΙΜΟΤΗΤΑΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΧΡΟΝΟΣΕΙΡΑΣ (SEASONAL TIMESERIES) ) Η ACF των µη «εποχικών» στοιχείων φθίνει γρήγορα ή αποκόπτεται απότοµα. ) H ACF φθίνει γρήγορα ή αποκόπτεται απότοµα στο «εποχικό» επίπεδο L και δεν υπάρχουν άλλες σηµαντικές αυτοσυσχετίσεις. ΚΑΝΟΝΕΣ ΑΝΑΓΝΩΡΙΣΗΣ ΣΤΑΣΙΜΩΝ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΧΡΟΝΟΣΕΙΡΩΝ (SEASONAL TIMESERIES) ) Χρησιµοποιούµε την συµπεριφορά των ACF και PACF στα µη «εποχικά» στοιχεία (non-seasonal lags) για να βρούµε δοκιµαστικά µη «εποχικά» µοντέλα (non-seasonal models) που περιγράφουν τη χρονοσειρά. ) Χρησιµοποιούµε την συµπεριφορά των ACF και PACF στα «εποχικά» στοιχεία (seasonal lags) για να βρούµε «εποχικά» µοντέλα (seasonal models)(µπορούν να έχουν AR και MA όρους) που περιγράφουν τη χρονοσειρά. Χρησιµοποιούµε τους ίδιους κανόνες µε τα µη «εποχικά» µοντέλα. 3) Συνδυάζουµε τα µοντέλα που πήραµε από τα δύο προηγούµενα βήµατα για να καταλήξουµε σε ένα γενικό δοκιµαστικό µοντέλο. 5
6 EΦΑΡΜΟΓΗ: KATAΣΚΕΥΗ ΜΟΝΤΕΛΟΥ ΕΚΤΙΜΗΣΗΣ ΤΗΣ ΣΥΜΠΕΡΙΦΟΡΑΣ ΤΟΥ ΟΖΟΝΤΟΣ Στην παράγραφο αυτή εφαρµόζουµε τους παραπάνω κανόνες για να υπολογίσουµε ένα µοντέλο που να περιγράφει τη συµπεριφορά µετρήσεων του όζοντος. Χρησιµοποιούµε µηνιαίες τιµές µέτρησης από τα έτη 93-004, αποθηκευµένες σε αρχείο Spssozon.txt. Στο σχήµα φαίνεται η γραφική παράσταση των µετρήσεων του όζοντος: 45 400 375 350 35 300 75 00 400 600 800 Σχήµα : Μετρήσεις του όζοντος 93-004 Από τη µορφή του σχήµατος είναι σαφές ότι υπάρχει µία περιοδικότητα «εποχική» την οποία ανακαλύπτουµε µε χρήση του περιοδογράµµατος της χρονοσειράς του όζοντος (βλέπε Σχήµα και Παράρτηµα), η οποία εντοπίζει µία επικρατούσα συχνότητα 7, δηλαδή περίοδο Τ =, συνεπώς έχουµε µία περιοδικότητα επανάληψης των µετρήσεων ανά χρόνο. 6
300 50 00 50 00 50 00 00 300 400 Σχήµα : Περιοδόγραµµα του όζοντος 93-004 Επιπλέον, το διάγραµµα αυτοσυσχέτισης της χρονοσειράς επιβεβαιώνει τα παραάνω αφού δείχνει ένα επαναλαµβανόµενο µοτίβο ανά περίοδο που φθίνει αργά: 0.75 0.5 0.5-0.5 00 00 300 400-0.5 Σχήµα 3: ACF του όζοντος 93-004 Aρα, το διάγραµµα ACF υπονοεί µία εποχική περιοδικότητα (seasonality), οπότε χρησιµοποιούµε τον τελεστή διαφορών ης τάξης και έτσι µε την υπόθεση ότι η x= x : i=,...,85, ορίζουµε: χρονοσειρά του όζοντος είναι η { } i y, 3,...,85 i = xi xi i=. Mελετούµε το διάγραµµα ACF και PACF των δεδοµένων y= { y : i= 3,...,85} (βλέπε Παράρτηµα): i 0.8 0.6 0.4 0. -0. -0.4 00 00 300 400 Σχήµα 4: ACF των δεδοµένων y 7
0. 0. -0. 0 0 30 40 50 60-0. -0.3-0.4-0.5 Σχήµα 5: PACF των δεδοµένων y Aπό τη µελέτη των παραπάνω δύο διαγραµµάτων προκύπτει ότι:. H ACF των «εποχικών» στοιχείων y, y 4, y 36,. Έχει απότοµη κάθοδο µετά το ο στοιχείο y, εφόσον y = -0.489703, y 4 = -0.05433, y 36 = 0.0045 κλπ, ενώ η PACF των «εποχικών» στοιχείων φ,, φ 4,4, φ 36,36 φθίνει αργά στο µηδέν. Πράγµατι, φ, = -0.48393, φ 4,4 = -0.33893, φ 36,36 = - 0.989 κλπ.. H ACF των µη «εποχικών» στοιχείων y, y, y 3, κλπ φθίνει αργά στο µηδέν, ενώ η PACF των µη «εποχικών» στοιχείων φ,, φ,, έχει απότοµη κάθοδο µετά το 3 ο στοιχείο. Πράγµατι, φ, = 0.9058, φ, = 0.53836, φ 3,3 = 0.4735, φ 4,4 = 0.04049, φ 5,5 = -0.065645 κλπ. Aρα η χρονοσειρά y µπορεί να θεωρηθεί στάσιµη (βλέπε 5) και συνεπώς προχωρούµε στον καθορισµό του µοντέλου που προσαρµόζεται στη χρονοσειρά. Από τους κανόνες, 6 και 7 πρέπει να βάλουµε ένα «εποχικό» ΜΑ όρο στο µοντέλο µας και 3 ΑR-όρους στο µη «εποχικό» κοµµάτι του µοντέλου µας, δηλαδή: ή ισοδύναµα ( 3 ) ϕ ϕ ϕ θ 3 B B B yi = ( B ) ai 3 ( )( ) ϕ ϕ ϕ θ B B 3B xi xi = ai ai ( ) ( ) ( ) x = x + ϕ x x + ϕ x x + ϕ x x + a θa. i i i i 3 i i 4 3 i 3 i 5 i i Οι όροι φ,φ,φ 3, υπολογίζονται από τις Υule-Walker εξισώσεις (βλέπε Παράρτηµα). Εφόσον η PACF έχει απότοµη κάθοδο µετά τον 3 ο όρο είναι γνωστό από τη θεωρία ότι φ = φ 3,, φ = φ 3,, φ 3 = φ 3,3, οι οποίες είναι οι λύσεις του συστήµατος των Yule-Walker εξισώσεων για k = 3. Προκύπτει ότι: 8
φ = 0.7463, φ = 0.966, φ 3 = 0.4735. Eπίσης για να προσδιορίσουµε το θ λύνουµε την εξίσωση: r θ = + θ και βρίσκουµε ότι θ = 0.7967 και θ =.636. Από αυτές η δεύτερη απορρίπτεται λόγω στασιµότητας της χρονοσειράς, συνεπώς προκύπτει το µοντέλο ( ) ( ) x = x + 0.74635 x x + 0.9659 x x i i i i 3 i i 4 ( ) + 0.478 x x + a 0.7967a. i 3 i 5 i i Παρακάτω παραθέτουµε ετήσια πρόγνωση χρησιµοποιώντας ως αρχή µέτρησης διάφορες χρονικές στιγµές. Η κόκκινη γραµµή δείχνει τα πραγµατικά δεδοµένα ενώ η µαύρη τις προγνώσεις: 400 375 350 35 300 75 400 350 300 5 50 75 00 5 50 45 400 375 350 35 300 75 0 40 60 80 00 0 40 Σχήµα 6: Aρχή µέτρησης 990 Σχήµα 7: Αρχή µέτρησης 99 380 360 340 30 300 80 60 0 40 60 80 00 0 0 40 60 80 00 0 Σχήµα 8: Aρχή µέτρησης 99 Σχήµα 9: Aρχή µέτρησης 993 9
360 340 30 300 80 360 340 30 300 80 0 40 60 80 00 0 40 60 80 Σχήµα 30: Aρχή µέτρησης 994 Σχήµα 3: Aρχή µέτρησης 994 360 340 30 300 80 60 360 340 30 300 80 0 40 60 80 0 0 30 40 50 60 70 Σχήµα 3: Aρχή µέτρησης 995 Σχήµα 33: Aρχή µέτρησης 996 ΣΥΜΠΕΡΑΣΜΑ Aπό τα παραπάνω σχήµατα φαίνεται πειραµατικά πως όταν χρησιµοποιούµε τα πιο πρόσφατα ετή δεδοµένα έχουµε καλύτερη πρόγνωση της τελευταίας εξαετίας. ΠΑΡΑΡΤΗΜΑ Στο παρόν παράρτηµα παραθέτουµε τα προγράµµατα σε λογισµικό Mathematica για τον υπολογισµό των συναρτήσεων αυτοσυσχέτισης και µερικής αυτοσυσχέτισης, των συντελεστών AR και του µοντέλου πρόγνωσης.. Υπολογισµός του περιοδογράµµατος data = ReadList["SpssOzon.txt",Number]; L = Length[data]/3; x[n_] := Part[data,3n] ListPlot[Table[x[n],{n,,L}], PlotJoined True, PlotRange All] *Mε τις παραπάνω εντολές ορίζουµε ως µία ακολουθία x(n) τις µετρήσεις του όζοντος, αφού τις διαβάσουµε από το αρχείο SpssOzon.txt και κάνουµε τη γραφική παράσταση των µετρήσεων του όζοντος µε την εντολή ListPlot. (βλέπε σχήµα )* aa = Abs[Fourier[Table[x[n],{n,,L/}]]]; 30
a = ListPlot[Table[aa[[n]],{n,,L/}],PlotJoined->True,PlotRange All] per = ; SS=Sum[x[n],{n,,L}]/L *Mε τις παραπάνω εντολές ορίζουµε ως aa το φάσµα Fourier της ακολουθίας x(n) και a είναι το περιοδόγραµµα του όζοντος (βλέπε σχήµα ). Oρίζουµε την περίοδο per = και υπολογίζουµε το µέσο όρο SS των µετρήσεων του όζοντος* y[n_] := x[n]-x[n+per] ListPlot[Table[y[n],{n,,L-per}],PlotJoined True,PlotRange All] SS = Sum[y[n],{n,,L-per}]/(L-per) z = Table[y[n],{n,,L-per}]; Mean[z] Variance[z] StandardDeviation[z] *Mε τις παραπάνω εντολές ορίζουµε την ακολουθία y n = x n -x n- των διαφορών της ακολουθίας x ανά και υπολογίζουµε τη γραφική της παράσταση και στατιστικά χαρακτηριστικά της όπως ο µέσος όρος, η διασπορά και η τυπική απόκλιση.*. Υπολογισµός της συνάρτησης αυτοσυσχέτισης g[k_]:=/l Sum[(x[n]-SS) (x[n+k]-ss),{n,,l-k}] m=table[g[k]/g[0],{k,0,l/-}]; ListPlot[m,PlotJoined True] *Mε τις παραπάνω εντολές ορίζουµε την ακολουθία g(k) που είναι η συνάρτηση αυτοσυσχέτισης των µετρήσεων του όζοντος και κάνουµε τη γραφική της παράσταση µε την εντολή ListPlot (βλέπε σχήµα 3).* g[k_]:=/(l-per) Sum[(y[n]-SS) (y[n+k]-ss),{n,,(l-per)-k}] m=table[g[k]/g[0],{k,0,l/-}]; ListPlot[m,PlotJoined True,PlotRange All] *Mε τις παραπάνω εντολές ορίζουµε την ακολουθία g(k) που είναι η συνάρτηση αυτοσυσχέτισης της ακολουθίας y n µετρήσεων του όζοντος και κάνουµε τη γραφική της παράσταση µε την εντολή ListPlot. (βλέπε σχήµα 5). * 3
3. Υπολογισµός της συνάρτησης µερικής αυτοσυσχέτισης as[l_]:=table[m[[n]],{n,,l}] m[l_]:=table[as[l][[n]],{n,,length[as[l]]}] dd[l_]:=join[reverse[m[l]],as[l]] az[k_,l_]:=table[dd[l][[m]],{m,length[as[l]]-k+,length[as[l]]-k}] rp[l_]:=table[az[k,l],{k,,length[as[l]]}]; asd[l_]:=table[m[[n]],{n,,l+}] qa[l_]:=inverse[rp[l]].asd[l] gg=table[qa[l][[l]],{l,,65}] *Mε τις παραπάνω εντολές υπολογίζουµε τη συνάρτηση µερικής αυτοσυσχέτισης της ακολουθίας y n. H gg είναι η γραφική της παράσταση (βλέπε σχήµα 5) * qa[3] 4. Υπολογισµός των συντελεστών AR *Mε την παραπάνω εντολή υπολογίζουµε τους όρους ΑR του µοντέλου µας. Η εντολή αυτή αποτελεί φυσική συνέχεια των παραπάνω εντολών.* 5. Yπολογισµός του µοντέλου πρόγνωσης Clear[w] j = 5; w[j,-] = f[ L-3-j +]; w[j,-] = f[l--j +]; w[j,0] = f[l--j +]; w[j,] = f[l-j +]; w[j,] = f[l+-j +]; w[j,3] = f[l+-j +]; w[j,4] = f[l+3-j +]; w[j,5] = f[l+4-j +]; w[j,6] = f[l+5-j +]; w[j,7] = f[l+6-j +]; w[j,8] = f[l+7-j +]; w[j,9] = f[l+8-j +]; w[j,0] = f[l+9-j +]; w[j,] = f[l+0-j +]; w[j,] = f[l+-j +]; 3
w[j_,n_] := w[j,n] = w[j,n-] + 0.7463 (w[j,n-] - w[j,n-3]) + 0.966 (w[j,n-] - w[j,n-4]) + 0.473 (w[j,n-3] - w[j,n-5]) - 0.79 (f[l- (j+)+n] - f[l- (j+)+n- ]) *Mε τις παραπάνω εντολές ορίζουµε το µοντέλο µας. Η τιµή του j που επιλέγουµε καθορίζει την αρχή της µέτρησης και συνεπώς οι πρώτες σειρές είναι οι αρχικές µας συνθήκες. Ο τύπος του µοντέλου µας δίνεται από την αναδροµική σχέση w[j,n].* qt[j] = Table[w[j,n],{n,3,3+j -}]; qt[j] = Table[f[n],{n,L-j +,L}]; s[j] = ListPlot[Table[f[n],{n,L-(j-) +,L}],PlotJoined True,PlotRange All,PlotStyle RGBColor[,0,0]] ss[j] = ListPlot[Table[qt[j][[n]],{n,,j }],PlotJoined True] Show[s[j],ss[j]] *Oι παραπάνω εντολές συγκρίνουν πειραµατικά το µοντέλο µας µε τις πραγµατικές τιµές των µετρήσεων και εναλλάσσοντας την τιµή του j παίρνουµε τα σχήµατα 6-33.* 33
7. ΒΙΒΛΙΟΓΡΑΦΙΑ. George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel, Τime Series Analysis, Forecasting and Control, 3 rd Edition, Prentice Hall, Englewood Cliffs, New Jersey, 994, USA.. Η. lsliker, 006 Ανάλυση χρονο-σειρών (Time-series analysis) http://www.astro.auth.gr/~isliker/tsa_course/tsa_internet_.ppt 3. Θ. Κουτρουµανίδης, 007 Η χρονολογική σειρά (time series) http://www.agro.duth.gr/metaptyxiako-docs/chronoseires.pps 4.. Κουγιουµτζή Χρονικές Σειρές (Μέρος ο) http://users.auth.gr/~dkugiu/teach/timeseries/partchp.pdf 5.. Κουγιουµτζή Χρονικές Σειρές (Μέρος 4ο) http://users.auth.gr/~dkugiu/teach/timeseries/partchp4.pdf 6. Stat 70-Intro Time series/sanchez, Making a time series stationary http://www.stat.ucla.edu/~jsanchez/teaching/course70/lectureslabs/differencing.pdf 7. W. Q. Meeker, 007 Methods for Nonstationary Time Series Transformations and ARIMA Models http://www.public.iastate.edu/~wqmeeker/stat45stuff/pdf_psnups/ handout05_psnup.pdf 8. DECISION 4 Forcasting The logarithm transformation http://www.duke.edu/~rnau/4log.htm#positivity 9. DECISION 4 Forcasting Introduction to ARIMA : non-seasonal models http://www.duke.edu/~rnau/4arim.htm 0. DECISION 4 Forcasting Identifying the order of differencing http://www.duke.edu/~rnau/4arim.htm. DECISION 4 Forcasting Identifying the numbers of AR or MA terms http://www.duke.edu/~rnau/4arim3.htm 34
. DECISION 4 Forcasting Estimation of ARIMA models http://www.duke.edu/~rnau/arimest.htm 35