ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΧΡΟΝΟΛΟΓΙΚΕΣ ΣΕΙΡΕΣ (Time-series Analysis) Δρ Ιωάννης Δημόπουλος Καθηγητής Τμήμα Διοίκησης Μονάδων Υγείας και Πρόνοιας -ΤΕΙ Καλαμάτας
Τι είναι η χρονολογική σειρά Χρονολογική σειρά ή Χρονοσειρά (ΧΣ, time series) := συλλογή από παρατηρήσεις που έγιναν διαδοχικά στο χρόνο Το σύνολο των τιμών μιας μεταβλητής που μεταβάλλεται μέσα στο χρόνο. Οι τιμές της χρονολογικής σειράς (τιμές της μεταβλητής) αναφέρονται σε διαδοχικές χρονικές στιγμές ή περιόδους. 2
Συμβολική παρουσίαση x 0, x 1, x 2, x 3,,x i-1, x i, x i+1,..., x T x t, t=1, 2,, T t : μονάδα χρόνου (π.χ. έτος, μήνας, ) 250 Παραγωγή ελαιολάδου (χιλ. τόννοι) 200 150 100 50 x: Παραγωγή ελαιολάδου (t=0) : 1945, (t=15) : 1960 0 1944 1945 1946 1947 1948 1949 1950 1951 Πηγή: Γεωργικό Δελτίο Αγροτικής Έτος Τράπεζας, τεύχη 13, 15, 17. Υπουργείο Γεωργίας 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 3
Παράδειγμα Νοσοκομειακά δεδομένα 45 Αριθμός Εισαγωγών/Ημέρα 40 35 30 25 20 15 10 5 0 1/1/1991 1/4/1991 1/7/1991 1/10/1991 1/1/1992 1/4/1992 1/7/1992 1/10/1992 1/1/1993 1/4/1993 1/7/1993 1/10/1993 1/1/1994 1/4/1994 1/7/1994 1/10/1994 1/1/1995 1/4/1995 1/7/1995 1/10/1995 Ημέρα Πηγή: Γ.Ν. Καλαμάτας, ημερήσιες εισαγωγές ατόμων 3 ης ηλικίας. Ιδία έρευνα, επεξεργασία 4
Πηγή: Wrigley EA, Schofield RS (1981) The Population History of England 1541 1871: A Reconstruction.Harvard University Press, Cambridge, Mass. 5
6
Σκοποί της Ανάλυσης ΧΣ Περιγραφή (description) Εξήγηση (explanation) Κατανόηση Πρόβλεψη Έλεγχος (control) 7
Ανάλυσης ΧΣ Η μελέτη ΧΣ στηρίζεται στο ότι οι διαδοχικές στο χρόνο τιμές κάθε ΧΣ έχουν μια εσωτερική δομή η οποία και αναλύεται 8
Περιγραφή Το 1ο βήμα είναι πάντα η γραφική παράσταση της ΧΣ. Διακρίνουμε 2 τύπους προσεγγίσεων στην περιγραφή και ανάλυση των ΧΣ Στον πρώτο τύπο οι μετρήσεις ή παρατηρήσεις παρουσιάζονται σαν μια συνάρτηση του χρόνου: x t = f(t) 9
Στο δεύτερο τύπο μια ΧΣ παρουσιάζεται με ένα δυναμικό μοντέλο: x t = f(x t-1, x t-2, x t-3, ) οι μετρήσεις ή παρατηρήσεις δεν παρουσιάζονται σαν μια συνάρτηση του χρόνου, αλλά σαν μια συνάρτηση του παρελθόντος τους (και πιθανόν του παρελθόντος άλλων μεταβλητών). 10
Κλασσική διαδικασία Στην κλασσική διαδικασία η συνάρτηση x t = f(t) της χρονολογικής σειράς αποσυντίθεται σε 4 συνιστώσες (time series components): Τάση (trend): Μακροχρόνια «γενική κίνηση» που ακολουθεί η ΧΣ. Κυκλική συνιστώσα (cyclical): αντιπροσωπεύει τις επαναλαμβανόμενες κυμάνσεις γύρω από την τάση που η διάρκειά τους είναι μεγαλύτερη του έτους Εποχική συνιστώσα (Seasonality): κυκλική συνιστώσα με περίοδο ίση ή μικρότερη του έτους Τυχαία συνιστώσα (noise, random-irregular movements): παρουσιάζει όλες τις μεταβολές της ΧΣ που δεν μπορούν να αποτελούν μέρος των προηγούμενων συνιστωσών 11
Συχνά η ανάλυση ΧΣ έχει σαν σκοπό τη μέτρηση και το διαχωρισμό των συνιστωσών. Ο διαχωρισμός επιδιώκεται διότι ορισμένες συνιστώσες πρέπει είτε να αφαιρεθούν είτε να μελετηθούν ξεχωριστά. 12
Οι τέσσερις συνιστώσες μιας ΧΣ 13
Προσθετικό υπόδειγμα x t = T(t) + C(t) + S(t) + I(t) T: μονότονη συνάρτηση, C: περιοδική συνάρτηση με περίοδο >> 1 έτος, S: περιοδική συνάρτηση με περίοδο 1έτος, I = τυχαία συνάρτηση (στοχαστική διαδικασία). Οι 4 συνιστώσες εκφράζονται στην ίδια μονάδα μέτρησης με τη μεταβλητή x. Προσθετικό υπόδειγμα π.χ. όταν η εποχική συνιστώσα διατηρείται σταθερή σε σχέση με την τάση 14
Πολλαπλασιαστικό υπόδειγμα x t = T(t) C(t) S(t) I(t) Μόνο η συνιστώσα Τ εκφράζεται στην ίδια μονάδα μέτρησης με τη μεταβλητή x, οι υπόλοιπες συνιστώσες είναι δείκτες. Πολλαπλασιαστικό υπόδειγμα π.χ. όταν η εποχική συνιστώσα ποικίλει ανάλογα με την τάση, αυξάνει (μειώνεται) όταν η τάση είναι ανοδική (καθοδική) 15
Εκτίμηση της Τάσης Η εκτίμηση της τάσης έχει σαν σκοπό: την πρόγνωση της τάσης την εξάλειψη της τάσης από τα αρχικά δεδομένα της ΧΣ όταν θέλουμε να προσδιορίσουμε τις διάφορες βραχυχρόνιες κινήσεις γύρω από την τάση (συνήθως εποχικές και κυκλικές κυμάνσεις) 16
Χάραξη της τάσης με το χέρι. Χάραξη συνεχούς ευθείας (ή καμπλύλης) γραμμής στο γράφημα της ΧΣ. Χρονοβόρα και λίγο αξιόπιστη για μεγάλες ΧΣ Ανάλυση παλινδρόμησης (Παραμετρική εκτίμηση) Γραμμικό υπόδειγμα : x t = β 0 + β 1 t + e t Εκθετικό υπόδειγμα : x t = β 0 β t 1 + e t Πολυωνυμικό υπόδειγμα : x t = β 0 + β 1 t+ β 2 t 2 + β 3 t 3 + +e t Μέθοδος των ελαχίστων τετραγώνων Βρίσκει την γραμμή που ελαχιστοποιεί το άθροισμα των τετραγώνων των αποκλίσεων των σημείων της γραμμής από τα αντίστοιχα σημεία της ΧΣ 17
M ortality rate(0/00) 40 35 30 25 20 15 10 5 0 Linear regression y = -0,398x + 789,93 R 2 = 0,7422 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 Year Changes of mortality rate in Taiwan (1906-1942) Πηγή: Taiwansheng wushiyinianlai tongjitiyao, (Taipei: Taiwanshen xiengzheng zhangquang gongshu, 1946): 326-7. 18
Εξομάλυνση (λείανση-smoothing) Η εξομάλυνση περιλαμβάνει πάντα κάποια μορφή υπολογισμού «τοπικών μέσων όρων» έτσι ώστε οι μη συστηματικές συνιστώσες των παρατηρήσεων (τυχαία συνιστώσα) να αλληλομηδενίζονται. Κινητός μέσος κ: μέσος αριθμητικός κ διαδοχικών όρων (κ: πλάτος του «παράθυρου» εξομάλυνσης ) κάθε τιμή της ΧΣ αντικαθίσταται είτε από τον απλό μέσο είτε από τον σταθμισμένο μέσο κ γειτονικών σημείων. 19
Η χρήση κινητού μέσου : Επιτρέπει την εξάλειψη της κυκλικής, της εποχικής και της τυχαίας συνιστώσας Οδηγεί σε απώλεια δεδομένων της ΧΣ Παρουσιάζει ευαισθησία στις (απομακρυσμένες) ακραίες τιμές 20
x 1, x 2, x 3,,x κ, x κ+1, x κ+2, Οι αριθμοί (x 1 +x 2 +x 3 + +x κ ), (x 2 +x 3 + +x κ+1 ), (x 3 +x 4 + +x κ+2 ), είναι οι κινητοί μέσοι τάξης κ της χρονολογικής σειράς x t 21
10 Τ (C) MA(5) MA(3) MA(19) Πολυωνυμική (Τ (C)) 9 8 7 6 5 y = -2E-08x 4 + 0,0001x 3-0,3383x 2 + 423,9x - 199054 1781 1791 1801 Τ (C) 1811 1821 1831 1841 1851 1861 1871 1881 1891 1901 1911 1921 1931 1941 1951 1961 1971 1981 Έτος Mean annual temperature (in deg. C), 1781 1988, Munich-Riem. Πηγή: Hipel and Mcleod (1994). http://www-personal.buseco.monash.edu.au/~hyndman/tsdl/pruscha/year.dat 22
Καθορισμός του πλάτους κ του Κινητού Μέσου Για ΧΣ χωρίς εποχικότητα συχνά μικρό κ είναι κατάλληλο για την εξομάλυνση της ΧΣ, αν και συνήθως λαμβάνεται υπόψη το μέγεθος της τυχαίας συνιστώσας. Μεγάλα κ αφαιρούν καλύτερα την τυχαία συνιστώσα, αλλά η εξομάλυνση είναι λιγότερο «ευαίσθητη» σε αλλαγές της ΧΣ. Για ΧΣ με εποχικότητα συχνά χρησιμοποιείται κ ίσο με το πλάτος ενός ετήσιου κύκλου. 23
Απλή εκθετική εξομάλυνση s t = a x t + (1-a) s t-1 x t : η τιμή της ΧΣ τη στιγμή t s t : η εξομαλυμένη τιμή της ΧΣ τη στιγμή t Κάθε εξομαλυμένη τιμή είναι ο σταθμισμένος μέσος όρος των προηγούμενων τιμών με τις σταθμίσεις (βάρη) να μειώνονται εκθετικά συναρτήσει της τιμής της παραμέτρου a 24
Συνέχεια... a=0 η τρέχουσα παρατήρηση δεν λαμβάνεται υπόψη και η εξομαλυμένη τιμή συνίσταται εξ ολοκλήρου από την προηγούμενη εξομαλυμένη τιμή. a=1, οι προηγούμενες τιμές αγνοούνται 0<a<1, παράγονται ενδιάμεσα αποτελέσματα Η τιμή του a επιλέγεται ανάλογα με το βαθμό της επιθυμητής εξομάλυνσης. Μικρές τιμές του a αποδίδουν μεγάλη εξομάλυνση. Μεγάλες τιμές του a παράγουν μικρή εξομάλυνση. 25
Διπλή εκθετική εξομάλυνση Για κάθε χρονική στιγμή t υπολογίζεται η εξομαλυμένη τιμή s t και η τάση T t ως εξής: s 2 =x 2 T 2 =x 2 -x 1 S 3 =ax 3 +(1-a)(s 2 +T 2 ) T 3 =γ(s 3 -s 2 )+(1-γ)T 2. s t =ax t +(1-a)(s t-1 +T t-1 ) T t =γ(s t -s t-1 )+(1- γ)t t-1 Είναι αποτελεσματική όταν υπάρχει τάση 26
Αυτοσυσχέτιση (Autocorrelation) Δείχνει τη συσχέτιση μιας ΧΣ με τον «εαυτόν» της, δηλ. τη συσχέτιση μεταξύ της ΧΣ και μιας σειράς παρελθόντων τιμών της, δηλ. την συσχέτιση μεταξυ της ΧΣ και της ίδιας μετατοπισμένης κατά μια καθυστέρηση (lag) k ACF Συνάρτηση αυτοσυσχέτισης Autocorrelation function (ACF) k = 1 T T -k t=1 1 T ( x T t=1 t+k T 1 όπου x = T t=1 ( - x x t t x)( - x x ) t 2 - x) 27
Αυτοσυσχέτιση (Autocorrelation) Το γράφημα των αυτοσυσχετίσεων βοηθά στη διερεύνηση της σχέσης μιας τιμής της ΧΣ με τις τιμές της σε προηγούμενες χρονικές στιγμές. Εάν η αυτοσυσχέτιση στην καθυστέρηση (lag) 1 είναι μεγάλη, τότε κάθε τιμή της ΧΣ είναι ισχυρά συσχετισμένη με την τιμή της την αμέσως προηγούμενη στιγμή. Αν οι παρατηρήσεις είναι μηνιαίες και η αυτοσυσχέτιση στην καθυστέρηση 12 είναι μεγάλη, τότε κάθε μηνιαία τιμή είναι ισχυρά συσχετισμένη με την τιμή του ίδιου μήνα το προηγούμενο έτος. 28
Αυτοσυσχέτιση (Autocorrelation) 1,0,5 ACF 0,0 700 Αρ. Επιβατών (x1000) 600 500 400 300 200 100 -,5-1,0 1,0 1 2 3 4 5 6 7 8 9 10 11 Lag Number 12 13 14 15 16 Confidence Limits Coefficient 0,5 1/1/1949 1/7/1949 1/1/1950 1/7/1950 1/1/1951 1/7/1951 1/1/1952 1/7/1952 1/1/1953 1/7/1953 1/1/1954 1/7/1954 1/1/1955 1/7/1955 1/1/1956 1/7/1956 1/1/1957 1/7/1957 1/1/1958 1/7/1958 1/1/1959 1/7/1959 1/1/1960 1/7/1960 ACF 0,0 t -,5 Confidence Limits Monthly passenger totals (in 1000's) 1949-1960; Box & Jenkins, 1976; series G. -1,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Coefficient Lag Number Transforms: difference (1) 29
Διασυσχέτιση (Cross-correlation) Το γράφημα διασυσχέτισης βοηθά στον εντοπισμό σχέσεων μεταξύ δυο διαφορετικών ΧΣ καθώς και στον προσδιορισμό των χρονικών καθυστερήσεων στις οποίες οι σχέσεις εντοπίζονται. Μια ισχυρή συσχέτιση για μια αρνητική καθυστέρηση (π.χ. k) υποδεικνύει μια σχέση των τιμών της πρώτης ΧΣ με τις τιμές της δεύτερης ΧΣ που προηγούνται κατά k χρονικές στιγμές. Η συσχέτιση με καθυστέρηση 0 είναι ο συνηθισμένος συντελεστής γραμμικής συσχέτισης. Συσχετίσεις σε θετικές καθυστερήσεις δείχνουν τη σχέση των τιμών της πρώτης ΧΣ με τιμές της δεύτερης ΧΣ σε επόμενες χρονικές στιγμές 30
Γράφημα Συνάρτησης Διασυσχέτισης Cross-Correlation Function (CCF) Θερμική ΩΧΒ (εκατομμύρια) 35000 30000 25000 20000 15000 10000 5000 0 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 Θερμική Υδροηλεκτρική 1989 1990 1991 1992 1993 1994 4000 3500 3000 2500 2000 1500 1000 500 0 Υδροηλεκτρική ΩΧΒ (εκατομμύρια) CCF 1,0,5 0,0 -,5-1,0-7 ΘΕΡΜΙΚΗ με ΥΔΡΟΗΛΕΚΤΡΙΚΗ -6-5 -4-3 -2-1 0 1 2 3 4 5 6 Lag Number 7 Confidence Limits Coefficient Παραγωγή ηλεκτρικής ενέργειας στην Ελλάδα, 1973-1993 Πηγή: Ε.Σ.Υ.Ε. 31
Στασιμότητα (stationarity) Διαισθητικός ορισμός: μια ΧΣ είναι στάσιμη αν δεν υπάρχει συστηματική αλλαγή του μέσου όρου και της διασποράς στο χρόνο (π.χ. τάση μηστασιμότητα) - η στασιμότητα είναι προϋπόθεση για την εφαρμογή των περισσότερων τεχνικών ανάλυσης ΧΣ (π.χ. αυτο-συσχέτιση, φασματική ανάλυση) - χρειάζονται εργαλεία μετατροπής μη-στάσιμων σε στάσιμες ΧΣ 32
Εξήγηση Έχουμε 2 ή περισσότερες χρονοσειρές Μπορεί η μια να εξηγεί την άλλη; x(t) y(t)=f(x(t)), x(t): input, y(t): output σύγκριση 2 χρονο-σειρών x(t) f y(t) 33
ΠΕΡΙΓΡΑΦΗ + ΕΞΗΓΗΣΗ ΚΑΤΑΝΟΗΣΗ u1 Προσδιορισμός της φύσης του φαινομένου ή του συστήματος που «κάποια όψη του» παρουσιάζει η σειρά των παρατηρήσεων 34
Slide 34 u1 user2; 16/10/2004
Κατανόηση Τί μπορούμε να καταλάβουμε από την ΧΣ για το ίδιο το σύστημα, το οποίο έχει παράγει την ΧΣ? π.χ. «το σύστημα είναι περιοδικό, με περίοδο...», ή «το σύστημα είναι εντελώς στοχαστικό» 35
1,2 1 0,8 Xt 0,6 0,4 0,2 0 1 10 19 28 37 46 55 64 73 82 91 100 t ΣΥΣΤΗΜΑ ΥΠΟΔΕΙΓΜΑ (ΜΟΝΤΕΛΟ) Προσδιοριστικό (Ντετερμινιστικό) Στοχαστικό Γραμμικό Μη γραμμικό 36
Πρόβλεψη (Πρόγνωση) Ειδικά στη στατιστική θεωρία για την ανάλυση ΧΣ: συνήθως, οι διαδοχικές παρατηρήσεις δεν είναι ανεξάρτητες, άρα πρέπει να λάβουμε υπόψη μας τη σειρά των παρατηρήσεων Ακριβώς αυτή η εξάρτηση επιτρέπει την πρόγνωση του μέλλοντος με βάση το παρελθόν Ορισμός: Ντετερμινιστική ΧΣ: επιτρέπει πρόγνωση με ακρίβεια Στοχαστική ΧΣ: επιτρέπει προβλέψεις μόνο εν μέρει, με πιθανότητα p θα συμβεί Α,... 37
Κινητοί μέσοι όροι Χρησιμοποιούνται όταν: Η ΧΣ δεν έχει τάση και εποχική συνιστώσα Πρόγνωση μικρής διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία οριζόντια γραμμή 38
Ανάλυση Τάσης Χρησιμοποιείται για : Δεδομένα με σταθερή τάση και χωρίς εποχική συνιστώσα Πρόγνωση μακριάς διάρκειας Μορφή γραμμής πρόγνωσης: Συνέχιση της γραμμής προσαρμογής της τάσης στα δεδομένα 39
Ανάλυση με το προσθετικό υπόδειγμα Χρησιμοποιείται για: Δεδομένα με χωρίς τάση ή σταθερή τάση και με σταθερή εποχική συνιστώσα. Μέγεθος εποχικής συνιστώσας όχι ανάλογο με την τιμή των δεδομένων Πρόγνωση μακριάς διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία γραμμή με κλίση της τάσης και με πρόσθεση της εποχικής συνιστώσας 40
Ανάλυση με το πολλαπλασιαστικό υπόδειγμα Χρησιμοποιείται για: Δεδομένα με χωρίς τάση ή σταθερή τάση και με σταθερή εποχική συνιστώσα. Μέγεθος εποχικής συνιστώσας ανάλογο με την τιμή των δεδομένων Πρόγνωση μακριάς διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία γραμμή με κλίση της τάσης πολλαπλασιασμένη με την εποχική συνιστώσα 41
Απλή εκθετική εξομάλυνση Χρησιμοποιείται για: Δεδομένα χωρίς τάση και χωρίς εποχική συνιστώσα. Πρόγνωση μικρής διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία οριζόντια γραμμή 42
Διπλή εκθετική εξομάλυνση Χρησιμοποιείται για: Δεδομένα με σταθερή ή μη σταθερή τάση και χωρίς εποχική συνιστώσα. Πρόγνωση μικρής διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία γραμμή με κλίση ίση με την τελευταία εκτίμηση της τάσης 43
Winters' Method, προσθετικό υπόδειγμα Χρησιμοποιείται για: Δεδομένα με ή μη χωρίς τάση και με εποχική συνιστώσα (μέγεθος της εποχικής συνιστώσας όχι ανάλογη με το μέγεθος των δεδομένων). Πρόγνωση μικρής και μέσης διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία γραμμή με κλίση της τάσης και με πρόσθεση της εποχικής συνιστώσας 44
Winters' Method, πολλαπλασιαστικό υπόδειγμα Χρησιμοποιείται για: Δεδομένα με ή μη χωρίς τάση και με εποχική συνιστώσα (μέγεθος της εποχικής συνιστώσας ανάλογη με το μέγεθος των δεδομένων). Πρόγνωση μικρής και μέσης διάρκειας Μορφή γραμμής πρόγνωσης: ευθεία γραμμή με κλίση της τάσης και πολλαπλασιασμένη με την εποχική συνιστώσα 45