Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης ηµήτρης Λέκκας η διάλεξη Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών Περιγραφή Πρόγνωση Μέθοδοι Ανάλυση δεδοµένων Πρόγνωση µε Συναρτήσεις Μεταφοράς Πρόγνωση µε Νευρωνικά δίκτυα ιόρθωση πρόγνωσης
Σύνθετες προγνώσεις Χρήση αριθµού µεθόδων - σύνθεση Y Αύξηση απόδοσης ακρίβειας Τα σφάλµατα µπορεί να αλληλο-ακυρώνονται Ίδιου ή διαφορετικού τύπου Προσδιορισµός του αριθµού των επιµέρους προγνώσεων (η) καιοισυντελεστές (w) µετά από έρευνα. -3 ΜΑΧ, w X ( ) 3 Σηµειογραφία Μεταβλητή - Πρόγνωση Αριθµός παρατηρήσεων Ορίζοντας πρόγνωσης δ Πρόγνωση δ περιόδους µπροστά Σφάλµα πρόγνωσης όπου ή e y y E Y Y δ, δ, Y:[ y ], :... Y :[ y ], :... Y δ, E:[ e ], :... 4
ιαδικασία πρόγνωση. Επιλογή - κατασκευή µοντέλου που προσοµοιώνει τα ιστορικά δεδοµένα (εκτιµήτρια συνάρτηση). ηµιουργία πρόγνωσης Πρώτο στάδιο! οκιµή - αποδοχή ή απόρριψη µοντέλων Έλεγχος για την δυνατότητα παραγωγής ένα βήµα µπροστά πρόγνωσης των γνωστών τιµών Y, Παραγωγή µικρού σφάλµατος E Καλή προσοµοίωση ιστορικών δεδοµένων καλή πρόγνωση 5 Έλεγχος απόδοσης µεθόδου - αποτελεσµατικότητα Μέθοδοι - πακέτα πρόγνωσης οµάδα µεγεθών για τον προσδιορισµό του σφάλµατος πρόγνωσης Ojecve Fco αντικειµενική συνάρτηση αξιολόγηση της απόδοσης µοντέλου-παραµέτρων Ελαχιστοποίηση / µεγιστοποίηση 6
Έλεγχος απόδοσης µεθόδου - αποτελεσµατικότητα MAE me ole error MSE me qre error RMSE roo me qre error MAPE me ole percege error R - coece o deermo κ.α. Ανάλογα µε τηνεφαρµογή (βέλτιστο : ) ελάχιστο 7 Μεγέθη προσδιορισµού σφάλµατος πρόγνωσης N MAE E / N N RMSE E / N N MAPE 00% E / Y / N R ( y y ) ( y y) R cov( Y Y) cov(y) 8
COV συνδιασπορά ορίζεται από την µαθηµατική έκφραση [( x µ )( )] cov( x, x) E x µ όπου Ε είναι η µαθηµατική προσδοκία και µ η µέση τιµή µ Ex cov(x) vr(x) 9 Γραµµική παλινδρόµηση Πως να δηµιουργήσουµε ένα µοντέλο που εξηγεί αυτά τα δεδοµένα? y 30 5 0 5 0 5 0 0 4 6 8 0 x y x 0
Μέθοδος Ελαχίστων Τετραγώνων Η µέθοδος των Ελαχίστων Τετραγώνων (Le Sqre) εφαρµόζεται συχνά λόγω Απλής προσέγγισης Καλές αριθµητικές ιδιότητες Γίνεται συχνά κατάχρησης λόγω της υπόθεσης γραµµικότητας και ότι τα σφάλµατα ακολουθούν κανονική κατανοµή Προσδιορισµός παραµέτρων µε γραµµική παλινδρόµηση Ηπιοαπλήµορφή στοχαστικής εξάρτησης µεταξύ δύο µεταβλητών Χ και Υ είναι η γραµµή παλινδρόµησης Χ : ανεξάρτητη µεταβλητή Υ : εξαρτηµένη, και η αναµενόµενη τιµή της θα είναι E ( Y / X ) X και καλείται ευθεία παλινδρόµησης της Υ επί της Χ Το πρόβληµα που τίθεται είναι να εκτιµηθούν οι παράµετροι α και β καικατάσυνέπειαναεκτιµηθεί η εξίσωση E ( Y / X ) X
Θέλουµε ναβρούµε την ευθεία που περνά από τα σηµεία ( x, y ) της παρατήρησης κατά τέτοιο τρόπο, ώστε το άθροισµα των τετραγώνων των αποκλίσεων µεταξύ των τιµών της παρατήρησης y ) και των θεωρητικών τιµών y ): ( ( ( Y Y ) [ Y ( x )] e να είναι ελάχιστο 3 30 5 y 0 5 ε 0 5 y ŷ 0 0 4 6 8 0 x 4
Για να βρούµε τοελάχιστοσφάλµα εκτίµησης βρίσκουµε µε τηµέθοδο των ελαχίστων τετραγώνων τις µερικές παραγώγους της συνάρτησης e [ Y x ] ώς προς και Αν εξισώσουµε τις παραγώγους αυτές µε µηδέν, παίρνουµε τοσύστηµα των κανονικών εξισώσεων: y x x y x x 5 Τις οποίες αν λύσουµε ωςπρος x y x y x x και θα έχουµε y x Y X Εποµένως, η µοναδικήλύσητουσυστήµατος των κανονικών εξισώσεων είναι το ζεύγος (, ) και οι παράµετροι αποτελούν άριστες εκτιµήσεις των αντίστοιχων παραµέτρων του πληθυσµού από τον οποίο προέρχεται το δείγµα (x,y ). Εποµένως, µόνοηευθεία y x αναπαριστά κατά τον καλύτερο τρόπο τα δεδοµένα. 6
7 Προσδιορισµός παραµέτρων µε γραµµική παλινδρόµηση Το σύστηµα των εξισώσεων για κάθε παρατήρηση χρησιµοποιώντας το µοντέλο Ή µε τηµορφή πινάκων θ U y y y Y x y x y x y 8 Ο πίνακας που περιέχει την ανεξάρτητη µεταβλητή (δεδοµένα εισόδου) ονοµάζεται πίνακας δεδοµένων και συµβολίζεται µε U. Ο πίνακας των παραµέτρων προσδιορίζεται µε την προϋπόθεση ελάχιστου αθροίσµατος του τετραγώνου των σφαλµάτων Το ελάχιστο της σχέσης βρίσκεται όταν η παράγωγος ως προς είναι µηδέν. θ ( ) ( ) ( ) T U Y U Y Y Y e θ θ θ
e θ U T Y U T U U θ 0 ( Y U θ ) απ όπου έχουµε τελικά T 0 που είναι το ίδιο µε θ T T ( U U ) U Y 9 Οι παράµετροι αυτές δεν είναι ντετερµινιστικές αλλά ορίζονται µε τηµορφή µορφή κατανοµής πιθανοτήτων (στοχαστικό µοντέλο) Πίνακας συνδιασποράς των παραµέτρων P δίνεται από T ( U ) P σ U Όπου σ είναι η διακύµανση των σφαλµάτων Και η τυπική απόκλιση των παραµέτρων δίνεται από dg( P) 0
Ml co co [,P0]lreg(U,U,Y,ol) % co [,P]lreg(U,U,Y,ol) % Rer he vecor o prmeer % olvg he Le Sqre orml %eqo: % v(u'*u)*(u'*y) %Pv(U'*U); Rdom ere τυχαίες διακυµάνσεις Θόρυβος - τυχαίο σφάλµα e? Ήυπάρχειµορφή στη µεταβολής per? Y µ ε Όπου µ είναι η µέση τιµή καιε το υπολειµµατικό τµήµα της παρατήρησης (ή σφάλµα) 50 00 Error 50 0 50 0 000 4000 6000 8000 0000 000 4000 6000 8000 Tme (hor) ACF 0.8 0.6 0.4 0 5 0 5 0 5 30 35 40 45 50 Led me (hor) 0.5 PACF 0 0.5
Υπόθεση : οι τυχαίες διακυµάνσεις έχουν (µ) µέση τιµή µηδέν, διασπορά σ και οι παρατηρήσεις είναι ανεξάρτητες µεταξύ τους. περιπτώσεις A. Τυχαίες διακυµάνσεις στη χρονοσειρά ιάµετρος ενός εξαρτήµατος που παράγεται σε µια βιοτεχνία. Η καλύτερη πρόγνωση είναι η µ και για το 95% διάστηµα εµπιστοσύνης µ±σ Αν µ και σ δεν είναι γνωστά, χρησιµοποιούνται στοιχεία της χρονοσειράς των παρατηρήσεων: Y και η τυπική απόκλιση 3 B. Αστοχία µοντέλου πρόγνωσης (σφάλµα) Πιο κοινή περίπτωση Συνήθως αναφέρονται ως θόρυβος Τυχαίες µεταβολές στις παρατηρήσεις? Ή υπάρχει κάποια µορφή µεταβολής? Οπτικός έλεγχος Στατιστικοί έλεγχοι αυτοσυσχέτιση 4
Αυτο-συσχέτιση ιαδοχικές παρατηρήσεις είναι συσχετισµένες Μεγάλες τιµές παρατηρήσεων... ακολουθούν µεγάλες τιµές Μικρές τιµές... Ακολουθούν µικρές τιµές Υστέρηση -LAG της χρονοσειράς () 5 Προσδιορισµός αυτοσυσχέτισης στο Excel Correlgrm 0-0,05 3-0, -0,5-0, Sere -0,5-0,3 LAG 6
παράδειγµα Dchrge (m 3 /) 600 500 400 300 00 00 dowrem prem Correlo Coece 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0 0.4 /4/9 4/4/9 7/4/9 /4/9 5/4/9 9/4/9 3/4/9 7/4/9 /5/9 0 5 0 5 0 5 Tme ATD- Tme (hor) 7 Συντελεστής αυτοσυσχέτησης gree : ocorr. - le prl ocorr. - red d prl ocorr. 0.5 0-0.5 0 5 0 5 0 5 30 35 8
Rdom Wlk model µοντέλο τυχαίου βήµατος Η χρονοσειρά που περιγράφεται από ένα µοντέλο τυχαίου βήµατος δεν είναι χρονοσειρά τυχαίων διακυµάνσεων Τυχαίες είναι οι µεταβολές µεταξύ δύο παρατηρήσεων Μεταβολές που παρατηρούνται στις τιµές µετοχών Ύπαρξη τάσης στα δεδοµένα Χρήση των πιο πρόσφατων παρατηρήσεων 9 Παράδειγµα Γενικός δείκτης ΧΑΑ (3/0/005, :30 5:0) ΓΕΝΙΚΟΣ ΕΙΚΤΗΣ 3405 3400 3395 3390 3385 3380 3375 3:05:00 µµ :55:00 µµ :45:00 µµ :35:00 µµ :5:00 µµ :5:00 µµ :05:00 µµ :55:00 µµ :45:00 µµ :35:00 µµ :5:00 µµ :5:00 µµ :05:00 µµ :55:00 µµ :45:00 µµ :35:00 µµ :5:00 µµ :5:00 µµ :05:00 µµ :44:00 πµ ΓΕΝΙΚΟΣ 338,96 LAG LAG LAG3 LAGS AUTOCORR 0,9940 0,99075 3378, 338,96 3 0,986096 3377,76 3378, 338,96 3379,37 3377,76 3378, 338,96 3378,04 3379,37 3377,76 3378, 3379,45 3376,99 3377,85 3378,93 3379,68 3378,04 3379,37 3377,76 3379,45 3378,04 3379,37 3376,99 3379,45 3378,04 3377,85 3376,99 3379,45 3378,93 3377,85 3376,99 30
Rdom Wlk model µοντέλο τυχαίου βήµατος Ηεξίσωσητουµοντέλου τυχαίου βήµατος είναι Y Y µ ε Όπου µ είναι σταθερή και ε είναι θόρυβος µε µέση τιµή 0. Αν DY είναι η µεταβολή Y Y στη χρονοσειρά από - µέχρι, το µοντέλο τυχαίου βήµατος µπορεί να παρουσιαστεί DY µ ε Οι µεταβολές αποτελούν µια χρονοσειρά µε τυχαίες διακυµάνσεις µε µ και τ.α. σ 3 Εκτίµηση της µ είναι ο µέσος όρος των διαφορών Y D και της τ.α. σ, ητ.α. των διαφορών D Η χρονοσειρά συµπεριφέρεται βάση του τυχαίου βήµατος και έχει θετική τάση όταν µ>0 ήαρνητικήτάση όταν µ<0 κατά µ σε κάθε περίοδο. Αν τη χρονική περίοδο θέλουµε νακάνουµε µια πρόγνωση F της Y, µια πρόγνωση µπορεί να εκφραστεί µε τηµορφή. F Y Y D προσθέτουµε την εκτιµώµενη τάση στην παρατήρηση 3
Μέθοδος κινητού µέσου όρου (movg verge) Η πρόγνωση για τη χρονική περίοδο προκύπτει ως ο µέσος όρος των k προηγούµενων µετρήσεων Y Y Y Y k Βοηθητική µέθοδος για να εξοµαλύνει τις τυχαίες διακυµάνσεις και να αποκαλύπτει τις τάσεις Μειονέκτηµα - ίδιο βάρος σε όλες τις προηγούµενες παρατηρήσεις k 33 Μέθοδος εκθετικής εξοµάλυνσης (expoel moohg) Η τρέχουσα παρατήρηση επηρεάζει σε µεγαλύτερο βαθµό τις πρόσφατες παρατηρήσεις 3 L wy w( w) Y w( w) Y w( w) Y 3 Εναλλακτικά µπορεί να χρησιµοποιηθεί η ακόλουθη αναδροµική σχέση L wy L Σύµφωνα µε την εκθετική εξοµάλυνση, το επίπεδο L αποτελεί την πρόγνωση για όλες τις χρονικές στιγµές µετά την. F L,,, k k 34
Μοντέλα συνάρτησης µεταφοράς Trer Fco TF Προέρχονται από Γραµµικά συστήµατα Μπορούν να έχουν µηχανιστική ερµηνεία υνατότητα παράλληλης δοµής Απλά, µε λίγεςπαραµέτρους () Αντικειµενικά προσδιορισµένα & επαρκώς παραγοντοποιηµένα () Γραµµικά (-) 35 ηµοφιλείς λόγω: άµεσης ανάπτυξης µικρή απαίτησης σε πληροφορίες ευκολίας εφαρµογής τους σε πραγµατικό χρόνο. 36
Μοντέλα συνάρτησης µεταφοράς Τα µοντέλα που βασίζονται σε συνάρτησης µεταφοράς (TF) έχουν χρησιµοποιηθεί ευρύτατα στην πρόβλεψη µεταβλητών σε πραγµατικό χρόνο. Οι εξελίξεις εστιάζονται στην επέκταση των γραµµικών TF µοντέλων σε µη γραµµική µορφή. Για τη δηµιουργία µηγραµµικών TF µοντέλων - χρησιµοποιούνται συνήθως τεχνικές παραµέτρων µεταβλητών στο χρόνο (me vryg prmeer echqe) ώστε να ανιχνευθούν οι σχέσεις των παραµέτρων που εξαρτώνται από το εξεταζόµενο µέσο (e depede prmeer relohp). Περαιτέρω εξέλιξη µε την εισαγωγή µιας παραµέτρου µεταβαλλόµενου χρόνου υστέρησης (vrle lg prmeer). Αυτό το επί πλέον µη-γραµµικό στοιχείο επιτρέπει στα TF µοντέλα να προσοµοιώνουν πολύ καλύτερα µη-γραµµικά συστήµατα απ ότι όταν χρησιµοποιείται σταθερός χρόνος υστέρησης 37 Μοντέλα συνάρτησης µεταφοράς ( ) 0... m y k... m y ( k ) y ( k ) ( k δ ) ξ ( k ) ŷ(k) ŷ (k - )... 0 (k δ)... ξ(k) 38
Μοντέλα συνάρτησης µεταφοράς - Trer Fco TF S Q T, S: αποθήκευση, Q: παροχή εξόδου, T: χρόνος παραµονής ds d Q ( ) Q o ( ) Q dsdq ddq T dq d Q εδοµένα διακριτά διαστήµατα και όχι σε συνεχή χρόνο (π.χ.ώρες) 39 T dq d Q dq d Q T Q Q Q T Q Q T T Q Q,, T T Γιαναυπάρχειισορροπίαµάζας στην είσοδο και έξοδο πρέπει αβ 40
Λόγω υστέρησης στη εισροή του συστήµατος (δ) Q Q δ Για πιο πολύπλοκες συναρτήσεις µεταφοράς εισάγεται το ckwrd derece operor Και για εισροές µε υστέρηση(δ) δ δ Οπότε η αρχική εξίσωση µπορεί να γραφτεί Q Q δ 4 δ Q Είσοδος δ Έξοδος Q Μεγαλύτερου βαθµού συναρτήσεις µεταφοράς µπορούν να παρουσιαστούν σαν γραµµικά αποθηκευτικά συστήµατα που συνδέονται σε σειρά ή παράλληλα Είσοδο ς δ δ Έξοδος Q 4
43 Τα δεδοµένα µας δίνουν 0.5757.5360 0.99 0.576 Q δ Q δ δ Q Q ) ( ) ( ) ( και ) )( ( ) ( ) ( 0.5757.5360 0.99 0.576 44 Λύνοντας τις παραπάνω εξισώσεις βρίσκουµε τα,,, 0.649 0.0764 Είσοδος Έξοδος Q 0.887 0.836.6% 77.4% Γρήγορη δίοδος Τ34.7 Γρήγορη δίοδος Τ5.7
Μηχανιστικές µέθοδοι βασισµένες σε δεδοµένα Μοντέλα που προκύπτουν από την ανάλυση δεδοµένων Αυτό-προσαρµοζόµενα µοντέλα που παρουσιάζουν τις µεταβολές του συστήµατος υναµική µοντελοποίηση : παράµετροι που µεταβάλλονται στο χρόνο Φυσική ερµηνεία των παραµέτρων των µοντέλων 45 Μοντέλα συνάρτησης µεταφοράς γραµµικά µη-γραµµικά Μη-γραµµικό βάρος Μεταβλητή υστέρηση (vrle lg) 700 600 500 low orec (low & r) low TF NLTF VLTF VLNLTF Dchrge (m 3 /) 400 300 00 00 LAG( x ) A B * e k* x 0 850 900 950 000 050 00 Tme (/ hor) 46
Μη γραµµικό βάρος Μεταβλητή υστέρηση 0.8 0.7 7 6 low lg 5 4 prmeer vle 0.6 0.5 0.4 exp vp pw Dchrge (m 3 /) 5 4 3 3 Lg (hor) 0.3 0 0. 9 0. 0 50 00 50 00 50 300 e (m 3 /) 0 //96 0 6//96 00 0//96 00 4//96 300 0//96 400 4//96 500 8//96 600 600 3/3/96 700 7/3/96 800 8 Tme 47 Μεταβλητή υστέρηση TF,m,δ(x) Clro Teg Ojecve Fco Ojecve Fco Prmeer A [ 3..0] Prmeer B [ 3..0] Prmeer k [ 3..0] δ(x) (A,B,k) * e * LAG( x) A B* e k x k* x LAG ( x) A B opmo o he lg-model prmeer Ojecve Fco (R ) 0.95 0.9 0.85 0.8 0.75 0.7 0.65 clro eg verco low X lg Z 0.6 5 6 7 8 9 0 3 4 5 lg eqo prmeer (A) LAG IDENTIFICATION U ( ) X me LAG( x) A B * e k* x X low LAG ( X ) Z INPUT U( ) Irodcg lg o p FLOW FORECAST U( Z) PROCESS MODEL Flow orec () Y ( ) 48
Γραµµικό TF Ml Ip Sgle Op y 0.765 0.866 HOP IZA LIT Sgle Ip Sgle Op.5365 0.866.4468 0.866 όπου c y 0.73 0.8697 c c HOP 4.3675* IZA 8.948* LIT 49 Μη γραµµικό TF. 5445 y c * 0. 7997 m PARAMETER VALUE.67.66.65.64.63.6 cl lerred.6.60 0 50 00 50 00 50 300 Dchrge [m 3- ] 50