Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης ηµήτρης Λέκκας Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών Περιγραφή Μοντελοποίηση - Περιγραφή Συστήµατος Πρόγνωση Μέθοδοι Πρόγνωση µε Συναρτήσεις Μεταφοράς Πρόγνωση µε Νευρωνικά δίκτυα ιόρθωση πρόγνωσης 2
Τύποι µοντέλων Μεγάλος αριθµός και εύρος διαθέσιµων λογισµικών πακέτων που περιλαµβάνουν εξελιγµένα µοντέλα Πάντα χρειάζεται αξιολόγηση της απόδοσης Περιορισµός απόδοσης λόγων δεδοµένων Πολύπλοκες µαθηµατικές σχέσεις µε πολλές παραµέτρους δεν είναι σίγουρο ότι θα δώσουν ικανοποιητικές προβλέψεις καθώς γίνονται µια σειρά από παραδοχές που δεν είναι πάντα εµφανείς H πολυπλοκότητα (complexity) πρέπει να µπορεί να υποστηρίζεται από τα διαθέσιµα δεδοµένα 3 Μεθοδολογία ανάπτυξης µοντέλων κατηγορίες µοντέλων µε κριτήριο το βαθµό περιγραφής των φυσικών διεργασιών του συστήµατος που περιγράφεται Φυσικής βάσης (physically-based) Εννοιολογικά (conceptual) Εµπειρικά ή µαύρου κουτιού (empirical or black box 4
Φυσικής βάσης (physically-based) Τα µοντέλα αυτά βασίζονται σε θεµελιώδεις αρχές. Χρησιµοποιούν απ ευθείας τις εξισώσεις που διέπουν το φυσικό φαινόµενο και µπορούν να παρέχουν εκτιµήσεις που έχουν ισχύ πέραν του εύρους των διαθέσιµων δεδοµένων. Παρέχουν καλή απεικόνιση του φαινοµένου αλλά έχουν µεγάλο αριθµό παραµέτρων και σύνθετων µη γραµµικών σχέσεων και απαιτούν µεγάλη ποσότητα δεδοµένων για τον καθορισµό συνθηκών. 5 Εννοιολογικά (conceptual) Γίνεται αναπαράσταση του συστήµατος µε ιδεατά στοιχεία καθένα από τα οποία προσοµοιώνει µια στοιχειώδη διαδικασία του φυσικού φαινοµένου. Ένας από τους σκοπούς κατασκευής ενός εννοιολογικού µοντέλου είναι ότι µερικές από τις παραµέτρους µπορεί να έχουν φυσική ερµηνεία. Οι παράµετροι ενός εννοιολογικού µοντέλου διακρίνονται σε δύο κατηγορίες, στις φυσικές και στις εννοιολογικές. Οι φυσικές παράµετροι µπορούν να προέρχονται από µετρήσεις ή από δηµοσιευµένα στοιχεία ενώ οι εννοιολογικές παράµετροι εκτιµώνται από τεχνικές βελτιστοποίησης. 6
Εµπειρικά ή µαύρου κουτιού (empirical or black box) Χρησιµοποιούν παραµέτρους που δεν έχουν φυσική σηµασία. Μπορούν εύκολα να προσδιοριστούν και να δώσουν ικανοποιητικές απαντήσεις ακόµα καιανησχέσηπουδίνουν δεν περιγράφει τη φυσική διεργασία. Οι παράµετροι των µοντέλων αυτού του τύπου εκτιµώνται άµεσα από τα δεδοµένα εισόδου και εξόδου. Οι µαθηµατικές δοµές που χρησιµοποιούν απαιτούν λίγες παραµέτρους και έχουν µικρές απαιτήσεις σε δεδοµένα. Μπορούν να περιγραφούν χρησιµοποιώντας µια γραµµική συνάρτηση µεταφοράς (Transfer Function) ή µη γραµµικές µαθηµατικές δοµές όπως είναι τα Τεχνητά Νευρωνικά ίκτυα. Η ιδανικότερη µέθοδος ανάπτυξης ενός εµπειρικού µοντέλου είναι η Παλινδρόµηση που βασίζεται αποκλειστικά σε δεδοµένα και εξάγει εύκολα την εξίσωση του συστήµατος 7 Επιλογή µοντέλων Deterministic - Stochastic κατηγορίες µοντέλων µε κριτήριο τη µορφή των δεδοµένων και των αποτελεσµάτων Deterministic Μια λύση Επιτρέπουν στοχαστικά σφάλµατα Στοχαστικά Εύρος λύσεων Επιτρέπουν τυχαιότητα ή αβεβαιότητα στα αποτελέσµατα λόγω αβεβαιότητας στις µεταβλητές εισόδου 8
Στοχαστική πρόβλεψη 9 Επιλογή µοντέλων Μορφή πρόγνωσης ιαθέσιµα µοντέλα Μεταβλητές που προβλέπουν Παραδοχές που γίνονται Τι µεταβλητές και παραµέτρους χρειάζονται/ είναι διαθέσιµες 10
Προδιαγραφές µοντέλου πρόγνωσης Ακριβές Καλή εκτίµηση της µεταβλητής (σχήµα, µέγιστα, ελάχιστο σφάλµα) Αξιόπιστο Σταθερότητα του µοντέλου: χωρίς αρνητικές τιµές ή ταλαντωτική συµπεριφορά σε νέα δεδοµένα Μειωµένη αβεβαιότητα της πρόγνωσης Σωστό χρονισµό (correct timing) της µέγιστης παροχής 11 Βαθµονόµηση των µοντέλων Προσδιορισµών των παραµέτρων του µοντέλου Γενικά δεν είναι δυνατό να προσδιοριστούν οι παράµετροι ενός µοντέλου εκ των προτέρων (υπάρχουν εξαιρέσεις) Μεγάλος αριθµός διαθέσιµων µεθόδων Objective Function αντικειµενική συνάρτηση αξιολόγηση της καταλληλότητας της απόδοσης του µοντέλου- παραµέτρων πχ Άθροισµα τετραγώνων των διαφ. Ελαχιστοποίηση / µεγιστοποίηση 12
13 Βαθµονόµηση µοντέλων Προβλήµατα! Όχι αρκετή πληροφορία στα δεδοµένα για να υποστηρίξουν τον σίγουρο προσδιορισµό τωνπαραµέτρων Βασιζόµαστε µόνο στις µετρηµένες και προσοµοιωµένες τιµές (γιαναπροσδιορίζουµε τιµές εσωτερικών διεργασιών) 14
15 Βαθµονόµηση µοντέλων Παραδοχή! Τα δεδοµένα δεν περιέχουν σφάλµα καιότιτοµοντέλο είναι πραγµατική απεικόνιση του υδατικού συστήµατος Οι προσδιορισµένες παράµετροι είναι έγκυρες µόνο για το συγκεκριµένο µοντέλο Πιθανόν περισσότεροι από έναν συνδυασµοί παραµέτρωνναδίνουνίδια ελάχιστη τιµή Οbj. Fun µε πιθανόν µεγάλες διαφορές στις τιµές των παραµέτρων 16
Προσδιορισµός παραµέτρων 0.00000012 0.0000001 objective function 0.00000008 0.00000006 0.00000004 0.00000002 0 0.019 0.0191 0.0192 0.0193 0.0194 0.0195 0.0196 parameter value parameter value 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 JAN MAR MAY JUL SEP NOV months 17 Βαθµονόµηση µοντέλων Τα αποτελέσµατα δεν είναι ταυτόσηµα, οι πολλαπλέςλύσειςαπότοσύνολοτων έγκυρων αποτελεσµάτων εισάγουν αβεβαιότητα στις προγνώσεις για τη λήψη αποφάσεων Επιλογή µεταξύ µοντέλων και µεταξύ συνδυασµό παραµέτρων θα πρέπει να γίνεται µε λογική και τρόπου που να υποστηρίζεται επιστηµονικά. 18
Περιορισµοί - απαιτήσεις Ε ΟΜΕΝΑ ΥΠΟΣΤΗΡΙΖΕΤΑΙ ΑΠΑΙΤΕΙΤΑΙ ΠΟΛΥΠΛΟΚΤΗΤΑ ΣΥΣΤΗΜΑΤΟΣ ΜΕΘΟ ΟΣ ΑΠΑΙΤΗΣΗ ιαθέσιµα δεδοµένα Χαρακτηριστικά συστήµατος Προσδιορισµός παραµ. παραµ. συντηρούµενη πολυπλοκότητα µη-γραµµικά στοιχεία ποιότητα τον προσδιορισµένων 19 Πρόβλεψη Πρόγνωση στο πλαίσιο της αγοράς Παράγοντες που πρέπει να ληφθούν υπόψη Τύπος πρόγνωσης/εων που χρειάζεται/ονται; (πωλήσεις, ζήτηση, τιµή, επενδύσεις, σε πραγµατικό χρόνο κλπ) Ποια είναι η υπάρχουσα κατάσταση; (κατάσταση της οικονοµίας, νοµοθεσία κλπ) Ποιος είναι ο κατάλληλος χρονικός ορίζοντας; (παρούσα κατάσταση, βράχυ-,µέσο-, µάκρο-) Ποια δεδοµένα είναι σχετικά και διαθέσιµα; Με ποια συχνότητα χρειάζεται η πρόγνωση; Ποιος θα το παράγει και τι απαιτείται; Ποιος θα το χρησιµοποιεί και πως; 20
Πρόγνωση Χρήση τη χρονική στιγµή t των διαθέσιµων παρατηρήσεων από µια χρονοσειρά για την πρόγνωση τιµών σε µια µελλοντική στιγµή t + δ 21 Πρόγνωση Χρόνος για τον οποίο απαιτείται πρόγνωση ορίζοντας, µήκος/χρόνος πρόγνωσης (δ) Χρονοσειρά Z t, t = 1,2,...,n Πρόγνωση Ẑ t πχ πωλήσεις Z t το µήνα t και πωλήσεις Z t-1, Z t-2, Z t-3,... τους προηγούµενους µήνες µπορούν να χρησιµοποιηθούν για την πρόγνωση των πωλήσεων για διαφορετικούς ορίζοντες δ = 1,2,3,...,12 µήνες. Στόχος είναι η χρήση µιας µεθόδου που να παράγει πρόγνωση µε τη µικρότερη απόκληση από τις πραγµατικές τιµές σε κάθε χρονικό ορίζοντα. Z ˆ δ Z = min δ 22
Πρόγνωση Προσδιορισµός της καλύτερης πρόγνωσης. Προσδιορισµός της ακρίβειας. Προσδιορισµός του ρίσκου που συνδέεται µε τις αποφάσεις που βασίζονται στην πρόγνωση. Με τη µορφή πιθανοτήτων 50% και 95% πουεκφράζουντηνβεβαιότηταναείναι έγκυρη η πρόγνωση. 23 Γιατί να γίνεται πρόγνωση; µπορεί να παρέχει πληροφορίες για: Οικονοµικό και εµπορικό προγραµµατισµό Οργάνωση της παραγωγής Απογραφή και έλεγχο παραγωγής Έλεγχο και βελτιστοποίηση βιοµηχανικών διεργασιών 24
Πρόβλεψη Πρόγνωση στο πλαίσιο της αγοράς Τι διαδικασία θα χρησιµοποιηθεί; (συλλογή, ανάλυση και παρουσίαση δεδοµένων) Πότε χρειάζεται; Ποια είναι η αβεβαιότητα στο αποτέλεσµα; 25 οµή για προγνώσεις στην αγορά Περιβάλλον Αγορά Εταιρικές δράσεις ράσεις ανταγωνιστών ράσεις προµηθευτών, διανοµέων, κυβερνήσεων Μερίδιο Αγοράς Κόστος Πωλήσεις Κέρδη 26
Περιβάλλον Μπορεί να γίνει πρόγνωση των «εξωτερικών» παραµέτρων? Οικονοµία, πληθυσµός, κοινωνικές τάσεις, καιρός, τεχνολογικές αλλαγές, νοµοθεσία, εισόδηµα σηµαντική βελτίωση στην πρόγνωση της αγοράς? ΠΙΘΑΝΟΝ ΚΑΤΩ ΑΠΟ ΣΥΓΚΕΚΡΙΜΕΝΕΣ ΣΥΝΘΗΚΕΣ Λογικά θα έπρεπε αλλά συνήθως δεν παρατηρείτε στα αποτελέσµατα - ειδικά σε βραχυχρόνιες προγνώσεις 27 Περιβάλλον Μακροχρόνιες προγνώσεις για σηµαντικές αλλαγές είναι χρήσιµες. Αναζήτηση µεταβλητών που µπορούν να επηρεάσουν την αγορά Προσδιορισµός των επιπτώσεων µεγάλων µεταβολών Περιορισµός τυχαίου σφάλµατος σε µακροχρόνιες προβλέψεις ενδείκνυται χρήση οικονοµετρικών µεθόδων. 28
Παρούσα κατάσταση Σηµαντικός παράγοντας σφάλµατος στην πρόγνωση είναι ο προσδιορισµός της παρούσας κατάστασης Συχνή και σωστή ενηµέρωση/διόρθωση (update) συµβάλει στην ακρίβεια της πρόγνωσης Υπολογιστικά συστήµατα / βάσεις δεδοµένων Ποιοτικές µέθοδοι Οικονοµετρικές µέθοδοι 29 ράσεις Εταιρικές δράσεις Εταιρίες σύνθετα πολυπαραµετρικά συστήµατα Στρατηγικές / δράσεις πρόγνωση Περιορισµένες εφαρµογές ράσεις ανταγωνιστών / προµηθευτών κλπ Ποιες µπορεί να είναι Μεθοδολογία (expert opinion, role play, extrapolation ) ποιες επιπτώσεις µπορεί να έχουν Ανταγωνισµός 30
Πρόγνωση Βασικές κατηγορίες µεθόδων Εξαρτηµένη σχέση Ανάλυση χρονοσειρών Ποιοτικά κριτήρια 31 Πρόγνωση Μέθοδοι Πρόγνωσης Αντικειµενικές Μέθοδοι Πρόγνωσης Υποκειµενικές Μέθοδοι Πρόγνωσης Μέθοδοι Ανάλυσης χρονοσειρών Μέση τιµή Κινούµενος µέσος Exponential Smoothing Παλινδρόµηση ARIMA Νευρωνικά ίκτυα Εξαρτηµένη σχέση Γραµµ. Παλινδρόµηση Πολλ. Παλινδρόµηση Συνάρτηση Μεταφοράς Νευρωνικά ίκτυα Ποιοτικά κριτήρια Εµπειρία Μέθοδος οργάνωσης της ζήτησης Αντικειµενικές µέθοδοι + Υποκειµενική διόρθωση 32
Πρόγνωση ή πρόβλεψη εκτίµηση; Forecast or Prediction? Εξόρυξη εδοµένων (Data Mining) Χρήση µεθόδων ανάλυσης δεδοµένων & αλγόριθµων για την εξαγωγή µορφών (patterns) από τα δεδοµένα 33 Κατηγορίες µεθόδων ανάλυσης δεδοµένων 34
Εργασίες Εξόρυξη εδοµένων Εξόρυξη δεδοµένων Περιγραφική Εξόρυξη Χρονισµός της εξαρτηµένης µεταβλητής Εκτιµητική Εξόρυξη Κατηγοριοποίηση Οµαδοποίηση Σύνοψη & απεικόνιση Ανάλυση Συσχέτισης Εύρεση Αλληλουχίας Κατηγοριοποίηση Ταξινόµηση Παλινδρόµηση Ανάλυση χρονοσειρών Οµαδοποίηση Νευρωνικά δίκτυα Επιλογή χαρακτηριστικού Ανάλυση κύριου συστατικού Κανόνες συσχέτισης Κανόνες αλληλουχίας ένδρο Αποφάσεων Ανάλυση διαφορών Νευρωνικά ίκτυα Γραµµική Μη-γραµµική Νευρωνικά ίκτυα Exponential Smoothing ARIMA Νευρωνικά ίκτυα Συνάρτηση µεταφοράς Αλγόριθµοι 35 Πρόγνωση µε ανάλυση χρονοσειρών (µονοµεταβλητό) Υπόθεση η διεργασία µπορεί να περιγραφεί µόνο από τις προηγούµενες παρατηρήσεις της εξαρτηµένης µεταβλητής Πρόγνωση (πολυµεταβλητό) Η διεργασία µπορεί να περιγραφεί από την αλληλεπίδραση (αίτιο αιτιατό) ανεξάρτητων µεταβλητών 36
Πρόγνωση ή οµαδοποίηση; Απλοποίηση παλινδρόµηση (πόσο;) Οµαδοποίηση (θα συµβεί;) Πρόγνωση = µοντέλα πρόβλεψης-εκτίµησης (εξαρτηµένη µεταβλητή στο µέλλον) Πρόγνωση = µοντέλα παλινδρόµησης (εξαρτηµένη µεταβλητή σε µετρική κλίµακα) 37 Ορισµός χρονοσειρών Ορισµός: µια σειρά χρονικά κατανεµηµένων παρατηρήσεων y t καταγεγραµµένα σε ισοδιάστατα χρονικά διαστήµατα Όπου y t είναι η τιµή τηςµεταβλητής την t περίοδο, t = 1,2,,n 38
Χρονοσειρές Μια παρατήρηση αποτελείται από ένα: Συστηµατικό τµήµα Τυχαίο τµήµα Προσέγγιση εν είναι δυνατόν να παρατηρήσουµε τα τµήµατα αυτά Μέθοδοι πρόγνωσης αποµόνωση του συστηµατικού τµήµατος Βασίζονται στο συστηµατικό τµήµα Το τυχαίο τµήµα ορίζειτηµορφή της διασποράς 39 Χρονοσειρές Υπόθεση Τα δεδοµένα είναι συγκρίσιµα (στο χρόνο) Τα χρονικά βήµατα είναι ιδίου µήκους Οι µονάδες µέτρησης Ο ορισµός του µεγέθους µέτρησης δεν αλλάζει σωστή µέθοδος µέτρησης Σφάλµατα στα δεδοµένα προέρχονται από τη δειγµατοληψία, προβλήµατα του εξοπλισµού ή της απόδοσης και µεταφοράς 40
Αντικειµενικές µέθοδοι πρόγνωσης - χρονοσειρές Μέθοδοι ανάλυση χρονοσειρών / Πρόγνωση Τάξη αντικειµενικών µεθόδων Βασίζονται µόνο στην ανάλυση παλαιότερων παρατηρήσεων εξαρτηµένων µεταβλητών Υπόθεση Υπάρχει σχέση αίτιο-αιτιατό που επαναλαµβάνεται Ησχέσηαυτή µπορεί να θεωρηθεί BLACK-BOX Χρονική σταθερότητα αµετάβλητη σχέση στο χρόνο Τα στοιχεία της χρονοσειράς µπορούν να επεξηγηθούν και να εκτιµηθούν µόνο από παλαιότερες παρατηρήσεις 41 Αντικειµενικές µέθοδοι πρόγνωσης - χρονοσειρές Μέθοδοι χρονοσειρών λαµβάνουν υπόψη τη µορφή µεταβολής µόνο των παλαιότερων παρατηρήσεων της επιλεγµένης µεταβλητής. Μελλοντικές περιπτώσεις (που δεν παρατηρήθηκαν στο παρελθόν) δεν λαµβάνονται υπόψη. Εξωτερικές περιπτώσεις σχετικές µε τη πρόγνωση θα πρέπει να συνυπολογίζονται εκ των υστέρων. 42
Μορφές µεταβολής χρονοσειρών 43 Τυπικά συστατικά χρονοσειρών Μια χρονοσειρά αποτελείται από αλλεπάλληλα συστατικά/ µορφές µεταβολής Σήµα / εδοµένα Επίπεδο L Τάση T Εποχικότητα S Θόρυβο τυχαίο σφάλµα e Signal = Level + Seasonality + Trend + Error 44
Μη-τυπικά συστατικά χρονοσειρών οµικές αλλαγές σε συστηµατικά δεδοµένα Παλµός Εµφάνιση σε µια παρατήρηση Μαζί µε άλλα συστατικά Αλλαγή επιπέδου Μια φορά/πολλές φορές Μαζί µε άλλα συστατικά οµικές ασυνέχειες Αλλαγές σε τάσεις (κλίση, κατεύθυνση) Αλλαγές και µεταβολές περιοδικότητας 45 Συστατικά χρονοσειρών 46
Μορφές µεταβολών σε χρονοσειρές Μορφή χρονοσειρών ΚΑΝΟΝΙΚΗ ΜΟΡΦΗ ΑΚΑΝΟΝΙΣΤΗ ΜΟΡΦΗ ΣΤΑΘΕΡΗ ΕΠΟΧΙΚΟΤΗΤΑ ΤΑΣΗ ΙΑΚΥΜΑΝΣΕΙΣ ΙΑΚΟΠΤΟΜΕΝΗ Y t =f(e t ) Οι χρονοσειρές επηρεάζονται από επίπεδο & τυχαίες διακυµάνσεις Yt=f(S t, E t ) Οι χρονοσειρές επηρεάζονται από επίπεδο, εποχικότητα & τυχαίες διακυµάνσεις Yt=f(Τ t, E t ) Οι χρονοσειρές επηρεάζονται από επίπεδο, τάση & τυχαίες διακυµάνσεις Συνδυασµός ανεξάρτητων συστατικών Ισχυρές διακυµάνσεις γύρο από το επίπεδο Μέση απόκλιση > 50% γύρο από την µέση τιµή Αριθµός περιόδων µε µηδενικές πωλήσεις είναι υψηλός (30-40%) + ΠΑΛΜΟΙ + ΑΛΛΑΓΕΣ ΕΠΙΠΕ ΟΥ + ΟΜΙΚΕΣ ΑΣΥΝΕΧΕΙΕΣ 47 Συστατικά σύνθετων χρονοσειρών Πωλήσεις ή παρατηρήσεις µιας χρονοσειράς τη χρονική στιγµή t Αποτελούνται από συνδυασµό Συστατικά επιπέδου και εποχικότητας Συστατικό τάσης ιαφορετικές δυνατότητες συνδυασµού των συστατικών Αθροιστικό µοντέλο Πολλαπλασιαστικό µοντέλο Τυχαίες διακυµάνσεις ήσφάλµα 48
Ταξινόµηση µορφής χρονοσειρών Χωρίς επίδραση τάσης Χωρίς εποχική επίδραση Προσθετική εποχική επίδραση Πολλαπλασιαστική εποχική επίδραση Προσθετική επίδραση τάσης Πολλαπλ. επίδραση τάσης 49