ΚΕΦΑΛΑΙΟ 4 ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΥΠΟΔΕΙΓΜΑΤΑ ΑΠΛΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ-ΕΙΔΙΚΑ ΘΕΜΑΤΑ 4.. ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Ι. ΕΙΣΑΓΩΓΗ Η πρόβλεψη αποτελεί έναν από τους βασικούς σκοπούς της δημιουργίας ενός οικονομετρικού υποδείγματος. Κατά τους Pidyck ad Rubifeld «A forecas is a quaiaive esimae (or se of esimaes ) abou he likelihood of fuure eves based o pas ad curre iformaio. This iformaio is embodied i he form of a ecoomeric model». Αν και όταν μιλάμε για πρόβλεψη έχουμε στο μυαλό μας τη φορά του χρόνου προς το μέλλον, η πρόβλεψη έχει νόημα και για διαστρωματικά δεδομένα. Επιπλέον η πρόγνωση δε νοείται μόνο για τιμές των επεξηγηματικών μεταβλητών εκτός των ορίων του δείγματος αλλά και για τιμές εντός των ορίων αυτών, όταν για τις τιμές αυτές δε διαθέτουμε αντίστοιχες τιμές για την εξαρτημένη μεταβλητή. Όπως στην εκτιμητική έχουμε σημειακή εκτίμηση, καθώς και εκτίμηση διαστήματος, έτσι και στην πρόβλεψη διακρίνουμε τη σημειακή πρόβλεψη (που είναι μια συγκεκριμένη τιμή ) και την πρόβλεψη διαστήματος που αφορά το διάστημα εντός του οποίου ελπίζουμε ότι θα βρίσκεται η πραγματική τιμή. Η οικονομετρική πρόβλεψη είναι ιδιαίτερα χρήσιμη καθώς μπορεί να εξυπηρετήσει πολλαπλούς σκοπούς. Συχνά οι προβλέψεις παρέχουν την απαραίτητη πληροφόρηση για τη λήψη αποφάσεων στον δημόσιο και τον ιδιωτικό τομέα. Αν για παράδειγμα υπάρχει πρόβλεψη για υψηλό δημοσιονομικό έλλειμμα, τότε η κυβέρνηση πιθανόν να αναθεωρήσει τα σχέδια της για τον προϋπολογισμό. Από την άλλη πλευρά αν υπάρχει πρόβλεψη για αυξημένη ζήτηση υγρών καυσίμων για τα επόμενα χρόνια οι εφοπλιστικές εταιρίες πιθανόν να αποφασίσουν να αυξήσουν τις επενδύσεις τους για την κατασκευή νέων akers. Πέραν αυτών, οι προβλέψεις μπορούν να είναι χρήσιμες και όσον αφορά τη δομή των οικονομετρικών υποδειγμάτων. Αν οι προβλέψεις απέχουν σημαντικά από τα πραγματικά δεδομένα, όταν τα τελευταία γίνονται γνωστά, τότε πιθανόν να χρειάζεται να αναθεωρηθεί το υπόδειγμα βάσει του οποίου προέκυψαν οι προβλέψεις.
Είναι μεθοδολογικά χρήσιμο να γίνει η διάκριση μεταξύ των υπό συνθήκη προβλέψεων (codiioal forecass ) και των χωρίς συνθήκη προβλέψεων (ucodiioal forecass ). Στην πρόβλεψη χωρίς συνθήκη οι τιμές των επεξηγηματικών μεταβλητών θεωρούνται γνωστές με βεβαιότητα. Στην υπό συνθήκη πρόβλεψη οι τιμές των επεξηγηματικών μεταβλητών δεν είναι γνωστές και έτσι θα πρέπει πρώτα με βάση κάποιο υπόδειγμα να προκύψουν οι προβλέψεις των τιμών των επεξηγηματικών μεταβλητών, οι οποίες στη συνέχεια θα χρησιμοποιηθούν για την πρόβλεψη της εξαρτημένης μεταβλητής. Ιδιαίτερης σημασίας στις προβλέψεις είναι το σφάλμα πρόβλεψης (forecas error ). Στο πλαίσιο των γραμμικών υποδειγμάτων παλινδρόμησης ελαχίστων τετραγώνων βέλτιστη πρόβλεψη θεωρείται αυτή στην οποία το σφάλμα πρόβλεψης έχει την ελάχιστη διακύμανση. Υπενθυμίζεται ότι γενικότερα όταν έχουμε και μη - γραμμικά υποδείγματα η βέλτιστη πρόβλεψη νοείται ως προς την ελαχιστοποίηση του μέσου τετραγωνικού σφάλματος πρόβλεψης(mea square forecas error ). Το σφάλμα πρόβλεψης προέρχεται από ένα συνδυασμό από τις παρακάτω τέσσερεις διαφορετικές μεταξύ τους αιτίες:. Κάθε οικονομετρικό υπόδειγμα είναι από τη φύση του στοχαστικό και επομένως υπάρχει η αβεβαιότητα λόγω του στοχαστικού όρου.. Οι συντελεστές παλινδρόμησης που εκτιμάμε είναι τυχαίες μεταβλητές και επομένως η τιμή τους μπορεί να αποκλίνει από τις πραγματικές τιμές των συντελεστών παλινδρόμησης στην πληθυσμιακή συνάρτηση παλινδρόμησης. 3. Στην περίπτωση των υπό συνθήκη προβλέψεων οι τιμές των επεξηγηματικών μεταβλητών (ή κάποιων από τις επεξηγηματικές μεταβλητές ) δεν είναι οι πραγματικές τιμές αλλά εκτιμήσεις τους και επομένως εμπεριέχουν το σφάλμα εκτιμήσεως. 4. Η εξειδίκευση του οικονομετρικού υποδείγματος μπορεί να μην αποτελεί ακριβή αναπαράσταση του πραγματικού υποδείγματος, ιδιαίτερα όταν επιχειρείται να χρησιμοποιηθεί για τιμές των επεξηγηματικών μεταβλητών εκτός των ορίων του δείγματος, οπότε ενδεχομένως να υπάρχουν και δομικές μεταβολές. Επειδή για την εύρεση του σφάλματος πρόβλεψης είναι απαραίτητο εκτός των προβλέψεων να είναι διαθέσιμες και οι αληθείς τιμές της
εξαρτημένης μεταβλητής, συνήθως από το αρχικό δείγμα διακρατούμε έναν αριθμό παρατηρήσεων πριν την τελευταία δειγματική τιμή. Έτσι το αρχικό δείγμα χωρίζεται στο διάστημα εκτίμησης (iiializaio sample) και στο διάστημα ελέγχου (es or holdou sample). Τα δεδομένα του διαστήματος εκτίμησης χρησιμοποιούνται για την εκτίμηση του υποδείγματος, ενώ οι προβλέψεις για την εξαρτημένη μεταβλητή για τιμές της επεξηγηματικής μεταβλητής εντός του διαστήματος ελέγχου συγκρίνονται με τις αντίστοιχες αληθείς τιμές έτσι ώστε να βρεθεί το σφάλμα πρόβλεψης και να γίνει η αξιολόγηση της προβλεπτικής ικανότητας του υποδείγματος. Οι προβλέψεις εντός του διαστήματος ελέγχου, για τις οποίες είναι ήδη γνωστές και οι αντίστοιχες αληθείς τιμές, ονομάζονται προβλέψεις ex-pos, ενώ οι προβλέψεις πέραν του διαστήματος ελέγχου, για τις οποίες οι αντίστοιχες αληθείς τιμές είναι προφανώς άγνωστες, ονομάζονται προβλέψεις ex-ae. ΙΙ.ΠΡΟΒΛΕΨΗ ΧΩΡΙΣ ΣΥΝΘΗΚΗ Οι αρχικές μας υποθέσεις είναι οι ακόλουθες: ) Οι τιμές της επεξηγηματικής μεταβλητής Χ είναι γνωστές με βεβαιότητα καθώς η Χ είναι μη στοχαστική ) Το υπόδειγμα είναι σωστά ορισμένο και έστω ότι είναι το ακόλουθο: Y i = β + β Χ i + i, i ~ N( 0, σ ), i=, Λόγω των υποθέσεων αυτών οι αιτίες 3. και 4. όσον αφορά το σφάλμα πρόβλεψης εξαλείφονται. Περίπτωση Αν επιπλέον υποθέσουμε ότι οι συντελεστές β και β είναι γνωστοί τότε έχουμε να ασχοληθούμε μόνο με το σφάλμα λόγω της ύπαρξης του στοχαστικού όρου στο υπόδειγμα. Έστω ότι για κάποια τιμή Χ 0 δε διαθέτουμε την αντίστοιχη τιμή Y 0 και θέλουμε να την προβλέψουμε. Τότε (όπως γνωρίζουμε και από το θεώρημα βέλτιστης πρόβλεψης ) η βέλτιστη πρόβλεψη Y 0 είναι η αναμενόμενη τιμή Ε(Y 0 ) με δεδομένο το υπόδειγμα. Πράγματι για το σφάλμα πρόβλεψης err 0 = Y 0 Y 0 θα είναι Ε(err 0 )= Ε(Y 0 Y 0 )=Ε(β + β Χ 0 β β Χ 0 0 )= E(- 0 )=0, άρα η πρόβλεψή μας για το Y 0 είναι αμερόληπτη. Επιπλέον η διακύμανση του σφάλματος πρόβλεψης θα είναι σ f = E[(err 0 ) ] = E(u 0 ) = σ που καθώς είναι η διακύμανση των OLS, είναι η ελάχιστη μεταξύ όλων των δυνατών προβλέψεων που βασίζονται σε 3
γραμμικά υποδείγματα. Εφόσον το σφάλμα πρόβλεψης είναι κανονικά κατανεμημένο με μέση τιμή 0 και διακύμανση σ το κανονικοποιημένο σφάλμα: (Y 0 Y 0 )/σ ~Ν(0, ), και έτσι μπορούμε να ορίσουμε το διάστημα εμπιστοσύνης γύρω από την πρόβλεψη. Για την περίπτωση που η παράμετρος σ δεν είναι γνωστή μπορούμε κατά τα γνωστά να την εκτιμήσουμε από το δείγμα οπότε για τον καθορισμό του διαστήματος εμπιστοσύνης χρησιμοποιούμε την κατανομή - sude. Είναι σημαντικό να σημειώσουμε ότι υπό τις προϋποθέσεις που θέσαμε το διάστημα εμπιστοσύνης παραμένει σταθερό τιμή Χ 0 όπως φαίνεται παραστατικά και στο σχήμα που ακολουθεί: ΣΗΜΑΝΤΙΚΗ ΠΑΡΑΤΗΡΗΣΗ: Η χρήση της ποιότητας των προβλέψεων ενός εργαλείου αξιολόγησης της αξιοπιστίας ενός υποδείγματος, είναι διαφορετικής φύσης από τα κλασσικά στατιστικά, F, R. Ένα υπόδειγμα παλινδρόμησης μπορεί να έχει στατιστικά σημαντικές τιμές, υψηλή τιμή R και όμως να μη δίνει καλές προβλέψεις. Αυτό μπορεί να οφείλεται π.χ στο ότι για την περιοχή τιμών της ανεξάρτητης μεταβλητής που επιθυμούμε να κάνουμε προβλέψεις, έχει συμβεί μία δομική μεταβολή που δεν ενσωματώνεται στο υπόδειγμα. Αντίθετα ένα υπόδειγμα με οριακά στατιστικά σημαντικές τιμές και σχετικά χαμηλή τιμή R δυνατόν να δίνει ικανοποιητικές προβλέψεις. Αυτό μπορεί 4
να συμβεί στην περίπτωση κατά την οποία η μεταβλητότητα της εξαρτημένης μεταβλητής είναι μικρή συγκρινόμενη με τη μεταβλητότητα της ανεξάρτητης μεταβλητής και έτσι η Υ είναι μια προβλέψιμη μεταβλητή έστω και αν η μεταβλητότητα της δεν εξηγείται πολύ καλά από το υπόδειγμα. Περίπτωση. Έστω τώρα η (πιο ρεαλιστική) περίπτωση που οι παράμετροι β, β και σ δεν είναι γνωστές. Έτσι αντί για αυτές έχουμε τις δειγματικές εκτιμήσεις τους β, β και σ που προκύπτουν από τα δεδομένα του δείγματος που διαθέτουμε. Τότε Υ 0 = +β Χ 0 και επομένως err 0 = Υ 0 Υ 0 = (β β ) + (β β )Χ 0 0 Το σφάλμα πρόβλεψης που εκφράζεται με την παραπάνω σχέση εμπεριέχει δύο «πηγές». Η πρώτη λόγω της παρουσίας του στοχαστικού όρου 0 και η δεύτερη λόγω του ότι οι παράμετροι του υποδείγματος που εκτιμήσαμε είναι τυχαίες μεταβλητές και άρα δυνατόν να διαφέρουν από τις αληθείς τιμές β, β. Για το err 0 παρατηρούμε τα ακόλουθα: I. Ακολουθεί την κανονική κατανομή καθώς είναι γραμμική συνάρτηση των κανονικών τ.μ β, β, 0. II. Η αναμενόμενη τιμή του είναι: Ε(err 0 ) = Ε(β β ) + Ε(β β )Χ 0 + Ε( 0 ) = 0 καθώς οι β, β είναι αμερόληπτοι εκτιμητές και Χ 0 γνωστό. III. Η διακύμανση του σφάλματος θα είναι: σ f = E{(err 0 ) } = E{(β β ) } + Ε{(β β ) Χ 0 } + Ε( 0 ) + E{(β β )(β β )} Χ 0 +0+0 Οι δύο τελευταίοι όροι μηδενίζονται καθώς εκφράζουν συνδιακυμάνσεις μεταξύ 0 με (β β ) και (β β ). Εξ υποθέσεως το 0 είναι ανεξάρτητο από τα,,, Ν, ενώ (β β ) και (β β ) είναι γραμμικές συναρτήσεις των,,, Ν. Άρα VAR(err 0 ) = E(err ) 0 = VAR(β ) + VAR(β )Χ 0 + VAR( 0 ) + X 0 COV(β, β ) 5
Όμως γνωρίζουμε ήδη ότι: VAR(β ) = σ [ + X Ν x i ], VAR(β ) = σ, COV(β x, β ) = X VAR(β ). i Αντικαθιστώντας θα έχουμε: VAR(err 0 )= σ { + + Χ Ν + Χ 0 x i x i Χ 0Χ x i } = = σ { + Ν + (Χ 0 Χ ) x i } Διερεύνηση: Από την τελευταία σχέση είναι φανερό ότι: A. Το σφάλμα πρόβλεψης μειώνεται όταν αυξάνεται το μέγεθος του δείγματος B. Το σφάλμα πρόβλεψης μειώνεται όταν αυξάνεται η μεταβλητότητα της Χ C. Το σφάλμα πρόβλεψης αυξάνεται όταν η τιμή Χ 0 απομακρύνεται από τη μέση δειγματική τιμή Χ D. Το σφάλμα πρόβλεψης αυξάνεται όταν η διασπορά των σημείων γύρω από την ευθεία παλινδρόμησης (η διασπορά θεωρούμε ότι εκφράζεται με το σ ) αυξάνεται Από το C. είναι φανερό ότι καλύτερη πρόβλεψη μπορεί να γίνει στην περιοχή των τιμών της Χ κοντά στη δειγματική μέση τιμή Χ, εκεί δηλαδή που είναι συγκεντρωμένη η πληροφορία που διαθέτουμε από το δείγμα. Επιπλέον, με βάση τα όσα προηγήθηκαν είναι φανερό ότι err 0 σ + Ν +(Χ 0 Χ ) x i εκτιμητή σ ~N(0, ) ή αν αντικαταστήσουμε το σ με τη δειγματική του Υ 0 Υ 0 ~ (N ) σ + Ν +(Χ 0 Χ ) x i (σ = u /(N i )) 6
Στην τελευταία σχέση όλα είναι γνωστά εκτός από την αληθή τιμή Υ 0, μπορούμε επομένως να έχουμε ένα διάστημα εμπιστοσύνης για την Υ 0. Π.χ το 95% διάστημα εμπιστοσύνης για την Υ 0 θα είναι: β + β Χ 0 ± 0,05 σ + Ν + (Χ 0 Χ ) x i. Στην πράξη συνήθως ενδιαφερόμαστε για την πρόβλεψη της αναμενόμενης τιμής της Υ 0 παρά για την τιμή Υ 0 καθαυτή. Στην περίπτωση αυτή err 0 = Ε(Υ 0 ) Υ 0 οπότε err 0 = (β β ) (β β )Χ 0 Ακολουθώντας τα ίδια βήματα όπως και πριν: VAR(err 0 ) = σ { + (Χ 0 Χ ) } και επομένως το 95% διάστημα εμπιστοσύνης Ν x i για την Ε(Υ 0 ) θα είναι: β + β Χ 0 ± 0,05 σ + (Χ 0 Χ ) Ν x i Άσκηση -εφαρμογή Έστω και πάλι τα δεδομένα του πίνακα της προηγούμενης εφαρμογής. Να εξεταστεί αν το σημείο (0, 5) είναι πιθανό να προέρχεται από την ίδια δομή που δημιούργησε και τα δειγματικά δεδομένα. Λύση Ας συνοψίσουμε και πάλι τα αποτελέσματα της εφαρμογής του προηγούμενου κεφαλαίου: Υ = +, 75Χ Ν = 5 Χ = 4 (Χ Χ ) = 40 σ = u i, 5 = = 0, 5 N 3 7
To 95% διάστημα εμπιστοσύνης για το Υ με δεδομένο το X0=0 θα είναι: (β + β Χ 0 ) ± 0,05 σ + + (Χ 0 Χ ) = Ν (Χ Χ ) = +, 75 0 ± 3, 8 0, 5 + 5 + (0 4) 40 = 8, 5 ± 3, 6 Άρα το διάστημα εμπιστοσύνης θα είναι από 5,4 μέχρι,76. Επιπλέον το 95% διάστημα εμπιστοσύνης για την Ε(Υ/Χ=0) θα είναι: (β + β Χ 0 ) ± 0,05 σ + (Χ 0 Χ ) = 8, 5 ± 3, 8 0, 5 + (0 4) = Ν (Χ Χ ) 5 40 8, 5 ±, 36. Άρα το διάστημα εμπιστοσύνης για την Ε(Υ/Χ=0) θα είναι από 6,4 μέχρι 0,86. Επειδή το σημείο (0, 5) βρίσκεται σαφώς έξω και από το ευρύτερο διάστημα εμπιστοσύνης απορρίπτουμε την Η 0 (=το (0, 5) δημιουργήθηκε από την ίδια δομή που έχουν δημιουργηθεί και τα δειγματικά δεδομένα). ΙΙΙ. ΠΡΟΒΛΕΨΗ ΥΠΟ ΣΥΝΘΗΚΗ Μέχρι τώρα υποθέσαμε ότι η επεξηγηματική μεταβλητή ήταν δεδομένη. Στην οικονομική επιστήμη και ιδιαίτερα στις χρονικές προβλέψεις ex-ae η υπόθεση αυτή συνήθως δεν ισχύει. Χωρίς αυτή την υπόθεση, πλέον η πρόβλεψη θα είναι υπό συνθήκη. Στην περίπτωση αυτή πρώτα θα πρέπει να προβλεφθεί η επεξηγηματική μεταβλητή στο μέλλον και αυτό όπως είδαμε δημιουργεί μία επιπλέον αιτία σφάλματος στην πρόβλεψη της εξαρτημένης μεταβλητής. Επισημαίνεται ότι είναι δυνατόν ένα υπόδειγμα να παρέχει ικανοποιητικές προβλέψεις χωρίς συνθήκη αλλά όχι καλές προβλέψεις υπό συνθήκη λόγω αδυναμίας ακριβούς πρόβλεψης της μελλοντικής εξέλιξης της επεξηγηματικής μεταβλητής. Γενικά οι υπό συνθήκη προβλέψεις των οικονομετρικών υποδειγμάτων μιας εξίσωσης παρουσιάζουν πολύ μεγαλύτερες τεχνικές δυσκολίες σε σχέση με τις χωρίς συνθήκη προβλέψεις. Για το λόγο αυτό στα πλαίσια του παρόντος μόνο θα σκιαγραφήσουμε τη μεθοδολογία για τέτοιου είδους προβλέψεις, θέτοντας για διευκόλυνση σε τεχνικό επίπεδο ορισμένες υποθέσεις. Έστω λοιπόν ότι διαθέτουμε τιμές για τις οικονομικές μεταβλητές Υi, Χi i=, N και ενδιαφερόμαστε για την πρόβλεψη της Υ στο σημείο Ν+, αν υποθέσουμε ότι: 8
Y X με i i i i N(0, ). Επειδή δε γνωρίζουμε την τιμή της Χ στο σημείο Ν+, υποθέτουμε ότι: ˆ N N N X X u, u N με i (0, u) u, i i ασυσχέτιστες τ.μ. Τότε η υπό συνθήκη πρόβλεψη της Υ στο σημείο Ν+ θα είναι: Yˆ ˆ ˆ Xˆ N N Αποδεικνύεται ότι (βλ. Pidyck ad Rubifeld: Ecoomeric Mehods ad Ecoomic Forecass, 4 h ed. McGraw Hill, 998) η πρόβλεψη θα είναι αμερόληπτη και η διακύμανση του σφάλματος πρόβλεψης τη σχέση: f θα δίνεται από f = σ { + + (Χ Ν+ Χ ) + u Ν x i } u Συγκρίνοντας την παραπάνω σχέση με την αντίστοιχη της πρόβλεψης χωρίς συνθήκη είναι σαφές ότι η παρουσία του u στην τελευταία σχέση αυξάνει το σφάλμα πρόβλεψης. Οι δύο σχέσεις ταυτίζονται στην περίπτωση που 0, δηλαδή όταν η Χ μπορεί να προβλεφθεί ακριβώς. Μία ακόμη u δυσκολία είναι ότι δεν μπορούμε να καθορίσουμε αναλυτικά τα διαστήματα εμπιστοσύνης για το σφάλμα πρόβλεψης, καθώς όπως είδαμε Yˆ ˆ ˆ ˆ N XN,συνεπώς η YˆN δεν είναι κανονικά κατανεμημένη γιατί εμπεριέχει γινόμενο κανονικά κατανεμημένων τ. μ. Έτσι έχουν προταθεί προσεγγιστικές μέθοδοι εκτίμησης των διαστημάτων εμπιστοσύνης (βλ. για παράδειγμα βλ. Pidyck ad Rubifeld: Ecoomeric Mehods ad Ecoomic Forecass, 4 h ed. McGraw Hill, 998, σελ. 3). 9
IV. ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΞΙΟΛΟΓΗΣΗΣ ΠΡΟΒΛΕΨΕΩΝ Ως γνωστόν ένα στατιστικό μέτρο για την (προσεγγιστική) αξιολόγηση της καλής προσαρμογής ενός υποδείγματος, για τις τιμές της επεξηγηματικής μεταβλητής που χρησιμοποιήθηκαν για την εκτίμησή του, είναι ο συντελεστής προσδιορισμού R. Τώρα όμως μας ενδιαφέρει να αξιολογήσουμε την ακρίβεια των προβλέψεων του υποδείγματος, δηλαδή εκείνων των εκτιμήσεων της εξαρτημένης μεταβλητής για τις οποίες οι αντίστοιχες τιμές της επεξηγηματικής μεταβλητής δεν χρησιμοποιήθηκαν στο στάδιο της εκτίμησης του υποδείγματος. Προς αποφυγή συγχύσεως διευκρινίζεται ότι η διαφορά μεταξύ εκτίμησης (πρόβλεψης) και αληθούς τιμής της εξαρτημένης Ŷ Y μεταβλητής,, όταν η αντίστοιχη τιμή της ανεξάρτητης μεταβλητής χρησιμοποιήθηκε στην εκτίμηση του υποδείγματος, ονομάζεται υπόλοιπο ή κατάλοιπο. Όμως, η ίδια αυτή διαφορά ονομάζεται σφάλμα πρόβλεψης όταν η αντίστοιχη τιμή της Χ δεν χρησιμοποιήθηκε κατά την εκτίμηση του υποδείγματος. Χάριν ευκολίας θα υποθέσουμε ότι τα δεδομένα μας είναι χρονολογικά και η εξαρτημένη, καθώς και η ανεξάρτητη μεταβλητή λαμβάνουν τιμές σε ίσα χρονικά διαστήματα. Τότε το σφάλμα πρόβλεψης ενός (μελλοντικού) βήματος (oe sep ahead forecas) θα δίνεται από τη σχέση: e Y F / Y, Y,... Y όπου Υ η πραγματική τιμή στο χρόνο και F / Y, Y,... Y η αντίστοιχη πρόβλεψη ενός βήματος στην οποία λαμβάνεται υπόψη όλη η πληροφορία που εμπεριέχεται στις παρατηρήσεις μέχρι και την Υ-, αλλά όχι και η ίδια η Υ. Αν διαθέτουμε αληθείς τιμές και προβλέψεις ενός βήματος για χρονικές περιόδους τότε υπάρχουν και τιμές για το σφάλμα πρόβλεψης ενός βήματος και είναι δυνατό να υπολογιστούν τα παρακάτω στατιστικά μέτρα: i) Το μέσο σφάλμα: ME e ii) Το μέσο απόλυτο σφάλμα: MAE e Φυσικά τα στατιστικά αυτά μέτρα ορίζονται και για σφάλματα για προβλέψεις περισσότερων βημάτων. 0
iii) Το μέσο τετραγωνικό σφάλμα προβλέψεων: e MSFE Το ΜΕ μετρά την τυχόν μεροληψία στις προβλέψεις αλλά δε δίνει κάποια ένδειξή για το μέγεθος ενός τυπικού σφάλματος. Αυτό μπορεί να γίνει με τα ΜΑΕ και MSE. Το ΜΑΕ εκφράζεται με τις ίδιες μονάδες όπως η επεξηγηματική μεταβλητή και είναι ευκολότερα αντιληπτό από έναν μη ειδικό. Από την άλλη πλευρά το MSE, όπως έχουμε δει και στο κεφ., είναι πιο χρήσιμο από μαθηματικής πλευράς. Όλα τα παραπάνω στατιστικά μέτρα εξαρτώνται από τις μονάδες μετρήσεως καθιστώντας έτσι αδύνατη τη σύγκριση των τιμών τους για υποδείγματα με διαφορετικά δεδομένα. Το πρόβλημα αυτό μπορεί να επιλυθεί αν χρησιμοποιήσουμε σχετικά ή ποσοστιαία μέτρα σφάλματος. Έτσι αρχικά μπορεί ορισθεί το ποσοστιαίο σφάλμα πρόβλεψης (perceage forecas error) ως εξής: PE Y F Y 00 Εν συνεχεία χρησιμοποιώντας το ποσοστιαίο σφάλμα μπορούν να ορισθούν το μέσο ποσοστιαίο σφάλμα (mea perceage error, MPE) και το μέσο απόλυτο ποσοστιαίο σφάλμα (mea absolue perceage error, MAPE) ως εξής: PE MPE και MAPE PE Όπως και το ΜΑΕ το MPE μετρά την τυχόν μεροληψία των προβλέψεων και για αμερόληπτες προβλέψεις η τιμή του (για μικρό ) πρέπει να βρίσκεται κοντά στο μηδέν. Το MAPE μας δίνει μία καλύτερη «αίσθηση» της ακρίβειας των προβλέψεων σε σχέση με το ΜΑΕ όμως και πάλι δεν μας βοηθά στο να αξιολογήσουμε άμεσα πόσο καλή είναι μία συγκεκριμένη μέθοδος πρόβλεψης συγκριτικά με άλλες αφού δεν εμπεριέχει κάποιο μέτρο σύγκρισης. Το ρόλο του μέτρου σύγκρισης βάσει του οποίου αξιολογείται η προβλεπτική ικανότητα μιας μεθόδου παίζει συνήθως ένα απλοποιημένο υπόδειγμα (aive Όπως μπορεί να αντιληφθεί ο αναγνώστης τα ποσοστιαία σφάλματα έχουν το μειονέκτημα να μην ορίζονται όταν τα δεδομένα περιέχουν μηδενικές τιμές.
model) αναφοράς. Ως τέτοιο θα μπορούσε να χρησιμοποιηθεί για παράδειγμα το υπόδειγμα του τυχαίου περιπάτου: Y Y u, όπου u iid. Για τον τυχαίο περίπατο ισχύει ότι: E Y / Y Y Συνεπώς η πρόβλεψη ενός βήματος θα ισούται με την κάθε φορά αμέσως προηγούμενη παρατήρηση. Ένα στατιστικό που συνδυάζει την λογική του MAPE και τη σύγκριση της προβλεπτικής επίδοσης ενός υποδείγματος σε σχέση με το απλό υπόδειγμα αναφοράς, ενώ παράλληλα δίδει μεγαλύτερη της αναλογικής βαρύτητα στα μεγάλα σφάλματα είναι το στατιστικό του Theil που ορίζεται ως εξής: FPE APE APE όπου: FPE chage) F Y είναι η προβλεπόμενη σχετική μεταβολή (forecas relaive Y και APE chage) Y Y Y είναι η πραγματική σχετική μεταβολή (acual relaive Αντικαθιστώντας τα FPE, APE στο παίρνουμε: F Y Y Y F Y Y Y Y Y Y Y Y Y Από την τελευταία σχέση και δεδομένου ότι για τον τυχαίο περίπατο ισχύει ότι F Y παρατηρούμε ότι ο αριθμητής του β μέλους παρομοιάζει προς το MAPE του υποδείγματος αξιολόγησης, ενώ ο παρονομαστής παρομοιάζει με τον MAPE του τυχαίου περιπάτου, δηλαδή του υποδείγματος αναφοράς.
Διερεύνηση α) Για την τέλεια πρόβλεψη F Y. Στην περίπτωση αυτή = 0 β) Αν F Y, δηλαδή η προβλεπτική ικανότητα του υποδείγματος αξιολόγησης είναι ίδια με αυτή του τυχαίου περιπάτου, τότε = γ) Αν F και Y ετερόσημα τότε >. Σε αυτή την περίπτωση η προβλεπτική ικανότητα του υπό αξιολόγηση υποδείγματος είναι χειρότερη από αυτήν του απλού υποδείγματος αναφοράς. δ) Αν το υπό αξιολόγηση υπόδειγμα παρέχει καλύτερες προβλέψεις σε σχέση με το υπόδειγμα αναφοράς τότε ο αριθμητής του β μέλους θα είναι μικρότερος του παρονομαστή. Στην περίπτωση αυτή θα ισχύει ότι <. Αξίζει τέλος να αναφερθεί και ένα ακόμη στατιστικό μέτρο αξιολόγησης της ποιότητας των προβλέψεων ο λεγόμενος συντελεστής ανισότητας του Theil (Theil s iequaliy coefficie) που ορίζεται με την ακόλουθη σχέση: i F Y e Εύκολα αναγνωρίζεται ότι στην παραπάνω σχέση ο αριθμητής είναι η τετραγωνική ρίζα του MSFE που είναι γνωστή ως ρίζα του μέσου τετραγώνου του προγνωστικού σφάλματος (roo mea square forecas error). Ο παρανομαστής λαμβάνει τέτοιες τιμές ώστε η τιμή του i να περιορίζεται μεταξύ Ο και. Πράγματι αν Y= F, δηλαδή η πρόβλεψη είναι τέλεια, i=0. Από την άλλη πλευρά, αν Y= -F τότε i=. Όπως μπορεί να αποδειχθεί ο αριθμητής του i μπορεί να αναλυθεί ως εξής: e ( F Y ) ( for ac ) ( ) for ac όπου F, Y η μέση τιμή των προβλέψεων και των πραγματικών τιμών αντίστοιχα,, οι αντίστοιχες τυπικές αποκλίσεις τους και ρ ο for ac συντελεστής συσχέτισης μεταξύ προβλέψεων και αληθών τιμών. Η ανάλυση αυτή είναι χρήσιμη, καθώς μας δίνει τη δυνατότητα να ορίσουμε τα λεγόμενα «μερίδια της ανισότητας» (proporios of iequaliy) με τον ακόλουθο τρόπο: 3
Μερίδιο μεροληψίας: Μερίδιο διακύμανσης: Μερίδιο συνδυακύμανσης: Προφανώς θα ισχύει ότι: M + S + c = M S ( F Y) e ( for ac ) e c ( ) for e Το μερίδιο μεροληψίας μας παρέχει τη δυνατότητα να συμπεράνουμε αν υφίσταται κάποιου είδους συστηματικό σφάλμα στις προβλέψεις. Το μερίδιο διακύμανσης μας παρέχει τη δυνατότητα να εξετάσουμε την ικανότητα του υπό αξιολόγηση υποδείγματος να αναπαράγει τη μεταβλητότητα της επεξηγηματικής μεταβλητής. Μεγάλες σχετικά τιμές S για τα, (προσεγγιστικά > από 0,) είναι μία ένδειξη ότι το χρησιμοποιούμενο υπόδειγμα πρέπει να αναθεωρηθεί. Τέλος το μερίδιο συνδυακύμανσης μετρά το μη συστηματικό σφάλμα. Ιδανικά θα επιθυμούσαμε το προγνωστικό σφάλμα, που σε στοχαστικά υποδείγματα M είναι αναπόφευκτο να υπάρχει, να οφείλεται στο, δηλαδή στην ιδανική περίπτωση η κατανομή στις τρεις συνιστώσες του συντελεστή ανισότητας να ήταν: M = S =0 και c =. ac c 4. ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΧΩΡΙΣ ΣΤΑΘΕΡΟ ΟΡΟ Σε αρκετές περιπτώσεις η οικονομική θεωρία δεν προβλέπει την ύπαρξη σταθερού όρου σε ένα υπόδειγμα παλινδρόμησης. Χαρακτηριστικό παράδειγμα είναι το υπόδειγμα αποτίμησης κεφαλαιακών στοιχείων (CAMP): (Ε(R i ) r ) = β i (E(R m ) r ) όπου Ε(R i ) = αναμενόμενη απόδοση στο αξιόγραφο i Ε(R m ) = αναμενόμενη απόδοση στο χαρτοφυλάκιο αγοράς 4
r = απόδοση μη κινδυνοφόρου αξιογράφου β i = συντελεστής κινδύνου (bea) αξιόγραφου i. Τέτοια υποδείγματα χωρίς σταθερό όρο εμφανίζουν ιδιαιτερότητες που πρέπει να προσεχθούν. Έστω ότι το υπόδειγμα στον πληθυσμο έχει τη μορφή: Y i = β Χ i + i και το αντίστοιχο στο δείγμα είναι το Y i = β X i + i. Τότε η OLS εκτίμηση του β μπορεί να γίνει ως εξής: i = Y i β Χ i i = (Yi β X i ) και β X i )( X i ) οπότε θέτοντας d i dβ = 0 i β = d i dβ = (Y i (Y i β X i )( X i ) = 0 β = X iy i X i Για την εξεταζόμενη περίπτωση δεν υπάρχει δεύτερη κανονική εξίσωση (όπως στην περίπτωση που στο υπόδειγμα υπήρχε ο σταθερός όρος). Αυτό έχει τις εξής συνέπειες: i) Για τα υποδείγματα χωρίς σταθερό όρο δεν ισχύει η συνθήκη Ν i= i = 0 καθώς αυτή προέκυπτε από τη δεύτερη κανονική εξίσωση για τα υποδείγματα με σταθερό όρο ii) Ο εκτιμητής της παραμέτρου β διαφέρει σε σχέση με τον αντίστοιχο εκτιμητή για τα υποδείγματα με σταθερό όρο( iii) υπενθυμίζεται ότι για τα τελευταία ισχύειβ = (Χ i X )(Y i Y ) (X i X ) ) Αν επιβάλλουμε τη i = 0 αυθαίρετα τότε ο εκτιμητής β που προκύπτει δεν είναι ο OLS εκτιμητής. Πράγματι Y i = β X i + i Y i = β X i + i = β Χ ι β = Y i X i iv) X iy i X i Η μέση τιμή των εκτιμήσεων Y i δεν συμπίπτει με τη δειγματική μέση τιμή. Πράγματι Y = Y + i N Y i = Y i + i Y i N = Y i N και επειδή i 0 άρα Y Y + i N 5
v) Ο κλασσικός ορισμός του συντελεστή προσδιορισμού R, θεωρεί δεδομένη την ύπαρξη σταθερού όρου στο υπόδειγμα και για αυτό το λόγο δεν συστήνεται η χρήση του σε υπόδειγμα χωρίς σταθερό όρο. Μάλιστα είναι δυνατό για υποδείγματα χωρίς σταθερό όρο ο R, έτσι όπως ορίζεται συμβατικά, να παίρνει και αρνητικές τιμές (!) Πράγματι για υποδείγματα για υποδείγματα χωρίς σταθερό όρο έχουμε: Y i = β Χ ι + i i = Yi β X i = RSS Επιπλέον TSS = (Y i Y ) = Y i NY. Επομένως αν Y i β Χ i > Y i NY τότε RSS > TSS και επομένως R <0. Απλοποιώντας, η συνθήκη το R <0 γίνεται: β Χi < NY Λόγω του παραπάνω προβλήματος που παρουσιάζει ο κλασσικός ορισμός του R αρκετοί ερευνητές δε δίνουν την τιμή του R για υποδείγματα χωρίς σταθερό όρο. Πάντως ο Gujarai προτείνει έναν τροποποιημένο R = (X iy i ) X i Y i για τον οποίο ισχύει 0 R αλλά ο συντελεστής αυτός δεν είναι άμεσα συγκρίσιμος με τον κλασσικά οριζόμενο R. Όσον αφορά τη διακύμανση του εκτιμητή β, αυτή θα δίνεται από τη σχέση ( η απόδειξη ακολουθεί τα ίδια βήματα όπως και στην παλινδρόμηση με σταθερό όρο): Var(β )= σ Χ i ενώ η σ εκτιμάται με τη σχέση σ = i. Συγκρίνοντας τις σχέσεις αυτές με τις αντίστοιχες για τον N β στην παλινδρόμηση με σταθερό όρο παρατηρούμε ότι η ακρίβεια στην εκτίμηση του β στην παλινδρόμηση χωρίς σταθερό όρο είναι καλύτερη. Συνεκτιμώντας τα υπέρ και τα κατά, σαν γενικό κανόνα ο ερευνητής, εκτός και αν διαθέτει ισχυρή a-priori θεωρητική επιχειρηματολογία, θα πρέπει να αποφεύγει το υπόδειγμα χωρίς σταθερό όρο. 6