ΚΕΦΑΛΑΙΟ 4 ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΥΠΟΔΕΙΓΜΑΤΑ ΠΟΛΛΑΠΛΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ 4. ΕΙΣΑΓΩΓΗ Μέχρι τώρα μελετήθηκαν οικονομετρικά υποδείγματα μιας εξίσωσης με δύο μεταβλητές, την εξαρτημένη μεταβλητή και την ανεξάρτητη μεταβλητή. Όπως όμως συζητήθηκε και στην εισαγωγή, η οικονομική θεωρία συνήθως δεν είναι τόσο απλή. Έτσι στο παράδειγμα με την κατανάλωση και το εισόδημα που μελετήθηκε στα προηγούμενα θα μπορούσε κανείς να υποθέσει ότι παράλληλα με το εισόδημα είναι και ο πλούτος (συνολικά περιουσιακά στοιχεία που επίσης επηρεάζει την κατανάλωση. Άρα είναι φανερό ότι το πλαίσιο της απλής παλινδρόμησης είναι πολύ περιοριστικό. Στο παρόν κεφάλαιο, το πλαίσιο αυτό διευρύνεται επιτρέποντας την προσθήκη οποιονδήποτε επεξηγηματικών μεταβλητών ώστε το υπόδειγμα της απλής παλινδρόμησης να γενικευτεί σε αυτό της πολλαπλής παλινδρόμησης, παραμένοντας όμως πάλι σε υποδείγματα μιας εξισώσεως. Υπενθυμίζεται ότι η οικονομική θεωρία όχι σπάνια υποθέτει την ταυτόχρονη ύπαρξη πολλών σχέσεων μεταξύ των οικονομικών μεγεθών, κάτι που μπορεί να αντιμετωπισθεί με τα υποδείγματα συστημάτων ταυτόχρονων (αλληλοεξαρτημένων εξισώσεων. Έτσι η πολλαπλή παλινδρόμηση δεν αποτελεί παρά ένα ακόμη βήμα πριν φτάσουμε στην μελέτη τέτοιου είδους υποδειγμάτων. Αρχικά θα ασχοληθούμε με την εκτίμηση και συμπερασματολογία του γενικού υποδείγματος με Κ- επεξηγηματικές μεταβλητές. Για την ευχερέστερη αναπαράσταση του υποδείγματος και της σχετικής άλγεβρας θα χρησιμοποιηθούν πίνακες. 4. ΤΟ ΥΠΟΔΕΙΓΜΑ ΠΟΛΛΑΠΛΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΣΕ ΜΟΡΦΗ ΠΙΝΑΚΩΝ -- ΕΠΑΝΑΔΙΑΤΥΠΩΣΗ ΤΩΝ ΥΠΟΘΕΣΕΩΝ ΤΟΥ ΚΛΑΣΙΚΟΥ ΓΡΑΜΜΙΚΟΥ ΥΠΟΔΕΙΓΜΑΤΟΣ Το υπόδειγμα με (κ- επεξηγηματικές μεταβλητές Χ,Χ3,,Χκ γράφεται ως εξής: Υ=β+βΧ+ β3χ3+ +βκχκ+u, όπου =,,,Ν Η παράμετρος β όπως και στην απλή παλινδρόμηση, είναι ο σταθερός όρος, U είναι ο στοχαστικός όρος και β, =,,,κ οι (μερικοί συντελεστές παλινδρόμησης. Γράφοντας το υπόδειγμα για κάθε παρατήρηση χωριστά έχουμε: Υ=β+βΧ+ β3χ3+ +βκχκ+u Υ=β+βΧ+ β3χ3+ +βκχκ+u
ΥΝ=β+βΧΝ+ β3χ3ν+ +βκχκν+uν Y X X 3... Xκ β U Y X X 3... Xκ β U = +............... YN X Ν X 3Ν XΚΝ βκ UN Y X β U (N- (N-K ( Κ- (N- Σημείωση: Στο εξής τα διαστήματα θα συμβολίζονται με μικρά γράμματα και οι πίνακες με κεφαλαία. Όπου υπάρχει περίπτωση συγχύσεως πάνω από το σύμβολο του διαστήματος θα υπάρχει βέλος και μια παύλα κάτω από το σύμβολο του πίνακα. ΕΠΑΝΑΔΙΑΤΥΠΩΣΗ ΤΩΝ ΥΠΟΘΕΣΕΩΝ ΤΟΥ ΚΛΑΣΣΙΚΟΥ ΓΡΑΜΜΙΚΟΥ ΥΠΟΔΕΙΓΜΑΤΟΣ. E(U= 0 όπου U και 0 Νx διανύσματα. E(UU = σ όπου σ αριθμητική σταθερά και ο μοναδιαίος πίνακας διαστάσεων ΝxΝ. Η Υπόθεση περικλείει τις υποθέσεις για απουσία ετεροσκεδαστικότητας και αυτοσυσχέτισης στις διαταραχές του υποδείγματος. Πράγματι:
U U U... U U U U U U U E(UU = Ε...... U NU UNU... UN N N = E(U E(U U... E(U U N E(U U E(U E(U U N =...... E(U UN E(U U N... E(U N σ 0... 0 0 σ 0 = σ...... 0 0... σ Υπενθυμίζεται ότι Ε(U =Va(U και Ε(UUj=Cov(UUj καθώς Ε(U=0 για κάθε. Έτσι η απουσία αυτοσυσχέτισης συνεπάγεται όλα τα μη διαγώνια στοιχείς του πίνακα να είναι μηδέν, ενώ η απουσία ετεροσκεδαστικότητας συνεπάγεται όλα τα διαγώνια στοιχεία να είναι ίσα με σ. 3. Ο πίνακας X, διαστάσεων ΝxΚ είναι μη στοχαστικός. 4. Ο βαθμός του πίνακα Χ, ρ(χ=κ, όπου Κ ο αριθμός των στηλών του και Κ<Ν όπου Ν ο αριθμός των παρατηρήσεων Η υπόθεση 4 εννοεί ότι οι στήλες του πίνακα Χ είναι γραμμικά ανεξάρτητες δηλαδή δεν υπάρχει πολυσυγγραμικότητα Επιπλέον για τον έλεγχο υποθέσεων υποθέτουμε ότι το διάνυσμα u ακολουθεί την πολυδιάστατη κανονική κατανομή U N I (0, 4.3 ΕΚΤΙΜΗΣΕΙΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Έστω ˆ η εκτίμηση για το. Τότε το διάνυσμα των καταλοίπων ορίζεται ως u y X. ˆ Με βάση την αρχή των ελαχίστων τετραγώνων πρέπει να ελαχιστοποιηθεί το άθροισμα των τετραγώνων των καταλοίπων SS. Θα έχουμε διαδοχικά 3
SS ˆ U' ˆ U ( y Xˆ'( y Xˆ y' yˆ ' X' y y' Xˆ ˆ ' X' X ˆ y' y ˆ ' X' y ˆ ' X' Xˆ (Σημείωση: Το yx ' ˆ είναι αριθμητικό μέγεθος και επομένως ισούται με το ανάστροφό του Δηλαδή y ' Xˆ ( y' Xˆ ' ˆ ' X ' y Χρησιμοποιώντας τους κανόνες διαφόρισης πινάκων διαφορίζουμε τα SS ως προς το διάνυσμα ˆ και θέτουμε την παράγωγο ίση με μηδέν. ( Uˆ' Uˆ ( y ' y ( ˆ ' X ' y ( ˆ ' X ' Xˆ ˆ ˆ ˆ ˆ X ' y X ' Xˆ Θέτοντας ( UU ˆ' ˆ 0 ˆ Έχουμε X ' y X ' Xˆ 0 X ' Xˆ X ' y Πολλαπλασιάζοντας από αριστερά με ( X ' X έχουμε: X X X X ˆ X X X y Άρα ( ' ' ( ' ' ˆ ( X ' X ' X y Σημείωση : Ο ( X ' X δεν είναι ιδιάζων αφού υποθέσαμε ότι δεν υπάρχει πολυσυγραμμικότητα στον πίνακα των δεδομένων Χ. Επιπλέον ο πίνακας τα παρακάτω χαρακτηριστικά : X' X έχει Δίνει τα αθροίσματα των τετραγώνων των Χ μεταβλητών (η X παίρνει την τιμή σε κάθε παρατήρηση στη διαγώνιο του, ενώ τα μη διαγώνια στοιχεία του είναι τα αθροίσματα των γινομένων των Χ μεταβλητών ανά δύο. Είναι συμμετρικός Οι διαστάσεις του είναι (κxκ Σημείωση : Ο πίνακας Η=Χ(Χ Χ - Χ είναι γνωστός και ως Hat matx, επειδή πολλαπλασιάζοντας τα y με τον Η τα μετατρέπει σε ŷ. 4
ΑΜΕΡΟΛΗΨΙΑ ΕΚΤΙΜΗΤΗ ˆ Αντικαθιστώντας το (διάνυσμα y στην ˆ ( X ' X X ' y θα έχουμε ˆ ( X ' X X '( X u ( X ' X X ' X ( X ' X X ' U Άρα ˆ ( X ' X X ' U οπότε ˆ ( ' X X X ' U όμως ο τελεστής της αναμενόμενης τιμής μπορεί να.. και επομένως ˆ ( ' X X X ' E ( U 0 Άρα ˆ ΕΚΤΙΜΗΣΗ ΠΙΝΑΚΑ ΔΙΑΚΥΜΑΝΣΗΣ-ΣΥΝΔΙΑΚΥΜΑΝΣΗΣ VA COV( ˆ Ο πίνακας αυτός έχει τη μορφή : VA COV( ˆ Va( ˆ ˆ ˆ ˆ ˆ Cov(,... Cov(, K Cov( ˆ, ˆ Va( ˆ... Cov( ˆ, ˆ K............ ( ˆ, ˆ ˆ ˆ ˆ Cov K Cov( K,... Va( K Η εκτίμηση των διακυμάνσεων αλλά και των συνδιακυμάνσεων που αποτελούν στοιχεία του παραπάνω πίνακα μας είναι απαραίτητη για τη στατιστική συμπερασματολογία της πολλαπλής παλινδρόμησης. Ήδη γνωρίζουμε ότι ˆ ( X ' X X ' U οπότε VA COV( ˆ ( ˆ ˆ ' ( X ' X X ' UU ' X ( X ' X ( X ' X X ' E( UU ' X ( X ' X ( X ' X X ' X ( X ' X VA COV( ˆ ( X ' X 5
ΕΚΤΙΜΗΣΗ Ο πίνακας VA COV( ˆ περιέχει τη διακύμανση των διαταραχών που φυσικά αναφέρεται στον πληθυσμό και μας είναι άγνωστη. Έτσι θα πρέπει να γίνει η εκτίμηση της από τα (δειγματικά κατάλοιπα. Τα τελευταία μπορούν να εκφρασθούν ως εξής: ˆ ˆ U y X y X ( X ' X X ' y My όπου M I X X X X ( ' ' Ο πίνακας Μ διαστάσεων ΝΧΝ έχει τις παραπάνω ιδιότητες:. Είναι συμμετρικός (καθότι ( X ' X συμμετρικός. Είναι εκθετικά αναλλοίωτος (dempotent πράγματι M I X X X X I X X X X ( ( ' '( ( ' ' II X X X X X X X X X X X X X X X X ( ' ' ( ' ' ( ' ' ( ' ' I X ( X ' X X ' M ( I X ( X ' X X ' X X X ( X ' X X ' X X X 0 3. ΜΧ=0 Πράγματι ( I X ( X ' X X ' X X X ( X ' X X ' X X X 0 4. MUˆ Uˆ Πράγματι MUˆ MMy My Uˆ Τις παραπάνω ιδιότητες θα χρησιμοποιήσουμε στην συνέχεια Uˆ My M ( XU MU. Άρα E( Uˆ' Uˆ E( U ' M ' MU E( U ' MU E( Uˆ' Uˆ 0 Στη συνέχεια χρησιμοποιώντας το γεγονός ότι το ίχνος ενός βαθμωτού μεγέθους είναι ο εαυτός του έχουμε: Et( IM t( M E( U ' MU E t( U ' MU E t( U ' UM στοχαστικός (* Καθώς ο πίνακας Μ είναι μη 6
ti t X ( X ' X X ' ( N K Άρα ˆ UU ˆ' ˆ N K θα είναι αμερόληπτος εκτιμητής του (* Σημείωση: 0... 0 0 0...... 0... 0 0... 0 KXK t X ( X ' X X ' t ( X ' X X ' X t K ΑΣΚΗΣΗ-ΕΦΑΡΜΟΓΗ Να βρεθεί ο πίνακας διασποράς-συνδιασποράς για τον εκτιμητή ˆ : (α με μια επεξηγηματική μεταβλητή (β με δύο επεξηγηματικές μεταβλητές (γ Να σχολιασθούν τα αποτελέσματα ΛΥΣΗ α Για μια επεξηγηματική μεταβλητή θα έχουμε:... N X X 3 X X X 3... X N X X X ' X...... X N ( X ' X X X D X N Όπου D η ορίζουσα του X ' X X X 7
D N X ( X N X ( NX Θα είναι: N( X NX Άρα N ( X X ˆ X ( ( X X NX Va( N ( X X N ( X X X N ( X X ( ˆ N Va N ( X X ( X X ( ˆ, ˆ X Cov N ( X X ( X X X β Για δύο επεξηγηματικές μεταβλητές: Σε αυτή την περίπτωση επειδή κυρίως ενδιαφερόμαστε για τους ˆ ˆ, 3 παρά για τον ˆ (εκτιμητής του σταθερού όρου του υποδείγματος εκφράζουμε το υπόδειγμα στη μορφή των αποκλίσεων (* από τις μέσες τιμές, οπότε μετατρέπουμε το πρόβλημα σε δισδιάστατο, από τρισδιάστατο. Έτσι Va Άρα 3 Cov( Va( ˆ Cov( ˆ, ˆ ( ˆ ˆ ˆ Cov, 3 Va( 3 x x,3,3 x3 x 3,3 D x,3 x x ˆ Va( x j 3 x3 x ( xx3 3 x x3( 3 (** X ( 3 x X 8
Με όμοιο τρόπο: Va( ˆ ( 3 x3 3 (* Αυτό σημαίνει όλα τα X j είναι με μικρά γράμματα (** συντελεστής συσχετίσεως μεταξύ 3 X, X 3 γ Σχολιασμός Αν οι X, X 3 ήταν ασυσχέτιστες (δηλ. 3 τότε οι δειγματικές διακυμάνσεις τους θα ήταν ίδιας μορφής με αυτή της απλής παλινδρόμησης. Όμως όσο αυξάνεται η συσχέτιση μεταξύ X, X 3 τα τυπικά σφάλματα των εκτιμητών ˆ ˆ 3 αυξάνονται. Αυτό είναι το αποτέλεσμα της πολυσυγραμμικότητας. Στην περίπτωση της πλήρους πολυσυγραμμικότητας ( 3 τα τυπικά σφάλματα τείνουν στο. Αυτό σημαίνει ότι οι στήλες του πίνακα X είναι γραμμικά εξαρτημένες, περίπτωση που αποκλείσαμε στις υποθέσεις του γραμμικού υποδείγματος. ΕΡΜΗΝΕΙΑ ΤΩΝ ΣΥΝΙΣΤΩΣΩΝ ΤΟΥ ΔΙΑΝΥΣΜΑΤΟΣ β Κατά τα γνωστά από την απλή παλινδρόμηση ο υποδείγματος. Οι έχουν την εξής σημασία: Ο θα είναι ο σταθερός όρος του,..., K ονομάζονται μερικοί συντελεστές παλινδρόμησης και j μετρά τη μεταβολή στην υπό συνθήκη αναμενόμενη τιμή της Y ( E( Y / X, X3,..., X K που προέρχονται από τη μοναδιαία μεταβολή της j cetes pabus, δηλαδή κρατώντας τις Χ με j σταθερές. X Ένας εναλλακτικός τρόπος εκτίμησης του που βοηθά ώστε να γίνει καλύτερα κατανοητή η σημασία του όρου «μερικός συντελεστής» είναι ο ακόλουθος: Έστω για ευκολία ένα υπόδειγμα με δύο επεξηγηματικές μεταβλητές X, X 3 Ακολουθούμε τα επόμενα βήματα: ΒΗΜΑ: Παλινδρομούμε την Υ με επεξηγηματική μεταβλητή μόνο τη X 3 Y b b3 X3 ( τα κατάλοιπα 9
ΒΗΜΑ: Παλινδρομούμε την X με επεξηγηματική μεταβλητή τη X 3 X b b3 X3 ΒΗΜΑ:3 Παλινδρομούμε την με επεξηγηματική μεταβλητή το a a 0 3 Τότε το a είναι ο OLS εκτιμητής του στο υπόδειγμα 3 3 Y X X U. Αυτό μπορεί να επιβεβαιωθεί κάνοντας λίγες πράξεις αλλά μπορεί και να γίνει κατανοητό αν σκεφτούμε ότι η παριστάνει την Υ μετά την αφαίρεση της (γραμμικής επίδρασης της Χ3 (στην Υ. Ομοίως η παριστάνει την Χ μετά την αφαίρεση της (γραμμικής επίδρασης της Χ3 (στην Χ. Άρα οι είναι οι Υ και Χ μετά την αφαίρεση από αμφότερες της επίδρασης της Χ3. Άρα πράγματι ο συντελεστής παλινδρόμησης α θα εκφράζει την «καθαρή» επίδραση της Χ στην Υ. 4.4 ΑΞΙΟΛΟΓΗΣΗ ΚΑΛΗΣ ΠΡΟΣΑΡΜΟΓΗΣ ΤΟΥ ΥΠΟΔΕΙΓΜΑΤΟΣ Ο ΣΥΝΤΕΛΕΣΤΗΣ ΠΡΟΣΔΙΟΡΙΣΜΟΥ ΤΗΣ ΠΟΛΛΑΠΛΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Αρχικά, όπως και στην απλή παλινδρόμηση θα πρέπει να διασπασθεί η μεταβλητότητα της Υ. Διαδοχικά θα έχουμε: y yˆ uˆ xˆ uˆ y ' y ( yˆ uˆ '( yˆ uˆ y ' y y ' uˆ uˆ ' yˆ uˆ ' uˆ ˆ' X ' Xˆ uˆ' uˆ (Σημείωση: yˆ ' uˆ ( Xˆ' uˆ ˆ' X ' uˆ 0 καθότι από την κανονική εξίσωση έχουμε: ( X ' X ˆ X '( X ˆ uˆ X ' X ˆ X ' uˆ Άρα Xu=0 ' ˆ επομένως και yu ˆ' ˆ 0 0
Όμως όπως γνωρίζουμε η μεταβλητότητα της Υ αναφέρεται στα αθροίσματα των τετραγώνων των αποκλίσεων από τη μέση τιμή Y ενώ N y ' y Y Επειδή N N ( Y Y Y NY Θα έχουμε y ' y ˆ' X ' Xˆ uˆ' uˆ ˆ ˆ ˆ ˆ y ' y NY ' X ' X NY u ' u TSS ESS SS Ο συντελεστής προσδιορισμού για την πολλαπλή παλινδρόμηση ορίζεται όπως και στην περίπτωση της απλής παλινδρόμησης με τη σχέση: ESS TSS SS TSS Αντικαθιστώντας τα TSS και SS καταλήγουμε στη σχέση: ˆ ' X ' X ˆ NY ˆ ' X ' y NY y ' y NY y ' y NY Ο ΔΙΟΡΘΩΜΕΝΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΠΡΟΣΔΙΟΡΙΣΜΟΥ Ορίζοντας το συντελεστή προσδιορισμού με τη σχέση: ˆ ' X ' X ˆ NY ˆ ' X ' y NY y ' y NY y ' y NY είναι φανερό ότι η προσθήκη παραπάνω επεξηγηματικών μεταβλητών θα αυξάνει την τιμή του ή στην ακραία περίπτωση η τιμή του θα παραμείνει αμετάβλητη. Αυτό συμβαίνει καθώς με τη προσθήκη επεξηγηματικών μεταβλητών η τιμή του SS
μειώνεται ή παραμένει σταθερή, ενώ η τιμή του ΤSS δεν αλλάζει. Αυτό καθιστά προβληματική τη χρήση του ως μέτρου καλής προσαρμογής. Μια λύση σε αυτό το πρόβλημα, που προτάθηκε αρχικά από τον H. Thel είναι να χρησιμοποιήσουμε διακυμάνσεις αντί μεταβλητότητες στον ορισμό του. Υπενθυμίζεται ότι οι διακυμάνσεις είναι οι μεταβλητότητες διαιρεμένες με τους αντίστοιχους βαθμούς ελευθερίας, δηλαδή οι διακυμάνσεις εκφράζουν μεταβλητότητα κατά βαθμό ελευθερίας. Έτσι ορίζεται ο λεγόμενος διορθωμένος συντελεστής προσδιορισμού (adjusted coeffcent of detemnaton ως εξής: uˆ N K s Y Y Y N ( Τόσο στον αριθμητή όσο και στον παρονομαστή χρησιμοποιήθηκαν οι αμερόληπτοι εκτιμητές των αντίστοιχων διακυμάνσεων. Από την τελευταία σχέση ο N ( N K Παρατηρήσεις μπορεί να εκφρασθεί σαν συνάρτηση του ως εξής: α από την τελευταία σχέση προκύπτει ότι αν = οπότε και =. < δεδομένου ότι Κ> (, εκτός β Αν =0 τότε περίπτωση θα θεωρούμε ότι N N K =0. και επειδή Κ> ο θα είναι αρνητικός! Σε αυτή την (γ Το γεγονός ότι χρησιμοποιούμε τους αμερόληπτους εκτιμητές των αντίστοιχων διακυμάνσεων δεν εξασφαλίζει ότι και ο είναι αμερόληπτος. (Υπενθυμίζεται ότι E( ˆ ˆ E( ˆ / E( ˆ Μπορούμε όμως να χρησιμοποιήσουμε το όριο πιθανότητας, οπότε έχουμε: Δεν εξετάζουμε την περίπτωση της παλινδρόμησης χωρίς σταθερό όρο για την οποία όπως έχουμε δει ο συντελεστής προσδιορισμού δεν ορίζεται με αυτόν τον τρόπο.
p lm uˆ N K p plm Όπου lmˆ p lm ( Y Y N p lm( Va( Y η αληθής τιμή του συντελεστή προσδιορισμού στον πληθυσμό. Άρα ο είναι συνεπής εκτιμητής. (δ Στην περίπτωση της απλής παλινδρόμησης (δηλαδή της παλινδρόμησης με μία επεξηγηματική μεταβλητή παράλληλα με τον συντελεστή προσδιορισμού είχαμε ορίσει και τον συντελεστή γραμμικής συσχετίσεως (coelaton coeffcent ρ και είχαμε δει ότι ο συντελεστής προσδιορισμού ισούται με το τετράγωνο του συντελεστή συσχετίσεως. Στην περίπτωση της πολλαπλής παλινδρόμησης κατ αναλογία με τον ρ ορίζεται ο συντελεστής πολλαπλής συσχέτισης που είναι ένα μέτρο της συσχέτισης μεταξύ της Υ και όλων των επεξηγηματικών μεταβλητών από κοινού. Δεδομένου ότι ο ορίζεται ως η τετραγωνική ρίζα του αντίστοιχου συντελεστή προσδιορισμού λαμβάνει μόνο θετικές τιμές, ή μηδέν, σε αντίθεση με τον ρ που όπως γνωρίζουμε μπορεί να είναι θετικός, αρνητικός ή μηδέν. Πάντως για την περίπτωση της πολλαπλής παλινδρόμησης αυτός που ενδιαφέρει είναι πρωτίστως ο και ελάχιστα ο ρ. (ε Θα πρέπει με έμφαση να σημειωθεί ότι αν θέλουμε να συγκρίνουμε δύο ή περισσότερα υποδείγματα παλινδρόμησης με βάση την τιμή του συντελεστή προσδιορισμού τους (διορθωμένου ή μη η εξαρτημένη μεταβλητή και φυσικά το μέγεθος του δείγματος πρέπει να είναι τα ίδια. Οι επεξηγηματικές μεταβλητές μπορεί να είναι οσεσδήποτε (φυσικά πάντα ο αριθμός τους να παραμένει μικρότερος του μεγέθους του δείγματος και να υπεισέρχονται στο υπόδειγμα με οποιαδήποτε μορφή. Συνεπώς η σύγκριση καλής προσαρμογής στα υποδείγματα: Y X X u και 3 3 lny X X u 3 3 δεν είναι δυνατή, καθόσον η εξαρτημένη μεταβλητή δεν είναι η ίδια. Αντίθετα, στα υποδείγματα: Y X X u και 3 3 Y X X X u 3 3 4 4 Η σύγκριση με βάση την τιμή του είναι δυνατή αφού και τα δύο έχουν την ίδια εξαρτημένη μεταβλητή (υπό την προϋπόθεση βέβαια ότι και η το μέγεθος του δείγματος είναι το αυτό. 3
ΑΛΛΑ ΜΕΤΡΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΛΗΣ ΠΡΟΣΑΡΜΟΓΗΣ ΕΝΟΣ ΥΠΟΔΕΙΓΜΑΤΟΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Ένας λόγος που προτάθηκε ο διορθωμένος συντελεστής προσδιορισμού ήταν για να επιβάλλεται ένα είδος «ποινής» στην προσθήκη νέων επεξηγηματικών μεταβλητών στο υπόδειγμα. Στην ίδια λογική έχουν προταθεί και άλλα μέτρα αξιολόγησης της προσαρμογής ενός υποδείγματος παλινδρόμησης στα δεδομένα. Τα συνηθέστερα από αυτά είναι τα ακόλουθα: Το κριτήριο πληροφορίας του Akake (AIC To κριτήριο αυτό δίνεται με τη σχέση: K SS AIC ln N N Ο πρώτος προσθετέος στο β μέλος είναι ο λεγόμενος «παράγοντας ποινής» καθώς όσο προστίθενται επεξηγηματικές μεταβλητές αυξάνει η τιμή του AIC. Κατά τη σύγκριση δύο ή περισσοτέρων υποδειγμάτων επιλέγεται εκείνο με τη μικρότερη τιμή AIC. Το κριτήριο πληροφορίας του Schwaz, ή Μπεϋζιανό κριτήριο πληροφορίας (SIC, ή BIC Στο ίδιο πνεύμα με το AIC, το SIC περιλαμβάνει και αυτό ένα «παράγοντα ποινής» και δίνεται από τη σχέση: K SS SIC ln N ln( N N Και στην περίπτωση αυτή κατά τη σύγκριση υποδειγμάτων επιλέγουμε αυτό με τη μικρότερη τιμή SIC Επισημαίνεται ότι εξετάζοντας τις σχέσεις με τις οποίες υπολογίζουμε τα AIC και SIC είναι φανερό ότι το SIC επιβάλλει μεγαλύτερη ποινή για την προσθήκη νέων επεξηγηματικών μεταβλητών συγκριτικά με το AIC. 4.5 ΜΕΡΙΚΗ ΣΥΣΧΕΤΙΣΗ 4
ΜΕΡΙΚΟΙ ΣΥΝΤΕΛΕΣΤΕΣ ΣΥΣΧΕΤΙΣΕΩΣ Για υποδείγματα με περισσότερες της μιας επεξηγηματικές μεταβλητές έχει νόημα να ορίσουμε τους λεγόμενους μερικούς συντελεστές συσχετίσεως κατ αντιστοιχία με τους μερικούς συντελεστές παλινδρόμησης. Έτσι θεωρώντας και πάλι την περίπτωση με δύο επεξηγηματικές μεταβλητές Χ,Χ3 οι μερικοί συντελεστές συσχετίσεως ορίζονται ως εξής:,3= μερικός συντελεστής συσχετίσεως μεταξύ Υ και Χ κρατώντας τη Χ3 σταθερή. 3,= μερικός συντελεστής συσχετίσεως μεταξύ Υ και Χ3 κρατώντας τη Χ σταθερή. 3,= μερικός συντελεστής συσχετίσεως μεταξύ Χ και Χ3 κρατώντας τη Υ σταθερή. Ανατρέχοντας στη διαδικασία των τριών βημάτων που ακολουθήθηκε για την εκτίμηση του μερικού συντελεστή παλινδρόμησης είναι φανερό ότι ο μερικός συντελεστής συσχετίσεως μεταξύ Υ και Χ θα δίνεται από τη σχέση:.3 {( ( } ( {( ( } ( Καθώς, 0 Εναλλακτικά μπορεί να αποδειχθεί ότι οι μερικοί συντελεστές συσχέτισης μπορούν να εκφραστούν ως προς τους απλούς συντελεστές συσχέτισης ως εξής: (η απόδειξη παραλείπεται..3 3. 3. 3 3 ( ( 3 3 3 3 ( ( 3 3 3 ( ( 3 Σημείωση: Ο δείκτης αναφέρεται στην Υ ο δείκτης στην Χ και ο δείκτης 3 στην Χ3. Οι μερικοί συντελεστές συσχετίσεως καλούνται και συντελεστές συσχετίσεως ου βαθμού. Ο βαθμός αναφέρεται στον αριθμό των μεταβλητών που διατηρούνται σταθερές κατά τον υπολογισμό του συντελεστή συσχετίσεως. Έτσι, ο.345 θα είναι 5
τρίτου βαθμού ενώ οι απλοί συντελεστές συσχετίσεως πχ, 3 κλπ θα είναι μηδενικού βαθμού. Παρατηρήσεις α Από τις παραπάνω σχέσεις προκύπτει ότι αν =0 αυτό δε σημαίνει αναγκαστικά ότι και.3 =0. Πράγματι, μόνο αν μία εκ των 3, 3 (ή και οι δύο ισούται με μηδέν θα ισχύει ότι και.3 =0. β Αν =0 και οι 3, 3 είναι μη μηδενικές και ομόσημες η.3 θα είναι αρνητική. Αντίθετα αν =0 και οι 3, 3 είναι μη μηδενικές και ετερόσημες η.3 θα είναι θετική. Χαρακτηριστικό είναι το επόμενο παράδειγμα. Έστω ότι θέλουμε να εξετάσουμε την επίδραση της βροχής (Χ και της θερμοκρασίας (Χ3 στην απόδοση μιας καλλιέργειας (Υ και αρχικά βρίσκουμε ότι η βροχή δε σχετίζεται με την απόδοση της καλλιέργειας, δηλαδή =0. Περαιτέρω βρίσκουμε ότι 3 > 0, 3 <0. Τότε από 3 3 τη σχέση.3 προκύπτει ότι.3 >0, δηλαδή μία θετική συσχέτιση ( ( 3 3 μεταξύ απόδοσης και βροχής! Αυτό οφείλεται στο γεγονός ότι η τρίτη μεταβλητή, δηλαδή η θερμοκρασία, επηρεάζει και την απόδοση της καλλιέργειας αλλά και τη βροχόπτωση, συνεπώς για να βρούμε την αληθή συσχέτιση μεταξύ απόδοσης καλλιέργειας και βροχόπτωσης θα πρέπει να απομονωθεί η επίδραση της θερμοκρασίας. Το συμπέρασμα που προκύπτει είναι ότι οι μηδενικοί συντελεστές γραμμικής συσχέτισης δυνατόν να οδηγήσουν σε εσφαλμένα συμπεράσματα. γ. Οι.3 και δεν είναι αναγκαίο να έχουν το ίδιο πρόσημο. Με λίγες πράξεις μπορούμε να δείξουμε ότι ο συντελεστής προσδιορισμού της πολλαπλής παλινδρόμησης με επεξηγηματικές μεταβλητές εκφράζεται μέσω των απλών συντελεστών συσχετίσεως με την ακόλουθη σχέση: 3 3 3 3 Επιπλέον σκεπτόμενοι ότι το ποσοστό μεταβλητότητας της Υ που ερμηνεύεται από την Χ μόνο, είναι και από το ποσοστό που παραμένει ανερμήνευτο και είναι προφανώς η Χ3 κρατώντας την Χ σταθερή ερμηνεύει το ( θα ισχύει η σχέση :.3 ( ή ισοδύναμα 3. ( 3 3.3 6
Κατά συνέπεια το ποσοστό της μεταβλητότητας της Υ που ερμηνεύεται από το υπόδειγμα παλινδρόμησης (δηλαδή από κοινού από τις Χ και Χ3 δύναται να θεωρηθεί ότι αποτελείται από τα εξής δύο μέρη: (α το μέρος που ερμηνεύεται μόνο από τη Χ (δηλαδή την (δηλαδή Χ., και (β το μέρος που δεν ερμηνεύεται από τη Χ επί το ποσοστό που ερμηνεύεται από την Χ3 κρατώντας σταθερή τη Επιπλέον, από τη σχέση.3 0. Στη χειρότερη περίπτωση ( προκύπτει ότι 3 3.3 3 αν και.3 0. 3 εφόσον Ερώτηση: Έστω ότι Υ, Χ3 ασυσχέτιστες καθώς και Χ, Χ3 επίσης ασυσχέτιστες. Αυτό σημαίνει ότι θα πρέπει και Υ, Χ να είναι ασυσχέτιστες? Απάντηση: Από τις παραπάνω σχέσεις προκύπτει ότι 0 Αν 3 3 3 3 3 0 τότε 0 Άρα η μπορεί να πάρει οποιαδήποτε επιτρεπτή τιμή και επομένως μπορεί κάλλιστα να συσχετίζονται μεταξύ τους οι Υ, Χ Η ΣΗΜΑΣΙΑ ΤΗΝ ΜΕΡΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΣΤΟΝ ΕΝΤΟΠΙΣΜΟ ΨΕΥΔΩΝ ΣΥΣΧΕΤΙΣΕΩΝ (SPOUIOUS COELATIONS Η διαφορά μεταξύ μερικού συντελεστή συσχετίσεως και απλού συντελεστή συσχετίσεως αποκτά ιδιαίτερη αξία στον εντοπισμό των λεγομένων ψευδών συσχετίσεων (spuous coelatons. Στη βιβλιογραφία είναι γνωστά αρκετά άρθρα στα οποία σημαντικές οικονομικές μεταβλητές όπως ο πληθυσμός και το εισόδημα εμφανίζονται να συσχετίζονται με μετεωρολογικές ή αστροφυσικές μεταβλητές όπως η αθροιστική βροχόπτωση ή η δραστηριότητα των ηλιακών κηλίδων. Π.χ. ο Davd Hendy (Hendy D. F. (980: Econometcs alchemy o scence, Economca 47,387-406 βρίσκει ότι ο (μηδενικός συντελεστής γραμμικής συσχετίσεως Ι μεταξύ πληθωρισμού και αθροιστικής βροχόπτωσης στο Η.Β. είναι 0.98(! Ένας τρόπος αντιμετώπισης του προβλήματος αυτού είναι να θεωρήσει κανείς ως επεξηγηματική μεταβλητή τόσο για τον πληθωρισμό όσο και για την αθροιστική βροχόπτωση το χρόνο. Έτσι η κοινή χρονική τάση που υποπτευόμαστε ως υπαίτια για την υψηλή (αλλά ψευδή συσχέτιση μεταξύ δύο μεταβλητών μπορεί να εξαλειφθεί παλινδρομώντας κάθε μια από τις δύο μεταβλητές χωριστά με ανεξάρτητη μεταβλητή το χρόνο. Έτσι έχουμε: 7
I ˆ ˆ t uˆ ˆ ˆ t uˆ I Όπου Ι ο πληθωρισμός, αθροιστική βροχόπτωση και t o χρόνος. Τα κατάλοιπα των δύο αυτών παλινδρομήσεων uˆi και uˆ θα είναι απαλλαγμένα από την χρονική τάση και έτσι η μεταξύ τους συσχέτιση θα αποτυπώνει τη συσχέτιση των δύο αρχικών μεταβλητών που δεν οφείλεται στην χρονική τάση, συνεπώς θα εκφράζει το μερικό συντελεστή συσχετίσεως (συντελεστή συσχετίσεως πρώτου βαθμού μεταξύ πληθωρισμού και συγκεκριμένο παράδειγμα προκύπτει ότι: I=0,98 αλλά I.t 0. αθροιστικής βροχόπτωσης I.t. Για το Ακόμη πιο εντυπωσιακό είναι και το εξής εμπειρικό εύρημα: Η νότιος Σουηδία χωρίστηκε σε γεωγραφικές περιοχές ίσου εμβαδού. Σε κάθε τέτοια γεωγραφική περιοχή μετρήθηκαν ο αριθμός των πελαργών που ζουν εκεί, καθώς και ο αριθμός των νεογέννητων βρεφών. Βρέθηκε ότι ο γραμμικός συντελεστής συσχετίσεως μεταξύ αριθμού πελαργών και αριθμού νεογέννητων βρεφών ανά γεωγραφική περιοχή ισούται με 0,95. Ποιο είναι το συμπέρασμα σχετικά με την προέλευση των βρεφών και πως αυτό τεκμηριώνεται; Η απάντηση επαφίεται ως άσκηση στον αναγνώστη. 4.6 ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ:ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Στην πολλαπλή παλινδρόμηση το πλήθος των υποθέσεων που μπορούν να ελεγχθούν στατιστικά είναι πολύ μεγαλύτερο σε σχέση με τη περίπτωση της απλής παλινδρόμησης. Οι συνηθέστεροι από τους ελέγχους υποθέσεων μπορούν να ενταχθούν σε μία από τις παρακάτω περιπτώσεις: Έλεγχος σημαντικότητας μεμονωμένων μερικών συντελεστών παλινδρόμησης. Έλεγχος σημαντικότητας συγχρόνως για όλους τους μερικούς συντελεστές παλινδρόμησης (έλεγχος της συνολικής σημαντικότητας του υποδείγματος, εκτός του σταθερού όρου. 3 Έλεγχος σημαντικότητας συγχρόνως για ένα υποσύνολο των μερικών συντελεστών παλινδρόμησης. 4 Έλεγχος για την ισότητα στις τιμές δύο ή περισσοτέρων συντελεστών. 8
5 Έλεγχος για την ορθότητα συγκεκριμένων περιοριστικών συνθηκών που μπορεί να επιβληθούν στους συντελεστές παλινδρόμησης. Παρακάτω θα αναφερθούν λεπτομερέστερα για κάθε μία από αυτές τις περιπτώσεις ελέγχου υποθέσεων, με αναφορά το υπόδειγμα: Όσον αφορά την περίπτωση ( η διαδικασία είναι ακριβώς η ίδια όπως και στην περίπτωση της απλής παλινδρόμησης: Το στατιστικό: όπου C το διαγώνιο στοιχείο του πίνακα, ακολουθεί την κατανομή t- student me N-k βαθμούς ελευθερίας. Η περίπτωση ( αποτελεί τη γενίκευση του F-test που εξετάσαμε στην απλή παλινδρόμηση. Για την περίπτωση αυτή η υπόθεση Ho διατυπώνεται ως εξής: Ho: β=β3=..βκ=0 Θα πρέπει να σημειωθεί ότι η από κοινού στατιστική σημαντικότητα των β, β3,.,βκ δεν είναι δυνατό να εξετασθεί μεμονωμένα για το κάθε συντελεστή, καθώς κάτι τέτοιο θα απαιτούσε εκτίμηση από ξεχωριστό δείγμα για κάθε συντελεστή, ενώ το ζητούμενο είναι ο έλεγχος της σημαντικότητας των συντελεστών από κοινού και από το ίδιο δείγμα. Το κατάλληλο στατιστικό για τον έλεγχο της Ηο είναι για την περίπτωση αυτή το ακόλουθο: F ESS ESS df K SS SS df N K όπου K ο συνολικός αριθμός των παραμέτρων του υποδείγματος και Ν το μέγεθος του δείγματος. Η Ho απορρίπτεται αν F>Fa(K-,N-k, όπου Fa(K-,N-k η κρίσιμη τιμή της κατανομής F για επίπεδο σημαντικότητας a και k-, N-k βαθμούς ελευθερίας. Δεδομένου ότι = ESS/TSS εύκολα μπορεί να αποδειχθεί ότι η παραπάνω σχέση μπορεί να γραφτεί και ως έξης : 9
Από την τελευταία σχέση είναι φανερό ότι, όπως και στην περίπτωση της απλής παλινδρόμησης, ο έλεγχος της συνολικής σημαντικότητας του υποδείγματος είναι ισοδύναμος με τον έλεγχο της σημαντικότητας του συντελεστή πολλαπλού προσδιορισμού. Στην περίπτωση (3 ο έλεγχος αφορά τη συνολική στατιστική σημαντικότητα ενός υποσυνόλου από τους μερικούς συντελεστές παλινδρόμησης, έστω των βλ+,..,βκ Η διαδικασία που ακολουθούμε είναι η ακόλουθη: (α Αρχικά εκτιμάμε το υπόδειγμα με όλες τις επεξηγηματικές μεταβλητές και έστω SSκ η μεταβλητότητα των κατάλοιπων του υποδείγματος. (β Εκτιμάμε το υπόδειγμα αφαιρώντας τις μεταβλητές που αντιστοιχούν στους βλ+,..,βκ (οπότε αυτή την φορά έχουμε λ- επεξηγηματικές μεταβλητές στο υπόδειγμα και έστω SSλ η μεταβλητότητα των καταλοίπων του νέου υποδείγματος. Το στατιστικό: Ακολουθεί την κατανομή F με Κ-λ, Ν-k βαθμούς ελευθερίας. Άρα η μηδενική υπόθεση απορρίπτεται αν η δειγματική τιμή F βρεθεί μεγαλύτερη από την κρίσιμη τιμή για Κ-λ, Ν-k βαθμούς ελευθερίας και προεπιλεγμένο επίπεδο σημαντικότητας. Για την περίπτωση (4 έστω ότι στο υπόδειγμα: Υ=β+ βχ +β3χ3 +.+βκχκ + U επιθυμούμε να εξετάσουμε την υπόθεση β=β3. Τότε αν ισχύουν οι συνήθεις υποθέσεις μπορεί να αποδειχθεί ότι το στατιστικό: ακολουθεί την κατανομή t του student με Ν-k βαθμούς ελευθερίας. 0
Τέλος η περίπτωση (5, όπου είναι γνωστή ως <<ελάχιστα τετράγωνα υπό περιορισμούς>> (estcted least squaes, είναι η γενικότερη όλων και οι προηγούμενες 4 περιπτώσεις μπορούν να θεωρηθούν σαν μερικές περιπτώσεις της. Στην περίπτωση 5 επιβάλλονται περιοριστικές συνθήκες στους μερικούς συντελεστές παλινδρόμησης και η διαδικασία ελέγχου μπορεί να αναχθεί σε μία από τις προηγούμενες περιπτώσεις (περισσότερες επεξηγήσεις θα δοθούν σε ασκήσεις εφαρμογές στο επόμενο κεφάλαιο, βλ. λυμένη εφαρμογή σχετικά με τον έλεγχο περιοριστικής συνθήκης στη συνάρτηση παραγωγής Cobb-Douglas. 4.7 ΕΡΩΤΗΣΕΙΣ- ΑΣΚΗΣΕΙΣ Έστω η συνάρτηση κατανάλωσης: Y X X X u ( όπου: 0 3 3 Υ = συνολική κατανάλωση, Χ = συνολικό ΑΕΠ Χ= εισόδημα αστικών και ημιαστικών περιοχών Χ3= εισόδημα αγροτικών περιοχών. Είναι δυνατό να γίνει οικονομετρική εκτίμηση του παραπάνω υποδείγματος; Απάντηση Επειδή το συνολικό ΑΕΠ ισούται με το άθροισμα των εισοδημάτων των αστικών, ημιαστικών και αγροτικών περιοχών θα ισχύει: X X X3 Συνεπώς μεταξύ των επεξηγηματικών μεταβλητών υφίσταται γραμμική εξάρτηση και επομένως και ο πίνακας (Χ Χ δεν αντιστρέφεται (έχουμε τέλεια πολυσυγγραμμικότητα. Άρα δεν είναι δυνατή η οικονομετρική εκτίμηση του υποδείγματος (. Τι μετράει το Απάντηση ˆ και τι το ; Σε τι πλεονεκτεί το σε σχέση με το ˆ ;
Το ˆ μετρά τη διακύμανση των τιμών της εξαρτημένης μεταβλητής γύρω από την καμπύλη παλινδρόμησης. Το μετρά το ποσοστό της μεταβλητότητας της εξαρτημένης μεταβλητής μου μπορεί να ερμηνευτεί από το υπόδειγμα παλινδρόμησης (δηλ. από όλες τις ερμηνευτικές μεταβλητές από κοινού. Το πλεονεκτεί του ( Το ˆ γιατί: λαμβάνει τιμές στο διάστημα [0, ], ενώ το επομένως οι τιμές του ( Οι τιμές του ( Το ˆ αξιολογούνται ευκολότερα. στο διάστημα [0, ], δεν επηρεάζονται από αλλαγές στις μονάδες μέτρησης των μεταβλητών σε αντίθεση με τις τιμές του είναι καθαρός αριθμός. Παρατήρηση: Συμπληρωματικά προς το, σαν ένα μέτρο εκτίμησης της καλής προσαρμογής ενός υποδείγματος θα μπορούσε να αναφερθεί και η τιμή του πηλίκου της ρίζας του ˆ ˆ. προς τη μέση τιμή της επεξηγηματικής μεταβλητής. Για τιμές του πηλίκου αυτού μέχρι 0,0 0,5 η προσαρμογή του υποδείγματος θεωρείται ικανοποιητική.