ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7ο μάθημα: Πολυμεταβλητή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1
Εισαγωγή α υποδείγματα πολυμεταβλητής παλινδρόμησης του πληθυσμού είναι επεκτάσεις των υποδειγμάτων απλής παλινδρόμησης, όπου η εξαρτημένη μεταβλητή Y επηρεάζεται από ένα σύνολο ερμηνευτικών (ανεξάρτητων) μεταβλητών Χ 1, Χ,.., Χ k. H γραμμική μορφή του πολυμεταβλητού υποδείγματος του πληθυσμού είναι: Y t = β 0 + β 1 Χ 1t + β Χ t + + β k Χ kt + e t Για k = 1, προκύπτει το απλό γραμμικό υπόδειγμα παλινδρόμησης. Οι μέθοδοι εκτίμησης και ελέγχου του πολλαπλού γραμμικού υποδείγματος είναι μια γενίκευση της απλής περίπτωσης για k = 1.
ο γραμμικό υπόδειγμα παλινδρόμησης με τρεις μεταβλητές Αν στο απλό γραμμικό υπόδειγμα προσθέσουμε μια επιπλέον ανεξάρτητη μεταβλητή, τότε προκύπτει το πολλαπλό γραμμικό υπόδειγμα παλινδρόμησης του πληθυσμού με τρεις μεταβλητές, που είναι: Y t = β 0 + β 1 Χ 1t + β Χ t + e t όπου Y t είναι η εξαρτημένη μεταβλητή, Χ 1t, Χ t είναι οι ανεξάρτητες μεταβλητές, e t ο διαταρακτικός όρος και β 0, β 1, β οι συντελεστές της πολλαπλής γραμμικής παλινδρόμησης του πληθυσμού. Ο συντελεστής β 0 είναι η σταθερά και προσδιορίζει το σημείο τομής του άξονα των Υ και του επιπέδου της παλινδρόμησης του πληθυσμού. Οι συντελεστές β 1, β λέγονται συντελεστές μερικής παλινδρόμησης, επειδή μετρούν μερικές μεταβολές του Ε(Y t X 1t, X t ). 3
Έστω β 0, β 1, β είναι οι εκτιμήσεις των β 0, β 1, β που προέρχονται από ένα δείγμα που πάρθηκε τυχαία από έναν πληθυσμό. ότε, η συνάρτηση του πολλαπλού γραμμικού υποδείγματος της παλινδρόμησης του δείγματος είναι: Y t = β 0 + β 1 Χ 1t + β Χ t + u t όπου u t είναι η εκτίμηση του διαταρακτικού όρου. Οι συντελεστές β 0, β 1, β λέγονται μερικοί συντελεστές της παλινδρόμησης (partial regression coefficients) και έχουν τη μικρότερη διακύμανση από κάθε άλλον αμερόληπτο εκτιμητή. Ο εκτιμητής β 1 μετράει την μεταβολή της εξαρτημένης μεταβολής Y t λόγω μιας μεταβολής της ανεξάρτητης μεταβλητής Χ 1t, εφόσον η ανεξάρτητη μεταβλητή Χ t παραμένει σταθερή. 4
Περιγραφή του υποδείγματος τριών μεταβλητών με μήτρες Η σχέση Y t = β 0 + β 1 Χ 1t + β Χ t + e t μπορεί να γραφεί ως: Y t = β 0 Χ 0t + β 1 Χ 1t + β Χ t + e t όπου Χ 0t = 1 για κάθε t = 1,.., T. Για δείγμα T παρατηρήσεων, θα έχουμε το παρακάτω σύστημα εξισώσεων: Y 1 = β 0 Χ 01 + β 1 Χ 11 + β Χ 1 + e 1 Y = β 0 Χ 0 + β 1 Χ 1 + β Χ + e.. Y T = β 0 Χ 0T + β 1 Χ 1T + β Χ T + e T 5
ο σύστημα αυτό μπορεί να γραφεί με μορφή μητρών ως: Υ 1 Υ T = X 10 X 11 X 1 X T0 X T1 X T β 0 β 1 β + e 1 e T ή Υ = Χβ + e όπου Υ, Χ, β, e είναι μήτρες. Υ: διάνυσμα T 1 Χ: μήτρα (k + 1) δηλ. T 3 β: διάνυσμα (k + 1) 1 δηλ. 3 1 e: διάνυσμα T 1 6
Περιγραφή του υποδείγματος k μεταβλητών με μήτρες Αν στο προηγούμενο υπόδειγμα προσθέσουμε και άλλες ανεξάρτητες μεταβλητές, θα πάρουμε το παρακάτω πολυμεταβλητό υπόδειγμα: Y t = β 0 + β 1 Χ 1t + β Χ t + + β k Χ kt + e t Y t = β 0 Χ 0t + β 1 Χ 1t + β Χ t + β k Χ kt + e t, t = 1,..,. Για δείγμα παρατηρήσεων, θα έχουμε το παρακάτω σύστημα εξισώσεων: Y 1 = β 0 Χ 01 + β 1 Χ 11 + β Χ 1 + + β k Χ k1 + e 1 Y = β 0 Χ 0 + β 1 Χ 1 + β Χ + + β k Χ k + e.. Y = β 0 Χ 0 + β 1 Χ 1 + β Χ + + β k Χ k + e ή 7
ο σύστημα αυτό μπορεί να γραφεί με μορφή μητρών ως: Υ 1 Υ = X 10 X 11 X 1 X 1k X 0 X 1 X X k β 0 β 1 β β k + e 1 e ή Υ = Χβ + e όπου Υ, Χ, β, e είναι μήτρες. Υ: διάνυσμα στήλης 1 Χ: μήτρα (k + 1) β: διάνυσμα στήλης (k + 1) 1 e: διάνυσμα στήλης 1 8
ο e είναι το διάνυσμα στήλης ( 1) του διαταρακτικού όρου του υποδείγματος πληθυσμού. ο Ε(e) είναι η προσδοκώμενη τιμή του διανύσματος του διαταρακτικού όρου. ο 0 είναι το μηδενικό διάνυσμα διαστάσεων 1. ο Ι είναι η μοναδιαία ή ταυτοτική μήτρα διαστάσεων. ο ee είναι μια συμμετρική μήτρα διαστάσεων : ee = e 1 e 1 e = e e 1 e T e e 1 e e T e T e 1 e T e 1 9
ο Ε(ee ) είναι μήτρα διαστάσεων και ονομάζεται μήτρα διακύμανσης - συνδιακύμανσης: E ee = Ee 1 Ee 1 e T Ee e 1 Ee e T Ee T e 1 Ee T = σ e 1 0 0 0 0 1 10
Οι βασικές υποθέσεις του πολλαπλού γραμμικού υποδείγματος 1. Η μεταβλητή e t (διαταρακτικός όρος υποδείγματος πολλαπλής παλινδρόμησης του πληθυσμού) είναι τυχαία μεταβλητή με μέσο το μηδέν: Ε(e t ) = 0, για t = 1,,.. Η διακύμανση της τυχαίας μεταβλητής e t είναι σταθερή (ομοσκεδαστικός όρος): Var(e t ) = σ e, για t = 1,,. 3. Δεν υπάρχει αυτοσυσχέτιση (autocorrelation) στους διαταρακτικούς όρους, δηλαδή οι τιμές των διαταρακτικών όρων είναι ανεξάρτητες Cov(e t, e s ) = 0, για t s. 4. O διαταρακτικός όρος δεν συσχετίζεται με τις ανεξάρτητων μεταβλητές Χ: Cov(X 1t, X t,, X kt, e t ) = 0, για t = 1,,. 11
5. Η τυχαία μεταβλητή e t ακολουθεί την κανονική κατανομή με μέσο μηδέν και σταθερή διακύμανση: e t ~N(0, σ e ). 6. Η μαθηματική (προσδιοριστική) σχέση μεταξύ των μεταβλητών Y t και X 1t, X t,, X kt είναι γραμμική. 7. Δεν υπάρχουν γραμμικές σχέσεις μεταξύ των ερμηνευτικών μεταβλητών. Η υπόθεση αυτή αποκλείει την ύπαρξη πολυσυγγραμικότητας μεταξύ των ερμηνευτικών μεταβλητών. 8. Ο αριθμός των παρατηρήσεων του δείγματος n είναι μεγαλύτερος από τον αριθμό των ανεξάρτητων μεταβλητών k + 1. 9. ο υπόδειγμα της πολλαπλής γραμμικής παλινδρόμησης είναι σωστά εξειδικευμένο. 10. Οι ανεξάρτητες μεταβλητές μετρούνται χωρίς σφάλμα. 1
Ολοκληρωμένη εξειδίκευση του πολλαπλού γραμμικού υποδείγματος Y t = β 0 + β 1 Χ 1t + β Χ t + + β k Χ kt + e t e t ~Ν(0, σ ) α) e t : τυχαία μεταβλητή β) Ε(e t ) = 0 γ) Var e t = E(e t ) = σ Cov e t, e s = E e t e s = 0, για t s (ανεξαρτησία τυχαίων όρων) Οι ερμηνευτικές μεταβλητές δεν είναι στοχαστικές. Οι τιμές τους παραμένουν σταθερές και δεν είναι ίσες όλες μεταξύ τους. Δεν υπάρχουν ακριβείς γραμμικές σχέσεις ανάμεσα στις ερμηνευτικές μεταβλητές. Ο αριθμός των παρατηρήσεων του δείγματος είναι μεγαλύτερος από τον αριθμό των συντελεστών του υποδείγματος. 13
Η μέθοδος των ελαχίστων τετραγώνων Με τη μέθοδο ελαχίστων τετραγώνων εκτιμούμε τους συντελεστές της γραμμής παλινδρόμησης και ελαχιστοποιούμε το άθροισμα των τετραγώνων των καταλοίπων: min n = min n e t = min n (Y t Y t ) (Y t β 0 β 1 Χ 1t β Χ t β k Χ kt ) 14
Για το γραμμικό υπόδειγμα παλινδρόμησης με τρεις μεταβλητές, οι εκτιμήσεις των συντελεστών β 0, β 1, β γίνεται με τη μέθοδο ελαχίστων τετραγώνων λύνοντας το σύστημα εξισώσεων που προκύπτει αν μηδενίσουμε τις παρακάτω μερικές παραγώγους n n β 0 β 1 n β e t e t e t = = = n n n (Y t β 0 β 1 X 1t β X t ) = 0 X 1t (Y t β 0 β 1 X 1t β X t ) = 0 X t (Y t β 0 β 1 X 1t β X t ) = 0 15
Λύνοντας αυτό το σύστημα εξισώσεων, προκύπτουν οι εκτιμητές των συντελεστών της γραμμής παλινδρόμησης του δείγματος β 1 = ( β = ( x 1 y)( ( x y)( ( x ) ( x 1 )( x ) ( x 1) ( x 1 )( x ) ( β 0 = Y t β 1 X 1t β X t x y)( x 1 x ) x 1 x ) x 1 y)( x 1 x ) x 1 x ) όπου y = Υ t Y t, x 1 = X 1t X 1t, x = X t X t 16
Oι εκτιμητές των συντελεστών της γραμμής παλινδρόμησης του δείγματος για k μεταβλητές δίνονται από την σχέση: β j = Δ j Δ όπου Δ = x 1 x 1 x x 1 x k x 1 x x x x k x 1 x k x x k x k και Δ j η ορίζουσα που προκύπτει από την Δ, όταν η στήλη που αντιστοιχεί στο συντελεστή β j αντικατασταθεί με τα αθροίσματα x j y, π.χ. για j = 1 17
x 1 y x 1 x x 1 x k Δ 1 = x y x x x k x k y x x k x k και β 0 = Y β 1 Χ 1 β k Χ k 18
Θεώρημα των GAUSS-MARKOV Δεδομένου ότι ισχύουν οι υποθέσεις του πολλαπλού γραμμικού υποδείγματος της παλινδρόμησης, οι εκτιμητές β 0, β 1,, β k που προκύπτουν από την μέθοδο ελαχίστων τετραγώνων είναι οι καλύτεροι γραμμικοί αμερόληπτοι εκτιμητές. ο τυπικό σφάλμα του εκτιμητή β (standard error of the estimate) ή το τυπικό σφάλμα της παλινδρόμησης ισούται με την εκτίμηση της τετραγωνικής ρίζας της διακύμανσης του διαταρακτικού όρου: s e = u u k 19
Διακυμάνσεις εκτιμητών Οι γραμμικοί αμερόληπτοι εκτιμητές των διακυμάνσεων συνδιακυμάνσεων των εκτιμώμενων συντελεστών του υποδείγματος είναι: s β = s e (Χ Χ) 1 Π.χ. Στην περίπτωση Κ= ανεξάρτητων τυχαίων μεταβλητών: s x β = s 1 e Δ s x 1 β = s e Δ s e = u t 3 όπου Δ = x 1 x 1 x x 1 x x 0
Διάστημα εμπιστοσύνης των συντελεστών του πολλαπλού γραμμικού υποδείγματος Όπως και στο απλό γραμμικό υπόδειγμα, έτσι και στο πολλαπλό υπόδειγμα μπορούμε να κατασκευάσουμε διαστήματα εμπιστοσύνης για τους συντελεστές (παραμέτρους) του πληθυσμού με βάση τις ιδιότητες των εκτιμητών ελαχίστων τετραγώνων: β j t a k+1, s β j < β j < β j + t a k+1, s β j, j = 0,,.., k + 1 s β j το τυπικό σφάλμα του εκτιμητή β j t a k+1, η κριτική τιμή (τιμή των πινάκων) από κατανομή student με k + 1 βαθμούς ελευθερίας a το επίπεδο σημαντικότητας k το πλήθος των ανεξάρτητων μεταβλητών 1
Έλεγχος υποθέσεως για τους συντελεστές του πολλαπλού γραμμικού υποδείγματος Η 0 :β j = 0 Η 1 :β j 0 Στατιστικό ελέγχου t = β j s β j t a k+1, η κριτική τιμή (τιμή των πινάκων) από κατανομή student με k + 1 βαθμούς ελευθερίας a το επίπεδο σημαντικότητας k το πλήθος των ανεξάρτητων μεταβλητών Αν t > t k+1, a, η Η 0 απορρίπτεται.
Έλεγχος στατιστικής σημαντικότητας του υποδείγματος της πολλαπλής γραμμικής παλινδρόμησης Ο έλεγχος της στατιστικής σημαντικότητας του υποδείγματος της πολλαπλής παλινδρόμησης του πληθυσμού αποτελεί ένα από τα κυριότερα στάδια στη μεθοδολογία της οικονομετρίας. Έστω ότι έχουμε το παρακάτω υπόδειγμα της πολλαπλής παλινδρόμησης του πληθυσμού: Y t = β 0 + β 1 Χ 1t + β Χ t + + β k Χ kt + e t Η υπόθεση που θέλουμε να ελέγξουμε είναι αν οι συντελεστές του παραπάνω υποδείγματος είναι ίσοι με μηδέν, δηλαδή Η 0 : β 1 = β = = β k = 0 Η 1 : ένας τουλάχιστον συντελεστής είναι διάφορος του μηδενός 3
Στην υπόθεση που εξετάζουμε δεν περιλαμβάνεται ο σταθερός όρος β 0, καθώς θέλουμε να ελέγξουμε είναι αν οι ανεξάρτητες μεταβλητές του υποδείγματος μπορούν να ερμηνεύσουν την εξαρτημένη μεταβλητή Υ. Ο έλεγχος της Η 0 γίνεται με την στατιστική F (F-statistics): F = ( Y Y) k (Y t Y) (k + 1) = SSR k SSE (k + 1) F k, k+1,a : μέγεθος του δείγματος k: πλήθος ανεξάρτητων μεταβλητών SSR : ερμηνευτικό μέρος συνολικής μεταβλητότητας της Υ από την παλινδρόμηση SSΕ: ανερμήνευτο μέρος συνολικής μεταβλητότητας της Υ F k, k+1,a : κριτική τιμή κατανομής F (από πίνακα) 4
Αν F > F k, k+1,a, τότε η Η 0 απορρίπτεται. Για δεδομένο επίπεδο σημαντικότητας α (συνήθως α = 0. 05), αν η τιμή της F είναι μεγαλύτερη από την κριτική τιμή F k, k+1,a, τότε η τιμή της F είναι υψηλή, καθώς το SSR = ( Y Y) είναι μεγάλο σε σχέση με το άθροισμα των τετραγώνων των καταλοίπων SSΕ = (Y t Y). Αν F < F k, k+1,a, τότε η Η 0 δεν απορρίπτεται. Δηλαδή οι ανεξάρτητες μεταβλητές δεν ερμηνεύουν επαρκώς τη μεταβολή της εξαρτημένης μεταβλητής στο υπόδειγμα πολλαπλής γραμμικής παλινδρόμησης. Στην περίπτωση αυτή, το SSR είναι μικρό σε σχέση με το άθροισμα των τετραγώνων των καταλοίπων SSΕ, και η τιμή της F είναι χαμηλή. 5
Σε ορισμένα υποδείγματα πολλαπλής γραμμικής παλινδρόμησης, παρατηρούμε ότι ενώ οι συντελεστές είναι στατιστικά σημαντικοί (διάφοροι του μηδενός), η τιμή της στατιστικής F είναι πολύ χαμηλή, το οποίο σημαίνει ότι στο σύνολο τους οι συντελεστές του υποδείγματος είναι μη στατιστικά σημαντικοί. Η ύπαρξη αυτού του φαινομένου οφείλεται στο πρόβλημα της πολυσυγγραμικότητας (multicollinearity). 6
Παράδειγμα Θέλουμε να εξετάσουμε αν η εξαρτημένη μεταβλητή Υ σχετίζεται γραμμικά με τις ανεξάρτητες μεταβλητές Χ 1 : λόγος των τιμών των εισαγόμενων καταναλωτικών τιμών προς τις εγχώριες τιμές (σχετικές τιμές) και Χ : διαθέσιμο εισόδημα, για την περίοδο 1958-1973. Να εκτιμηθεί η γραμμή πολλαπλής παλινδρόμησης του δείγματος, οι συντελεστές του υποδείγματος, οι προβλεφθείσες τιμές της Υ ( Υ) και οι προβλεφθείσες τιμές του διαταρακτικού όρου ( u t ), η ελαστικότητα ως προς τις σχετικές τιμές και ως προς το εισόδημα. α στοιχεία του παραδείγματος δίνονται στον παρακάτω πίνακα: 7
Έτος Αξία εισαγωγών καταναλωτικών αγαθών (δισ. Δρχ.) Σχετικές τιμές Διαθέσιμο εισόδημα 1958 5,11 0,940 105,508 1959 4,134 0,967 107,497 1960 4,653 0,904 111,875 1961 5,6 0,896 14,676 196 5,499 0,845 130,118 1963 6,453 0,897 14,140 1964 7,093 0,943 155,338 1965 8,907 0,937 171,456 1966 8,65 0,931 18,40 1967 9,04 0,919 19,895 1968 9,647 0,90 04,164 1969 10,167 0,89 1,908 1970 9,961 1,000 40,471 1971 10,580 1,045 67,849 197 10,658 1,140 89,450 1973 13,139 1,05 318,550 8
Οι βασικοί υπολογισμοί που είναι απαραίτητοι για την εκτίμηση του υποδείγματος είναι οι ακόλουθοι: ΣΥ = 19, 463 ΣΥ = 1151, 018 Σy = 103, 476 ΣΧ 1 = 15, 381 ΣΧ 1 = 14, 91 Σx 1 = 0, 135 ΣΧ = 966, 315 ΣΧ = 617645, 6 Σx = 67706, 579 Υ = 8, 091 ΣΧ 1 Υ = 16, 957 Σx 1 y =, 50 Χ 1 = 0, 961 ΣΧ Υ = 6541, 949 Σx y = 540, 196 Χ = 185, 394 ΣΧ 1 Χ = 97, 634 Σx 1 x = 76, 078 όπου y = Υ t Y t, x 1 = X 1t X 1t, x = X t X t 9
Οπότε: β 1 = ( β = ( x 1 y)( ( x y)( ( x ) ( x 1 )( x ) ( x 1) ( x 1 )( x ) ( x y)( x 1 x ) x 1 x ) = 7, 00 x 1 y)( β 0 = Y t β 1 X 1t β X t = 6, 409 x 1 x ) x 1 x ) = 0, 0453 Η γραμμή παλινδρόμησης του δείγματος είναι: Υ t = 6, 409 7, 00Χ 1t + 0, 0453Χ t 30
Οι προβλεφθείσες τιμές Υ t προκύπτουν από την γραμμή παλινδρόμησης του δείγματος Υ t = 6, 409 7, 00Χ 1t + 0, 0453Χ t, για t = 1,, 16 Για t = 1: Υ 1 = 6, 409 7, 00Χ 11 + 0, 0453Χ 1 = 4, 615 κτλ Οι προβλεφθείσες τιμές του διαταρακτικού όρου u t προκύπτουν από την σχέση u t = Υ t Υ t, για t = 1,, 16 Για t = 1: u 1 = Υ 1 Υ 1 = 0, 506 κτλ 31
Ερμηνεία των μερικών συντελεστών παλινδρόμησης Ο συντελεστής β j στο πολυμεταβλητό γραμμικό υπόδειγμα παριστάνει τη μεταβολή στην προσδοκώμενη τιμή της εξαρτημένης μεταβλητής όταν η ερμηνευτική μεταβλητή Χ j μεταβάλλεται κατά μια μονάδα και οι υπόλοιπες ερμηνευτικές μεταβλητές παραμένουν σταθερές. Δηλαδή, όταν όλες οι υπόλοιπες ερμηνευτικές μεταβλητές είναι σταθερές, εκτιμάμε την επίδραση της μεταβλητής Χ j επί της Υ. Ο μερικός συντελεστής παλινδρομήσεως β j του πολυμεταβλητού γραμμικού υποδείγματος είναι ο συντελεστής της απλής παλινδρόμησης ανάμεσα στην Υ και στην Χ j όταν έχουν αφαιρεθεί οι γραμμικές επιδράσεις όλων των υπολοίπων ερμηνευτικών μεταβλητών επί της Χ j και της Υ. 3
Βιβλιογραφία Χρήστου Κ. Γεώργιος (007) Εισαγωγή στην Οικονομετρία, όμος 1, Εκδότης: Γ. ΔΑΡΔΑΝΟΣ - Κ. ΔΑΡΔΑΝΟΣ Ο.Ε. Stock H. James, Watson W. Mark, επιμέλεια Πραγγίδης Ιωάννης - Χρυσόστομος (017) Εισαγωγή στην Οικονομετρία, Εκδότης: Γ. ΔΑΡΔΑΝΟΣ - Κ. ΔΑΡΔΑΝΟΣ Ο.Ε. Χρήστου Κ. Γεώργιος (006) Εισαγωγή στην Οικονομετρία Ασκήσεις, Εκδόσεις Gutenberg. Δριτσάκη Ν. Χάιδω, Δριτσάκη Ν. Μελίνα (013) Εισαγωγή στην Οικονομετρία με τη Χρήση του Λογισμικού EViews, Κλειδάριθμος ΕΠΕ Εκδόσεις. 33