ΜΑΘΗΜΑ 6ο
Ευαισθησία της γραμμής παλινδρόμησης (Sensitivity of linear regression) Γιατηνευαισθησίατηςγραμμήςπαλινδρόμησης χρησιμοποιούμε την ανάλυση της διακύμανσης ή το στατιστικό F
Έλεγχος βελτίωσης της παλινδρόμησης από την εισαγωγή πρόσθετων ερμηνευτικών μεταβλητών (Testing for regressions improvement of additional independent variables) Το στατιστικό t χρησιμοποιείται για τον έλεγχο της σημαντικότητας ενός μόνο συντελεστή της παλινδρόμησης, ενώ το στατιστικό F ήτοr 2 χρησιμοποιείται για τον έλεγχο της προσαρμογής της παλινδρόμησης στο σύνολό της Πολλές φορές η εισαγωγή μιας επιπλέον ερμηνευτικής μεταβλητής που έχουμε στην παλινδρόμηση ενώ έχει το στατιστικό t σημαντικό δεν μπορούμε να αποφασίσουμε αν η εισαγωγή αυτής της νέας ερμηνευτικής μεταβλητής βελτίωσε σημαντικά την προσαρμογή της παλινδρόμησης
Επειδή η προσαρμογή μιας παλινδρόμησης μετριέται με το R 2 θα λέμε ότι ενδιαφερόμαστε για την βελτίωση του R 2 με την εισαγωγή της πρόσθετης ή των πρόσθετων ερμηνευτικών μεταβλητών Αν χρησιμοποιήσουμε το στατιστικό F για την βελτίωση της μεταβλητότητας από την εισαγωγή των νέων ερμηνευτικών μεταβλητών πρέπει να εργαστούμε ως εξής: Θέλουμε να ελέγξουμε τις ακόλουθες υποθέσεις Ηο : β κ+1 = β κ+2 = 0 (όπου β κ+1, β κ+2 οι νέες ερμηνευτικές μεταβλητές) Ηα : β κ+1 β κ+2 0
1) Τρέχω την Α παλινδρόμηση και παίρνω το άθροισμα τωντετραγώνωντηςαπαλινδρόμησηςrss A ως και τον συντελεστή προσδιορισμού R 2 A 2) Τρέχω την Β παλινδρόμηση (με τις πρόσθετες ερμηνευτικές μεταβλητές) και παίρνω το άθροισμα των τετραγώνων της Β παλινδρόμησης RSS B και τον συντελεστή προσδιορισμού R 2 B ως και το άθροισμα των τετραγώνων των καταλοίπων ESS B 3) Υπολογίζω την ποσότητα
όπου: RSS A = άθροισμα των τετραγώνων της πρώτης παλινδρόμησης RSS Β = άθροισμα των τετραγώνων της δεύτερης παλινδρόμησης (της παλινδρόμησης με τις νέες ερμηνευτικές μεταβλητές) ESS Β = άθροισμα των τετραγώνων των καταλοίπων της δεύτερης παλινδρόμησης k = αριθμός των ερμηνευτικών μεταβλητών της πρώτης παλινδρόμησης q=αριθμός των ερμηνευτικών μεταβλητών της δεύτερης παλινδρόμησης n = μέγεθος του δείγματος Αν η ποσότητα F > F πιν (α, ν 1, ν 2 ) όπου α = επίπεδο σημαντικότητας και ν 1 = q - k και ν 2 = n -q -1 οι βαθμοί ελευθερίας, τότε ισχύει η εναλλακτική υπόθεση, δηλαδή η εισαγωγή πρόσθετων μεταβλητών βελτιώνει την προσαρμογή της συνάρτησης
Παράδειγμα
Ζητείται: 1. Να εκτιμηθεί η συνάρτηση κατανάλωσης καπνού στην Ελλάδα ΚΚ t = b 0 + b 1 TK t + b 2 TR t + u t 2. Να ελεγχθεί σε επίπεδο σημαντικότητας 5% αν η εισαγωγή της πρόσθετης μεταβλητής KE t (δαπάνες για εκπαίδευση) βελτιώνουν την παραπάνω συνάρτηση κατανάλωσης καπνού
Έλεγχος της σταθερότητας των συντελεστών της παλινδρόμησης (πρώτος έλεγχος του Chow) (Testing for stability of the regression coefficients ) (Chow s first test) Σε πολλές περιπτώσεις μας ενδιαφέρει να ελέγξουμε αν η σχέση που υπάρχει μεταξύ της εξαρτημένης μεταβλητής και των αντίστοιχων ερμηνευτικών μεταβλητών διατηρείται σταθερή ανάμεσα σε δύο ή περισσότερες χρονικές περιόδους ή ανάμεσα σε δύο ή περισσότερα διαστρωματικά επίπεδα Με άλλα λόγια θέλουμε να ελέγξουμε αν όλοι οι συντελεστές της παλινδρόμησης σε δύο διαφορετικά δείγματα παρατηρήσεων των ίδιων μεταβλητών είναι ίσοι μεταξύ τους
Αν δηλαδή έχουμε δύο συναρτήσεις Y i = β 0 + β 1 X 1i + β 2 X 2i +...+ β k X ki + u 1i για i = 1,2,3,..n (όπου η = μέγεθος πρώτου δείγματος) και Y j = γ 0 + γ 1 X 1j + γ 2 X 2j +...+ γ k X kj + u 1j για j = 1,2,3,..m (όπου m = μέγεθος δευτέρου δείγματος) τότε ελέγχουμε τις παρακάτω υποθέσεις: Ho: Όλοι οι αντίστοιχοι συντελεστές ίσοι Hα: Όχι όλοι οι αντίστοιχοι συντελεστές ίσοι
Για τον έλεγχο αυτό κάνουμε τα εξής βήματα: 1. Εκτιμούμε την πρώτη συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και υπολογίζουμε το άθροισμα των τετραγώνων των καταλοίπων ΕSS 1, το οποίο έχει ν 1 = η -(κ + 1) βαθμούς ελευθερίας (όπου η το μέγεθος του δείγματος της πρώτης περιόδου ή περιοχής) 2. Εκτιμούμε τη δεύτερη συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και υπολογίζουμε το άθροισμα των τετραγώνων των καταλοίπων ESS 2, το όποίο έχει ν 2 =m-(k+1) βαθμούς ελευθερίας (όπου m το μέγεθος του δείγματος της δεύτερης περιόδου ή περιοχής) 3. Εκτιμούμε μια τρίτη συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και για τα δύο δείγματα μαζί ως ένα δείγμα και υπολογίζουμε το άθροισμα των τετραγώνων των καταλοίπων ESS 0, το οποίο έχει ν = (n + m) - (k + 1) βαθμούς ελευθερίας
4. Υπολογίζουμε το άθροισμα των τετραγώνων των καταλοίπων από τις δύο πρώτες συναρτήσεις ESS 1 + ESS 2 το οποίο έχει [n-(k+1)]+[m-(k+1)]=n+m 2(k+1) β.ε 5. Αφαιρούμε το άθροισμα των τετραγώνων των καταλοίπων του προηγουμένου βήματος από το άθροισμα των τετραγώνων των καταλοίπων της τρίτης συνάρτησης ESS 0 -(ESS 1 + ESS 2 ) το οποίο έχει [n+m-(k+1)]-[n+m 2(k+1)]=k+1 β.ε
6. Υπολογίζουμε την ποσότητα: η οποία ακολουθεί την F κατανομή με ν 1 = ( k + 1) και ν 2 = [n + m 2 (k + 1)] β.ε αντίστοιχα 7. Βρίσκουμε το κρίσιμο πεδίο ως εξής: Aν > F πιν (α, ν 1, ν 2 ) όπου: [ν 1 = k + 1, ν 2 = n+m 2(k+1)οι β.ε και α το επίπεδο σημαντικότητας], τότε ισχύει η υπόθεση Ηα
ΕΤΟΣ t ΕΙΣΑΓΩΓΕΣ* M ΕΙΣΟΔΗΜΑ* Y ΙΣΟΤΙΜΙΑ ΝΟΜΙΣΜΑΤΟΣ PM 1972 70.4 336.7 14.8 1973 103.0 361.5 16.1 1974 132.1 345.4 19.2 1975 172.0 364.8 27.9 1976 223.2 388.8 33.3 1977 252.2 402.9 37.0 1978 287.7 428.7 38.8 1979 356.8 444.1 43.1 1980 452.9 451.3 51.6 1981 493.8 449.2 69.6 1982 665.9 447.1 80.2 1983 848.3 443.4 100.0 1984 1083.9 452.1 115.7 1985 1412.8 462.4 144.0 1986 1582.3 466.7 168.9 1987 1867.4 463.7 187.8 1988 1757.0 484.8 183.5 1989 2625.7 500.4 225.6 1990 3053.7 502.4 252.4 1991 3761.2 511.7 275.0 Πηγή: ΕΣΥΕ, Εθνικοί Λογαριασμοί
Ζητείται: 1. Να εκτιμηθεί η συνάρτηση: M t = b 0 Y t b1 PM t b2 e ut 2. Να ελεγχθεί σε επίπεδο σημαντικότητας 5% αν οι εισαγωγές επηρεάζονται το ίδιο από το εισόδημα και την ισοτιμία του νομίσματος μεταξύ των χρονικών περιόδων 1972-1981 και 1982-1991
Έλεγχος της προβλεπτικής αποτυχίας της παλινδρόμησης (δεύτερος έλεγχος του Chow) (Testing for adequacy of predictions) (predictive failure of the linear regression) (Chow s second test) Σε πολλές περιπτώσεις έχουμε αύξηση των στοιχείων του δείγματος που ερευνούμε που γίνεται αιτία να αλλάξουν οι αρχικές μας εκτιμήσεις Τότε λέμε ότι η συνάρτηση είναι ευαίσθητη όταν αυξάνει το δείγμα Η ευαισθησία αυτή της αύξησης του δείγματος ελέγχεται με τη σταθερότητα όλων των συντελεστών της παλινδρόμησης, δηλαδή θέλουμε να ελέγξουμε αν όλοι οι συντελεστές της παλινδρόμησης που παίρνουμε από την αύξηση του μεγέθους ενός δείγματος παραμένουν ίσοι με την αύξηση αυτή
Έστω ότι έχουμε τις συναρτήσεις Y i = β 0 + β 1 X 1i + β 2 X 2i +...+ β k X ki + u 1i για ι = 1,2,3,...η (όπου η = μέγεθος αρχικού δείγματος) και Y j = γ 0 + γ 1 X 1j + γ 2 X 2j +...γ k X kj + u 1j για j = 1,2,3,...n, n+1,...m (όπου m = μέγεθος διευρυμένου δείγματος) και m>n τότε ελέγχουμε τις παρακάτω υποθέσεις: Ho: Συντελεστές σταθεροί Hα: Συντελεστές μη σταθεροί
Για τον έλεγχο αυτό κάνουμε τα εξής βήματα: 1. Εκτιμούμε την αρχική συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και υπολογίζουμε το άθροισμα τωντετραγώνωντωνκαταλοίπωνess 1, το οποίο έχει βαθμούς ελευθερίας ν 1 = η -(κ + 1) 2. Εκτιμούμε τη συνολική συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και υπολογίζουμε το άθροισμα τωντετραγώνωντωνκαταλοίπωνess 2, το οποίο έχει βαθμούς ελευθερίας ν 2 = m - (κ + 1)
3) Από το άθροισμα των τετραγώνων των καταλοίπων της συνολικής παλινδρόμησης αφαιρούμε το άθροισμα των τετραγώνων των καταλοίπων της αρχικής παλινδρόμησης το οποίο έχει ESS 2 -ESS 1 ν = [m - (κ + 1)] - [n - (κ + 1)] = m - n οι β.ε
Υπολογίζουμε την ποσότητα: η οποία ακολουθεί την F κατανομή με ν 1 = m - n και ν 2 = [η -(κ + 1)] β.ε αντίστοιχα 5. Αν F>F πιν (α, ν 1, ν 2 ) όπου: [ v 1 = m - n, v 2 = n - ( κ +1) β.ε καια επίπεδο σημαντικότητας ] τότε ισχύει η υπόθεση Ηα
Παράδειγμα
Ζητείται: 1) Να εκτιμηθεί η συνάρτηση: AT t = b 0 BTT t b1 DT t b2 e ut 2) Να ελεγχθεί σε επίπεδο σημαντικότητας 5% αν οι συντελεστές παλινδρόμησης παραμένουν σταθεροί όταν το χρονικό διάστημα αυξάνεται από την περίοδο 1960-1985 στην περίοδο 1960-1989
Έλεγχος της ισχύος περιορισμών στους συντελεστές της παλινδρόμησης (έλεγχος του Tintner) (Testing for the power of the regression coefficients restrictions) (Tintner s test) Με τον έλεγχο του Tintner ελέγχουμε την ύπαρξη περιορισμών στους συντελεστές της παλινδρόμησης Έστω η συνάρτηση: Y i = β 0 + β 1 X 1i + β 2 X 2i +...β k X ki + u 1i και θέλουμε να ελέγξουμε αν ισχύουν οι εξής r περιορισμοί:
w 10 β 0 + w 11 β 1 + w 12 β 2 +...+ w 1k β k = d 1 w 20 β 0 + w 21 β 1 + w 22 β 2 +...+ w 2k β k = d 2 -------------------------------------------------------- -------------------------------------------------------- w r0 β 0 + w r1 β 1 + w r2 β 2 +...+ w rk β k = d r Στην περίπτωση αυτή οι υποθέσεις είναι: Hο : Ισχύουν όλοι οι περιορισμοί Ηα: Δεν ισχύουν όλοι οι περιορισμοί
Για τον έλεγχο των υποθέσεων αυτών ακολουθούμε τα παρακάτω βήματα: 1. Εκτιμούμε την αρχική συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και υπολογίζουμε το άθροισμα των τετραγώνων των καταλοίπων ESS 1 με v 1 = η -(κ +1) β.ε Εκτιμούμε την περιορισμένη ως προς τους περιορισμούς συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων Η συνάρτηση αυτή βρίσκεται αν αντικαταστήσουμε τους περιορισμούς στην αρχική συνάρτηση
Αν υπάρχουν r περιορισμοί τότε η συνάρτηση θα έχει κ + 1 - r συντελεστές παλινδρόμησης Υπολογίζουμε το άθροισμα των τετραγώνων των καταλοίπων της περιορισμένης συνάρτησης ESS 2 με v 2 = η -(κ + 1 - r) β.ε Από το άθροισμα των τετραγώνων των καταλοίπων της περιορισμένης παλινδρόμησης αφαιρούμε το άθροισμα των τετραγώνων των καταλοίπων της αρχικής παλινδρόμησης ESS 2 -ESS 1 το οποίο έχει v = [η -(κ +1 - r)] - [n - (κ + 1)] = r β.ε
Υπολογίζουμε την ποσότητα: η οποία ακολουθεί την F κατανομή με ν 1 = m - n και ν 2 = [η -(κ + 1)] β.ε αντίστοιχα 5. Αν F>F πιν (α, ν 1, ν 2 ) όπου: [ v 1 = m - n, v 2 = n - ( κ +1) β.ε καια επίπεδο σημαντικότητας ] τότε ισχύει η υπόθεση Ηα
Διάστημα πρόβλεψης Από την εξίσωση της παλινδρόμησης μπορούμε να βρούμε διαστήματα εμπιστοσύνης για μια τιμή της εξαρτημένης μεταβλητής ή για το μέσο της για μια δεδομένη τιμή της ερμηνευτικής μεταβλητής Για συντελεστή εμπιστοσύνης 1 - ατοδιάστημαπρόβλεψης της εξαρτημένης μεταβλητής δίνεται από τη σχέση: ενώ το διάστημα εμπιστοσύνης για το μέσο είναι:
όπου: είναι η αμερόληπτη εκτίμηση της διακύμανσης του σφάλματος πρόβλεψης και είναι η αμερόληπτη εκτίμηση της διακύμανσης της
Παράδειγμα
Ζητείται: Να εκτιμηθεί η συνάρτηση κατανάλωσης καπνού KK t = b 0 + b 1 TK t + b 2 TP t + b 3 NNI t + b 4 KE t + u t και να ελεγχθεί σε επίπεδο σημαντικότητας 5%, αν στη συνάρτηση αυτή ισχύουν οι εξής περιορισμοί: Περιορισμός 1: b 1 + b 2 = 0 Περιορισμός 2: b 4 + 100 b 3 = 0