ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΕΝΔΥΣΕΙΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗ ΑΝΑΠΤΥΞΗ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 6: ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ - ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι) Δρ. Μαρί-Νοέλ Ντυκέν, Καθηγήτρια, mdyken@prd.uth.gr Τηλ. 24210-74438 Γραφείο Γ.6 1
Περιεχόμενο διάλεξης 1. Πολλαπλή γραμμική παλινδρόμηση 2. Έλεγχος παραβίασης των υποθέσεων της γραμμικής παλινδρόμησης 3. Παράλληλη εφαρμογή του υποδείγματος. 2
1. Πολλαπλή γραμμική παλινδρόμηση 3
A. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Μαθηματική μορφή [1] Y i = b 0 + b 1 X i1 + b 2 X i2 + +b j X ij + +b k X ik + ε i i= 1,,n j= 1,., k n = αριθμός παρατηρήσεων, k = αριθμός ερμηνευτικών μεταβλητών b j = Ξεχωριστή επίδραση των ανεξαρτήτων μεταβλητών όταν οι άλλες είναι σταθερές (ceteris paribus) b j = dy /d X j Υπό μορφή Μήτρων [2] Y = Χ.b + ε Y = Διάνυσμα στήλης (n,1) X = Μήτρα (n,k) b = Διάνυσμα στήλης (n,1) ε = Διάνυσμα στήλης (n,1) 4
A. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Γραμμικότητα Από τις σχέσεις [1] και [2], προκύπτει ότι, η εξαρτημένη μεταβλητή είναι γραμμική συνάρτηση των ανεξαρτήτων μεταβλητών. Διαταρακτικός όρος Ο μέσος του διαταρακτικού όρου = 0 Η διακύμανση του διαταρακτικού όρου = σ 2, σταθερή Η συνδιακύμανση των διαδοχικών τιμών του διαταρακτικού όρου = 0 V[ε i ]=σ 2, Δεν υπάρχει Ετεροσκεδαστικότητα COV[ε i,ε j ] = 0, Δεν υπάρχει Αυτοσυσχέτιση(*) Κατά συνέπεια: ε i Ν(0,σ 2 ) Η ετεροσκεδατικότητα αποτελεί συχνό φαινόμενο όπως και η αυτοσυσχετίση η οποία εμφανίζεται σχεδόν συστηματικά με χρονολογικές σειρές 5
A. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Ερμηνευτικές μεταβλητές Οι ερμηνευτικές μεταβλητές (η μήτρα Χ) δεν είναι στοχαστικές δηλαδή οι τιμές της κάθε μιας μεταβλητής παραμένουν σταθερές (άλλα όχι ίσες μεταξύ τους) σε επαναλαμβανόμενα δείγματα. Αυτό σημαίνει ότι, αν έχουμε διάφορα δείγματα (ίδιο μέγεθος = n) για την εξαρτημένη Y και τη μήτρα Χ, θεωρούμε οι τιμές της μήτρας δεν μεταβάλλονται από δείγμα σε δείγμα. Δεν υπάρχει ακριβής γραμμική σχέση ανάμεσα στις k ανεξάρτητες μεταβλητές X j. Πρόκειται για μια από τις σοβαρότατες υποθέσεις της παλινδρόμησης. Η υπόθεση αυτή αναφέρεται ως απουσία πλήρους πολυσυγγραμμικότητας (multicollinearity) η οποία θα πρέπει να ελεγχθεί συστηματικά (TOL, VIF). 6
A. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Συντελεστής Πολλαπλού Προσδιορισμού: R 2 Ο συντελεστής R 2 2 ei = 1 å - = 1 - SST SSR SST = SSE SST επηρεάζεται από τον αριθμό παρατηρήσεων όπως και από τον αριθμό ερμηνευτικών μεταβλητών. Προσαρμοσμένος Συντελεστής Προσδιορισμού: R* 2 R 2* = 1- SSR SST n n - - k 1 2 sˆ = 1 - e sˆ 2 Y Όπου: 2 sˆ e = διακύμανση του διαταρακτικού όρου 2 sˆy = διακύμανση της εξαρτημένης μεταβλητής R 2* é n -1 2 ù = 1- ê (1 - R ) ën - k ú û SSE = Explained Sum of Squares (παλινδρόμηση) SSR = Residual Sum of Squares (κατάλοιπα) 7
A. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Έλεγχος του Fisher Ο έλεγχος του Fisher εφαρμόζεται όπως και στην απλή παλινδρόμηση. Συμβάλλει στην αξιολόγηση της σημαντικότητας του υποδείγματος στο σύνολό του. Τι μπορεί να υποδηλώνει ο έλεγχος του Fisher Σε ορισμένες περιπτώσεις, ο έλεγχος του Fisher μας οδηγεί στην απόρριψη της υπόθεσης Ηο: b 1 = b 2 = = b k = 0 (δηλαδή υπάρχει τουλάχιστον ένας συντελεστής διαφορετικός από το 0). Όμως ταυτόχρονα, ο σημειακός έλεγχος του student μπορεί να μας οδηγεί στο συμπέρασμα ότι, κανένας συντελεστής της παλινδρόμησης δεν είναι στατιστικά σημαντικός??? Γιατί αυτό το «παράλογο» - κατά πρώτη όψη - αποτέλεσμα; 8
A. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Το παράλογο κατά πρώτη όψη αποτέλεσμα δεν είναι τόσο παράλογο! Η σχετικά υψηλή τιμή του Fisher (Ισχύει Η 1 ), ενώ παράλληλα όλα (ή τα περισσότερα) t-student είναι μη στατιστικά σημαντικά, μπορεί να συμβείόταν υπάρχει συνδυασμένη επίδραση των ανεξαρτήτων μεταβλητών, δηλαδή όταν συσχετίζονται σε σημαντικό βαθμό μεταξύ τους. Συνδυασμένη επίδραση Συσχέτιση μεταξύ των Χ j X j = F(X 1,, X l, X k ) l k R j2 0 με υψηλή τιμή è υψηλή διακύμανση των συντελεστών 2 2 σ ε σ j V( bˆ j ) = 2 ΤSS (1 - R ) = Υψηλή όπως και το τυπικό σφάλμα σ j του συντελεστή b j j j Η τιμή της t-στατιστικής είναι μικρή: t = è Μη Ξεχνάμε ότι, υψηλό τυπικό σφάλμα σημαίνει και μεγάλο Δ.Ε. για το συντελεστή 9
ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΆΓΟΝΤΕΣ ΕΡΜΗΝΕΊΑΣ ΤΗΣ ΑΝΆΠΤΥΞΗΣ ΤΩΝ ΔΉΜΩΝ ΤΗΣ ΒΟΡΕΊΑΣ ΕΛΛΆΔΑΣ Σε μικρή κλίμακα (Δήμοι Δημοτικές Ενότητες) δεν μπορούμε να εξετάσουμε την ανάπτυξη με τη χρήση του κλασσικού δείκτη ΑΕΠκκ δεδομένου ότι, δεν υπάρχει μέτρηση του ΑΕΠ σε τέτοια κλίμακα. Κατά συνέπεια, αντί το ποσοστό ανάπτυξης του ΑΕΠκκ, επιλέξαμε το ποσοστό ανάπτυξης του μόνιμου πληθυσμού μεταξύ των δύο τελευταίων απογραφών. Βασική παραδοχή: η πληθυσμιακή ανάπτυξη μιας περιοχής (GROWTH) αντανακλά την ελκυστικότητα της (ο πληθυσμός όχι μόνο παραμένει στην περιοχή αλλά υπάρχουν καθαρές εισροές στην περιοχή: μεταναστευτικό ισοζύγιο). GROWTH i =a 0 +a 1.NEIGHGRW i +a 2. MOUNTAIN + a 3. DENSITY i +a 4. CONTIG i + a 5. COMMUT i + a 6. HIGHEDUC i + a 7. REPLACE i + ε i = 1,, 200 k = 7 ερμηνευτικές μεταβλητές β.ε. = 200 (7+1) = 192 ε i είναι η τυχαία μεταβλητή που περιλαμβάνει όλες τις υπόλοιπες μεταβλητές που θεωρητικά μπορούν να επηρεάζουν την ανάπτυξη της κάθε περιοχής. Τα δεδομένα βρίσκονται στο αρχείο: DATA_6.sav 10
ΠΑΡΑΔΕΙΓΜΑ: ΠΑΡΆΓΟΝΤΕΣ ΕΡΜΗΝΕΊΑΣ ΤΗΣ ΑΝΆΠΤΥΞΗΣ ΤΩΝ ΔΉΜΩΝ ΤΗΣ ΒΟΡΕΊΑΣ ΕΛΛΆΔΑΣ Η επιλογή των 7 ερμηνευτικών μεταβλητών βασιστήκαν στην «προσέγγιση της Γειτνίασης» [French proximity school]. Μεταβλητές NEIGHGROW MOUNTAIN DENSITY CONTIG COMMUT HIGHEDUC REPLACE Περιγραφή % ανάπτυξης (πληθυσμιακή) των γειτονικών δήμων % έκτασης του δήμου που χαρακτηρίζεται ως ορεινή (δύσβατη πρόσβαση γεωγραφική απομόνωση) Πυκνότητα πληθυσμού (άμεση εσωτερική γειτνίαση μεταξύ των κάτοικων) Βαθμός γειτνίασης με τον κύριο αστικό κέντρο της περιοχής (έδρα Νομού) Ένταση των μετακινήσεων στο πλαίσιο της εργασίας (commuting s intensity): αριθμός απασχολουμένων που εργάζονται στο δήμο όμως διαμένουν σε άλλο δήμο για 100 απασχολούμενοι που διαμένουν και εργάζονται στο ίδιο δήμο. % ατόμων 20 χρόνων και άνω με ανώτατο επίπεδο εκπαίδευσης Δείκτης δυνητικής αντικατάστασης του πληθυσμού : αριθμός νέου πληθυσμού 0-14 ετών για 100 ατόμων ηλικίας 65 ετών και άνω 11
2. Εφαρμογή της πολλαπλής παλινδρόμησης Πρώτα αποτελέσματα 12
ΠΑΡΑΔΕΙΓΜΑ ΜΕ ΤΟΥΣ 200 ΔΗΜΟΥΣ Analyze, Regression, Linear Εξαρτημένη μεταβλητή 7 ερμηνευτικές μεταβλητές Σε ποιο βαθμό είναι ανεξάρτητες μεταξύ τους; 13
ΠΑΡΑΔΕΙΓΜΑ ΜΕ ΤΟΥΣ 200 ΔΗΜΟΥΣ Analyze, Regression, Linear, Statistics Πίνακας συσχέτισης μεταξύ των ερμηνευτικών μεταβλητών Διάγνωση της πολυσυγγραμμικότητας: υπάρχει παραβίαση της υπόθεσης της ανεξαρτησίας μεταξύ των ερμηνευτικών μεταβλητών; Δύο βασικοί δείκτες διάγνωσης: TOL & VIF 14
ΠΑΡΑΔΕΙΓΜΑ ΜΕ ΤΟΥΣ 200 ΔΗΜΟΥΣ Analyze, Regression, Linear, Plots Παραγωγή διαγράμματος με: τα τυποποιημένα κατάλοιπα [ZRESID] με βάση τις τιμές των εκτιμωμένων τιμών της εξαρτημένης μεταβλητής (τυποποιημένη) [ZPRED] Ανάλυση της κατανομής των κατάλοιπων: ακολουθούν κανονική κατανομή; Διάγνωση της ετεροσκεδαστικότητας: Παραβίαση ή όχι της υπόθεσης που απαιτεί σταθερή διακύμανση των κατάλοιπών 15
ΠΡΩΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Σημαντική διακύμανση των μεταβλητών: υψηλό CV (απαραίτητη προϋπόθεση) Οι απλοί συντελεστές συσχέτισης είναι στατιστικά σημαντικοί: ένδειξη προβλήματος πολυσυγγραμμικότητας 16
ΠΡΩΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Δεν τίθεται πρόβλημα με τους βαθμούς ελευθερίας και το υπόδειγμα εξηγεί ικανοποιητικό ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής (56%). Μήπως η ενσωμάτωση άλλων ερμηνευτικών μεταβλητών θα επέτρεψε καλύτερο αποτέλεσμα; 17
ΠΡΩΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Οι περισσότεροι συντελεστές παρουσιάζουν πολύ καλό επίπεδο σημαντικότητας. Το πρόσημο κάθε ερμηνευτικής μεταβλητής είναι απόλυτα λογικό με εξαίρεση την μεταβλητή Πυκνότητα! Μήπως ο αρνητικός συντελεστής για την πυκνότητα σημαίνει κάτι ουσιαστικό το οποίο εκ των προτέρων δεν περιμέναμε; 18
2. Έλεγχος παραβίασης των υποθέσεων της γραμμικής παλινδρόμησης: Πολυσυγγραμμικότητα 19
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ Πλήρη συσχέτιση Καμία συσχέτιση Μερική συσχέτιση r X 2 1 X = 1 Πλήρης ή τελεία πολυσυγγραμμικότητα. Οι συντελεστές δεν μπορούν να εκτιμηθούν. Η μήτρα [Χ Χ] -1 δεν υπάρχει. rx 1 X 2 = 0 2 2 2 R = R + R Y, X1X 2 Y, X1 Y, X 2 Κανένα πρόβλημα πολυσυγγραμμικότητας. Οι συντελεστές μπορούν να εκτιμηθούν. rx 1 X 2 ¹ 0 kai rx 1X 2 ¹ 1 Μερική η ατελής πολυσυγγραμμικότητα. Οι συντελεστές μπορούν να εκτιμηθούν. Πρέπει όμως να ελέγξουμε σε ποιο βαθμό το πρόβλημα της πολυσυγραμμικότητας είναι σοβαρό ή όχι. Σε ποιο βαθμό οι εκτιμήσεις των συντελεστών εκφράζουν καλά την καθαρή επιρροή των ερμηνευτικών μεταβλητών; 20
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ Πλήρη τελεία Πολυσυγγραμμικότητα Όταν υπάρχει τέλεια γραμμική σχέση. Υποθέστε ότι έχουμε το ακόλουθο μοντέλο: Y=β 1 +β 2 X 2 + β 3 X 3 +e Όπου οι τιμές του δείγματος για τα X 2 και X 3 είναι: X 2 1 2 3 4 5 6 X 3 2 4 6 8 10 12 Παρατηρούμε ότι X 3 =2X 2 Πηγή: Dimitrios Asteriou and Stephen G. Hall (2011), Applied Econometrics, Eds Palgrave Macmillan, 21
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ Ατελής Πολυσυγγραμμικότητα Η ατελής πολυσυγγραμμικότητα (ή σχεδόν πολυσυγγραμμικότητα) υπάρχει όταν οι ερμηνευτικές μεταβλητές σε μια εξίσωση συσχετίζονται, αλλά αυτή η συσχέτιση είναι λιγότερο από τέλεια. Αυτό εκφράζεται ως εξής: X 3 =X 2 +v Όπου v μια τυχαία μεταβλητή, η οποία μπορεί να παρατηρηθεί ως ένα «λάθος» στην ακριβή γραμμική σχέση. 22
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 1. Όσο πιο στενή είναι η συσχέτιση, τόσο έχουμε: ü ΥψηλόR 2 èυψηλή τιμή της F-στατιστικής. ü Μεγάλα τυπικά σφάλματα. è Επιρροή στο διάστημα εμπιστοσύνης των συντελεστών παλινδρόμησης. ü Κακή επιρροή στην t-στατιστική που είναι μικρότερη από την τιμή που θα υπολογίζαμε εάν δεν υπήρχε συσχέτιση ανάμεσα στις ανεξάρτητες μεταβλητές. è ο στατιστικός έλεγχος των ατομικών συντελεστών δεν είναι ακριβής 2. Δεν μπορούμε να διαχωρίσουμε την επίδραση κάθε ανεξάρτητης μεταβλητής ξεχωριστά. ü Ορισμένοι συντελεστές είναι μη στατιστικά σημαντικοί: οι ανεξάρτητες μεταβλητές σε ατομική βάση δεν ερμηνεύουν σημαντικά την μεταβλητότητα της εξαρτημένης μεταβλητής Η πολυσυγγραμμικότητα μπορεί να επηρεάσει τις τιμές των συντελεστών και τα πρόσημά τους! Η πολυσυγγραμμικότητα μπορεί να συντελέσει έμμεσα σε λανθασμένη εξειδίκευση του υποδείγματος (Μήπως το υπόδειγμα δεν είναι γραμμικό;). 23
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 1 ος απλός τρόπος (ένδειξη) ü R 2 και F: υψηλές τιμές ενώ ταυτόχρονα, ü οι περισσότεροι ατομικοί συντελεστές δεν είναι στατιστικά σημαντικοί (μικρή τιμή της t-στατιστικής). è Η κατάσταση αυτή υποδηλώνει με βεβαιότητα την ύπαρξη πολυσυγγραμμικότητας στο υπόδειγμα. 24
ΕΛΕΓΧΟΣ ΠΑΡΑΒΙΑΣΗΣ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΠΟΛΥΣΘΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 1 ος απλός τρόπος (ένδειξη) ü R 2 όχι ιδιαίτερα υψηλό (56%) ταυτόχρονα, ü οι περισσότεροι ατομικοί συντελεστές είναι στατιστικά σημαντικοί (τιμή της t-στατιστικής > 2 & επομένως p-value < 0,05). è Η πολυσυγγραμμικότητα αν υπάρχει δεν είναι «καταστροφική. 25
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 2 ος τρόπος (τελική επιβεβαίωση) Tolerance factor = TOL = - j 2 1 R j % της διακύμανσης της ερμηνευτικής Χ j που ΔΕΝ ερμηνεύεται από τις άλλες ερμηνευτικές μεταβλητές. όπου R j2 = συντελεστής πολλαπλού προσδιορισμού της παλινδρόμησης που αφορά τη μεταβλητή Χ j σε σχέση με όλες τις υπόλοιπες ανεξάρτητες μεταβλητές, δηλαδή: Χ j = b 0 + b 1 X 1 + +b j-1 X j-1 + b j+1 X j+1 + +a k X k + ε j Αν η μεταβλητή Χj δεν συσχετίζεται με τις άλλες ανεξάρτητες μεταβλητές R j2 = 0, τότε : TOL j = 1 Αντίθετα, η συσχέτιση είναι τόσο έντονη, όσο ο TOL j τείνει προς το 0. Όταν TOL j < 0,5 (<50%): πάνω από 50% της μεταβλητότητας της μεταβλητής Χj εξηγείται από τις άλλες ανεξάρτητες μεταβλητές του μοντέλου, è ιδιαίτερα έντονο πρόβλημα 26
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 2 ος τρόπος (τελική επιβεβαίωση) Variance Inflation Factor = VIF j 1 = 1- R = 2 j 1 TOL j Όταν η μεταβλητή Χ j συσχετίζεται έντονα με τις άλλες μεταβλητές, τότε το R j2 τείνει προς το 1 και επομένως ο VIF j τει νει προς το. Μεγάλες τιμές του VIF j αναδεικνύουν έντονο πρόβλημα πολυσυγγραμμικότητας. Στην περίπτωση όπου η μεταβλητότητα της Χ j εξηγείται τουλάχιστον κατά 50% από τις άλλες ανεξάρτητες μεταβλητές (TOL j > 0,5), τότε VIF j > 2, με αποτέλεσμα η διακύμανση του συντελεστή να είναι μεγάλη. è Τόσο μεγαλύτερος είναι ο δείκτης VIF j, όσο μεγαλύτερη είναι η διακύμανση του συντελεστή, γεγονός που δεν είναι συμβατό με τις βασικές υποθέσεις της ΜΕΤ. 27
ΕΛΕΓΧΟΣ ΠΑΡΑΒΙΑΣΗΣ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΠΟΛΥΣΘΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 2 ος τρόπος (τελική επιβεβαίωση) ü Όλοι οι δείκτες TOL > 0,500 και επομέμως όλοι οι VIF < 2. è Στην «χειρότερη» περίπτωση (COMMUT), το 60% της μεταβλητής ΔΕΝ συσχετίζεται με τις υπόλοιπες 6 μεταβλητές. Η συσχέτιση είναι της τάξης του 40%: αποδεκτό επίπεδο για να θεωρηθεί ότι, η πολυσυγγραμμικότητα δεν είναι καταστροφική. 28
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 3 ος τρόπος (Τελική επιβεβαίωση): Condition Index Ο έλεγχος αυτός βασίζεται στις ιδιότητες του Πίνακα συσχέτισης: C = X * T.X *, μέγεθος (k, k). Υπολογίζουμε τις ιδιοτιμές λ j, οι οποίες προκύπτουν από την διαγωνιοποίηση του πίνακα συσχέτισης C: C-λ.Ι = 0. Εφόσον έχουμε k ερμηνευτικές μεταβλητές, έχουμε ένα σύστημα με k εξισώσεις και k άγνωστες λ j (j = 1, k). Από τις ιδιότητες του Πίνακα C: k å j=1 l j = k Όταν υπάρχει πολυσυγγραμμικότητα, ορισμένες ιδιοτιμές είναι πολύ μικρές και τείνουν προς το 0. Κατά συνέπεια: Ανλ j à0, τότε λ max /λ j à. Οαριθμόςτωνλ j που τείνουν προς το 0 μας δίνει τον αριθμό των μεταβλητών που είναι προβληματικές. Ορίζεται ως Condition Index, τη στατιστική: F j = l max l j Φ j > 15 πρόβλημα Φ j > 30 καταστροφικό πρόβλημα SPSS: Στην εντολή Regression > Linear > Statistics Collinearity diagnostics Το Output θα μας δώσει τον σχετικό πίνακα με τις τιμές των ιδιοτιμών (eigenvalues) και των δεικτών Φ j 29
ΕΛΕΓΧΟΣ ΠΑΡΑΒΙΑΣΗΣ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΠΟΛΥΣΘΓΓΡΑΜΜΙΚΟΤΗΤΑΣ 3 ος τρόπος (Τελική επιβεβαίωση): Condition Index ü Όλοι οι Condition Index Φ j < 15. è Τελικά δεν υπάρχει καταστροφικό πρόβλημα και μάλιστα ούτε πρόβλημα πολυσυγγραμμικότητας. è Η γραμμική εξειδίκευση του υποδείγματος δεν αμφισβητείται και δεν τίθεται θέμα αφαίρεσης ερμηνευτικών μεταβλητών. lmax 4,465 F8 = = = 8,973 < 15 l 0,055 8 30
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΠΟΛΥΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ Ο ευκολότερος τρόπος «θεραπείας» της πολυσυγγραμμικότητας όταν υπάρχει είναι: (a) η παράλειψη μίας από τις συγγραμικές μεταβλητές ή (b) η μετατροπή των υψηλά συσχετιζόμενων μεταβλητών σε ένα λόγο ή (c) η συλλογή περισσότερων δεδομένων δηλαδή - η συλλογή μακροπρόθεσμων δεδομένων (περισσότερες χρονικές περίοδοι) ή/και - η μεγαλύτερη συχνότητα στα δεδομένα (περισσότερες παρατηρήσεις) 31
2. Έλεγχος παραβίασης των υποθέσεων της γραμμικής παλινδρόμησης: Ετεροσκεδαστικότητα 32
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑΣ ΕΤΕΡΟ = άνισο, διαφορετικό, δηλαδή το αντίθετο του ΟΜΟ = παρόμοιο ΣΚΕΔΑΣΤΙΚΟΤΗΤΑ = εξάπλωση è ΟΜΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑ = παρόμοια εξάπλωση των καταλοίπων è ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑ = άνιση εξάπλωση των καταλοίπων 33
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑΣ Βασική υπόθεση της γραμμικής παλινδρόμησης είναι ότι, η διακύμανση του διαταρακτικού όρου ε i παραμένει σταθερή, όποιες και εάν είναι οι τιμές των ερμηνευτικών μεταβλητών. 2 2 Var( e i ) = s = s " i = 1,..., n e ε i σ 2 = σταθερά Η ομοσκεδαστικότητα είναι απαραίτητη υπόθεση για να αιτιολογηθούν οι έλεγχοι του Student, ο έλεγχος F και τα διαστήματα εμπιστοσύνης διότι όλοι οι συγκεκριμένοι έλεγχοι εξαρτώνται από τη διακύμανση του διαταρακτικού όρου. Σύντομη υπενθύμιση : t i = bˆ i sˆ b i ενώ s SST (1 2 2 ˆ = e bi 2 j - R j s ) 34
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑΣ Εξαρτημένη μεταβλητή: εισόδημα Ερμηνευτική μεταβλητή: ηλικία Α Β [Α] Το οικονομετρικό μοντέλο μπορεί να επεξηγεί με ακρίβεια κάποιες τιμές του εισοδήματος (μικρές ηλικίες συσχετίζονται με χαμηλές τιμές του εισοδήματος) Όμως [Β] δεν μπορεί να ερμηνεύσει όλες τις τιμές του εισοδήματος (μεγαλύτερες ηλικίες συσχετίζονται με χαμηλά, μεσαία και υψηλά εισοδήματα) οδηγώντας σε αναξιόπιστα αποτελέσματα. 35
Β. ΔΙΑΠΥΣΤΩΣΗ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑΣ 1. Η ετεροσκεδαστικότητα αποτελεί οικονομετρικό πρόβλημα που εμφανίζεται αρκετά συχνά στα διαστρωματικά μοντέλα. 2. Οδηγεί σε ανακριβείς εκτιμητές ορισμένων τουλάχιστον συντελεστών, παρά το γεγονός ότι, οι συντελεστές εξακολουθούν να είναι γραμμικοί και αμερόληπτοι: 3. Οι συντελεστές δεν έχουν πλέον τη μικρότερη δυνατή διακύμανση. Κατά συνέπεια δεν είναι αποτελεσματικοί, δεν είναι BLUE. 36
ΕΛΕΓΧΟΣ ΠΑΡΑΒΙΑΣΗΣ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΗΤΑΣ Με το διάγραμμα, η διάγνωση της παραβίασης εμφανίζεται άμεσα. Μικρές τιμές για τον εκτιμώμενο ρυθμό ανάπτυξης (ZPRED) συσχετίζονται με μικρές τιμές των καταλοίπων (ZRESID). Ενώ οι μεγάλες τιμές συσχετίζονται με σχετικά μικρές, μεσαίες και μεγάλες τιμές των καταλοίπων. 37
ΕΛΕΓΧΟΣ ΠΑΡΑΒΙΑΣΗΣ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΗΤΑΣ Με το διάγραμμα, η διάγνωση της παραβίασης εμφανίζεται άμεσα. Μικρές τιμές για τον εκτιμώμενο ρυθμό ανάπτυξης (ZPRED) συσχετίζονται με μικρές τιμές των καταλοίπων (ZRESID). Ενώ οι μεγάλες τιμές συσχετίζονται με σχετικά μικρές, μεσαίες και μεγάλες τιμές των καταλοίπων. 38
Β. ΔΙΑΔΙΚΑΣΙΑ ΕΠΙΛΗΣΗΣ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑΣ Όταν υπάρχουν σοβαρές ενδείξεις, η διόρθωση είναι απαραίτητη έτσι ώστε η διακύμανση των καταλοίπων να είναι σταθερή: V(ε i )= σ 2 q ένας συνηθισμένος τρόπος (όχι πάντα αποτελεσματικός) είναι να μετατραπεί η εξαρτημένη Y σε λογαριθμική μορφή: Ln(Y i )= b 0 +b 1 X i1 + b 2 X i2 +..+ b k X ik + ε i αν το πρόβλημα παραμείνει, τότε η καλύτερη λύση είναι η χρήση της διαδικασίας του White. q Συνιστάται η διόρθωση μέσω της γνωστής διαδικασίας που πρότεινε ο White. Όπως αναφέρουν οι Long & Ervin (1999), o White προτείνει αποτελεσματικό αλγόριθμο που διορθώνει τα τυπικά σφάλματα της ΜΕΤ όταν υπάρχει ετεροσκεδαστικότητα. Η διαδικασία του White παρουσιάζει σημαντικό πλεονέκτημα εφόσον δεν κάνει καμία υπόθεση ως προς την αιτία της ετεροσκεδαστικότητας. 39
Β. ΔΙΑΔΙΚΑΣΙΑ ΕΠΙΛΗΣΗΣ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΑΣ Η διόρθωση της ετεροσκεδαστικότητας: χρήση μιας ειδικής macro-command: Βλέπε αρχείο SYNTAX με ονομασία: Syntax_White Correction.sps Για να χρησιμοποιηθεί με επιτυχία ο συγκεκριμένος αλγόριθμος, πρέπει να οριστεί επακριβώς: 1. Ποια είναι η εξαρτημένη μεταβλητή στις γραμμές: 6 και 27 (στο παράδειγμα μας, πρόκειται για την μεταβλητή GROWTH) 2. Ποιες είναι οι ερμηνευτικές μεταβλητές στις γραμμές 7 και 28. Γραμμή 8: εμφανίζονται οι μεταβλητές με ένα απλό κενό μεταξύ τους NEIGHGRW MOUNTAIN CONTIG DENSITY HIGHEDUC REPLACE COMMUT Γραμμή 28: πριν τις μεταβλητές, πρέπει να φαίνεται ο σταθερός όρος και ακολουθούν οι ερμηνευτικές μεταβλητές που χωρίζονται μεταξύ τους με «,». CONSTANT, NEIGHGRW, MOUNTAIN, CONTIG, DENSITY, HIGHEDUC, REPLACE, COMMUT 40
ΕΠΙΛΥΣΗ ΤΗΣ ΕΤΕΡΟΣΚΕΔΑΣΤΙΚΟΤΗΤΗΤΑΣ Μ.Ε.Τ. χωρίς διόρθωση της ετεροσκεδαστικότητας Μ.Ε.Τ. Με White διαδικασία Οι τιμές του t-student αλλάζουν. Οι πραγματικές τιμές είναι αυτές του 2 ου πίνακα. Η μεταβλητή NEIGHGRW δεν είναι στατιστικά σημαντική ενώ η πυκνότητα όπως και ο ορεινός χαρακτήρας αποκτούν μεγαλύτερη σημασία. 41
Σας ευχαριστώ θερμά 42