ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΕΝΔΥΣΕΙΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗ ΑΝΑΠΤΥΞΗ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι) Δρ. Μαρί-Νοέλ Ντυκέν, Καθηγήτρια, mdyken@prd.uth.gr Τηλ. 410-74438 Γραφείο Γ.6 1
Περιεχόμενο διάλεξης 1. Απλή γραμμική παλινδρόμηση : βασικές έννοιες υπόδειγμα με μια ερμηνευτική μεταβλητή: Μέθοδος των Ελάχιστων Τετραγώνων. Αξιολόγηση του μοντέλου: οι έλεγχοι 3. Παράλληλη εφαρμογή του υποδείγματος.
1. Βασικές έννοιες / Υποθέσεις 3
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ A-1. ΣΤΟΧΟΣ Μέθοδος ανάλυσης γραμμικής σχέσης μεταξύ ή περισσότερων μεταβλητών Ερμηνεία της συμπεριφοράς μιας εξαρτημένης μεταβλητής (dependent : Y) με βάση μιας ή πολλαπλών ερμηνευτικών μεταβλητών (ndependent X 1,, X k ): ανάλυση της αιτιώδης επίδρασης των ερμηνευτικών στην εξαρτημένη μεταβλητή. Y f X X n Θεωρητική σχέση [1] = ( 1,,... k, ) = 1,..., Η ανάλυση βασίζεται σε n παρατηρήσεις οι οποίες μπορεί να αφορούν περιόδους (π.χ. έτη, μήνες), επιχειρήσεις, αγροτικές εκμεταλλεύσεις, νοικοκυριά ή ακόμα διοικητικές - χωρικές ενότητες. Ο αριθμός των παρατηρήσεων είναι ιδιαίτερα σημαντικός. Όσο μικρότερος ο αριθμός παρατηρήσεων τόσο πιο τυχαία είναι τα αποτελέσματα. 4
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ A-. Εμπειρική σχέση Η εξαρτημένη μεταβλητή δεν εξηγείται κατά 100% από τις επιλεγμένες ερμηνευτικές μεταβλητές è διαταρακτικός όρος - κατάλοιπο (resdual) Η Εμπειρική σχέση : Y = f X X ) + e ( 1,,... k, [] ε είναι μια τυχαία μεταβλητή. Οι τιμές της είναι εκ των προτέρων άγνωστες. Τι σημαίνει διαταρακτικός όρος - κατάλοιπο; ü Ορισμένες ερμηνευτικές μεταβλητές δεν λαμβάνονται υπόψη στο μοντέλο, κατά συνέπεια η ε αντιπροσωπεύει όλες αυτές τις μεταβλητές (πέραν Χ 1 Χ k ) που επηρεάζουν την εξαρτημένη Υ ή / και ü Η εξαρτημένη μεταβλητή δεν υπολογίζεται με απόλυτα «αξιόπιστο» τρόπο 5
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Σε ποιο βαθμό, η «μεγέθυνση» της οικονομίας (αύξηση του ΑΕΠ) συμβάλει στην αύξηση των δαπανών Ε&Α; Θεωρητική σχέση: Var_RD = F(Var_GDP ) = 1,.,8 (8 χώρες της Ε.Ε.) [1] Εμπειρική σχέση : Var_RD = a 0 + a 1 x Var_GDP + ε [] θεωρούμε ότι υπάρχει γραμμικό υπόδειγμα (*). Var_RD = ποσοστό μεταβολής των δαπανών Ε&Α κατά την περίοδο 004-013 Var_GDP = ποσοστό μεταβολής του ΑΕΠ κατά την ίδια περίοδο ε είναι η τυχαία μεταβλητή που περιλαμβάνει όλες τις υπόλοιπες μεταβλητές που θεωρητικά μπορούν να επηρεάζουν την αύξηση των δαπανών Ε&Α και δεν λαμβάνονται υπόψη στο συγκεκριμένο απλό μοντέλο. Οι συντελεστές a 0 και a 1 είναι άγνωστοι και ο στόχος της ανάλυσης είναι η «αξιόπιστη» εκτίμησή τους. (*) Το θέμα αυτό θα εξεταστεί σε η φάση 6
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ A-3. Υποθέσεις 1) Γραμμική σχέση μεταξύ Υ και X, Y = a0 + a1 X + e a 0 καιa 1 : άγνωστοι συντελεστές : πρέπει να τους εκτιμήσουμε ) Μέση τιμή των καταλοίπων: E( e) = 0 Þ E( Y / X ) = a0 + a1 X 3) Η διακύμανση των καταλοίπων πρέπει να παραμένει σταθερή Var ( e ) =se 4) Το κατάλοιπο για μια παρατήρηση δεν πρέπει να συσχετίζεται με τα άλλα κατάλοιπα (Μη αυτοσυσχέτιση, Non autocorrelaton): Cov( e, e ) = 0 " j j ¹ (3) και (4) è Οι παρατηρήσεις είναι ανεξάρτητες μεταξύ τους 7
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ A-3. Υποθέσεις 5) Κάθε κατάλοιπο δεν συσχετίζεται με τις ερμηνευτικές μεταβλητές: Cov( X, e ) = 0 " 6)Το καλύτερο υπόδειγμα προϋποθέτει ότι, ε ακολουθεί κανονική κατανομή e» N (0, s e ) Þ Y» N( a0 + a1 X ; s e ) 8
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ A-4. Εκτίμηση: ΜΕΤ Μέθοδος των Ελάχιστων Τετραγώνων (ΜΕΤ : OLS= Ordnary Least Squares): ελαχιστοποίηση της διακύμανσης των καταλοίπων Error terms postve and negatve è åe = 0 Ελαχιστοποίηση του αθροίσματος των καταλοίπων στο Τετράγωνο: Mn åe = Mnå ( Y - Yˆ) Λύση: Οι συνθήκες της 1 ης και της ης τάξης ικανοποιούνται. Με το διμεταβλητό γραμμικό υπόδειγμα, έχουμε ένα σύστημα εξισώσεων με άγνωστους παραμέτρους α 0 και α 1. Η λύση του συστήματος οδηγεί σε μια και μοναδική λύση: και : εκτιμητές των άγνωστων συντελεστών της παλινδρόμησης και ειδικότερα ο συντελεστής μας δίνει την «ένταση» της επιρροής της ερμηνευτικής μεταβλητής στην εξαρτημένη μεταβλητή. 9
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ A-5. Ερμηνεία των συντελεστών Η τομή (σταθερός όρος) : Η κλίση : Επομένως: ( Y aˆ 0 = Y - aˆ 1X -Y )( X - X ) = ( X - X ) ˆ1 = å a å Yˆ = aˆ aˆ X ka e ˆ e, η γραμμή της παλινδρόμησης περνά από το «μέσο σημείο» Cov( Y, X ) Var( X ) 0 + 1 = = - DYˆ Και : aˆ1 = DX Όταν η ερμηνευτική μεταβλητή Χ αυξάνεται κατά μια μονάδα, η εξαρτημένη μεταβλητή Ŷ μεταβάλλεται ceters parbus κατάȃ 1 μονάδες. Y Yˆ ( Y, X ) Γενικότερα, κάθε εκτιμημένος συντελεστής ȃ k «μετρά» την επιρροή της σχετικής ερμηνευτικής μεταβλητής Χ k στη μεταβολή της εξαρτημένης μεταβλητής Y, θεωρώντας ότι, όλες οι άλλες μεταβλητές παραμένουν αμετάβλητες (ceters parbus ).! 10
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Εμπειρική σχέση : Var_RD = a 0 + a 1 x Var_GDP + ε Ητομήa 0 αντιστοιχεί στο ποσοστό μεταβολής των δαπανών Ε&Α αν, ceters parbus, υπήρξε μηδενική ανάπτυξη (Var_GDP = 0) Ηκλίσηa 1 δίνει σε ποιο βαθμό (κατά πόσες μονάδες), το ποσοστό αύξησης των δαπανών Ε&Α μεταβάλλεται όταν, ceters parbus, το ΑΕΠ αυξάνει κατά 1% (δεδομένου ότι η μεταβλητή Var_GDP εκφράζεται σε ποσοστό). 11
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Α-6. Χαρακτηριστικά των συντελεστών της ΜΕΤ Οι συντελεστές ΜΕΤ είναι γραμμικές συναρτήσεις των παρατηρήσεων της εξαρτημένης μεταβλητής. Οι συντελεστές ΜΕΤ ακολουθούν κανονική κατανομή υπό την προϋπόθεση ότι: Y N ( aˆ + aˆ ; s ) 0 1X e Þ aˆ N ( a ; s 1 1 aˆ 1 ) όπου s Y å ( X - = Οι εκτιμητές ΜΕΤ είναι B.L.U.E. (Best Lnear Unbased Estmator) s aˆ 1 X ) Αμερόληπτοι εκτιμητές (unbased) E [ aˆ1] = a 1 Υποθέσεις [] και [5] απαραίτητες Έχουν τη μικρότερη δυνατή διακύμανση (effcent ) s Y Var( aˆ 1) = s aˆ = 1 å ( X - X ) με s Y = s e Ο καλύτερος (best) εκτιμητής είναι αυτός που έχει τη μικρότερη δυνατή διακύμανση και αυτό εξασφαλίζεται όταν οι υποθέσεις [3] και [4] επιβεβαιώνονται: Gauss-Markov Theorem 1
. Έλεγχοι / Κριτήρια αξιολόγησης του υποδείγματος 13
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ B-1. Συνολική Αξιολόγηση (R ) Συντελεστής Προσδιορισμού R : ερμηνεύεται από την παλινδρόμηση. % της συνολικής διακύμανσης που Δεδομένου ότι η συνολική διακύμανση της εξαρτημένης μεταβλητής (TSS) δεν είναι τίποτα άλλο από το άθροισμα: (α) της διακύμανσης που ερμηνεύεται από την παλινδρόμηση (ESS) και, (β) της διακύμανσης που δεν ερμηνεύεται από την παλινδρόμηση που αντιστοιχεί στη διακύμανση των κατάλοιπων (USS), Έχουμε: TSS = ESS + USS ESS TSS + USS TSS ESS = 1 Þ = R TSS 0 R 1 14
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ B-. Συνολική Αξιολόγηση : [ANOVA], Ανάλυση της μεταβλητικότητας της εξαρτημένης μεταβλητής Υ ( Y -Y ) = ( Yˆ -Y ) + ( Y Yˆ ) å å å - ΤSS = ΕSS + USS (N-1) (k-1) (Ν-k) Μεταβλητές Άθροισμα Τετραγώνων β.ε. Μέσοι Τετραγώνων TSS ESS USS Μέτρο της Συνολικής Διακύμανσης των παρατηρήσεων [Total Sum of Squares] Μέτρο της Διακύμανσης που ερμηνεύεται από την Παλινδρόμηση [Explaned Sum of Squares] Μέτρο της Διακύμανσης που ΔΕΝ ερμηνεύεται από την Παλινδρόμηση (διακύμανση των καταλοίπων) [Unexplaned Sum of Squares] N-1 TSS/N-1 k-1 ESS/k-1 Ν-k RSS/N-k 15
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ ΓΠΔ: γραμμή παλινδρόμησης του δείγματος 16
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Εμπειρική σχέση(*) : Var_RD = a 0 + a 1 x Var_GDP + ε Analyze, Regresson, Lnear (*) Η παρατήρηση Ε.Ε.-8 αφαιρέθηκε από τα δεδομένα. 17
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Εμπειρική σχέση : Var_RD = a 0 + a 1 x Var_GDP + ε Με βάση τα διαθέσιμα δεδομένα για τις 8 χώρες της Ε.Ε., η εφαρμογή της ΜΕΤ (lnear regresson) μας δίνει τα ακόλουθα αποτελέσματα(*): ESS= 1819,607 USS= 5167,051 TSS=73446,658 = = 1819,607 73446,658 = 0,97 Περίπου 30% της διακύμανσης της Var_RD ερμηνεύεται από την Var_GDP 18
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ B-3. Συνολική Αξιολόγηση : Έλεγχος Fsher Υποθέσεις: Ho : όλοι οι συντελεστές α 1 = α = = α k = 0 H1: Υπάρχει τουλάχιστον ένα α 0 Στατιστική (statstc of the test): ESS k -1 F = = USS N - k Απόφαση: å( Yˆ å -Y ) e k N - k Αν F > F(k-1;N-k;α) (βλ. πίνακα) è Απόρριψη της Υπόθεσης Ho (*). -1 Ακόμα μια φορά, πιο σημαντική θα είναι η πληροφορία που μας προσφέρει η p-value του έλεγχου (βαθμός αξιοπιστίας του αποτελέσματός μας) (*) Πρακτικά δεν θα έχουμε ανάγκη από τους πίνακες (!), εφόσον θα εξετάζουμε κατευθείαν την p-value, στα αποτελέσματα 19
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Εμπειρική σχέση : Var_RD = a 0 + a 1 x Var_GDP + ε Με βάση τα διαθέσιμα δεδομένα για τις 8 χώρες της Ε.Ε., η εφαρμογή της ΜΕΤ (lnear regresson) μας δίνει τα ακόλουθα αποτελέσματα(*): F = ESS USS k N -1 - k = 1819,607 1 5167,051 6 = 1819,607 1985,656 = 10,989 P-value για το έλεγχο του Fsher = 0,003 (0,3%). Είναι σαφέστατα < 0,05 (5%) όπως και από 1%. 0
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ B-3. Ερμηνεία του έλεγχου Fsher Με τον έλεγχο του Fsher, επιβεβαιώνουμε ότι, υπάρχει μια σχέση, δηλαδή ότι της γραμμικής συνάρτησης είναι στατιστικά σημαντικός. Κατά συνέπεια, επιβεβαιώνουμε ότι, η τιμή του R διαφέρει από το 0. Όμως ο έλεγχος του Fsherδιαφέρει απόλυτα από το σημειακό έλεγχο του Student που χρησιμοποιούμε για την αξιολόγηση των συντελεστών (βλέπε παρακάτω). ü Με το Student, ο έλεγχος αφορά την επίδραση ενός συγκεκριμένου συντελεστή στις τιμές της εξαρτημένης μεταβλητής. ü ü Ο έλεγχος Student εφαρμόζεται ξεχωριστά για κάθε ερμηνευτική μεταβλητή. Πρόκειται για σημειακή αξιολόγηση. Με το Fsher, ο έλεγχος μας επιτρέπει μόνο να εξετάζουμε σε ποιο βαθμό υπάρχει μια συνδυασμένη επίδραση των ερμηνευτικών μεταβλητών στις τιμές της εξαρτημένης μεταβλητής. Πρόκειται για συνολική αξιολόγηση. 1
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ B-4. Σχέση μεταξύ R και R * Διορθωμένος Συντελεστής Προσδιορισμού R * : λαμβάνει υπόψη (α) το μέγεθος και (β) τον αριθμό των συντελεστών (περιλαμβάνοντας το σταθερό) διότι αυτά τα μεγέθη επηρεάζουν την τιμή του R. R * USS /( N - k) = 1- TSS /( N -1) = 1- ( TSS - ESS) /( N _ k) TSS /( N -1) R * é = 1- ê (1 - R ë ) N N -1 - k ù ú û ü R =1 è R * =1 ü K > 1 è R * <R όταν ο αριθμός ερμηνευτικών μεταβλητών αυξάνεται, ο διορθωμένος συντελεστής αυξάνεται λιγότερο από τον απλό συντελεστή. ü R πάντα θετικός σε αντίθεση με R * που μπορεί να πάρει αρνητικές τιμές, ειδικά όταν η τιμή του απλού συντελεστή είναι χαμηλή. ü Σημαντικές διαφορές μεταξύ R καιr * υποδηλώνουν πρόβλημα με τους βαθμούς ελευθερίας του υποδείγματος (Ν-k)
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Εμπειρική σχέση : Var_RD = a 0 + a 1 x Var_GDP + ε Παραμένουμε στη τάξη του 30% περίπου. Στο συγκεκριμένο μοντέλο που εξετάζουμε, είναι απόλυτα αναγκαίο να συγκριθεί η τιμή του συντελεστή προσδιορισμού με τη τιμή του διορθωμένου (adjusted) εφόσον ο αριθμός παρατηρήσεων είναι σχετικά μικρό (n = 8). O βαθμός ελευθερίας = Ν-κ = 8- = 6, σχετικά μικρό αν και αποδεκτό. Η μείωση του συντελεστή δεν είναι «τραγική». Απλώς επιβεβαιώνει ότι, ο βαθμός ελευθερίας είναι οριακός. 3
A. ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ B-5. Αξιολόγηση των συντελεστών Σημειακός έλεγχος Υπό την προϋπόθεση ότι, οι συντελεστές ΜΕΤ ακολουθούν κανονική κατανομή, μπορούμε να ορίσουμε το (1-α)% Διάστημα εμπιστοσύνης για κάθε συντελεστή του μοντέλου: aˆ 1 - t ˆ ˆ ( n- 1; a ) sa < a1 < a1 + t( n-1, a ) 1 ˆ1 s a Συνήθως 95% Δ.Ε. Το διάστημα αυτό αντανακλά την αβεβαιότητα που περιβάλλει την ακρίβεια του εκτιμητή. Ταυτόχρονα, μπορούμε να ελέγξουμε σε πιο βαθμό ο εκτιμητής είναι πραγματικά διαφορετικό από 0 (επομένως η ερμηνευτική μεταβλητή είναι στατιστικά σημαντική) με τη χρήση του ελέγχου του Student. 4
Β. ΣΤΑΤΙΣΤΙΚΟΙ ΈΛΕΓΧΟΙ - ΑΞΙΟΛΟΓΗΣΗ B-5. Αξιολόγηση των συντελεστών Σημειακός έλεγχος Student Υποθέσεις: Ho : aˆ1 = 0 έναντι H1: aˆ1 ¹ 0 Στατιστική (statstc of the test): t = aˆ1 - a s a ˆ1 1 (υπόθεση της κανονικότητας) Απόφαση: Αν ισχύει Ho, τότε: t = Αν aˆ t = s ˆ ˆ1 > t( n -1; 1 a a / ) aˆ1 s a ˆ1, χρησιμοποιούμε τον εκτιμητή: ˆ1 ˆ1 (βλ. πίνακα) è Ho απορρίπτεται με α% ρίσκο. Η απόρριψη της Ηο σημαίνει ότι, με στατιστικούς όρους, ο εκτιμητής είναι διαφορετικός από το μηδέν. Επομένως η ερμηνευτική μεταβλητή έχει επιρροή στην εξαρτημένη. Για να γνωρίζουμε σε ποιο βαθμό, η επιρροή είναι σημαντική, θα πρέπει να εξετάζουμε την p-value* (βαθμός αξιοπιστίας του αποτελέσματός μας) sˆ a = s a * Tα περισσότερα λογισμικά δίνουν αυτόματα την τιμή της p-value, και πρακτικά δεν θα έχουμε ανάγκη από το πίνακα του Student (!) 5
ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ Εμπειρική σχέση : Var_RD = a 0 + a 1 x Var_GDP + ε Τέλος, ο τελευταίος έλεγχος μας επιτρέπει να απαντήσουμε στην ακόλουθα ερώτηση: Σε ποιο βαθμό η μεταβλητή Var_GDP συμβάλλει στην ερμηνεία της μεταβλητής Var_RD; Από τον παραπάνω πίνακα: = 1,5 ενώ η p-value = 0,003 (0,3%) < 5%. Ceters parbus, η αύξηση κατά 1% του ΑΕΠ μεταξύ 004 και 013 προκαλεί αύξηση κατά 1,5 μονάδα της εξαρτημένης μεταβλητής δηλαδή 1,5% περαιτέρω αύξηση των δαπανών Ε&Α.. Το 95% Δ.Ε. δεν περιλαμβάνει την τιμή 0 è ο συντελεστής είναι θετικός με 95% βεβαιότητας. Όμως η p-value μας επιτρέπει να πούμε κάτι παραπάνω δηλαδή ότι, ο συντελεστής είναι διαφορετικός από 0 με 99,7% βεβαιότητας. Τέλος, εξετάζοντας το σταθερό, προκύπτει ότι, Ceters parbus, χωρίς μεγέθυνση της οικονομίας, δεν αναμένεται αύξηση των δαπανών Ε&Α. 6
Σας ευχαριστώ θερμά 7