Απλή Παλινδρόμηση και Συσχέτιση
Πωλήσεις, Δαπάνες Διαφήμισης και Αριθμός Πωλητών Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) 98 050 6 3 989 3570 70 98 98 60 85 47 990 440 40 43 983 470 540 3 99 4500 395 76 984 60 6 68 99 560 560 89 985 950 360 3 993 590 380 08 986 400 690 7 994 5670 60 76 987 370 495 58 995 560 70 65 988 350 948 75 996 6840 860 93
Διάγραμμα Διασποράς Μεταξύ Πωλήσεων και Διαφήμισης
Διάγραμμα Διασποράς Μεταξύ Πωλήσεων και Αριθμού Πωλητών
Διαγράμματα Διασποράς Τέλεια θετική συσχέτιση (r = +,0) Τέλεια αρνητική συσχέτιση (r = -,0) Έντονη θετική συσχέτιση (r = +0,9) Έντονη Αρνητική Συσχέτιση (r= - 0,9)
Διαγράμματα Διασποράς Ασθενής θετική συσχέτιση (r = +0,7) Ασθενής αρνητική συσχέτιση (r= - 0,7) Μηδενική συσχέτιση (r= 0)
Συμμεταβολή Την ύπαρξη γραμμικής σχέσης μεταξύ δύο μεταβλητών, την κατεύθυνση συμμεταβολής των τιμών τους καθώς και την από κοινού διασπορά των τιμών των δύο μεταβλητών από τις αντίστοιχες μέσες τιμές τους δίνεται από ένα πολύ σημαντικό στατιστικό μέτρο που καλείται συνδιακύμανση (Covarace) Y cov(, Y) E(( μ )(Yμ Y )) s xy (x )(y Y)
Συσχέτιση Την κατεύθυνση της συμμεταβολής των τιμών δύο μεταβλητών και τον βαθμό της γραμμικής σχέσης των μεταβλητών, δίνει ο συντελεστής συσχέτισης (correlato coeffcet) που χρησιμοποιείται κυρίως αντί της συνδιακύμανσης Y Y Y r xy s sxs xy y [(x (x )(y ) ][(y Y) Y) ]
Έλεγχος Στατιστικής σημαντικότητας του r Λόγω το ότι η τιμή του r βασίζεται σε δείγμα παρατηρήσεων, υπόκειται στα σφάλματα της δειγματοληψίας. Το r αποτελεί μία εκτίμηση του άγνωστου συντελεστή του πληθυσμού ρ Η 0 : ρ=0 Η : ρ0 Ο Έλεγχος γίνεται με την γνωστή κατανομή t t r r Εάν η τιμή t - > της κριτικής τιμής t -,α/ η Η 0 απορρίπτεται και αντίστροφα
Διάγραμμα Διασποράς Καμπυλόγραμμης Σχέσης (Συντελεστής Γραμμικής Συσχέτισης = 0,75)
Το υπόδειγμα της Απλής Γραμμικής Παλινδρόμησης The Smple Lear Regresso Model
Εισαγωγή Oικονομική θεωρία Διατύπωση της αιτιώδους σχέσης μεταξύ των οικονομικών μεταβλητών Οικονομικά μαθηματικά Καθορισμός της μορφής της συνάρτησης που εκφράζει την συγκεκριμένη σχέση Ανάλυση παλινδρόμησης (α) Καθορισμός συγκεκριμένων τιμών για τις παραμέτρους των συναρτήσεων με βάση τα στοιχεία ενός δείγματος (εκτιμητική) (β) Διατύπωση συμπερασμάτων για τις πραγματικές τιμές των παραμέτρων (στατιστική επαγωγή)
Απλή παλινδρόμηση (smple regresso) Διερεύνηση της σχέσης δύο μεταβλητών Πολλαπλή παλινδρόμηση (multple regresso) Διερεύνηση της σχέσης μεταξύ περισσότερων μεταβλητών Σχέσεις μεταβλητών Συναρτησιακές ή μαθηματικές (fuctoal relatos) Σε κάθε τιμή της Χ αντιστοιχεί μια τιμή της Υ
Στοχαστικές ή στατιστικές (Stochastc or statstcal relatos) Σε κάθε τιμή της Χ αντιστοιχεί μια κατανομή τιμών της Υ Η ανάλυση παλινδρόμησης ασχολείται με στοχαστικές σχέσεις και έχει σαν σκοπό να διερευνήσει την συναρτησιακή σχέση όχι πλέον ανάμεσα στην και την Y αλλά ανάμεσα στην και τον μέσο της κατανομής του Y για δεδομένο, ανάμεσα δηλαδή στο και στον δεσμευμένο μέσο της κατανομής του Y η οποία διατυπώνεται μαθηματικά σαν E ( Y ) f ( )
Οταν η σχέση μεταξύ των μεταβλητών είναι γραμμική στις παραμέτρους η ανάλυση παλινδρόμησης ονομάζεται γραμμική (lear), π.χ. E( Y ) a b ή E( Y ) a b Στην αντίθετη περίπτωση ονομάζεται μη γραμμική (o-lear), b π.χ. E( Y ) a Υπόθεση Στον πληθυσμό που μας ενδιαφέρει υπάρχει μια γραμμική σχέση ανάμεσα στις τιμές του και στους δεσμευμένους μέσους του Y. Δηλαδή E ( Y ) a b
Απλή Γραμμική Παλινδρόμηση στον Πληθυσμό και στο Δείγμα Παράδειγμα: Πληθυσμός όπου η σχέση ανάμεσα στο Χ και τους δεσμευμένους μέσους του Y είναι γραμμική. Μηνιαίο Εισόδημα Μηνιαία κατανάλωση 50 60 70 80 90 00 5 05 07 5 5 00 7 4 5 7 9 95 3 9 4 35 33 09 08 8 9 43 43 06 33 5 45 35 35 05 7 3 9 35
80 60 40 0 00 80 60 40 0 0 0 50 00 50 00 50
? Αν η σχέση ανάμεσα στο και στους δεσμευμένους μέσους του Y είναι: E( Y ) a b ποια είναι η σχέση ανάμεσα στο Y και στο ; Ορίζουμε u την διαφορά Y E ( Y ) Y E ( Y ) u a b u Υ = Συστηματικός όρος + Τυχαίος όρος Το u είναι τυχαία μεταβλητή και ονομάζεται όρος σφάλματος (error term) ή στοχαστικός (stochastc) όρος ή διαταρακτικός (dsturbace) όρος
Από τα προηγούμενα προκύπτει ότι E ( Y ) E ( a b u ) a b E ( u ) E ( Y ) E ( u ) και αφού E ( Y ) E ( Y ) E ( u ) 0 Η υπόθεση δηλαδή ότι η γραμμή παλινδρόμησης περνάει από όλους τους δεσμευμένους μέσους του Y συνεπάγεται ότι όλοι οι δεσμευμένοι μέσοι του u είναι ίσοι με το μηδέν. Το u, αντιπροσωπεύει όλες τις μεταβλητές που επηρεάζουν το Y και δεν λήφθηκαν υπόψη στο υπόδειγμα. Γιατί δεν λήφθηκαν υπόψη?
Δεν υπάρχουν διαθέσιμα στατιστικά στοιχεία Ο ρόλος τους δεν είναι και τόσο σημαντικός και σ ένα βαθμό μπορεί να θεωρηθεί τυχαίος Η συμμετοχή τους στο υπόδειγμα οδηγεί σε πολύπλοκη μορφή συνάρτησης Η προσέγγιση της πραγματικής μεταβλητής είναι δύσκολη ή αδύνατη Η μορφή της συνάρτησης δεν είναι η σωστή κ.λ.π.
Ο πληθυσμός όμως δεν είναι συνήθως γνωστός! Στην αντίθετη περίπτωση η Στατιστική θα είχε ελάχιστο ενδιαφέρον Οι μόνες πληροφορίες που έχει ο ερευνητής είναι αυτές που προέρχονται από το δείγμα Παράδειγμα: Y 00 50 60 4 70 9 80 5 90 45 00
Σκοπός: Η καλύτερη δυνατή προσέγγιση της ευθείας του πληθυσμού Y a b Η εξίσωση της ευθείας που προκύπτει από τα στοιχεία του δείγματος Y Η εκτιμήτρια(estmator) του a b ή θεωρητική τιμή του Υ Η εκτιμήτρια του Η εκτιμήτρια του a b E Y
Εκτιμήτρια - Εκτίμηση: estmator - estmate Ο όρος εκτιμήτρια αναφέρεται σε ένα μαθηματικό τύπο που δίνει τον τρόπο εκτίμησης μιας παραμέτρου του πληθυσμού με βάση τα στοιχεία του δείγματος. Η εκτίμηση αντιπροσωπεύει μια συγκεκριμένη τιμή που προκύπτει από την εφαρμογή αυτού του τύπου. Y Y u Η εκτιμήτρια του u ή κατάλοιπο (resdual) έτσι Y a b u a b u
Υ Y 4 u 4 u 4 Y a b E Y a b u Y u a b 4 a b a a b 4 b Χ Χ 4 Χ
Η μέθοδος των Ελαχίστων Τετραγώνων Η μέθοδος των Ελαχίστων Τετραγώνων (Least Squares) είναι μια από τις μεθόδους που χρησιμοποιούνται για την εκτίμηση της γραμμής παλινδρόμησης. Είναι η μέθοδος που χρησιμοποιείται περισσότερο επειδή (α) έχει σημαντικές στατιστικές ιδιότητες (β) Είναι εύκολη στην εφαρμογή της. Κριτήριο: Επιλογή των a και b που ελαχιστοποιούν τα τετράγωνα των αποκλίσεων της ευθείας παλινδρόμησης από τις πραγματικές τιμές u Y a b f a, b
u Ελαχιστοποίηση u a 0 u b 0 u a Y a b 0 u b Y a b 0 Y a b Y a b Σύστημα Κανονικών Εξισώσεων (Normal equatos)
Επίλυση κανονικών εξισώσεων a Y Y a Y Y b Y Y b Y Y
a Y b b Y Y x y x ˆ Y Y b b x Y b y
Παράδειγμα: Y Y Y u 50 00 5000 500 0,4 -,4 60 790 5600 08,5 3,5 70 4 9380 8900 5,6 -,6 80 9 30 3400,8 6,3 90 5 850 3600 9,8-4,8 00 45 90000 40000 37,0 8,0 Αθροίσματα 050 75 6370 85500 75 0,0 Α. Μέσοι 75 9 bˆ Y Y 6370 6759 85500 675 a 9 0. 74 75 5. 333 0.74 Μια αύξηση του εισοδήματος κατά μια νομισματική μονάδα επιφέρει μια αύξηση στην κατανάλωση κατά 0.74 νομισματικές μονάδες. Η Οριακή Ροπή προς Κατανάλωση δηλαδή είναι 0.74.
Οι υποθέσεις του Κλασσικού Γραμμικού Υποδείγματος Παλινδρόμησης Το υπόδειγμα είναι γραμμικό στις παραμέτρους Y a b u Οι τιμές της ανεξάρτητης μεταβλητής παραμένουν σταθερές σε επαναλαμβανόμενα δείγματα. Έτσι E Y a b E u 0
Η διακύμανση του όρου σφάλματος για κάθε δεν εξαρτάται από το Y και είναι σταθερή, δηλαδή var u E u E u E u Η ιδιότητα αυτή ονομάζεται ομοσκεδαστικότητα (homoscedastcty). Στην αντίθετη περίπτωση έχουμε ετεροσκεδαστικότητα (heteroscedastcty) και varu
Μεταξύ των διαφόρων τιμών του όρου σφάλματος δεν υπάρχει συσχέτιση ή όπως αλλιώς λέγεται δεν υπάρχει αυτοσυσχέτιση (autocorrelato). cov u u j, j E u E u u j E u j j Eu u 0 j j j Δεν υπάρχει συσχέτιση μεταξύ u και. Δηλαδή cov u E u E u E E u E E u E u E E u 0
Ιδιότητες των εκτιμητριών a και b Οι εκτιμήτριες a και b είναι τυχαίες μεταβλητές και τα χαρακτηριστικά της κατανομής τους καθώς και οι ιδιότητές τους είναι σημαντικές πληροφορίες για την εξαγωγή συμπερασμάτων για τις αντίστοιχες τιμές των παραμέτρων του πληθυσμού Ο μέσος(mea) του b E b b Ο μέσος του a E a a Η διακύμανση (varace) του b var b E b E b b x E u
Η τυπική απόκλιση (stadard devato) του b S u b x Ο υπολογισμός τόσο της διακύμανσης όσο και της τυπικής απόκλισης βασίζεται στην διακύμανση του όρου σφάλματος στον πληθυσμό (σ ). Συνήθως η πληροφορία αυτή δεν είναι γνωστή γιαυτό καταφεύγουμε στην εκτίμησή της από τις πληροφορίες του δείγματος τυπικό σφάλμα της εξίσωσης (stadard error of the regresso) ˆ S uˆ
S x b S x b Εκτιμήτριες της διακύμανσης και του τυπικού σφάλματος του b Η διακύμανση (varace) του a a x a x Η τυπική απόκλιση του (stadard devato) â
Εκτιμήτριες της διακύμανσης και του τυπικού σφάλματος του a S a S x a x Η συνδιακύμανση του a και b cov a, b E a E a b E b ή cov a, b x x
Παράδειγμα: Y Y u 50 00 0.38.907 65 60 08.50.83 5 70 4 5.6.590 5 80 9.7 39.39 5 90 5 9.84 0.70 5 00 45 36.95 64.764 65 34.05 750 x S b u 3405. 8576. 4 8576. 0. 0487 750 x 9. 34 S b 007. S 75 a.. 6 750 8576 50655 S a 388. cov,. a b 75 8576 750 857.
Το b που προκύπτει από την εφαρμογή της μεθόδου των ελαχίστων τετραγώνων είναι αμερόληπτη εκτιμήτρια (ubased estmator) του b αφού E b b a Το που προκύπτει από την εφαρμογή της μεθόδου των ελαχίστων τετραγώνων είναι αμερόληπτη εκτιμήτρια (ubased estmator) του αφού E a a a Αποδεικνύεται ότι τόσο η διακύμανση του όσο και του b είναι οι μικρότερες μεταξύ όλων των αμερόληπτων εκτιμητριών του aκαι b. Τα a και b είναι δηλαδή οι πιο αποτελεσματικές εκτιμήτριες γι αυτό και ονομάζονται άριστες εκτιμήτριες(best estmators). Άριστες Γραμμικές Αμερόληπτες Εκτιμήσεις Best Lear Ubased Estmators - BLUE a