ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ. Μέρος 2

Σχετικά έγγραφα
Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics)

Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics)

Εισόδημα Κατανάλωση

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Διάστημα εμπιστοσύνης της μέσης τιμής

Χ. Εμμανουηλίδης, 1

9. Παλινδρόμηση και Συσχέτιση

Γ. Πειραματισμός Βιομετρία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Διαχείριση Υδατικών Πόρων

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Απλή Παλινδρόμηση και Συσχέτιση

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Στατιστική Ι. Ανάλυση Παλινδρόμησης

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

ΟΙΚΟΝΟΜΕΤΡΙΑ. σε μη γραμμικές μορφές. Παπάνα Αγγελική

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

Απλή Γραμμική Παλινδρόμηση I

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ιδιότητες της ευθείας παλινδρόµησης


ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Ανάλυση Διακύμανσης. Ι. Κ. Δημητρίου

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Αναλυτική Στατιστική

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Γ. Πειραματισμός - Βιομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Απλή Γραμμική Παλινδρόμηση II

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

Τεχνικές Ανάλυσης Διοικητικών Αποφάσεων

Εισαγωγή στην Ανάλυση Δεδομένων

Στατιστική Συμπερασματολογία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

3. Κατανομές πιθανότητας

x y max(x))

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 12. Εκτίμηση των παραμέτρων ενός πληθυσμού

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

Μάθημα Αστικής Γεωγραφίας

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Transcript:

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ Μέρος 2

Υπενθύμιση από την περασμένη διάλεξη Μοντέλο ή υπόδειγμα y x σφάλμα ή στοχαστική μεταβλητή 66

Για κάθε x=ανεργία υπάρχει μια κατανομή πιθανοτήτων για το αντίστοιχο y=πληθωρισμός y x y ε i = κατάλοιπο Y ε i x 67

Ασχολούμαστε με ένα σύνολο δεδομένων: data engineering Εν προκειμένω, πληθωρισμό και ανεργία και αναζητούμε γραμμική εξάρτηση. 68

ΠΙΝΑΚΑΣ 1 Έτος % Ανεργία % Πληθωρισμός 1960-61 1.9 0.2 1961-62 3.1 0.4 1962-63 2.5 0.9 1963-64 1.8 0.9 1964-65 1.2 0.7 1965-66 1.4 1.3 1966-67 1.6 1.6 1967-68 1.7 0.8 1968-69 1.5 0.7 1969-70 1.2 0.6 1970-71 1.1 0.5 1971-72 1.1 0.5 69 Υπολογισμός της ευθείας

Η άριστη ευθεία είναι y 0.8849 0.0756 x και το μοντέλο γίνεται (πληθωρισμός) = 0.8849 0.0756(ανεργία)+ε κλίση β ρυθμός μεταβολής πληθωρισμού ως προς ανεργία αρνητικός : Άρα, καθώς ανεργία πληθωρισμός 70

Πληθωρισμός vs. ανεργία Πληθωρισμό 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 y = -0,0756x + 0,8849 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 71

2.2 Έλεγχοι Υποθέσεων Θα ελέγξομε μια υπόθεση σχετικά με την κλίση β (ανάλογα μπορούμε να πούμε για το α αν και αυτό παρουσιάζει συνήθως μικρότερο ενδιαφέρον). Στις περισσότερες των περιπτώσεων φαίνεται εύλογο να υποθέτομε ότι ο στοχαστικός όρος ακολουθεί κανονική κατανομή με μέσο μηδέν. Η τυπική απόκλιση σ, ας πούμε, αυτής της κανονικής κατανομής εκτιμάται με τον τύπο 72

SEE 2 e i n 2 1 2 ˆ ˆ e i i i i SEE S ( y ) y ( x y ) n 2 = 1,626304/10 = 0.403275 standard error of the estimate Υποθέτομε ότι τα κατάλοιπα είναι ανεξ τμ ~ Ν(0,σ 2 ) Τότε S e αμερόληπτος εκτιμητής του σ Οπότε, μπορούμε να κάνομε προτάσεις για το σφάλμα πρόβλεψης. Πχ, το 95% περίπου των σφαλμάτων πρόβλεψης θα είναι <1.96S e. Τότε 1.96 0.4 = 0.784 δίνει μια 95% μπάντα για άλλα σημεία με το ίδιο πείραμα. 73

95% μπάντα πρόβλεψης Πληθωρισμός vs. ανεργία 1,8 1,6 1,4 Πληθωρισμό 1,2 1 0,8 0,6 0,4 y = -0,0756x + 0,8849 παρεμβολή προεκβολή 0,2 0 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 74

Το επόμενο αποτέλεσμα (θεώρημα) μιλά για τη δειγματική κατανομή των β και α όταν κάνομε έλεγχο υποθέσεων. Δηλαδή, κάνομε έλεγχο υποθέσεων για τα σφάλματα των προβλέψεων. (Διαστήματα εμπιστοσύνης για τις παραμέτρους των γραμμικών υποδειγμάτων) 75

Αποτέλεσμα 3.1 Υποθέτομε ότι ένα τ.α.δ. n παρατηρήσεων λαμβάνεται από το μοντέλο γραμμικής παλινδρόμησης Τότε η t κατανομή με n 2 βε είναι η κατανομή του πληθυσμού αμφοτέρων των εκφράσεων t ˆ S e y x ˆ t ˆ S e ˆ 76

Αποτέλεσμα 3.1 (εναλλακτική έκφραση) Υποθέτομε ότι ένα τ.α.δ. n παρατηρήσεων λαμβάνεται από το μοντέλο γραμμικής παλινδρόμησης y x Τότε η t κατανομή με n 2 βε είναι η κατανομή του πληθυσμού αμφοτέρων των εκφράσεων t β 2 ˆβ β n (x ) x 2 ˆα α n (x 2 ) x 2 tα S e n 2 S e (x ) SEE 77

df=8 Statistician William Sealy Gosset, known as "Student"

https://en.wikipedia.org/wiki/student%27s_t-distribution 81

Ερώτημα Υπάρχει σημαντική μείωση του πληθωρισμού όταν η ανεργία αυξάνει? Δηλ. είναι β < 0? o : 0 1 : 0 εσ: 5% 82

Υποθέτομε ότι είναι αληθής η H 0 : β=0 Απορρίπτομε την Η 0 αν t β είναι στο ακραίο 5% περιοχής του t n-2 = t 10, δηλ. αν t β < -t 10, 0.05 = -1.812 Από Αποτέλεσμα 3, βˆ 0 0.07558 tβ 0.37495 1.812 Εναλλακτικώς, ˆ 0.201574 αναλυτικά S β e Άρα με 5% εσ τα δεδομένα δείχνουν ότι τη δεκαετία του '60, ο πληθωρισμός και η ανεργία ΔΕΝ κινήθηκαν σ' αντίθετη κατεύθυνση (αρνητική κλίση). 83

Με πράξεις στο Excel 84

1 2 ˆ ˆ e i i i i SEE S ( y ) y ( x y ) n 2 1 8.55 0.8849 9.1 ( 0.0756) 14.94 0.4033 10 t 2 ˆ ( ) e 2 n x x S n 0,0756 0 1237.67 20.1 20.1 0.4033 12 0.3749 Όπως προηγουμένως Με τη συνάρτηση LINEST, έχομε αμέσως το β_hat, το SE(β) και το SEE 85

Η συνάρτηση Linest του Excel έδωσε τα εξής αποτελέσματα: b=-0,075580 a=0,884926 0,201574 0,357143 0,013863 SEE = 0,403275 F=0,140578 degf =10 y 0,022862 RSS=1,626304 0.8849 0.0756 x όπου (βλπ Σημειώσεις του ΙΚΔ για τη χρήση του Excel στην Εφαρμοσμένη Στατιστική) S ( ˆ ) 0,201574 e β t ˆ S ˆ e 0, 075580 0, 201574 0.3749 SEE=sqrt(RSS/degF)=sqrt(1.62/10)=0.403275 86

Η συνάρτηση Linest του Excel δίνει και άλλα αποτελέσματα: b=-0,075580 a=0,884926 0,201574 0,357143 0,013863 SEE = 0,403275 F=0,140578 degf =10 ESS=0,022862 RSS=1,626304 F = ESS / RSS RSS = 0,022862 / 1,626304 = 0,140578 ESS 87

Εφαρμογή στο Παράδειγμα 2 Υποδεικνύει η αύξηση θερμοκρασίας μια σημαντική μείωση πωλήσεων? Δηλ. είναι β < 0? H o : 0 H : 1 0 εσ: 5% 88

Η συνάρτηση Linest του Excel έδωσε τα εξής αποτελέσματα: -16,214300 713,8571 5,746098 112,6294 0,306692 71,9525 7,962502 18 S ( ˆ ) 5,746098 e β 41223,2 93189 Απορρίπτομε την Η 0 αν η τιμή της t β είναι < -t 18,0.05 = -1,734, 16.21 0 t β 2.82 1.734 5.75 Άρα σε 5% εσ οι πωλήσεις καφέδων αναμένεται να μειωθούν όταν αυξάνεται η θερμοκρασία. 89

2.3 Πρόβλεψη και δ εμπιστοσύνης Τί πωλήσεις καφέ αναμένονται αν θ=27 c ; Είναι y αˆ βx ˆ 713.86 16.21 27 276.19 Γενικά, η πρόβλεψη είναι αξιόπιστη για κοντινές τιμές του x στη δεξιότατη δεδομένη τιμή του x που χρησιμοποιήθηκε στο μοντέλο της παλινδρόμησης. Ειδάλλως για τις σχετικές προβλέψεις είναι προτιμότερο να χρησιμοποιούμε διαστήματα εμπιστοσύνης. 90

Πχ ένα 95% δε για το β στο παράδειγμα πωλήσεωνθερμοκρασιών βρίσκεται ως εξής: Είναι Τότε για n-2=18 και α/2=0.025 η κρίσιμη τιμή t n-2,α/2 = 2.1. Επομένως η πιθανότητα είναι 95% ότι το t β θα ικανοποιεί τις ανισότητες ή ˆ 2.1 2.1 S ˆ e t ˆ ~ t S ˆ e n2-2.1 < t β < 2.1 S e ˆ 2.1 S ˆ ˆ 2.1 ˆ e 16.21 2.15.75 16.21 2. 15.75 28.29 4.135 Είναι 95% δε 91

2.4 Άλλα μοντέλα παλινδρόμησης Για πιο πολύπλοκες περιγραφές καταφεύγομε σε μοντέλα όπως: 1. Πολλαπλή γραμμική παλινδρόμηση y x x x 1 1 2 2... 2. Πολυωνυμική παλινδρόμηση y x x x 2 m 0 1 2... m 3. Λογάριθμους. Εδώ αντικαθιστούμε το ζεύγος (xi,yi), xi>0 με (lnxi, lnyi) και ln y ˆαβˆ lnx 4. Κατά τμήματα γραμμική παλινδρόμηση 5. Εκθετική παλινδρόμηση, κοκ 92

2.5 Εφαρμογή στην Εκθετική Παλινδρόμηση Αν αντί για το γραμμικό επιλέξομε το εκθετικό υπόδειγμα y τότε με λογαρίθμιση λαμβάνομε το αντίστοιχο γραμμικό b ax e ln y lna bln x u από το οποίο μπορούμε να βρούμε α και b. u 93

Παραδείγματος χάριν, υποθέτομε ότι το εκτιμημένο υπόδειγμα έχει τη μορφή yˆ ˆ ˆ b ax yˆ 42.9 x 1.6 Πώς ερμηνεύεται το υπόδειγμα: η ελαστικότητα, η, της y ως προς x είναι -1.6, σταθερή. η = Δy/y / Δx/x = Δy/Δx x/y dy/dx x/y dy x x x bax b1 bax b1 b dx yˆ yˆ ax b 94

Δηλ. η ποσοστιαία μεταβολή της y είναι σταθερή, ανεξάρτητη από την τιμή της x (χρήσιμο σε ζήτηση, προσφορά κλπ). 95

η = Δy/y / Δx/x = Δy/y / 1% 2 = Δy/y / 1% Δy/y = 2% 96

3. Συσχέτιση Αναζητούμε πληροφορίες για τη σχέση μεταξύ δύο μεταβλητών. Η συσχέτιση προτιμάται της γραμμικής παλινδρόμησης, όταν δεν ζητείται συναρτησιακή σχέση ή πρόβλεψη. 97

3.1 Κίνητρο Υπάρχει σχέση ή συσχέτιση μεταξύ ύψους και βάρους? Υπάρχει συσχέτιση μεταξύ βαθμών μικροοικονομίας και μαθηματικών? Υπάρχει συσχέτιση μεταξύ δαπανών των εισοδημάτων για οικογένειες ιδίου μεγέθους και ηλικιακών ομάδων? Υπάρχει συσχέτιση μεταξύ κερδών επιχειρήσεων ή αριθμού εργαζομένων? Γνωρίζομε πως να απαντήσομε αυτές τις ερωτήσεις: Υποθέτομε ένα γραμμικό μοντέλο παλινδρόμησης y x 98

και οι ερωτήσεις ουσιαστικά είναι αν ο ρυθμός αλλαγής μιας μεταβλητής ως προς την άλλη είναι θετικός ή αρνητικός. Δηλαδή, αν είναι β>0 ή β<0. Η απάντηση δίνεται με έλεγχο υποθέσεως επί του β. Ωστόσο στα παραδείγματα θέλομε να γνωρίζομε απλώς αν β>0 ή β<0, και όχι τις τιμές των α και β, το οποίο γίνεται χρησιμοποιώντας έναν αριθμό, το συντελεστή συσχέτισης. 99

Ορίζεται ως 3.2 Ο συντελεστής συσχέτισης r ( ) i i i i n x y x y 2 2 n( x ) ( ) i x n y i i yi 2 2 1 r 1 Αν r > 0, θετική συσχ μεταξύ x και y, y αν x Αν r < 0, αρνητική συσχ, y αν x 100

r T ( x x) ( y y) x x y y 2 2 r = [covar xy ]/[σ x σ y ] = cos θ θ = γωνία μεταξύ x και y Ανισότητα Cauchy-Scwartz: covar xy σ x σ y x T y x 2 y 2 101

Παράδειγμα Θεωρούμε τα δεδομένα από την πώληση καφέδων και υπολογίζομε r =-0.55. Οι υποθέσεις β < 0 και β 0 είναι ισοδύναμες των r <0 και r 0, αντίστοιχα. Δηλ., είναι H : 0 o H : 0 1 εσ: 5% 102

Αποτέλεσμα 3.2 Αν ο πληθυσμιακός συντελεστής συσχέτισης δύο μεταβλητών είναι μηδέν και r είναι ο συντελεστής συσχέτισης δείγματος μεγέθους n, τότε ισχύει r n 2 2 ~ 1 r t n2 Μια εναλλακτική χρήση του r είναι το r 2 (συντελεστής προσδιορισμού) το οποίο δίνει το κλάσμα της μεταβολής της Y λόγω της μεταβολής της X. Στο παράδειγμα με τους καφέδες, λαμβάνομε r 2 =0.3025. Αυτό σημαίνει ότι η μεταβολή στη θερμοκρασία επιφέρει μεταβολή 30% στη ζήτηση καφέδων. 103

Ο έλεγχος r=0 έναντι r0 Υπολογίζομε το στατιστικό t r n2 2 1 r Αν t n-2 > κρίσιμης τιμής = t n-2,α/2 (πίνακας t), τότε απορρίπτεται η Η 0. Παράδειγμα με καφέδες Υπολογίζομε r =-0.55 και t n-2 = -0.55/ 10/ (1-0.55 2 ) = 2.08 < t n-2,α/2 =2.23, άρα αποδοχή Η 0. n 2 104

3.3 Εφαρμογές Θεωρούμε τύπους παραδειγμάτων όπου χρειάζεται μόνον ο συντελεστής συσχέτισης, ενώ η παλινδρόμηση δεν χρειάζεται. Αυτά είναι της μορφής που ο πληθυσμός συνίσταται από μονάδες όπως άνθρωποι, επιχειρήσεις, πειράματα κλπ, εν γένει χρήσιμα στις γνωστικές επιστήμες, την ψυχολογία και την ιατρική. Τα παραδείγματα στην οικονομία όπου αρμόζει ο συντελεστής συσχέτισης και όχι η παλινδρόμηση, συνήθως επικεντρώνονται σε έρευνες αγοράς και τη μικροοικονομική. Προσοχή στην κοινή παρερμήνευση του r: Ο r είναι μόνον ένα στατιστικό μέτρο της δύναμης της σχέσης. Δεν συνεπάγεται υποχρεωτικά κάποια αιτιατή σχέση. 105

2) Χρήση πακέτων του Excel Πολύπλευρες αναφορές πολλών επιστημών στο πρόβλημα της γραμμικής παλινδρόμησης Απαιτείται κατανόηση της θεωρίας και δυνατότητα διερμήνευσης 106

( Τρίτος τρόπος εκτίμησης των συντελεστών a_hat και β_hat με το Excel: Με τo πακέτο Analysis Toolpak (Regression) ) 107

Διεξαγωγή ανάλυσης παλινδρόμησης με το Excel: Θα αναλύσομε τη σχέση θερμοκρασίας περιβάλλοντος και θνησιμότητας λόγω καρκίνου του μαστού: Είναι ο δείκτης θνησιμότητας διαφορετικός για γυναίκες που ζουν σε περιοχές με διαφορετικές θερμοκρασίες; 108

Περιοχή Θερμοκρασία Θνησιμότητα 1 31,8 67,3 2 34,0 52,5 3 40,2 68,1 4 42,1 84,6 5 42,3 65,1 6 43,5 72,2 7 44,2 81,7 8 45,1 89,2 9 46,3 78,9 10 47,3 88,6 11 47,8 95,0 12 48,5 87,0 13 49,2 95,9 14 49,9 104,5 15 50,0 100,4 16 51,3 102,5 Επειδή τα δεδομένα επιδεικνύουν μια γραμμική σχέση, η βασική ερώτηση αφορά στον έλεγχο σημαντικότητας αυτής της γραμμικότητας Ακολουθούμε τα εξής βήματα: 109

1. Σχεδίαση του διαγράμματος διασποράς Κατάλοιπα 110,0 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία 111

Συντελεστής προσδιορισμού 2. Προσθήκη της γραμμικής παλινδρόμησης (γραμμής τάσης) Γραμμή τάσης y = 2,3577x - 21,795 110,0 R 2 = 0,7654 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία 112

Γραμμή τάσης 110,0 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία Και η παραβολή φαίνεται να δίνει κατάλληλη προσαρμογή, αλλά για τοπικές προσεγγίσεις (με λίγα δεδομένα) η γραμμική έχει θεωρητική κάλυψη από το Θ. Taylor. 113

3. Υπολογισμός στατιστικών παλινδρόμησης Είναι η παλινδρόμηση στατιστικά σημαντική; - Εξετάζομε τον έλεγχο Η 0 : Δεν υπάρχει γραμμική σχέση Η 1 : Υπάρχει γραμμική σχέση με το Analysis ToolPak του Excel 114

Τα εξαγόμενα καταμερίζονται σε έξι περιοχές: 1. Στατ παλινδρόμ 2. ΑΝΑΔΙΑ 3. Εκτιμ παραμέτρων 4. Κατάλοιπα 5. Πιθανότητες 6. Διαγράμματα 115

.xls 116

Το φύλλο Excel BCancer2.xls Προσοχή στην ορολογία του Excel, διότι δεν είναι η επίσημα χρησιμοποιούμενη. 117

Διερμήνευση στατιστικών παλινδρόμησης του Excel Στατιστικά παλινδρόμησης Πολλαπλό R (correlation) 0,874854 R Τετράγωνο 0,765370 Προσαρμοσμένο R Τετράγωνο (επόμενη ΟΣΣ) 0,748611 = correl Τυπικό σφάλμα (τυπική απόκλιση) 7,544657 Μέγεθος δείγματος 16 Σκέψου το ως, ΜΟ των αποκλίσεων από τη γραμμή παλινδρόμησης, δηλ η τυπική απόκλιση μιας παρατήρησης από τη γραμμή 118

Διερμήνευση ΑΝΑΔΙΑ Αναλύει τη μεταβλητότητα του δείκτη θνησιμότητας, η οποία διαιρείται σε δύο μέρη: λόγω της παλινδρόμησης και λόγω της τυχαιότητας. 56,92=7,54 2 = τυπ αποκλιση 2 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθερίας SS MS F Σημαντικότητα F Παλινδρόμηση 1 2599,53 2599,53 45,67 9,2E-06 Κατάλοιπα RSS 14 796,91 56,92 Σύνολο TSS 15 3396,44 n-1 γίνεται ελάχιστο 2599,53/ 3396,44 = 76.54% = R 2 119 αποδίδεται στην Παλινδρ

Η στήλη SS δίνει αθροίσματα τετραγώνων. TSS = άθροισμα τετραγώνων αποκλίσεων του δείκτη θνησιμότητας από τον ολικό μέσο TSS μερίζεται εις διπλούν: ESS = άθροισμα τετραγώνων αποκλίσεων της γραμμής παλινδρόμησης από τον ολικό μέσο RSS = άθροισμα τετραγώνων αποκλίσεων του δείκτη θνησιμότητας από τη γραμμή παλινδρόμησης. Αυτό θέλομε να ελαχιστοποιήσομε. 120

Διερμήνευση ΑΝΑΔΙΑ (συνέχεια) 3396,44/15=226.43 = διακύμανση δείκτη θνησιμότητας 226.43 = 15.04 = stdev δείκτη θνησιμότητας F κλάσμα = 2599,53/ 56,92 = 45,67 Αν F > > τότε παλινδρ στατ σημαντική ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθερίας SS MS=SS/df F Σημαντικότητα F Παλινδρόμηση 1 2599,53 2599,53 45,67 9,2E-06 Κατάλοιπα RSS 14 796,91 56,92 Σύνολο TSS 15 3396,44 p-value = 0.0000092 121

Εκτιμητές παραμέτρων και στατιστικά Συντελεστές Τυπικό σφάλμα t τιμή-p Κατώτε ρο 95% Υψηλότ ερο 95% Τεταγμένη στην αρχή -21,79 15,67-1,39 0,19-55,41 11,82 t 14 Θερμοκρασία 2,36 0,35 6,76.0000092 1,61 3,11 κλίση = -21,79 / 15,67 = 2,36 / 0,35 Όπως στην ΑΝΑΔΙΑ Διαστήματα εμπιστοσύνης δίνονται αυτόματα. Το άλλο ζεύγος καθορίζεται από χρήστη. 122

Τι συμπεραίνομε από τα στατιστικά της παλινδρόμησης αυτής; Κατ αρχήν, μπορούμε να απορρίψομε την Η 0 και να αποδεχθούμε την Η 1 ότι υπάρχει γραμμική σχέση μεταξύ δείκτη θνησιμότητας και θερμοκρασίας. Από τα δε έχομε 95% εμπιστοσύνη για την κλίση, ότι κάθε μοναδιαία αύξηση της Θ, θα αυξάνει ο δείκτης θνησιμ μεταξύ 1.61 και 3.11 σημείων. 123

Τιμές Πρόβλεψης Ένας κύριος στόχος της παλινδρόμησης είναι να κάνει προβλέψεις, y 0 = α + β*x 0 Αν x 0 ~ x_bar τότε αναμένεται καλή πρόβλεψη. Γενικά μπορούμε να θεωρήσομε ένα διάστημα εμπιστοσύνης y 0 t v,2.5% σ p, όπου y 0 λαμβάνεται από x 0 και σ p από την πρόβλεψη όταν x 0 124

Άνω γραμμή εμπιστοσύνης y_bar Κάτω γραμμή εμπιστοσύνης x_bar 125

Κατάλοιπα 7,544657 ΕΞΟΔΟΣ ΥΠΟΛΟΙΠΩΝ ΕΞΟΔΟΣ ΠΙΘΑΝΟΤΗΤΑΣ Μέγεθος δείγματος Προβλεπόμενη Θνησιμότητα Κατάλοιπα Κανονικοποιημένα κατάλοιπα = Κ / St Error Estim Εκατοστημόριο Θνησιμότητα 1 53,18 14,12 1,937211 3,125 52,5 2 58,36692-5,86692-0,80492 9,375 65,1 3 72,98463-4,88463-0,67015 15,625 67,3 4 77,46425 7,135751 0,978998 21,875 68,1 5 77,93579-12,8358-1,76102 28,125 72,2 6 80,76502-8,56502-1,17509 34,375 78,9 7 82,41541-0,71541-0,09815 40,625 81,7 8 84,53733 4,662667 0,6397 46,875 84,6 9 87,36657-8,46657-1,16158 53,125 87,0 10 89,72426-1,12426-0,15424 59,375 88,6 11 90,90311 4,096892 0,562078 65,625 89,2 12 92,55349-5,55349-0,76192 71,875 95,0 13 94,20388 1,69612 0,232701 78,125 95,9 14 95,85427 8,645733 1,186162 84,375 100,4 15 96,09004 4,309964 0,591311 90,625 102,5 126 16 99,15504 3,344961 0,458916 96,875 104,5

Τι συμπεραίνομε από τα κατάλοιπα; Κατ αρχήν, μπορούμε να διακρίνομε έκτοπα σημεία και εφεξής να προσέχομε την επιρροή τους στην ανάλυση. Αν τα κατάλοιπα είναι κανονικά κατανεμημένα, τότε πρέπει να είναι συγκεντρωμένα πέριξ του μηδενός. Γιατί; Διότι για μια Ν κατανομή, 50% των τιμών είναι άνω και 50% κάτω από τον μέσο (Σ Res_i/n = 0). Άρα τα μισά περίπου είναι + και τα υπόλοιπα -. 127

Διάγραμμα καταλοίπων Κατάλοιπα 20 15 10 5 0-5 -10-15 0 5 10 15 20 Θερμοκρασία Διακρίνομε μια καμπύλη τάση 128

Στη συνέχεια αναλύομε τα κατάλοιπα για να εξετάσομε την καταλληλότητα τού παλινδρομικού υποδείγματος. 129

Είναι τα κατάλοιπα κανονικά κατανεμημένα; Αν τα κατάλοιπα είναι κανονικά κατανεμημένα, περίπου 68% των κανονικοποιημένων καταλοίπων πρέπει να είναι μεταξύ -1 και 1. Και περίπου 95% πρέπει να είναι μεταξύ 1.96 και 1.96. Εν προκειμένω: 11/16=68.8% στο 1 έως 1. Άρα πλησίον του 68%. 16/16=100% στο 1.96 έως 1,96. Πολύ κοντά στο 95%. Ικανοποιητικά αποτελέσματα Κανονικοποιημένα κατάλοιπα = Κ / StErrorEstim 1,937-0,804-0,670 0,979-1,761-1,175-0,098 0,639-1,162-0,154 0,562-0,762 0,233 1,186 0,591 0,459 130

Διάγραμμα κανονικής πιθανότητας 120 100 Θνησιμότητ 80 60 40 20 y = 0,4976x + 58,465 R 2 = 0,9681 Διαφορά θέσης της μπλε κατανομής από Ν 0 0 20 40 60 80 100 120 Δείγμα ποσοστού Τα κατάλοιπα είναι εναλλάξ άνω και κάτω της γραμμής πιθανότητας. Δεν αποκλίνουν και πολύ από την κανονική. 131

Έχουν τα κατάλοιπα σταθερή διακύμανση; Κατάλοιπ 20 15 10 5 0-5 -10-15 0 20 40 60 80 100 120 Προβλεπ θνησιμότητα Η διακύμανση φαίνεται να είναι μεγαλύτερη για κάποιες εκτιμημένες τιμές. Ενδεχομένως να είναι έκτοπο σημείο ή λάθος παλινδρόμηση σ αυτή την περιοχή. Επιφυλακτικοί! 132

Ανεξαρτησία των καταλοίπων; Εφαρμόζομε runs test ή Durbin Watson test, κλπ, με πιο προηγμένα πακέτα λογισμικού. Σ αυτό το σημείο ο αναλυτής είναι ήδη αρκετά προχωρημένος! 133

Τέλος 136