ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ Μέρος 2
Υπενθύμιση από την περασμένη διάλεξη Μοντέλο ή υπόδειγμα y x σφάλμα ή στοχαστική μεταβλητή 66
Για κάθε x=ανεργία υπάρχει μια κατανομή πιθανοτήτων για το αντίστοιχο y=πληθωρισμός y x y ε i = κατάλοιπο Y ε i x 67
Ασχολούμαστε με ένα σύνολο δεδομένων: data engineering Εν προκειμένω, πληθωρισμό και ανεργία και αναζητούμε γραμμική εξάρτηση. 68
ΠΙΝΑΚΑΣ 1 Έτος % Ανεργία % Πληθωρισμός 1960-61 1.9 0.2 1961-62 3.1 0.4 1962-63 2.5 0.9 1963-64 1.8 0.9 1964-65 1.2 0.7 1965-66 1.4 1.3 1966-67 1.6 1.6 1967-68 1.7 0.8 1968-69 1.5 0.7 1969-70 1.2 0.6 1970-71 1.1 0.5 1971-72 1.1 0.5 69 Υπολογισμός της ευθείας
Η άριστη ευθεία είναι y 0.8849 0.0756 x και το μοντέλο γίνεται (πληθωρισμός) = 0.8849 0.0756(ανεργία)+ε κλίση β ρυθμός μεταβολής πληθωρισμού ως προς ανεργία αρνητικός : Άρα, καθώς ανεργία πληθωρισμός 70
Πληθωρισμός vs. ανεργία Πληθωρισμό 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 y = -0,0756x + 0,8849 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 71
2.2 Έλεγχοι Υποθέσεων Θα ελέγξομε μια υπόθεση σχετικά με την κλίση β (ανάλογα μπορούμε να πούμε για το α αν και αυτό παρουσιάζει συνήθως μικρότερο ενδιαφέρον). Στις περισσότερες των περιπτώσεων φαίνεται εύλογο να υποθέτομε ότι ο στοχαστικός όρος ακολουθεί κανονική κατανομή με μέσο μηδέν. Η τυπική απόκλιση σ, ας πούμε, αυτής της κανονικής κατανομής εκτιμάται με τον τύπο 72
SEE 2 e i n 2 1 2 ˆ ˆ e i i i i SEE S ( y ) y ( x y ) n 2 = 1,626304/10 = 0.403275 standard error of the estimate Υποθέτομε ότι τα κατάλοιπα είναι ανεξ τμ ~ Ν(0,σ 2 ) Τότε S e αμερόληπτος εκτιμητής του σ Οπότε, μπορούμε να κάνομε προτάσεις για το σφάλμα πρόβλεψης. Πχ, το 95% περίπου των σφαλμάτων πρόβλεψης θα είναι <1.96S e. Τότε 1.96 0.4 = 0.784 δίνει μια 95% μπάντα για άλλα σημεία με το ίδιο πείραμα. 73
95% μπάντα πρόβλεψης Πληθωρισμός vs. ανεργία 1,8 1,6 1,4 Πληθωρισμό 1,2 1 0,8 0,6 0,4 y = -0,0756x + 0,8849 παρεμβολή προεκβολή 0,2 0 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 74
Το επόμενο αποτέλεσμα (θεώρημα) μιλά για τη δειγματική κατανομή των β και α όταν κάνομε έλεγχο υποθέσεων. Δηλαδή, κάνομε έλεγχο υποθέσεων για τα σφάλματα των προβλέψεων. (Διαστήματα εμπιστοσύνης για τις παραμέτρους των γραμμικών υποδειγμάτων) 75
Αποτέλεσμα 3.1 Υποθέτομε ότι ένα τ.α.δ. n παρατηρήσεων λαμβάνεται από το μοντέλο γραμμικής παλινδρόμησης Τότε η t κατανομή με n 2 βε είναι η κατανομή του πληθυσμού αμφοτέρων των εκφράσεων t ˆ S e y x ˆ t ˆ S e ˆ 76
Αποτέλεσμα 3.1 (εναλλακτική έκφραση) Υποθέτομε ότι ένα τ.α.δ. n παρατηρήσεων λαμβάνεται από το μοντέλο γραμμικής παλινδρόμησης y x Τότε η t κατανομή με n 2 βε είναι η κατανομή του πληθυσμού αμφοτέρων των εκφράσεων t β 2 ˆβ β n (x ) x 2 ˆα α n (x 2 ) x 2 tα S e n 2 S e (x ) SEE 77
df=8 Statistician William Sealy Gosset, known as "Student"
https://en.wikipedia.org/wiki/student%27s_t-distribution 81
Ερώτημα Υπάρχει σημαντική μείωση του πληθωρισμού όταν η ανεργία αυξάνει? Δηλ. είναι β < 0? o : 0 1 : 0 εσ: 5% 82
Υποθέτομε ότι είναι αληθής η H 0 : β=0 Απορρίπτομε την Η 0 αν t β είναι στο ακραίο 5% περιοχής του t n-2 = t 10, δηλ. αν t β < -t 10, 0.05 = -1.812 Από Αποτέλεσμα 3, βˆ 0 0.07558 tβ 0.37495 1.812 Εναλλακτικώς, ˆ 0.201574 αναλυτικά S β e Άρα με 5% εσ τα δεδομένα δείχνουν ότι τη δεκαετία του '60, ο πληθωρισμός και η ανεργία ΔΕΝ κινήθηκαν σ' αντίθετη κατεύθυνση (αρνητική κλίση). 83
Με πράξεις στο Excel 84
1 2 ˆ ˆ e i i i i SEE S ( y ) y ( x y ) n 2 1 8.55 0.8849 9.1 ( 0.0756) 14.94 0.4033 10 t 2 ˆ ( ) e 2 n x x S n 0,0756 0 1237.67 20.1 20.1 0.4033 12 0.3749 Όπως προηγουμένως Με τη συνάρτηση LINEST, έχομε αμέσως το β_hat, το SE(β) και το SEE 85
Η συνάρτηση Linest του Excel έδωσε τα εξής αποτελέσματα: b=-0,075580 a=0,884926 0,201574 0,357143 0,013863 SEE = 0,403275 F=0,140578 degf =10 y 0,022862 RSS=1,626304 0.8849 0.0756 x όπου (βλπ Σημειώσεις του ΙΚΔ για τη χρήση του Excel στην Εφαρμοσμένη Στατιστική) S ( ˆ ) 0,201574 e β t ˆ S ˆ e 0, 075580 0, 201574 0.3749 SEE=sqrt(RSS/degF)=sqrt(1.62/10)=0.403275 86
Η συνάρτηση Linest του Excel δίνει και άλλα αποτελέσματα: b=-0,075580 a=0,884926 0,201574 0,357143 0,013863 SEE = 0,403275 F=0,140578 degf =10 ESS=0,022862 RSS=1,626304 F = ESS / RSS RSS = 0,022862 / 1,626304 = 0,140578 ESS 87
Εφαρμογή στο Παράδειγμα 2 Υποδεικνύει η αύξηση θερμοκρασίας μια σημαντική μείωση πωλήσεων? Δηλ. είναι β < 0? H o : 0 H : 1 0 εσ: 5% 88
Η συνάρτηση Linest του Excel έδωσε τα εξής αποτελέσματα: -16,214300 713,8571 5,746098 112,6294 0,306692 71,9525 7,962502 18 S ( ˆ ) 5,746098 e β 41223,2 93189 Απορρίπτομε την Η 0 αν η τιμή της t β είναι < -t 18,0.05 = -1,734, 16.21 0 t β 2.82 1.734 5.75 Άρα σε 5% εσ οι πωλήσεις καφέδων αναμένεται να μειωθούν όταν αυξάνεται η θερμοκρασία. 89
2.3 Πρόβλεψη και δ εμπιστοσύνης Τί πωλήσεις καφέ αναμένονται αν θ=27 c ; Είναι y αˆ βx ˆ 713.86 16.21 27 276.19 Γενικά, η πρόβλεψη είναι αξιόπιστη για κοντινές τιμές του x στη δεξιότατη δεδομένη τιμή του x που χρησιμοποιήθηκε στο μοντέλο της παλινδρόμησης. Ειδάλλως για τις σχετικές προβλέψεις είναι προτιμότερο να χρησιμοποιούμε διαστήματα εμπιστοσύνης. 90
Πχ ένα 95% δε για το β στο παράδειγμα πωλήσεωνθερμοκρασιών βρίσκεται ως εξής: Είναι Τότε για n-2=18 και α/2=0.025 η κρίσιμη τιμή t n-2,α/2 = 2.1. Επομένως η πιθανότητα είναι 95% ότι το t β θα ικανοποιεί τις ανισότητες ή ˆ 2.1 2.1 S ˆ e t ˆ ~ t S ˆ e n2-2.1 < t β < 2.1 S e ˆ 2.1 S ˆ ˆ 2.1 ˆ e 16.21 2.15.75 16.21 2. 15.75 28.29 4.135 Είναι 95% δε 91
2.4 Άλλα μοντέλα παλινδρόμησης Για πιο πολύπλοκες περιγραφές καταφεύγομε σε μοντέλα όπως: 1. Πολλαπλή γραμμική παλινδρόμηση y x x x 1 1 2 2... 2. Πολυωνυμική παλινδρόμηση y x x x 2 m 0 1 2... m 3. Λογάριθμους. Εδώ αντικαθιστούμε το ζεύγος (xi,yi), xi>0 με (lnxi, lnyi) και ln y ˆαβˆ lnx 4. Κατά τμήματα γραμμική παλινδρόμηση 5. Εκθετική παλινδρόμηση, κοκ 92
2.5 Εφαρμογή στην Εκθετική Παλινδρόμηση Αν αντί για το γραμμικό επιλέξομε το εκθετικό υπόδειγμα y τότε με λογαρίθμιση λαμβάνομε το αντίστοιχο γραμμικό b ax e ln y lna bln x u από το οποίο μπορούμε να βρούμε α και b. u 93
Παραδείγματος χάριν, υποθέτομε ότι το εκτιμημένο υπόδειγμα έχει τη μορφή yˆ ˆ ˆ b ax yˆ 42.9 x 1.6 Πώς ερμηνεύεται το υπόδειγμα: η ελαστικότητα, η, της y ως προς x είναι -1.6, σταθερή. η = Δy/y / Δx/x = Δy/Δx x/y dy/dx x/y dy x x x bax b1 bax b1 b dx yˆ yˆ ax b 94
Δηλ. η ποσοστιαία μεταβολή της y είναι σταθερή, ανεξάρτητη από την τιμή της x (χρήσιμο σε ζήτηση, προσφορά κλπ). 95
η = Δy/y / Δx/x = Δy/y / 1% 2 = Δy/y / 1% Δy/y = 2% 96
3. Συσχέτιση Αναζητούμε πληροφορίες για τη σχέση μεταξύ δύο μεταβλητών. Η συσχέτιση προτιμάται της γραμμικής παλινδρόμησης, όταν δεν ζητείται συναρτησιακή σχέση ή πρόβλεψη. 97
3.1 Κίνητρο Υπάρχει σχέση ή συσχέτιση μεταξύ ύψους και βάρους? Υπάρχει συσχέτιση μεταξύ βαθμών μικροοικονομίας και μαθηματικών? Υπάρχει συσχέτιση μεταξύ δαπανών των εισοδημάτων για οικογένειες ιδίου μεγέθους και ηλικιακών ομάδων? Υπάρχει συσχέτιση μεταξύ κερδών επιχειρήσεων ή αριθμού εργαζομένων? Γνωρίζομε πως να απαντήσομε αυτές τις ερωτήσεις: Υποθέτομε ένα γραμμικό μοντέλο παλινδρόμησης y x 98
και οι ερωτήσεις ουσιαστικά είναι αν ο ρυθμός αλλαγής μιας μεταβλητής ως προς την άλλη είναι θετικός ή αρνητικός. Δηλαδή, αν είναι β>0 ή β<0. Η απάντηση δίνεται με έλεγχο υποθέσεως επί του β. Ωστόσο στα παραδείγματα θέλομε να γνωρίζομε απλώς αν β>0 ή β<0, και όχι τις τιμές των α και β, το οποίο γίνεται χρησιμοποιώντας έναν αριθμό, το συντελεστή συσχέτισης. 99
Ορίζεται ως 3.2 Ο συντελεστής συσχέτισης r ( ) i i i i n x y x y 2 2 n( x ) ( ) i x n y i i yi 2 2 1 r 1 Αν r > 0, θετική συσχ μεταξύ x και y, y αν x Αν r < 0, αρνητική συσχ, y αν x 100
r T ( x x) ( y y) x x y y 2 2 r = [covar xy ]/[σ x σ y ] = cos θ θ = γωνία μεταξύ x και y Ανισότητα Cauchy-Scwartz: covar xy σ x σ y x T y x 2 y 2 101
Παράδειγμα Θεωρούμε τα δεδομένα από την πώληση καφέδων και υπολογίζομε r =-0.55. Οι υποθέσεις β < 0 και β 0 είναι ισοδύναμες των r <0 και r 0, αντίστοιχα. Δηλ., είναι H : 0 o H : 0 1 εσ: 5% 102
Αποτέλεσμα 3.2 Αν ο πληθυσμιακός συντελεστής συσχέτισης δύο μεταβλητών είναι μηδέν και r είναι ο συντελεστής συσχέτισης δείγματος μεγέθους n, τότε ισχύει r n 2 2 ~ 1 r t n2 Μια εναλλακτική χρήση του r είναι το r 2 (συντελεστής προσδιορισμού) το οποίο δίνει το κλάσμα της μεταβολής της Y λόγω της μεταβολής της X. Στο παράδειγμα με τους καφέδες, λαμβάνομε r 2 =0.3025. Αυτό σημαίνει ότι η μεταβολή στη θερμοκρασία επιφέρει μεταβολή 30% στη ζήτηση καφέδων. 103
Ο έλεγχος r=0 έναντι r0 Υπολογίζομε το στατιστικό t r n2 2 1 r Αν t n-2 > κρίσιμης τιμής = t n-2,α/2 (πίνακας t), τότε απορρίπτεται η Η 0. Παράδειγμα με καφέδες Υπολογίζομε r =-0.55 και t n-2 = -0.55/ 10/ (1-0.55 2 ) = 2.08 < t n-2,α/2 =2.23, άρα αποδοχή Η 0. n 2 104
3.3 Εφαρμογές Θεωρούμε τύπους παραδειγμάτων όπου χρειάζεται μόνον ο συντελεστής συσχέτισης, ενώ η παλινδρόμηση δεν χρειάζεται. Αυτά είναι της μορφής που ο πληθυσμός συνίσταται από μονάδες όπως άνθρωποι, επιχειρήσεις, πειράματα κλπ, εν γένει χρήσιμα στις γνωστικές επιστήμες, την ψυχολογία και την ιατρική. Τα παραδείγματα στην οικονομία όπου αρμόζει ο συντελεστής συσχέτισης και όχι η παλινδρόμηση, συνήθως επικεντρώνονται σε έρευνες αγοράς και τη μικροοικονομική. Προσοχή στην κοινή παρερμήνευση του r: Ο r είναι μόνον ένα στατιστικό μέτρο της δύναμης της σχέσης. Δεν συνεπάγεται υποχρεωτικά κάποια αιτιατή σχέση. 105
2) Χρήση πακέτων του Excel Πολύπλευρες αναφορές πολλών επιστημών στο πρόβλημα της γραμμικής παλινδρόμησης Απαιτείται κατανόηση της θεωρίας και δυνατότητα διερμήνευσης 106
( Τρίτος τρόπος εκτίμησης των συντελεστών a_hat και β_hat με το Excel: Με τo πακέτο Analysis Toolpak (Regression) ) 107
Διεξαγωγή ανάλυσης παλινδρόμησης με το Excel: Θα αναλύσομε τη σχέση θερμοκρασίας περιβάλλοντος και θνησιμότητας λόγω καρκίνου του μαστού: Είναι ο δείκτης θνησιμότητας διαφορετικός για γυναίκες που ζουν σε περιοχές με διαφορετικές θερμοκρασίες; 108
Περιοχή Θερμοκρασία Θνησιμότητα 1 31,8 67,3 2 34,0 52,5 3 40,2 68,1 4 42,1 84,6 5 42,3 65,1 6 43,5 72,2 7 44,2 81,7 8 45,1 89,2 9 46,3 78,9 10 47,3 88,6 11 47,8 95,0 12 48,5 87,0 13 49,2 95,9 14 49,9 104,5 15 50,0 100,4 16 51,3 102,5 Επειδή τα δεδομένα επιδεικνύουν μια γραμμική σχέση, η βασική ερώτηση αφορά στον έλεγχο σημαντικότητας αυτής της γραμμικότητας Ακολουθούμε τα εξής βήματα: 109
1. Σχεδίαση του διαγράμματος διασποράς Κατάλοιπα 110,0 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία 111
Συντελεστής προσδιορισμού 2. Προσθήκη της γραμμικής παλινδρόμησης (γραμμής τάσης) Γραμμή τάσης y = 2,3577x - 21,795 110,0 R 2 = 0,7654 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία 112
Γραμμή τάσης 110,0 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία Και η παραβολή φαίνεται να δίνει κατάλληλη προσαρμογή, αλλά για τοπικές προσεγγίσεις (με λίγα δεδομένα) η γραμμική έχει θεωρητική κάλυψη από το Θ. Taylor. 113
3. Υπολογισμός στατιστικών παλινδρόμησης Είναι η παλινδρόμηση στατιστικά σημαντική; - Εξετάζομε τον έλεγχο Η 0 : Δεν υπάρχει γραμμική σχέση Η 1 : Υπάρχει γραμμική σχέση με το Analysis ToolPak του Excel 114
Τα εξαγόμενα καταμερίζονται σε έξι περιοχές: 1. Στατ παλινδρόμ 2. ΑΝΑΔΙΑ 3. Εκτιμ παραμέτρων 4. Κατάλοιπα 5. Πιθανότητες 6. Διαγράμματα 115
.xls 116
Το φύλλο Excel BCancer2.xls Προσοχή στην ορολογία του Excel, διότι δεν είναι η επίσημα χρησιμοποιούμενη. 117
Διερμήνευση στατιστικών παλινδρόμησης του Excel Στατιστικά παλινδρόμησης Πολλαπλό R (correlation) 0,874854 R Τετράγωνο 0,765370 Προσαρμοσμένο R Τετράγωνο (επόμενη ΟΣΣ) 0,748611 = correl Τυπικό σφάλμα (τυπική απόκλιση) 7,544657 Μέγεθος δείγματος 16 Σκέψου το ως, ΜΟ των αποκλίσεων από τη γραμμή παλινδρόμησης, δηλ η τυπική απόκλιση μιας παρατήρησης από τη γραμμή 118
Διερμήνευση ΑΝΑΔΙΑ Αναλύει τη μεταβλητότητα του δείκτη θνησιμότητας, η οποία διαιρείται σε δύο μέρη: λόγω της παλινδρόμησης και λόγω της τυχαιότητας. 56,92=7,54 2 = τυπ αποκλιση 2 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθερίας SS MS F Σημαντικότητα F Παλινδρόμηση 1 2599,53 2599,53 45,67 9,2E-06 Κατάλοιπα RSS 14 796,91 56,92 Σύνολο TSS 15 3396,44 n-1 γίνεται ελάχιστο 2599,53/ 3396,44 = 76.54% = R 2 119 αποδίδεται στην Παλινδρ
Η στήλη SS δίνει αθροίσματα τετραγώνων. TSS = άθροισμα τετραγώνων αποκλίσεων του δείκτη θνησιμότητας από τον ολικό μέσο TSS μερίζεται εις διπλούν: ESS = άθροισμα τετραγώνων αποκλίσεων της γραμμής παλινδρόμησης από τον ολικό μέσο RSS = άθροισμα τετραγώνων αποκλίσεων του δείκτη θνησιμότητας από τη γραμμή παλινδρόμησης. Αυτό θέλομε να ελαχιστοποιήσομε. 120
Διερμήνευση ΑΝΑΔΙΑ (συνέχεια) 3396,44/15=226.43 = διακύμανση δείκτη θνησιμότητας 226.43 = 15.04 = stdev δείκτη θνησιμότητας F κλάσμα = 2599,53/ 56,92 = 45,67 Αν F > > τότε παλινδρ στατ σημαντική ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθερίας SS MS=SS/df F Σημαντικότητα F Παλινδρόμηση 1 2599,53 2599,53 45,67 9,2E-06 Κατάλοιπα RSS 14 796,91 56,92 Σύνολο TSS 15 3396,44 p-value = 0.0000092 121
Εκτιμητές παραμέτρων και στατιστικά Συντελεστές Τυπικό σφάλμα t τιμή-p Κατώτε ρο 95% Υψηλότ ερο 95% Τεταγμένη στην αρχή -21,79 15,67-1,39 0,19-55,41 11,82 t 14 Θερμοκρασία 2,36 0,35 6,76.0000092 1,61 3,11 κλίση = -21,79 / 15,67 = 2,36 / 0,35 Όπως στην ΑΝΑΔΙΑ Διαστήματα εμπιστοσύνης δίνονται αυτόματα. Το άλλο ζεύγος καθορίζεται από χρήστη. 122
Τι συμπεραίνομε από τα στατιστικά της παλινδρόμησης αυτής; Κατ αρχήν, μπορούμε να απορρίψομε την Η 0 και να αποδεχθούμε την Η 1 ότι υπάρχει γραμμική σχέση μεταξύ δείκτη θνησιμότητας και θερμοκρασίας. Από τα δε έχομε 95% εμπιστοσύνη για την κλίση, ότι κάθε μοναδιαία αύξηση της Θ, θα αυξάνει ο δείκτης θνησιμ μεταξύ 1.61 και 3.11 σημείων. 123
Τιμές Πρόβλεψης Ένας κύριος στόχος της παλινδρόμησης είναι να κάνει προβλέψεις, y 0 = α + β*x 0 Αν x 0 ~ x_bar τότε αναμένεται καλή πρόβλεψη. Γενικά μπορούμε να θεωρήσομε ένα διάστημα εμπιστοσύνης y 0 t v,2.5% σ p, όπου y 0 λαμβάνεται από x 0 και σ p από την πρόβλεψη όταν x 0 124
Άνω γραμμή εμπιστοσύνης y_bar Κάτω γραμμή εμπιστοσύνης x_bar 125
Κατάλοιπα 7,544657 ΕΞΟΔΟΣ ΥΠΟΛΟΙΠΩΝ ΕΞΟΔΟΣ ΠΙΘΑΝΟΤΗΤΑΣ Μέγεθος δείγματος Προβλεπόμενη Θνησιμότητα Κατάλοιπα Κανονικοποιημένα κατάλοιπα = Κ / St Error Estim Εκατοστημόριο Θνησιμότητα 1 53,18 14,12 1,937211 3,125 52,5 2 58,36692-5,86692-0,80492 9,375 65,1 3 72,98463-4,88463-0,67015 15,625 67,3 4 77,46425 7,135751 0,978998 21,875 68,1 5 77,93579-12,8358-1,76102 28,125 72,2 6 80,76502-8,56502-1,17509 34,375 78,9 7 82,41541-0,71541-0,09815 40,625 81,7 8 84,53733 4,662667 0,6397 46,875 84,6 9 87,36657-8,46657-1,16158 53,125 87,0 10 89,72426-1,12426-0,15424 59,375 88,6 11 90,90311 4,096892 0,562078 65,625 89,2 12 92,55349-5,55349-0,76192 71,875 95,0 13 94,20388 1,69612 0,232701 78,125 95,9 14 95,85427 8,645733 1,186162 84,375 100,4 15 96,09004 4,309964 0,591311 90,625 102,5 126 16 99,15504 3,344961 0,458916 96,875 104,5
Τι συμπεραίνομε από τα κατάλοιπα; Κατ αρχήν, μπορούμε να διακρίνομε έκτοπα σημεία και εφεξής να προσέχομε την επιρροή τους στην ανάλυση. Αν τα κατάλοιπα είναι κανονικά κατανεμημένα, τότε πρέπει να είναι συγκεντρωμένα πέριξ του μηδενός. Γιατί; Διότι για μια Ν κατανομή, 50% των τιμών είναι άνω και 50% κάτω από τον μέσο (Σ Res_i/n = 0). Άρα τα μισά περίπου είναι + και τα υπόλοιπα -. 127
Διάγραμμα καταλοίπων Κατάλοιπα 20 15 10 5 0-5 -10-15 0 5 10 15 20 Θερμοκρασία Διακρίνομε μια καμπύλη τάση 128
Στη συνέχεια αναλύομε τα κατάλοιπα για να εξετάσομε την καταλληλότητα τού παλινδρομικού υποδείγματος. 129
Είναι τα κατάλοιπα κανονικά κατανεμημένα; Αν τα κατάλοιπα είναι κανονικά κατανεμημένα, περίπου 68% των κανονικοποιημένων καταλοίπων πρέπει να είναι μεταξύ -1 και 1. Και περίπου 95% πρέπει να είναι μεταξύ 1.96 και 1.96. Εν προκειμένω: 11/16=68.8% στο 1 έως 1. Άρα πλησίον του 68%. 16/16=100% στο 1.96 έως 1,96. Πολύ κοντά στο 95%. Ικανοποιητικά αποτελέσματα Κανονικοποιημένα κατάλοιπα = Κ / StErrorEstim 1,937-0,804-0,670 0,979-1,761-1,175-0,098 0,639-1,162-0,154 0,562-0,762 0,233 1,186 0,591 0,459 130
Διάγραμμα κανονικής πιθανότητας 120 100 Θνησιμότητ 80 60 40 20 y = 0,4976x + 58,465 R 2 = 0,9681 Διαφορά θέσης της μπλε κατανομής από Ν 0 0 20 40 60 80 100 120 Δείγμα ποσοστού Τα κατάλοιπα είναι εναλλάξ άνω και κάτω της γραμμής πιθανότητας. Δεν αποκλίνουν και πολύ από την κανονική. 131
Έχουν τα κατάλοιπα σταθερή διακύμανση; Κατάλοιπ 20 15 10 5 0-5 -10-15 0 20 40 60 80 100 120 Προβλεπ θνησιμότητα Η διακύμανση φαίνεται να είναι μεγαλύτερη για κάποιες εκτιμημένες τιμές. Ενδεχομένως να είναι έκτοπο σημείο ή λάθος παλινδρόμηση σ αυτή την περιοχή. Επιφυλακτικοί! 132
Ανεξαρτησία των καταλοίπων; Εφαρμόζομε runs test ή Durbin Watson test, κλπ, με πιο προηγμένα πακέτα λογισμικού. Σ αυτό το σημείο ο αναλυτής είναι ήδη αρκετά προχωρημένος! 133
Τέλος 136