Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics) 2
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ Καθηγητής Ι. Κ. ΔΗΜΗΤΡΙΟΥ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών demetri@econ.uoa.gr Οικονομικά, Διοικητικά και Πληροφοριακά Συστήματα Επιχειρήσεων
Γενικό σχόλιο: Να προσέχετε τις διερμηνεύσεις των σχέσεων και των αριθμών. 8
Αρκετά λεπτομερείς διαφάνειες για να αποτελέσουν σημείο αναφοράς κ ανάλυσης στη μελέτη του πεδίου. Η παλινδρόμηση (με πολλές μορφές) είναι σπουδαίο αντικείμενο μελέτης τα τελευταία 200 χρόνια. Joseph-Louis Lagrange (1735-1813 9
Τι επιδρά σε τι; Το αποτελεσματικό μάνατζμεντ προσδιορίζει ποιοι παράγοντες επιδρούν, προβλέπουν ή ελέγχουν σημαντικές επιχειρηματικές μεταβλητές (εξαρτώμενες μεταβλητές) 10
Αναζητούμε συναρτησιακές σχέσεις σ ένα σύνολο ζευγών παρατηρήσεων. Πχ γραμμική, τετραγωνική, εκθετική σχέση Η ανάλυση παλινδρόμησης είναι μια μέθοδος υπολογισμού ενός μαθηματικού μοντέλου που προσεγγίζει τη σχέση των δύο μεταβλητών και παρέχει μεθόδους συμπερασματολογίας για έναν πληθυσμό. Η συσχέτιση, ειδικότερα, μάς εξασφαλίζει πόσο καλό είναι ένα γραμμικό μοντέλο προσέγγισης. Δηλαδή συγκρίνει τα αρχικά δεδομένα μ αυτά που έχουν εκτιμηθεί από την παλινδρόμηση. 11
Οργάνωση διάλεξης σε 2 επίπεδα 1) Τυπική κατανόηση του προβλήματος 2) Χρήση πακέτων του Excel 12
1) Τυπική κατανόηση του προβλήματος Αρκετά γενική αναφορά που εξηγεί τη θεωρία μέσω παραδειγμάτων. 13
Περιεχόμενα 1. Περιγραφή παλινδρόμησης 1.1 Ζεύγη 1.2 Άριστη γραμμική προσαρμογή 1.3 Εκτιμητές ελαχίστων τετραγώνων 2. Ανάλυση 2.1 Παραδείγματα 2.2 Έλεγχοι υποθέσεων 2.3 Πρόβλεψη 2.4 Άλλα υποδείγματα 2.5 Εκθετική παλινδρόμηση 3. Συσχέτιση 3.1 Κίνητρο 3.2 Ο συντελεστής συσχέτισης 3.3 Εφαρμογές 14
1. Περιγραφή της γραμμικής παλινδρόμησης Θεωρούμε ένα σύνολο ζευγών παρατηρήσεων και μια άγνωστη συναρτησιακή σχέση η οποία υπόκειται των παρατηρήσεων. Συγκεκριμένα θεωρούμε την πολύ απλή σχέση όπου μία μεταβλητή είναι γραμμική συνάρτηση μιας άλλης μεταβλητής. Πρώτον, θα προσδιορίσομε τη γραμμική σχέση χρησιμοποιώντας πληροφορίες από τα δεδομένα. Έπειτα θα εξετάσομε (έλεγχος υπόθεσης) αν οι συντελεστές της γραμμικής σχέσης είναι σημαντικά διάφοροι του μηδενός ή κάποιου αριθμού. 15
Παραδείγματα 1.1 Ζεύγη δεδομένων Ανεργία πληθωρισμός Ζήτηση καφέ καιρός Συγκομιδή πορτοκαλιών κατ έτος Ρυθμός αύξησης χρήματος - ρυθμός πληθωρισμού. Αποθεματικό και επενδύσεις 16
Πχ στις τιμές του ζεύγους Ανεργία Πληθωρισμός που δίνονται στον Πίνακα 1 (ακολούθως) εξετάζομε αν υπάρχει κάποια σχέση. 17
ΠΙΝΑΚΑΣ 1 Έτος % Ανεργία % Πληθωρισμός 1960-61 1.9 0.2 1961-62 3.1 0.4 1962-63 2.5 0.9 1963-64 1.8 0.9 1964-65 1.2 0.7 1965-66 1.4 1.3 1966-67 1.6 1.6 1967-68 1.7 0.8 1968-69 1.5 0.7 1969-70 1.2 0.6 1970-71 1.1 0.5 1971-72 1.1 0.5 18 Διάγραμμα διασποράς
Πληθωρισμός Πληθωρισμός vs. ανεργίας Ερωτήσεις 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία Ερώτηση (α): Υπάρχει μαθηματική περιγραφή της σχέσης που συνδέει πληθωρισμό και ανεργία; 19
ΠΙΝΑΚΑΣ 1 Έτος % Ανεργία % Πληθωρισμός 1960-61 1.9 0.2 1961-62 3.1 0.4 Είναι λογικό να έχομε μερικές ερωτήσεις για τα δεδομένα: 1962-63 2.5 0.9 Ερώτηση 1963-64 (α): 1.8 0.9 Ποια είναι η μαθηματική περιγραφή της σχέσης που συνδέει πληθωρισμό 1964-65και ανεργία; 1.2 0.7 1965-66 1.4 1.3 Ερώτηση (β): Μειώνεται ο πληθωρισμός καθώς αυξάνεται η ανεργία; 1966-67 1.6 1.6 1967-68 1.7 0.8 Ερώτηση (γ): Αν η 1968-69 απάντηση στην Ερώτηση 1.5 (β) είναι καταφατική, τότε 0.7 πώς η αύξηση 1969-70 στην ανεργία προκαλεί 1.2 μείωση στον πληθωρισμό; 0.6 (ερώτηση πέρα από Στατιστική, ανήκει στην Οικονομία) 1970-71 1.1 0.5 1971-72 1.1 0.5 20
Ποια η σχέση μεταξύ των ερωτήσεων αυτών και των γενικών προβλημάτων στη στατιστική; Ερώτηση (α): Πρόβλημα 1 Ποια είναι η μαθηματική περιγραφή της σχέσης που συνδέει πληθωρισμό και ανεργία; Η «περιγραφή» είναι κάτι το γενικό. Τι μπορεί να πει κάποιος για 21
Δύο σχετικά προβλήματα Πρόβλημα 1 Ποιος είναι ο εκτιμητής της τιμής μιας (οικονομικής) ποσότητας; Πχ Ποιος ο Πληθωρισμός αν Ανεργία = 8%; Πρόβλημα 2 Είναι ο εκτιμητής που λάβαμε επαρκώς κοντά σε κάποιον συγκεκριμένο αριθμό; Έχει κάποια ιδιότητα; Το «κοντά» σχετίζει με την παράγωγο, αφορά το ρυθμό μεταβολής. Τι μπορεί να πει κάποιος για 22
Δύο σχετικά προβλήματα Πρόβλημα 1 Ποιος είναι ο εκτιμητής της τιμής μιας (οικονομικής) ποσότητας; Πχ Ποιος ο Πληθωρισμός αν Ανεργία = 8%; Το «κοντά» σχετίζει με την παράγωγο, αφορά το ρυθμό μεταβολής. Τι μπορεί να πει κάποιος για Πρόβλημα 2 Είναι ο εκτιμητής που λάβαμε επαρκώς κοντά σε κάποιον συγκεκριμένο αριθμό; Έχει κάποια ιδιότητα; Ερώτηση (β) = περίπτωση Προβλήματος 2 = αναδιατύπωση = Ερώτηση (β ) είναι η κλίση της συνάρτησης που συνδέει Πληθ και Ανεργ αρνητική; Θέλομε να βρούμε αν η κλίση είναι αρνητική ή όχι. Έπειτα θέλομε να συγκρίνομε τον εκτιμητή της κλίσης με το μηδέν (δηλ. να εξετάσομε αν είναι σημαντικός). 23
Η απάντηση στην Ερώτηση (α) παρέχει έναν εκτιμητή της κλίσης = + ή - Άρα, η Ερώτηση (β ) έχει κυριολεκτική απάντηση. Ωστόσο, ας υποθέσομε ότι η κλίση της «αληθούς» σχέσης είναι μηδέν. Εν γένει όμως τα 12 δεδομένα θα δώσουν μια εκτίμηση της κλίσης 0. Έτσι αν η εκτίμηση είναι περίπου θετική, τότε κλίση = θετική ενώ «αληθής κλίση»=0. Αντίστοιχα, για αρνητική. Η λογική λύση στο δίλημμα είναι να υποθέσομε κάποια περιοχή τιμών γύρω από το μηδέν, έτσι ώστε αν ο εκτιμητής ανήκει στην περιοχή, τότε θα συμπεραίνομε ότι η κλίση δεν είναι σημαντικά διάφορη του μηδενός. Άρα η Ερώτηση (β) είναι μια περίπτωση του Προβλήματος 2, διότι πρέπει να εξετάσομε αν ο εκτιμητής της κλίσης είναι ή όχι επαρκώς κοντά στο μηδέν. 24
Πρόβλημα 3 Πώς επιλέγομε ένα σύνολο δεδομένων για να πετύχομε τη μέγιστη πληροφορία με το ελάχιστο κόστος; Δύο σχετικές ερωτήσεις Το Πρόβλημα 3 δεν έχει οικονομική σπουδαιότητα. Είναι όμως σημαντικό στη σχεδίαση πειραμάτων και επισκοπήσεων (surveys, analytics) 25
1.2 Η άριστη γραμμική προσαρμογή Ονομάζομε τις παρατηρήσεις μας (xi, yi) και η ταξινόμηση των υποκείμενων μεταβλητών x και y μπορεί να γίνει και αυθαίρετα, όπως πχ για τον πληθωρισμό και την ανεργία. Στην πρόβλεψη ωστόσο της σοδειάς για κάποιο έτος, η ταξινόμηση των μεταβλητών είναι πιο προφανής. Θέλομε να εκφράσομε τη μία μεταβλητή ως συνάρτηση της άλλης. Είναι y: εξαρτημένη ή ενδογενής μεταβλητή (εξαρτάται από την άλλη μεταβλητή) x: ανεξάρτητη ή εξωγενής μεταβλητή (εξαρτάται από παράγοντες του συστήματος). Γενικά, θέλομε να προβλέψομε την τιμή της ενδογενούς, δοσμένης μιας τιμής της εξωγενούς μεταβλητής. 26
Ένας απλός τρόπος για την εύρεση της συναρτησιακής σχέσης δύο συνόλων δεδομένων είναι ο εξής: Πρώτον, τοποθετούμε τα δεδομένα σε καρτεσιανούς άξονες και Δεύτερον, αναζητούμε την τάση που επιδεικνύουν. Μια συνήθης υπόθεση είναι η γραμμική τάση (εξίσωση καμπύλης) y x ενώ μερικές άλλες τάσεις θα δούμε παρακάτω. 27
Παρατηρούμε ότι μια παρατήρηση δεν ανήκει κατ' ανάγκη στη γραμμή, κυρίως διότι το y εξαρτάται από περισσότερους παράγοντες του ενός (x), οι οποίοι είναι μη εμφανείς κατά τη λήψη των δεδομένων. y ε i = κατάλοιπο ε i x Οπότε η εξίσωση καμπύλης γίνεται (μοντέλο, υπόδειγμα) 28
. y x Πώς ερμηνεύεται; σφάλμα ή στοχαστική μεταβλητή έναντι παραγόντων άλλων από τον x που επιδρούν στον y όπως, το κυβερνόν κόμμα, η προσφορά χρήματος, το ισοζύγιο πληρωμών, ο ανταγωνισμός κλπ 29
Για κάθε x=ανεργία υπάρχει μια κατανομή πιθανοτήτων για το αντίστοιχο y=πληθωρισμός y x y ε i = κατάλοιπο Y ε i x 30
Οι τιμές y κατανέμονται κανονικά με την ίδια τυπική απόκλιση. Για κάθε x, η μέση τιμή των τιμών του y βρίσκεται πάνω στην ευθεία παλινδρόμησης. Περισσότερες τιμές y βρίσκονται διεσπαρμένες κοντά στην ευθεία, παρά μακριά. 31
Τεταγμένη (ordinate) Θέλομε να επιλέξομε τα α και β έτσι ώστε η ευθεία να βρίσκεται «πλησιέστερα» στα δεδομένα (xi, yi). y ε i = κατάλοιπο ε i x Τετμημένη (abscissa) 32
1.3 Εκτιμητές ελαχίστων τετραγώνων Έστω εi η κατακόρυφη απόσταση του (xi, yi) από το σημείο (xi, α+β*xi) επί της ευθείας y ( x ), i 12,,..., n i i i Έστω S το άθροισμα (ιδέα του Lagrange) S, n i1 2 i [ yi ( xi )] 2 αˆ, βˆ 33
1.3 Εκτιμητές ελαχίστων τετραγώνων Έστω εi η κατακόρυφη απόσταση του (xi, yi) από το σημείο (xi, α+β*xi) επί της ευθείας y ( x ), i 12,,..., n i i i Έστω S το άθροισμα S, n i1 2 i [ yi ( xi )] 2 αˆ, βˆ 34
ˆ ( i i ) i i 2 n( x ) 2 i xi n x y x y ˆα y β ˆ x y ˆα β ˆ x e μοντέλο γραμμικής παλινδρόμησης yˆ ˆ ˆ x, i 1,2,..., n i i y yˆ, residuals κατάλοιπα i i i Εκτιμητές (estimates) Τι σημαίνουν οι εξισώσεις αυτές; 35
ˆ n i1 ( x x)( y y) i i ( x x) i 2 Κοινή μεταβολή των Χ και Υ πέριξ των μέσων τους διά της μεταβολής του Χ πέριξ του μέσου του. ˆα y βx ˆ Η γραμμή παλινδρόμησης διέρχεται από τους μέσους των Χ και Υ. β_hat = Ορμή στην κατεύθυνση του άξονα x α_hat = σταθερή τιμή (η αρχή για το β_hat) 36
ˆ n i1 ( x x)( y y) i i ( x x) i 2 Γνωρίζομε για τις ευθείες γραμμές ότι β είναι η κλίση ή ο ρυθμός μεταβολής της Υ ως προς τη Χ, ˆα y βx ˆ ενώ α είναι η τιμή της Υ για Χ=0, δηλ. η τεταγμένη στην αρχή. β_hat = Ορμή στην κατεύθυνση του άξονα x α_hat = σταθερή (αρχή για το β_hat) 37
ˆ n i1 ( x x)( y y) i i ( x x) i 2 ˆα y βx ˆ Για διαφορετικό σύνολο δεδομένων (δείγμα), θα έχομε διαφορετικές εκτιμήσεις των α και β. - Πώς μεταβάλλονται αυτοί οι εκτιμητές καθώς το δείγμα μεταβάλλεται; 38
Ένα μέτρο αυτής της μεταβλητότητας είναι το τυπικό σφάλμα του εκτιμημένου συντελεστή (standard error of the estimated coefficient = εκτιμητής της τετραγωνικής ρίζας της διακύμανσης στην κατανομή των β_hat), που αποδεικνύεται ότι είναι SE( ) SEE ( x x) i 2 όπου SEE είναι το standard error of the estimate, ένα μέτρο της ποιότητας της προσαρμογής (αφ εαυτού χρήσιμο) SEE n 2 e i 2 e ( y yˆ ) ( y ˆ ˆ x ) Εδώ, 2 2 2 i i i i i ˆ 2 ( yi ) yi ( xi yi) ˆ 39
- Πόσο μέρος από τη μεταβλητότητα της εξαρτημένης μεταβλητής εξηγείται από την εκτιμημένη εξίσωση παλινδρόμησης; Η σύγκριση των εκτιμημένων τιμών με τις πραγματικές μπορεί να δείξει την καταλληλότητα του υποδείγματος. Στην Οικονομετρία χρησιμοποιούνται τα τετράγωνα των αποκλίσεων του Υ από τον απλό εκτιμητή Υbar ( x γραμμή). TSS ( y y) [( yˆ y) e ] ˆ i 2 2 i i 2 2 ( yi y) ei 2 ( yi y) ei ˆ =0 TSS Explained SS= SSReg ( yˆ y) e i = ESS + 2 2 i RSS Residual SS Ανάλυση διακύμανσης 40
Η άριστη προσαρμογή (OLS) επομένως ικανοποιεί : TSS ( yˆ y) e i 2 2 i = ESS + RSS Ordinary Least Squares μέγιστο ελάχιστο κατάλοιπα 2 = ελάχιστα σταθερό Συντελεστής προσδιορισμού: 2 RSS R = ESS / TSS = 1 TSS 2 0R 1 Όσο R 2 πιο κοντά στο 1, τόσο καλύτερη η γραμμική σχέση 41
Ο συντελεστής προσδιορισμού απαντά στο καίριο ερώτημα: - Τι ποσοστό μεταβολών της Υ οφείλεται στην επίδραση της Χ; Δηλ. πόσο εμπιστευόμαστε τα αποτελέσματα πρόβλεψης που δίνει η εξίσωση. ε i = κατάλοιπα. Όσο επίδραση της Χ στην Υ, τόσο ε i 42
Το Πυθαγόρειο Θ. (γενίκευση) y yi 2 2 2 Δεδομένα 3 2 y 4 2 5 2 e y yˆ e ei 2 2 2 Σφάλμα Ο Πυθαγόρας ο Σάμιος (580 π.χ. - 496 π.χ.) yˆ yˆi 2 2 2 Προβολή του ŷ y Χώρος των ευθειών γραμμών 43
2. Ανάλυση Θα αναλύσομε διάφορες όψεις τoυ μοντέλου παλινδρόμησης 44
2.1 Παραδείγματα (α) Πληθωρισμός ανεργία Έστω το μοντέλο y x Ζητούνται εκτιμητές των α και β. Με αντικατάσταση των τιμών από τον Πίνακα 1 στους τύπους των α_hat και β_hat βρίσκομε: ˆ 0.8849 α ˆ 0.0756 β 45
οπότε η άριστη ευθεία είναι y 0.8849 0.0756 x και το μοντέλο γίνεται (πληθωρισμός) = 0.8849 0.0756(ανεργία)+ε κλίση β ρυθμός μεταβολής πληθωρισμού ως προς ανεργία αρνητικός : Άρα, καθώς ανεργία πληθωρισμός 46
οπότε η άριστη ευθεία είναι y 0.8849 0.0756 x και το μοντέλο γίνεται (πληθωρισμός) = 0.8849 0.0756(ανεργία)+ε κλίση β ρυθμός μεταβολής πληθωρισμού ως προς ανεργία αρνητικός : Άρα, καθώς ανεργία πληθωρισμός 47
Πληθωρισμός vs. ανεργία Πληθωρισμό 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 y = -0,0756x + 0,8849 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 48
- Πώς μπορούμε να λάβομε τα θεμελιώδη στατιστικά μεγέθη που αφορούν σε μια παλινδρόμηση; - Με χρήση του Excel, εφικτό. Ακολουθούν τρεις τρόποι. 49
Πρώτος τρόπος: Ο χρήστης κάνει τις πράξεις 50
Ο Πίνακας 1 στο Excel (Stat-4.xls), n=12 ( i i ) i i 2 n( x ) 2 i xi n x y x y ˆ y ˆα β ˆ x e ˆ ˆα y βx 51
Δεύτερος τρόπος: Με τη συνάρτηση Linest 52
Stat-4.xls αποτέλεσμα -0,075580 0,884926 0,201574 0,357143 0,013863 0,403275 0,140578 10 0,022862 1,626304 Στατιστική διανυσματική συνάρτηση {= LINEST(C2:C13;B2:B13;TRUE;TRUE)} x ; y y=b*x+a ερμηνεία reg = regression res = residual b se(b) r^2 F ss(reg) ή ESS a se(a) se(y) degf ss(res) ή RSS
Ερμηνεία των εξαγομένων της LINEST b Παράμετρος της παλινδρόμησης, κλίση se(b) standard error Τυπικό σφάλμα για την παράμετρο b R^2 Συντελεστής προσδιορισμού a Παράμετρος της παλινδρόμησης, σταθερά se(a) standard error Τυπικό σφάλμα για την παράμετρο a se(y) Η τυπική απόκλιση των τιμών y degf Είναι οι βαθμοί ελευθερίας για την F -0,075580 0,884926 0,201574 0,357143 0,013863 0,403275 0,140578 10 0,022862 1,626304 [ = 1,626304/10 = 0.403275 ] ss(reg) ή ESS Το άθροισμα των τετραγώνων των αποκλίσεων των εκτιμημένων y-τιμών από τον αριθμητικό τους μέσο ss(res) ή RSS [ =ss(res)/(n-2) = se(y) ] Το άθροισμα των τετραγώνων των καταλοίπων. Δηλαδή η ελάχιστη τιμή της αντικειμενικής συνάρτησης S που έδωσε 54 την παλινδρόμηση
Για να προσδιορίσομε αν η παλινδρόμηση είναι αποδεκτή, η ληφθείσα τιμή του F (εν προκειμένω 0,140578) συγκρίνεται με την τιμή F(5%; 2, 10), όπου 5%=επίπεδο σημαντικότητας, 2=πλήθος παραμέτρων και 10=degF, ενώ n=12. Καλούμε στο Excel τη συνάρτηση =FINV(5%; 2, 10) = 4,102821. Την ίδια τιμή θα πάρομε από τους πίνακες της κατανομής F με αντίστοιχες παραμέτρους που βρίσκονται συνήθως στα παραρτήματα των βιβλίων στατιστικής. Επειδή 0,140578 < 4,102821, η παλινδρόμηση δεν είναι αποδεκτή σε επίπεδο 5%. 55
F πυκνότητα πιθανότητας (Snedecor F distribution ή Fisher-Snedecor distribution) 56
F αθροιστική συνάρτηση κατανομής 57
F κατανομή 58
Μια συνάρτηση κατανομής, γενικώς, προέρχεται από επαναληπτική παρατήρηση κάποιων φαινομένων. Αυτό τη διαφοροποιεί από μια οποιαδήποτε συνάρτηση 59
(β) Καφέδες καιρός Υπολογίστε με το Excel την παλινδρόμηση της ποσότητας καφέδων ως προς θερμοκρασία x, χρησιμοποιώντας τα δεδομένα του Πίνακα 2. 60
ΠΙΝΑΚΑΣ 2 Θερμο κρασία Ποσότ ητα Θ Π Θ Π Θ Π 20 396 24 260 16 434 19 409 22 297 25 250 16 285 15 493 23 397 20 299 17 496 15 509 18 425 22 520 20 360 18 406 19 425 18 498 21 417 20 410 61
Έστω το μοντέλο y x y 713.8571 16.2143 x (καφέδες) = 713.8571 16.2143 (θερμοκρασία) + ε. 62
600 500 400 300 200 100 0 y = -16,214x + 713,86 R 2 = 0,3067 10 15 20 25 30 Άσκηση: Εφαρμόστε τη LINEST γι αυτό το πρόβλημα. 63
// 64
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ Μέρος 2
Υπενθύμιση από την περασμένη διάλεξη Μοντέλο ή υπόδειγμα y x σφάλμα ή στοχαστική μεταβλητή 66
Για κάθε x=ανεργία υπάρχει μια κατανομή πιθανοτήτων για το αντίστοιχο y=πληθωρισμός y x y ε i = κατάλοιπο Y ε i x 67
Ασχολούμαστε με ένα σύνολο δεδομένων: data engineering Εν προκειμένω, πληθωρισμό και ανεργία και αναζητούμε γραμμική εξάρτηση. 68
ΠΙΝΑΚΑΣ 1 Έτος % Ανεργία % Πληθωρισμός 1960-61 1.9 0.2 1961-62 3.1 0.4 1962-63 2.5 0.9 1963-64 1.8 0.9 1964-65 1.2 0.7 1965-66 1.4 1.3 1966-67 1.6 1.6 1967-68 1.7 0.8 1968-69 1.5 0.7 1969-70 1.2 0.6 1970-71 1.1 0.5 1971-72 1.1 0.5 69 Υπολογισμός της ευθείας
Η άριστη ευθεία είναι y 0.8849 0.0756 x και το μοντέλο γίνεται (πληθωρισμός) = 0.8849 0.0756(ανεργία)+ε κλίση β ρυθμός μεταβολής πληθωρισμού ως προς ανεργία αρνητικός : Άρα, καθώς ανεργία πληθωρισμός 70
Πληθωρισμός vs. ανεργία Πληθωρισμό 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 y = -0,0756x + 0,8849 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 71
2.2 Έλεγχοι Υποθέσεων Θα ελέγξομε μια υπόθεση σχετικά με την κλίση β (ανάλογα μπορούμε να πούμε για το α αν και αυτό παρουσιάζει συνήθως μικρότερο ενδιαφέρον). Στις περισσότερες των περιπτώσεων φαίνεται εύλογο να υποθέτομε ότι ο στοχαστικός όρος ακολουθεί κανονική κατανομή με μέσο μηδέν. Η τυπική απόκλιση σ, ας πούμε, αυτής της κανονικής κατανομής εκτιμάται με τον τύπο 72
SEE 2 e i n 2 1 2 ˆ ˆ e i i i i SEE S ( y ) y ( x y ) n 2 = 1,626304/10 = 0.403275 standard error of the estimate Υποθέτομε ότι τα κατάλοιπα είναι ανεξ τμ ~ Ν(0,σ 2 ) Τότε S e αμερόληπτος εκτιμητής του σ Οπότε, μπορούμε να κάνομε προτάσεις για το σφάλμα πρόβλεψης. Πχ, το 95% περίπου των σφαλμάτων πρόβλεψης θα είναι <1.96S e. Τότε 1.96 0.4 = 0.784 δίνει μια 95% μπάντα για άλλα σημεία με το ίδιο πείραμα. 73
95% μπάντα πρόβλεψης Πληθωρισμός vs. ανεργία 1,8 1,6 1,4 Πληθωρισμό 1,2 1 0,8 0,6 0,4 y = -0,0756x + 0,8849 παρεμβολή προεκβολή 0,2 0 0 0,5 1 1,5 2 2,5 3 3,5 Ανεργία 74
Το επόμενο αποτέλεσμα (θεώρημα) μιλά για τη δειγματική κατανομή των β και α όταν κάνομε έλεγχο υποθέσεων. Δηλαδή, κάνομε έλεγχο υποθέσεων για τα σφάλματα των προβλέψεων. (Διαστήματα εμπιστοσύνης για τις παραμέτρους των γραμμικών υποδειγμάτων) 75
Αποτέλεσμα 3.1 Υποθέτομε ότι ένα τ.α.δ. n παρατηρήσεων λαμβάνεται από το μοντέλο γραμμικής παλινδρόμησης Τότε η t κατανομή με n 2 βε είναι η κατανομή του πληθυσμού αμφοτέρων των εκφράσεων t ˆ S e y x ˆ t ˆ S e ˆ 76
Αποτέλεσμα 3.1 (εναλλακτική έκφραση) Υποθέτομε ότι ένα τ.α.δ. n παρατηρήσεων λαμβάνεται από το μοντέλο γραμμικής παλινδρόμησης y x Τότε η t κατανομή με n 2 βε είναι η κατανομή του πληθυσμού αμφοτέρων των εκφράσεων t β 2 ˆβ β n (x ) x 2 ˆα α n (x 2 ) x 2 tα S e n 2 S e (x ) SEE 77
df=8 Statistician William Sealy Gosset, known as "Student"
https://en.wikipedia.org/wiki/student%27s_t-distribution 81
Ερώτημα Υπάρχει σημαντική μείωση του πληθωρισμού όταν η ανεργία αυξάνει? Δηλ. είναι β < 0? o : 0 1 : 0 εσ: 5% 82
Υποθέτομε ότι είναι αληθής η H 0 : β=0 Απορρίπτομε την Η 0 αν t β είναι στο ακραίο 5% περιοχής του t n-2 = t 10, δηλ. αν t β < -t 10, 0.05 = -1.812 Από Αποτέλεσμα 3, βˆ 0 0.07558 tβ 0.37495 1.812 Εναλλακτικώς, ˆ 0.201574 αναλυτικά S β e Άρα με 5% εσ τα δεδομένα δείχνουν ότι τη δεκαετία του '60, ο πληθωρισμός και η ανεργία ΔΕΝ κινήθηκαν σ' αντίθετη κατεύθυνση (αρνητική κλίση). 83
Με πράξεις στο Excel 84
1 2 ˆ ˆ e i i i i SEE S ( y ) y ( x y ) n 2 1 8.55 0.8849 9.1 ( 0.0756) 14.94 0.4033 10 t 2 ˆ ( ) e 2 n x x S n 0,0756 0 1237.67 20.1 20.1 0.4033 12 0.3749 Όπως προηγουμένως Με τη συνάρτηση LINEST, έχομε αμέσως το β_hat, το SE(β) και το SEE 85
Η συνάρτηση Linest του Excel έδωσε τα εξής αποτελέσματα: b=-0,075580 a=0,884926 0,201574 0,357143 0,013863 SEE = 0,403275 F=0,140578 degf =10 y 0,022862 RSS=1,626304 0.8849 0.0756 x όπου (βλπ Σημειώσεις του ΙΚΔ για τη χρήση του Excel στην Εφαρμοσμένη Στατιστική) S ( ˆ ) 0,201574 e β t ˆ S ˆ e 0, 075580 0, 201574 0.3749 SEE=sqrt(RSS/degF)=sqrt(1.62/10)=0.403275 86
Η συνάρτηση Linest του Excel δίνει και άλλα αποτελέσματα: b=-0,075580 a=0,884926 0,201574 0,357143 0,013863 SEE = 0,403275 F=0,140578 degf =10 ESS=0,022862 RSS=1,626304 F = ESS /1 RSS /10 = 0,022862 / 0,1626304 Η διαίρεση γίνεται με τους βαθμούς ελευθερίας Μ_RSS = 0,140578 Μ_ESS 87
Εφαρμογή στο Παράδειγμα 2 Υποδεικνύει η αύξηση θερμοκρασίας μια σημαντική μείωση πωλήσεων? Δηλ. είναι β < 0? H o : 0 H : 1 0 εσ: 5% 88
Η συνάρτηση Linest του Excel έδωσε τα εξής αποτελέσματα: -16,214300 713,8571 5,746098 112,6294 0,306692 71,9525 7,962502 18 S ( ˆ ) 5,746098 e β 41223,2 93189 Απορρίπτομε την Η 0 αν η τιμή της t β είναι < -t 18,0.05 = -1,734, 16.21 0 t β 2.82 1.734 5.75 Άρα σε 5% εσ οι πωλήσεις καφέδων αναμένεται να μειωθούν όταν αυξάνεται η θερμοκρασία. 89
2.3 Πρόβλεψη και δ εμπιστοσύνης Τί πωλήσεις καφέ αναμένονται αν θ=27 c ; Είναι y αˆ βx ˆ 713.86 16.21 27 276.19 Γενικά, η πρόβλεψη είναι αξιόπιστη για κοντινές τιμές του x στη δεξιότατη δεδομένη τιμή του x που χρησιμοποιήθηκε στο μοντέλο της παλινδρόμησης. Ειδάλλως για τις σχετικές προβλέψεις είναι προτιμότερο να χρησιμοποιούμε διαστήματα εμπιστοσύνης. 90
Πχ ένα 95% δε για το β στο παράδειγμα πωλήσεωνθερμοκρασιών βρίσκεται ως εξής: Είναι Τότε για n-2=18 και α/2=0.025 η κρίσιμη τιμή t n-2,α/2 = 2.1. Επομένως η πιθανότητα είναι 95% ότι το t β θα ικανοποιεί τις ανισότητες ή ˆ 2.1 2.1 S ˆ e t ˆ ~ t S ˆ e n2-2.1 < t β < 2.1 S e ˆ 2.1 S ˆ ˆ 2.1 ˆ e 16.21 2.15.75 16.21 2. 15.75 28.29 4.135 Είναι 95% δε 91
2.4 Άλλα μοντέλα παλινδρόμησης Για πιο πολύπλοκες περιγραφές καταφεύγομε σε μοντέλα όπως: 1. Πολλαπλή γραμμική παλινδρόμηση y x x x 1 1 2 2... 2. Πολυωνυμική παλινδρόμηση y x x x 2 m 0 1 2... m 3. Λογάριθμους. Εδώ αντικαθιστούμε το ζεύγος (xi,yi), xi>0 με (lnxi, lnyi) και ln y ˆαβˆ lnx 4. Κατά τμήματα γραμμική παλινδρόμηση 5. Εκθετική παλινδρόμηση, κοκ 92
2.5 Εφαρμογή στην Εκθετική Παλινδρόμηση Αν αντί για το γραμμικό επιλέξομε το εκθετικό υπόδειγμα y τότε με λογαρίθμιση λαμβάνομε το αντίστοιχο γραμμικό b ax e ln y lna bln x u από το οποίο μπορούμε να βρούμε α και b. u 93
Παραδείγματος χάριν, υποθέτομε ότι το εκτιμημένο υπόδειγμα έχει τη μορφή yˆ ˆ ˆ b ax yˆ 42.9 x 1.6 Πώς ερμηνεύεται το υπόδειγμα: η ελαστικότητα, η, της y ως προς x είναι -1.6, σταθερή. η = Δy/y / Δx/x = Δy/Δx x/y dy/dx x/y dy x x x bax b1 bax b1 b dx yˆ yˆ ax b 94
Δηλ. η ποσοστιαία μεταβολή της y είναι σταθερή, ανεξάρτητη από την τιμή της x (χρήσιμο σε ζήτηση, προσφορά κλπ). 95
η = Δy/y / Δx/x = Δy/y / 1% 2 = Δy/y / 1% Δy/y = 2% 96
3. Συσχέτιση Αναζητούμε πληροφορίες για τη σχέση μεταξύ δύο μεταβλητών. Η συσχέτιση προτιμάται της γραμμικής παλινδρόμησης, όταν δεν ζητείται συναρτησιακή σχέση ή πρόβλεψη. 97
3.1 Κίνητρο Υπάρχει σχέση ή συσχέτιση μεταξύ ύψους και βάρους? Υπάρχει συσχέτιση μεταξύ βαθμών μικροοικονομίας και μαθηματικών? Υπάρχει συσχέτιση μεταξύ δαπανών των εισοδημάτων για οικογένειες ιδίου μεγέθους και ηλικιακών ομάδων? Υπάρχει συσχέτιση μεταξύ κερδών επιχειρήσεων ή αριθμού εργαζομένων? Γνωρίζομε πως να απαντήσομε αυτές τις ερωτήσεις: Υποθέτομε ένα γραμμικό μοντέλο παλινδρόμησης y x 98
και οι ερωτήσεις ουσιαστικά είναι αν ο ρυθμός αλλαγής μιας μεταβλητής ως προς την άλλη είναι θετικός ή αρνητικός. Δηλαδή, αν είναι β>0 ή β<0. Η απάντηση δίνεται με έλεγχο υποθέσεως επί του β. Ωστόσο στα παραδείγματα θέλομε να γνωρίζομε απλώς αν β>0 ή β<0, και όχι τις τιμές των α και β, το οποίο γίνεται χρησιμοποιώντας έναν αριθμό, το συντελεστή συσχέτισης. 99
Ορίζεται ως 3.2 Ο συντελεστής συσχέτισης r ( ) i i i i n x y x y 2 2 n( x ) ( ) i x n y i i yi 2 2 1 r 1 Αν r > 0, θετική συσχ μεταξύ x και y, y αν x Αν r < 0, αρνητική συσχ, y αν x 100
r T ( x x) ( y y) x x y y 2 2 r = [covar xy ]/[σ x σ y ] = cos θ θ = γωνία μεταξύ x και y Ανισότητα Cauchy-Scwartz: covar xy σ x σ y x T y x 2 y 2 101
Παράδειγμα Θεωρούμε τα δεδομένα από την πώληση καφέδων και υπολογίζομε r =-0.55. Οι υποθέσεις β < 0 και β 0 είναι ισοδύναμες των r <0 και r 0, αντίστοιχα. Δηλ., είναι H : 0 o H : 0 1 εσ: 5% 102
Αποτέλεσμα 3.2 Αν ο πληθυσμιακός συντελεστής συσχέτισης δύο μεταβλητών είναι μηδέν και r είναι ο συντελεστής συσχέτισης δείγματος μεγέθους n, τότε ισχύει r n 2 2 ~ 1 r t n2 Μια εναλλακτική χρήση του r είναι το r 2 (συντελεστής προσδιορισμού) το οποίο δίνει το κλάσμα της μεταβολής της Y λόγω της μεταβολής της X. Στο παράδειγμα με τους καφέδες, λαμβάνομε r 2 =0.3025. Αυτό σημαίνει ότι η μεταβολή στη θερμοκρασία επιφέρει μεταβολή 30% στη ζήτηση καφέδων. 103
Ο έλεγχος r=0 έναντι r0 Υπολογίζομε το στατιστικό t r n2 2 1 r Αν t n-2 > κρίσιμης τιμής = t n-2,α/2 (πίνακας t), τότε απορρίπτεται η Η 0. Παράδειγμα με καφέδες Υπολογίζομε r =-0.55 και t n-2 = -0.55/ 10/ (1-0.55 2 ) = 2.08 < t n-2,α/2 =2.23, άρα αποδοχή Η 0. n 2 104
3.3 Εφαρμογές Θεωρούμε τύπους παραδειγμάτων όπου χρειάζεται μόνον ο συντελεστής συσχέτισης, ενώ η παλινδρόμηση δεν χρειάζεται. Αυτά είναι της μορφής που ο πληθυσμός συνίσταται από μονάδες όπως άνθρωποι, επιχειρήσεις, πειράματα κλπ, εν γένει χρήσιμα στις γνωστικές επιστήμες, την ψυχολογία και την ιατρική. Τα παραδείγματα στην οικονομία όπου αρμόζει ο συντελεστής συσχέτισης και όχι η παλινδρόμηση, συνήθως επικεντρώνονται σε έρευνες αγοράς και τη μικροοικονομική. Προσοχή στην κοινή παρερμήνευση του r: Ο r είναι μόνον ένα στατιστικό μέτρο της δύναμης της σχέσης. Δεν συνεπάγεται υποχρεωτικά κάποια αιτιατή σχέση. 105
2) Χρήση πακέτων του Excel Πολύπλευρες αναφορές πολλών επιστημών στο πρόβλημα της γραμμικής παλινδρόμησης Απαιτείται κατανόηση της θεωρίας και δυνατότητα διερμήνευσης 106
( Τρίτος τρόπος εκτίμησης των συντελεστών a_hat και β_hat με το Excel: Με τo πακέτο Analysis Toolpak (Regression) ) 107
Διεξαγωγή ανάλυσης παλινδρόμησης με το Excel: Θα αναλύσομε τη σχέση θερμοκρασίας περιβάλλοντος και θνησιμότητας λόγω καρκίνου του μαστού: Είναι ο δείκτης θνησιμότητας διαφορετικός για γυναίκες που ζουν σε περιοχές με διαφορετικές θερμοκρασίες; 108
Περιοχή Θερμοκρασία Θνησιμότητα 1 31,8 67,3 2 34,0 52,5 3 40,2 68,1 4 42,1 84,6 5 42,3 65,1 6 43,5 72,2 7 44,2 81,7 8 45,1 89,2 9 46,3 78,9 10 47,3 88,6 11 47,8 95,0 12 48,5 87,0 13 49,2 95,9 14 49,9 104,5 15 50,0 100,4 16 51,3 102,5 Επειδή τα δεδομένα επιδεικνύουν μια γραμμική σχέση, η βασική ερώτηση αφορά στον έλεγχο σημαντικότητας αυτής της γραμμικότητας Ακολουθούμε τα εξής βήματα: 109
1. Σχεδίαση του διαγράμματος διασποράς Κατάλοιπα 110,0 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία 111
Συντελεστής προσδιορισμού 2. Προσθήκη της γραμμικής παλινδρόμησης (γραμμής τάσης) Γραμμή τάσης y = 2,3577x - 21,795 110,0 R 2 = 0,7654 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία 112
Γραμμή τάσης 110,0 100,0 Θνησιμότητ 90,0 80,0 70,0 60,0 50,0 30,0 35,0 40,0 45,0 50,0 55,0 Θερμοκρασία Και η παραβολή φαίνεται να δίνει κατάλληλη προσαρμογή, αλλά για τοπικές προσεγγίσεις (με λίγα δεδομένα) η γραμμική έχει θεωρητική κάλυψη από το Θ. Taylor. 113
3. Υπολογισμός στατιστικών παλινδρόμησης Είναι η παλινδρόμηση στατιστικά σημαντική; - Εξετάζομε τον έλεγχο Η 0 : Δεν υπάρχει γραμμική σχέση Η 1 : Υπάρχει γραμμική σχέση με το Analysis ToolPak του Excel 114
Τα εξαγόμενα καταμερίζονται σε έξι περιοχές: 1. Στατ παλινδρόμ 2. ΑΝΑΔΙΑ 3. Εκτιμ παραμέτρων 4. Κατάλοιπα 5. Πιθανότητες 6. Διαγράμματα 115
.xls 116
Το φύλλο Excel BCancer2.xls Προσοχή στην ορολογία του Excel, διότι δεν είναι η επίσημα χρησιμοποιούμενη. 117
Διερμήνευση στατιστικών παλινδρόμησης του Excel Στατιστικά παλινδρόμησης Πολλαπλό R (correlation) 0,874854 R Τετράγωνο 0,765370 Προσαρμοσμένο R Τετράγωνο (επόμενη ΟΣΣ) 0,748611 = correl Τυπικό σφάλμα (τυπική απόκλιση) 7,544657 Μέγεθος δείγματος 16 Σκέψου το ως, ΜΟ των αποκλίσεων από τη γραμμή παλινδρόμησης, δηλ η τυπική απόκλιση μιας παρατήρησης από τη γραμμή 118
Διερμήνευση ΑΝΑΔΙΑ Αναλύει τη μεταβλητότητα του δείκτη θνησιμότητας, η οποία διαιρείται σε δύο μέρη: λόγω της παλινδρόμησης και λόγω της τυχαιότητας. 56,92=7,54 2 = τυπ αποκλιση 2 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθερίας SS MS F Σημαντικότητα F Παλινδρόμηση 1 2599,53 2599,53 45,67 9,2E-06 Κατάλοιπα RSS 14 796,91 56,92 Σύνολο TSS 15 3396,44 n-1 γίνεται ελάχιστο 2599,53/ 3396,44 = 76.54% = R 2 119 αποδίδεται στην Παλινδρ
Η στήλη SS δίνει αθροίσματα τετραγώνων. TSS = άθροισμα τετραγώνων αποκλίσεων του δείκτη θνησιμότητας από τον ολικό μέσο TSS μερίζεται εις διπλούν: ESS = άθροισμα τετραγώνων αποκλίσεων της γραμμής παλινδρόμησης από τον ολικό μέσο RSS = άθροισμα τετραγώνων αποκλίσεων του δείκτη θνησιμότητας από τη γραμμή παλινδρόμησης. Αυτό θέλομε να ελαχιστοποιήσομε. 120
Διερμήνευση ΑΝΑΔΙΑ (συνέχεια) 3396,44/15=226.43 = διακύμανση δείκτη θνησιμότητας 226.43 = 15.04 = stdev δείκτη θνησιμότητας F κλάσμα = 2599,53/ 56,92 = 45,67 Αν F > > τότε παλινδρ στατ σημαντική ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθερίας SS MS=SS/df F Σημαντικότητα F Παλινδρόμηση 1 2599,53 2599,53 45,67 9,2E-06 Κατάλοιπα RSS 14 796,91 56,92 Σύνολο TSS 15 3396,44 p-value = 0.0000092 121
Εκτιμητές παραμέτρων και στατιστικά Συντελεστές Τυπικό σφάλμα t τιμή-p Κατώτε ρο 95% Υψηλότ ερο 95% Τεταγμένη στην αρχή -21,79 15,67-1,39 0,19-55,41 11,82 t 14 Θερμοκρασία 2,36 0,35 6,76.0000092 1,61 3,11 κλίση = -21,79 / 15,67 = 2,36 / 0,35 Όπως στην ΑΝΑΔΙΑ Διαστήματα εμπιστοσύνης δίνονται αυτόματα. Το άλλο ζεύγος καθορίζεται από χρήστη. 122
Τι συμπεραίνομε από τα στατιστικά της παλινδρόμησης αυτής; Κατ αρχήν, μπορούμε να απορρίψομε την Η 0 και να αποδεχθούμε την Η 1 ότι υπάρχει γραμμική σχέση μεταξύ δείκτη θνησιμότητας και θερμοκρασίας. Από τα δε έχομε 95% εμπιστοσύνη για την κλίση, ότι κάθε μοναδιαία αύξηση της Θ, θα αυξάνει ο δείκτης θνησιμ μεταξύ 1.61 και 3.11 σημείων. 123
Τιμές Πρόβλεψης Ένας κύριος στόχος της παλινδρόμησης είναι να κάνει προβλέψεις, y 0 = α + β*x 0 Αν x 0 ~ x_bar τότε αναμένεται καλή πρόβλεψη. Γενικά μπορούμε να θεωρήσομε ένα διάστημα εμπιστοσύνης y 0 t v,2.5% σ p, όπου y 0 λαμβάνεται από x 0 και σ p από την πρόβλεψη όταν x 0 124
Άνω γραμμή εμπιστοσύνης y_bar Κάτω γραμμή εμπιστοσύνης x_bar 125
Κατάλοιπα 7,544657 ΕΞΟΔΟΣ ΥΠΟΛΟΙΠΩΝ ΕΞΟΔΟΣ ΠΙΘΑΝΟΤΗΤΑΣ Μέγεθος δείγματος Προβλεπόμενη Θνησιμότητα Κατάλοιπα Κανονικοποιημένα κατάλοιπα = Κ / St Error Estim Εκατοστημόριο Θνησιμότητα 1 53,18 14,12 1,937211 3,125 52,5 2 58,36692-5,86692-0,80492 9,375 65,1 3 72,98463-4,88463-0,67015 15,625 67,3 4 77,46425 7,135751 0,978998 21,875 68,1 5 77,93579-12,8358-1,76102 28,125 72,2 6 80,76502-8,56502-1,17509 34,375 78,9 7 82,41541-0,71541-0,09815 40,625 81,7 8 84,53733 4,662667 0,6397 46,875 84,6 9 87,36657-8,46657-1,16158 53,125 87,0 10 89,72426-1,12426-0,15424 59,375 88,6 11 90,90311 4,096892 0,562078 65,625 89,2 12 92,55349-5,55349-0,76192 71,875 95,0 13 94,20388 1,69612 0,232701 78,125 95,9 14 95,85427 8,645733 1,186162 84,375 100,4 15 96,09004 4,309964 0,591311 90,625 102,5 126 16 99,15504 3,344961 0,458916 96,875 104,5
Τι συμπεραίνομε από τα κατάλοιπα; Κατ αρχήν, μπορούμε να διακρίνομε έκτοπα σημεία και εφεξής να προσέχομε την επιρροή τους στην ανάλυση. Αν τα κατάλοιπα είναι κανονικά κατανεμημένα, τότε πρέπει να είναι συγκεντρωμένα πέριξ του μηδενός. Γιατί; Διότι για μια Ν κατανομή, 50% των τιμών είναι άνω και 50% κάτω από τον μέσο (Σ Res_i/n = 0). Άρα τα μισά περίπου είναι + και τα υπόλοιπα -. 127
Διάγραμμα καταλοίπων Κατάλοιπα 20 15 10 5 0-5 -10-15 0 5 10 15 20 Θερμοκρασία Διακρίνομε μια καμπύλη τάση 128
Στη συνέχεια αναλύομε τα κατάλοιπα για να εξετάσομε την καταλληλότητα τού παλινδρομικού υποδείγματος. 129
Είναι τα κατάλοιπα κανονικά κατανεμημένα; Αν τα κατάλοιπα είναι κανονικά κατανεμημένα, περίπου 68% των κανονικοποιημένων καταλοίπων πρέπει να είναι μεταξύ -1 και 1. Και περίπου 95% πρέπει να είναι μεταξύ 1.96 και 1.96. Εν προκειμένω: 11/16=68.8% στο 1 έως 1. Άρα πλησίον του 68%. 16/16=100% στο 1.96 έως 1,96. Πολύ κοντά στο 95%. Ικανοποιητικά αποτελέσματα Κανονικοποιημένα κατάλοιπα = Κ / StErrorEstim 1,937-0,804-0,670 0,979-1,761-1,175-0,098 0,639-1,162-0,154 0,562-0,762 0,233 1,186 0,591 0,459 130
Διάγραμμα κανονικής πιθανότητας 120 100 Θνησιμότητ 80 60 40 20 y = 0,4976x + 58,465 R 2 = 0,9681 Διαφορά θέσης της μπλε κατανομής από Ν 0 0 20 40 60 80 100 120 Δείγμα ποσοστού Τα κατάλοιπα είναι εναλλάξ άνω και κάτω της γραμμής πιθανότητας. Δεν αποκλίνουν και πολύ από την κανονική. 131
Έχουν τα κατάλοιπα σταθερή διακύμανση; Κατάλοιπ 20 15 10 5 0-5 -10-15 0 20 40 60 80 100 120 Προβλεπ θνησιμότητα Η διακύμανση φαίνεται να είναι μεγαλύτερη για κάποιες εκτιμημένες τιμές. Ενδεχομένως να είναι έκτοπο σημείο ή λάθος παλινδρόμηση σ αυτή την περιοχή. Επιφυλακτικοί! 132
Ανεξαρτησία των καταλοίπων; Εφαρμόζομε runs test ή Durbin Watson test, κλπ, με πιο προηγμένα πακέτα λογισμικού. Σ αυτό το σημείο ο αναλυτής είναι ήδη αρκετά προχωρημένος! 133
Τέλος 136