ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ ΡΟΜΗΣΗ (Smple Lear Regresso) Να κατανοηθεί η έννοια της παλινδρόµησης Ποιες οι προϋποθέσεις για να εφαρµοσθεί η γραµµική παλινδρόµηση; Τι είναι το γραµµικό µοντέλο και πως εκτιµούνται οι παράµετροι του. Nα συζητηθούν πιο πολύπλοκες τεχνικές όπως η πολλαπλή παλινδρόµηση (multple lear regresso). ΕΙ Η ΠΑΛΙΝ ΡΟΜΗΣΗΣ Γραµµική παλινδρόµηση (Lear regresso). Χρησιµοποιείται όταν η µεταβλητή αποτελέσµατος είναι αριθµητική, όπως, η πίεση αίµατος κλπ. Λογιστική παλινδρόµηση (Logstc Regresso). Χρησιµοποιείται όταν η µεταβλητή αποτελέσµατος είναι δική, όπως η εµφάνιση ή όχι µυωπίας, η ύπαρξη ή όχι µιας ασθένειας. Λογαριθµική-Γραµµική Παλινδρόµηση (log-lear regresso). Εφαρµόζεται όταν η µεταβλητή αποτελέσµατος είναι διακριτή, όπως ο αριθµός των νεοδιαγνωσµένων περιπτώσεων καρκίνου του πνεύµονα. Παλινδρόµηση Co. Καλείται επίσης ως Αναλογική Παλινδρόµηση Κινδύνου (Proportoal hazard regresso) όταν η µεταβλητή αποτελέσµατος είναι ο χρόνος για να συµβεί κάποιο γεγονός π.χ. θάνατος, η ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ (Regresso) Έστω Χ και Υ δύο µεταβλητές και (, ) τα δυνατά ζευγάρια τιµών που µπορούµε να δηµιουργήσουµε. Θεωρούµε ότι οι δύο µεταβλητές συσχετίζονται και συνδέονται µε γραµµική σχέση. Συνήθως η Χ καλείται ανεξάρτητη ή επεξηγηµατική (eplaator) Η Υ καλείται εξαρτηµένη ή δεσµευµένη (respose) µεταβλητή. ΣΚΟΠΟΣ ΤΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ Να διερευνηθεί η αλλαγή της ανεξάρτητης µεταβλητής σε σχέση µε τις αλλαγές τιµών εξαρτηµένης µεταβλητής. Να καθορισθούν οι ΠΑΛΙΝ ΡΟΜΗΣΗ Το θεωρητικό γενικό µοντέλο µε ένα ανεξάρτητο παράγοντα για τον πληθυσµό (populato regresso le) E( ) = µ = α + β Πειραµατικά οι παρατηρούµενες τιµές αποκλίνουν κατά ε από την Αναµενόµενη τιµή E( ) = α + β + ε Από ένα δείγµα η εξίσωση της γραµµικής σχέσης δίνεται από τη σχέση (a, b εκτιµήτριες των α, β): ) =a+b παράµετροι (συντελεστές) της σχέσης. 3 4
ΠΡΟΥΠΟΘΕΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΛΛΙΝ ΡΟΜΗΣΗ Για µια συγκεκριµένη τιµή της οι αντίστοιχες τιµές των ακολουθούν κανονική κατανοµή µε Ν(µ υ χ, σ ). Οι τιµές της µ περιγράφονται από την ευθεία α+β Ισχύει η οµοσκέδαση (homoscedact) των υπολοίπων (resduals). Οι σ παραµένουν σταθερές για όλες τις τιµές των. Οι τιµές των είναι ανεξάρτητες µεταξύ τους. ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ Χ, Υ: Η ανεξάρτητη και η εξαρτηµένη µεταβλητή (, ): Τα ζεύγη µετρήσεων των δύο µεταβλητών Χ, Υ X, Y: e : ˆ : Οι µέσες τιµές των µεταβλητών Χ, Υ αντίστοιχα Οι υπολειπόµενες ποσότητες-σφάλµατα του γραµµικού µοντέλου (resduals). e ˆ = Η εκτιµώµενη τιµή της µε βάση το γραµµικό µοντέλο. Άθροισµα γινοµένων SS X, SS : Cov( X, Y ) = ( )( ) Άθροισµα τετραγώνων (Sum of squares) SS = ( ) SS = ( ) SS R =b SS = = SS e : Άθροισµα τετραγώνων των σφαλµάτων e SS ( ˆ e = ) = SSe = 5 6 = R : Συντελεστής R. ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ ( )( ) s b: = b= R = s ( ) se(b) = SE(b) & SE(a): se(a) = s = = s ( - ) + = ( ˆ ) = SSe R = = SS ( ) ( ) = a: a=-b s ( ˆ ) SSE = = = ΜΕΘΟ ΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Η µέθοδος έχει ως στόχο την ελαχιστοποίηση των σφαλµάτων e e = ˆ e ( ˆ = ) = = Από τον µηδενισµό της α παραγώγου της s ( )( ) = b= R = s ( ) = b e a=-b e a 7 8
Οι µετρήσεις µήκους και βάρους για ένα δείγµα 0 λιποβαρών κατά τη γέννηση βρεφών παρουσιάζονται στον παρακάτω πίνακα. Υποστηρίζεται από ερευνητές ότι υπάρχει µια γραµµική σχέση µεταξύ µήκους και βάρους των νεογέννητων. Υπολογίστε τους συντελεστές της ευθείας που προσαρµόζεται καλύτερα στα δεδοµένα. AA 3 4 5 6 7 8 9 0 legth 4 40 38 38 38 3 33 38 30 34 weght 360 490 490 80 00 680 60 060 30 830 AA 3 4 5 6 7 8 9 0 legth 3 39 38 39 37 39 38 4 39 38 weght 880 30 40 350 950 0 980 480 50 50 ΕΠΙΛΥΣΗ Για να εκτιµήσουµε τις µεταβλητές a και b υπολογίζουµε τα εξής: Τα περιγραφικά στατιστικά του δείγµατος = 37,5 = 0 s = 3, = 43 = 0 s = 55 = 859.30 Τα αθροίσµατα τετραγώνων των µεταβλητών Χ, Υ, SS = ( ) S = 93, = 96,55 SS = ( ) S = 955 =.35.00 Οι συντελεστές a και b υπολογίζονται από: ( )( ) = 0.07 0.07 b = = 5,4 a = -b =43-5,4 * 37,5 = -760,5 96,55 9 0 ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β Οι συντελεστές a, b ακολουθούν κανονική κατανοµή : Μηδενική υπόθεση Ηο: β=0 Εναλλακτική υπόθεση Η Α : β 0 Μηδενική υπόθεση Ηο: α=0 Εναλλακτική υπόθεση Η Α : α 0 a~n(α, s b~n(b, s Y X Y X [ + ]) ( ) = = ) ( ) Συνεπώς οι SE(a), SE(b) θα είναι SE(a) = s SE(b) = s + Για να ελέγξουµε εάν ισχύει η γραµµικότητα στον πληθυσµό ελέγχουµε εάν β= ή 0 Ο έλεγχος θα γίνει µε χρήση t-test = = ( ) ( ) Υπολογισµός των SS SS R, SS e SSR = b SS = 5,4 96,55 = 56.07 SSe S = = 99,86 SS = SS SS =.35.00-56.07=78.993 e R SS(b)= 4,6 t=b/ss(b)=3,594 Υπολογισµός των στατιστικών t SS(a)= 53,48 t=a/ss(a)=-,43 Συγκρίνουµε µε την κρίσιµη τιµή t για - και α=0,05 t=,0 Ο συντελεστής β είναι διάφορος του 0 Ο συντελεστής α δεν είναι διάφορος του 0 3
ΕΚΤΙΜΗΣΗ ΤΗΣ ΠΡΟΣΑΡΜΟΓΗΣ Πόσο «καλό» είναι το µοντέλο; Ο συντελεστής R εξηγεί το ποσοστό της συνολικής µεταβλητότητας που εξηγείται από το µοντέλο Οι τιµές του κυµαίνονται από 0- Ο συντελεστής R είναι το τετράγωνο του συντελεστή Pearso στη συσχέτιση ΕΝΑΛΛΑΚΤΙΚΑ: ιαγράµµατα υπολοίπων ( ˆ ) = SSe 78.993 R = = = = 0, 48 SS.35.00 ( ) = ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗΝ ΚΑΜΠΥΛΗ ΚΑΙ ΤΙΣ ΑΤΟΜΙΚΕΣ ΜΕΤΡΗΣΕΙΣ Εκτίµηση των Ε εµπιστοσύνης για την καµπύλη (cofdece lmts) και για τις ατοµικές τιµές (predcto bads) Πρόκειται για τα Ε για τη µέση τιµή (αριστερή σχέση) και τις ατοµικές µετρήσεις (δεξιά σχέση) Οι σχέσεις είναι συναρτήσεις του ( ) ( ) se( ˆ) = s ˆ + se( ) = s + + ( ) ( ) = = ) 95% Ε: ± t ˆ, ase ( ) 3 4 ΕΠΙΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΜΕ EXCEL ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ ΡΟΜΗΣΗΣ EXCEL Από Εργαλεία Ανάλυση εδοµένων Παλινδρόµηση (Tools Data Aalss Regresso) 5 6 4
ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ ΡΟΜΗΣΗΣ EXCEL ΙΑΓΡΑΜΜΑ ΓΡΑΜΜΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ 600 400 00 = 5,39-760,54 R = 0,48 000 We g ht 800 600 400 00 0 0 0 0 30 40 50 Le g th 7 8 ΙΑΓΡΑΜΜΑ ΥΠΟΛΟΙΠΩΝ ΠΑΛΙΝ ΡΟΜΗΣΗ SPSS le g th ιάγραµµα υπ ολοίπ ω ν 600 500 400 300 Υπόλοιπα 00 00 0-00 -00-300 -400 0 0 0 30 40 50 le g th 9 Από Aalze Regresso Lear. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.0) CIN(95) /NOORIGIN /DEPENDENT Weght /METHOD=ENTER legth /RESIDUALS DURBIN /SAVE MCIN ICIN RESID ZRESID. 0 5
ΠΑΛΙΝ ΡΟΜΗΣΗ SPSS ΠΑΛΙΝ ΡΟΜΗΣΗ SPSS Varables Etered/Removed b Coeffcets a Varables Varables Model Etered Removed Method legth a. Eter a. All requested varables etered. b. Depedet Varable: Weght ΧΡΗΣΙΜΟΠΟΙΟΎΜΕΝΗ ΜΕΘΟ ΟΣ Ustadardzed Stadardzed Coeffcets Coeffcets Model B Std. Error Beta t Sg. (Costat) -760,54 53,483 -,43,70 legth 5,39 4,56,646 3,594,00 a. Depedet Varable: Weght ΣΥΝΤΕΛΕΣΤΕΣ Model Summar b Adjusted Std. Error of Durb- Model R R Square R Square the Estmate Watso,646 a,48,385 99,860,05 a. Predctors: (Costat), legth b. Depedet Varable: Weght ANOVA b Sum of Model Squares df Mea Square F Sg. Regresso 5606,7 5606,665,99,00 a Resdual 78993,3 8 39944,074 Total 3500 9 a. Predctors: (Costat), legth b. Depedet Varable: Weght ΑΠΟΤΕΛΕΣΜΑΤΑ ΓΙΑ R ΕΓΚΥΡΟΤΗΤΑ ΤΟΥ ΜΟΝΤΕΛΟΥ Predcted Value Std. Predcted Value Stadard Error of Predcted Value Adjusted Predcted Value Resdual Std. Resdual Stud. Resdual Deleted Resdual Stud. Deleted Resdual Mahal. Dstace Cook's Dstace Cetered Leverage Value Resduals Statstcs a Mmum Mamum Mea Std. Devato N 776,64 39,5 43,00 64,80 0 -,3,508,000,000 0 44,74,95 60,53 8,648 0 53,4 373,43 34,8 9,003 0-30,359 543,358,000 94,530 0 -,553,79,000,973 0 -,67 3,73,08,087 0-359,888 787,589 8,85 44,873 0 -,768 5,000,03,396 0,00 4,94,950,88 0,000,408,53,534 0,000,60,050,068 0 ΠΕΡΙΓΡΑΦΙΚΑ ΣΤΑΤΙΣΤΙΚΑ RESIDUALS a. Depedet Varable: Weght ΑΝΑΛΥΣΗ ΥΠΟΛΟΙΠΩΝ 600 400 00 t h g e W 000 800 R Sq Lear = 0,48 RES_: Υπόλοιπα LMCI_ & UMCI_: LICI_ & UICI_: ZRE_: ΤΥΠΟΠΟΙΗΜΕΝΑ ΥΠΟΛΟΙΠΑ 95% E για την καµπύλη 95% Ε για κάθε τιµή 600 30 3 34 36 38 40 4 legth 3 4 6
ΙΑΓΡΑΜΜΑ ΓΙΑ ΕΛΕΓΧΟ ΥΠΟΛΟΙΠΩΝ ΘΕΜΑΤΑ ΓΙΑ ΣΥΖΗΤΗΣΗ Σε τι διαφέρει η παλινδρόµηση από τη συσχέτιση; Normal P-P Plot of Regresso Stadardzed Resdual,0 Depedet Varable: Weght Μπορώ να επεκτείνω τα αποτελέσµατα τις παλινδρόµησης σε άλλη περιοχή τιµών; 0,8 b ro P 0,6 m u C d te c0,4 e p E Τι είναι η πολλαπλή παλινδρόµηση; 0, 0,0 0,0 0, 0,4 0,6 0,8,0 Observed Cum Prob 5 6 7