Συσχέτιση Παλινδρόμηση Ανάλυση συνεχών μεταβλητών Γεωργία Σαλαντή Λέκτορας Εργαστήριο υγιεινής και Επιδημιολογίας
Περιεχόμενα Συσχέτιση μεταξύ δύο συνεχών μεταβλητών Παλινδρόμηση μεταξύ Μίας συνεχούς μεταβλητής Μιας (ή και περισσότερων) μεταβλητών (συνεχών, διχότομων κ.τ.λ)
Εισαγωγικά y το αποτέλεσμα (ή δεσμευμένη μεταβλητή) που μας ενδιαφέρει Π.χ. πίεση, τριγλυκερίδια x n ανεξάρτητη η μεταβλητή Π.χ. ηλικία, φύλο Ο συντελεστής συσχέτισης κοιτά το πως μεταβάλλεται το y σε σχέση με το x
Τυχαίες μεταβλητές και συσχέτιση Όσο πιο ψηλός τόσο πιο βαρύς Όσο πιο χαμηλό το βιοτικό επίπεδο, τόσο πιο υψηλή η παιδική θνησιμότητα Όσο Ό πιο πολύ το x τόσο πιο πολύ/λίγο το y
Συσχέτιση και παλινδρόμηση Συσχέτιση: Πόσο έντονα μία αλλαγή στο ένα μέγεθος επηρεάζει το άλλο μέγεθος; Παλινδρόμηση: Αν ξέρουμε την τιμή του x μπορούμε να προβλέψουμε το y? Ξεκινάμε με ένα διάγραμμα διασποράς (scatterplot) n παρατηρήσεις από το x : x 1, x 2,, x n 1 2 n n παρατηρήσεις από το y : y 1, y 2,, y n
Γραμμική παλινδρόμηση Γεωργία Σαλαντή
20 40 60 0 5 10 15 70 outofwork 60 50 60 40 40 age 20 Ποια γραμμή αντιστοιχεί σε ισχυρότερη 15 συσχέτισή; BMI 40 30 20 10 10 5 fat 0 40 50 60 70 10 20 30 40
20 40 60 0 5 10 15 70 outofwork 1 2 1 60 50 40 60 40 20 15 10 5 0 age 2 2 Όσο πιο απότομη, τόσο BMI πιο έντονη η εξάρτηση 1 40 50 60 70 10 20 30 40 fat 40 30 20 10
y = 10+2x 24 40 220 πρόβλεψη ŷ i = 208 y 200 y i = 198 180 160 x i = 109 140 90 100 110 120 x
Γραμμή παλινδρόμηση ˆ y i = α + βx i + ε i α : Αρχή (origin) i β : Κλίση (slope) ε i ~ N(0,σ 2 ) Τα σφάλματα Το β δείχνει πόσο απότομη είναι η παλινδρόμηση
y β 1 β 2 β 3 β 4 β 1 > β 2 > β 3 > β 4 και β 4 =0 x
-10 e( -20 outofwo ork X ) 0 10 20-20 -10 0 10 20 e( age X ) coeff =.83, SE =.05, t = 17.45 Κανονικοποιημένη ηλικία
20 Εκτίμηση η - Σφάλματα 10 outofwo ork X ) 0 e( -10 ŷ i y i Σφάλμα ε i -20-20 -10 0 10 20 e( age X ) Θέλουμε να ελαχιστοποιήσουμε τα σφάλματα
Eκτίμηση: πως βρίσκουμε τα α και β Με την μέθοδο των ελάχιστων τετραγώνων Ελαχιστοποιούμε την 2 ˆ 2 (y i ŷi) = (y i α βxi) (y i ŷ β i ) 2 = 0 β = (xi x)(y i 2 (x x) i y) (y i ŷi) α 2 = 0 α = y βx
Έλεγχος: το F τεστ H 0 υπόθεση : β = 0 Μέθοδος: ανάλυση διασποράς (ΑΝΟVA) πηγή Εξηγείται από την παλ/μηση Άθροισμα τετραγ (SoS) ( ŷ i 2 y ) Σφάλματα 2 y ŷ ) ( i i β.ε. df 1 n 2 Μέσοι τετραγώνων MS MS regr = res = SoS n-2 1 SoS regr res F 1,n-2 MS MS regr res Σύνολο 2 y y ) ( i n 1
(Παρένθεση) Το F-τεστ χρησιμοποιείται και για σύγκριση πολλών μέσων (σαν προέκταση του t-τεστ) Για να συγκρίνουμε την μέση επιβίωση στην Ευρώπη, Ασία και Αμερική (Ε Ε, Ε Ασ, Ε Αμ), εξετάζουμε100 άτομα από κάθε περιοχή F = Παρατηρηθείσα μετ/τητα των Ε Ε, Ε Ασ, Ε Αμ / Προσδοκόμενη μεταβλητότητα των Ε Ε, Ε Ασ, Ε Αμ F ομαδες-1, δείγμα-ομάδες F 2,297
Κι άλλο τεστ :tτέστ β SE( β ) SE( β ) = = t n 2 MS (x i res 2 x) Μπορούμε να υπολογίσουμε και 95% δ.ε. για το β Το F (για παλινδρόμιση με έναν συντελεστή) και το t τεστ πρέπει να δίνουν τα ίδια αποτελέσματα όσον αφορά την στατιστική σημαντικότητα
Συντελεστής προσαρμογής - Goodness of fit Τα συμπεράσματα των F και t τεστ εξαρτώνται από την ισχύ Ελέγχουν δεν δείχνουν το πόσο καλό είναι το μοντέλο (πόσο καλά εφαρμόζει στα δεδομένα) ) 0 R 2 1 R 2 = SoS regr SoS tot Περιγράφει το ποσό της διασποράς που μπορεί να εξηγήσει το μοντέλο (όσο περισσότερο τόσο καλύτερα!) )
Παράδειγμα Ασθενής Σφυγμοί Πίεση: 1 83 141 2 86 162 3 88 161 4 92 154 5 94 171 6 98 174 7 101 184 8 114 190 9 117 187 10 121 191
Ερμηνεία Παλινδρόμηση της πίεσης με τους σφυγμούς BP = 1.12 HR + 60 Για κάθε παλμό παραπάνω, η πίεση αυξάνει κατά 1.12 Ένα άτομο με σφυγμούς 91 θα έχει πίεση 1.12 mmhg παραπάνω από κάποιον με 90 σφυγμούς Παλινδρόμηση της πίεσης με το φύλο (0: άνδρες, 1: γυναίκες BP = 1.5 φύλο + 170 Οι γυναίκες έχουν 1.5 15mmHg παραπάνω απο τους άνδρες
Ερμηνεία Είναι στατιστικά σημαντική αυτή η αύξηση; (κοιτάμε μ την p-value=0.0003) Είναι κλινικά σημαντική; Πόσο καλό είναι το μοντέλο; R 2 =81% -είναι ε α καλό 81% της μεταβλητότητας εξηγείται από την παλινδρόμηση
Πολλαπλή παλινδρόμηση Πολλές ανεξάρτητες μεταβλητές, π.χ. p =3μεταβλητές ŷ y = α + β x + β x + β x + i 1 1i 2 2i 3 3i ε i Εκτίμηση των κλίσεων και έλεγχοι παρόμοιοι με την απλή παλινδρόμηση ŷ = α + β x +... + β x +... + + β x + i 1 1i k k i p p i ε i μεταβλητές Έλεγχος για τις k
Πολλαπλή παλινδρόμηση: Σύγκριση και έλεγχος μοντέλων H 0 υπόθεση : β 1 =β 2 = =β k =0 από τις p μεταβλητές του μοντέλου Φτιάχνουμε δύο μοντέλα: ένα με 0 μεταβλητές και ένα με p μεταβλητές Τα συγκρίνουμε F (SoS SoS )/k with the k pred without the k pred regr regr = ~ F with the k pred k,n p 1 MSres Έλεγχος των συντελεστών β SE(β j ) j ~ t n p 1
Πολλαπλή παλινδρόμηση: Συντελεστής προσαρμογής R 2 = SoS SoS regr total n n p 1 1 Πιο γενικά, το R 2 δί δείχνει την γραμμική συσχέτιση μεταξύ των παρατηρήσεων και των προσδοκόμενων (σύμφωνα με την παλινδρόμηση) τιμών
Ερμηνεία Παλινδρόμηση της πίεσης με τους σφυγμούς BP = 1.03 HR + 1.11 φύλο + 140 Ένα άτομο με σφυγμούς 91 θα έχει πίεση 1.03 mmhg παραπάνω από κάποιον με 90 σφυγμούς αυτή η αύξηση είναι σταθμισμένη για τις διαφορές ανάμεσα στα δύο φύλα
Υποθέσεις 1. Κανονικότητα: y ακολουθεί κανονική κατανομή τα σφάλματα ε ακολουθούν κανονική κατανομή 2. Όλες οι παρατηρήσεις προέρχονται από την ίδια κατανομή με διασπορά σ 2 3. Γραμμικότητα: στην συσχέτιση των x και y 4. Ανεξαρτησία των παρατηρήσεων 5. Ανεξαρτησία των ανεξάρτητων μεταβλητών Οι υποθέσεις 1,2,4 συμπεριλαμβάνονται στην σχέση ε i ~ N(0,σσ 2 )
Διάφορα άλλα... Πόσες ανεξάρτητες μεταβλητές; p n/20
Όταν βλέπουμε αποτελέσματα παλινδρόμησης Έχουμε αρκετά δεδομένα; Ικανοποιούνται οι προϋποθέσεις (κανονική κατανομή, γραμμική συσχέτιση;) Κοιτάμε τον συντελεστή β (coefficient) το τυπικό σφάλμα του β (SE) την p-value τον συντελεστή προσαρμογής R 2 Δεν μπορούμε να γενικεύσουμε πέραν των δεδομένων Ερμηνεία των συντελεστών έχει νόημα μόνο μέσα στο πλαίσιο τιμών που εξετάσαμε Προσοχή στις ακραίες παρατηρήσεις!
The Communication and Symbolic Behaviour Scales (CSBS) Αβεβαιότητα σε αυτή την εκτίμηση Growth of infant communication between 8 and 12 months: A population study. J Paediatr Child Health. 2006 Dec;42(12):764-70.
Ερμηνεία «In multiple regression, neonatal aortic pulse wave velocity remained significantly inversely associated with maternal systolic BP (adjusted beta coefficient: -0.032; 95% CI: - 0.040 to -0.024; P<0.001), after adjustment for maternal age, birth weight, length, and neonatal BP (all independently and positively related to apwv) and for gestational age, maternal weight, and height (unrelated)» Maternal and Neonatal Influences on, and Reproducibility of, Neonatal Aortic Pulse Wave Velocity. Hypertension. 2006 Nov 6;
β 1 apwv = β 1 BP β 1 = 0.032 + β 2 maternal age + β 3 birth weight β 2 >0 β 3 >0 + β 4 length β 4 >0 + β 5 neonatal BP β 5 >0 + β 6 gestational age β 6? + β 7 maternal weight β 7? + β 8 height β 8?
apwv = β 1 BP p < 0.001 + β 2 maternal age + β 3 birth weight p < 0.05 p < 0.05 + β 4 length + β 5 neonatal BP p < 0.05 p < 005 0.05 + β 6 gestational age + β 7 maternal weight β 6? β 7? + β 8 height β 8? Πόσες παρατηρήσεις πρέπει να έχουμε για να κάνουμε μια τέτοια παλινδρόμηση (με τόσες πολλές ανεξάρτητες μεταβλητές); 20 8=160 παρατηρήσεις
Knowledge and attitudes about health research amongst a group of Pakistani medical students - BMC Medical Education 2006, 6:54
Knowledge score = 41 4.1 Years 098 0.98 Age + α Attitude score = 6.7 Years 0.63 Age + α Knowledge and attitudes about health research amongst a group of Pakistani medical students BMC Medical Education 2006, 6:54
Ερώτηση Πόσο είναι το σκορ γνώσης για ένα άτομο ηλικίας 19 ετών στο 3 ο έτος σπουδών; Σκορ = 4.1 3 0.98 19+ α Έστω ότι ξέρω α = 55, Σκορ = 48.68 Σε ποιο έτος θα είναι κάποιος με σκορ 52 ηλικίας 20 ετών; Για να το βρούμε αυτό χρειαζόμαστε την παλινδρόμηση του έτους σε σχέση με το σκορ και την ηλικία!
Journal of Epidemiology i and Community Health 2005;59:158-16259 162
Marco Maggiorini, Peter Bartsch, Oswald Oelz: Association between raised body temperature and acute mountain sickness: cross sectional study. British Medical Journal, 315, 403-4. 4 Ti μελέτη είναι; Εξηγήστε τα αποτελέσματα