Συσχέτιση και Παλινδρόμηση Correlation and Regression Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Βιοστατιστικής
Συσχέτιση μεταξύ δυο μεταβλητών Η συσχέτιση (correlation) ή συνάφεια (association) μεταξύ δύο ή περισσοτέρων μεταβλητών αναφέρεται στην κατεύθυνση και στην ένταση της μεταξύ τους σχέσης. τιμή - ποιότητα διατροφή στεφ. νόσος ηλικία - ύψος κάπνισμα καρκίνος καιρικές συνθήκες ατυχήματα άγχος επίδοση τεστ παλαιότητα ενός ακινήτου τιμή εβδομάδα κύησης βάρος εμβρύου
Συσχέτιση μεταξύ δυο μεταβλητών Ορολογία - Συμβολισμός Τα δεδομένα που λαμβάνουμε για την εξέταση της σχέσης μεταξύ δύο μεταβλητών λέγονται διμεταβλητά (bivariate data). Είναι δηλαδή της μορφής (Χ, Υ). Ησχέσηαυτή, αν μοντελοποιηθεί στατιστικά, μπορεί να να χρησιμοποιηθεί για να προβλέψουμε την τιμή της μίας μεταβλητής, Υ, (μεταβλητή απόκρισης response variable) από την άλλη, Χ (μεταβλητή πρόβλεψης - predictor variable). ορισμένες φορές η μία μεταβλητή θεωρείται ως το αίτιο (cause) και η άλλη το αιτιατό (effect). Η πρώτη ονομάζεται ανεξάρτητη (independent) και η δεύτερη εξαρτημένη (dependent) μεταβλητή.
Παράδειγμα 1. βάρος και επιμήκυνση ελατηρίου Weight (kg) Length (cm) 0 0.00 2 0.12 4 0.21 6 0.31 8 0.40 10 0.50
Ύψος και βάρος 10 τυχαία επιλεγμένων φοιτητών α/α Ύψος (cm) Βάρος (kg) 1 165 75 2 178 79 3 185 101 4 170 80 5 175 65 6 185 100 7 183 84 8 173 70 9 173 93 10 188 108 Με ποιο τρόπο θα δείξουμε και πως θα εκφράσουμε ποσοτικά τη σχέση που υπάρχει μεταξύ βάρους και ύψους Ποιό χαρακτηριστικό παρουσιάζει μεγαλύτερη ανομοιογένεια?
Συσχέτιση μεταξύ δυο μεταβλητών Το διάγραμμα διασποράς ή σκεδασμού (scatterplot) μας δίνει μια καλή και γρήγορη εικόνα για τη φορά, την ένταση και το είδος της σχέσης: θετική σχέση αρνητική σχέση καμία (γραμμική) σχέση άλλου είδους σχέση είναι επίσης χρήσιμο για τον εντοπισμό «ύποπτων» παρατηρήσεων με ακραίες μετρήσεις που ενδεχομένως αλλοιώνουν ή και ακυρώνουν την πραγματική σχέση. LENGHT 60 50 40 30 20 10 0-10 -2 0 WEIGHT 2 4 6 8 10 12 WEIGHT 190 180 170 160 60 HEIGHT 70 80 90 100 110
ιάγραμμα ιασποράς (Scatterplot) Υ Μεταβλητή απόκρισης y Οι τιμές 2 μεταβλητών, Χ και Υ, μετρημένες στο ίδιο υποκείμενο x Οριζόντιος Χ η μεταβλητή πρόβλεψης (Predictor)
Παράδειγμα 1. βάρος και επιμήκυνση ελατηρίου Weight (kg) Length (cm) 0 0.00 2 0.12 4 0.21 6 0.31 8 0.40 10 0.50 LENGHT 60 50 40 30 20 10 0-10 -2 0 2 4 6 8 10 12 WEIGHT
Παράδειγμα2: Σχέση μεταξύ ηλικίας και μέσου ύψους σε παιδιά 18-32 μηνών
Παραδείγματα διαγραμμάτων διασποράς Σχέση ηλικίας συζύγων Σχέση ύψους συζύγων Οι ηλικίες των ζευγαριών είναι πιο στενά συσχετισμένες από ότι τα ύψη τους
Παραδείγματα διαγραμμάτων διασποράς Όριο ταχύτητας και θανατηφόρα ατυχήματα
Το διάγραμμα διασποράς είναι ένα πολύ χρήσιμο εργαλείο για την ανίχνευση της σχέσης μεταξύ δύο ποσοτικών μεταβλητών Εκτός της εικόνας, χρειαζόμαστε και ένα αριθμητικό δείκτη που να εκφράζει την ένταση και τη φορά της σχέσης.
Η z-τιμή ή τυπική τιμή μιας μέτρησης μας περιγράφει με ακρίβεια τη θέση που έχει στην κατανομή δείχνοντας αν η μέτρηση είναι μικρότερη, ίση ή μεγαλύτερη του ΜΟ Πόσες τυπικές αποκλίσεις μακριά από τον ΜΟ είναι z-τιμή = (Χ - ΜΟ)/s 1. Αφαιρούμε από τη μέτρηση τον ΜΟ (Απόκλιση της μέτρησης) 2. Διαιρούμε με την τυπική απόκλιση ο μέσος όρος των z-τιμών είναι ίσος με 0. Σz = 0 η τυπική απόκλιση είναι ίση με 1. Σz 2 / (n-1) = 1
AA X Y z X z Y z X. z Y 1 X 1 Y 1 z x1 z y1 2 X 2 Y 2 z x2 z y2 3 X 3 4 X 4 n X n Y 3 Y 4 Y n z x3 z xn z y3 z yn X = ΣΧ/n, s x = sd(x) Y = ΣΥ/n, s y = sd(y) r = ΣΖ Χ Ζ Υ /n-1
Συσχέτιση μεταξύ δυο μεταβλητών Οι αριθμητικοί δείκτες που ποσοτικοποιούν την ισχύ της σχέσης μεταξύ των μεταβλητών λέγονται μέτρα (measures) ή συντελεστές (coefficients) συσχέτισης (correlation) ή συνάφειας (association). Στην περίπτωση δύο ποσοτικών μεταβλητών οδείκτης που χρησιμοποιείται για την αξιολόγηση της σχέσης είναι ο συντελεστής συσχέτισης r του Pearson. Η αξιολόγηση γίνεται πάντα σε συνδυασμό με το διάγραμμα διασποράς. r = ( X ( X i i X X )( Y ) 2 i Y ) ( Y i Y ) 2
r = ( X ( X i i X )( Yi Y ) 2 X ) ( Y Y i ) 2 Το r λαμβάνει τιμές στο διάστημα [-1, +1]. -1 = πλήρης ή τέλεια αρνητική γραμμική συσχέτιση 0 = πλήρης έλλειψη γραμμικής συσχέτισης + 1= πλήρης ή τέλεια θετική γραμμική συσχέτιση 8 7 8 7 6 6 5 4 5 4 3 3 2 2 1 1 0 7 8 9 10 11 12 13 14 15 0 7 8 9 10 11 12 13 14 15
Διαγράμματα διασποράς 90 80 r=0 70 60 50 40 Y 30 0 1 2 3 4 5 6 7 8 X
r = -1 r = -0,87 r = 1 r = 0,87 Το τετράγωνο του r, λέγεται συντελεστής προσδιορισμού (determination coefficient) και εκφράζει το ποσοστό της διακύμανσης του Υ που εξηγείται από τη σχέση του με το Χ. r = 0,50 r = 0,50
Παράδειγμα: ησχέσητουgrip strength με arm strength. r =0.63
Ιδιότητες r Pearson, r, δείχνει την ένταση της σχέσης μεταξύ δύο ποσοτικών μεταβλητών X, Y. λαμβάνει τιμές από -1 (αντιστρόφως ανάλογη) έως 1 (ανάλογη) η τιμή του δεν επηρεάζεται από την κλίμακα μέτρησης των ΧκαιΥ Η συσχέτιση μεταξύ Χ και Υ είναι ίση με αυτήν μεταξύ Υ και Χ. (συμμετρία) η τιμή του μπορεί να επηρεαστεί από το εύρος των μετρήσεων
«Ποιοτική» αξιολόγηση της συσχέτισης Ισχυρή Ασθενής Ασθενής Ισχυρή -1.0-0.80-0.60-0.40-0.20 0.0 0.20 0.40 0.60 0.80 1.0 Πολύ ισχυρή Μέτρια Αδύνατη ή ανύπαρκτη Μέτρια Πολύ ισχυρή
Περιορισμός εύρους (Restriction in range) A B Το διάγραμμα Β περιέχει μερικά από τα σημεία του Α. Το r στο Β < r στο Α. Άρα: συσχέτιση μεταξύ των X and Y ίσως να διαφέρει σε διαφορετικούς πληθυσμούς.
Ιδιότητες r Σημαντική συσχέτιση ΕΝ σημαίνει κατ ανάγκη στενή σχέση - ακόμα και αδύνατες σχέσεις μπορεί να βγουν σημαντικές με μεγάλο δείγμα Μη σημαντικές συσχετίσεις δεν σημαίνουν κατ ανάγκη έλλειψη σχέσης ησημαντικότης(ή ημη) αναφέρεται στο ότι απορρίπτουμε (ή δεν) την Ηο: ρ=0 υψηλή συσχέτιση ΕΝ σημαίνει κατ ανάγκη και σχέση αιτίου-αιτιατού.
Outliers ιδιαίτερη προσοχή χρειάζεται στο πώς μεταχειριζόμαστε τα outliers αν τα outliers είναι ορθά τις περισσότερες φορές δεν πρέπει να τα αγνοούμε ορθά outliers μπορεί να δώσουν λάθος συσχέτιση (ειδικά σε μικρά δείγματα)
Outliers and influential points (example 3) (ακραία σημεία και σημεία επιρροής) 14 12 10 outlier 16 14 12 Outlier and influential 8 6 4 2 10 8 6 4 2 Outlier, not influential Y1 0 0 2 4 6 8 10 12 Y2 0 0 2 4 6 8 10 12 14 16 X1 X2
x y1 y2 y3 10,00 8,04 9,14 7,46 8,00 6,95 8,14 6,77 13,00 7,58 8,74 12,74 9,00 8,81 8,77 7,11 11,00 8,33 9,26 7,81 14,00 9,96 8,10 8,84 6,00 7,24 6,13 6,08 4,00 4,26 3,10 5,39 12,00 10,84 9,13 8,15 7,00 4,82 7,26 6,42 5,00 5,68 4,74 5,73 Y1 Y2 11 10 9 8 7 6 5 4 2 X1 10 9 8 7 6 5 4 3 2 X2 4 4 6 6 8 8 10 10 12 12 14 14 16 16 Y2 Y3 14 12 10 8 6 4 2 X3 10 9 8 7 6 5 4 3 2 X2 4 4 6 6 8 8 10 10 12 12 14 14 16 16 r(x, Y1) = r(x, Y2) = r (X, Y3) = 0.816
Παραδείγματα διαγραμμάτων διασποράς Όριο ταχύτητας και θανατηφόρα ατυχήματα r=0.55 Πως αλλάζει το r αν βγάλουμε την Ιταλία; Πως αλλάζει το r αν βγάλουμε και την Βρεττανία;
Παράδοξο του Simpson (example 4) 20 20 18 18 16 16 14 14 12 12 10 10 8 8 Y 6 2 4 6 8 10 12 14 16 Y 6 2 4 6 8 10 12 14 16 X X
Συσχέτιση και αιτιώδης συνάφεια υψηλές συσχετίσεις σε δεδομένα από μελέτες παρατήρησης δεν μπορεί από μόνες τους να θεμελιώσουν σχέση αιτίας-αιτιατού
Ερμηνείες της συσχέτισης 1. Σχέση αιτίου και αιτιατού 2. Κρυφή μεταβλητή 3. Confounding
Συσχέτιση και αιτιώδης συνάφεια το Χ προκαλεί το Υ το Υ προκαλεί το Χ Η Ζ προκαλεί το Χ και Υ Χ και Υ μεταβάλλονται με το χρόνο η συσχέτιση μπορεί να είναι εντελώς τυχαία
Regression models (Μοντέλα παλινδρόμησης) Ο όρος παλινδρόμηση (regression) περικλείει μια μεγάλη γκάμα στατιστικών μοντέλων. Όλα προσπαθούν να περιγράψουν αλγεβρικά τη σχέση μεταξύ της μεταβλητής απόκρισης Υ, και μίας η περισσοτέρων μεταβλητών πρόβλεψης Χ1, Χ2 κλπ. Τα κυριότερα είναι: γραμμική παλινδρόμηση (η μεταβλητή απόκρισης είναι συνεχής) λογιστική παλινδρόμηση (η μεταβλητή απόκρισης είναι δυαδική) παλινδρόμηση Cox (μοντέλα για ανάλυση επιβίωσης)
Μοντέλο απλής γραμμικής παλινδρόμησης Y Y i Y= a + bx ε i Y i = a + bx i + ε i X i Τα a και b υπολογίζονται έτσι ώστε το Σε 2 να είναι min. X
Ηευθείαy = a + bx, λέγεται ευθεία παλινδρόμησης του Υ στο Χ. Τα a και b είναι άγνωστα και εκτιμούνται από τα δεδομένα έτσι ώστε οι αποστάσεις των σημείων από την ευθεία να είναι η ελάχιστη δυνατή (ευθεία ελαχίστων τετραγώνων Least square line) Το a είναι η σταθερά (constant, intercept) α = Y bx Το b είναι η κλίση b=r(s y /s x ). Αν r=0 τοτε και b=0. οι αποστάσεις μεταξύ της ευθείας και των σημείων λέγονται υπόλοιπα (residual) και η μελέτη τους μας πληροφορεί για το πόσο καλή είναι η προσαρμογή του μοντέλου στα δεδομένα.
Linear Regression Assumptions 1. Η σχέση μεταξύ του Υ και του Χ είναι γραμμική 2. Η κατανομή του Υ για κάθε τιμή του Χ είναι κανονική 3. Οι διακυμάνσεις του Υ για κάθε τιμή του Χ είναι ίσες (homoschedasticity)
X=20 X=30 X=40 Y=birthweight (g) 20 30 40 X=gestation time (weeks)
Y=baby weights (g) Y/X=40 weeks ~ N(4000, σ 2 ) Y/X=30 weeks ~ N(3000, σ 2 ) Y/X=20 weeks ~ N(2000, σ 2 ) 20 30 40 X=gestation times (weeks)
Η διακύμανση του Υ για δεδομένο Χ είναι η μέση μεταβλητότητα των τιμών Υ γύρω από τη γραμμή παλινδρόμησης και υποθέτουμε ότι παραμένει σταθερή (ομοσκεδαστικότητα Homoschedasticity). Y=baby weights (g) S y/x S y/x S y/x S y/x S y/x S y/x 20 30 40 X=gestation times (weeks)
Y _ SST = (Y i - Y) 2 Ανάλυση της διακύμανσης ^ Yi Y i SSE = (Y i - Y i ) 2 _ SSR = (Y i - Y) 2 ^ Y i = a + bx i _ Y X i X
SSR Due to regression SST SST = SSR + SSE SSE Random/unexplained. r 2 = SSR / SST = ποσοστό της διακύμανσης του Y, που εξηγείται απο τη σχέση που υπάρχει με το Χ
Residuals- Υπόλοιπα Παρατηρηθείσα τιμή τιμή πρόβλεψης = σφάλμα πρόβλεψης = υπόλοιπο ( residual). Το residual plot δείχνει τη σχέση μεταξύ των υπολοίπων και της μεταβλητής πρόβλεψης (X). Το residual plot είναι χρήσιμο διαγνωστικό εργαλείο για το πόσο καλά ταιριάζει το μοντέλο της παλινδρόμησης στα δεδομένα.
Ιδιότητες των Residuals Ο μέσος όρος των residuals είναι 0. Στο residual plot δεν πρέπει να διαφαίνεται κάποια σχέση (no pattern) και η γραμμή παλινδρόμησης να είναι σχεδόν οριζόντια. Αν δεν είναι, τότε μάλλον η γραμμική παλινδρόμηση δεν είναι ο καταλληλότερος τρόπος μοντελοποίησης των δεδομένων.
Έλεγχος προυποθέσεων 1. Linear relationship Check the scatterplots of Y vs Xs Check the scatterplots of the residuals vs Xs 2. Constant variance Check the scatterplot of residuals vs predicted values of Y 3. Normally distributed residuals Check normal probability plot of the residuals
Διαστήματα Εμπιστοσύνης χρησιμοποιώντας τη γραμμική παλινδρόμηση ΔΕ για τη μέση τιμή του Υ για δεδομένο Χ κάτω και πάνω όριο, γύρω από το σημειακό εκτιμητή του Υ, γιατημέσητιμήτουυ. ΔΕ για μία ατομική τιμή του Υ για δεδομένο Χ κάτω και πάνω όριο, γύρω από το σημειακό εκτιμητή του Υ, για ατομική τιμή του Υ.
Έλεγχος Υποθέσεων Βοηθά η Χ στην πρόβλεψη της Υ; H 0 : b=0 (η Χ είναι ΔΕΝ βοηθά στην πρόβλεψη του Υ) vs. H A : b 0 (η Χ με βοηθά να προβλέψω καλύτερα την Υ) t c = b/se(b) ΣΤΑΤΙΣΤΙΚΑ ΣΗΜΑΝΤΙΚΗ ΣΧΕΣΗ ΔΕΝ ΣΗΜΑΙΝΕΙ ΚΑΤ ΑΝΑΓΚΗ ΚΑΙ ΚΛΙΝΙΚΑ ΣΠΟΥΔΑΙΑ Ή ΧΡΗΣΙΜΗ ΣΧΕΣΗ
Επεκτάσεις του απλού γραμμικού μοντέλου Αν δεν ισχύει η γραμμικότητα στη σχέση των δύο μεταβλητών Μετασχηματισμός (π.χ. Λογαριθμικός) μεταβλητών Μπορούμε να επεκτείνουμε το μοντέλο για περιγραφή πιο πολύπλοκων σχέσεων, για παράδειγμα y = b 0 + b 2 x + b 3 x 2. Μοντέλα πολλαπλής παλινδρόμησης y = b 0 + b 1 x 1 + b 2 x 2 + + b k x k. Πόσεςκαιποιέςμεταβλητέςπρέπεινασυμπεριληφθούν;