ΣΥΣΧΕΤΙΣΗ Εισαγωγή Το διάγραμμα διασποράς (scatter plot) Ο συντελεστής συσχέτισης του Pearson (r) Έλεγχος στατιστικής σημαντικότητας & ΔΕ Ο συντελεστής συσχέτισης σειράς του Spearman (ρ) Συσχέτιση & αιτιότητα Εσφαλμένη χρήση της συσχέτισης. Διαβάσετε και τις αναλυτικές σημειώσεις.
ΕΙΣΑΓΩΓΗ Οι συνηθισμένες τεχνικές που χρησιμοποιούνται για την εκτίμηση της σχέσης μεταξύ 2 ποσοτικών χαρακτηριστικών είναι δύο: 1) Συσχέτιση - ποια είναι η κατεύθυνση της σχέσης των 2 μεταβλητών; µε ή µε - ποιο είναι το μέγεθος (η ένταση) της σχέσης; 2) Εξάρτιση (παλινδρόμηση) Πρόβλεψη (prediction): γνωρίζοντας την τιμή της μιας μεταβλητής, μπορούμε να προβλέψουμε την τιμή της άλλης; Οι 2 τεχνικές έχουν στενή μαθηματική σχέση αλλά χρησιμοποιούνται για να απαντήσουν διαφορετικά ερωτήματα.
Παραδείγματα : Συγκέντρωση GSH αίματος & επίπεδο θρέψης παιδιών με κυστική ίνωση. Ρυθμός επίπτωσης της ελκώδους κολίτιδας (UC) & ρυθμός επίπτωσης της νόσου του Crohn (CD) στον Καναδά. Συγκέντρωση λεπτίνης ορού & ΔΜΣ.
Το διάγραμμα διασποράς
Το 1 ο βήμα στην διερεύνηση της σχέσης των 2 ποσοτικών μεταβλητών είναι η παρουσίαση ενός διαγράμματος διασποράς (διάγραμμα σημείων δύο-κατευθύνσεων, διάγραμμα συσχέτισης, scatter plot). Παράδειγμα 1. Σε ένα τυχαίο δείγμα 20 παιδιών με κυστική ίνωση, σχετίστηκε η συγκέντρωση GSH αίματος* («glutathione») με επίπεδα θρέψης («% ideal body weight», % ιδανικού βάρους σώματος). *μειωμένα επίπεδα GSH σχετίζονται με αυξημένο oxidative stress στους πνεύμονες. 5
Το διάγραμμα διασποράς μπορεί να δείξει εάν 1) Η σχέση φαίνεται γραμμική ή όχι. 2) Υπάρχουν ακραίες τιμές που ίσως έχουν ισχυρή επίδραση στην εκτίμηση της σχέσης. Και στο «έμπειρο μάτι» 3) Εάν οι κατανομές των 2 μεταβλητών φαίνονται περίπου κανονικές. SPSS : Graphs Legacy Dialogs Scatter/Dot 6
Ο συντελεστής συσχέτισης του Pearson (r)
Η αξιολόγηση της κατεύθυνσης και του μεγέθους της σχέσης γίνεται συνήθως με τον υπολογισμό του συντελεστή συσχέτισης του Pearson (r). Ο r δείχνει κατά πόσον υπάρχει γραμμική σχέση μεταξύ 2 συνεχών μεταβλητών. Ο συντελεστής συσχέτισης, r, κυμαίνεται μεταξύ 1 και 1. Αρνητική συσχέτιση υπάρχει όταν η μια μεταβλητή μειώνεται καθώς αυξάνεται η άλλη (r<0). Θετική συσχέτιση υπάρχει μεταξύ 2 μεταβλητών όταν η μια μεταβλητή αυξάνεται καθώς αυξάνεται η άλλη (r>0). Όταν δεν υπάρχει γραμμική σχέση, τότε r=0. 8
Πλήρης αρνητική συσχέτιση r = -1 Πλήρης θετική συσχέτιση r = 1 12 12 10 10 8 8 6 6 4 2 0 140 150 160 170 180 4 2 0 145 150 155 160 165 170 175 180 Πλήρης έλλειψη γραμμικής συσχέτισης r = 0 9
Μη-γραμμική συσχέτιση. Υπάρχει συσχέτιση αλλά δεν είναι γραμμική. 25 20 15 10 r = 0! 5 0-5 -3-1 1 3 5 (y=x 2 ) Ο συντελεστής συσχέτισης πρέπει να υπολογίζεται πάντα σε συνδυασμό με μια γραφική απεικόνιση της συσχέτισης. 10
Διαγράμματα διασποράς 100 παρατηρήσεων όπου οι 2 μεταβλητές έχουν κανονική κατανομή a) r = 0, b) r = 0,3, c) r = 0,6 d) r = 0,9. Αναπαραγωγή από τον Rice (σελ 128). 11
If we wish to label the strength of the association, for absolute values of r, 0-0.19 is regarded as very weak, 0.2-0.39 as weak, 0.40-0.59 as moderate, 0.6-0.79 as strong and 0.8-1 as very strong correlation, but these are rather arbitrary limits, and the context of the results should be considered. (Swiscow, βιβλίο «Statistics at Square 1», free στο BMJ) ΣΗΜΕΙΩΣΗ O r εξαρτάται από το εύρος των τιμών. Με μειωμένο εύρος, ο r αναμένεται να είναι μειωμένος. 12
13 Μπορεί να υπολογιστεί με οποιεσδήποτε 2 συνεχείς μεταβλητές. = 2 2 ) ( ) ( ) )( ( y y x x y y x x r i i i i όπου τα x i και τα y i είναι οι τιμές για το άτομο i (i=1,2,..,n). Ο συντελεστής συσχέτισης του Pearson υπολογίζεται με τον εξής τρόπο (η εξίσωση είναι συμμετρική): Ο παρανομαστής εξασφαλίζει ότι ο r θα είναι μεταξύ 1 και 1.
Παράδειγμα 1. (συν) Αριθμητής r = ( x ( x i i x )( y x ) 2 i ( y i y ) y ) 2 Παρανομαστής 176,1= (5,2*5943,2) 14
Παράδειγμα 1 (συν). Διάγραμμα διασποράς του GSH με % ιδανικού βάρους. r=0,49 {Οι συγγραφείς υπολόγισαν τον «r» αλλά θα δούμε ότι δεν είναι κατάλληλος δείκτης} L Lands et al (1999) «Lymphocyte Glutathione Levels inchildren With Cystic Fibrosis» 15 Chest 201-205
Έλεγχος στατιστικής σημαντικότητας & ΔΕ
Προϋποθέσεις για τον έλεγχο σημαντικότητας του συντελεστή συσχέτισης του Pearson, r: - Τουλάχιστον η μία μεταβλητή πρέπει να έχει κανονική κατανομή. - Δεν πρέπει να υπάρχουν ακραίες τιμές με ισχυρή επίδραση στον r. 17
Γενική διαδικασία έλεγχου μιας στατιστικής υπόθεσης (ελέγχου στατιστικής σημαντικότητας). 1. Σχηματισμός της μηδενικής υπόθεσης (Η 0 ) και της εναλλακτικής της υπόθεσης. 2. Έλεγχος των προϋποθέσεων του ελέγχου. 3. Ορισμός του επιπέδου στατιστικής σημαντικότητας (α) 4. Υπολογισμός της τιμής του «στατιστικού κριτηρίου ελέγχου» (test statistic) που αντιστοιχεί στη συγκεκριμένη Η 0. 5. Σύγκριση της τιμής του κριτηρίου ελέγχου με τιμές από μια γνωστή κατανομή πιθανοτήτων. Εύρεση της πιθανότητας να προκύψει, όταν η Η 0 αληθεύει, μια τιμή του στατιστικού δείκτη ελέγχου που είναι όσο ή και περισσότερο ακραία από την παρατηρημένη τιμή. 6. Ερμηνεία της τιμής p. 18
Πώς ελέγχουμε τη στατιστική σημαντικότητα; Η μηδενική υπόθεση είναι ότι δεν υπάρχει γραμμική σχέση μεταξύ των 2 μεταβλητών (Η 0 :r πληθ =0). r πληθ = ο συντελεστής συσχέτισης στον πληθυσμό. Ο στατιστικός έλεγχος της μηδενικής υπόθεσης βασίζεται στην κατανομή t και ο στατιστικός δείκτης ελέγχου συγκρίνεται με την κατανομή t με n 2 β.ε. r n 2 2 1 r Προϋπόθεση εφαρμογής: Τουλάχιστον η μία μεταβλητή έχει κανονική κατανομή. 19
Παράδειγμα 1. (συν.) Σε ένα τυχαίο δείγμα 20 παιδιών με κυστική ίνωση, σχετίστηκε η συγκέντρωση GSH αίματος («glutathione») με επίπεδα θρέψης και μια παράμετρο λειτουργίας των πνευμόνων (FEV% pred). Διάγραμμα διασποράς της GSH με FEV (%pred), όπου έχει προστεθεί η γραμμή της παλινδρόμησης r = - 0,45 p<0,05 20
Παράδειγμα 2 (συν). Διάγραμμα διασποράς του ρυθμού επίπτωσης της ελκώδους κολίτιδας (UC) και της νόσου του Crohn (CD) σε 52 γεωγραφικές περιοχές της Mannitoba, Καναδάς JF Blanchard et al (2001) Am J Epidemiol 328-335 r = 0,49, p<0,001. Φαίνεται ότι υπάρχει θετική συσχέτιση μεταξύ του ρυθμού επίπτωσης ελκώδους κολίτιδας και ΝΚ στον Καναδά. {Απορρίπτεται η Η 0. Υπάρχει ισχυρή απόδειξη ότι οι 2 μεταβλητές σχετίζονται θετικά}. 21
ΣΗΜΕΙΩΣΗ Στατιστική σημαντικότητα δεν σημαίνει (απαραίτητα) στενή σχέση. Το ότι μια συσχέτιση βρίσκεται στατιστικά σημαντική (π.χ. p=0,003), δεν μας λέει πολλά για την ένταση (το μέγεθος) της σχέσης. Ακόμα και όταν η συσχέτιση δεν είναι ισχυρή (π.χ. r = 0,1), όταν το δείγμα είναι αρκετά μεγάλο (π.χ. >1000), το αποτέλεσμα μπορεί να είναι στατιστικά σημαντικό. 22
Παράδειγμα 3. Διάγραμμα διασποράς του μήκους του αυτιού με την ηλικία σε 400 Ιάπωνες.. Fig 1--Scatter plot of ear length divided by height against age Asai, Y. et al. BMJ 1996;312:582c Copyright 1996 BMJ Publishing GroupLtd. 23
Μπορεί να δημιουργηθεί διάστημα εμπιστοσύνης για τον r, υπό την προϋπόθεση ότι και οι 2 μεταβλητές έχουν κανονική κατανομή. 24
Ο συντελεστής συσχέτισης σειράς του Spearman (ρ)
Το διάγραμμα διασποράς μπορεί να δείξει εάν 1) Η σχέση φαίνεται γραμμική ή όχι. 2) Υπάρχουν ακραίες τιμές που ίσως έχουν ισχυρή επίδραση στην εκτίμηση της σχέσης. 26
Παράδειγμα 1 (συν). Οι συγγραφείς επέλέξαν να υπολογίσουν τον συντελεστή συσχέτισης του Pearson (r=0,49). Αφαιρώντας όμως τις 2 ακραίες τιμές, βρίσκουμε ότι r=0,15 (p=0,55, n=18). Εδώ υπάρχουν δύο ακραίες τιμές που έχουν ισχυρή επίδραση στην εκτίμηση του συντελεστή συσχέτισης το μέγεθος του δείγματος είναι μικρό. 27
Παράδειγμα όπου υπάρχουν μερικές ακραίες τιμές που έχουν ισχυρή επίδραση στην εκτίμηση του συντελεστή συσχέτισης: 7 6 5 4 3 2 1 0 0 2 4 6 8 r = 0,964 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Αφαιρώντας μόνο μία μέτρηση. r = 0,034 28
Πώς μπορεί να ερευνηθεί η σχέση όταν δεν τηρούνται οι προϋποθέσεις για τον υπολογισμό του συντελεστή συσχέτισης του Pearson, r: 1) Μετασχηματίζοντας τη μία μεταβλητή (ή και τις 2). 2) Υπολογίζοντας τον μη-παραμετρικό συντελεστή συσχέτισης του Spearman, ρ. {Γιατί δεν τον χρησιμοποιούμε πάντα τότε; Διότι η παραμετρική μέθοδος έχει θεωρητικά μεγαλύτερη ισχύ τεκμηρίωσης ενδεχόμενης συσχέτισης} SPSS : Analyse Correlate Bivariate (τσεκάροντας το κουτί Spearman). 29
Παράδειγμα 4. Fig 2--Association of serum leptin concentration with body mass index and waist circumference in non-diabetic and diabetic men and women. Copyright 1996 BMJ Publishing Group Ltd. Zimmet, P. et al. BMJ 1996;313:965-969 30
Παράδειγμα 1 (συν). Οι συγγραφείς επέλέξαν να υπολογίσουν τον συντελεστή συσχέτισης του Pearson (r=0,49). r=0,49 (n=20, p=0,03) Αφαιρώντας όμως τις 2 ακραίες τιμές, βρίσκουμε ότι r=0,15 (p=0,55, n=18). Εδώ υπάρχουν δύο ακραίες τιμές που έχουν ισχυρή επίδραση στην εκτίμηση του συντελεστή συσχέτισης το μέγεθος του δείγματος είναι μικρό. 31
Η διαδικασία του υπολογισμού του συντελεστή συσχέτισης του Spearman, ρ είναι ίδια, αλλά στον υπολογισμό χρησιμοποιείται η σειρά (ranks) των παρατηρήσεων αντί για τις απόλυτες τιμές. 32
Παράδειγμα 1. (συν) r=0,3 (n=20, p>0,2) 663,5= (664*663) 33
Συσχέτιση & αιτιότητα
Συσχέτιση δεν σημαίνει αιτιότητα Πιθανά σενάρια: 1) Η Α επηρεάζει τη Β 2) Η Β επηρεάζει την Α 3) Και οι 2 επηρεάζονται από κάποιον άλλον παράγοντα. 35
Συσχέτιση δεν σημαίνει αιτιότητα Διάγραμμα διασποράς της συσχέτισης της πρόσληψης διαιτητικών ινών με την 25ετή θνησιμότητα από καρκίνο του παχέους εντέρου σε χώρες που έλαβαν μέρος στην Μελέτη των 7 Χωρών {αναπαράχθηκε από το Figure 2 των Jansen et al, IJC, 1999}. [Ecological study] 36
Συσχέτιση δεν σημαίνει αιτιότητα Συχνά, ο τρίτος παράγοντας είναι ο χρόνος. π.χ. η κατανάλωση «fast food» και το ποσοστό των διαζυγίων στην Κρήτη τα τελευταία τριάντα χρόνια μία θετική συσχέτιση! Μπορεί η εμφανιζόμενη σχέση να έχει να κάνει με τη χρήση συχνοτήτων αντί για αναλογιών (ή ρυθμών). Π.χ. θετική συσχέτιση του αριθμού των εκκλησιών με τον αριθμό των κλοπών, σε διάφορες περιοχές της χώρας. [η τιμή του δεν επηρεάζεται από την κλίμακα μέτρησης των Χ & Υ] 37
Εσφαλμένη χρήση της συσχέτισης
Εσφαλμένη χρήση (misuse) της ανάλυσης της συσχέτισης Δεν πρέπει να χρησιμοποιηθεί η συσχέτιση: 1) Για τη σύγκριση 2 μεθόδων. Ο συντελεστής συσχέτισης είναι ένα μέτρο της σχέσης (measure of association). Εδώ χρειάζεται ένα μέτρο της συμφωνίας (measure of agreement). Θα έχουμε τέλεια συσχέτιση (r=1 ή -1) αν όλες οι παρατηρήσεις βρίσκονται πάνω σε μία ευθεία ΑΛΛΑ οι 2 μέθοδοι θα δίνουν τα ίδια αποτελέσματα μόνο εάν τα σημεία βρίσκονται στη συγκεκριμένη ευθεία γραμμή ψ=χ. Επίσης, ο έλεγχος σημαντικότητας δεν έχει νόημα για τη σύγκριση 2 μεθόδων (θα ήταν πολύ παράξενο αν 2 μέθοδοι που μετράνε την ίδια ουσία δεν είχαν κάποια σχέση!). 39
Ο συντελεστής συσχέτισης δεν μπορεί να θεωρηθεί μέτρο της συμφωνίας μεταξύ δύο μεθόδων. Γιατί; α) Αγνοεί την πιθανή μεροληψία. π.χ. Αν προσθέσουμε 10 σε όλες τις τιμές μίας μέτρησης, ο r παραμένει ίδιος. restan reuoc restanpls10 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Correlations restan reuoc restanpls10 1,929**,929**,000,000 539 539 539,929** 1 1,000**,000,000 539 539 539,929** 1,000** 1,000,000 539 539 539 **. Correlation is significant at the 0.01 level (2-tailed). r = ( x ( x i i x) x)( y 2 i y) ( y 40 i y) 2
β) Ο r εξαρτάται από τη διασπορά των τιμών, οπότε από τον τρόπο δειγματοληψίας (τον πληθυσμό υπό-μελέτη). Αν πάρουμε χωριστά τα παιδία ανάλογα με το εάν έχουν μέτρηση <0 ή όχι, βρίσκουμε: Correlations a restan reuoc restan Pearson Correlation Sig. (2-tailed) 1,753**,000 N 396 396 reuoc Pearson Correlation,753** 1 Sig. (2-tailed) N,000 396 396 **. Correlation is significant at the 0.01 level a. reuoc0 = 1 restan reuoc Correlations a restan reuoc Pearson Correlatio Sig. (2-tailed) 1,885**,000 N 143 143 Pearson Correlatio,885** 1 Sig. (2-tailed) N,000 143 143 **. Correlation is significant at the 0.01 level a. reuoc0 = 2 Όταν το εύρος είναι μεγάλο, ο r είναι μεγαλύτερος απ ότι όταν το εύρος είναι μικρό. 41
Δεν πρέπει να χρησιμοποιηθεί η συσχέτιση: 2) Όταν το δείγμα περιλαμβάνει υπο-ομάδες ατόμων των οποίων τα χαρακτηριστικά τείνουν να διαφέρουν. 42
Υπάρχουν 3 υπό-ομάδες και διαφορετικές τάσεις στις υπό-ομάδες απ ότι στο σύνολο. 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 43
Καλύπτοντας την ενότητα «Συσχέτιση», ο σκοπός είναι να γνωρίζετε: - ότι ένα διάγραμμα διασποράς μπορεί να δείξει εάν ο υπολογισμός του συντελεστή συσχέτισης δικαιολογείται ή όχι. - τι τιμές μπορεί να πάρει και τι δείχνει ο συντελεστής συσχέτισης. - ποια είναι η μηδενική υπόθεση στον έλεγχο σημαντικότητας του συντελεστή συσχέτισης. - κάτω από ποιες συνθήκες προτιμάται ο μη-παραμετρικός συντελεστής συσχέτισης του Spearman από τον συντελεστή συσχέτισης του Pearson. - ότι συσχέτιση δεν σημαίνει ότι υπάρχει σχέση αιτιότητας. - γενικές κατηγορίες εσφαλμένης χρήσης της συσχέτισης (measurement agreement, υπο-ομάδες ατόμων). 44