5. ΣΥΣΧΕΤΙΣΗ. ηµιουργία διαγράµµατος διασποράς 2. Συσχέτιση µεταξύ δύο ποσοτικών χαρακτηριστικών: ο συντελεστής συσχέτισης του 9. Pearson.

Σχετικά έγγραφα
ΣΥΣΧΕΤΙΣΗ. Το διάγραμμα διασποράς ΕΙΣΑΓΩΓΗ

ΣΥΣΧΕΤΙΣΗ. Διαβάσετε και τις αναλυτικές σημειώσεις.

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΜΕΡΟΣ Α Κάθε µια από τις παρακάτω φράσεις (1α, 1β, 1γ, 2α κτλ) µπορεί να είναι σωστή ή λανθασµένη. Ποιες είναι σωστές και ποιες όχι;

Αναλυτική Στατιστική

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

H ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ (PEARSON s r)

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΞΕΤΑΣΗ ΤΗΣ ΣΧΕΣΗΣ ΔΥΟ ΜΕΤΑΒΛΗΤΩΝ

1. Θα χρησιμοποιηθεί το αρχείο Ο γονικός έλεγχος στην εφηβική ηλικία. Στο. i. Με ποιες μεταβλητές που αφορούν σε σχέσεις εφήβων με τους γονείς τους

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Είδη Μεταβλητών. κλίµακα µέτρησης

Μη Παραµετρικοί Έλεγχοι

Kruskal-Wallis H

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Διάλεξη 1 Βασικές έννοιες

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Εισόδημα Κατανάλωση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Γ. Πειραματισμός Βιομετρία

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Ποιοτική και ποσοτική ανάλυση ιατρικών δεδομένων

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Πίνακας 1. Επίπεδα PRAME mrna (αντίγραφα/ κύτταρα) σε άτοµα σε διαφορετικές φάσεις της CML. n Ελάχιστη-µέγιστη

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

στατιστική θεωρεία της δειγµατοληψίας

Ενότητα 4 η : Ανάλυση ερευνητικών δεδομένων. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εκπαιδευτική Έρευνα: Μέθοδοι Συλλογής και Ανάλυσης εδομένων Συσχέτιση

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

9. Παλινδρόμηση και Συσχέτιση

Εισαγωγή στην Ανάλυση Δεδομένων

Ανάλυση συνεχών μεταβλητών. Γεωργία Σαλαντή. Λέκτορας Εργαστήριο υγιεινής και Επιδημιολογίας

Αιτιότητα και τυχαίο σφάλμα στις επιδημιολογικές μελέτες

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Στατιστικές Υποθέσεις

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ποσοτική & Ποιοτική Ανάλυση εδομένων Συσχέτιση. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη,

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

1.4 Λύσεις αντιστρόφων προβλημάτων.

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Κλινική Επιδηµιολογία

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Στατιστική Εισαγωγικές Έννοιες

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

19. Μετρώντας τη στατιστική συσχέτιση

Παιδαγωγικά II. Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Ευαγγελία Παυλάτου, Αν. Καθηγήτρια ΕΜΠ Νίκος Καλογερόπουλος, ΕΔΙΠ ΕΜΠ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

Στατιστική Επιχειρήσεων Ι

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Συνοπτικά περιεχόμενα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Απαραμετρική Στατιστική. Το βαθμονομικό κριτήριο του Wilcoxon, για ζευγαρωτες παρατηρήσεις Ο βαθμονομικός συντελεστής συσχέτισης του Spearman

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Πολλαπλή παλινδρόμηση (Multivariate regression)

3.ΑΠΛΗ ΤΥΧΑΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑ (SIMPLE RANDOM SAMPLING)

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Πίσω στα βασικά, μέρος 3 ο Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες: Συσχέτιση μεταβλητών

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

Ο είκτης Συσχέτισης. Υπάρχουν πολλές οι έρευνες στις οποίες µας ενδιαφέρει να µελετήσουµε αν υπάρχει ΑΛΛΗΛΕΞΑΡΤΗΣΗ µεταξύ δύο µεταβλητών

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

Transcript:

5. ΣΥΣΧΕΤΙΣΗ Περιεχόµενα Σελ. 1 Εισαγωγή 2 2 Το διάγραµµα διασποράς (scatter plot) 2 3 Εξέταση της γραµµικής σχέσης µεταξύ δυο µεταβλητών 3 3.1 Ο συντελεστής συσχέτισης του Pearson, r 3 3.2 Ο έλεγχος υπόθεσης του r 5 3.3 Γενικές περιπτώσεις όπου το διάγραµµα διασποράς δείχνει ότι δεν πρέπει να υπολογιστεί ο r. 7 4 Συσχέτιση όταν οι µεταβλητές δεν έχουν κανονική κατανοµή. 8 4.1 Μετασχηµατισµός 8 4.2 Μη παραµετρική µέθοδος: ο συντελεστής συσχέτισης του Spearman, ρ 9 5 Εσφαλµένη χρήση της συσχέτισης. 10 6 Συσχέτιση, αιτία και πρόβλεψη. 11 7 Σύνοψη 12 8 Βιβλιογραφία 12 9 Παραρτήµατα 12 9.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία 12 9.2 Παράρτηµα 2. Υπολογισµός των συντελεστών συσχέτισης r και ρ (χρησιµοποιώντας το Παράδειγµα 3). 13 SPSS διαδροµές Σελ ηµιουργία διαγράµµατος διασποράς 2 Συσχέτιση µεταξύ δύο ποσοτικών χαρακτηριστικών: ο συντελεστής συσχέτισης του 4 Pearson Συσχέτιση µεταξύ δύο ποσοτικών χαρακτηριστικών: ο συντελεστής συσχέτισης του 9 Spearman Ι Μοσχανδρέα 1

1. Εισαγωγή Στην ενότητα «Τεχνικές ανάλυσης ποιοτικών δεδοµένων» είδαµε ότι ο βασικός έλεγχος για την εξέταση της σχέσης δύο ποιοτικών µεταβλητών είναι ο έλεγχος χ 2. Όταν κι οι µεταβλητές είναι συνεχείς, η κατάλληλη µέθοδος για να εξετασθεί η πιθανή σχέση µεταξύ των µεταβλητών ονοµάζεται συσχέτιση (correlation). Η σχέση µπορεί να απεικονιστεί µε ένα διάγραµµα διασποράς (βλ. Παράγραφο 2). Ο συντελεστής συσχέτισης του Pearson που υπολογίζεται για την εξέταση της γραµµικής σχέσης µεταξύ των δύο µεταβλητών περιγράφεται στην Παράγραφο 3. Στην Παράγραφο 4 δίνονται λύσεις για την περίπτωση που δεν τηρούνται οι προϋποθέσεις για τον υπολογισµό του συντελεστή συσχέτισης του Pearson π.χ. µη-κανονικές κατανοµές. Αρκετά συχνά συναντάµε περιπτώσεις εσφαλµένης χρήσης της τεχνικής της συσχέτισης, και τέσσερις γενικές περιπτώσεις όπου δεν πρέπει να υπολογίζεται κάποιος συντελεστής συσχέτισης περιγράφονται στην Παράγραφο 5. Συζήτηση του πώς µπορούν να ερµηνευθούν τα αποτελέσµατα µιας συσχέτισης, και ποια είναι η κατάλληλη ανάλυση όταν υπάρχει µια σχέση «πρόβλεψης», γίνεται στην Παράγραφο 6. Μια σύνοψη των ιδιοτήτων των συντελεστών συσχέτισης και των προϋποθέσεων της εφαρµογής των διαφόρων µεθόδων συσχέτισης δίνεται στην τελευταία παράγραφο. 2. Το διάγραµµα διασποράς (scatter plot) Ο πιο εύκολος και πιο χρήσιµος τρόπος για την απεικόνιση της σχέσης δύο ποσοτικών χαρακτηριστικών είναι µε τη δηµιουργία ενός διαγράµµατος διασποράς (διάγραµµα συσχέτισης, scatter plot) 1. Σε αυτό το διάγραµµα, οι τιµές της µιας µεταβλητής δίνονται στον οριζόντιο άξονα και της άλλης στον κάθετο άξονα. Ένα παράδειγµα δίνεται στο Γράφηµα 1 παρακάτω. Το κάθε σηµείο, εδώ ο κάθε κύκλος, στο διάγραµµα αντιστοιχεί σε δύο µετρήσεις ενός ατόµου (της πρόσληψης ενέργειας και του ύψους του πατέρα του κάθε αγοριού) 2. Σηµείωση: δεν είναι απαραίτητο η δειγµατοληπτική µονάδα να είναι το άτοµο, µπορεί να είναι π.χ. η κάθε χώρα (σε µία οικολογική µελέτη). ΠΑΡΑ ΕΙΓΜΑ 1. Σχέση πρόσληψης ενέργειας αγοριών µε την ηλικία του πατέρα {SPSS αρχείο: boys9298.sav, µεταβλητές cals92, age_fath }. Ως µέρος ενός εκπαιδευτικού προγράµµατος παρέµβασης σε παιδιά αρχικά της πρώτης τάξης του δηµοτικού στην Κρήτη, συµπληρώθηκε (από µία τυχαία υπο-οµάδα παιδιών) ένα 3ηµερο ηµερολόγιο καταγραφής ζυγισµένων τροφίµων, από το οποίο εκτιµήθηκε η διαιτολογική πρόσληψη ενέργειας. Το αρχείο δεδοµένων boys9298.sav περιλαµβάνει στοιχεία των 42 αγοριών που είχαν µετρήσεις στην αρχή και στο τέλος της παρέµβασης. Σκοπός εδώ είναι να εξετασθεί η πιθανή συσχέτιση µεταξύ της πρόσληψης ενέργειας των αγοριών πριν την παρέµβαση και την ηλικία του πατέρα τους. Το σχετικό διάγραµµα διασποράς δίνεται παρακάτω (Γράφηµα 1). Στο SPSS 14.0 η διαδικασία για να απεικονισθούν δύο µεταβλητές σε διάγραµµα διασποράς είναι: Graphs Scatter/Dot (Simple scatter). 1 Το διάγραµµα διασποράς µπορεί και να χρησιµοποιηθεί και για την οπτική εξέταση της σχέσης δύο τακτικών µεταβλητών. 2 εν µπορούν να αντιστοιχούν περισσότερα από ένα σηµείο σε ένα άτοµο. π.χ. εν θα ήταν έγκυρο να χρησιµοποιηθεί η συσχέτιση για τη σχέση του βάρους µε το ύψος κοριτσιών σε διάφορες ηλικίες εάν κάποια από τα κορίτσια έχουν µετρηθεί διαχρονικά και άλλα όχι. Ι Μοσχανδρέα 2

Γράφηµα 1. ιάγραµµα διασποράς της διαιτολογικής πρόσληψης ενέργειας και της ηλικίας του πατέρα 3 34 αγοριών της 1 ης δηµοτικού (το 1992). 4000 energy intake (kcal) 2000 0 20 25 30 35 40 45 50 55 60 65 70 father's age in 1998(years) Ο τρόπος µε τον οποίο κατανέµονται τα σηµεία σε ένα διάγραµµα διασποράς δείχνει εάν φαίνεται να υπάρχει συσχέτιση των δύο µεταβλητών και εάν η συσχέτιση είναι θετική ή αρνητική. ΠΑΡΑ ΕΙΓΜΑ 1 (συν). Το Γράφηµα 1 δίνει την εντύπωση ότι µικρότερες ηλικίες του πατέρα σχετίζονται µε υψηλότερη πρόσληψη ενέργειας των αγοριών, δηλαδή ότι υπάρχει αρνητική συσχέτιση. Φαίνεται επίσης ότι υπάρχουν δύο ακραίες τιµές (µία όπου η ηλικία του πατέρα είναι περίπου 66 έτη και µία όπου η πρόσληψη ενέργειας είναι κάτι λιγότερο από 4000 θερµίδες). 3. Εξέταση της γραµµικής σχέσης µεταξύ δυο µεταβλητών. 3.1 Ο συντελεστής συσχέτισης του Pearson, r. Ο συνηθισµένος τρόπος ελέγχου του βαθµού της σχέσης (degree of association) µεταξύ δύο µεταβλητών έχει αποδοθεί στον Pearson και περιλαµβάνει τον υπολογισµό µιας ποσότητας (r) που παίρνει τιµές από 1 µέχρι και 1. Η ποσότητα r ονοµάζεται συντελεστής συσχέτισης του Pearson (Pearson s correlation coefficient) και συνοψίζει το βαθµό (την ένταση) µιας σχέσης, όπως η µέση τιµή και η ΤΑ συνοψίζουν τη θέση και τη µεταβλητότητα ενός χαρακτηριστικού. Ο συντελεστής r παίρνει την τιµή +1 ή -1 όταν όλα τα σηµεία στο διάγραµµα διασποράς βρίσκονται ακριβώς πάνω σε µία ευθεία γραµµή, όπως φαίνεται στα Γραφήµατα 2 & 3 παρακάτω. O r παίρνει την τιµή 0 όταν υπάρχει «τυχαία διασπορά» (random scatter) των τιµών (Γράφηµα 4). Παίρνει τιµή µεταξύ 0 και 1 όταν η συσχέτιση είναι θετική, δηλαδή όταν µεγαλύτερες τιµές της µιας µεταβλητής σχετίζονται µε µεγαλύτερες τιµές της άλλης, και µεταξύ 1 και 0 όταν η συσχέτιση είναι αρνητική, δηλαδή όταν µεγαλύτερες τιµές της µιας µεταβλητής σχετίζονται µε µικρότερες τιµές της άλλης. Τι µετράει ο r; Ουσιαστικά µετράει τη διασπορά των σηµείων γύρω από µια υποκείµενη γραµµική σχέση, κι όσο µεγαλύτερη είναι η διασπορά των σηµείων, τόσο µικρότερος (σε απόλυτη τιµή) είναι ο r. 3 Η ηλικία του πατέρα πάρθηκε το 1998, οπότε η πραγµατική ηλικία το 1992 υπολογίζεται ως ηλικία 6 έτη. Ι Μοσχανδρέα 3

Γράφηµα 2. r = -1 Γράφηµα 3. r = 1 Γράφηµα 4. Τυχαία διασπορά r = 0. Γράφηµα 5. ιαγράµµατα διασποράς 100 παρατηρήσεων όπου οι 2 µεταβλητές έχουν κανονική κατανοµή a) r = 0, b) r = 0,3, c) r = 0,6 d) r = 0,9. Αναπαραγωγή από τον Rice (σελ 128). Στο SPSS 14.0, η διαδικασία για να υπολογιστεί ο συντελεστής συσχέτισης του Pearson είναι: Analyze Correlate Bivariate... τσεκάροντας το κουτί που αντιστοιχεί στο «Pearson». Ι Μοσχανδρέα 4

Ο συντελεστής συσχέτισης του Pearson r υπολογίζεται ως ( xi x)( yi y) r = 2 2 ( x x) ( y y) i i όταν οι δύο µεταβλητές είναι Χ = {x 1, x 2,,x n } και Υ= {y 1, y 2,,y n }. Το x είναι η µέση τιµή της Χ και το y είναι η µέση τιµή της Υ. Ο παρανοµαστής εξασφαλίζει ότι ο r θα είναι µεταξύ 1 και 1. Για την ερµηνεία του αποτελέσµατος της συσχέτισης µπορεί να υπολογιστεί η ποσότητα 100r 2, η οποία δείχνει το ποσοστό της µεταβλητότητας των δεδοµένων το οποίο εξηγείται από τη γραµµική σχέση µεταξύ των δυο µεταβλητών. Αυτή η ποσότητα ονοµάζεται συντελεστής προσδιορισµού (coefficient of determination). Αν παραδείγµατος χάριν ο r είναι 0,5 τότε 100r 2 =25% και αυτό σηµαίνει ότι το 25% της µεταβλητότητας οφείλεται στη γραµµική σχέση των µεταβλητών. Ο r δεν επηρεάζεται από τις µονάδες µέτρησης. Στο Παράδειγµα 1, λόγου χάριν, δεν κάνει διαφορά εάν η πρόσληψη ενέργειας µετριέται σε Kcal ή σε MJ. Επίσης, η συσχέτιση είναι συµµετρική, µε την έννοια ότι ο συντελεστής συσχέτισης της µεταβλητής Α µε τη Β, είναι ίδιος µε αυτόν της συσχέτισης της Β µε την Α. H τιµή του r είναι έγκυρη µόνο για το συγκεκριµένο εύρος τιµών των δύο µεταβλητών. Η απόλυτη τιµή του r έχει την τάση να αυξάνεται όταν το εύρος τιµών της µιας µεταβλητής (ή και των δύο µεταβλητών) αυξάνεται, οπότε δεν µπορούµε να συµπεράνουµε ότι θα έχει την ίδια τιµή όταν µελετάµε τιµές που είναι πιο ακραίες από αυτές του δείγµατος. 3.2 Ο έλεγχος υπόθεσης του r Αφού έχουν απεικονιστεί τα δεδοµένα και έχει βρεθεί µια πιθανή γραµµική σχέση, το επόµενο βήµα είναι να εξετασθεί κατά πόσον η ύπαρξη της παρατηρούµενης συσχέτισης θα µπορούσε να είναι τυχαία ή όχι. Εφαρµόζεται δηλαδή ένας έλεγχος υπόθεσης, όπου η µηδενική υπόθεση είναι ότι η άγνωστη γραµµική συσχέτιση του πληθυσµού ρ = 0, δηλαδή ότι δεν υπάρχει γραµµική σχέση µεταξύ των δύο µεταβλητών. Όταν ισχύει η µηδενική υπόθεση, η ποσότητα r 0 r 0 n 2 t = = = r έχει κατανοµή t µε n-2 βαθµούς ελευθερίας. 2 2 se( r) 1 r ( n 2) 1 r Όπως έχουµε δει και σε άλλους ελέγχους υποθέσεων, η τιµή p (που αντιστοιχεί στη τιµή του κριτηρίου) δίνει το βαθµό της απόδειξης ότι δεν ισχύει η Η 0 (όπως περιγράφεται στις σηµειώσεις της ενότητας «Τεχνικές Ανάλυσης Ποσοτικών εδοµένων»). Μπορεί επίσης να δηµιουργηθεί ένα διάστηµα εµπιστοσύνης για τον r (αλλά δεν δίνεται αυτόµατα στο SPSS 14.0). 4 Προϋπόθεση για την εφαρµογή του ελέγχου σηµαντικότητας είναι ότι τουλάχιστον η µία µεταβλητή έχει κανονική κατανοµή. Προϋπόθεση για τη δηµιουργία ενός.ε. είναι ότι και οι δύο µεταβλητές έχουν κανονική κατανοµή. 4 Λεπτοµέρειες για τη µορφή του Ε δίδονται στις σελίδες 293-4 του βιβλίου Practical Statistics For Medical Research. Ι Μοσχανδρέα 5

ΠΑΡΑΓΕΙΓΜΑ 2 Σε ένα γράµµα προς το BMJ, το 1996, οι συγγραφείς Y Asai et al θέλησαν να επιβεβαιώσουν ότι τα ευρήµατα µιας προηγούµενης δηµοσίευσης στο ίδιο περιοδικό, που αφορούσε τη συσχέτιση του µήκους του αυτιού µε την ηλικία, βρέθηκαν να ισχύουν και σε Ιάπωνες ηλικίας άνω των 20 ετών. Τα αποτελέσµατα δίνονται στο Γράφηµα 6 παρακάτω: Γράφηµα 6. ιάγραµµα διασποράς του µήκους του αυτιού (δια του ύψους) έναντι της ηλικίας για 400 Ιάπωνες. H H 0 εδώ είναι ότι το µήκος του αυτιού (δια του ύψους) δεν σχετίζεται µε την ηλικία σε Ιάπωνες άνω των 20 ετών. Βρέθηκε ότι ο r είναι 0,60 και το 95% Ε είναι από 0,53 έως 0,66. Υπάρχει δηλαδή θετική συσχέτιση µεταξύ του µήκους του αυτιού (δια του ύψους) και της ηλικίας σε Ιάπωνες ηλικίας 20-95 ετών. Tο Ε δείχνει επίσης ότι το αποτέλεσµα είναι στατιστικά σηµαντικό σε επίπεδο 5% (το Ε δεν συµπεριλαµβάνει το 0). ΣΗΜΕΙΩΣΗ 1) Ο συντελεστής συσχέτισης δίνεται κατά προτίµηση σε 2 δεκαδικά ψηφία. 2) Ο συντελεστής συσχέτισης συνοδεύεται από µία τιµή p και από τον αριθµό των παρατηρήσεων (π.χ. ατόµων) ή αλλιώς από ένα διάστηµα εµπιστοσύνης. 3) Το µέγεθος της σχέσης που θα βρεθεί στατιστικά σηµαντική σε επίπεδο 5% εξαρτάται από το µέγεθος του δείγµατος (π.χ. είναι πιο πιθανό µια σχέση µε r=0,2 να βρεθεί σηµαντική όταν n=100 παρά όταν n=20) 5. Όταν το δείγµα είναι µεγάλο, η Η 0 µπορεί να απορριφθεί ακόµα και όταν ο r είναι κοντά στο µηδέν. Αντίθετα, όταν το δείγµα είναι πολύ µικρό, η Η 0 µπορεί να µην απορριφθεί ακόµα και όταν ο r είναι µεγάλος. ΠΑΡΑ ΕΙΓΜΑ 3. Σχέση συγκέντρωσης GSH αίµατος µε επίπεδα θρέψης σε παιδιά µε κυστική ίνωση 6. Σε ένα τυχαίο δείγµα 20 παιδιών µε κυστική ίνωση, σχετίστηκε η συγκέντρωση GSH αίµατος («glutathione») µε επίπεδα θρέψης («% ideal body weight», % ιδανικού βάρους σώµατος).το διάγραµµα διασποράς δίνεται παρακάτω (Γράφηµα 7), όπου έχει προστεθεί κι η γραµµή της παλινδρόµησης (βλ. παρα. 6). Φαίνεται ότι ίσως υπάρχει θετική σχέση µεταξύ των µεταβλητών. Φαίνεται επίσης ότι υπάρχουν 2 ακραίες τιµές, ότι η κατανοµή του % ιδανικού βάρους είναι µάλλον θετικά λοξή (αλλά ίσως η κατανοµή GSH µπορεί να θεωρηθεί κανονική). 5 Μπορείτε να βρείτε περισσότερες λεπτοµέρειες για τη σχέση του µεγέθους του δείγµατος µε την ισχύ (power) της µελέτης στα βιβλία που αναφέρονται στη βιβλιογραφία (σελ. 13) 6 L Lands et al (1999) «Lymphocyte Glutathione Levels in Children With Cystic Fibrosis» Chest 201-205 Ι Μοσχανδρέα 6

Γράφηµα 7. ιάγραµµα διασποράς της GSH µε το % ιδανικού βάρους σε 20 παιδιά µε κυστική ίνωση. {αναπαραγωγή της Figure *του άρθρου} Ο συντελεστής συσχέτισης r είναι 0,49, p=0,03. Απορρίπτεται η Η 0 (σε επίπεδο 5%). Υπάρχει δηλαδή ένδειξη ότι η GSH σχετίζεται µε το % ιδανικού βάρους στον αντίστοιχο πληθυσµό των παιδιών µε κυστική ίνωση. Λεπτοµέρειες του υπολογισµού του r δίνονται στο παράρτηµα 2. 3.3 Γενικές περιπτώσεις όπου το διάγραµµα διασποράς µας δείχνει ότι δεν πρέπει να υπολογιστεί ο συντελεστής συσχέτισης του Pearson, r. ύο γενικές περιπτώσεις όπου φαίνεται κατ ευθείαν από το διάγραµµα διασποράς ότι δεν πρέπει να χρησιµοποιηθεί ο συντελεστής συσχέτισης του Pearson r είναι όταν: α) υπάρχει ένδειξη µη-γραµµικής σχέσης ή β) υπάρχουν ακραίες τιµές µε ισχυρή επίδραση στην τιµή του r. Ο συντελεστής συσχέτισης του Pearson είναι µέτρο της γραµµικής σχέσης µεταξύ δύο µεταβλητών και δεν πρέπει να χρησιµοποιείται όταν φαίνεται ότι υπάρχει µη-γραµµική σχέση. Στο Γράφηµα 8 παρακάτω απεικονίζεται η σχέση y=x 2 (για x µεταξύ -3 και 3). Εδώ υπάρχει µία «τέλεια» σχέση, αλλά δεν είναι γραµµική. Σ αυτήν την περίπτωση εάν υπολογίσετε τον συντελεστής συσχέτισης r, θα βρείτε ότι είναι 0! 10 8 6 y 4 2 0-3 -2-1 0 1 2 3 x Γράφηµα 8. y=x 2 (για x µεταξύ -3 και 3). Στο Γράφηµα 9 παρακάτω απεικονίζεται η περίπτωση όπου υπάρχει µία ακραία τιµή µε πολύ ισχυρή επίδραση στον r. Υπάρχουν 11 σηµεία και ο r είναι 0,964. Όταν αφαιρείται η ακραία τιµή, όµως, ο συντελεστής συσχέτισης µειώνεται σχεδόν στο 0. Ι Μοσχανδρέα 7

Γράφηµα 9. ιαγράµµατα διασποράς πριν και µετά την αφαίρεση της τιµής (6,6). Επίσης, από το διάγραµµα διασποράς µπορεί να φανεί εάν οι µεταβλητές έχουν κανονική κατανοµή ή όχι (προϋπόθεση για τον έλεγχο υπόθεσης και τη δηµιουργία του Ε, βλ. 3.2): εάν και οι δύο µεταβλητές έχουν κανονική κατανοµή, τότε το «σύννεφο» των σηµείων θα έχει το σχήµα µιας έλλειψης (περίπου), και όσο πιο επιµήκης είναι η έλλειψη, τόσο µεγαλύτερος είναι ο βαθµός της σχέσης. Όµως µερικές φορές δεν είναι εύκολο να φανεί το σχήµα της έλλειψης (ειδικά όταν το µέγεθος του δείγµατος είναι µικρό ή όταν το r πλησιάζει το +/- 1) και ο έλεγχος της κανονικότητας γίνεται για κάθε µεταβλητή χωριστά. ΠΑΡΑ ΕΙΓΜΑ 3. Σχέση συγκέντρωσης GSH αίµατος µε επίπεδα θρέψης σε παιδιά µε κυστική ίνωση (συν). Αρχείο GSH.sav. Στο Γράφηµα 7 (παραπάνω) φαίνεται ότι υπάρχουν 2 ακραίες τιµές. Εάν αφαιρεθούν, βρίσκουµε ότι r=0,15 µε p=0,55 (n=18) 7. Οπότε το συµπέρασµα είναι εντελώς διαφορετικό. [Εδώ πρέπει επίσης να λάβουµε υπ όψιν ότι το µέγεθος του δείγµατος είναι µικρό οπότε οι 2 παρατηρήσεις δεν είναι λίγες σε σχέση µε το σύνολο, συνεπώς αναµένεται µια διαφορά στο r όταν αφαιρούνται 2 παρατηρήσεις.] 4. Συσχέτιση όταν οι µεταβλητές δεν έχουν κανονική κατανοµή. 4.1 Μετασχηµατισµός. Όταν τα δεδοµένα δεν έχουν κανονική κατανοµή, µια πιθανή λύση είναι ο λογαριθµικός µετασχηµατισµός της µιας µεταβλητής, ειδικά εάν η κατανοµή φαίνεται θετικά λοξή 8. Στο Γράφηµα 10 παρακάτω θα δείτε ότι η λεπτίνη δίνεται σε λογαριθµική κλίµακα, στον κάθετο άξονα. Η συσχέτιση της λεπτίνης µε την περίµετρο µέσης φαίνεται γραµµική όταν η λεπτίνη µετριέται σε λογαριθµική κλίµακα. ΠΑΡΑΓΕΙΓΜΑ 4. Σχέση της λεπτίνης µε το ΜΣ και την περίµετρο µέσης σε άτοµα της υτικής Σαµόας. BMJ Zimmet et al (1996). 9 7 Κατά προσέγγιση, εκτιµώντας τις τιµές των µεταβλητών από το διάγραµµα διασποράς. 8 Περιγραφή της τεχνικής του µετασχηµατισµού υπάρχει στις σηµειώσεις «Τεχνικές Ανάλυσης Ποσοτικών εδοµένων». 9 Paul Zimmet et al (1996) Serum leptin concentration, obesity, and insulin resistance in Western Samoans: cross sectional study BMJ 965-969 Ι Μοσχανδρέα 8

Γράφηµα 10. ιάγραµµα διασποράς της συγκέντρωση λεπτίνηςσε σχέση µε την περίµετρο µέσης σε άνδρες και γυναίκες µε και χωρίς διαβήτη (4 οµάδες). 4.2 Μη παραµετρική µέθοδος: ο συντελεστής συσχέτισης του Spearman, ρ. Όταν δεν τηρούνται οι προϋποθέσεις για την εφαρµογή της παραµετρικής µεθόδου που περιγράφηκε στη 3.1 & 3.2, τότε µια άλλη προσέγγιση περιλαµβάνει τον υπολογισµό της αύξουσας σειράς των τιµών της κάθε µεταβλητής και µετά τη σύγκριση των σειρών αυτών. Ο συντελεστής συσχέτισης σειράς του Spearman ρ (Spearman s rank correlation coefficient ρ) παίρνει τιµές από 1 έως 1 και εννοιολογικά είναι αντίστοιχος του r. Όταν η σχέση µεταξύ δυο µεταβλητών είναι µια σχέση καµπύλης, τότε ο συντελεστής συσχέτισης του Pearson r υποεκτιµάει το µέγεθος της σχέσης, ενώ ο συντελεστής συσχέτισης του Spearman συνήθως δίνει µια καλύτερη εικόνα της κατάστασης επειδή εκτιµάει γενικότερα εάν οι δύο µεταβλητές αυξάνονται ή µειώνονται µαζί. Όταν και οι δύο συντελεστές είναι εφαρµόσιµοι, τότε η παραµετρική µέθοδος έχει θεωρητικά µεγαλύτερη ισχύ τεκµηρίωσης ενδεχόµενης συσχέτισης αλλά στην πράξη συνήθως δεν διαφέρουν πολύ οι τιµές τους. Ένα παράδειγµα υπολογισµού του ρ δίνονται στο Παράρτηµα 2. Μία άλλη µη-παραµετρική µέθοδος η οποία µπορεί να χρησιµοποιηθεί περιλαµβάνει τον υπολογισµό του συντελεστή συσχέτισης σειράς του Kendall, τ. Ο συντελεστής του Spearman είναι πιο γνωστός διότι ο υπολογισµός του δεν είναι τόσο χρονοβόρος όσο του τ (οπότε όταν οι υπολογισµοί γινόντουσαν µε το χέρι, προτιµούσαµε το ρ) αλλά ο τ έχει εξίσου καλές ιδιότητες όπως ο ρ. 10 Συνήθως, η αριθµητική τιµή του ρ είναι µεγαλύτερη από αυτή του τ. Στο SPSS 14.0, η διαδικασία για να υπολογιστεί ο συντελεστής συσχέτισης του Spearman και του Κendall είναι: Analyze Correlate Bivariate... τσεκάροντας τα κουτιά που αντιστοιχούν στο «Spearman» και «Kendall». ΠΑΡΑ ΕΙΓΜΑ 1 (συν). Τρέχοντας τη µη-παραµετρική ανάλυση συσχέτισης στο SPSS, βρίσκουµε ότι ο ρ = 0,40 µε p = 0,020 και τ = 0,294 µε p = 0,017 (n=34). Εάν ζητήσουµε το r, το αποτέλεσµα είναι: r = 0,37 (και p=0,029). Σ αυτή την περίπτωση δεν διαφέρουν πολύ τα αποτελέσµατα του παραµετρικού από του µη-παραµετρικού ελέγχου. Αν αφαιρέσουµε τις δύο ακραίες τιµές, ο r είναι 0,40 (p=0,025). ηλαδή, οι δύο ακραίες τιµές δεν επιδρούν σε µεγάλο βαθµό στη σχέση των δύο µεταβλητών. 10 Ο Bland (σελ 224-5) αναφέρει ότι ο τ είναι µέρος ενός πιο γενικευµένου συστήµατος µεθόδων «σειράς» (ranking methods). Ι Μοσχανδρέα 9

ΠΑΡΑ ΕΙΓΜΑ 3. Σχέση συγκέντρωσης GSH αίµατος µε επίπεδα θρέψης σε παιδιά µε κυστική ίνωση (συν). Αρχείο GSH.sav. Ο ρ είναι 0,35 (p=0,152). εν απορρίπτεται η Η 0 σε επίπεδο 5%. εν υπάρχει απόδειξη ότι το GSH σχετίζεται µε το % ιδανικού βάρους στον πληθυσµό των παιδιών µε κυστική ίνωση. 5. Εσφαλµένη χρήση της συσχέτισης. Μερικές φορές διαβάζουµε σε δηµοσιεύσεις ότι ο συντελεστής συσχέτισης έχει υπολογιστεί για να µετρηθεί η ακρίβεια µιας µεθόδου σε σχέση µε µια άλλη. Π.χ. Μετρήθηκε η συστολική πίεση µιας οµάδας ασθενών µε υπέρταση µε το κλασσικό υδράργυρο σφυγµοµανόµετρο και µε ένα ηλεκτρονικό µηχάνηµα. Για να αποφασιστεί κατά πόσον συµφωνούν οι µετρήσεις, υπολογίστηκε ο συντελεστής συσχέτισης. Υπάρχει κάποιο πρόβληµα µε αυτήν την προσέγγιση; Ναι! Ο συντελεστής συσχέτισης δείχνει το µέγεθος της σχέσης µεταξύ των µεταβλητών, δεν δείχνει όµως εάν οι τιµές είναι ίδιες ή όχι. Μπορεί, παραδείγµατος χάριν, όλες οι τιµές στο νέο µηχάνηµα να είναι ακριβώς 80% των τιµών στο υδράργυρο σφυγµοµανόµετρο. Σ αυτή την περίπτωση ο συντελεστής θα είναι 1 (διότι θα υπάρχει µια τέλεια γραµµική σχέση). Μέθοδοι που µπορούν να εφαρµοστούν σε τέτοιες περιπτώσεις ονοµάζονται «measurement agreement methods». 11 Μια άλλη περίπτωση όπου δεν πρέπει να υπολογιστεί ο συντελεστής συσχέτισης είναι όταν το δείγµα περιλαµβάνει τουλάχιστον δύο υπο-οµάδες ατόµων των οποίων τα χαρακτηριστικά τείνουν να διαφέρουν. Σ αυτή την περίπτωση είναι προτιµότερο να υπολογίζεται ο συντελεστής συσχέτισης για κάθε οµάδα χωριστά. ΠΑΡΑΓΕΙΓΜΑ 4 (συν). Σχέση της λεπτίνης µε το ΜΣ και την περίµετρο µέσης σε άτοµα της υτικής Σαµόας. Οι συγγραφείς εκτίµησαν χωριστά για άνδρες και γυναίκες τη συσχέτιση µεταξύ της περιµέτρου µέσης και της συγκέντρωσης λεπτίνης και ήταν r = 0,82 για τους άνδρες (p<0,001) και r= 0,78 (p<0,001) για τις γυναίκες. Υπάρχει δηλαδή θετική συσχέτιση και στις 2 οµάδες. Μία τρίτη περίπτωση όπου δεν πρέπει να υπολογιστεί ο συντελεστής συσχέτισης είναι όταν είναι γνωστό ότι κάποιος άλλος παράγοντας (δηλαδή µία άλλη µεταβλητή) επηρεάζει τη σχέση των δύο µεταβλητών. Ένα απλοϊκό παράδειγµα είναι η θετική συσχέτιση του αριθµού των εκκλησιών µε τον αριθµό των κλοπών σε διάφορες περιοχές. Εδώ είναι εµφανές ότι το µέγεθος του πληθυσµού της κάθε περιοχής επηρεάζει αυτή τη σχέση. Συχνά ο τρίτος παράγοντας είναι ο χρόνος. π.χ. η κατανάλωση «fast food» και το ποσοστό των διαζυγίων στην Κρήτη τα τελευταία τριάντα χρόνια µία θετική συσχέτιση. Τέλος, πρέπει να σηµειωθεί ότι ο συντελεστής συσχέτισης επηρεάζεται από την προσθαφαίρεση ατόµων. Υποτίθεται ότι τα άτοµα που µελετούνται αποτελούν ένα δείγµα που επιλέχτηκε µε τυχαίο τρόπο (τυχαία δειγµατοληψία). Εάν περιοριστεί το εύρος των τιµών της µιας µεταβλητής αναµένεται ότι ο συντελεστής συσχέτισης θα µειωθεί. Το δείγµα δεν θα µπορέσει πλέον να θεωρηθεί τυχαίο δείγµα 12. 11 Τέτοιες µέθοδοι περιγράφονται στο κεφάλαιο 15 του βιβλίου «An Introduction to Medical Statistics» (15.3, σελ 272-275). 12 Μπορεί να δείτε πώς αλλάζει στη πράξη ο συντελεστής συσχέτισης όταν περιορίζεται το εύρος των τιµών µε το Applet που δίνεται στη στο site http://www.ruf.rice.edu/~lane/stat_sim/restricted_range/index.html Ι Μοσχανδρέα 10

6. Συσχέτιση, αιτία και πρόβλεψη Το ότι δύο µεταβλητές παρουσιάζουν συσχέτιση δεν σηµαίνει ότι η µία είναι το αίτιο και η άλλη το αιτιατό. Στο παρακάτω γράφηµα (Γράφηµα 11) παρουσιάζεται η (οικολογική) συσχέτιση της πρόσληψης διαιτητικών ινών µε τη θνησιµότητα από καρκίνο του παχέους εντέρου σε χώρες που έλαβαν µέρος στην Μελέτη των Επτά Χωρών. Γράφηµα 11. ιάγραµµα διασποράς της συσχέτισης της πρόσληψης διαιτητικών ινών µε την 25ετή θνησιµότητα από καρκίνο του παχέους εντέρου σε χώρες που έλαβαν µέρος στην Μελέτη των 7 Χωρών {αναπαράχθηκε από το Figure 2 των Jansen et al, IJC, 1999}. Η ύπαρξη συσχέτισης δεν σηµαίνει ότι η µειωµένη πρόσληψη διαιτητικών ινών ευθύνεται για την αύξηση της θνησιµότητας από καρκίνο του παχέους εντέρου. Όταν βρεθεί µια συσχέτιση µεταξύ δύο µεταβλητών Α και Β, υπάρχουν τρεις πιθανότητες (εξαιρώντας την πιθανότητα ότι το εύρηµα ήταν τυχαίο): 1) η Α επηρεάζει (δηλαδή ευθύνεται για) τη Β 2) η Β επηρεάζει την Α 3) κι οι δύο επηρεάζονται από µία ή περισσότερες άλλες µεταβλητές. Συνήθως δεν γνωρίζουµε εάν ισχύει ή όχι η 3). Συνεπώς δεν δικαιολογείται δηλαδή το συµπέρασµα αιτιολογικής σχέσης µόνο από µία ανάλυση συσχέτισης. Εάν γνωρίζουµε εκ των προτέρων ότι οι τιµές της µίας µεταβλητής µπορούν να προβλεφθούν από την άλλη µεταβλητή, τότε η κατάλληλη προσέγγιση δεν είναι η συσχέτιση αλλά η εξάρτηση (ή παλινδρόµηση, regression). Η τεχνική της εξάρτησης συχνά παρουσιάζεται µαζί µε αυτή της συσχέτισης επειδή έχουν πολύ στενή µαθηµατική σχέση (όπως στο Γράφηµα 9 παραπάνω όπου η γραµµή της παλινδρόµησης παρουσιάζεται στο διάγραµµα διασποράς). Στοχεύουν όµως σε διαφορετικά πράγµατα. Όπως ανέφερα παραπάνω ο σκοπός της συσχέτισης είναι η εκτίµηση της κατεύθυνσης και του µεγέθους µιας πιθανής σχέσης (strength of association). Ο σκοπός της εξάρτησης είναι η περιγραφή της σχέσης ώστε να είναι εφικτή η πρόβλεψη της τιµής µιας µεταβλητής όταν γνωρίζουµε την τιµή της άλλης (για κάποιο άτοµο). Ι Μοσχανδρέα 11

7. Σύνοψη O συντελεστής συσχέτισης µετράει την κατεύθυνση και τον βαθµό της σχέσης µεταξύ δύο ποσοτικών µεταβλητών και παίρνει τιµές από 1 έως και 1. Η τιµή µηδέν σηµαίνει πλήρη έλλειψη συσχέτισης. Ένα διάγραµµα διασποράς πρέπει πάντα να συνοδεύει την ανάλυση συσχέτισης. Ο συντελεστής συσχέτισης του Pearson r µετράει το βαθµό της γραµµικής σχέσης µεταξύ δύο ποσοτικών µεταβλητών. Τουλάχιστον 1 µεταβλητή πρέπει να έχει κανονική κατανοµή για τον έλεγχο σηµαντικότητας. Και οι 2 µεταβλητές πρέπει να έχουν κανονική κατανοµή για τη δηµιουργία ενός διαστήµατος εµπιστοσύνης. Ο (µη-παραµετρικός) συντελεστής συσχέτισης του Spearman ρ µπορεί να υπολογιστεί όταν δεν τηρούνται οι προϋπόθεσης για τον υπολογισµό του r, δηλαδή όταν ισχύει τουλάχιστον 1 από τα παρακάτω: Κι οι 2 µεταβλητές δεν έχουν κανονική κατανοµή. Το µέγεθος του δείγµατος είναι µικρό. Θέλουµε ένα µέτρο µιας σχέσης η οποία δεν φαίνεται γραµµική. Τουλάχιστον 1 µεταβλητή είναι τακτική. Το να βρεθεί µια στατιστικά σηµαντική συσχέτιση δεν σηµαίνει ότι η σχέση είναι αιτιολογική. 8. Βιβλιογραφία Altman D.G. (1991) Practical Statistics for Medical Research. Chapman and Hall. M Bland (2000) An Introduction to Medical Statistics 3rd ed. Oxford University Press. Petrie A, Sabin C. (2005) Medical Statistics at a glance. 2 nd ed. Blackwell Publishing: Oxford. Rice J A (1988) Mathematical Statistics & Data Analysis Wadsworth & Brooks Cole: California. 9. Παραρτήµατα 9.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία Αγγλική Ελληνική Coefficient of determination Συντελεστής προσδιορισµού Confidence interval (CI) ιάστηµα εµπιστοσύνης ( Ε) ή ιάστηµα αξιοπιστίας Correlation Συσχέτιση Degree of association Βαθµός σχέσης Hypothesis testing ή significance Έλεγχος στατιστικής υπόθεσης ή έλεγχος testing σηµαντικότητας. Pearson s correlation coefficient Συντελεστής συσχέτισης του Pearson Random scatter Τυχαία διασπορά Scatter plot διάγραµµα διασποράς, διάγραµµα συσχέτισης, στικτόγραµµα Spearman s rank correlation coefficient ρ συντελεστής συσχέτισης σειράς του Spearman ρ Spurious correlations «Μη-γνήσιες» συσχετίσεις Ι Μοσχανδρέα 12

9.2 Παράρτηµα 2. Υπολογισµός των συντελεστών συσχέτισης r και ρ (χρησιµοποιώντας τα δεδοµένα του Παραδείγµατος 3). Όταν έχουµε δύο µεταβλητές Χ = {x 1, x 2,,x n } και Υ= {y 1, y 2,,y n }, τότε ο συντελεστής συσχέτισης του Pearson r υπολογίζεται ως ( xi x)( yi y) r = 2 2 ( x x) ( y y) i i όπου το x είναι η µέση τιµή της Χ και το y είναι η µέση τιµή της Υ. Ο παρανοµαστής εξασφαλίζει ότι ο r θα είναι µεταξύ 1 και 1. Το διάγραµµα διασποράς των δεδοµένων του παραδείγµατος 3 δίνεται πάλι παρακάτω. Οι κόκκινες γραµµές δείχνουν τις µέσες τιµές, και χωρίζουν το διάγραµµα σε τέταρτα (quadrants), ανάλογα µε το πρόσηµα του αριθµητή στον τύπο του r. Το στατιστικό κριτήριο ελέγχου είναι Συγκρίνεται µε την κατανοµή t µε n-2 β.ε. r n 2 2 1 r όπου n=το µέγεθος του δείγµατος. Ι Μοσχανδρέα 13

A B C D E F G i GSH (y i ) BW (x i ) y i -1,3 x i -101,8 D*E D*D E*E 1 0,5 85-0,8-16,8 13,7 0,7 282,2 2 0,55 82-0,8-19,8 15,2 0,6 392,0 3 0,8 106-0,5 4,2-2,2 0,3 17,6 4 0,8 112-0,5 10,2-5,3 0,3 104,0 5 0,82 111-0,5 9,2-4,6 0,2 84,6 6 1 92-0,3-9,8 3,1 0,1 96,0 7 1,1 93-0,2-8,8 1,9 0,0 77,4 8 1,15 82-0,2-19,8 3,3 0,0 392,0 9 1,2 119-0,1 17,2-2,0 0,0 295,8 10 1,3 104 0,0 2,2 0,0 0,0 4,8 11 1,38 93 0,1-8,8-0,6 0,0 77,4 12 1,4 92 0,1-9,8-0,8 0,0 96,0 13 1,4 78 0,1-23,8-2,0 0,0 566,4 14 1,5 95 0,2-6,8-1,2 0,0 46,2 15 1,58 105 0,3 3,2 0,8 0,1 10,2 16 1,65 88 0,3-13,8-4,6 0,1 190,4 17 1,7 114 0,4 12,2 4,7 0,1 148,8 18 1,8 146 0,5 44,2 21,4 0,2 1953,6 19 2 104 0,7 2,2 1,5 0,5 4,8 20 2,7 135 1,4 33,2 45,9 1,9 1102,2 sum 88,3 5,2 5943,2 µ.τ. 1,3 101,8 0,0 0,0 176,1 r 0,5 Πίνακας 1. Τα (εκτιµηµένα) raw data του Παραδείγµατος 3 και ο υπολογισµός του r. Παρακάτω δίνονται τα δεδοµένα του Παραδείγµατος 3, αλλά εδώ φαίνεται πώς υπολογίζεται ο συντελεστής συσχέτισης του Spearman, ρ (Πίνακας 2). Η διαδικασία είναι ίδια, αλλά στον υπολογισµό χρησιµοποιείται η σειρά (ranks) των παρατηρήσεων αντί για τις απόλυτες τιµές. A B C D E F G GSH (y i )BW (x i ) i GSH BW y i -10,5 x i -10,5 D*E D*D E*E 0,5 85 1 1 4-9,5-6,5 61,8 90,3 42,3 0,55 82 2 2 2,5-8,5-8 68,0 72,3 64,0 0,8 106 3 3,5 14-7 3,5-24,5 49,0 12,3 0,8 112 4 3,5 16-7 5,5-38,5 49,0 30,3 0,82 111 5 5 15-5,5 4,5-24,8 30,3 20,3 1 92 6 6 6,5-4,5-4 18,0 20,3 16,0 1,1 93 7 7 8,5-3,5-2 7,0 12,3 4,0 1,15 82 8 8 2,5-2,5-8 20,0 6,3 64,0 1,2 119 9 9 18-1,5 7,5-11,3 2,3 56,3 1,3 104 10 10 11,5-0,5 1-0,5 0,3 1,0 1,38 93 11 11 8,5 0,5-2 -1,0 0,3 4,0 1,4 92 12 12,5 1 2-9,5-19,0 4,0 90,3 1,4 78 13 12,5 6,5 2-4 -8,0 4,0 16,0 1,5 95 14 14 10 3,5-0,5-1,8 12,3 0,3 1,58 105 15 15 13 4,5 2,5 11,3 20,3 6,3 1,65 88 16 16 5 5,5-5,5-30,3 30,3 30,3 1,7 114 17 17 17 6,5 6,5 42,3 42,3 42,3 1,8 146 18 18 20 7,5 9,5 71,3 56,3 90,3 2 104 19 19 11,5 8,5 1 8,5 72,3 1,0 2,7 135 20 20 19 9,5 8,5 80,8 90,3 72,3 10,5 10,5 0 0 229,3 664,0 663,0 663,5 Spearman's r 0,3 176,1= (5,2*5943,2) 663,5= (664*663) Πίνακας 2. Τα (εκτιµηµένα) raw data του Παραδείγµατος 3 και ο υπολογισµός του ρ. Ι Μοσχανδρέα 14