Εισαγωγή στη Βιοστατιστική

Σχετικά έγγραφα
Αναλυτική Στατιστική

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

Εισαγωγή στη Βιοστατιστική

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Έλεγχος ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (Crosstabs - Chi-Square Tests)

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Ποιοτική και ποσοτική ανάλυση ιατρικών δεδομένων

Εκπαιδευτική Έρευνα: Μέθοδοι Συλλογής και Ανάλυσης εδομένων Συσχέτιση

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Ενότητα 4 η : Ανάλυση ερευνητικών δεδομένων. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Ποσοτική & Ποιοτική Ανάλυση εδομένων Συσχέτιση. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη,

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Στατιστική Επιχειρήσεων Ι

Ιατρικά Μαθηματικά & Βιοστατιστική

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΙΣ ΕΞΕΤΑΣΕΙΣ

Κεφάλαιο 16. Σύγκριση συχνοτήτων κατηγοριών: το στατιστικό κριτήριο χ 2. Προϋποθέσεις για τη χρήση του τεστ. ιαφορές ή συσχέτιση.

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Λογαριθµιστική εξάρτηση

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Στατιστικοί Έλεγχοι Υποθέσεων. Σαλαντή Γεωργία Εργαστήριο Υγιεινής και Επιδημιολογίας Ιατρική Σχολή

Γ. Πειραματισμός Βιομετρία

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Λύση. Επίπτωση-πυκνότητα κ+ =ID κ+ 0,05 (έτη) -1. Επίπτωση-πυκνότητα κ- =ID κ- 0,01 (έτη) -1. ID κ+ - ID κ- 0,05-0,01=0,04 (έτη) -1

Στατιστικές Υποθέσεις

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Απαραμετρική Στατιστική. Το βαθμονομικό κριτήριο του Wilcoxon, για ζευγαρωτες παρατηρήσεις Ο βαθμονομικός συντελεστής συσχέτισης του Spearman

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

Στατιστική ανάλυση αποτελεσμάτων

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστικοί έλεγχοι του Χ 2

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

Διάστημα εμπιστοσύνης της μέσης τιμής

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

τα πάντα είναι σχετικά

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σπουδαστές Γιαννουλάκης Αντρέας Α.Μ Τσουρουνάκης 'Αγγελος Α.Μ Μουτουσίδου Πόπη Α.Μ Εισηγητής: Ταφιάδης Χρ.

Κλινική Επιδηµιολογία

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

(Confounders) Δύο κύρια θέματα. Θα πρέπει να πιστέψω το αποτέλεσμα της μελέτης μου; Συγχυτικοί και τροποποιητικοί παράγοντες

3.4.1 Ο Συντελεστής ρ του Spearman

Προσδιοριστής (determinant) Συνώνυμα

ΔΙΔΑΣΚΑΛΙΑ ΙΑΤΡΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ 1ο ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ (ΧΕΙΜΕΡΙΝΟ 1ου ΕΤΟΥΣ) Καθηγήτρια Ιατρικής Στατιστικής & Επιδημιολογίας

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Στατιστικοί έλεγχοι για διακριτά δεδομένα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Τεκµηριωµένη Ιατρική ΒΛΑΒΗ. Βασίλης Κ. Λιακόπουλος Λέκτορας Νεφρολογίας ΑΠΘ

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

15, 11, 10, 10, 14, 16, 19, 18, 13, 17

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Μέθοδος μέγιστης πιθανοφάνειας

Προσδιοριστής (determinant) Συνώνυμα

Διάλεξη 1 Βασικές έννοιες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Ιατρικά Μαθηματικά & Βιοστατιστική

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

τατιστική στην Εκπαίδευση II

Πέτρος Γαλάνης, MPH, PhD Εργαστήριο Οργάνωσης και Αξιολόγησης Υπηρεσιών Υγείας Τμήμα Νοσηλευτικής, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Ποιοι από τους παρακάτω πληθυσμούς είναι κλειστοί ή ανοιχτοί και γιατί;

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Στατιστική

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

«ΕΙΣΑΓΩΓΗ ΣΤΗ ΜΕΘΟΔΟΛΟΓΙΑ ΤΗΣ ΕΚΠΑΙΔΕΥΤΙΚΗΣ ΕΡΕΥΝΑΣ» Μάθημα 5 «Βασικές μέθοδοι ποσοτικής έρευνας» (II)

Έλεγχος Ανεξαρτησίας x2 του Pearson x2 του Pearson

9. Παλινδρόμηση και Συσχέτιση

Ποιοι από τους παρακάτω πληθυσμούς είναι κλειστοί ή ανοιχτοί και γιατί;

Ερώτηση. Ποιο μέτρο συχνότητας υπολογίστηκε;

Transcript:

Εισαγωγή στη Βιοστατιστική Π.Μ.Σ.: Έρευνα στη Γυναικεία Αναπαραγωγή Οκτώβριος Νοέμβριος 2017 2

Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών Παράδειγμα η παρουσία καρκίνου δεν εξαρτάται από το φύλο (Η ο ) η παρουσία καπνίσματος δεν εξαρτάται από το μορφωτικό επίπεδο: καθόλου δημοτικό γυμνάσιο - λύκειο ΑΕΙ/ΤΕΙ (Η ο ) Μπορούμε να χρησιμοποιήσουμε το t-test; Πότε χρησιμοποιούμε το t-test; 2

Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών Στα προηγούμενα παραδείγματα δεν έχει νόημα η μέση τιμή Στις περιπτώσεις αυτές ο στατιστικός έλεγχος γίνεται με σύγκριση των συχνοτήτων των παρατηρήσεων στις διάφορες κατηγορίες Διαξονική ταξινόμηση (two-way classification) ή ταξινόμηση δύο διευθύνσεων: η ταυτόχρονη ταξινόμηση των δεδομένων ως προς δύο χαρακτηριστικά (μεταβλητές). 3

Διαξονική ταξινόμηση Όταν θέλουμε να μελετήσουμε την ύπαρξη συσχέτισης μεταξύ 2 ποιοτικών χαρακτηριστικών Παράδειγμα: Κατανομή 300 ατόμων σύμφωνα με το κάπνισμα και την ύπαρξη ή όχι καρκίνου του εντέρου Κάπνισμα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 50 50 100 Όχι 130 70 200 Σύνολο 180 120 300 4

Έλεγχος X 2 Ο έλεγχος αυτός πραγματοποιείται όταν έχουμε 2 ποιοτικές μεταβλητές Η μηδενική του υπόθεση είναι: Η 0 : Δεν υπάρχει σχέση μεταξύ των 2 μεταβλητών μας Έτσι, στο προηγούμενο παράδειγμα, η μηδενική υπόθεση λέει ότι δεν υπάρχει σχέση μεταξύ καπνίσματος και καρκίνου του εντέρου 5

(συν.) Υποθέστε ότι μπορούμε να κατασκευάσουμε ένα πίνακα που να αντιστοιχεί στο προηγούμενο παράδειγμά μας, και να εκφράζει τη μηδενική υπόθεση Δηλαδή, τον πίνακα που ισχύει όταν ισχύει η μηδενική υπόθεση Δηλαδή τον πίνακα με τις συχνότητες σε κάθε κελί όταν δεν υπάρχει σχέση μεταξύ καπνίσματος και καρκίνου του εντέρου 6

(συν.) Έτσι, θα έχουμε 2 διαφορετικούς πίνακες! Αφενός τον πίνακα που πήραμε από το δείγμα μας (και είδαμε προηγουμένως): Κάπνισμα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 50 50 100 Όχι 130 70 200 Σύνολο 180 120 300 7

(συν.) και έναν άλλο πίνακα που ισχύει όταν ισχύει η μηδενική υπόθεση: (θα δούμε στη συνέχεια πως τον κατασκευάζουμε) Κάπνισμα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 60 40 100 Όχι 120 80 200 Σύνολο 180 120 300 8

Κάπνισµα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 50 50 100 Όχι 130 70 200 Σύνολο 180 120 300 Κάπνισµα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 60 40 100 Όχι 120 80 200 Σύνολο 180 120 300 9

(συν.) Παρατηρήστε ότι ο συνολικός αριθμός παρατηρήσεων ανά γραμμή και ανά στήλη είναι ίδιος, και στους 2 πίνακες 10

Κάπνισµα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 50 50 100 Όχι 130 70 200 Σύνολο 180 120 300 Κάπνισµα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 60 40 100 Όχι 120 80 200 Σύνολο 180 120 300 11

(συν.) Όσο πιο «κοντά» είναι ο πίνακας με τα στοιχεία από το δείγμα μας στον πίνακα της μηδενικής υπόθεσης, τόσο πιο βέβαιοι είμαστε ότι ισχύει η μηδενική υπόθεση Όσο πιο «μακριά» είναι ο πίνακας με τα στοιχεία από το δείγμα μας στον πίνακα της μηδενικής υπόθεσης, τόσο πιο βέβαιοι είμαστε ότι ΔΕΝ ισχύει η μηδενική υπόθεση 12

Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών - Το κριτήριο Χ 2 Το στατιστικό κριτήριο που χρησιμοποιείται είναι το Χ 2 του Pearson. Είναι ένα μέτρο απόστασης δύο «καταστάσεων» X ( ) 2 2 Π=παρατηρηθείσες συχνότητες, Α=αναμενόμενες συχνότητες 13

Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών Δειγματοληπτικά στοιχεία (πραγματικά δεδομένα) Χ / Υ Α1 (π.χ. ασθενείς) Α2 (π.χ. υγιείς) Β1 (παράγοντας παρών) α β Β2 (παράγοντας απών) γ δ Το κριτήριο χ 2 «μετρά» την απόσταση των δύο πινάκων Θεωρητικά στοιχεία που θα είχαμε «αν δεν υπάρχει σχέση μεταξύ των 2 μεταβλητών (Ηο)» Χ / Υ Α1 (π.χ. ασθενείς) Α2 (π.χ. υγιείς) Β1 (παράγοντας παρών) Α Β Β2 (παράγοντας απών) Γ Δ 14

Το κριτήριο Χ 2 Έτσι, στους προηγούμενους πίνακες, οι τιμές α,β,γ,δ αντιστοιχούν στις παρατηρηθείσες συχνότητες, και οι τιμές Α,Β,Γ,Δ αντιστοιχούν στις αναμενόμενες συχνότητες Με βάση τη θεωρία, το κριτήριο Χ 2 στους πίνακες 2Χ2 είναι το ακόλουθο: X 2 ( a ') ' 2 ( ') ' 2 ( ') ' 2 ( ') ' 2 15

(συν.) Έτσι, στο παράδειγμά μας έχουμε: Χ 2 =6,250 ΒΕ=1 p-value=0,012 Οι βαθμοί ελευθερίας (ΒΕ) υπολογίζονται ως: (Γ-1)*(Σ-1), όπου Γ και Σ ο αριθμός των γραμμών και στηλών, αντίστοιχα 16

(συν.) Από τα προηγούμενα αποτελέσματα, μας ενδιαφέρει μόνο το p-value Επειδή p-value=0,012 < 0,05 απορρίπτουμε τη μηδενική υπόθεση και συμπεραίνουμε ότι ο καρκίνος του εντέρου σχετίζεται με το κάπνισμα. 17

Το κριτήριο Χ 2 Παράδειγμα: Κατανομή 80 καρκινοπαθών και 160 υγειών κατά οικογενειακή κατάσταση Καρκινοπαθείς μαστού Οικογενειακή κατάσταση Ανύπαντρες Παντρεμένες Άλλες Σύνολο Ναί 30 44 6 80 Όχι 30 106 24 160 Σύνολο 60 150 30 240 18

(συν.) Υπόθεση για έλεγχο: Υπάρχει σχέση ανάμεσα στην οικογενειακή κατάσταση και στον καρκίνο του μαστού; Ή εναλλακτικά: Η αναλογία κατά οικογενειακή κατάσταση είναι ίδια στις ασθενείς και τις υγιείς; Η 0 : Δεν υπάρχει σχέση ανάμεσα στην οικογενειακή κατάσταση και στον καρκίνο του μαστού. 19

(συν.) Υπολογισμός αναμενόμενων συχνοτήτων, αν ισχύει η Η 0 (δεν υπάρχει σχέση ανάμεσα στην οικογενειακή κατάσταση και στον καρκίνο του μαστού) Καρκινοπαθείς μαστού Οικογενειακή κατάσταση Ανύπαντρες Παντρεμένες Αλλα Σύνολο Ναί ; ; ; 80 Όχι ; ; ; 160 Σύνολο 60 150 30 240 20

(συν.) Υπολογισμός των αναμενόμενων συχνοτήτων (δηλαδή των συχνοτήτων που περιμένουμε όταν ισχύει η μηδενική υπόθεση). Ο πίνακας με τις αναμενόμενες συχνότητες υπολογίζεται με την «απλή μέθοδο των τριών» Έτσι, έχουμε για παράδειγμα: 21

Οικογενειακή κατάσταση (συν.) Καρκινοπαθείς µαστού Ανύπαντρες Παντρεµένες Αλλα Σύνολο Ναί ; ; ; 80 Όχι ; ; ; 160 Σύνολο 60 150 30 240 Έτσι, αν θέλουμε να υπολογίσουμε την αναμενόμενη συχνότητα για ανύπαντρες καρκινοπαθείς, έχουμε: Σε σύνολο 240 γυναικών υπάρχουν 60 ανύπαντρες Στις 80 καρκινοπαθείς Χ? Και βρίσκουμε 20 γυναίκες 22

Οικογενειακή κατάσταση (συν.) Καρκινοπαθείς µαστού Ανύπαντρες Παντρεµένες Αλλα Σύνολο Ναί ; ; ; 80 Όχι ; ; ; 160 Σύνολο 60 150 30 240 Αντίστοιχα, για τις ανύπαντρες μη-καρκινοπαθείς: Σε σύνολο 240 γυναικών υπάρχουν 60 ανύπαντρες Στις 160 μη-καρκινοπαθείς Χ? Και βρίσκουμε 40 γυναίκες Όμοια συμπληρώνουμε όλο τον πίνακα 23

(συν.) Οι τιμές σε παρένθεση είναι οι αναμενόμενες συχνότητες, αν ισχύει η Η 0 Καρκινοπαθείς μαστού Οικογενειακή κατάσταση Ανύπαντρες Παντρεμένες Αλλα Σύνολο Ναί 30 (20) 44 (50) 6 (10) 80 Όχι 30 (40) 106 (100) 24 (20) 160 Σύνολο 60 150 30 240 24

X ( ) 2 2 Όπου: Ο: παρατηρηθείσες συχνότητες (Observed) E: αναμενόμενες συχνότητες (Expected) κ: αριθμός κελιών του Πίνακα 2 2 2 (30 20) (30 40) (44 50) X 20 40 50 2 2 2 (106 100) (6 10) (24 20) 100 10 20 5 2,5 0,72 0,36 1,6 0,8 10,98 2 25

Βαθμοί ελευθερίας ΒΕ=(Γ-1)*(Σ-1)=(2-1)*(3-1)=2 Γ: αριθμός γραμμών Σ: αριθμός στηλών Με βάση τα παραπάνω το στατιστικό πρόγραμμα μας υπολογίζει ότι το p-value=0,004 Οπότε, ποιο είναι το τελικό μας συμπέρασμα; 26

ΠΡΟΫΠΟΘΕΣΕΙΣ ΕΦΑΡΜΟΓΗΣ ΤΟΥ Χ 2 Για να μπορέσουμε να εφαρμόσουμε το Χ 2 πρέπει να ισχύουν οι προϋποθέσεις του Οι προϋποθέσεις αυτές αναφέρονται στις αναμενόμενες συχνότητες: Όλες οι αναμενόμενες συχνότητες πρέπει να είναι >1 και Οι περισσότερες (τα 4/5 αυτών) να είναι >5. 27

ΠΡΟΫΠΟΘΕΣΕΙΣ ΕΦΑΡΜΟΓΗΣ ΤΟΥ Χ 2 Καρκινοπαθείς μαστού Οικογενειακή κατάσταση Ανύπαντρες Παντρεμένες Αλλα Σύνολο Ναί 30 (20) 44 (50) 6 (10) 80 Όχι 30 (40) 106 (100) 24 (20) 160 Σύνολο 60 150 30 240 Άρα, τηρούνται οι προϋποθέσεις εφαρμογής της δοκιμασίας. 28

ΠΡΟΫΠΟΘΕΣΕΙΣ ΕΦΑΡΜΟΓΗΣ ΤΟΥ Χ 2 Αν δεν τηρούνται οι προϋποθέσεις εφαρμογής του Χ 2, τότε ποιο είναι το τελικό μας συμπέρασμα στο προηγούμενο παράδειγμα; 29

Παράδειγμα Κατανομή 3042 ανδρών και γυναικών βάση των διατροφικών τους συνηθειών (πόσο κοντά είναι στη μεσογειακή δίαιτα) Διατροφικές συνήθειες Φύλο Μακριά Κοντά Πολύ κοντά Σύνολο Γυναίκες 246 (508,8) Άνδρες 767 (504,2) 428 (509,8) 587 (505,2) 854 (509,4) 160 (504,7) 1528 1514 Σύνολο 1013 1015 1014 3042 30

Μηδενική και εναλλακτική υπόθεση Η ο : Δεν υπάρχει εξάρτηση των διατροφικών συνηθειών από το φύλο των ατόμων Η Α : Υπάρχει εξάρτηση των διατροφικών συνηθειών από το φύλο των ατόμων 31

Ο έλεγχος χ 2 έδειξε Chi-Square Tests Pears on Chi-Square Likelihood Ratio Linear-by-Linear Ass ociation N of Valid Cases a. Asymp. Sig. Value df (2-s ided) 767,803 a 2,000 827,697 2,000 728,051 1,000 3042 0 cells (,0%) have expected count less than 5. The minimum expected count is 504,17. p-value 32

Με βάση τα στοιχεία του πίνακα Το εκτιμώμενο p-value < 0,001, το οποίο είναι < 0,05 Ποια η τιμή του χ 2 κριτηρίου; Πόσοι είναι οι βαθμοί ελευθερίας; 33

Με βάση τα στοιχεία του πίνακα Ποιο το συμπέρασμά σας; «Οι διατροφικές συνήθειες εξαρτώνται από το φύλο» αλλά ΔΕΝ μπορούμε να πούμε ποιοι διατρέφονται πιο υγιεινά. Αυτό θα το δείξει άλλος στατιστικός έλεγχος! 34

Παράδειγμα ΚΑΤΑΝΟΜΗ 620 ΚΑΡΚΙΝΟΠΑΘΩΝ ΠΟΥ ΝΟΣΗΛΕΥΤΗΚΑΝ ΣΕ 5 ΝΟΣΟΚΟΜΕΙΑ ΤΟ 1980 Νοσοκομεία Στάδιο νόσου 1 ο 2 ο 3 ο 4 ο 5 ο Σύνολο Εντοπισμός Καρκίνου Μεταστάσεις Καρκίνου 135 62 85 80 153 515 40 10 15 10 30 105 Σύνολο 175 72 100 90 183 620 35

(συν.) Χ 2 =8,21, ΒΕ=4 p-value = 0,08 Άρα; 36

(συν.) Στις περιπτώσεις που: 0,05<p-value<0,10 λέμε ότι έχουμε ενδεικτικά αποτελέσματα. Αυτό σημαίνει ότι αν και δεν καταφέραμε να αποδείξουμε ότι υπάρχει στατιστικά σημαντική σχέση, φτάσαμε πολύ κοντά Ίσως να χρειάζονται παραπάνω δεδομένα! 37

Χ 2 κατά ζεύγη (McNemar s test) Μερικές φορές οι παρατηρήσεις εμφανίζουν κατά ζεύγη αντιστοιχία Κάθε παρατήρηση στην 1 η ομάδα αντιστοιχεί σε μια παρατήρηση στη 2 η ομάδα Στις περιπτώσεις αυτές ενδείκνυται να λαμβάνουμε υπόψη αυτή την αντιστοιχία και να χρησιμοποιούμε το Χ 2 κατά ζεύγη (McNemar s test) 38

Παράδειγμα Μελετάμε το έμφραγμα μυοκαρδίου στους Ινδιάνους Ναβάχο Στη μελέτη αυτή 144 εμφραγματίες εξομοιώθηκαν βάση την ηλικία τους και το φύλο τους με 144 άτομα που δεν παρουσίαζαν καρδιακά προβλήματα Όλα τα άτομα ρωτήθηκαν αν είχαν ποτέ διαγνωστεί ότι πάσχουν από διαβήτη 39

Διαξονικός πίνακας Έμφραγμα του μυοκαρδίου Διαβήτης Ναι Όχι Σύνολο Ναι 46 25 71 Όχι 98 119 217 Σύνολο 144 144 288 40

Μηδενική υπόθεση Δεν υπάρχει σχέση μεταξύ εμφράγματος του μυοκαρδίου και διαβήτη, στους Ινδιάνους Ναβάχο 41

συνέχεια Στα δεδομένα αυτά μπορούμε να εφαρμόσουμε τη δοκιμασία Χ 2 Η δοκιμασία αυτή δεν λαμβάνει υπόψη την αντιστοιχία κατά ζεύγη Από κάθε εξομοιωμένο ζευγάρι έχουμε 2 απαντήσεις Πρέπει να λάβουμε υπόψη την αντιστοιχία κατά ζεύγη!! 42

Πίνακας (κατά ζεύγη αντιστοιχία) Έμφραγμα του μυοκαρδίου Μάρτυρες Διαβήτης Διαβήτης 9 Όχι διαβήτης Όχι διαβήτης 82 Διαβήτης Όχι διαβήτης 37= r Όχι διαβήτης Διαβήτης 16= s n 43

Χ 2 κατά ζεύγη Τα ζεύγη που συμφωνούν (concordant pairs) δεν προσφέρουν καμία πληροφορία υπέρ ή κατά της H 0 Τα ζεύγη αυτά δεν λαμβάνονται υπόψη! Τα ζεύγη που διαφωνούν (discordant pairs) (αυτά στα οποία το ένα άτομο έχει διαβήτη και το άλλο όχι) προσφέρουν όλη την πληροφορία 44

Χ 2 κατά ζεύγη df=1 (πάντα στο Χ 2 κατά ζεύγη) p-value = 0,006 < 0,05 45

Συμπέρασμα Επειδή p-value<0,05 απορρίπτουμε τη μηδενική υπόθεση Για το συγκεκριμένο πληθυσμό των Ινδιάνων Ναβάχο, συμπεραίνουμε ότι υπάρχει σχέση μεταξύ του εμφράγματος του μυοκαρδίου και του διαβήτη, όταν λάβουμε υπόψη την ηλικία και το φύλο 46

Παράδειγμα Εκατό φοιτητές εξετάστηκαν σε 2 μαθήματα, Α και Β. Απ αυτούς, 20 πέτυχαν και στα δύο, 40 σε κανένα από αυτά, 30 μόνο στο Β και 10 μόνο στο Α. Υπάρχει διαφορά στην πιθανότητα επιτυχίας στα 2 αυτά μαθήματα; Μάθημα Α Μάθημα Β Επιτυχία (+) 30 50 80 Αποτυχία (-) 70 50 120 100 100 200 47

(συν.) Μάθημα Α Μάθημα Β + + 20 - - 40 + - 10 - + 30 48

(συν.) Μάθημα Α Μάθημα Β + + 20 - - 40 + - 10 - + 30 49

(συν.) Η 0 : Δεν υπάρχει διαφορά στην πιθανότητα επιτυχίας στα 2 αυτά μαθήματα Η Α : Υπάρχει διαφορά στην πιθανότητα επιτυχίας στα 2 αυτά μαθήματα 50

(συν.) ΒΕ=1 P-value=0,006 Άρα, απορρίπτουμε την Η 0 και συμπεραίνουμε ότι υπάρχει διαφορά στην πιθανότητα επιτυχίας στα 2 μαθήματα. 51

Χ 2 κατά ζεύγη ή απλό Χ 2 ; Αν έχουμε παρατηρήσεις κατά ζεύγη και αντί για το Χ 2 κατά ζεύγη χρησιμοποιήσουμε το απλό Χ 2, θα είναι λάθος; Δεν θα είναι λάθος, αλλά σε περιπτώσεις παρατηρήσεων κατά ζεύγη σε ποιοτικές μεταβλητές ενδείκνυται το Χ 2 κατά ζεύγη Στις περιπτώσεις αυτές, η δοκιμασία αυτή είναι πιό ισχυρή από το απλό Χ 2, Δηλαδή, τεκμηριώνει με μικρότερο αριθμό παρατηρήσεων το ότι 2 ποιοτικές μεταβλητές σχετίζονται στατιστικά σημαντικά 52

Χ 2 κατά ζεύγη ή απλό Χ 2 ; Αυτό σημαίνει όταν αν έχουμε ένα σχετικά μικρό δείγμα και υπάρχει σχέση μεταξύ των 2 ποιοτικών μεταβλητών που εξετάζουμε στον πληθυσμό, τότε μπορεί: Αν χρησιμοποιήσουμε το Χ 2 κατά ζεύγη βρούμε στατιστικά σημαντικό αποτέλεσμα να Αν χρησιμοποιήσουμε το απλό Χ 2 να μη βρούμε στατιστικά σημαντικό αποτέλεσμα 53

Έκθεση - έκβαση Πολλές φορές μελετάται η σχέση ανάμεσα σ ένα παράγοντα (έκθεση) και σ ένα αποτέλεσμα (έκβαση). Ο απλούστερος τρόπος μελέτης είναι μ ένα πίνακα 2Χ2 ως εξής: Νόσος Μη νόσος Σύνολο Έκθεση a b a+b Μη έκθεση c d c+d Σύνολο a+c b+d n=a+b+c+d 54

Σχετικός λόγος Στους πίνακες 2Χ2 συχνά ως μέτρο του βαθμού συσχέτισης χρησιμοποιείται το πηλίκο των διαγωνίων γινομένων ad bc το οποίο ονομάζεται σχετικός λόγος. Ο σχετικός λόγος εκφράζει πόσες φορές συχνότερη (ή λιγότερο συχνή) είναι η νόσος που μελετάται, όταν ο παράγοντας που εξετάζεται είναι παρών, σε σύγκριση με την συχνότητα της νόσου, όταν ο παράγοντας απουσιάζει. 55

(συν.) Ο σχετικός λόγος μπορεί να πάρει οποιαδήποτε θετική τιμή. Η τιμή 1 δηλώνει απουσία συσχέτισης. Τιμή μεγαλύτερη του 1 δηλώνει ότι η παρουσία του παράγοντα είναι επιβαρυντική (δηλαδή τα «εκτεθειμένα» άτομα έχουν μεγαλύτερη πιθανότητα να πάθουν τη νόσο σε σχέση με τα «μη εκτεθειμένα»). Αντίθετα, τιμή μικρότερη του 1 δηλώνει ότι η παρουσία του παράγοντα είναι προστατευτική (δηλαδή τα «εκτεθειμένα» άτομα έχουν μικρότερη πιθανότητα να πάθουν τη νόσο σε σχέση με τα «μη εκτεθειμένα»). Ο σχετικός λόγος αποτελεί προσεγγιστική εκτίμηση του σχετικού κινδύνου, που είναι ένας βασικός δείκτης συσχέτισης ή αιτιότητας στην επιδημιολογία. 56

Παράδειγμα ΚΑΤΑΝΟΜΗ 2239 ΚΑΡΚΙΝΟΠΑΘΩΝ ΤΟΥ ΜΑΣΤΟΥ ΚΑΙ 1370 ΜΗ ΚΑΡΚΙΝΟΠΑΘΩΝ ΓΥΝΑΙΚΩΝ ΚΑΤΑ ΑΝΑΜΝΗΣΤΙΚΟ ΠΡΟΚΛΗΤΗΣ Η ΦΥΣΙΟΛΟΓΙΚΗΣ ΕΜΜΗΝΟΠΑΥΣΗΣ Καρκινοπαθείς Μη καρκινοπαθείς Σύνολο Προκλητή εμμ/ση 469 453 942 Φυσιολογική εμμ/ση 1770 897 2667 Σύνολο 2239 1370 3609 57

(συν.) Υπάρχει σχέση ανάμεσα στην εμφάνιση καρκίνου του μαστού και στον τρόπο εμμηνόπαυσης; Υπολογίζουμε το σχετικό λόγο και έχουμε: 469*897 0,52 453*1770 Πώς ερμηνεύεται αυτός; Έχει σημασία πως κατασκευάσαμε τον πίνακα 58

(συν.) Ποιά κατηγορία έκθεσης βάλαμε πρώτη; Την προκλητή εμμ/ση Ποιά έκβαση βάλαμε πρώτη; Τον καρκίνο 59

(συν.) Έτσι, ο σχετικός λόγος που υπολογίσαμε σημαίνει: Η πιθανότητα να εμφανίσουν καρκίνο του μαστού οι γυναίκες με προκλητή εμμηνόπαυση είναι σχεδόν η μισή (συγκεκριμένα είναι 0,52) από την πιθανότητα που έχουν οι γυναίκες με φυσιολογική εμμηνόπαυση. 60

(συν.) Στον προηγούμενο πίνακα, ο έλεγχος Χ 2 δίνει p-value<0,001. Άρα, βάση αυτού, υπάρχει στατιστικά σημαντική σχέση μεταξύ καρκίνου του μαστού και προκλητής εμμηνόπαυσης Ο σχετικός λόγος μας βοηθάει να ερμηνεύσουμε ποια είναι η σχέση αυτή Πιο συγκεκριμένα, μας βοηθάει να την ποσοτικοποιήσουμε Η πιθανότητα να εμφανίσουν καρκίνο του μαστού οι γυναίκες με προκλητή εμμηνόπαυση είναι σχεδόν η μισή από αυτή που έχουν οι γυναίκες με φυσιολογική εμμηνόπαυση Το σχετικό λόγο τον υπολογίζουμε μόνο αν η σχέση είναι στατιστικά σημαντική (βάση του ελέγχου Χ 2 ) Τέλος, ο ΣΛ υπολογίζεται μόνο για πίνακες 2Χ2 61

Συνοψίζοντας Αν έχουμε ένα πίνακα 2Χ2, τότε: Πρώτα υπολογίζουμε το Χ 2. Αν είναι στατιστικά σημαντικό, τότε υπολογίζουμε και το σχετικό λόγο, για να δούμε τι σχέση υπάρχει μεταξύ των 2 μεταβλητών Αν το Χ 2 δεν είναι στατιστικά σημαντικό, τότε δηλώνουμε ότι δεν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών Και ΔΕΝ υπολογίζουμε το σχετικό λόγο 62

Αν ο πίνακας είχε άλλη διάταξη; Καρκ/θείς Μη καρκ/θείς Σύνολο Φυσ. εμμ/ση 1770 897 2667 Προκ. εμμ/ση 469 453 942 Σύνολο 2239 1370 3609 Τότε ο σχετικός κίνδυνος θα υπολογιζόταν ad bc 1770* 453 897*469 2 1,91 Οι γυναίκες με φυσιολογική εμμηνόπαυση έχουν περίπου διπλάσια πιθανότητα να πάθουν τη νόσο σε σχέση με τις γυναίκες με προκλητή εμμηνόπαυση. 63

Συγχυτικοί παράγοντες Ένας πίνακας 2Χ2 συχνά διαμορφώνεται για να διερευνηθεί η συσχέτιση ενός νοσήματος (ή άλλης έκβασης) μ έναν παράγοντα (έκθεση). Στην ιατρική έρευνα ενδιαφέρουν κυρίως οι αιτιολογικές συσχετίσεις. Είναι όμως δυνατόν (και μάλιστα συχνό) μία στατιστικά σημαντική συσχέτιση να μην είναι αιτιολογική αλλά να είναι πλασματική δευτερογενής. Τέτοιες σχέσεις προκύπτουν επειδή υπάρχουν άλλοι παράγοντες (οι συγχυτικοί) οι οποίοι συσχετίζονται στατιστικά και με τον μελετούμενο παράγοντα και με το αντίστοιχο νόσημα. 64

(συν.) Έτσι, αν υπάρχει αιτιολογική σχέση μεταξύ 2 χαρακτηριστικών, τότε ανάμεσα στα 2 αυτά χαρακτηριστικά θα υπάρχει και στατιστική συσχέτιση Το αντίστροφο δεν ισχύει πάντα Αν το χαρακτηριστικό Α σχετίζεται αιτιολογικά με το χαρακτηριστικό Β και Γ, τότε ακόμα και αν τα χαρακτηριστικά Β και Γ δε σχετίζονται αιτιολογικά μεταξύ τους, θα σχετίζονται στατιστικά, λόγω του Α 65

(συν.) Έτσι, αν και ο καρκίνος του πνεύμονα δε σχετίζεται αιτιολογικά με τη βρογχίτιδα, υπάρχει στατιστική συσχέτιση μεταξύ τους. Γιατί; Γιατί υπάρχει ένας τρίτος παράγοντας, το κάπνισμα, που σχετίζεται αιτιολογικά και με τον καρκίνο του πνεύμονα και με τη βρογχίτιδα 66

(συν.) Αν δεν εξουδετερώσουμε με κάποιο τρόπο την επίδραση του συγχυτικού παράγοντα στην ανάλυσή μας, θα καταλήξουμε σε λάθος αποτελέσματα για τη σχέση καρκίνου του πνεύμονα και βρογχίτιδας 67

(συν.) Η πρώτη προσέγγιση για την εξουδετέρωση της επίδρασης ενός συγχυτικού παράγοντα (confounder) είναι η διαστρωμάτωση των δεδομένων σε περισσότερους από έναν πίνακες 2Χ2, σε καθέναν από τους οποίους διατηρείται ομοιογένεια στις τιμές (ή τις κατηγορίες) του συγχυτικού παράγοντα. Η διαδικασία του διαχωρισμού ενός πίνακα σε περισσότερους, σύμφωνα με τις κατηγορίες μίας μεταβλητής λέγεται διαστρωμάτωση. 68

Παράδειγμα Σε μια έρευνα μελετήθηκε αν υπάρχει σχέση ανάμεσα στην κατανάλωση οινοπνευματωδών ποτών και καρκίνου του πνεύμονα. Σ ένα δείγμα 100 ατόμων, που πάσχουν από καρκίνο του πνεύμονα, οι 55 καπνίζουν και καταναλώνουν οινοπνευματώδη ποτά, οι 25 μόνο καπνίζουν και οι 6 καταναλώνουν μόνο οινοπνευματώδη ποτά. Σ ένα δείγμα 200 «υγιών» ατόμων, οι 52 καπνίζουν και καταναλώνουν οινοπνευματώδη ποτά, οι 28 μόνο καπνίζουν και οι 30 μόνο καταναλώνουν οινοπνευματώδη ποτά. 69

(συν.) Τα δεδομένα μας είναι ως εξής: Κατανάλωση οινοπ/δών Μη κατανάλωση οινοπ/δών Σύνολο Καρκ/παθείς 61 39 100 «Υγιείς» 82 118 200 Σύνολο 143 157 300 70

Δοκιμασία Χ 2 Μπορούμε να ελέγξουμε αν υπάρχει σχέση μεταξύ των δύο ποιοτικών χαρακτηριστικών χρησιμοποιώντας τη δοκιμασία Χ 2. Η0: Δεν υπάρχει σχέση μεταξύ κατανάλωσης οινοπν/δών και καρκίνου του πνεύμονα. ΗΑ: Υπάρχει σχέση μεταξύ κατανάλωσης οινοπν/δών και καρκίνου του πνεύμονα. 71

(συνέχεια) Στον προηγούμενο πίνακα, το Χ 2 είναι 10,69 με ένα βαθμό ελευθερίας. Στην τιμή αυτή αντιστοιχεί P-value<0,001 Επειδή P-value<0,05, απορρίπτουμε τη μηδενική υπόθεση Η0 και συμπεραίνουμε ότι υπάρχει σχέση μεταξύ της κατανάλωσης οινοπν/δών και καρκίνου του πνεύμονα 72

(συνέχεια) Από τον προηγούμενο πίνακα υπολογίζεται ο σχετικός λόγος ΣΛ=2,25. Έτσι, όσοι καταναλώνουν οινοπνευματώδη έχουν παραπάνω από διπλάσια πιθανότητα (συγκεκριμένα 2,25) να πάθουν καρκίνο του πνεύμονα σε σχέση εκείνους που δεν πίνουν. 73

(συνέχεια) Αν κάνουμε διαστρωμάτωση σύμφωνα με το κάπνισμα έχουμε τους παρακάτω 2 πίνακες: 74

Διαστρωμάτωση Καπνιστές Καρκινοπαθείς Κατανάλωση οινοπνευματωδών Ναι Όχι 55 25 «Υγιείς» 52 28 Μη καπνιστές Καρκ/πα θείς Κατανάλωση οινοπνευματωδών Ναι Όχι 6 14 «Υγιείς» 30 90 ΣΛ 1 =1,18 ΣΛ 2 =1,29 P-value=0,61 P-value=0,64 75

(συν.) Άρα, η σχέση καρκίνου του πνεύμονα και κατανάλωσης οινοπνευματωδών ΔΕΝ είναι στατιστικά σημαντική, ούτε για τους καπνιστές, ούτε για τους μη-καπνιστές Αφού δεν υπάρχει σχέση καρκίνου και κατανάλωσης οινοπνευματωδών ούτε στους καπνιστές ούτε στους μη-καπνιστές, πώς γίνεται να βγαίνει στατιστικά σημαντική σχέση σε όλους μαζί; Καπνιστές και μη-καπνιστές 76

(συν.) Μπορούμε αντί να έχουμε δύο Χ 2 να τα συνοψίσουμε σε ένα Χ 2, και να υπολογίσουμε ένα συνοπτικό σχετικό κίνδυνο, λαμβάνοντας υπόψη και το αλκοόλ και το κάπνισμα. Αυτό το Χ 2 λέγεται Χ 2 test κατά Mantel- Haenszel. 77

(συν.) Στο παράδειγμα μας, το Χ 2 Μ-Η είναι 0,16 και σε αυτό αντιστοιχεί Ρ-value > 0,1, δηλαδή μη στατιστικά σημαντική. Ο συνοπτικός σχετικός κίνδυνος (λαμβάνοντας υπόψη και το αλκοόλ και το κάπνισμα) είναι ΣΚ Μ-Η =1,21. Άρα, δεν υπάρχει σχέση ανάμεσα στην κατανάλωση οινοπνευματωδών ποτών και καρκίνου του πνεύμονα, όταν λάβουμε υπόψη το κάπνισμα. 78

(συνέχεια) Επομένως, το κάπνισμα αποτελεί συγχυτικό παράγοντα, στη σχέση καρκίνου του πνεύμονα και κατανάλωσης οινοπνευματωδών. Κάπνισμα Κατανάλωση οινοπν/δών (παράγοντας) Καρκίνος του πνεύμονα (νόσος) 79

Χ 2 και συγχυτικοί παράγοντες Το πρώτο πράγμα που διερευνάται μετά τη διαστρωμάτωση είναι αν η σχέση έκθεσης-έκβασης παραμένει περίπου ίδια σε κάθε πίνακα της διαστρωμάτωσης. Αν δεν είναι ίδια, είναι σημαντικό να περιγραφεί πως διαφοροποιείται στα διάφορα επίπεδα του παράγοντα που χρησιμοποιήθηκε ως κριτήριο της διαστρωμάτωσης. Αν είναι περίπου ίδια, τότε μπορεί να υπολογιστεί το συνοπτικό Χ 2 και ο συνοπτικός σχετικός λόγος που προκύπτει από όλους τους πίνακες λαμβάνοντας υπόψη τη διαστρωμάτωση (Mantel-Haenszel). 80

Mantel-Haenszel Η διαδικασία αυτή αναπτύχθηκε από τους Mantel και Haenszel το 1959 και η εργασία τους είναι από τις συχνότερα αναφερόμενες εργασίες στον διεθνή ιατρικό επιστημονικό τύπο. 81

(συν.) Το Χ 2 κατά Μ-Η έχει πάντα 1 βαθμό ελευθερίας. Στο παράδειγμα ο ΣΛ Μ-Η είναι 1,21 και το Χ 2 είναι 0,3 (p>0,1). Άρα, δεν υπάρχει σχέση ανάμεσα στην κατανάλωση οινοπνευματωδών ποτών και καρκίνου του πνεύμονα, όταν λάβουμε υπόψη το κάπνισμα. 82

Παράδειγμα Σε μια αναδρομική μελέτη ασθενών-μαρτύρων διερευνήθηκε η σχέση της υπερβολικής κατανάλωσης αλκοόλ (>5 ποτήρια / ημέρα) με την παρουσία ή όχι στεφανιαίας νόσου. Τα αποτελέσματα παρουσιάζονται ανά φύλο, στον πίνακα: Κατανάλωση αλκοόλ Άνδρες Γυναίκες Ασθενείς Υγιείς Ναί 125 175 Όχι 50 167 Ναί 87 175 Όχι 50 124 83

(συν.) Ο σχ. λόγος σε όλο το δείγμα είναι: και είναι στατιστικά σημαντικός (p <0,05) 212* 291 350*100 1,76 Αν υπολογίσουμε τους σχετικούς λόγους, λαμβάνοντας υπόψη το φύλο, έχουμε αντίστοιχα για τους άνδρες και τις γυναίκες: 125*167 50*175 2,39 87*124 50*175 1,23 Από αυτούς, ο ΣΛ Α είναι στ. σημαντικός, ενώ ο ΣΛ Γ δεν είναι. Εδώ δεν έχει νόημα ο υπολογισμός του ΣΛ κατά M-H. 84

(συν.) Στην περίπτωση αυτή, σταματάμε εδώ, και δηλώνουμε τα εξής: Στους άνδρες η σχέση μεταξύ της υπερβολικής κατανάλωσης αλκοόλ και της παρουσίας στεφανιαίας νόσου είναι στατιστικά σημαντική Ο σχετικός λόγος είναι 2,39 Οι άνδρες που καταναλώνουν αλκοόλ υπερβολικά έχουν 2,39 φορές την πιθανότητα να παρουσιάσουν στεφανιαία νόσο σε σχέση με την πιθανότητα που έχουν οι άνδρες που δεν καταναλώνουν αλκοόλ υπερβολικά Στις γυναίκες η σχέση αυτή δεν είναι στατιστικά σημαντική Για τις γυναίκες δεν έχει νόημα να δηλώσουμε το σχετικό λόγο, αφού η σχέση ΔΕΝ είναι στατιστικά σημαντική 85

Δεν τηρούνται οι προϋποθέσεις; Ασύμμετρες κατανομές, πολυκόρυφες κατανομές, διαφορετικές τυπικές αποκλίσεις, ποιοτικά χαρακτηριστικά Μετασχηματισμός (π.χ. λογαριθμικός) των μετρήσεων Mη-παραμετρικές δοκιμασίες (δεν προϋποθέτουν κανονικότητα) 86

Μη-παραμετρικές δοκιμασίες Παραμετρικές δοκιμασίες είναι αυτές στις οποίες προσδιορίζουμε την κατανομή της τυχαίας μεταβλητής (π.χ. κανονική κατανομή). Π.χ. το t-test είναι μια παραμετρική δοκιμασία Προϋποθέτει την κανονική κατανομή! Οι δοκιμασίες στις οποίες δεν προσδιορίζουμε την κατανομή ονομάζονται μη-παραμετρικές. Το Χ 2 είναι μια μη-παραμετρική δοκιμασία Δεν προσδιορίζουμε κάποια συγκεκριμένη κατανομή Έχει άλλου είδους προϋποθέσεις, άσχετες με κατανομή!! 87

Πλεονεκτήματα των μη-παραμετρικών δοκιμασιών Εφαρμόζονται σε πολύ περισσότερες περιπτώσεις από ότι οι παραμετρικές δοκιμασίες. Όταν έχουμε μη κανονικές κατανομές, περιορισμένο αριθμό παρατηρήσεων, διατάξιμα χαρακτηριστικά,... Είναι εξαιρετικά εύχρηστες και απλούστερες από τις παραμετρικές, όσο αφορά τους απαιτούμενους αριθμητικούς υπολογισμούς. 88

Μειονεκτήματα των μη-παραμετρικών δοκιμασιών Όταν οι παραμετρικές δοκιμασίες μπορούν να εφαρμοσθούν, τότε αυτές διαθέτουν μεγαλύτερη ισχύ από τις αντίστοιχες μη-παραμετρικές. Δηλαδή, τεκμηριώνουν με μικρότερο αριθμό παρατηρήσεων την ενδεχόμενη στατιστική σημαντικότητα. Οι μη-παραμετρικές δοκιμασίες δεν είναι δυνατόν να εφαρμοσθούν σε σύνθετες στατιστικές αναλύσεις (π.χ. έλεγχο αλληλεπιδράσεων,...) Είναι δύσκολος ο υπολογισμός ορίων αξιοπιστίας. 89

Η δοκιμασία του Wilcoxon (Mann-Whitney test) Αξιολογεί τη διαφορά μεταξύ των δύο ομάδων παρατηρήσεων που δεν εμφανίζουν αντιστοιχία κατά ζεύγη (ανεξάρτητες ομάδες). Χρειάζεται μια ποσοτική μεταβλητή και μια ποιοτική με 2 επίπεδα μόνο. Μπορούμε αντί για την ποσοτική μεταβλητή να έχουμε μια ποιοτική και διατάξιμη μεταβλητή Αυτό δεν γίνεται στο t-test! Πολύ χρήσιμη δοκιμασία όταν έχουμε μηκανονικές κατανομές ή μικρό αριθμό παρατηρήσεων 90

(συν.) Η δοκιμασία του Wilcoxon είναι αντίστοιχη του απλού t-test. Το t-test είναι παραμετρική και η δοκιμασία του Wilcoxon μη-παραμετρική δοκιμασία Όταν το απλό t-test μπορεί να εφαρμοσθεί, έχει μεγαλύτερη ισχύ από τη δοκιμασία του Wilcoxon. Δηλαδή, τεκμηριώνει με μικρότερο αριθμό παρατηρήσεων την ενδεχόμενη στατιστική σημαντικότητα μιας πραγματικής διαφοράς. 91

t-test ή δοκιμασία του Wilcoxon; Αυτό σημαίνει όταν αν ισχύουν οι προϋποθέσεις του t-test, είναι καλύτερα να κάνουμε t-test Στις περιπτώσεις αυτές και η δοκιμασία του Wilcoxon είναι έγκυρη Το t-test όμως είναι πιό ισχυρή δοκιμασία Μπορεί δηλαδή το t-test να βγεί στατιστικά σημαντικό, και η δοκιμασία του Wilcoxon να μη βγεί 92

t-test ή δοκιμασία του Wilcoxon; Αν, όμως, δεν ισχύουν οι προϋποθέσεις του t- test, τότε μπορούμε να κάνουμε μόνο τη δοκιμασία του Wilcoxon Το t-test στην περίπτωση αυτή δεν είναι έγκυρο!!! 93

Προϋποθέσεις Η μόνη προϋπόθεση που έχει η δοκιμασία του Wilcoxon είναι ότι η κατανομή των παρατηρήσεων στις ποσοτικές μεταβλητές στις 2 ομάδες θα πρέπει να είναι περίπου η ίδια Αλλά δεν χρειάζεται να ακολουθεί μια συγκεκριμένη μορφή 94

Η δοκιμασία του Wilcoxon Αρχικά διατάσσουμε τις παρατηρήσεις σε μία ενιαία σειρά Αν υπάρχουν ισοβαθμίες, οι παρατηρήσεις που ισοβαθμούν παίρνουν ως θέση τη μέση τιμή των θέσεων που θα έπαιρναν, αν δεν υπήρχαν οι ισοβαθμίες Στη συνέχεια αθροίζουμε τις θέσεις που παίρνουν οι παρατηρήσεις καθεμιάς ομάδας στην ενιαία σειρά 95

Παράδειγμα Οι απόφοιτοι 2 διαφορετικών Λυκείων (8 από το Α και 11 από το Β ) πήραν μέρος σε μία δοκιμασία για να εκτιμηθεί η ικανότητα αντίληψης αριθμητικών δεδομένων. Τα παρακάτω αποτελέσματα δηλώνουν τον αριθμό ασκήσεων που επιλύθηκαν, σε σύνολο 36 συνολικά ασκήσεων που δόθηκαν. Να αξιολογηθεί στατιστικά η διαφορά επίδοσης μεταξύ των αποφοίτων των 2 Λυκείων. Α Λύκειο: 17, 30, 25, 15, 11, 17, 22, 18 Β Λύκειο: 21, 21, 18, 32, 27, 20, 33, 30, 24, 29, 17 96

Ασκήσεις Θέση Ασκήσεις Θέση 11 22 15 24 17 25 17 27 17 29 18 30 18 30 20 32 21 33 21 97

Ασκήσεις Θέση Ασκήσεις Θέση 11 1 22 11 15 2 24 12 17 4 25 13 17 4 27 14 17 4 29 15 18 6,5 30 16,5 18 6,5 30 16,5 20 8 32 18 21 9,5 33 19 21 9,5 98

(συνέχεια) Είναι ενδιαφέρον να παρατηρήσουμε ότι η δοκιμασία του Wilcoxon test δουλεύει με τις θέσεις (διάταξη) των παρατηρήσεων, και όχι με τις αριθμητικές τιμές τους. Οι περισσότερες μη-παραμετρικές διαδικασίες λειτουργούν με αυτόν τον τρόπο Για το λόγο αυτό οι παραμετρικές δοκιμασίες είναι πιο ισχυρές. Δεν χάνουν πληροφορία! 99

(συνέχεια) Ο παρακάτω πίνακας δείχνει τα αποτελέσματα από την τελευταία μας ανάλυση: 100

(συνέχεια) Άρα, το p-value=0,068. Οπότε, δεν μπορούμε να απορρίψουμε τη μηδενική υπόθεση. Η 0 : ο διάμεσος αριθμός ασκήσεων που λύνουν οι μαθητές από το Α Λύκειο είναι ίσος με το διάμεσο αριθμό ασκήσεων που λύνουν οι μαθητές από το Β Λύκειο Τα αποτελέσματά μας όμως είναι ενδεικτικά 0,05 < p-value < 0,10 Ίσως με μεγαλύτερο δείγμα να ήταν στατ. σημαντικά 101

Παράδειγμα Στη συνέχεια θα δούμε τα αποτελέσματα από ένα ακόμα παράδειγμα Σε αυτό συγκρίναμε τη διάμεσο τιμή της συστολικής πίεσης, σε δύο διαφορετικές ηλικιακές ομάδες 1 η ομάδα: 45-50 ετών, 2 η ομάδα:51-55 ετών Η 0 : Η διάμεσος τιμή της πίεσης στην πρώτη ομάδα είναι ίση με τη διάμεσο τιμή της πίεσης στη δεύτερη ομάδα 102

Example p-value 103

(συν.) Όπως βλέπετε, στη δοκιμασία του Wilcoxon τα αποτελέσματα είναι πάρα πολύ λιτά! Δεν υπάρχουν 95% Δ.Ε. Μόνο το p-value κοιτάμε 104

Ποσοτικά μεγέθη Στη συνέχεια θα ασχοληθούμε με μεθόδους που διερευνούν τη σχέση μεταξύ δύο ποσοτικών μεγεθών. Τέτοιες είναι: Ο συντελεστής συσχέτισης Η ανάλυση παλινδρόμησης (εξάρτησης)

Συντελεστής γραμμικής συσχέτισης Ο συντελεστής γραμμικής συσχέτισης δύο ποσοτικών μεταβλητών Χ και Υ εξετάζει το κατά πόσο η μια μεταβλητή συνδέεται γραμμικά με μια άλλη.

Διαγράμματα συσχέτισης: (α) θετική συσχέτιση, (β) αρνητική συσχέτιση, (γ) και (δ) απουσία γραμμικής συσχέτισης

Ελλειψη γραμμικής σχέσης; Έλλειψη γραμμικής σχέσης δεν συνεπάγεται και απουσία σχέσης. Στο επόμενο σχήμα παρουσιάζεται το στικτόγραμμα της μέσης ημερήσιας θερμοκρασίας με τον μέσο ημερήσιο αριθμό θανάτων από όλες τις αιτίες.

Σχέση μεταξύ μέσης ημερήσιας θνησιμότητας και μέσης ημερήσιας θερμοκρασίας

(συν.) Παρατηρούμε μια μη-γραμμική σχέση μεταξύ θνησιμότητας και θερμοκρασίας: Μεγαλύτερη θνησιμότητα παρατηρείται κατά τις πολύ κρύες ή πολύ ζεστές ημέρες.

Συντελεστές γραμμικής συσχέτισης Παραμετρικός: r του Pearson (για συνεχείς και κανονικά κατανεμημένες μεταβλητές) Μη-παραμετρικός: ρ (rho) του Spearman (για συνεχείς ή διακριτές μεταβλητές)

Ιδιότητες των συντελεστών συσχέτισης 1. Είναι καθαρός αριθμός 2. Τιμές από -1 ως +1 (αρνητική ή θετική συσχέτιση). Θετική συσχέτιση: σε υψηλές τιμές του ενός μεγέθους αντιστοιχούν υψηλές τιμές του άλλου. Αρνητική:... Όσο ο r (ή ο ρ) πλησιάζει την τιμή +1 (ή 1) τόσο ισχυρότερη είναι η συσχέτιση, 3. Μετρά μόνο την γραμμική συσχέτιση

Οι τιμές του συντελεστή Εμπειρική κατηγοριοποίηση του συντελεστή συσχέτισης. Ισχυρή αρνητική συσχέτιση Μέτρια αρνητικά συσχετισμένες Ελαφρά αρνητικά συσχετισμένες Ασυσχέτιστες ή πολύ ελαφρά συσχετισμένες Ελαφρά θετικά συσχετισμένες Μέτρια θετικά συσχετισμένες Ισχυρή θετική συσχέτιση <-0,80-0,80-0,50-0,50-0,20-0,20 +0,20 +0,20 +0,50 +0,50 +0,80 > +0,80 Τιμές του συντελεστή συσχέτισης

Συντελεστής συσxέτισης του Pearson Προϋποθέσεις: H κατανομή συχνοτήτων των τιμών καθεμίας από τις 2 μεταβλητές είναι (κατά προσέγγιση) κανονική Και οι 2 μεταβλητές έχουν επιλεγεί τυχαία Δεν έχει επιλεγεί το δείγμα με βάση κάποια από αυτές Παραδείγματα: Η σχέση ύψους ανδρών-γυναικών στα ζευγάρια Η σχέση των μετρήσεων μια βιοχημικής παραμέτρου με δύο διαφορετικές μεθόδους

Ο συντελεστής r του Pearson r {(X i X)(Y i Y)} (X i X) 2 * (Y i Y) 2

Παράδειγμα Να βρεθεί ο συντελεστής συσχέτισης μεταξύ καρδιακού ρυθμού και συστολικής αρτηριακής πίεσης (ΣΑΠ). Καρδ. Συχ. ΣΑΠ 55 110 58 112 81 135 63 122 59 124 58 126 66 112 68 114 88 145 Μέση τιμή = 66 Μέση τιμή = 122

Στικτόγραμμα (scatterplot) 150 140 Συστολική ΑΠ 130 120 110 100 90 45 55 65 75 85 95 Καρδιακή συχνότητα

Παράδειγμα Ο συντελεστής συσχέτισης του Pearson είναι ίσος με r 851 1072 0,79 Το υπολογιζόμενο p-value είναι 0,011. Ποιά είναι η μηδενική υπόθεση;

Παράδειγμα Η μηδενική υπόθεση για το συντελεστή συσχέτισης του Pearson είναι Η 0 : r=0 Αντίστοιχα η μηδενική υπόθεση για το συντελεστή συσχέτισης του Spearman είναι Η 0 : ρ=0 Όταν r=0, αυτό σημαίνει ότι δεν υπάρχει γραμμική σχέση μεταξύ των 2 μεταβλητών. Οπότε, τι συμπεραίνουμε στο προηγούμενο παράδειγμα που p-value=0,011;

Παράδειγμα Συμπεραίμουμε ότι υπάρχει στατιστικά σημαντική συσχέτιση μεταξύ καρδιακού ρυθμού και συστολικής αρτηριακής πίεσης, στο πληθυσμό αναφοράς Ο υπολογιζόμενος συντελεστής συσχέτισης του Pearson είναι 0,79

Ο συντελεστής συσχέτισης ρ του Spearman Πολλές φορές η χρήση του συντελεστή συσχέτισης r δεν επιτρέπεται εξαιτίας της μη κανονικής κατανομής των μεταβλητών Χ και Υ. Στις περιπτώσεις αυτές μελετάμε τη συσχέτιση των δύο μεταβλητών με βάση το συντελεστή συσχέτισης ρ του Spearman (μη-παραμετρικός). Ενδείκνυται τόσο για ποσοτικές μεταβλητές μπορεί και να μην ακολουθούν τη κανονική κατανομή, όσο και για διατάξιμες μεταβλητές.

Προϋποθέσεις Και οι δύο μεταβλητές να αφορούν συνεχή ή τουλάχιστον διατάξιμα μεγέθη. Ο μη παραμετρικός συντελεστής συσχέτισης ρ είναι εννοιολογικός αντίστοιχος του παραμετρικού συντελεστού συσχέτισης. Οι τιμές του επίσης κυμαίνονται μεταξύ -1 και 1

Διάταξη των παρατηρήσεων Διατάσουμε τις παρατηρήσεις από τη μικρότερη προς τη μεγαλύτερη, με βάση τις τιμές της μιας τυχαίας μεταβλητής (χωρίς να «σπάμε» τα ζευγάρια) Στις περιπτώσεις όπου δύο η περισσότερες μεταβλητές έχουν την ίδια τιμή (ισοβαθμίες) τότε ο βαθμός τους είναι ο μέσος όρος των βαθμών που θα είχαν οι τιμές των μεταβλητών αν είχαν διαταχθεί κανονικά στο δείγμα

Ο συντελεστής συσχέτισης ρ του Spearman Ο συντελεστής συσχέτισης ρ του Spearman ορίζεται ως εξής: 6* [r(x 1 t 2 n(n ) - r(y )] 1) t 2

Εφαρμογή Υπολογισμός της συσχέτισης (με τον μη παραμετρικό συντελεστή συσχέτισης) μεταξύ της βαθμολογίας σε δύο μαθήματα, μίας ομάδας φοιτητών Φοιτητής Βαθμός 1 Βαθμός 2 1 ος 8 10 2 ος 7 9 3 ος 9 8 4 ος 3 1 5 ος 6 7 6 ος 6 4 7 ος 2 3 8 ος 5 5 9 ος 7 8 10 ος 5 6

Φοιτητής Βαθμός 1 Βαθμός 2 7 ος 2 3 4 ος 3 1 8 ος 5 5 10 ος 5 6 5 ος 6 7 6 ος 6 4 2 ος 7 9 9 ος 7 8 1 ος 8 10 3 ος 9 8

Φοιτητής Βαθμός 1 Βαθμός 2 Διάταξη r(x) Διάταξη r(y) 7 ος 2 3 1 4 ος 3 1 2 8 ος 5 5 3,5 10 ος 5 6 3,5 5 ος 6 7 5,5 6 ος 6 4 5,5 2 ος 7 9 7,5 9 ος 7 8 7,5 1 ος 8 10 9 3 ος 9 8 10

Φοιτητής Βαθμός 1 Βαθμός 2 Διάταξη r(x) Διάταξη r(y) 7 ος 2 3 1 2 4 ος 3 1 2 1 8 ος 5 5 3,5 4 10 ος 5 6 3,5 5 5 ος 6 7 5,5 6 6 ος 6 4 5,5 3 2 ος 7 9 7,5 9 9 ος 7 8 7,5 7,5 1 ος 8 10 9 10 3 ος 9 8 10 7,5

(συν.) Ο συντελεστής συσχέτισης ρ του Spearman είναι: 10*99 6* 20,5 1 0,876 Το p-value είναι 0,001. Άρα;

131

Παράδειγμα Έστω ότι στο προηγούμενο αρχείο θέλουμε να συσχετίσουμε την ηλικία με τον μεταβολικό ρυθμό. Και οι 2 μεταβλητές είναι συνεχείς Αρχικά ξεκινάμε από ένα στικτόγραμμα μεταξύ των 2 μεταβλητών Σε αυτό ελέγχουμε αν υπάρχει γραμμική σχέση μεταξύ των 2 μεταβλητών

Παράδειγμα 4000 3000 Το στικτόγραμμα φαίνεται στο διπλανό σχήμα. 2000 1000 Το σχήμα αυτό δεν μας δίνει πληροφορίες για την κανονικότητα των μεταβλητών μας 0 10 20 30 40 Age of Subjects 50 60 70 80 90 Για αυτό χρειάζεται από ένα ιστόγραμμα για κάθε μεταβλητή!

(συν.) Αν κάνουμε το ιστόγραμμα της ηλικίας και το ιστόγραμμα του βασικού μεταβολικού ρυθμού, και δούμε ότι και οι δύο μεταβλητές μας έχουν την κανονική κατανομή, τότε μπορούμε να χρησιμοποιήσουμε το συντελεστή συσχέτισης του Pearson Αν έστω και μια από τις 2 δεν ακολουθεί την κανονική κατανομή, τότε θα χρησιμοποιήσουμε το συντελεστή συσχέτισης του Spearman

(συν.) Στην πράξη, αρχικά θα επιλέξουμε με ποιόν από τους δύο συντελεστές συσχέτισης θα δουλέψουμε, και τον άλλο θα τον παραβλέψουμε Εδώ, για διδακτικούς λόγους και μόνο θα δούμε και τους δύο. 135

Παράδειγμα Age of Subjects Basic Metabolic Rythm (Harri s & Benedi ct) Correlations Pears on Correlation Sig. (2-tail ed) N Pears on Correlation Sig. (2-tail ed) N **. Correlation i s s ignificant at the 0.01 level (2-tailed). Basic Metabol ic Age of Rythm (Harris Subjects & Benedict) 1 -,194**,,000 3035 3017 -,194** 1,000, 3017 3017 Ο συντελεστής συσχέτισης του Pearson είναι r=-0,194 (πολύ ελαφρά αρνητική συσχέτιση), η οποία είναι όμως στατιστικά σημαντική (p-value<0,001).

(συν.) Η μηδενική υπόθεση που αντιστοιχεί στο p- value που μας δίνει ο πίνακας είναι η εξής: Η 0 : r=0 ή Η 0 : Οι δύο μεταβλητές μας δεν συσχετίζονται γραμμικά 137

(συν.) Αν έστω μια από τις δύο μεταβλητές μας δεν ακολουθεί την κανονική κατανομή, τότε δεν μπορούμε να χρησιμοποιήσουμε το συντελεστή συσχέτισης του Pearson Στην περίπτωση αυτή, θα χρησιμοποιήσουμε το συντελεστή συσχέτισης του Spearman Τα αποτελέσματα δίνονται στην επόμενη διαφάνεια

Παράδειγμα Correlations Spearman's rho Age of Subjects Bas ic Metabolic Rythm (Harris & Benedict) Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) **. Correlation is significant at the.01 level (2-tailed). N Basic Metabolic Age of Rythm (Harris Subjects & Benedict) 1,000 -,127**,,000 3035 3017 -,127** 1,000,000, 3017 3017 Ο συντελεστής συσχέτισης του Spearman είναι ρ=-0,127 (πολύ ελαφρά αρνητική συσχέτιση), η οποία είναι όμως στατιστικά σημαντική (p-value<0,001).

(συν.) Αντίστοιχα, η μηδενική υπόθεση που αντιστοιχεί στο p-value που μας δίνει ο πίνακας είναι η εξής: Η 0 : ρ=0 ή Η 0 : Οι δύο μεταβλητές μας δεν συσχετίζονται γραμμικά 140

Σύνοψη για το συντελεστή συσχέτισης Ο συντελεστής συσχέτισης εκφράζει μόνο την «ένταση» της γραμμικής σχέσης. Αν η τιμή του είναι 0 αυτό σημαίνει ότι δεν υπάρχει γραμμική συσχέτιση μεταξύ των μεταβλητών Αυτό όμως δεν αποκλείει τη δυνατότητα να υπάρχει μη γραμμική συσχέτιση.

Συντέλεστές συσχέτισης και ακραίες τιμές Να σημειωθεί ότι ο συντελεστής συσχέτισης του Pearson είναι πολύ ευαίσθητος σε ακραίες τιμές (outliers) Αν έχουμε μία ή περισσότερες ακραίες τιμές, τα αποτελέσματα μπορεί να είναι παραπλανητικά Ο συντελεστής συσχέτισης του Spearman δεν παρουσιάζει τέτοια προβλήματα

Στικτόγραμμα (scatterplot) 150 140 Συστολική ΑΠ 130 120 110 100 90 45 55 65 75 85 95 Καρδιακή συχνότητα