Εισαγωγή στη Βιοστατιστική Π.Μ.Σ.: Έρευνα στη Γυναικεία Αναπαραγωγή Οκτώβριος Νοέμβριος 2017 Αλέξανδρος Γρυπάρης, PhD Αλέξανδρος Γρυπάρης, PhD 4
Περιεχόμενα Ορισμός της Στατιστικής Περιγραφική στατιστική t-test Δοκιμασία X 2 Μη-παραμετρικές δοκιμασίες Συντελεστές συσχέτισης Απλή γραμμική παλινδρόμηση, ANOVA Πολλαπλή γραμμική παλινδρόμηση Λογαριθμιστική εξάρτηση Αλέξανδρος Γρυπάρης, PhD 2
Επιλογή ανεξάρτητων μεταβλητών Συνήθως σε μία έρευνα συλλέγονται στοιχεία για πολλές μεταβλητές που δυνητικά θα μπορούσαν να σχετίζονται με την υπό μελέτη εξαρτημένη μεταβλητή. Όμως στο τελικό μοντέλο δεν γίνεται να εισαχθούν όλες αυτές οι παράμετροι για δύο κυρίως λόγους: α) ο αριθμός των παραμέτρων πρέπει να είναι σαφώς μικρότερος του αριθμού των παρατηρήσεων και β) μπορεί η συνεισφορά τους στο μοντέλο να μην είναι στατιστικά σημαντική. Αλέξανδρος Γρυπάρης, PhD 3
Επιλογή καλύτερου στατιστικού μοντέλου Υπάρχουν διάφορες διαδικασίες για να επιλέξουμε μεταξύ υποψήφιων ανεξάρτητων μεταβλητών Ο πιο απλός είναι να δοκιμάσουμε όλα τα δυνατά υποψήφια μοντέλα (δηλαδή, όλους τους δυνατούς συνδυασμούς των ανεξάρτητων μεταβλητών (all possible models approach) Χρονοβόρος διαδικασία Αν έχουμε πάρα πολλές ανεξάρτητες μεταβλητές, δεν είναι εφικτό Πολλαπλές συγκρίσεις! Κάποιες μεταβλητές θα είναι στατιστικά σημαντικές από τύχη Αλέξανδρος Γρυπάρης, PhD 4
(συν.) Υπάρχουν διάφορες στατιστικές τεχνικές που επιτυγχάνουν αυτόματη επιλογή των ανεξάρτητων μεταβλητών: Αθροιστική μέθοδος (forward) Αφαιρετική μέθοδος (backward) Προσθαφαιρετική μέθοδος (stepwise) Αλέξανδρος Γρυπάρης, PhD 5
(συν.) Σε γενικές γραμμές η αποκλειστική χρήση των αυτόματων μεθόδων ΔΕΝ συνιστάται Μπορεί να καταλήξουν σε ένα μοντέλο με μεταβλητές χωρίς λογική ερμηνεία Στην Ιατρική θέλουμε ένα καλό τελικό μοντέλο που να ερμηνεύει τη σχέση μεταξύ της εξαρτημένης μεταβλητής και των ανεξάρτητων Όχι, ένα μοντέλο που έχει μέσα ανεξάρτητες μεταβλητές που δεν έχουν καμία λογική ερμηνεία Αλέξανδρος Γρυπάρης, PhD 6
(συν.) Πώς επιλέγονται οι ανεξάρτητες μεταβλητές, έτσι ώστε να εφαρμοσθεί το καλύτερο μοντέλο; Η επιλογή των μεταβλητών που θα εισαχθούν στο τελικό μοντέλο στηρίζεται: σε στατιστικά κριτήρια και σε άλλα κριτήρια (επιδημιολογικά, βιολογικά,...). Αλέξανδρος Γρυπάρης, PhD 7
(συν.) Έτσι μπορούμε να κρατήσουμε στο τελικό μας μοντέλο μια μεταβλητή που δεν είναι στατιστικά σημαντική, βάση επιδημιολογικών κριτηρίων Π.χ. Γιατί γνωρίζουμε από τη βιβλιογραφία ότι η συγκεκριμένη μεταβλητή είναι συγχυτικός παράγοντας, σε αυτή την περίπτωση Αλέξανδρος Γρυπάρης, PhD 8
(συν.) Συνήθως πριν ξεκινήσουμε την ανάλυση επιλέγουμε (αν κρίνουμε ότι χρειάζεται) κάποιες (συνήθως 1-3) μεταβλητές που θέλουμε να έχουμε οπωσδήποτε στο τελικό μοντέλο Η επιλογή γίνεται με βάση επιδημιολογικών κριτηρίων (βιβλιογραφία) Πολλές φορές για να γίνει δεκτό ένα άρθρο, μας ζητείται να περιλάβουμε στο μοντέλο μη στατιστικά σημαντικές μεταβλητές, επειδή είναι γνωστό ότι είναι πιθανοί συγχυτικοί παράγοντες Αλέξανδρος Γρυπάρης, PhD 9
Αλέξανδρος Γρυπάρης, PhD 10
Παράδειγμα Να εκτιμηθεί το γραμμικό μοντέλο του ΔΜΣ συναρτήσει των υπόλοιπων χαρακτηριστικών των ατόμων. Descriptive Statistics Body Mass Index (kg/m2) Age of Subjects Sex of Subjects Years of school Physical activity Current Smoking Zung Depression scale Energy intake (kcal/day) Mean Std. Deviation N 25,5490 4,49698 595 39,40 10,788 595,51,500 595 13,21 3,243 595,43,496 595,4555,49843 595 35,5899 7,68486 595 2266,339 1046,257773 595 Αλέξανδρος Γρυπάρης, PhD 11
Παράδειγμα Ο πίνακας της Ανάλυσης της Διακύμανσης είναι ο ακόλουθος. Παρατηρούμε ότι το μοντέλο είναι στατιστικά σημαντικό στο σύνολο του. (Η 0 : το μοντέλο δεν εξηγεί σημαντικό μέρος της συνολικής μεταβλητότητας της εξαρτημένης μεταβλητής) Model 1 Regress ion Res idual Total ANOVA b Sum of Squares df Mean Square F Sig. 2329,947 7 332,850 20,179,000 a 9682,437 587 16,495 12012,384 594 a. Predictors: (Constant), Energy intake (kcal/day), Current Smoking, Zung Depress ion scale, Phys ical activity, Years of s chool, Age of Subjects, Sex of Subjects b. Dependent Variable: Body Mass Index (kg/m2) Αλέξανδρος Γρυπάρης, PhD 12
Παράδειγμα Οι μερικοί συντελεστές γραμμικής παλινδρόμησης, η στατιστική τους σημαντικότητα, καθώς και άλλα αποτελέσματα παρουσιάζονται στον ακόλουθο πίνακα. Model 1 (Cons tant) Age of Subjects Sex of Subjects Years of school Physical activity Current Smoking Zung Depression scale Energy intake (kcal/day) Uns tandardized Coefficients a. Dependent Variable: Body Mass Index (kg/m2) Standardized Coefficients Coefficients a Correlations B Std. Error Beta t Sig. Zero-order Partial Part 22,516 1,516 14,851,000 Collinearity Statis tics Tolerance,108,016,259 6,681,000,298,266,248,915 1,093 1,873,356,208 5,258,000,265,212,195,874 1,144 -,139,053 -,100-2,637,009 -,153 -,108 -,098,949 1,053-1,819,341 -,200-5,338,000 -,215 -,215 -,198,974 1,026,049,336,005,147,883,030,006,005,987 1,013 -,004,023 -,007 -,174,862 -,067 -,007 -,006,891 1,122,000,000,059 1,516,130,045,062,056,918 1,090 VIF ΔΜΣ = 22,516 + 0,108 Ηλικία + 1,873 Φύλο 0,139 Έτη σχολείου 1,819 Σωματική άσκηση + 0,049 Κάπνισμα 0,004 Zung scale + 0,000 Ενέργεια Αλέξανδρος Γρυπάρης, PhD 13
Διαγνωστικοί έλεγχοι Κανονικότητα των σφαλμάτων Αλέξανδρος Γρυπάρης, PhD 14
Διαγνωστικοί έλεγχοι Ομοσκεδαστικότητα & γραμμικότητα του μοντέλου Αλέξανδρος Γρυπάρης, PhD 15
Παρουσίαση των αποτελεσμάτων Αλέξανδρος Γρυπάρης, PhD 16
Παράδειγμα Εφαρμόσαμε μοντέλα γραμμικής παλινδρόμησης σε δεδομένα που προέρχονται από μετρήσεις σε μωρά ενός μηνός. Η εξαρτημένη μεταβλητή είναι η διάμετρος του κεφαλιού. Σαν ανεξάρτητη μεταβλητή αρχικά χρησιμοποιήσαμε το βάρος του μωρού στατ. σημαντικό και R 2 =0.61 Στη συνέχεια χρησιμοποιήσαμε το βάρος του μωρού και το χρόνο κύησης και οι 2 μεταβλητές ήταν στατ. σημαντικές και R 2 =0.75 Αλέξανδρος Γρυπάρης, PhD 17
(συν.) Αυτή η αύξηση στο R 2 υποδεικνύει ότι η μεταβλητή «χρόνος κύησης» αυξάνει την ικανότητά μας να ερμηνεύσουμε τη μεταβλητότητα της εξαρτημένης μας μεταβλητής. Πρέπει να τονιστεί ότι ΠΑΝΤΑ όταν προσθέτουμε μία νέα ανεξάρτητη μεταβλητή, ο συντελεστής R 2 αυξάνεται ή παραμένει αμετάβλητος, ακόμα και όταν η μεταβλητή ΔΕΝ είναι στατιστικά σημαντική Αλέξανδρος Γρυπάρης, PhD 18
Προσαρμοσμένος συντελεστής R 2 Έτσι, η αύξηση αυτή δεν μπορεί να χρησιμοποιηθεί σαν κριτήριο σημαντικότητας της νέας ανεξάρτητης μεταβλητής ή επιλογής καλύτερου στατιστικού μοντέλου Για το λόγο αυτό στα μοντέλα πολλαπλής γραμμικής εξάρτησης χρησιμοποιείται ο «προσαρμοσμένος συντελεστής R 2» (adjusted R 2 ) Ο συντελεστής αυτός αντισταθμίζει τη χρήση περισσότερων μεταβλητών Αλέξανδρος Γρυπάρης, PhD 19
(συν.) Αντίθετα από το απλό R 2, το προσαρμοσμένο R 2 αυξάνεται μόνο όταν προσθέτουμε στο μοντέλο μία ανεξάρτητη μεταβλητή η οποία βελτιώνει το μοντέλο συγκεκριμένα βελτιώνει την ερμηνεία της μεταβλητότητας της εξαρτημένης μεταβλητής Έτσι, το προσαρμοσμένο R 2 μπορεί να χρησιμοποιηθεί σαν κριτήριο επιλογής καλύτερου μοντέλου, μεταξύ στατιστικών μοντέλων που περιέχουν άνισο αριθμό ανεξάρτητων μεταβλητών Αλέξανδρος Γρυπάρης, PhD 20
Παράδειγμα Τα δεδομένα προέρχονται από μία έρευνα που πραγματοποιήθηκε σε 314 ασθενείς προκειμένου να μελετηθεί η σχέση προσωπικών χαρακτηριστικών και διατροφικών παραγόντων, και της συγκέντρωσης της Α-ρετινόλης στο πλάσμα. Η έρευνα βασίστηκε σε ευρήματα που δείχνουν ότι διατροφή φτωχή σε Α-ρετινόλη δημιουργεί αυξημένο κίνδυνο ανάπτυξης ορισμένων τύπων καρκίνου. Αλέξανδρος Γρυπάρης, PhD 21
(συν.) Οι μεταβλητές που δίδονται είναι οι ακόλουθες: 1. age: Ηλικία 2. sex: Φύλο (1: Άνδρας, 2: Γυναίκα) 3. smokstat: Καπνισματικές συνήθειες (1: ποτέ, 2: πρώην καπνιστής, 3: καπνιστής) 4. bmi: Δείκτης σωματικής μάζας (βάρος / ύψος 2 ) 5. vituse: Χρήση βιταμινών (1: συχνά, 2: όχι συχνά, 3: όχι) 6. calories: Αριθμός θερμίδων που καταναλώνονται καθημερινά Αλέξανδρος Γρυπάρης, PhD 22
(συν.) 7. fat: Λίπος που καταναλώνεται καθημερινά (gr) 8. fiber: Φυτικές ίνες που καταναλώνονται καθημερινά (gr) 9. alcohol: Αριθμός οινοπνευματωδών ποτών που καταναλώνονται την εβδομάδα 10.choleste: Χοληστερόλη που καταναλώνεται καθημερινά (mg) 11.retplas: Ρετινόλη στο πλάσμα (ng/ml) Αλέξανδρος Γρυπάρης, PhD 23
(συν.) Ξεκινάμε την ανάλυση από περιγραφικά στατιστικά των μεταβλητών. Πώς επιλέγουμε τι περιγραφικά στατιστικά θα κάνουμε; Αλέξανδρος Γρυπάρης, PhD 24
(συν.) Αλέξανδρος Γρυπάρης, PhD 25
(συν.) Αλέξανδρος Γρυπάρης, PhD 26
(συν.) Αλέξανδρος Γρυπάρης, PhD 27
(συν.) Μιας και η μεταβλητή που μας ενδιαφέρει κυρίως είναι η ρετινόλη, θα δούμε και το ιστόγραμμά της Αλέξανδρος Γρυπάρης, PhD 28
(συν.) Από τη βιβλιογραφία γνωρίζουμε ότι το φύλο σχετίζεται με τη ρετινόλη Έτσι, αποφασίζουμε ότι για επιδημιολογικούς λόγους θα κρατήσουμε το φύλο (sex) στο τελικό μας μοντέλο Ανεξάρτητα από το p-value Οι υπόλοιπες μεταβλητές θα επιλεγούν βάση του p-value Αλέξανδρος Γρυπάρης, PhD 29
(συν.) Υπάρχουν πολλοί τρόποι να δουλέψουμε Επιλέγουμε να ξεκινήσουμε με το πλήρες μοντέλο (αυτό που περιέχει όλες τις μεταβλητές) και να αφαιρούμε βήμα-βήμα αυτές που δεν χρειάζονται Πρώτα όμως θα πρέπει να κατασκευάσουμε ψευδομεταβλητές για τη χρήση βιταμινών και τις καπνισματικές συνήθειες Αλέξανδρος Γρυπάρης, PhD 30
(συν.) Κατασκευάζουμε λοιπόν τις: vit2: =1, αν vituse=2, και =0 στις άλλες περιπτώσεις vit3: =1, αν vituse=3, και =0 στις άλλες περιπτώσεις smoke2: =1, αν smokstat=2, και =0 στις άλλες περιπτώσεις smoke3: =1, αν smokstat=3, και =0 στις άλλες περιπτώσεις Αλέξανδρος Γρυπάρης, PhD 31
(συν.) Τι μας δείχνουν αυτές οι ψευδομεταβλητές; Ποιο είναι το επίπεδο αναφοράς; Στις επόμενες διαφάνειες βλέπουμε τα αποτελέσματα για το πλήρες μοντέλο: Αλέξανδρος Γρυπάρης, PhD 32
Μοντέλο 1 (πλήρες μοντέλο) Αλέξανδρος Γρυπάρης, PhD 33
(συν.) Αλέξανδρος Γρυπάρης, PhD 34
(συν.) Παρατηρούμε ότι περιέχει πολλές μη-στατιστικά σημαντικές μεταβλητές. Αυτές θα πρέπει να τις αφαιρέσουμε βήμαβήμα. Θα ξεκινήσουμε από τη μεταβλητή με το μεγαλύτερο p-value Αυτή είναι η vit2 (p-value=0,987) Η vit2 είναι ψευδομεταβλητή. Αυτές, είτε τις κρατάμε όλες στο μοντέλο, είτε τις αφαιρούμε όλες μαζί Μιας και η vit3 επίσης δεν είναι στατιστικά σημαντική, θα τις αφαιρέσουμε και τις 2 μαζί. Αλέξανδρος Γρυπάρης, PhD 35
(συν.) Στην επόμενη διαφάνεια φαίνονται τα αποτελέσματα από το επόμενό μας μοντέλο, που δεν περιέχει τις vit2 και vit3 Αλέξανδρος Γρυπάρης, PhD 36
Μοντέλο 2 Αλέξανδρος Γρυπάρης, PhD 37
(συν.) Αλέξανδρος Γρυπάρης, PhD 38
(συν.) Αρχικά, παρατηρήστε ότι αφαιρώντας τις 2 ψευδομεταβλητές από το μοντέλο, αλλάξανε τα αποτελέσματα για τις υπόλοιπες μεταβλητές Για το λόγο αυτό, όταν θέλουμε να αφαιρέσουμε μια μεταβλητή από ένα μοντέλο, την αφαιρούμε και ξανατρέχουμε το μοντέλο Δεν την αφαιρούμε μόνο στον πίνακα με τα αποτελέσματα! Αλέξανδρος Γρυπάρης, PhD 39
(συν.) Και το νέο μοντέλο περιέχει πολλές μηστατιστικά σημαντικές μεταβλητές. Θα αφαιρέσουμε τη μεταβλητή με το μεγαλύτερο p-value Αυτή είναι η smoke3 (p-value=0,837) Η smoke3 είναι ψευδομεταβλητή. Αυτές, είτε τις κρατάμε όλες στο μοντέλο, είτε τις αφαιρούμε όλες μαζί Μιας και η smoke2 είναι στατιστικά σημαντική, θα τις κρατήσουμε και τις 2 στο μοντέλο. Άρα θα αφαιρέσουμε την επόμενη με το μεγαλύτερο p-value, δηλαδή την bmi (p-value=0,750) Αλέξανδρος Γρυπάρης, PhD 40
Μοντέλο 3 Αλέξανδρος Γρυπάρης, PhD 41
(συν.) Αλέξανδρος Γρυπάρης, PhD 42
(συν.) Η επόμενη μεταβλητή που θα αφαιρεθεί είναι η alcohol (p-value=0,350) Αλέξανδρος Γρυπάρης, PhD 43
Μοντέλο 4 Αλέξανδρος Γρυπάρης, PhD 44
(συν.) Αλέξανδρος Γρυπάρης, PhD 45
(συν.) Η επόμενη μεταβλητή που θα αφαιρεθεί είναι η calories (p-value=0,536) Αλέξανδρος Γρυπάρης, PhD 46
Μοντέλο 5 Αλέξανδρος Γρυπάρης, PhD 47
(συν.) Αλέξανδρος Γρυπάρης, PhD 48
(συν.) Η επόμενη μεταβλητή που θα αφαιρεθεί είναι η fiber (p-value=0,533) Αλέξανδρος Γρυπάρης, PhD 49
Μοντέλο 6 Αλέξανδρος Γρυπάρης, PhD 50
(συν.) Αλέξανδρος Γρυπάρης, PhD 51
(συν.) Η μόνη μεταβλητή που δεν είναι στατιστικά σημαντική είναι η fat, η οποία έχει ένα ενδεικτικό p-value (μεταξύ 0,05 και 0,10). Αυτές με ενδεικτικό p-value μπορούμε να επιλέξουμε να τις κρατήσουμε στο μοντέλο Πιο σωστά, και αυτό επιλέγεται πριν αρχίσουμε τη στατιστική ανάλυση! Δεν είναι λάθος αντίστοιχα να επιλέξουμε να τις αφαιρέσουμε από το μοντέλο Αλέξανδρος Γρυπάρης, PhD 52
(συν.) Άρα, μέχρι στιγμής φαίνεται ότι το τελικό μας μοντέλο είναι το Μοντέλο 6. Ας το εμηνεύσουμε, για να δούμε τι έχουμε βρεί Αλέξανδρος Γρυπάρης, PhD 53
(συν.) Αλέξανδρος Γρυπάρης, PhD 54
Goodness of fit Πόσο καλό είναι το μοντέλο μας; Πόσο καλά το μοντέλο μας ακολουθεί τα δεδομένα; ή Πόση από τη διασπορά στην Υ ερμηνεύεται από τις ανεξάρτητες μεταβλητές; Αλέξανδρος Γρυπάρης, PhD 55
(συν.) Αλέξανδρος Γρυπάρης, PhD 56
(συν.) Το μοντέλο μας έχει προσαρμοσμένο R 2 =0,072 Άρα, ερμηνεύει το 7,2% της μεταβλητότητας της συγκέντρωσης της Α-ρετινόλης στο πλάσμα (εξαρτημένη μεταβλητή) Είναι το ποσοστό αυτό στατιστικά σημαντικό; Από τον πίνακα ANOVA βλέπουμε ότι p-value<0.001, οπότε συμπεραίνουμε ότι το ποσοστό της μεταβλητότητας που ερμηνεύεται από το μοντέλο είναι στατιστικά σημαντικό Η 0 : Το ποσοστό της μεταβλητότητας που ερμηνεύεται από το μοντέλο δεν είναι στατιστικά σημαντικό (δηλαδή είναι σχεδόν ίσο με 0) Αλέξανδρος Γρυπάρης, PhD 57
(συν.) Είναι ένα καλό μοντέλο; Αν το συγκρίνουμε με άλλα αντίστοιχα στη βιβλιογραφία, είναι το ίδιο καλό ή και καλύτερο; Μπορούμε να συγκρίνουμε το προσαρμοσμένο R 2 του μοντέλου μας, με αυτά της αντίστοιχης βιβλιογραφίας Αν τυχόν υπάρχουν σημαντικές διαφορές, που μπορεί να οφείλονται; Στους διαφορετικούς πληθυσμούς; Στην επιλογή του δείγματος; Μήπως έχουμε παραλείψει κάτι; Αλέξανδρος Γρυπάρης, PhD 58
Εγκυρότητα του μοντέλου Πληρούνται οι προϋποθέσεις; Η σχέση μεταξύ της Υ και κάθε Χ είναι γραμμική Τα σφάλματα (ε) ακολουθούν την κανονική κατανομή Ομοσκεδαστικότητα Για να απαντήσουμε σε αυτά τα ερωτήματα θα πρέπει να ελέγξουμε τα σφάλματα. Αλέξανδρος Γρυπάρης, PhD 59
(συν.) Όσο περίεργο και αν φαίνεται, μπορεί να έχουμε κάνει τόση δουλειά και το μοντέλο μας να μην πληρεί τις προϋποθέσεις Στην περίπτωση αυτή, δεν είναι ένα έγκυρο μοντέλο, οπότε δεν μπορούμε να το κρατήσουμε και να βγάλουμε συμπεράσματα από αυτό! Δυστυχώς, στη γραμμική παλινδρόμηση ο έλεγχος των προυποθέσεων γίνεται στο τέλος. Αλέξανδρος Γρυπάρης, PhD 60
(συν.) Αλέξανδρος Γρυπάρης, PhD 61
(συν.) Τα σφάλματα φαίνονται πολύ κοντά στην κανονική κατανομή. Αλέξανδρος Γρυπάρης, PhD 62
Ομοσκεδαστικότητα Αλέξανδρος Γρυπάρης, PhD 63
(συν.) Τα υπόλοιπα (σφάλματα) κατανέμονται τυχαία πάνω και κάτω από τη γραμμή ε=0. Δεν φαίνεται να έχουμε πρόβλημα με την ομοσκεδαστικότητα Επίσης, δεν φαίνεται να υπάρχει κάποια συγκεκριμένη συστηματικότητα, στην κατανομή των σφαλμάτων Αλέξανδρος Γρυπάρης, PhD 64
(συν.) Τα επόμενα γραφήματα δείχνουν τα σφάλματα σε σχέση με κάθε ανεξάρτητη μεταβλητή. Αλέξανδρος Γρυπάρης, PhD 65
(συν.) Αλέξανδρος Γρυπάρης, PhD 66
(συν.) Αλέξανδρος Γρυπάρης, PhD 67
(συν.) Αλέξανδρος Γρυπάρης, PhD 68
(συν.) Αλέξανδρος Γρυπάρης, PhD 69
(συν.) Αλέξανδρος Γρυπάρης, PhD 70
(συν.) Σε όλα δεν φαίνεται να υπάρχει κάποια συγκεκριμένη συστηματικότητα, στην κατανομή των σφαλμάτων Μια τέτοια συστηματικότητα θα έδειχνε ότι η σχέση μεταξύ της εξαρτημένης και κάποιας ανεξάρτητης μεταβλητής δεν είναι γραμμική Αλέξανδρος Γρυπάρης, PhD 71
(συν.) Άρα, το μοντέλο μας φαίνεται να πληρεί τις προϋποθέσεις της γραμμικής παλινδρόμησης Είναι δηλαδή ένα έγκυρο μοντέλο! Άρα το Μοντέλο 6 είναι το τελικό μας μοντέλο! Αλέξανδρος Γρυπάρης, PhD 72
(συν.) Το τελικό μας μοντέλο, λοιπόν, είναι: retplas=701,326 + 2,045*age - 91,972*sex 0,643*fat +55,341*smoke2-6,117*smoke3 Το μοντέλο αυτό μπορούμε τώρα να το χρησιμοποιήσουμε και για προβλέψεις Αλέξανδρος Γρυπάρης, PhD 73
Γραμμική παλινδρόμηση Τι ακριβώς θέλουμε να πετύχουμε με τη γραμμική παλινδρόμηση; Να ερμηνεύσουμε πώς μεταβάλλεται η εξαρτημένη μεταβλητή (που είναι μια ποσοτική μεταβλητή) σε σχέση με τις ανεξάρτητες. Οπότε, η μεταβλητή που μας ενδιαφέρει κυρίως ΠΡΕΠΕΙ να είναι ποσοτική, για να κάνουμε μοντέλα γραμμικής παλινδρόμησης! Αν δεν είναι; Αλέξανδρος Γρυπάρης, PhD 74
Λογαριθμιστική εξάρτηση (logistic regression) Πολλές έρευνες μελετούν την εμφάνιση ή όχι μιας νόσου η εξαρτημένη μεταβλητή είναι διχοτομική Δεν είναι δυνατή η απλή (ή η πολλαπλή) γραμμική παλινδρόμηση Στις περιπτώσεις αυτές εφαρμόζεται η λογαριθμιστική εξάρτηση Στηρίζεται στην εφαρμογή ενός μοντέλου στα δεδομένα μας Αλέξανδρος Γρυπάρης, PhD 75
(συν.) Η εξαρτημένη μεταβλητή Υ στις περιπτώσεις αυτές είναι δίτιμη, και συνήθως κωδικοποιείται με 0 (αν δεν υπάρχει η νόσος) και 1 διαφορετικά Έστω ότι p είναι η αναλογία των ατόμων που έχουν τη νόσο (π.χ. 32%) Τότε 1-p είναι η αναλογία αυτών που δεν πάσχουν (π.χ. 68%) Αλέξανδρος Γρυπάρης, PhD 76
(συν.) Στις περιπτώσεις αυτές μας ενδιαφέρει να ορίσουμε ένα διαφορετικό είδος μοντέλων, που να βασίζονται στην: p= Ρ(Υ=1) : πιθανότητα κάποιος να νοσήσει Ενδιαφερόμαστε να μελετήσουμε τη συσχέτιση της αναλογίας p με ανεξάρτητες μεταβλητές Αλέξανδρος Γρυπάρης, PhD 77
Αλέξανδρος Γρυπάρης, PhD 78 (συν.) Για το λόγο αυτό χρησιμοποιούμε στατιστικά μοντέλα της μορφής: Η συνάρτηση στα δεξιά ονομάζεται λογαριθμιστική συνάρτηση... * *... * * 2 2 1 1 0 2 2 1 1 0 1 X X X X e e p
(συν.) Ονομάζουμε λόγο συμπληρωματικών πιθανοτήτων το πηλίκο: p 1 p Παίρνοντας τον λογάριθμο της παραπάνω ποσότητας, έχουμε το μετασχηματισμό logit: log it( p) ln 1 p p Αλέξανδρος Γρυπάρης, PhD 79
(συν.) Τα μοντέλα που εφαρμόζουμε είναι της μορφής: logit(p)=β 0 +β 1 *Χ 1 +β 2 *Χ 2 +... Αλέξανδρος Γρυπάρης, PhD 80
Ερμηνεία των παραμέτρων Οι μερικοί συντελεστές λογαριθμιστικής εξάρτησης ΔΕΝ έχουν την ίδια ερμηνεία με αυτούς της γραμμικής εξάρτησης Οι μερικοί συντελεστές λογαριθμιστικής εξάρτησης εκφράζουν τη μεταβολή του λογαρίθμου του σχετικού λόγου (odds ratio), που συνδέει την εξαρτημένη μεταβλητή με κάθε μία από τις ανεξάρτητες, ελέγχοντας για τις υπόλοιπες ανεξάρτητες μεταβλητές Αλέξανδρος Γρυπάρης, PhD 81
Σχετικός λόγος a c b d Στους τετράπτυχους πίνακες συχνά ως μέτρο του βαθμού συσχέτισης χρησιμοποιείται το πηλίκο των διαγωνίων γινομένων ad bc το οποίο ονομάζεται σχετικός λόγος. Ο σχετικός λόγος εκφράζει πόσες φορές συχνότερη (ή λιγότερο συχνή) είναι η νόσος που μελετάται, όταν ο παράγοντας που εξετάζεται είναι παρών, σε σύγκριση με την συχνότητα της νόσου, όταν ο παράγοντας απουσιάζει. Αλέξανδρος Γρυπάρης, PhD 82
Επανάληψη Ο σχετικός λόγος μπορεί να πάρει οποιαδήποτε θετική τιμή. Η τιμή 1 δηλώνει απουσία συσχέτισης. Τιμή μεγαλύτερη του 1 δηλώνει ότι η παρουσία του παράγοντα είναι επιβαρυντική (δηλαδή τα «εκτεθειμένα» άτομα έχουν μεγαλύτερη πιθανότητα να πάθουν τη νόσο σε σχέση με τα «μη εκτεθειμένα»). Αντίθετα, τιμή <1 δηλώνει ότι η παρουσία του παράγοντα είναι προστατευτική (δηλαδή τα «εκτεθειμένα» άτομα έχουν μικρότερη πιθανότητα να πάθουν τη νόσο σε σχέση με τα «μη εκτεθειμένα»). Αλέξανδρος Γρυπάρης, PhD 83
Εφαρμογή Στον επόμενο πίνακα παρουσιάζονται τα αποτελέσματα από ένα μοντέλο πολλαπλής λογαριθμιστικής εξάρτησης για τη διερεύνηση του ρόλου ορισμένων μεταβλητών στην εμφάνιση εμφράγματος του μυοκαρδίου (ΕΤΜ) Τα αποτελέσματα βασίζονται σε μία έρευνα που έλαβαν μέρος 234 ασθενείς και 1742 μάρτυρες Αλέξανδρος Γρυπάρης, PhD 84
Πίνακας Ανεξάρτητη μεταβλητή Coefficient SE X 1 : Χρήση αντισ/κών 1,188 0,261 δισκίων (0:όχι, 1:ναί) X 2 : Hλικία σε έτη 0,152 0,014 Χ 3 : Κάπνισμα 1-24 τσιγάρα 1,125 0,210 (0:όχι, 1:ναί) Χ 4 : Κάπνισμα 25+ τσιγάρα 2,137 0,209 (0:όχι, 1:ναί) Αλέξανδρος Γρυπάρης, PhD 85
(συν.) Ο συντελεστής β 1 εκφράζει το λογάριθμο του σχετικού λόγου του κινδύνου που έχουν οι γυναίκες που παίρνουν αντ/κά να πάθουν ΕΤΜ σε σχέση με αυτές που δεν παίρνουν, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της ηλικίας Επειδή exp(1,188)= 2.7183 1,188 =3,28 οι γυναίκες που παίρνουν αντ/κά έχουν 3,28 μεγαλύτερο κίνδυνο να πάθουν ΕΤΜ σε σχέση με αυτές που δεν παίρνουν, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της ηλικίας Αλέξανδρος Γρυπάρης, PhD 86
(συν.) Ο συντελεστής β 2 εκφράζει το λογάριθμο του σχετικού λόγου του κινδύνου του ΕΤΜ, για αύξηση της ηλικίας κατά 1 έτος, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της χρήσης αντ/κών Επειδή exp(0,152)=1,16 γιά 1 έτος αύξηση στην ηλικία, η πιθανότητα ΕΤΜ αυξάνεται κατά 1,16 φορές, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της χρήσης αντ/κών δηλαδή ο κίνδυνος να πάθει ένα άτομο ΕΤΜ αυξάνεται κατά 16% Αλέξανδρος Γρυπάρης, PhD 87
(συν.) Αντίστοιχα, μιά γυναίκα που καπνίζει μέχρι 24 τσιγάρα /ημέρα έχει exp(1,125)=3,08 φορές μεγαλύτερο κίνδυνο να πάθει ΕΤΜ σε σχέση με μία μη-καπνίστρια της ίδιας ηλικίας και με την ίδια χρήση αντ/κών Μιά γυναίκα που καπνίζει πάνω από 24 τσιγάρα /ημέρα έχει exp(2,137)=8,47 φορές μεγαλύτερο κίνδυνο να πάθει ΕΤΜ σε σχέση με μία μη-καπνίστρια της ίδιας ηλικίας και με την ίδια χρήση αντ/κών Αλέξανδρος Γρυπάρης, PhD 88
Παράδειγμα Στο επόμενο παράδειγμα θα πραγματοποιήσουμε μια λογαριθμιστική εξάρτηση χρησιμοποιώντας δεδομένα από το αρχείo bwt.sav, όπου: Υ: γέννηση ελλειποβαρούς μωρού (1: ναι, 0: όχι) Χ1: ψευδομεταβλητή για τη λευκή φυλή Χ2: ψευδομεταβλητή για τη μαύρη φυλή Χ3: κάπνισμα μητέρας (1: ναι, 0: όχι) Χ4: ηλικία μητέρας Δίνεται ότι το επίπεδο αναφοράς για τη φυλή είναι οι γυναίκες άλλης φυλής (όχι λευκής ή μαύρης) Αλέξανδρος Γρυπάρης, PhD 90
Αλέξανδρος Γρυπάρης, PhD 91
Αλέξανδρος Γρυπάρης, PhD 92
Unweighted Cases a Selected Cases Unselected Cases Total Case Processing Summary Included in Analysis Missing Cases Total N Percent 189 100.0 0.0 189 100.0 0.0 189 100.0 a. If weight is in effect, see classification table for the total number of cases. Categorical Variables Codings race 1 2 3 Parameter coding Frequency (1) (2) 96 1.000.000 26.000 1.000 67.000.000 Variables in the Equation Step 1 a race race(1) race(2) smoke age Cons tant B S.E. Wald df Sig. Exp(B) Lower Upper 7.899 2.019-1.057.406 6.776 1.009.348.157.770 -.045.491.009 1.926.956.365 2.501 1.101.372 8.755 1.003 3.006 1.450 6.231 -.035.033 1.091 1.296.966.905 1.031.049.791.004 1.950 1.050 95.0% C.I.for EXP(B) a. Variable(s) entered on step 1: race, s moke, Αλέξανδρος age. Γρυπάρης, PhD 93
(συν.) Έτσι, οι καπνίστριες έχουν 3,006 μεγαλύτερο κίνδυνο να γεννήσουν ελλειποβαρές μωρό σε σχέση με τις μη-καπνίστριες, ελέγχοντας ταυτόχρονα τις επιδράσεις της φυλής και της ηλικίας Αντίστοιχα, οι λευκές γυναίκες έχουν 0,348 του κινδύνου να γεννήσουν ελλειποβαρές μωρό σε σχέση με τις γυναίκες άλλης φυλής (επίπεδο αναφοράς), ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της ηλικίας Αλέξανδρος Γρυπάρης, PhD 94
(συν.) Επίσης, για κάθε έτος αύξησης της ηλικίας, η πιθανότητα για γέννηση ελλειποβαρούς μωρού μειώνεται κατά 0,966 φορές, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της φυλής Αλέξανδρος Γρυπάρης, PhD 95
Μοντέλο λογαριθμιστικής εξάρτησης Στο προηγούμενο παράδειγμα, το μοντέλο λογαριθμιστικής εξάρτησης είναι το: logit(p)=0,049-0,035*age+1,101*smoke- 0,045*race2-1,057*race1 όπου p: η πιθανότητα μία γυναίκα να γεννήσει μωρό με χαμηλό βάρος Αλέξανδρος Γρυπάρης, PhD 96
Συγχυτικός παράγοντας Συγχυτικός παράγοντας (confounder) ονομάζεται μια μεταβλητή η οποία, με οποιονδήποτε τρόπο, διαστρεβλώνει μια σχέση μεταξύ δύο μεταβλητών (στην Επιδημιολογία συνήθως εννοούμε την νόσο και ένα παράγοντα κινδύνου). Για παράδειγμα ας υποθέσουμε ότι επιθυμούμε να συγκρίνουμε τη θνησιμότητα σε δύο ομάδες με διαφορετική έκθεση σε ένα πιθανό παράγοντα κινδύνου (π.χ. κάπνισμα). Αλέξανδρος Γρυπάρης, PhD 97
(συν.) Αν η πρώτη ομάδα με τους καπνιστές περιέχει άτομα πιο μεγάλης ηλικίας από τη δεύτερη ομάδα, τότε σαφώς και περιμένουμε μεγαλύτερη θνησιμότητα σε αυτή την ομάδα Αυτό δε θα οφείλεται όμως στο γεγονός ότι κάπνιζαν, αλλά απλά στο ότι έχουν μεγαλύτερη ηλικία. Η ηλικία εδώ είναι συγχυτικός παράγοντας (confounder) της σχέσης της θνησιμότητας και του καπνίσματος. Αλέξανδρος Γρυπάρης, PhD 98
(συν.) Ένας συγχυτικός παράγοντας μπορεί: να εμφανίζει ως στατιστικά σημαντικές σχέσεις που στην πραγματικότητα δεν υπάρχουν ή να καλύπτει υπάρχουσες. Ο έλεγχος και η αδρανοποίηση των συγχυτικών παραγόντων γίνεται με κατάλληλο σχεδιασμό της μελέτης ή με ειδική στατιστική ανάλυση. Αλέξανδρος Γρυπάρης, PhD 99
Κριτήρια αιτιότητας Ακόμα και αν οι συγχυτικοί παράγοντες εξαλειφθούν, ο εντοπισμός πραγματικών σχέσεων αιτιότητας είναι δύσκολος και ξεφεύγει από τον απλό υπολογισμό στατιστικών δεικτών. Για το λόγο αυτό έχουν καθοριστεί συγκεκριμένα κριτήρια τα οποία μπορούμε να χρησιμοποιήσουμε για να εντοπίσουμε και να ελέγξουμε αν οι στατιστικά σημαντικές συσχετίσεις είναι σχέσεις αιτιότητας. Αλέξανδρος Γρυπάρης, PhD 100
Κριτήρια αιτιότητας Τα κριτήρια αυτά είναι τα ακόλουθα: Συνέπεια (consistency). Ισχύς (strength). Ειδικότητα (specificity). Χρονική αλληλουχία (temporality). Λογική αλληλουχία (coherency). Όταν μια σχέση ικανοποιεί όλα τα παραπάνω κριτήρια, τότε έχουμε μια ισχυρή (αν όχι απόλυτη) ένδειξη ότι αυτή είναι μία σχέσης αιτιότητας. Αλέξανδρος Γρυπάρης, PhD 101
Συνέπεια Μία σχέση είναι συνεπής αν εμφανιστεί επαναλαμβανόμενα σε μελέτες που έχουν γίνει με διαφορετικό σχεδιασμό και σε διαφορετικούς πληθυσμούς. Φυσικά στις περιπτώσεις αυτές μπορούν να υπάρχουν και εξαιρέσεις, δηλαδή μελέτες που δεν επιβεβαιώνουν τον κανόνα, αλλά θα πρέπει να είναι περιορισμένες και να οφείλονται σε τυχαίους παράγοντες Ένα παράδειγμα συνεπούς σχέσης είναι η θετική σχέση καπνίσματος - καρκίνου του πνεύμονα η οποία έχει επιβεβαιωθεί σε μεγάλο αριθμό μελετών τις τελευταίες δεκαετίες. Αλέξανδρος Γρυπάρης, PhD 102
Ισχύς Μια σχέση ονομάζεται ισχυρή όταν η επίδραση της παρουσίας του παράγοντα κινδύνου είναι μεγάλη. Η επίδραση συνήθως μετριέται με την αναλογική αύξηση της πιθανότητας θανάτου ή εμφάνισης της νόσου. Σε αυτή την περίπτωση, σημαντική είναι και η ύπαρξη της δοσολογικής επίδρασης (dose-response effect) που δεν είναι τίποτα άλλο από την αναλογική μεταβολή της μεταβλητής απόκρισης (π.χ. εμφάνιση της νόσου) και της δοσολογίας ενός φαρμάκου ή του μεγέθους έκθεσης σε ένα παράγοντα κινδύνου. Αλέξανδρος Γρυπάρης, PhD 103
(συν.) Παράδειγμα : η πιθανότητα εμφάνισης του καρκίνου του πνεύμονα είναι αυξημένη στους καπνιστές και αυξάνει ανάλογα με τον αριθμό τσιγάρων που καπνίζει κάθε άτομο. Αλέξανδρος Γρυπάρης, PhD 104
Ειδικότητα Μια σχέση παράγοντα κινδύνου-νόσου ονομάζεται ειδική αν η παρουσία του παράγοντα κινδύνου οδηγεί με μεγάλη πιθανότητα στην εμφάνιση της νόσου ενώ η απουσία του οδηγεί με μεγάλη πιθανότητα στην αποφυγή της εμφάνισης της νόσου. Αν ένας παράγοντας είναι «ειδικός» μίας νόσου (δηλαδή, στην ουσία, είναι η κύρια αιτία που προκαλεί τη νόσο) τότε είναι πολύ πιθανό και η σχέση να είναι αιτιολογική. Στην πράξη όμως, λόγω της πολυπλοκότητας των σχέσεων, ειδικές σχέσεις είναι σπάνιες. Αλέξανδρος Γρυπάρης, PhD 105
(συν.) Και όχι μόνο αυτό αλλά σε μια πραγματική αιτιολογική σχέση μπορεί η πιθανότητα εμφάνισης της νόσου να αυξάνει σημαντικά με την παρουσία του παράγοντα κινδύνου, άλλα όχι τόσο πολύ ώστε να τη χαρακτηρίσουμε ειδική. Η ύπαρξη μιας στατιστικής σχέσης αιτιότητας δε συνεπάγεται ότι αυτή θα επαληθεύεται σε όλες τις περιπτώσεις. Παράδειγμα, αν κάποιος καπνίζει δε σημαίνει ότι θα εμφανίσει τη νόσο σίγουρα (αν συνέβαινε αυτό δε θα μιλάγαμε για στατιστική σχέση άλλα για σχέση φυσική). Αλέξανδρος Γρυπάρης, PhD 106
Χρονική αλληλουχία Στην Επιδημιολογία είναι απαραίτητο ο παράγοντας κινδύνου να προϋπάρχει χρονικά της εμφάνισης της νόσου. Σε πολλές περιπτώσεις η στατιστική ανάλυση δε λαμβάνει υπόψη της τη χρονική αλληλουχία ή σειρά με την οποία εμφανίζονται κάποια ενδεχόμενα αλλά και μεταβλητές που συνδέονται με αυτά. Για το λόγο αυτό η μεταβλητή απόκρισης στα στατιστικά μοντέλα θα πρέπει να έπεται χρονικά των επεξηγηματικών. Αλέξανδρος Γρυπάρης, PhD 107
(συν.) Σε μερικές περιπτώσεις αυτό είναι εύκολο να το κρίνεις (π.χ. κάπνισμα και καρκίνος του πνεύμονα). Τι γίνεται όμως για περιπτώσεις όπως το παθητικό κάπνισμα για το οποίο μπορεί να μην είναι εύκολα προσδιορίσιμος ο χρόνος έκθεσης σε αυτόν τον κίνδυνο; Ο καθορισμός της χρονικής αλληλουχίας είναι επίσης δύσκολος στις περιπτώσεις που η νόσος εντοπίζεται πολύ αργότερα από την πραγματική της εμφάνιση Αλέξανδρος Γρυπάρης, PhD 108
Λογική αλληλουχία Για να έχει μια σχέση λογική αλληλουχία θα πρέπει να μην αντικρούει αποδεδειγμένες αλήθειες των φυσικών και βιολογικών επιστημών (π.χ. της Φυσικής, Χημείας, Ιατρικής, Γενετικής και Βιολογίας). Σε περίπτωση που μια στατιστικά σημαντική σχέση έρχεται σε αντίθεση με μια ήδη αναγνωρισμένη θεωρία, τότε θα πρέπει να υπάρξει μια ανάλογη επιστημονική τεκμηρίωση και θεωρία που θα υποστηρίζει και θα αιτιολογεί την ύπαρξη της. Αλέξανδρος Γρυπάρης, PhD 109
(συν.) Επιπλέον θα πρέπει να γίνουν και ανάλογες μελέτες έτσι ώστε να δούμε αν ικανοποιείται και το κριτήριο της συνέπειας που τελικά θα οδηγήσει στην επιστημονική επικράτηση και καθιέρωση του ευρήματος ή της νέας θεωρίας. Αλέξανδρος Γρυπάρης, PhD 110
Συνοψίζοντας Γενικά τα παραπάνω πέντε κριτήρια είναι αρκετά αυστηρά και πολλές φορές δεν ικανοποιούνται όλα από μια πραγματική αιτιολογική σχέση. Αλέξανδρος Γρυπάρης, PhD 111
Είδη σφαλμάτων Έστω ότι έχουμε να ελέξουμε μία μηδενική υπόθεση Π.χ. θέλουμε να συγκρίνουμε τη μέση τιμή αρτηριακής πίεσης στους άνδρες και τις γυναίκες του πληθυσμού, χρησιμοποιώντας το δείγμα μας. Η 0 : μ α =μ γ Πραγματοποιώντας ένα στατιστικό έλεγχο μπορούμε να υποπέσουμε σε 2 τύπους σφάλματος Αλέξανδρος Γρυπάρης, PhD 112
Σφάλματα στη λήψη απόφασης Αποδοχή υπόθεσης Η ο από το δείγμα με βάση το Σ.Κ. Απόρριψη υπόθεσης Η A από το δείγμα με βάση το Σ.Κ. Υπόθεση Ηο αληθής στον πληθυσμό Σφάλμα τύπου Ι ή α Υπόθεση Ηο ψευδής στον πληθυσμό Σφάλμα τύπου ΙΙ ή β Αλέξανδρος Γρυπάρης, PhD 113
Κριτήριο λήψης απόφασης Η ακριβής τιμή του σφάλματος Τύπου Ι για τα δεδομένα του προβλήματος (p value) η πιθανότητα η ληφθείσα απόφαση να είναι υπέρ της ύπαρξης σχέσης, ενώ στην πραγματικότητα δεν υπάρχει σχέση. Θέλουμε να έχει πολύ μικρή τιμή (συνήθως < 5%). Αλέξανδρος Γρυπάρης, PhD 114
Σφάλμα τύπου ΙΙ Το σφάλμα τύπου ΙΙ (β) συνίσταται στη μηαπόριψη («αποδοχή») της Η 0 όταν αυτή δεν ισχύει. Έτσι, δε βρίσκουμε διαφορά μεταξύ των 2 πληθυσμών, ενώ αυτή υπάρχει. Η ισχύς ενός στατιστικού ελέγχου ορίζεται ως 1-β (δηλαδή η πιθανότητα να βρούμε διαφορά, ενώ αυτή υπάρχει) Αλέξανδρος Γρυπάρης, PhD 115
Σφάλμα τύπου Ι και τύπου ΙΙ Υπάρχει αντίστροφη σχέση μεταξύ αυτών των 2 Η αύξηση του αριθμού των παρατηρήσεων συνεπάγεται μείωση της πιθανότητας σφάλματος και των 2 τύπων Η ισχύς μιας δοκιμασίας αποτελεί συνάρτηση του είδους της δοκιμασίας, αλλά γενικά αυξάνεται με τον αριθμό των παρατηρήσεων Αλέξανδρος Γρυπάρης, PhD 116
Οι «αρχές» της δειγματοληψίας Πληθυσμός αναφοράς Δείγμα Αντιπροσωπευτικό Τυχαίο Τις περισσότερες φορές η συμμετοχή ολόκληρου του πληθυσμού για τη διεξαγωγή μιας έρευνας είναι αδύνατη για αυτό το λόγο επιλέγεται η συλλογή ενός αντιπροσωπευτικού δείγματος. Αλέξανδρος Γρυπάρης, PhD 117
Οι «αρχές» της δειγματοληψίας Η απόφαση για το μέγεθος του δείγματος παίζει πολύ σημαντικό ρόλο στην έρευνα. Πρέπει όμως να ληφθεί υπόψη ότι σχετικά μεγάλο δείγμα συνεπάγεται και μεγάλο κόστος χωρίς αυτό να σημαίνει και απαραίτητα αξιόπιστα αποτελέσματα, ενώ πολύ μικρό δείγμα μπορεί να οδηγήσει σε συστηματικό σφάλμα και μεροληπτικές αποφάσεις για τον πληθυσμό. Αλέξανδρος Γρυπάρης, PhD 118
Το μέγεθος του δείγματος καθορίζεται από: το επίπεδο στατιστικής σημαντικότητας των ελέγχων, το οποίο συμβολίζεται με α και στο χώρο των επιστημών της Υγείας έχει καθοριστεί να είναι < 0,05 (ή < 0,01) τη στατιστική ισχύ των ελέγχων, η οποία στο χώρο των επιστημών της Υγείας έχει καθοριστεί να είναι > 0,80 ή > 0,90 το μέγεθος της αναζητούμενης σχέσης, π.χ. πόσο μεγάλη θα πρέπει να είναι η διαφορά στα επίπεδα ολικής χοληστερόλης μεταξύ της θεραπευτικής προσέγγισης Α και της θεραπευτικής προσέγγισης Β έτσι ώστε να θεωρείται κλινικά αξιόλογη το επίπεδο ακρίβειας στις μετρήσεις τη μεταβλητότητα στα χαρακτηριστικά του πληθυσμού (αν είναι μεγάλη συνεπάγεται και ανάλογη αύξηση του μεγέθους του δείγματος) το διαθέσιμο χρηματικό ποσό για την έρευνα Αλέξανδρος Γρυπάρης, PhD 119
Πόσα άτομα χρειάζονται; Τα αποτελέσματα πρέπει να προέρχονται από ένα ικανοποιητικού μεγέθους (επαρκές) αντιπροσωπευτικό υποσύνολο του πληθυσμού. Το επαρκές μέγεθος του δείγματος εξασφαλίζει τη «βεβαιότητα» που χρειάζεται (Στατιστική Ισχύς, 1-β) για την απόρριψη της «μηδενικής» υπόθεσης περί ισοδύναμων αποτελεσμάτων των προτεινόμενων θεραπειών, όταν όντως ισχύει η εναλλακτική υπόθεση. Αλέξανδρος Γρυπάρης, PhD 120
Νομόγραμμα Στην ιατρική έρευνα πολλές φορές δεν μπορεί να διαπιστωθεί υπάρχουσα διαφορά, γιατί οι μελέτες είναι μικρού μεγέθους δείγματος. Το νομόγραμμα χρησιμοποιείται για τον υπολογισμό της ισχύος κατά τη σύγκριση ενός ποσοτικού μεγέθους σε δύο ομάδες με το ίδιο αριθμό παρατηρήσεων σε κάθε ομάδα. Η κατανομή του μεγέθους θα πρέπει να είναι κατά προσέγγιση κανονική. Το νομόγραμμα (nomogram) του επόμενου σχήματος μπορεί να χρησιμοποιηθεί είτε για τον υπολογισμό του κατάλληλου μεγέθους δείγματος, όταν είναι γνωστή η ισχύς, είτε για τον προσδιορισμό της ισχύος της έρευνας για ορισμένο μέγεθος δείγματος. Αλέξανδρος Γρυπάρης, PhD 121
(συν.) Το νομόγραμμα δίνει τη σχέση ανάμεσα στην τυποποιημένη διαφορά (standardized difference), το σύνολο των παρατηρήσεων των δύο ομάδων,την ισχύ και το επίπεδο στατιστικής σημαντικότητας. Η τυποποιημένη διαφορά ισούται με τη θεωρούμενη πραγματική διαφορά διαιρεμένη με την αντίστοιχη σταθερή απόκλιση. Αλέξανδρος Γρυπάρης, PhD 122
Αλέξανδρος Γρυπάρης, PhD 123
Παράδειγμα Είναι γνωστό ότι σε διάρκεια 12 μηνών η μέση αύξηση του αναστήματος των παιδιών ηλικίας 5 ετών είναι 6 cm και η σταθερή απόκλιση 2 cm. Αν στη διάρκεια των 12 μηνών χορηγηθεί επιπλέον ποσότητα γάλατος, μια επίσης αύξηση του αναστήματος κατά 0,5 cm θεωρείται ως σημαντική διαφορά και είναι ικανοποιητικό να διαπιστωθεί η διαφορά αυτή με τη μεγαλύτερη δυνατή πιθανότητα. Αλέξανδρος Γρυπάρης, PhD 124
(συν.) Αν ως επίπεδο σημαντικότητας θεωρηθεί το 5% και η απαιτούμενη ισχύς είναι 85%, η ευθεία που ενώνει το σημείο του 0,85 ( της ισχύος) με την τιμή 0,25 (=0,5/2, δηλαδή της σταθμισμένης διαφοράς) τέμνεται με την ευθεία του 5% που δίνει τον αναγκαίο αριθμό παρατηρήσεων, δηλ. Ν=600 (300 για κάθε ομάδα). Ομοίως,αν ως επίπεδο σημαντικότητας θεωρηθεί το 1%, για την ίδια ισχύ (85%) ο αναγκαίος αριθμός είναι Ν=800 ( 400 για κάθε ομάδα). Αλέξανδρος Γρυπάρης, PhD 125
(συν.) Ανάλογα, αν έχουμε ήδη συλλέξει ένα δείγμα, μπορούμε να χρησιμοποιήσουμε το νομόγραμμα για να υπολογίσουμε την ισχύ της έρευνας (δηλαδή την πιθανότητα απόρριψης της Η 0, όταν αυτή όντως δεν ισχύει) Αλέξανδρος Γρυπάρης, PhD 126
(συν.) Έτσι, συνοψίζοντας, αν θέλουμε να συγκρίνουμε μια ποσοτική μεταβλητή σε 2 ομάδες χρειάζεται να ξέρουμε: Τη μέση τιμή και την τυπική απόκλιση της ποσοτικής μεταβλητής και στις 2 ομάδες Αυτά μπορούμε να τα βρούμε: Είτε στη βιβλιογραφία Είτε από μια μικρή πιλοτική έρευνα Αλέξανδρος Γρυπάρης, PhD 127
Μέγεθος δείγματος (συν.) Αν συγκρίνονται ποιοτικά χαρακτηριστικά, το νομόγραμμα δε μας βοηθάει Υπάρχουν σχετικοί πίνακες που μας δίνουν το απαραίτητο μέγεθος δείγματος για να τεκμηριωθεί η διαφορά 2 αναλογιών Θα χρειαστούμε Εκτιμήσεις των 2 αναλογιών Επίπεδο σημαντικότητας (συνήθως 5%) Ισχύ (συνήθως μεταξύ 80-90%) Αλέξανδρος Γρυπάρης, PhD 128
Παράδειγμα Συγκρίνεται η αποτελεσματικότητα ενός νέου φαρμάκου με κάποιο παλαιότερο Η αποτελεσματικότητα του καθιερωμένου φαρμάκου είναι 0,10 και του νέου εκτιμάται 0,25 Επίπεδο σημαντικότητας 5% Ισχύς 90% Από Πίνακες βρίσκουμε 158 ασθενείς σε κάθε ομάδα Αλέξανδρος Γρυπάρης, PhD 129
Και αν ; Και στην περίπτωση που θέλετε να στήσετε μια έρευνα και ζητήσετε τη βοήθεια ενός στατιστικού για το μέγεθος δείγματος και σας απαντήσει ένα μεγάλο αριθμό (π.χ. 500 άτομα ανά ομάδα); Τι γίνεται τότε; Αλέξανδρος Γρυπάρης, PhD 130
(συν.) Παρατάτε την ιδέα σας; Κάνετε ότι καλύτερο μπορείτε (π.χ. μαζεύοντας 100 άτομα ανά ομάδα), γνωρίζοντας εξαρχής ότι μάλλον δεν θα έχετε στατιστικά σημαντικά αποτελέσματα; Και ίσως μια όχι τόσο καλή δημοσίευση; Ειδικά στην περίπτωση της διπλωματικής σας, κάνετε ότι καλύτερο μπορείτε, λαμβάνοντας υπόψη τον οικονομικό και χρονικό παράγοντα Αλέξανδρος Γρυπάρης, PhD 131
Επαναλαμβανόμενες μετρήσεις Στις επόμενες διαφάνειες θα αναφερθούμε πολύ επιγραμματικά σε ένα πολύ συνηθισμένο πρόβλημα (;) που προκύπτει στις μελέτες Δεν είναι πρόβλημα, μάλλον είναι πλεονέκτημα! Αυτό αφορά τις επαναλαμβανόμενες μετρήσεις Αλέξανδρος Γρυπάρης, PhD 132
Επαναλαμβανόμενες μετρήσεις Σε πολλές μελέτες, μας ενδιαφέρει να μελετήσουμε ένα χαρακτηριστικό που μεταβάλλεται με το χρόνο, καθώς και την εξάρτηση αυτής της μεταβολής από άλλα χαρακτηριστικά του ατόμου ή του περιβάλλοντός του Π.χ. Επίπεδα κάποιων ορμονών στον ορό, πνευμονική λειτουργία, συστολική πίεση, κτλ Έτσι έχουμε ένα αρχείο στο οποίο το κάθε άτομο έχει πάνω από μια μέτρηση, σε διαφορετικά χρονικά σημεία Αλέξανδρος Γρυπάρης, PhD 133
Γιατί μας ενδιαφέρουν; Επιτρέπουν τη μελέτη γεγονότων που συμβαίνουν διαχρονικά σημαντικό κυρίως για μελέτες αύξησης ή γήρανσης κάποιου χαρακτηριστικού καθώς και για τη διαχρονική αντίδραση του οργανισμού σε κάποια θεραπεία Μπορούμε να μελετήσουμε τη διάταξη των γεγονότων Επιτρέπουν μεγαλύτερη ακρίβεια στις εκτιμημένες παραμέτρους των στατιστικών μοντέλων Αλέξανδρος Γρυπάρης, PhD 134
Συσχετισμένες παρατηρήσεις Οι επαναλαμβανόμενες μετρήσεις ενός χαρακτηριστικού στο ίδιο άτομο είναι συσχετισμένες μεταξύ τους (συνήθως θετικά) Αλέξανδρος Γρυπάρης, PhD 135
Παράδειγμα 1 Erythropoietin treatment of pruritus in hemodialysis patients (De Marchi et al, NEJM, 1992). Χαρακτηριστικά υπό μελέτη: Ένταση του pruritus, επίπεδα ισταμίνης στον ορό Μέγεθος δείγματος: 10 ασθενείς Αλέξανδρος Γρυπάρης, PhD 136
Αλέξανδρος Γρυπάρης, PhD 137
Παράδειγμα 2 Παρά τη βελτίωση της ατμοσφαιρικής ρύπανσης στο Λος Άντζελες, οι επιπτώσεις της μόλυνσης του περιβάλλοντος στην ανθρώπινη υγεία παραμένουν αυξημένες για τους κατοίκους της πόλης Ερευνητές μέτρησαν ετήσια την πνευμονική λειτουργία 1759 παιδιών (μέσης ηλικίας 10 ετών) σε 12 σχολεία της Νότιας Καλιφόρνια, για 8 συνεχόμενα έτη (1993-2001) Υπάρχει συσχέτιση μεταξύ έκθεσης στην ατμοσφαιρικής ρύπανσης και αύξησης της πνευμονικής λειτουργίας; Gauderman, W. J. et al. N Engl J Med 2004;351:1057-1067 Αλέξανδρος Γρυπάρης, PhD 138
Μέση ετήσια αύξηση στη FEV 1 μεταξύ αγοριών και κοριτσιών σε σχέση με τα επίπεδα ΝΟ 2, γιά τα 8 έτη της μελέτης Αλέξανδρος Γρυπάρης, PhD 139
Επαναλαμβανόμενες μετρήσεις Κοινό χαρακτηριστικό και στις 2 μελέτες είναι οι επαναλαμβανόμενες μετρήσεις Το χαρακτηριστικό που μας ενδιαφέρει μπορεί να είναι ποσοτικό (συνεχές ή διακριτό) ή ποιοτικό Μπορούμε να εφαρμόσουμε ανάλυση παλινδρόμησης σε τέτοια δεδομένα; Όχι, γιατί οι παρατηρήσεις ΔΕΝ είναι ανεξάρτητες Αλέξανδρος Γρυπάρης, PhD 140
Γραμμική εξάρτηση μεικτών επιδράσεων Σε τέτοιες περιπτώσεις, η στατιστική μέθοδος που συνήθως χρησιμοποιείται ονομάζεται «γραμμική εξάρτηση μεικτών επιδράσεων» (linear mixed effects models) Η μέθοδος αυτή βασίζεται στην απλή γραμμική παλινδρόμηση, αλλά λαμβάνει υπ όψη τη συσχέτιση των παρατηρήσεων Αλέξανδρος Γρυπάρης, PhD 141
Παράδειγμα 3 Άτομα που έλαβαν μέρος σε μία έρευνα σχετικά με τη σωματική άσκηση, χωρίστηκαν σε 2 διαφορετικά προγράμματα Στο 1 ο, διαχρονικά αυξήθηκε ο αριθμός των επαναλήψεων Στο 2 ο, διαχρονικά αυξήθηκε ο αριθμός του βάρους που σήκωναν Το υπό μελέτη χαρακτηριστικό ήταν μετρήσεις δύναμης Ο επόμενος πίνακας δείχνει κάποια από τα δεδομένα: Αλέξανδρος Γρυπάρης, PhD 142
(συν.) id trt Εβδομάδα Υ. 1 1 0 79. 1 1 4 79. 1 1 6 80. 1 1 8 80. 1 1 12 80. 2 1 0 83. 2 1 4 85. 2 1 6 85. 2 1 8 86. 2 1 12 87.. Αλέξανδρος Γρυπάρης, PhD 143
Αλέξανδρος Γρυπάρης, PhD 144
E-mail: al.grip@gmail.com Ευχαριστώ πολύ! Αλέξανδρος Γρυπάρης, PhD 145