Έλεγχος υποθέσεων - Ισχύς και Μέγεθος είγματος Sample Size and Power Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Πανεπιστήμιο Κρήτης
Πόσα άτομα να συμπεριλάβω στη μελέτη μου για να είναι έγκυρη, να γίνει αποδεκτή κλπ; Η απάντηση στη συχνή αυτή ερώτηση πολλών ερευνητών δεν είναι πάντα εύκολη και εξαρτάται από διάφορες παραμέτρους και παραδοχές που πρέπει να θέσει ο ερευνητής.
Περίγραμμα Έννοιες αλληλένδετες με την ισχύ μέγεθος δείγματος (Μ ) Μ για σύγκριση μέσων τιμών Μ για σύγκριση ποσοστών Μ για ανάλυση επιβίωσης πρακτικοί κανόνες (rule of thumb) παραδείγματα - εφαρμογές
Έννοιες αλληλένδετες με υπολογισμούς Μ 1. Μηδενική υπόθεση - Ηο: θ 1 -θ =0. Εναλλακτική υπόθεση - Ηa: θ1-θ 0 ή Ηa: θ1-θ>0 3. Σφάλμα τύπου Ι (επίπεδο σημαντικότητας) 4. Σφάλμα τύπου ΙΙ Ισχύς 5. Μικρότερη διαφορά με ιατρική / βιολογική σημασία Ο καθορισμός της επαφίεται κυρίως στην κρίση του ερευνητή δεν αποτελεί στατιστική απόφαση.
Έλεγχος Υποθέσεων Hypothesis Testing Υπόθεση -Hypothesis Πρόταση για μία ή παραπάνω παραμέτρους του πληθυσμού Ερευνητική υπόθεση Στατιστική υπόθεση Υποστηρίζουν τα δεδομένα την υπόθεσή μου;
Τα βασικά στάδια στον έλεγχο υποθέσεων 1. ιατύπωση δύο ασύμβατων προτάσεων για μία ή περισσότερες παραμέτρους. Η μία λέγεται μηδενική υπόθεση (null hypothesis) Ηο, είναι η πιο περιοριστική, Ηο: μ 1 =μ ήμ 1 -μ = 0 Η εναλλακτική (alternative) H 1 ήηαείναι η ερευνητική υπόθεση αυτή που ελπίζουμε ότι ισχύει H 1 : μ 1 μ ήμ 1 -μ 0. Το (τα) στατιστικό(ά) στοιχείο(α) που θα μας βοηθήσουν στη λήψη της απόφασης. 3. Προσδιορισμός του ανεκτού επιπέδου σφάλματος και της κρίσιμης περιοχής ή περιιοχής απόρριψης ή Υπολογισμός του p-value = πιθανοφάνεια των δεδομένων κάτω από την Ηο.
P-value: Η πιθανότητα της παρατηρηθείσας διαφοράς αν ισχύει η Ηο P-value «μικρό» p <α (5%) Ερμηνεία: Τα αποτελέσματα είναι απίθανα αν η Ηο είναι αληθής Απόφαση: υπάρχουν επαρκή στοιχεία για την απόρριψη της Ηο P-value «μεγάλο» p > α(5%)) Ερμηνεία: Τα αποτελέσματα είναι πιθανά αν η Ηο είναι αληθής Απόφαση: δεν υπάρχουν επαρκή στοιχεία για την απόρριψη της Ηο
Απόφαση Ηο: Αληθής Ψευδής εν απορρίπτω Ηο Απορρίπτω Ηο
Απόφαση Ηο: Αληθής Ψευδής εν απορρίπτω Ηο ΟΚ Απορρίπτω Ηο
Ηο: Απόφαση εν απορρίπτω Ηο Απορρίπτω Ηο Αληθής ΟΚ Σφάλμα τυπου Ι Ψευδής α = πιθανότητα σφάλματος τύπου Ι (επίπεδο σημαντικότητας)
Ηο: Απόφαση εν απορρίπτω Ηο Απορρίπτω Ηο Αληθής ΟΚ Σφάλμα τυπου Ι Ψευδής Σφάλμα τύπου ΙΙ α = πιθανότητα σφάλματος τύπου Ι (επίπεδο σημαντικότητας) β = πιθανότητα σφάλματος τύπου ΙΙ 1-β = ισχύς = πιθανότητα ορθής απόρριψης Ηο
Ηο: Απόφαση εν απορρίπτω Ηο Απορρίπτω Ηο Αληθής ΟΚ Σφάλμα τυπου Ι Ψευδής Σφάλμα τύπου ΙΙ ΟΚ α = πιθανότητα σφάλματος τύπου Ι (επίπεδο σημαντικότητας) β = πιθανότητα σφάλματος τύπου ΙΙ 1-β = ισχύς = πιθανότητα ορθής απόρριψης Ηο http://lstat.kuleuven.be/java/version.0/content_tests.htm
Σχηματική απεικόνιση σφαλμάτων τύπου Ι και ΙΙ μ0 μ1
μ0 μ1
μ0 μ1
Σχηματική απεικόνιση σφαλμάτων τύπου Ι και ΙΙ
Οι κλινικές μελέτες σχεδιάζονται έτσι ώστε η απόρριψη της Ηο να είναι «δύσκολη». Επειδή το σφάλμα τύπου Ι είναι μικρό (<5% ή και1%), αν αποφανθούμε ότι υπάρχει διαφορά, τότε κατά πάσα πιθανότητα υπάρχει (έχουμε κάτω από 5% πιθανότητες να κάνουμε λάθος). Αν όμως δεν απορριφθεί η Ηο; Πόσο βέβαιοι μπορεί να είμαστε ότι δεν υπάρχει διαφορά; Μόνο αν η ισχύς της μελέτης είναι μεγάλη!
Ο καθορισμός του Μ, n, σε μια κλινική μελέτη είναι πρωταρχικής σημασίας για τον σωστό σχεδιασμό της με επαρκές δείγμα έχουμε αξιόπιστα αποτελέσματα μή επαρκές δείγμα «αρνητική» μελέτη διεξαγωγή κλινικής μελέτης με ανεπαρκές δείγμα δεν είναι μόνο ανώφελη, αλλά και.. ανήθικη. Η έκθεση ασθενών σε ενδεχόμενο κινδύνο είναι επιτρεπτή μόνο όταν υπάρχει ρεαλιστική προοπτική ότι τα ευρήματα θα ωφελήσουν τους ίδιους ή μελλοντικούς ασθενείς.
Ηισχύςτουτεστ, με άλλα λόγια, είναι η πιθανότητα να αποφανθούμε ορθώς ότι υπάρχει treatment effect. αν η μελέτη έχει μεγάλη ισχύ και δεν βρούμε σημαντική διαφορά μεταξύ των ομάδων, τότε έχουμε υψηλό βαθμό εμπιστοσύνης ότι μάλλον δεν υφίσταται διαφορά. (Γιατί αν υπήρχε, θα είχαμε μεγάλη πιθανότητα να την ανακαλύψουμε.) η ισχύς της μελέτης εξαρτάται από την προς ανίχνευση διαφορά, από το n και άλλες παραμέτρους.
μικρό n: μικρή ισχύς - πολύ πιθανό να μην εντοπίσει κλινικά σπουδαίες διαφορές μεγάλο n: ακόμα και μικρές, κλινικά αμελητέες διαφορές, θα κριθούν ως σημαντικές, ενώ θα έχουν σπαταληθεί πολύτιμοι πόροι και χρόνος. Μ τόσο ώστε η ισχύς να είναι ικανοποιητική για την ανίχνευση διαφορών με ιατρική-βιολογική-κλινική σημασία.
Οι τεχνικές εκμάθησης υπολογισμών ισχύος μεγέθους δείγματος δεν είναι εύκολες για μη στατιστικούς και υπολογιστικά απαιτητικές. Επιβαρυντικός παράγοντας είναι επίσης και η πληθώρα των τύπων για διάφορες περιπτώσεις και υπο-περιπτώσεις. Θα δοθούν ορισμένοι πρακτικοί κανόνες (rule of thumb) Βοήθεια απο διαδικτυακούς τόπους Η συμβολή του στατιστικού είναι συνήθως αναγκαία.
Statistical content in NEJM original articles over time 70% NEJM articles 60% 50% 40% 30% 0% 10% power-sample size survival methods 0% 1978-1979 (N=33) 1989 (N=115) year 004-005 (N =311)
Σύγκριση μέσων όρων ανεξάρτητα δείγματα Ηο: μ1-μ=0 (no treatment effect) vs Ηα: μ1-μ=d (treatment effect) Το Μ, n, ανά ομάδα είναι: n = σ ( z α / d + z β ) = ( z α / Δ + z β ) όπου =d/σ z α/, z β εξαρτώνται από τa επίπεδa σφάλματος τύπου Ι και ΙΙ. α Z α/ β z β 0.10 1.64 0.0 0.84 Πίνακας τιμών για Z α/ και Z β 0.05 1.96 0.10 1.8 0.01.58 0.05 1.64
Σύγκριση μέσων όρων - Πρακτικός κανόνας Ο αριθμός των ατόμων, ανά ομάδα, που απαιτούνται για να ανιχνευθεί με ισχύ 80%, μια διαφορά =d/σ, σε επίπεδο σημαντικότητας 5%, είναι: n = 16 Δ Το =d/σ, η standardized διαφορά = η διαφορά εκφρασμένη σε μονάδες τυπικών αποκλίσεων ενόχληση η παρουσία του σ (nuisance parameter)!!!
Στατιστικός: Ποιο το μέγεθος της διαφοράς που θέλετε να εντοπίσετε; Ερευνητής: περίπου 0% μεταβολή Στατιστικός: πόση είναι η διασπορά των μετρήσεων; Ερευνητής: περίπου 30%. Ποσοστιαία μεταβολή PC = (μ 1 -μ ο )/μ ο Συντελεστής μεταβλητότητας CV = σ/μ n = 8 CV PC (1 + (1 PC) ) Με PC=0. και CV=0.3 n=30 άτομα ανά ομάδα
Σύγκριση μέσων όρων ανεξάρτητα δείγματα Σε περίπτωση που οι δύο ομάδες δεν μπορεί να έχουν ίσοαριθμόατόμων, αλλά n =kn 1, ο τύπος είναι: n 1 ( σ 1 + σ / k)( zα / + zβ ) = n = k n 1 d
Σύγκριση μέσων όρων εξαρτημένα δείγματα / / ) ( ) ( Δ + = + = β α β α σ z z d z z n Στην περίπτωση αυτή το Μ είναι ίσο με: Όπου = d/σ, με σ = sd της διαφοράς. Πρακτικός κανόνας Για α=5% και β=0%, 8 Δ n =
Σύγκριση ποσοστών (χ test) Ηο: p 1 -p = 0 (no treatment effect) vs Ηα: p 1 -p = d (treatment effect) Το Μ, n, ανά ομάδα για α=5% και β=0% είναι: n = [1.96 p(1 p) + 0.84 d p 1 (1 p1) + p(1 p) ] Όπου p = (p 1 +p )/ Παράδειγμα: αν p 1 =0.3 και p =0.1 τότε p=0. και n = 61.5 Με 6 άτομα ανά ομάδα έχουμε 80% ισχύ να ανιχνεύσουμε ως σημαντική σε επίπεδο 5% μια μείωση της τάξης του 0%.
Παράδειγμα: ένα 30% των καπνιστών που προσπαθούν να κόψουν το τσιγάρο υποτροπιάζουν εντός 6μήνου. Ένα νέο φάρμακο ίσως μειώνει το ποσοστό αυτό. Πόσαάτομαπρέπειναεντάξουμε στη μελέτη έτσι ώστε με ισχύ 80% να ανιχνεύσουμε μια μείωση της τάξης του...
Παράδειγμα: ένα 30% των καπνιστών που προσπαθούν να κόψουν το τσιγάρο υποτροπιάζουν εντός 6μήνου. Ένα νέο φάρμακο ίσως μειώνει το ποσοστό αυτό. Πόσα άτομα πρέπει να εντάξουμε στη μελέτη έτσι ώστε με ισχύ 80% να ανιχνεύσουμε μια μείωση της τάξης του... p1 =0.3. Αν p=0.1 τότε p=0. και n = 61.5 Με 6 άτομα ανά ομάδα έχουμε 80% ισχύ να ανιχνεύσουμε ως σημαντική σε επίπεδο 5% μια σχετική μείωση της τάξης του 67%. p1 =0.3. Αν p=0. τότε p=0.5 και n = 93 Με 93 άτομα ανά ομάδα έχουμε 80% ισχύ να ανιχνεύσουμε ως σημαντική σε επίπεδο 5% μια μείωση της τάξης του 33%. Υποδιπλασιασμός του effect size 4 n
Ισχύς και Μ για p1=0.3, p=0. με α=5% και β=0% 500 410 30 30 140 50 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Power 400 330 60 190 10 50 0,10 0,15 0,0 0,5 0,30 0,35 0,40 0,45 0,50 Probability of the event in experimental group 0,8 0,9 power
Σύγκριση ποσοστών (χ test) 16 p(1 Πρακτικός κανόνας 1: n = d Για p 1 =0.3 και p =0.1 έχουμε n=64 p) 4 d Πρακτικός κανόνας : n = worst case scenario Για p 1 =0.3 και p =0.1 έχουμε n = 100.
Συχνά λάθη ερμηνείας ισχύος - Μ Με n=93 έχουμε 80% ισχύ για μείωση 33% Λ1) «Αν η διαφορά στο δείγμα είναι < 33% δεν θα έχουμε σημαντικό αποτέλεσμα». Λ) «Εχουμε 80% πιθανότητες να ανακαλύψουμε ως σημαντική διαφορά 33%» Λ3) «Γιατί να κάνουμε τόσο μεγάλη μελέτη; Η μελέτη του κ. Τυχερού είχε λιγότερα άτομα και είχε σημαντικό αποτέλεσμα»
Σωστή ερμηνεία ισχύος - Μ Αν η αληθής (όμως άγνωστη) διαφορά μεταξύ των δύο μεθόδων στο σύνολο του πληθυσμού των εκατομμυρίων καπνιστών είναι της τάξης του 33% (από 0.3 σε 0.) τότε έχουμε 80% πιθανότητα για σημαντικό αποτέλεσμα. (κάτι που μπορεί να έχουμε ακόμα και αν η παρατηρηθείσα διαφορά στο δείγμα είναι <33%)
για προκαθορισμένο n και ισχύ Τι έχουμε με 80% power και n=100/ομάδα: 4 d Πρακτικός κανόνας : n = worst case scenario Δ = n Με 100 ανά ομάδα έχουμε 80% ισχύ για ανίχνευση διαφοράς μεταξύ των δύο ποσοστών =0..
Μ για ανάλυση επιβίωσης ανάλυση επιβίωσης: χρόνος μέχρι το endpoint θα μπορούσαμε να εφαρμόσουμε τους τύπους Μ για σύγκριση ποσοστών αν... στην πράξη αυτό δεν συμβαίνει υπάρχουν πολλές μέθοδοι για υπολογισμό Μ, ανάλογα με τις παραδοχές που κάνουμε για τη συνάρτηση επιβίωσης και το σχεδιασμό της μελέτης
Μ για ανάλυση επιβίωσης (log-rank test) Οι υπολογισμοί αυτοί βασίζονται στις εξής παραδοχές: 1. Όλοι οι ασθενείς έχουν follow-up για χρόνο t. Ο λόγος των δύο συναρτήσεων κινδύνου (hazard ratio) είναι σταθερός στο διάστημα (0, t).
Μ για ανάλυση επιβίωσης (log-rank test) Το Μ ανά ομάδα είναι: n = ( z ( a / + z p 1 b ) p ( h + 1) )( h 1) p 1 = % επιβίωσης ομάδας 1 στον χρόνο t P = % επιβίωσης ομάδας στον χρόνο t h = ln(p1) / ln(p)
Παράδειγμα: θέλουμε να δούμε αν ένα νέο φάρμακο αυξάνει το ποσοστό επιβίωσης ασθενών με καρκίνο πνεύμονα. Όλοι οι ασθενείς θα έχουν follow-up > έτη. Αν η -ετής επιβίωση με την standard θεραπεία είναι 5%, πόσοι ασθενείς χρειάζονται έτσι ώστε με 80% ισχύ να ανιχνεύσουμε μία διαφορά στο hazard ratio 1.5? h=ln(p1)/ln(p) = 1.5 ln(p)=ln(0.5)/1.5 p=0.397 n = (1.96 + 1.8) (1.5 + 1) ( 0.5 0.397)(1.5 1) = 197
Γενική μορφή των τύπων υπολογισμού Μ ( z n const a / + z β ) z α/ και z β εξαρτώνται από το σφάλμα τύπου Ι και τύπου ΙΙ και = effect size Δ α Z α/ β z β 0.10 1.64 0.0 0.84 0.05 1.96 0.10 1.8 0.01.58 0.05 1.64
Πρακτικός κανόνας (rule of thumb) Αν για α=5% και 1-β =80% απαιτούνται n άτομα τότε για: α=1% και 1-β = 80% απαιτούνται 1.50 n α=5% και 1-β = 95% απαιτούνται 1.65 n α=1% και 1-β = 95% απαιτούνται.7 n Μικρές αλλαγές στις παραμέτρους μεγάλη αλλαγή στο Μ!
Ανάλυση ευαισθησίας (Sensitivity Analysis) το n εξαρτάται από την ισχύ, το και από το σ. Ανάλυση ευαισθησίας για να δούμε πόσο αλλάζει το n, ανάλογα με και σ. Κάνουμε πίνακα.
Μικρά δείγματα... χαμηλή ισχύς για ανίχνευση ακόμα και σχετικά μεγάλων διαφορών. Μην εμπιστεύεστε αρνητικά «ευρήματα» μελετών με μικρό n.
Πολύ μεγάλα δειγματα... ισχύς κοντά στο 1 ακόμα και για ανίχνευση κλινικά αμελητέων διαφορών. Εκτός του p-value, υπολογισμός και διαστημάτων εμπιστοσύνης για να έχουμε μια καλύτερη εικόνα του μεγέθους της διαφοράς (effect size)
Web based help http://calculators.stat.ucla.edu/pow ercalc/ http://hedwig.mgh.harvard.edu/sampl e_size/size.html www.mc.vanderbilt.edu/prevmed/ps/
Παράδειγμα. Θνητότητα μετά από μη θανατηφόρο έμφραγμα μυοκαρδίου 1. Elwood and Sweetmann (1979) τυχαιοποιημένη κλινική μελέτη σε139 ασθενείς Ασπιρίνη 8.0% Πλασεμπο 10.7% Διαφορά.7% με 95% (-0.5% - 6.0%). Persantine-Aspirin Reinfarction Research study group (1980) τυχαιοποιημένη κλινική μελέτη σε 69 ασθενείς Ασπιρίνη 9. % Πλασεμπο 11.5% Διαφορά.3% με 95% (0.8% - 3.8%)
ΔΕ, σημαντικότητα και κλινική σπουδαιότητα (ΚΣ) Σημαντική, με ενδεχόμενη ΚΣ Σημαντική, αλλά χωρίς ΚΣ Σημαντική, με ΚΣ Μη σημαντική Μη σημαντική, με ενδεχόμενη ΚΣ 0 Κλινικά σπουδαία διαφορά
Το ιαστήματα Εμπιστοσύνης δείχνουν την ακρίβεια της εκτίμησης δίνουν εικόνα για την αληθή τιμή της παραμέτρου χρήσιμο εργαλείο για να δείξουμε την αβεβαιότητα που παραμένει