2. ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΠΑΓΩΓΗ. ΣΚΟΠΟΣ στο τέλος της ενότητας είναι να γνωρίζετε - Τι είναι η «δειγµατοληπτική κατανοµή» π.χ. της µέσης τιµής - τι είναι και σε τι χρησιµεύει το «τυπικό σφάλµα της µέσης τιµής (standard error of the mean)» - τι είναι και σε τι χρησιµεύει το διάστηµα εµπιστοσύνης ( Ε) π.χ. για µια µέση τιµή ή για τη διαφορά µέσων τιµών 2 οµάδων. - ότι το εύρος του Ε επηρεάζεται από τον βαθµό εµπιστοσύνης που απαιτείται, το µέγεθος του δείγµατος και τη µεταβλητότητα του υπο-µελέτη χαρακτηριστικού - τη γενική διαδικασία που ακολουθείται στον έλεγχο µιας στατιστικής υπόθεσης - το πλεονέκτηµα του Ε σε σχέση µε την τιµή p. - τι είναι τα σφάλµατα τύπου Ι και ΙΙ - ποιο είναι το «πρόβληµα» των πολλαπλών συγκρίσεων και πιθανές λύσεις - τους παράγοντες που επηρεάζουν την ισχύ µιας µελέτης και την επιλογή του µεγέθους του δείγµατος - τι εννοούµε όταν µιλάµε για τη «στατιστική σηµαντικότητα» του αποτελέσµατος και πώς διαφέρει η στατιστική σηµαντικότητα από την κλινική σηµαντικότητα ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ Α Κάθε µια από τις παρακάτω φράσεις (1α, 1β, 1γ, 2α κτλ) µπορεί να είναι σωστή ή λανθασµένη. Ποιες είναι σωστές και ποιες όχι; 1. Το τυπικό σφάλµα της µέσης τιµής α) µπορεί να εκτιµηθεί µόνο εάν πάρουµε επαναλαµβανόµενα δείγµατα από τον πληθυσµό. β) είναι η τυπική απόκλιση στην δειγµατοληπτική κατανοµή των µέσων τιµών γ) µας δίνει ένα µέτρο της ακρίβειας της µέσης τιµής του δείγµατος σαν εκτίµηση της µέσης τιµής του πληθυσµού δ) αυξάνεται (σε τιµή) όσο αυξάνεται το µέγεθος του δείγµατος. 2. Ένα 95% διάστηµα εµπιστοσύνης για µια µέση τιµή εκτιµώµενη από ένα δείγµα είναι α) ένα διάστηµα που περιέχει τη µέση τιµή του δείγµατος µε πιθανότητα 0,95. β) ένας τρόπος µέτρησης της µεταβλητότητας των παρατηρήσεων του δείγµατος. γ) ένας τρόπος µέτρησης της πιθανής ακρίβειας της εκτίµησης της µέσης τιµής. 3. Αν αυξηθεί το µέγεθος ενός τυχαίου δείγµατος, θα περιµέναµε α) να µειωθεί ο µέσος όρος. β) να αυξηθεί η τυπική απόκλιση του δείγµατος. γ) να µειωθεί το τυπικό σφάλµα του µέσου. δ) να αυξηθεί το διάστηµα εµπιστοσύνης. 4. Αν θέλουµε να εκτιµήσουµε τη µέση συστολική πίεση χρησιµοποιώντας ένα δείγµα από έναν µεγάλο πληθυσµό, η ακρίβεια της εκτίµησης θα εξαρτηθεί από α) το µέγεθος του δείγµατος. β) τον τρόπο µε τον οποίο επιλέγεται το δείγµα. γ) τη µέση τιµή της συστολικής πίεσης στον πληθυσµό. δ) την διασπορά της συστολικής πίεσης στον πληθυσµό. 5. Η τιµή p είναι α) η πιθανότητα ότι η µηδενική υπόθεση δεν ισχύει. β) η πιθανότητα ότι θα προκύψουν τα παρατηρούµενα αποτελέσµατα, ή αποτελέσµατα πιο ακραία, όταν η µηδενική υπόθεση αληθεύει. γ) η πιθανότητα ότι θα προκύψουν τα παρατηρούµενα αποτελέσµατα, ή αποτελέσµατα πιο ακραία, όταν η εναλλακτική υπόθεση αληθεύει. δ) πάντα µικρότερη από 0,05. 1
6. α) Η πιθανότητα ότι θα γίνει σφάλµα τύπου Ι είναι η πιθανότητα ότι θα απορριφθεί η µηδενική υπόθεση ενώ αυτή είναι αληθής. β) Η πιθανότητα ότι θα γίνει σφάλµα τύπου Ι είναι η πιθανότητα ότι δεν θα απορριφθεί η µηδενική υπόθεση ενώ αυτή είναι αληθής. γ) Η πιθανότητα ότι θα γίνει σφάλµα τύπου ΙΙ είναι η πιθανότητα ότι δεν θα απορριφθεί η µηδενική υπόθεση ενώ αυτή είναι ψευδής. δ) Η πιθανότητα ότι θα γίνει σφάλµα τύπου ΙΙ είναι η πιθανότητα ότι θα απορριφθεί η µηδενική υπόθεση ενώ αυτή είναι ψευδής. 7. Σε µία µελέτη κλινικής παρέµβασης που στοχεύει να θεραπεύσει µία συγκεκριµένη ασθένεια, ο απαιτούµενος αριθµός των ασθενών αυξάνεται όσο A) αυξάνεται η απαιτούµενη ισχύς. β) αυξάνεται η αναµενόµενη επίδραση της θεραπείας (που ενδιαφέρει να ανιχνευτεί). γ) µειώνεται το επίπεδο σηµαντικότητας. δ) αυξάνεται το ποσοστό των ατόµων που αποχωρούν κατά τη διάρκεια της µελέτης (drop-out rate). ΜΕΡΟΣ Β ΑΣΚΗΣΗ 1 Οι Thorpe et al (2004) εκτίµησαν τα ποσοστά παιδικής παχυσαρκίας από ένα τυχαίο δείγµα 2681 παιδιών από δηµοτικά σχολεία στην Νέα Υόρκη των ΗΠΑ. Ο εκτιµώµενος επιπολασµός της παχυσαρκίας ήταν 24% µε 95% διάστηµα εµπιστοσύνης (95% Ε) από 21% έως 27%. α) Στη µελέτη εφαρµόστηκε η µέθοδος της τυχαίας δειγµατοληψίας. Τι είναι «τυχαίο δείγµα»; β) Aν ενδιέφεραν τα 99% όρια εµπιστοσύνης, θα είχε µεγαλύτερο ή µικρότερο εύρος το Ε; Γιατί; γ) Αν ο αριθµός των παιδιών στη µελέτη ήταν µόνο 268, µπορούµε να πούµε ότι i. θα µειωνόταν η εκτίµηση του επιπολασµού; ii. το Ε θα είχε µεγαλύτερο εύρος; Σε παρόµοια µελέτη που διεξάχθηκε σε παιδιά της Αγγλίας, οι συγγραφείς αναφέρουν ότι «βρέθηκαν ποσοστά παχυσαρκίας 13,6% και 3,5% σε παιδιά Ασιατικής καταγωγής και σε λευκά παιδιά αντίστοιχα (p<0,001)». Η τιµή p ήταν αποτέλεσµα της σύγκρισης των δυο ποσοστών (µε µηδενική υπόθεση H0 ότι δεν διαφέρουν τα ποσοστά στους αντίστοιχους πληθυσµούς). δ) Ερµηνεύσετε το αποτέλεσµα. ε) Θα περιµένατε ότι το 95% Ε για τη διαφορά µεταξύ των δύο ποσοστών θα συµπεριλαµβάνει το 0 ή όχι; στ) Γενικώς, τι επιπλέον προσφέρει ένα Ε σε σχέση µε µια αντίστοιχη τιµή p; ζ) Πότε θεωρείται ότι έχει γίνει «σφάλµα τύπου Ι» και πότε «σφάλµα τύπου ΙΙ»; η) Οι συγγραφείς είχαν δηλώσει εκ των προτέρων ότι η µελέτη τους θα είχε ισχύ (power) 90% να ανιχνεύσει µια διαφορά 5% στο ποσοστό παχυσαρκίας µεταξύ παιδιών Ασιατικής και λευκής καταγωγής, σε επίπεδο σηµαντικότητας 0,01. Από αυτές τις πληροφορίες, ποια είναι η πιθανότητα ότι θα γίνει σφάλµα τύπου Ι και ποια ότι θα γίνει σφάλµα τύπου ΙΙ; [Θα µιλήσουµε συγκεκριµένα για τη σύγκριση 2 ποσοστών στην «Tεχνικές ανάλυσης ποιοτικών δεδοµένων» αλλά µπορείτε να απαντήσετε την Άσκηση 1 µε την ύλη που έχουµε ήδη καλύψει, γνωρίζοντας ότι χρησιµοποιείται η ίδια λογική µε αυτή στη σύγκριση δυο µέσων τιµών]. 2
ΑΣΚΗΣΗ 2 Σε παιδιά µε παροξυσµούς άσθµατος (asthma exacerbations), πραγµατοποιήθηκε συγκριτική µελέτη 5ήµερης θεραπείας σε σχέση µε 3ήµερη θεραπεία µε κορτικοστερεοειδή δια του στόµατος (oral corticosteroids). Μια έκβαση ήταν η ποιότητα ζωής η οποία αξιολογήθηκε µε τη χρήση ενός ερωτηµατολογίου, του PACQLQ (Pediatric Asthma Caregivers Quality of Life Questionnaire), επτά ηµέρες µετά την έναρξη της θεραπείας. Οι συγγραφείς αναφέρουν ότι επέλεξαν το µέγεθος του δείγµατος θεωρώντας ότι µια διαφορά 0,5 µονάδων (ή µεγαλύτερη) στην βαθµολογία PACQLQ είναι κλινικά σηµαντική, ότι η τυπική απόκλιση ήταν 1 (γνωστή από προηγούµενη µελέτη), µε επιθυµητή ισχύ 90% και µε επίπεδο σηµαντικότητας 5%. α) Υπολογίστε περίπου πόσα παιδιά χρειάζονται σε κάθε οµάδα (κατά προσέγγιση), χρησιµοποιώντας το νοµόγραµµα του Altman. είξετε στο νοµόγραµµα πώς υπολογίσατε το µέγεθος Ν. β) Ποιες είναι οι (µέγιστες) πιθανότητες να συµβούν σφάλµατα τύπου Ι και ΙΙ; γ) Αν οι συγγραφείς επιθυµούσαν επίπεδο σηµαντικότητας 1%, πόσα παιδιά θα χρειαζόντουσαν σε κάθε οµάδα; δ) Αν επίσης γνώριζαν ότι αναµένεται ότι το 20% των παιδιών σε κάθε οµάδα δεν θα τελείωναν τη µελέτη (το 20% θα χαθούν από την παρακολούθηση, 20% loss-to-follow up), ποιο θα ήταν το κατάλληλο µέγεθος του δείγµατος (µε επίπεδο σηµαντικότητας 1%); Tα αποτελέσµατα δίνονται στον Πίνακα 1 παρακάτω. Πίνακας 1. Σύγκριση των µέση βαθµολογίων PACQLQ για παιδιά µε θεραπεία τριών και πέντε ηµερών. Οµάδα µε θεραπεία Οµάδα µε θεραπεία Τιµή p από τον τριών ηµερών (n=99) Μέση τιµή (ΤΣ) πέντε ηµερών (n=100) Μέση τιµή (ΤΣ) έλεγχο t για ανεξάρτητα δείγµατα. PACQLQ 5,0 (0,1) 5,1 (0,1) 0,90 *ΤΣ = τυπικό σφάλµα της µέσης τιµής. ε) Το τυπικό σφάλµα της µέσης τιµής (ΤΣ) τι δείχνει γενικά (σε µια κατανοµή ποσοτικού µεγέθους) και πώς διαφέρει από την τυπική απόκλιση του δείγµατος (ΤΑ); Είναι δυνατόν το ΤΣ της µέσης τιµής να είναι πολύ µικρό όταν η ΤΑ είναι µεγάλη; στ) Ποιο συµπέρασµα βγαίνει από τον Πίνακα 1 ; ζ) Αν δεν είχε υπολογιστεί η τιµή p, αλλά το 95% Ε για τη διαφορά στις µέσες βαθµολογίες έδειχνε τιµές 1 µε 3 µονάδες µεγαλύτερες στη µία οµάδα σε σχέση µε την άλλη, τι συµπέρασµα θα µπορούσαµε να βγάλουµε όσον αφορά τη στατιστική σηµαντικότητα του αποτελέσµατος; ΑΣΚΗΣΗ 3. Η θνησιµότητα στις πρώτες 30 µέρες µετά από µεταµόσχευση καρδιάς είναι περίπου 10% µε τη standard τεχνική. Υπάρχει µια νέα τεχνική µε την οποία φαίνεται από αρχικές µελέτες ότι µειώνεται το ποσοστό θνησιµότητας. Πόσοι ασθενείς θα χρειαστούν σε µία µελέτη κλινικής παρέµβασης για να ανιχνευτεί µία µείωση της θνησιµότητας στο 8% (δηλαδή µείωση κατά 20%) όταν η απαιτούµενη ισχύς είναι 90% και το επίπεδο σηµαντικότητας 5%; Θέλουµε οι δύο οµάδες (standard & νέα τεχνική) να έχουν το ίδιο µέγεθος. Χρησιµοποιήστε το νοµόγραµµα του Altman. Αν η απαιτούµενη ισχύς είναι 80%, πόσοι ασθενείς χρειάζονται; 3
ΑΣΚΗΣΗ 4. Παρακάτω δίνονται οι συνιστώσες για τον υπολογισµό του µεγέθους του δείγµατος στη µελέτη των Pediatric Eye Disease Investigator Group. Η µεταβλητή που ενδιαφέρει είναι η οπτική οξύτητα (ποσοτική µεταβλητή, µονάδες µέτρησης = logmar). Χρησιµοποιήστε αυτές τις πληροφορίες (α, β, διαφορά, ΤΑ) και το nomogram του Altman για να επιβεβαιώστε ότι το προτεινόµενο µέγεθος του δείγµατος (100 παιδιά) φαίνεται λογικό. 4
Το νοµόγραµµα του Altman. (από το βιβλίο Medical Statistics at a Glance, 2005, Petrie & Sabin). Ν Ισχύς Σταθµισµένη διαφορά 0,05 0,01 Επίπεδο σηµαντικότητας Έλεγχος υπόθεσης Έλεγχος t για ανεξάρτητα δείγµατα Έλεγχος t για παρατηρήσεις κατά ζεύγη. Σταθµισµένη διαφορά δ/σ 2δ/σ οκιµασία του Χ 2 p(1 p) p 1 p 2 Ν Συνολικός αριθµός ατόµων, Ν/2 σε κάθε οµάδα Ν ζευγάρια παρατηρήσεων Ν/2 παρατηρήσεις σε κάθε οµάδα Ορολογία δ = η µικρότερη διαφορά η οποία είναι κλινικά σηµαντική. σ = η ΤΑ των παρατηρήσεων σε κάθε οµάδα δ = η µικρότερη διαφορά η οποία είναι κλινικά σηµαντική. σ = η ΤΑ των διαφορών. p 1 -p 2 = η µικρότερη διαφορά στις αναλογίες των επιτυχιών στις δύο οµάδες η οποία είναι κλινικά σηµαντική. p= p 1 + p 2 2 5
Λογισµικά πακέτα & applets που µπορούν να χρησιµοποιηθούν για υπολογισµούς του µεγέθους του δείγµατος: To site του πανεπιστηµίου UCSF δίνει πολλές επιλογές για τον ερευνητή που θέλει να υπολογίσει ένα κατάλληλο µέγεθος δείγµατος σε websites και πακέτα. Αναφέρει τις δυνατότητες τους και ποια είναι δωρεάν. Προσέξετε µόνο να είναι δηµοσιευµένοι οι τύποι/αλγόριθµοι που χρησιµοποιούνται στο πακέτο που θα επιλέξετε. Η διεύθυνση του site του UCSF είναι http://www.biostat.ucsf.edu/sampsize.html Μπορείτε, αν θέλετε να χρησιµοποιήσετε τα ακόλουθα: 1) Epi Info για επιδηµιολογικές µελέτες Κατεβάστε το από: http://www.cdc.gov/epiinfo/ 2) Το πακέτο PS (Dupont & Plummer) http://www.mc.vanderbilt.edu/prevmed/ps/ 3) Russell Lenth s Java applets http://www.cs.uiowa.edu/~rlenth/power/ 6