3. Ανάλυση Ποσοτικών εδοµένων: Συγκρίσεις µεταξύ οµάδων Σελίδα 1 Εισαγωγή 3 1.1 Συµπερασµατολογική στατιστική (statistical inference) 3 1.2 ιαστήµατα εµπιστοσύνης 3 1.3 Ο έλεγχος στατιστικής υπόθεσης (hypothesis testing) 3 1.3.1 Η γενική διαδικασία 3 1.3.2 Η µηδενική υπόθεση 4 1.3.3 Η τιµή p 4 1.3.4 Το επίπεδο σηµαντικότητας 4 1.3.5 Το στατιστικό κριτήριο ελέγχου 5 1.4 Παραµετρικοί και µη-παραµετρικοί έλεγχοι 6 1.5 Μεγάλα και µικρά δείγµατα 6 2 Η σύγκριση της µέσης τιµής µιας οµάδας παρατηρήσεων µε κάποια καθορισµένη τιµή. 6 2.1 Μεγάλο δείγµα: ο έλεγχος-ζ µιας οµάδας 6 2.2 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µεγάλο. 7 2.3 Ο έλεγχος-t µιας οµάδας (single-sample t-test) 8 2.4 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µικρό. 9 3 ύο σχετιζόµενες οµάδες 10 3.1 Παρατηρήσεις κατά ζεύγη 10 3.2 Η δοκιµασία t-test & Ε για παρατηρήσεις κατά ζεύγη 10 3.3 Μη παραµετρικοί έλεγχοι: οι δοκιµασίες Sign test & Wilcoxon signed ranks test 11 4 Η σύγκριση δύο ανεξάρτητων οµάδων 13 4.1 t-test για ανεξάρτητα (µη-σχετιζόµενα) δείγµατα 13 4.2 Ε για τη διαφορά µεταξύ δύο µέσων τιµών. 14 4.3 Μη παραµετρικοί έλεγχοι: Mann-Whitney test και Wilcoxon rank sum test. 15 5 Συγκρίσεις µε περισσότερες από δύο οµάδες 16 5.1 One-way ANOVA 16 5.2 Μη παραµετρικός έλεγχος: η δοκιµασία Kruskal-Wallis 18 6 Ο έλεγχος στατιστικής υπόθεσης: σφάλµατα & ισχύς (power) 19 7 Τι είναι προτιµότερο, η τιµή p ή το διάστηµα εµπιστοσύνης; 20 8 Μετασχηµατισµοί 20 9 Βιβλιογραφία 22 10 Παραρτήµατα 22 10.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία 22 10.2 Παράρτηµα 2. Η τυπική κανονική κατανοµή. 23 10.3 Παράρτηµα 3. Η κατανοµή t και οι πίνακες της κατανοµής t. 23 10.4 Παράρτηµα 4. Τύποι των στατιστικών κριτηρίων ελέγχου που ακολουθούν την t κατανοµή. 26 Οι παρούσες σηµειώσεις συνοδεύονται από σηµειώσεις σε µορφή διαφανειών. ΙΜοσχανδρέα 1
SPSS διαδροµές Σελίδα Σύγκριση µιας οµάδας παρατηρήσεων µε κάποια καθορισµένη τιµή: t-test 8 Υπολογισµός του Ε για µια µέση τιµή. 9 Σύγκριση δύο σχετιζόµενων οµάδων: paired samples t-test 10 Σύγκριση δύο σχετιζόµενων οµάδων: Wilcoxon signed ranks test 12 Σύγκριση δύο ανεξάρτητων οµάδων: independent samples t-test 13 Σύγκριση δύο ανεξάρτητων οµάδων: Mann-Whitney test 15 Συγκρίσεις µε περισσότερες από δύο οµάδες: one-way ANOVA 16 Συγκρίσεις µε περισσότερες από δύο οµάδες: Kruskal-Wallis test 18 Μετασχηµατισµός 20 ΙΜοσχανδρέα 2
1. Εισαγωγή 1.1 Συµπερασµατολογική στατιστική Στην ενότητα «Περιγραφική στατιστική» είδαµε πώς µπορούµε να περιγράψουµε καλύτερα τα χαρακτηριστικά του δείγµατός µας. Συνήθως όµως δεν µας ενδιαφέρει τόσο η συγκεκριµένη οµάδα ατόµων, όσο ο ευρύτερος πληθυσµός των ατόµων που αντιπροσωπεύονται από το δείγµα. H συλλογή των παρατηρήσεων του δείγµατος γίνεται µε σκοπό την εξαγωγή συµπερασµάτων που αφορούν παραµέτρους όπως η πληθυσµιακή µέση τιµή (µ), το ποσοστό του πληθυσµού (π) κ.τ.λ. O στόχος της στατιστικής ανάλυσης είναι να χρησιµοποιηθούν οι πληροφορίες που υπάρχουν από το δείγµα για να βγουν συµπεράσµατα για τον σχετικό πληθυσµό. Αυτές τις πληροφορίες τις παίρνουµε χρησιµοποιώντας της µεθόδους της συµπερασµατολογικής στατστικής ή αλλιώς στατιστικής επαγωγής (statistical inference). Υπάρχουν πολλοί τρόποι στατιστικής ανάλυσης διαφόρων ειδών δεδοµένων αλλά ουσιαστικά οι διαδικασίες είναι δύο: α) η εκτιµητική (estimation) και β) ο έλεγχος στατιστικής υπόθεσης (hypothesis testing, βλ. 1.3). Έχοντας πάρει ένα τυχαίο δείγµα από τον πληθυσµό, µπορούµε να εκτιµήσουµε την παράµετρο που µας ενδιαφέρει βρίσκοντας την τιµή µιας στατιστικής συνάρτησης (ή στατιστικής), η οποία λέγεται σηµειακή εκτίµηση (point estimate). Υπάρχει η δυνατότητα να βγάλουµε συµπεράσµατα για τον πληθυσµό χρησιµοποιώντας µόνο πληροφορίες από το δείγµα µας. Βρίσκουµε τη δειγµατοληπτική κατανοµή (sampling distribution) της εκτίµησης (π.χ. της µέσης τιµής), δηλαδή εκτιµούµε την κατανοµή των µέσων τιµών που θα βρίσκαµε αν παίρναµε όλα τα δυνατά δείγµατα από τον πληθυσµό. Ένα µέτρο της ακρίβειας της εκτίµησής µας δίνεται από την τυπική απόκλιση της δειγµατοληπτικής κατανοµής (των µέσων τιµών). Αυτή η τυπική απόκλιση ονοµάζεται τυπικό σφάλµα (ΤΣ) της εκτίµησης. 1.2 ιαστήµατα εµπιστοσύνης Το τυπικό σφάλµα της εκτίµησης της παραµέτρου µπορούµε να το συµπεριλάβουµε σε µια εκτίµηση διαστήµατος (interval estimate) για την παράµετρο του πληθυσµού: υπολογίζουµε ένα διάστηµα εµπιστοσύνης, Ε (confidence interval, CI).To Ε µας δίνει ένα εύρος τιµών µέσα στο οποίο αναµένεται να βρίσκεται η (άγνωστη) τιµή της παραµέτρου του πληθυσµού. Στην ερµηνεία των διαστηµάτων εµπιστοσύνης µας ενδιαφέρει: 1) το εύρος του διαστήµατος. Όσο µειώνεται το εύρος, τόσο πιο ακριβής είναι η εκτίµηση της µέσης τιµής. Οι παράγοντες που επηρεάζουν το εύρος του.ε. είναι το µέγεθος του δείγµατος και η µεταβλητότητα του υπο-µελέτη χαρακτηριστικού. Οπότε µια µικρή µελέτη ενός χαρακτηριστικού µε µεγάλη µεταβλητότητα θα έχει ευρύτερο.ε. από µία µεγάλη µελέτη ενός χαρακτηριστικού µε µικρή µεταβλητότητα. 2) η πιθανή κλινική σηµασία του κατώτερου και ανώτερου ορίου. Από το κατώτερο και ανώτερο όριο µπορεί να φανεί εάν τα αποτελέσµατα είναι κλινικά σηµαντικά. 3) το εάν συµπεριλαµβάνει κάποιες τιµές που έχουν ιδιαίτερη σηµασία. 1.3 Ο έλεγχος στατιστικής υπόθεσης. 1.3.1 Η γενική διαδικασία Σχηµατίζουµε µία υπόθεση για τον πληθυσµό που µας ενδιαφέρει και παίρνουµε ένα δείγµα για να ζυγίσουµε τις αποδείξεις εναντίον αυτής της υπόθεσης. Η τεχνική αυτή λέγεται έλεγχος στατιστικής υπόθεσης (hypothesis testing) ή έλεγχος σηµαντικότητας (significance testing). Η γενική διαδικασία είναι η εξής: 1. Σχηµατισµός της µηδενικής υπόθεσης (Η 0 ) και της εναλλακτικής της υπόθεσης. 2. Έλεγχος των προϋποθέσεων της στατιστικής δοκιµασίας. 3. Ορισµός του επιπέδου στατιστικής σηµαντικότητας (α) 4. Συλλογή δεδοµένων. 5. Υπολογισµός της τιµής του στατιστικού κριτηρίου ελέγχου (test statistic) που αντιστοιχεί στη συγκεκριµένη Η 0. 6. Σύγκριση της τιµής του κριτηρίου ελέγχου µε τιµές από µια γνωστή κατανοµή πιθανοτήτων. Εύρεση της πιθανότητας να προκύψει, όταν η Η 0 αληθεύει, µια τιµή του στατιστικού δείκτη ελέγχου που είναι όσο ή και περισσότερο ακραία από την παρατηρηµένη τιµή. 7. Ερµηνεία της τιµής p. ΙΜοσχανδρέα 3
1.3.2 Η µηδενική υπόθεση Η µηδενική υπόθεση (null hypothesis H 0 ) διαφέρει ανάλογα µε τον στατιστικό έλεγχο στον οποίο εφαρµόζεται. Η H 0 είναι η υπόθεση της έλλειψης επίδρασης 1 (effect) στον πληθυσµό. π.χ. έλλειψη διαφοράς µεταξύ µέσων τιµών, έλλειψη συσχέτισης µεταξύ µεταβλητών. Για παράδειγµα, αν µας ενδιαφέρει να συγκρίνουµε τους ρυθµούς επίπτωσης του καρκίνου του πνεύµονα σε άνδρες και γυναίκες η Η 0 είναι ότι ο µέσος ρυθµός επίπτωσης του καρκίνου του πνεύµονα δεν διαφέρει µεταξύ ανδρών και γυναικών (µ 1 =µ 2 ). Μπορούµε να ορίσουµε και µία εναλλακτική υπόθεση (Η 1 ), η οποία ισχύει όταν δεν ισχύει η Η 0. Σ αυτό το παράδειγµα Η 1 : ο µέσος ρυθµός επίπτωσης του καρκίνου του πνεύµονα διαφέρει µεταξύ ανδρών και γυναικών. Όταν δεν προσδιορίζεται κάποια κατεύθυνση (π.χ. δεν δηλώθηκε ότι αν ο ρυθµός επίπτωσης δεν είναι ίσος, τότε οι άνδρες θα έχουν αυξηµένο ρυθµό), η κατάλληλη δοκιµασία ονοµάζεται αµφίπλευρη (two-tailed test). Παλιότερα εφαρµοζόταν συχνά και ο µονόπλευρος έλεγχος (one-tailed test), δηλαδή η Η 1 έχει τη µορφή µ 1 >µ 2 (ή αλλιώς µ 1 <µ 2 ) και όχι µ 1 µ 2. Ο αµφίπλευρος έλεγχος είναι αυτός που συνιστάται στις περισσότερες περιπτώσεις, διότι συνήθως δεν µπορούµε να είµαστε σίγουροι εκ των προτέρων για την κατεύθυνση της διαφοράς. Ο αµφίπλευρος έλεγχος είναι πιο συντηρητικός (conservative) από τον µονόπλευρο, δηλαδή δεν απορρίπτουµε την Η 0 τόσο συχνά όσο µε τον µονόπλευρο έλεγχο. 1.3.3 Η τιµή p Η τιµή p είναι η πιθανότητα ότι θα βρούµε τα παρατηρούµενα αποτελέσµατα (τη διαφορά, τη συσχέτιση κ.τ.λ.), ή πιο ακραία αποτελέσµατα (µεγαλύτερη διαφορά, πιο στενή συσχέτιση), εφ όσον ισχύει η Η 0. Η τιµή p αντανακλά το µέγεθος της απόδειξης εναντίον της Η 0. Όσο µικρότερη είναι η τιµή p, τόσο περισσότερη απόδειξη υπάρχει εναντίον της Η 0. Για να βρούµε την τιµή p, υπολογίζουµε την τιµή ενός στατιστικού κριτηρίου ελέγχου (βλ. 1.3.5). Το κριτήριο αυτό διαφέρει ανάλογα µε τη στατιστική δοκιµασία που χρησιµοποιείται. Tο στατιστικό κριτήριο ακολουθεί κάποια γνωστή κατανοµή πιθανοτήτων. Συγκρίνοντας την τιµή του στατιστικού κριτηρίου µε τη γνωστή κατανοµή, βρίσκουµε την τιµή p. Η τιµή p είναι ίση µε το εµβαδόν στις ουρές της κατανοµής πιθανότητας. Σχετικές γραφικές παραστάσεις δίνονται στα Παραρτήµατα 2 & 3 (όπου οι πιθανότητες συµβολίζονται µε α/2). Εάν επαναλάβουµε τη δειγµατοληψία πολλές φορές (Ν φορές, Ν>1.000) και εφαρµόσουµε επανειληµµένως τη στατιστική δοκιµασία για τον έλεγχο της υπόθεσης που µας ενδιαφέρει, τότε η τιµή p αντιστοιχεί στην αναλογία των περιπτώσεων που οι τιµές του στατιστικού κριτηρίου ελέγχου θα ήταν ίδιες µε, ή µεγαλύτερες από, την τιµή που βρέθηκε αρχικά. 1.3.4 Το επίπεδο σηµαντικότητας Η πιθανότητα που επιλέγεται σαν όριο (cut-off) κάτω του οποίου απορρίπτεται η µηδενική υπόθεση ορίζεται πριν τη συλλογή των δεδοµένων, συµβολίζεται µε το γράµµα α και ονοµάζεται επίπεδο σηµαντικότητας (significance level). Συµβατικά επιλέγεται το α= 0,05, ή 5%, και λέµε ότι εάν η τιµή p είναι µικρότερη του 0,05 τότε οι ενδείξεις είναι αρκετές για να απορρίψουµε την Η 0. Παραδείγµατος χάριν, αν η σύγκριση που ενδιαφέρει είναι η σύγκριση 2 µέσων τιµών, τότε p>0,05: δεν υπάρχει απόδειξη διαφοράς µεταξύ των µέσων τιµών. εν απορρίπτεται η Η 0. p µεταξύ 0,01 και 0,05: υπάρχει κάποια απόδειξη διαφοράς. p µεταξύ 0,001 και 0,01: υπάρχει ισχυρή απόδειξη διαφοράς. p µικρότερο από 0,001: υπάρχει πολύ ισχυρή απόδειξη διαφοράς. 1 Χρησιµοποιώντας τη λέξη «επίδραση», εννοώ την αριθµητική τιµή που αντιστοιχεί στη σύγκριση που ενδιαφέρει. π.χ. η διαφορά µεταξύ δύο µέσων τιµών. ΙΜοσχανδρέα 4
Όταν παρουσιάζουµε τα αποτελέσµατα µιας ανάλυσης είναι προτιµότερο να παρουσιάζεται η ακριβής τιµή p διότι προσφέρει περισσότερη πληροφορία από το όριο π.χ. p=0,048 αντί για p<0,05 και p=0,15 αντί για p>0,05. Όταν χρησιµοποιούσαµε πίνακες για να βρούµε τις τιµές p, τότε χρησιµοποιόντουσαν τα όρια, αλλά στη σηµερινή εποχή τα στατιστικά πακέτα έχουν τη δυνατότητα να µας δίνουν την ακριβή τιµή σε ελάχιστα δευτερόλεπτα. Η µόνη περίπτωση όπου πρέπει να παρουσιάζεται η ανισότητα είναι όταν η τιµή είναι πολύ µικρή, δηλαδή <0,0001. Όταν απορρίπτουµε την Η 0 λέµε ότι το αποτέλεσµα είναι στατιστικά σηµαντικό (statistically significant). Αν οι αποδείξεις δεν είναι αρκετές για να απορρίψουµε την Η 0, δεν σηµαίνει ότι η Η 0 αληθεύει. Αν απορριφθεί η Η 0 όταν στην πραγµατικότητα ισχύει, τότε έχει γίνει σφάλµα τύπου Ι (type I error). Η α είναι η πιθανότητα ότι θα γίνει σφάλµα τύπου Ι. ΣΗΜΕΙΩΣΗ H διαφορά µεταξύ του επίπεδου σηµαντικότητας α και της τιµής p είναι ότι το α ορίζεται από τον ερευνητή ΠΡΙΝ την στατιστική επεξεργασία των δεδοµένων ενώ η τιµή p παρατηρείται ΜΕΤΑ την ολοκλήρωση της µελέτης και βασίζεται στο παρατηρούµενο αποτέλεσµα. 1.3.5 Το στατιστικό κριτήριο ελέγχου. Το στατιστικό κριτήριο ελέγχου (η στατιστική συνάρτηση ελέγχου, test statistic) είναι µία ποσότητα που υπολογίζεται από τα δεδοµένα και χρησιµοποιείται για να ελεγχθεί η µηδενική υπόθεση. Το κριτήριο ελέγχου αλλάζει ανάλογα µε την µηδενική υπόθεση, και τον έλεγχο που θα εφαρµοστεί. Ας πάρουµε το παράδειγµα όπου έχουµε ένα µεγάλο δείγµα µεγέθους n και µια µεταβλητή µε δειγµατική µέση τιµή x και η Η 0 είναι ότι η µέση τιµή του πληθυσµού είναι µ 0. Η τυπική απόκλιση είναι σ 0. Η δειγµατοληπτική κατανοµή της µέσης τιµής θα είναι κανονική µε µ.τ. µ 0 και ΤΑ σ 0 / n. Μπορούµε να ορίσουµε το κριτήριο x µ 0 Z =. σ 0 / n Εφ όσον ισχύει η Η 0, η Ζ θα έχει κανονική κατανοµή µε µ.τ. 0 και ΤΑ 1, δηλαδή θα έχει µια τυπική κανονική κατανοµή (τκκ, standard normal distribution). Περισσότερες λεπτοµέρειες για την τκκ δίνονται στο Παράρτηµα 2. Γνωρίζουµε 2 ότι η πιθανότητα η x να είναι έξω από το διάστηµα µ 0 1,96σ 0 / n έως µ 0 + 1,96σ 0 / n είναι 0,05. Η τιµή Ζ θα είναι µικρότερη από 1,96 ή µεγαλύτερη από 1,96 όταν η µέση τιµή x είναι έξω από το παραπάνω διάστηµα. Αν το επίπεδο σηµαντικότητας είναι το 5%, τότε µια τέτοια τιµή x θεωρείται ότι είναι αρκετά µακριά από τη µ 0 ώστε να υπάρχει αµφιβολία για την εγκυρότητα της Η 0. Η Η 0 µπορεί να ισχύει, αλλά σ αυτήν την περίπτωση θα περιµέναµε να βρούµε µια διαφορά τέτοιου µεγέθους ή µεγαλύτερη µόνο µία φορά στις είκοσι (5%). Στο παρακάτω διάγραµµα (Εικόνα 1) φαίνονται 3 διαφορετικές περιπτώσεις. Πάνω αριστερά z=1,96 (δηλαδή p=0,05), πάνω δεξιά z>1,96 (δηλαδή p<0,05, το αποτέλεσµα είναι στατιστικά σηµαντικό σε επίπεδο 5%) και κάτω 1,96<z<1,96 (δηλαδή p>0,05 και το αποτέλεσµα δεν είναι στατιστικά σηµαντικό). Εικόνα 1. Έλεγχοι στατιστικών υποθέσεων µε επίπεδο σηµαντικότητας 5%, που βασίζονται στο τυπικό κανονικό κριτήριο Ζ. Αναπαραγωγή από τους Armitage & Berry σελίδα 96. 2 Το 95% των τιµών θα είναι µέσα σε διάστηµα +/- 1,96ΤΑ από τη µέση τιµή (Περιγραφική Στατιστική). ΙΜοσχανδρέα 5
Όποια και να είναι η µηδενική υπόθεση, η τιµή του κριτηρίου ελέγχου συγκρίνεται µε την γνωστή κατανοµή που αναµένουµε όταν ισχύει η Η 0. Η γενική µορφή του κριτηρίου ελέγχου εκφράζεται σε σχέση µε την παρατηρούµενη τιµή της ποσότητας που ενδιαφέρει (π.χ. τη διαφορά µεταξύ 2 µέσων τιµών) και την αναµενόµενη τιµή όταν ισχύει η Η 0 (π.χ. µηδέν) και συχνά είναι ο λόγος της παρατηρούµενης ποσότητας προς το τυπικό σφάλµα. Κάποια παραδείγµατα δίνονται στο Παράρτηµα 4. Υπάρχουν και καταστάσεις όπου το κριτήριο ελέγχου παίρνει άλλη µορφή π.χ. στον έλεγχο προσήµων. 1.4 Παραµετρικοί και µη-παραµετρικοί έλεγχοι υποθέσεων. Έκτος από την εκτίµηση της ακρίβειας της µέτρησης που µας ενδιαφέρει, µπορούµε να συγκρίνουµε τη µέτρησή µας µε κάποια ορισµένη θεωρητική τιµή για να ερευνήσουµε κατά πόσον είναι πιθανό ότι η πραγµατική τιµή (στον πληθυσµό) είναι αυτή η θεωρητική τιµή. Ελέγχουµε τη στατιστική υπόθεση ότι η πραγµατική τιµή είναι αυτή που δηλώνουµε, και τη συγκρίνουµε µε την εκτίµηση. Γίνεται δηλαδή έλεγχος µιας υπόθεσης (hypothesis testing). Οι έλεγχοι που βασίζονται σε γνώσεις των κατανοµών (πιθανοτήτων) τις οποίες ακολουθούν τα δεδοµένα, είναι γνωστοί ως παραµετρικοί έλεγχοι (parametric tests). Όταν τα δεδοµένα δεν τηρούν τις προϋποθέσεις για την εφαρµογή παραµετρικών µεθόδων, µπορεί να εφαρµοστεί ένας έλεγχος από την οικογένεια των µη-παραµετρικών µεθόδων (non-parametric tests, λέγονται και distribution-free tests ή rank methods). Οι µη-παραµετρικές µέθοδοι γενικώς αντικαθιστούν τις παρατηρούµενες τιµές µε τις αντίστοιχες θέσεις τους (ranks), ταξινοµώντας τα δεδοµένα σε αύξουσα σειρά. εν χρειάζονται υποθέσεις για την ακριβή µορφή της κατανοµής των δεδοµένων. Οι µη-παραµετρικοί έλεγχοι είναι χρήσιµοι όταν το µέγεθος του δείγµατος είναι µικρό. Αλλά επειδή δεν χρησιµοποιούν πολλές πληροφορίες για τη µορφή της κατανοµής, δεν έχουν τόσο µεγάλη ισχύ, όσο οι παραµετρικοί έλεγχοι, στο να ανιχνεύσουν µια πραγµατική επίδραση (effect) π.χ. µια διαφορά µεταξύ δύο πληθυσµιακών µέσων τιµών. 1.5 Μεγάλα και µικρά δείγµατα Όταν το δείγµα είναι αρκετά µεγάλο (n>100 περίπου) τότε µπορούµε να υποθέσουµε ότι η δειγµατική µέση τιµή είναι µια παρατήρηση από µια κανονική δειγµατοληπτική κατανοµή (όπως είδαµε στην ενότητα είγµατα & Πληθυσµοί), και ότι το τυπικό σφάλµα που έχει υπολογιστεί είναι καλή εκτίµηση της ΤΑ αυτής της δειγµατοληπτικής κατανοµής. Αν υποθέσουµε επίσης ότι οι παρατηρήσεις είναι ανεξάρτητες, τότε µπορούµε να χρησιµοποιήσουµε την κανονική κατανοµή για να δηµιουργήσουµε διαστήµατα εµπιστοσύνης και να ελέγξουµε κάποια στατιστική υπόθεση. Υπολογίζεται το πηλίκο της διαφοράς δια του τυπικού σφάλµατος, που ονοµάζεται Ζ και συγκρίνεται µε την τ.κ.κ. Όταν όµως το δείγµα είναι σχετικά µικρό, τότε δεν µπορεί να χρησιµοποιηθεί η «κανονική µέθοδος για µεγάλα δείγµατα» (large sample normal method) γιατί δεν γνωρίζουµε εάν το τυπικό σφάλµα είναι ικανοποιητικά εκτιµηµένο ή όχι. Το SPSS δεν δίνει τη δυνατότητα να εφαρµοστεί ο έλεγχος Ζ στις διαδροµές Analyse -> Compare means. Όµως επειδή η κατανοµή t προσεγγίζει την κανονική όταν το δείγµα είναι µεγάλο, συνήθως χρησιµοποιούµε τον έλεγχο t ακόµα και όταν έχουµε µεγάλο δείγµα. 2. Η σύγκριση της µέσης τιµής µιας οµάδας παρατηρήσεων µε κάποια καθορισµένη τιµή. 2.1 Ο έλεγχος Ζ (Ζ test) Προϋποθέσεις: 1) το δείγµα είναι αρκετά µεγάλο (n>100 περίπου) ώστε η δειγµατοληπτική κατανοµή της Ζ να προσεγγίζει ικανοποιητικά την τυπική κανονική κατανοµή 2) Οι παρατηρήσεις είναι ανεξάρτητες.. Όταν πρόκειται για ένα µεγάλο δείγµα του οποίου η µ.τ. είναι να συγκριθεί µε κάποια µ.τ. µ 0 τότε µπορεί να χρησιµοποιηθεί η κανονική µέθοδος για µεγάλα δείγµατα που περιγράφτηκε στο 1.3.2, δηλαδή θεωρούµε ότι η ΤΑ σ 0 =s, υπολογίζουµε την τιµή του στατιστικού κριτηρίου Ζ όπου ΙΜοσχανδρέα 6
x µ Z = 0 και βρίσκουµε την πιθανότητα να βρεθεί µια τόσο µεγάλη ή πιο µεγάλη Ζ εφ όσον ισχύει s / n η Η 0. 2.2 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µεγάλο. Όταν το δείγµα είναι µεγάλο (n > 100 περίπου 3 ), τότε η δειγµατοληπτική κατανοµή της µέσης τιµής είναι η κανονική. Χρησιµοποιώντας τις ιδιότητες της κανονικής κατανοµής, µπορεί να βρεθεί το Ε για τη µέση τιµή. Γνωρίζουµε 4 ότι το 95% της κατανοµής των µέσων τιµών βρίσκεται σε απόσταση ± 2ΤΑ από τη µ.τ. του πληθυσµού, δηλαδή ± 2ΤΣ ή, για την ακρίβεια, ± 1,96ΤΣ, όπου το ΤΣ (τυπικό σφάλµα της µέσης τιµής) είναι η ΤΑ των µέσων τιµών (στη δειγµατοληπτική κατανοµή), δηλαδή σ/ n (όπου σ = η τυπική απόκλιση του χαρακτηριστικού στον πληθυσµό που εκτιµάται µε το s και n = το µέγεθος του δείγµατος). Όταν έχουµε ένα µοναδικό δείγµα (το οποίο είναι αντιπροσωπευτικό του πληθυσµού) το 95% Ε για τη µέση τιµή θα έχει τα παρακάτω όρια (λεπτοµέρειες δίδονται στο Παράρτηµα 2) : Κατώτερο όριο: µ.τ. του δείγµατος (1,96 επί σ/ n) Ανώτερο όριο: µ.τ. του δείγµατος + (1,96 επί σ/ n) σ ηλαδή x ± (1,96 ) n Αν µπορούσαµε να επαναλάβουµε τη δειγµατοληψία πολλές φορές και να υπολογίσουµε ένα Ε κάθε φόρα, τα διαστήµατα θα περιείχαν τη µ.τ. του πληθυσµού 95 φορές στις 100. Ένα παράδειγµα µε 10 δείγµατα δίνεται στην Εικόνα 3 παρακάτω, στην οποία φαίνεται ότι 1 από τα 10 διαστήµατα δεν περιέχει τη µ.τ. του πληθυσµού. Εικόνα 3. ιαστήµατα εµπιστοσύνης για τη µέση τιµή µιας κανονικής κατανοµής µε γνωστή ΤΑ από µια σειρά δειγµατοληψιών µε δείγµατα µεγέθους n (αναπαραγωγή από τους Armitage & Berry σελ 102). Ερµηνεία του 95% Ε: Έχουµε 95% σιγουριά ότι µέσα σε αυτό το εύρος των τιµών θα βρίσκεται η πραγµατική µέση τιµή του πληθυσµού. ΠΑΡΑ ΕΙΓΜΑ 1. Πάρθηκε ένα τυχαίο δείγµα 100 γυναικών από µεγάλη αγροτική περιοχή της Κίνας και µετρήθηκε το ύψος σώµατος των γυναικών. Η κατανοµή του ύψους φαίνεται περίπου κανονική. Η µέση τιµή του δείγµατος είναι 155,0 εκ και η ΤΑ 20 εκ. Ποιο είναι το 95% Ε για τη µέση τιµή του πληθυσµού; 3 Κάποιοι συγγραφείς αναφέρονται σε n>30 ή 40. 4 Από την ενότητα της Περιγραφικής Στατιστικής. ΙΜοσχανδρέα 7
Το Ε δίνεται από τον τύπο x ± ( 1,96ΤΣ) δηλαδή 155 ± 1,96 (ΤΑ/ n) 155 ± 1,96 (20/10) δηλαδή 155 ± 3,92. Οπότε, το 95% Ε είναι από 151,1 έως 158,9 εκ. (σε 1 δ.ψ.). Λέµε ότι «Έχουµε 95% σιγουριά ότι το µέσο ύψος γυναικών αυτής της αγροτικής περιοχής της Κίνας είναι µεταξύ 151,1 και 158,9 εκ.» 2.3 Ο έλεγχος-t για µία οµάδα (single-sample t-test) Προϋπόθεση: η µεταβλητή φαίνεται να έχει κανονική κατανοµή στον πληθυσµό. ΠΑΡΑ ΕΙΓΜΑ 2. Ζυγίστηκε ένα τυχαίο δείγµα 9 ποντικιών κατά τη γέννησή τους. Οι µητέρες είχαν ειδική δίαιτα πριν την εγκυµοσύνη. Οι τιµές ήταν 15,21,17,19,22,25,22,29 και 21g. Η κατανοµή του βάρους γέννησης είναι κανονική 5. Ο µέσος όρος του δείγµατος είναι 21,2 γρ και η ΤΑ 4,15 γρ (σε 2 δ.ψ.) {Μπορείτε να ελέγξετε τη µ.τ. & ΤΑ στο SPSS} Το µέσο βάρος γέννησης είναι 20 γραµµάρια σε ποντίκια στην κανονική δίαιτα. Είναι πιθανό ότι το µέσο βάρος του πληθυσµού (των ποντικιών µε µητέρα σε ειδική δίαιτα) είναι 20 γραµµάρια; Σκοπός είναι να ελέγξουµε εάν η (άγνωστη) µέση τιµή του πληθυσµού µπορεί να ισούται µε κάποια υποτιθέµενη τιµή µ 0. ηλώνουµε τη µηδενική υπόθεση (Η 0 ) και την εναλλακτική υπόθεση (Η 1 ). Εδώ Η 0 : µ=µ 0, Η 1 : µ µ 0. Εφαρµόζοντας τον έλεγχο t για µία οµάδα (single-sample t-test), υπολογίζουµε την πιθανότητα ότι βρίσκουµε τη συγκεκριµένη εκτίµηση της µ.τ. (ή κάποια πιο διαφορετική εκτίµηση), υποθέτοντας ότι η Η 0 αληθεύει. Όπως αναφέρθηκε παραπάνω, συµβατικά όταν p>0,05 θωρούµε ότι δεν υπάρχει αρκετή απόδειξη για να απορρίψουµε την Η 0 (βλ. 1.3.2). ηλαδή, όταν η πιθανότητα να βρούµε τα συγκεκριµένα αποτελέσµατα είναι πάνω από 5%, δεν απορρίπτουµε την Η 0 (αποδεχόµαστε τη Η 0 ). Λεπτοµέρειες για το πώς διεξάγεται η δοκιµασία δίνονται στο Παράρτηµα 4. Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare means One-Sample T Test... ΠΑΡΑ ΕΙΓΜΑ 2 (συν). SPSS output To SPSS δίνει την ακριβή πιθανότητα p=0.402. ηλαδή εφ όσον ισχύει η Η 0, η πιθανότητα ότι θα βρίσκαµε αυτά τα αποτελέσµατα (ή µια ακόµη µεγαλύτερη διαφορά από το 1,2) είναι 40%. Συνεπώς, δεν απορρίπτεται η Η 0. 5 Εδώ θεωρώ γνωστό ότι η κατανοµή είναι κανονική. 9 παρατηρήσεις είναι λίγες για να βγάλουµε συµπέρασµα για την µορφή της κατανοµής. ΙΜοσχανδρέα 8
Προϋπόθεση για την εφαρµογή του έλεγχου t είναι ότι η κατανοµή της µεταβλητής είναι κανονική. Ο έλεγχος t θεωρείται όµως αρκετά ανθεκτικός (robust). ηλαδή, τα αποτελέσµατα δεν επηρεάζονται εύκολα από κάποια µικρή διαφοροποίηση από την κανονική κατανοµή. Όταν όµως είναι εµφανές ότι η κατανοµή της µεταβλητής δεν είναι κανονική, δεν πρέπει να εφαρµοστεί ο έλεγχος t. ύο άλλες προσεγγίσεις χρησιµοποιούνται όταν η κατανοµή δεν είναι κανονική: 1) ο µετασχηµατισµός της µεταβλητής ώστε να πλησιάζει η κατανοµή την κανονική (όπως περιγράφεται στην παράγραφο 8 παρακάτω) ή 2) η εφαρµογή κάποιας δοκιµασίας που δεν απαιτεί την κανονικότητα, δηλαδή κάποιας µηπαραµετρικής δοκιµασίας. Οι µη-παραµετρικοί µέθοδοι που µπορούν να εφαρµοστούν όταν πρόκειται για µια οµάδα παρατηρήσεων όπου η µεταβλητή δεν φαίνεται να ακολουθεί κανονική κατανοµή, είναι το sign test ή το Wilcoxon signed ranks test. Αυτοί οι έλεγχοι περιγράφονται στην παράγραφο 3.2 παρακάτω. 2.4 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µικρό. Όταν µια µεταβλητή ακολουθεί κανονική κατανοµή, τότε η µέση τιµή του δείγµατος ακολουθεί κανονική κατανοµή. Όταν όµως το δείγµα είναι µικρό (n < 100), δεν µπορούµε να υποθέσουµε ότι η TA του δείγµατος (s) θα πλησιάζει τη σ, οπότε δεν ξέρουµε εάν το s 2 /n είναι καλή εκτίµηση της σ 2 /n. s Αλλά έχει αποδειχθεί ότι ο λόγος x ακολουθεί την κατανοµή t µε (n-1) βαθµούς ελευθερίας 6. Σε n αυτή την περίπτωση, το 95% Ε για τη µέση τιµή έχει τη µορφή: Κατώτερο όριο: µ.τ. του δείγµατος (t 0,05 επί ΤΣ) Ανώτερο όριο: µ.τ. του δείγµατος + (t 0,05 επί ΤΣ). ηλαδή x ± ( t 0, 05ΤΣ) όπου το ΤΣ=s/ n και το t 0,05 είναι το εκατοστιαίο σηµείο της κατανοµής t µε n-1 βαθµούς ελευθερίας που δίνει αµφίπλευρη 6 πιθανότητα 0,05. Η κατανοµή t δίνει ένα κάπως πιο ευρύ Ε από αυτό που δηµιουργείται µε τη χρήση της κανονικής κατανοµής, αντανακλώντας έτσι την αβεβαιότητα της εκτίµησης της ΤΑ της µεταβλητής στον πληθυσµό. Όσο αυξάνεται το µέγεθος του δείγµατος, τόσο οι διαφορές µεταξύ της κατανοµής t και της κανονικής κατανοµής (και εποµένως η διαφορά των δύο διαστηµάτων) λιγοστεύουν. Όταν το δείγµα είναι µεγάλο, οι διαφορές είναι µηδαµινές. ΣΥΜΠΕΡΑΣΜΑ Όταν η µεταβλητή έχει κανονική κατανοµή, η κατανοµή t µπορεί να χρησιµοποιηθεί για τη δηµιουργία ενός.ε., ανεξαρτήτως µεγέθους δείγµατος. Συµβατικά χρησιµοποιούµε τα 95% Ε. Μπορούµε όµως να υπολογίσουµε κι άλλα διαστήµατα π.χ. το 99%.Ε. Σε αυτές τις περιπτώσεις αντί να πολλαπλασιάσουµε µε τη τιµή που αντιστοιχεί σε αµφίπλευρη πιθανότητα 0,05 χρησιµοποιούµε την τιµή που αντιστοιχεί στην πιθανότητα που µας ενδιαφέρει π.χ. p=0,01 για ένα 99%.Ε.. Στο SPSS 14.0, ένα 95% Ε για τη µέση τιµή δίνεται µε τη διαδροµή Analyze Descriptive Statistics Explore... Για να βρείτε ένα Ε µε άλλο επίπεδο εµπιστοσύνης (πχ 99%), ακολουθήσετε την ίδια διαδροµή αλλά επιλέξετε το κουτί Statistics και γράψετε το ποσοστό που θέλετε στο κουτί που αντιστοιχεί στο Confidence Interval For Mean 6 Περισσότερες λεπτοµέρειες στο Παράρτηµα 3. ΙΜοσχανδρέα 9
ΠΑΡΑ ΕΙΓΜΑ 3 7. ιαφορά σε πρόσληψη πρωτεΐνης. Ως µέρος µιας διαχρονικής µελέτης παρέµβασης σε παιδιά, αρχικά της πρώτης τάξης του δηµοτικού (το 1992), µία τυχαία υπο-οµάδα παιδιών συµπλήρωσε ένα 3ηµερο ηµερολόγιο καταγραφής ζυγισµένων τροφίµων, από το οποίο εκτιµήθηκε η διαιτολογική πρόσληψη µακρο- και µικροθρεπτικών συστατικών σε παιδιά της 1 ης και της 6 ης τάξης του δηµοτικού. 42 αγόρια είχαν µετρήσεις. Υπολογίστηκε η διαφορά στην πρόσληψη πρωτεΐνης (σαν ποσοστό ενέργειας) µεταξύ των δύο περιόδων. Η κατανοµή της διαφοράς στην πρόσληψη πρωτείνης φαίνεται περίπου κανονική. Η µέση τιµή είναι 0,78 %En, η ΤΑ 3,72 %En. Ποιο είναι το 95% Ε για τη µέση διαφορά στην πρόσληψη πρωτείνης; SPSS: το 95% Ε είναι από -0,4 µέχρι 1,9 %En. Με το χέρι, έχουµε 42-1=41 β.ε. Οπότε t 0,05 =2,02 και το 95% Ε x ± t 0 ΤΣ) είναι 0,78 ±(2,02*3,72/ 42) = από -0,4 µέχρι 1,9 %En. Ερµηνεία: Έχουµε 95% σιγουριά ότι η µέση διαφορά στην πρόσληψη πρωτεϊνών σαν % ενέργειας στα αγόρια µεταξύ της 1 ης και 6 ης τάξης βρίσκεται µεταξύ -0,4 και 1,9 %Εn. Πόσο διαφορετικό θα ήταν το 95% Ε αν είχαµε χρησιµοποιήσει το 1,96; (, 05 3. ύο σχετιζόµενες οµάδες 3.1 Παρατηρήσεις κατά ζεύγη ύο οµάδες παρατηρήσεων θεωρούνται ότι είναι κατά ζεύγη (paired) όταν µετρούν την ίδια µεταβλητή. Οι µετρήσεις µπορεί να γίνονται: 1) στο ίδιο άτοµο, αλλά κάτω από διαφορετικές συνθήκες π.χ. πριν και µετά από κάποια θεραπεία. 2) στο ίδιο άτοµο την ίδια χρονική περίοδο άλλα π.χ. σε 2 διαφορετικά µέρη του σώµατος ή σε κάθε µάτι. 3) σε άτοµα που έχουν «ταιριαστεί» (matched) ένα προς ένα µε άλλα άτοµα π.χ. συχνά επιλέγουµε άτοµα της ίδιας ηλικίας και του ιδίου φύλου για την οµάδα «ελέγχου». Το πλεονέκτηµα του να έχουµε παρατηρήσεις κατά ζεύγη είναι ότι µπορούµε να κάνουµε τις συγκρίσεις που ενδιαφέρουν εξετάζοντας µόνο τις διαφορές εντός-ατόµων (within-subject differences) και αγνοώντας τη µεταβλητότητα µεταξύ ατόµων (between-subject variability). Η µεταβλητότητα µεταξύ ατόµων θα µπορούσε µάλιστα να «κρύψει» τα αποτελέσµατα (effects) που µας ενδιαφέρουν. Εδώ εξετάζουµε τη διαφορά µεταξύ των δύο παρατηρήσεων του κάθε ατόµου και τη µεταβλητότητα αυτών των διαφορών. 3.2 T-test για παρατηρήσεις κατά ζεύγη Ένας κατάλληλος παραµετρικός έλεγχος όταν πρόκειται για παρατηρήσεις κατά ζεύγη ονοµάζεται έλεγχος t για παρατηρήσεις κατά ζεύγη (paired t-test). Η προϋπόθεση για την εφαρµογή του ελέγχου είναι ότι οι διαφορές µεταξύ των παρατηρήσεων έχουν κανονική κατανοµή. Σηµειώνεται ότι δεν είναι απαραίτητο η κατανοµή της µεταβλητής να είναι κανονική για να έχουν περίπου κανονική κατανοµή οι διαφορές. Η µηδενική υπόθεση είναι ότι η µέση διαφορά µεταξύ των δύο µετρήσεων είναι µηδέν. Λεπτοµέρειες για το πώς διεξάγεται η δοκιµασία δίνονται στο Παράρτηµα 4. Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare means Paired-Samples T Test... 7 Το SPSS αρχείο που περιέχει αυτά τα δεδοµένα ονοµάζεται boys9298.sav και η µεταβλητή diffprtper9892. Ελέγξετε ότι βγάζετε τα ίδια αποτελέσµατα. ΙΜοσχανδρέα 10
ΠΑΡΑ ΕΙΓΜΑ 4. Olive oil phenols Σε µια πειραµατική µελέτη της πιθανής επίδρασης των πολυφαινόλων του ελαιολάδου στα επίπεδα κάποιων µετρήσεων του αίµατος που σχετίζονται µε αντιοξειδωτική δράση (και είναι γνωστά ως «δείκτες οξείδωσης») εφαρµόστηκε τυχαία δειγµατοληψία για την επιλογή µιας οµάδας Ελλήνων καπνιστών. Τα άτοµα συµφώνησαν να λάβουν µέρος σε ένα πρόγραµµα διαιτητικής παρέµβασης όπου θα ελάµβαναν ελαιόλαδο χαµηλής και υψηλής περιεκτικότητας σε πολυφαινόλες. Το κάθε άτοµο κατανάλωσε 70γρ ελαιολάδου (είτε χαµηλής είτε υψηλής περιεκτικότητας σε πολυφαινόλες) ηµερησίως για 3 εβδοµάδες και µετά 70γρ ελαιολάδου (του άλλου τύπου) ηµερησίως για άλλες 3 εβδοµάδες. Έγιναν δύο αιµοληψίες, µια στο τέλος της κάθε (τρις-εβδοµαδιαίας) παρέµβασης. Σκοπός είναι να ερευνηθεί αν τα µέσα επίπεδα των δεικτών οξείδωσης του πλάσµατος διαφέρουν ανάλογα µε το εάν έχει καταναλωθεί ελαιόλαδο υψηλής ή χαµηλής περιεκτικότητας σε πολυφαινόλες (το αρχείο των δεδοµένων ονοµάζεται poloil.sav κι οι µεταβλητές rateh& ratel). Το αποτέλεσµα θα συγκριθεί µε το επίπεδο σηµαντικότητας 5%. Επειδή εξετάζουµε τις διαφορές µεταξύ των δύο τιµών, ουσιαστικά χρησιµοποιούµε τις τεχνικές ανάλυσης της µιας οµάδας παρατηρήσεων, ελέγχοντας αν η µέση διαφορά διαφέρει από το µηδέν. Μπορούµε να δηµιουργήσουµε και ένα.ε., όπως περιγράφεται στην παράγραφο 2.3, δηλαδή d d ± ( t 0, 05ΤΣ( d )), όπου d είναι η µέση διαφορά (δηλαδή i για i=1,2,...,n) και t 0,05 είναι το i n εκατοστιαίο σηµείο της κατανοµής t µε n-1 βαθµούς ελευθερίας. ΠΑΡΑ ΕΙΓΜΑ 4 (συν). Paired Samples Statistics Pair 1 rate ox high rate ox low Std. Error Mean N Std. Deviation Mean.1967 26.02078.00408.2031 26.01789.00351 Pair 1 rate ox high - rate ox low Paired Samples Test Paired Differences 95% Confidence Interval of the Std. Error Difference Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed) -.00635.01809.00355 -.01365.00096-1.789 25.086 Η τιµή p είναι 0,086. Οπότε η Η 0 δεν απορρίπτεται. εν υπάρχει απόδειξη ότι οι ρυθµοί οξείδωσης διαφέρουν ανάλογα µε την περιεκτικότητα σε πολυφαινόλες του ελαιολάδου που καταναλώθηκε. Το 95% Ε της διαφοράς είναι από -0,01365 έως 0,00096 µmol/l dienes/min. ΣΗΜΕΙΩΣΗ Όταν η τιµή p είναι µεγαλύτερη του 0,05, τότε το 95% Ε συµπεριλαµβάνει το 0. Όταν το δείγµα είναι µεγάλο (και οι παρατηρήσεις ανεξάρτητες), τότε µπορεί να χρησιµοποιηθεί η τκκ αντί για την κατανοµή t και στη δηµιουργία των Ε αλλά και στον έλεγχο υπόθεσης. 3.3 Μη παραµετρικοί έλεγχοι: οι δοκιµασίες Sign test & Wilcoxon signed ranks test Όταν οι διαφορές δεν φαίνεται να έχουν κανονική κατανοµή (ή ο αριθµός των παρατηρήσεων είναι πολύ µικρός για να παρθεί απόφαση για τη µορφή της κατανοµής), τότε µπορούν είτε να µετασχηµατιστούν τα δεδοµένα είτε να εφαρµοστεί ο µη-παραµετρικός έλεγχος προσήµων (sign test) ή ο µη-παραµετρικός έλεγχος του Wilcoxon για παρατηρήσεις κατά ζεύγη (Wilcoxon ΙΜοσχανδρέα 11
matched pairs signed ranks test) για να αξιολογηθεί το εάν οι διαφορές έχουν κεντρικό σηµείο το µηδέν ή όχι. H µηδενική υπόθεση στην εφαρµογή και των δύο ελέγχων είναι ότι η διάµεσος των διαφορών του πληθυσµού είναι 0. Εφαρµόζοντας τον έλεγχο πρόσηµων, συγκρίνεται η συχνότητα των αρνητικών τιµών µε τη συχνότητα των θετικών τιµών. εν λαµβάνεται υπ όψιν όµως το µέγεθος των διαφορών. π.χ. αν είναι 7 οι θετικές διαφορές και 3 οι αρνητικές, δεν έχει σηµασία εάν οι 3 είναι -1,-2 και -3 ή - 100,-200 και -300. Στη δοκιµασία του Wilcoxon για παρατηρήσεις κατά ζεύγη λαµβάνονται υπ όψιν και τα πρόσηµα και τα µεγέθη των διαφορών. Αυτός ο έλεγχος έχει περισσότερη ισχύ (power) από τον έλεγχο πρόσηµων στο να ανιχνεύσει µια διαφορά όταν αυτή πραγµατικά υπάρχει. Προϋπόθεση για την εφαρµογή του ελέγχου είναι ότι οι διαφορές µεταξύ ζευγών παρατηρήσεων προέρχονται από συµµετρική κατανοµή. Οι διαφορές τοποθετούνται στη σειρά ανάλογα µε το µέγεθός τους και βαθµολογούνται από το 1 (µικρότερη διαφορά) µέχρι m (µεγαλύτερη διαφορά). Οι µηδενικές διαφορές αγνοούνται (οπότε m n, όπου το n είναι το µέγεθος του δείγµατος). Υπό την µηδενική υπόθεση έλλειψης διαφοράς τα αθροίσµατα της σειράς των θέσεων (ranks) των θετικών και των αρνητικών διαφορών είναι ίδια. Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Nonparametric Tests 2 Related Samples... ΠΑΡΑ ΕΙΓΜΑ 5. Βαθµολόγηση φαρµάκου αϋπνίας Σε 10 άτοµα µε χρόνια αϋπνία δίδεται ένα φάρµακο για 3 εβδοµάδες και µετά από 1 µήνα (wash-out) ένα δεύτερο φάρµακο για 3 εβδοµάδες. Τα άτοµα βαθµολογούν τα 2 φάρµακα (µε πιθανές τιµές από 0 έως 40). Α Β διαφορά 33 36-3 24 24 0 37 20 17 11 12-1 12 14-2 22 36-14 24 26-2 16 17-1 20 21-1 15 18-3 Υπάρχουν 8 διαφορές < 0, 1 διαφορά =0 και 1 διαφορά >0. Test Statistics b Exact Sig. (2-tailed) B - A.039 a a. Binomial distribution used. b. Sign Test Το sign test δίνει πιθανότητα 0,039. Οπότε απορρίπτουµε τη Η 0 σε επίπεδο σηµαντικότητας 5%. Υπάρχει κάποια απόδειξη ότι οι ασθενείς προτιµούν τη Β θεραπεία. Το output για τη δοκιµασία του Wilcoxon είναι: ΙΜοσχανδρέα 12
Ranks B - A a. B < A b. B > A c. B = A Negative Ranks Positive Ranks Ties Total N Mean Rank Sum of Ranks 1 a 9.00 9.00 8 b 4.50 36.00 1 c 10 Z Test Statistics b Asymp. Sig. (2-tailed) a. Based on negative ranks. B - A -1.608 a.108 b. Wilcoxon Signed Ranks Test H δοκιµασία του Wilcoxon δίνει p=0,108. εν απορρίπτεται η Η 0 (σε επίπεδο 5%). Σ αυτή την περίπτωση οι 2 έλεγχοι δεν συµφωνούν. Κοιτάζοντας τα δεδοµένα προσεκτικά, µπορείτε να καταλάβετε γιατί; 4. ύο ανεξάρτητες (µη-σχετιζόµενες) οµάδες Η πιο συνηθισµένη στατιστική ανάλυση σε κλινικές µελέτες και σε µελέτες παρατήρησης αφορά τη σύγκριση δύο ανεξάρτητων οµάδων παρατηρήσεων. 4.1 t-test για δύο ανεξάρτητα (µη-σχετιζόµενα) δείγµατα Προϋπόθεση: η µεταβλητή έχει κανονική κατανοµή στον πληθυσµό της κάθε οµάδας και οι διακυµάνσεις στους δύο πληθυσµούς είναι ίδιες. Τα δείγµατα πρέπει να είναι αρκετά µεγάλα ώστε να µπορούν να ελεγχθούν οι υποθέσεις της κανονικής κατανοµής και των ίσων διακυµάνσεων. Η Η 0 είναι ότι οι µέσες τιµές στους πληθυσµούς των 2 οµάδων είναι ίσες. Εξετάζεται η διαφορά των µέσων τιµών. Η 0 : µ 1 -µ 2 =0. Η 1 : µ 1 -µ 2 0 Ο έλεγχος γίνεται µε τον υπολογισµό µιας στατιστικής συνάρτησης ελέγχου (test statistic) που βασίζεται στη διαφορά µεταξύ των µ.τ. των 2 δειγµάτων x1 x2, και στην υποτιθέµενη διαφορά µεταξύ των 2 µ.τ. των πληθυσµών (δηλαδή 0). Όταν αληθεύει η Η 0, η συνάρτηση αύτη ακολουθεί την κατανοµή t µε (n 1 +n 2-2) β.ε.. Λεπτοµέρειες για το πώς διεξάγεται η δοκιµασία δίνονται στο Παράρτηµα 4. Όπως και στους ελέγχους µιας µέσης τιµής και στη σύγκριση 2 σχετισµένων οµάδων, βρίσκουµε µια πιθανότητα (µια τιµή p) που συνδέεται µε την τιµή της στατιστικής συνάρτησης ελέγχου. Έτσι υπολογίζουµε την πιθανότητα του να βρούµε την παρατηρούµενη διαφορά (ή κάποια ακόµη µεγαλύτερη διαφορά µεταξύ µέσων τιµών) εφ οσον η Η 0 ισχύει. Όπως και για τους άλλους ελέγχους που περιγράφτηκαν, συµβατικά επιλέγουµε ένα επίπεδο σηµαντικότητας 0,05 (5%). Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare means Independent-Samples T Test... ΙΜοσχανδρέα 13
Το SPSS εφαρµόζει τη δοκιµασία «Levene s test for equality of variances» της οποίας η Η 0 είναι ότι οι διακυµάνσεις είναι ίσες και κάνει κάποια τροποποίηση στη στατιστική συνάρτηση για να ληφθούν υπ όψιν οι διαφορές στις διακυµάνσεις. Όµως, επειδή οι άνισες διακυµάνσεις συχνά συνοδεύονται από λοξότητα στην κατανοµή, είναι προτιµότερο να εφαρµοστεί µη-παραµετρικός έλεγχος (ή κάποιος µετασχηµατισµός) εάν υπάρχει η υποψία ότι οι διακυµάνσεις διαφέρουν. ΠΑΡΑ ΕΙΓΜΑ 6. Καπνιστές & πρώην καπνιστές µε ΧΑΠ. Θέλουµε να συγκρίνουµε τα µέσα επίπεδα σπιροµέτρησης (FEV1%pred) σε πρώην καπνιστές (53 άτοµα) και καπνιστές (38 άτοµα) µε ΧΑΠ. Οι κατανοµές της FEV1 φαίνονται κανονικές. (το αρχείο δεδοµένων ονοµάζεται copd_all.sav). H 0 : οι µέσες τιµές της σπιροµέτρησης είναι ίδιες στους πληθυσµούς των καπνιστών και πρώην καπνιστών µε ΧΑΠ. Επιλέγουµε επίπεδο σηµαντικότητας 5%. Περιγραφικά στοιχεία: Group Statistics fev11pred smokstat 0 1 Std. Error N Mean Std. Deviation Mean 53 52.379 22.5669 3.0998 38 60.849 22.5814 3.6632 Levene s test for equality of variances p=0,889. εν υπάρχει καµία απολύτως απόδειξη ότι οι διακυµάνσεις δεν είναι ίσες.{φαίνεται άλλωστε από τις ίδιες τις ΤΑ που είναι και οι δύο 22,6 %pred}. Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means fev11pred Equal variances assumed Equal variances not assumed F Sig. t df Sig. (2-tailed).019.889-1.765 89.081-1.765 79.834.081 t-test: p=0,081. εν απορρίπτουµε την Η0. εν υπάρχει απόδειξη ότι οι µ.τ. τις FEV%pred διαφέρουν µεταξύ καπνιστών και πρώην καπνιστών. Σηµειώνεται και πάλι ότι όταν τα δείγµατα είναι µεγάλα (το καθένα >50) και οι παρατηρήσεις ανεξάρτητες, τότε µπορεί να εφαρµοστεί ο έλεγχος Ζ για δύο ανεξάρτητα δείγµατα (two sample Z test), ακόµα και όταν οι κατανοµές δεν είναι κανονικές. 4.2.Ε. για τη διαφορά µεταξύ δύο µέσων τιµών. Η προϋπόθεση για τη δηµιουργία του διαστήµατος είναι ίδια µε αυτή για την εφαρµογή του ελέγχου t για 2 ανεξάρτητα δείγµατα (στο 4.1), δηλαδή η µεταβλητή έχει κανονική κατανοµή στον πληθυσµό της κάθε οµάδας και οι διακυµάνσεις των δύο πληθυσµών είναι ίδιες. Το 95%.Ε. έχει τη µορφή x1 x2 ± ( ta ΤΣ( x1 x2 )) όπου το ΤΣ υπολογίζεται µε τον ίδιο τρόπο που δίνεται στο Παράρτηµα 4 για τον έλεγχο t για 2 ανεξάρτητα δείγµατα. ΙΜοσχανδρέα 14
ΠΑΡΑ ΕΙΓΜΑ 6 (συν). Καπνιστές & πρώην καπνιστές µε ΧΑΠ. Independent Samples Test fev11pred Equal variances assumed Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper -8.4700 4.7982-18.0039 1.0639 Εφαρµόζοντας τον έλεγχο t για ανεξάρτητα δείγµατα, δίνεται και το 95% Ε για τη διαφορά στις µ.τ Έχουµε 95% εµπιστοσύνη ότι η πραγµατική διάφορα στην µέση FEV1%pred κυµαίνεται από µια µείωση 1 µονάδας µέχρι µια αύξηση 18 µονάδων στους καπνιστές σε σχέση µε τους µη-καπνιστές, στους οποίους γίνεται διάγνωση ΧΑΠ. Όπως αναφέρθηκε και παραπάνω, όταν τα δείγµατα είναι µεγάλα (το καθένα >50) και οι παρατηρήσεις ανεξάρτητες, τότε το Ε µπορεί δηµιουργηθεί χρησιµοποιώντας της τιµές της τ.κ.κ. 4.3 Μη-παραµετρικοί έλεγχοι: Mann-Whitney test / Wilcoxon rank sum test Τα µη-παραµετρικά αντίστοιχα του έλεγχου t για ανεξάρτητα δείγµατα είναι το Mann-Whitney U test και το Wilcoxon rank sum test. Οι δύο αυτοί έλεγχοι έχουν διαφορετική προέλευση αλλά δίνουν ακριβώς τα ίδια αποτελέσµατα. εν υπάρχουν προϋποθέσεις για τη µορφή της κατανοµής. Η Η 0 είναι ότι οι δύο οµάδες έχουν την ίδια κατανοµή στον πληθυσµό (δηλαδή έρχονται από τον ίδιο πληθυσµό). Όπως και στις µη-παραµετρικές µεθόδους που αναφέρθηκαν στις παρ. 2.2.2 και 3.2, ο υπολογισµός του κριτηρίου έλεγχου βασίζεται όχι στις ίδιες τις παρατηρήσεις αλλά στη θέση που έχει η κάθε παρατήρηση σε σχέση µε τις άλλες (rank). Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Nonparametric Tests 2 Independent Samples... ΠΑΡΑ ΕΙΓΜΑ 7. Θέλουµε να συγκρίνουµε τις µέσες τιµές ινσουλίνης 12 αγοριών και 8 κοριτσιών προσχολικής ηλικίας από µια αγροτική περιοχή της Κρήτης. Η κατανοµή της ινσουλίνης δεν φαίνεται να είναι κανονική και οι διακυµάνσεις φαίνεται να διαφέρουν: η µ.τ. (ΤΑ) της ινσουλίνης είναι 6,2 (12,4) µiu/ml στα αγόρια και 6,1 (3,3) µiu/ml στα κορίτσια. Εφαρµόζοντας τον έλεγχο Mann-Whitney, έχουµε τα εξής αποτελέσµατα: ΙΜοσχανδρέα 15
Test Statistics b Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. b. Grouping Variable: sex insulin 35.500 113.500 -.965.335.343 a Η τιµή p είναι 0,34 οπότε δεν υπάρχει καµία απόδειξη ότι οι κατανοµές διαφέρουν µεταξύ αγοριών και κοριτσιών. Το αρχείο δεδοµένων ονοµάζεται Rouvas20.sav. 5. Συγκρίσεις µε περισσότερες από δύο οµάδες 5.1 One-way ANOVA Όταν υπάρχουν περισσότερα από δύο ανεξάρτητα δείγµατα στα οποία έχουν µετρηθεί οι τιµές µιας αριθµητικής µεταβλητής, η σύγκριση των µέσων τιµών µπορεί να γίνει µε τη δοκιµασία που ονοµάζεται ανάλυση διακύµανσης κατά µία διεύθυνση (one-way analysis of variance, one way ANOVA) 8. Προϋπόθεση: η µεταβλητή έχει κανονική κατανοµή στον πληθυσµό της κάθε οµάδας και οι διακυµάνσεις στους πληθυσµούς είναι ίδιες. Τα δείγµατα πρέπει να είναι αρκετά µεγάλα ώστε να µπορούν να ελεγχθούν οι υποθέσεις της κανονικής κατανοµής και των ίσων διακυµάνσεων. εν είναι απαραίτητο το κάθε δείγµα να έχει το ίδιο µέγεθος. Η Η 0 είναι ότι οι µέσες τιµές στους πληθυσµούς είναι ίσες. Η εναλλακτική υπόθεση είναι ότι τουλάχιστον µία µέση τιµή διαφέρει από τις άλλες. Ο έλεγχος γίνεται µε τον υπολογισµό µιας στατιστικής συνάρτησης ελέγχου η οποία είναι ο λόγος της διακύµανσης µεταξύ οµάδων προς την διακύµανση εντός οµάδων. Όταν αληθεύει η Η 0, η συνάρτηση αύτη ακολουθεί την κατανοµή F µε (k-1,n-1) β.ε. [k-1 στον αριθµητή και ν-1 στον παρανοµαστή], όπου το k είναι ο αριθµός τον οµάδων και το n είναι το συνολικό µέγεθος του δείγµατος. Όπως και στους άλλους ελέγχους, βρίσκουµε µια πιθανότητα (µια τιµή p) που συνδέεται µε την τιµή της στατιστικής συνάρτησης ελέγχου. Έτσι υπολογίζουµε την πιθανότητα του να βρούµε την παρατηρούµενη διαφορά (ή κάποια ακόµη µεγαλύτερη διαφορά µεταξύ µέσων τιµών) εφ οσον η Η 0 ισχύει. Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare Means One-way ANOVA... Εάν βρεθεί ένα στατιστικά σηµαντικό αποτέλεσµα, ίσως θελήσουµε να προχωρήσουµε σε post-hoc συγκρίσεις µεταξύ ζευγαριών οµάδων. Συχνά χρησιµοποιούνται οι έλεγχοι LSD και Bonferroni. 8 Η συνολική µεταβλητότητα των δεδοµένων χωρίζεται στην µεταβλητότητα που προέρχεται από διαφορές µεταξύ των ατόµων των διαφόρων οµάδων και στην τυχαία µεταβλητότητα µεταξύ ατόµων που είναι στην ίδια οµάδα. Αυτές οι συνιστώσες (components) της µεταβλητότητας µετρούνται χρησιµοποιώντας τις διακυµάνσεις (variances). εξ ου και η ονοµασία του έλεγχου. ΙΜοσχανδρέα 16
ΠΑΡΑ ΕΙΓΜΑ 8. Thrombocytosis patients Το αρχείο thrombo.sav 9 περιέχει δεδοµένα από 27 ασθενείς µε essential θροµβοκυττάρωση (ΕΤ), 52 µε reactive θροµβοκυττάρωση (RT) και 25 controls. Σκοπός είναι να εξετασθεί εάν τα µέσα επίπεδα της αιµοσφαιρίνης (Ηb, g/dl) διαφέρουν µεταξύ των 3 οµάδων. Οι κατανοµές φαίνονται περίπου κανονικές και οι διακυµάνσεις παρόµοιες. H 0 : οι µέσες τιµές της αιµοσφαιρίνης είναι ίδιες στους πληθυσµούς των τριών οµάδων. Επιλέγουµε επίπεδο σηµαντικότητας 5%. Περιγραφικά στοιχεία: Descriptives hb ET RT controls Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 27 13.330 1.4106.2715 52 11.035 1.7774.2465 10.540 11.529 6.4 15.6 25 14.776 1.0635.2127 14.337 15.215 13.1 16.9 104 12.530 2.2025.2160 12.101 12.958 6.4 16.9 ANOVA hb Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 259.658 2 129.829 54.636.000000 240.000 101 2.376 499.658 103 P<0,00001. Υπάρχει πολύ ισχυρή απόδειξη εναντίον της µηδενικής υπόθεσης. Απορρίπτεται η Η 0. Οι µέσες συγκεντρώσεις διαφέρουν µεταξύ οµάδων. Εφαρµόζοντας post-hoc συγκρίσεις Ελάχιστον Σηµαντικών ιαφορών κατά ζεύγη (pairwise Least Significant Difference), έχουµε τα εξής αποτελέσµατα: Dependent Variable: hb LSD Multiple Comparisons (I) group ET RT controls (J) group RT controls ET controls ET RT Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound 2.2950*.3657.000 1.570 3.020-1.4464*.4279.001-2.295 -.598-2.2950*.3657.000-3.020-1.570-3.7414*.3752.000-4.486-2.997 1.4464*.4279.001.598 2.295 3.7414*.3752.000 2.997 4.486 *. The mean difference is significant at the.05 level. Όλες οι συγκρίσεις κατά ζεύγη είναι στατιστικά σηµαντικές. 9 Τα δεδοµένα παραχωρήθηκαν από την κ Freda Passam. ΙΜοσχανδρέα 17
5.2 Μη-παραµετρικός έλεγχος: Κruskal-Wallis test Όταν οι κατανοµές δεν φαίνονται κανονικές, ή οι διακυµάνσεις δεν µπορούν να θεωρηθούν ίσες (ή ο αριθµός των παρατηρήσεων είναι πολύ µικρός για να παρθεί απόφαση για τη µορφή της κατανοµής), τότε µπορούν είτε να µετασχηµατιστούν τα δεδοµένα είτε να εφαρµοστεί ο αντίστοιχος µηπαραµετρικός έλεγχος του one-way ANOVA, ο οποίος είναι ο έλεγχος Κruskal-Wallis. Ο έλεγχος αυτός είναι η επέκταση του Wilcoxon rank sum test για περισσότερες από 2 οµάδες. εν υπάρχουν προϋποθέσεις για τη µορφή της κατανοµής. Η Η 0 είναι ότι όλες οι οµάδες έχουν την ίδια κατανοµή στον πληθυσµό. Όπως και στις µηπαραµετρικές µεθόδους που αναφέρθηκαν παραπάνω, ο υπολογισµός του κριτηρίου έλεγχου βασίζεται όχι στις ίδιες τις παρατηρήσεις αλλά στη θέση που έχει η κάθε παρατήρηση σε σχέση µε τις άλλες (rank). Στο SPSS 14.0, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Nonparametric Tests Κ Independent Samples... ΠΑΡΑ ΕΙΓΜΑ 8 (συν). Thrombocytosis patients Το αρχείο thrombo.sav περιέχει δεδοµένα από 27 ασθενείς µε essential θροµβοκυττάρωση (ΕΤ), 52 µε reactive θροµβοκυττάρωση (RT) και 25 controls. Σκοπός είναι να εξετασθεί εάν τα µέσα επίπεδα της Il-2 διαφέρουν µεταξύ των 3 οµάδων. H 0 : οι κατανοµές της Il-2 είναι ίδιες στους πληθυσµούς των τριών οµάδων. Επιλέγουµε επίπεδο σηµαντικότητας 5%. Περιγραφικά στοιχεία: Descriptive Statistics il2 group Percentiles N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75th 103 9.6045 2.47139 2.33 15.29 7.5350 9.6780 11.6390 104 1.98.710 1 3 1.00 2.00 2.00 Test Statistics a,b Chi-Square df Asymp. Sig. il2 2.005 2.367 a. Kruskal Wallis Test b. Grouping Variable: group p=0,367. εν υπάρχει απόδειξη ότι οι κατανοµές της ΙL2 διαφέρουν µεταξύ των 3 οµάδων. Εάν βρεθεί ένα στατιστικά σηµαντικό αποτέλεσµα, και θέλουµε να προχωρήσουµε σε post-hoc συγκρίσεις µεταξύ ζευγαριών οµάδων µπορούν να χρησιµοποιηθούν Mann-Whitney tests. 6. Ο έλεγχος στατιστικής υπόθεσης: σφάλµατα & ισχύς (power) Αναφέρθηκε στην 1.3.2 ότι εάν απορριφθεί η Η 0 όταν στην πραγµατικότητα ισχύει, τότε έχει γίνει σφάλµα τύπου Ι (type I error). Το επίπεδο σηµαντικότητας που ορίζουµε πριν την επεξεργασία των δεδοµένων, α, αντιστοιχεί στην πιθανότητα του να γίνει ένα σφάλµα τύπου Ι. Εάν αποδεχθεί η Η 0 όταν δεν ισχύει πραγµατικά, τότε έχει γίνει ένα σφάλµα τύπου ΙΙ (type II error), ή β σφάλµα, ΙΜοσχανδρέα 18
µε πιθανότητα β. Η ισχύς της µελέτης είναι 1-β και συνήθως εκφράζεται σαν ποσοστό. Η ισχύς είναι δηλαδή η πιθανότητα ότι (σωστά) θα απορριφθεί η Η 0, όταν αυτή δεν ισχύει πραγµατικά. Συνήθως θέλουµε η ισχύς να είναι τουλάχιστον 80%. Η ισχύς πρέπει να ορίζεται πριν την έναρξη της µελέτης. Είναι ηθικά ανεύθυνο να γίνει µία κλινική δοκιµή εάν η µελέτη έχει χαµηλή ισχύ π.χ. να υπάρχει µόνο 50% πιθανότητα να βρεθεί ένα στατιστικά σηµαντικό αποτέλεσµα ενώ η θεραπεία έχει πραγµατικά επίδραση (real treatment effect). Οι παράγοντες που επηρεάζουν την ισχύ της µελέτης είναι οι εξής: 1) To µέγεθος του δείγµατος. Όσο µεγαλύτερο είναι το δείγµα, τόσο περισσότερη είναι η ισχύς της µελέτης. 2) Η µεταβλητότητα των παρατηρήσεων. Όσο αυξάνεται η µεταβλητότητα των παρατηρήσεων, τόσο µειώνεται η ισχύς της µελέτης. 3) Η επίδραση (effect) που ενδιαφέρει. Όσο µεγαλύτερη είναι η επίδραση που µας ενδιαφέρει να ανιχνεύσουµε (αν υπάρχει), τόσο αυξάνεται η ισχύς. 4) Το επίπεδο σηµαντικότητας. Όσο µεγαλύτερο είναι το επίπεδο σηµαντικότητας που δηλώνουµε, τόσο περισσότερη είναι η ισχύς. Π.χ. η ισχύς θα είναι µεγαλύτερη αν η α=0,05 απ ότι εάν α=0,01. Ένα παράδειγµα δίνεται στην εικόνα παρακάτω. Η παραπάνω εικόνα έχει παρθεί από τους Petrie & Sabin (σελ 45). είχνει τη σχέση µεταξύ ισχύς και το µέγεθος του δείγµατος σε κάθε µία από 2 οµάδες όταν συγκρίνονται 2 ποσοστά. Η επίδραση που ενδιαφέρει (effect of interest) είναι η διαφορά στα 2 ποσοστά π.χ. 0,5-0,25 =0,25, 0,7-0,6=0,1. ΣΗΜΕΙΩΣΗ Ένα ευρύ διάστηµα εµπιστοσύνης είναι το αποτέλεσµα µικρού µεγέθους δείγµατος ή αυξηµένης µεταβλητότητας και δίνει υπόνοιες ότι η ισχύς της µελέτης είναι χαµηλή. 7.Τι είναι προτιµότερο, η τιµή p ή το διάστηµα εµπιστοσύνης; Στην πρόσφατη βιβλιογραφία, συνιστάται η παρουσίαση και της τιµής-p και του Ε. Εάν πρέπει να αφαιρεθεί το ένα, θεωρείται προτιµότερο να αφαιρεθεί η τιµή-p. Η International Committee of Medical Journal Editors (ICMJE) εισηγείται ότι στο στατιστικό µέρος ενός άρθρου πρέπει να αποφεύγεται η αποκλειστική χρήση της τιµής-p. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing such as the use of p values, which fails to convey important quantitative information Ann Intern Med 1997:126:36-47. Τα µειονεκτήµατα της τιµής p είναι ότι α) δεν σχετίζεται µε την κλινική σηµασία της µελέτης και β) εξαρτάται (µέχρις ενός σηµείου) από το µέγεθος της µελέτης. Μπορεί σε µια µεγάλη µελέτη να βρεθούν µικρές διαφορές που είναι στατιστικά πολύ σηµαντικές αλλά κλινικά άνευ σηµασίας (π.χ. µεγαλύτερη µείωση της συστολικής πίεσης κατά 1mmHg µε τη θεραπεία Α σε σχέση µε τη Β, ΙΜοσχανδρέα 19
P<0,001, n=5000). Και αντίστοιχα, µπορεί σε µία µικρή µελέτη να µη βρεθούν στατιστικά σηµαντικές διαφορές. Το διάστηµα εµπιστοσύνης δίνει µία εκτίµηση της ακρίβειας µε την οποία το στατιστικό του δείγµατος (sample statistic, π.χ. η µέση τιµή) εκτιµάει την τιµή του πληθυσµού. 8. Μετασχηµατισµοί Για να εφαρµοστεί µια παραµετρική στατιστική δοκιµασία, συχνά υποτίθεται ότι η µεταβλητή που ενδιαφέρει έχει κανονική κατανοµή. Όταν δεν φαίνεται να έχει κανονική κατανοµή, µία πιθανή λύση είναι ο µετασχηµατισµός (transformation) της µεταβλητής. Ο µετασχηµατισµός των δεδοµένων (µε µαθηµατικό τρόπο) γίνεται µε σκοπό η µετασχηµατισµένη µεταβλητή να έχει κανονική κατανοµή. Ο πιο συνηθισµένος µετασχηµατισµός είναι ο λογαριθµικός µετασχηµατισµός (παίρνοντας το φυσικό λογάριθµο ή το λογάριθµο µε βάση 10), µε τον οποίον συχνά πετυχαίνουµε µια περίπου κανονική κατανοµή όταν η µεταβλητή αρχικά παρουσιάζει θετική λοξότητα. Στο SPSS 14.0, ο µετασχηµατισµός εφαρµόζεται µε τις εντολές Transform Compute... function group (Arithmetic) ΠΑΡΑ ΕΙΓΜΑ 9. Μετασχηµατισµός χοληστερόλης: εξέταση 150 ανδρών της Μελέτης 7 Χωρών το 1960 (40-44 ετών). Η µεταβλητή που ενδιαφέρει είναι η συγκέντρωση χοληστερόλης στον ορό. Έχουµε µετρήσεις από το 1960 σε 150 Κρήτες άνδρες ηλικίας 40-44 ετών 10. Η κατανοµή εµφανίζεται θετικά λοξή (το αρχείο δεδοµένων ονοµάζεται sevc40to44.sav και η µεταβλητή είναι η chol0). Κάποιες τιµές χοληστερόλης πριν και µετά την εφαρµογή του λογαριθµικού µετασχηµατισµού εµφανίζονται στον παρακάτω πίνακα. Τα διαγράµµατα που ακολουθούν δείχνουν την κατανοµή της χοληστερόλης (Α), την κατανοµή σε λογαριθµική κλίµακα (Β) & την κατανοµή της µετασχηµατισµένης σε λογαριθµική κλίµακα µεταβλητής (Γ) (Εικόνα 1). Οι γραφικές παραστάσεις Β και Γ είναι ίδιες. AA Χοληστερόλη (mg/dl) Λογ 10 (χοληστερόλη) = λογάριθµος της χοληστερόλης (βάση 10). 1 128 2.11 2 159 2.20 3 157 2.20 4 212 2.33 5 156 2.19......... 146 224 2.35 147 189 2.28 148 216 2.33 149 191 2.28 150 246 2.39 Όταν βεβαιωθούµε ότι η νέα µεταβλητή φαίνεται να έχει κανονική κατανοµή (µπορείτε να το διαπιστώσετε µε ένα box-plot), εφαρµόζουµε τον παραµετρικό έλεγχο. Αν αντι-λογαριθµίσουµε τη µ.τ. της νέας µεταβλητής (µετασχηµατίσουµε προς τα πίσω, δηλαδή 10 µ.τ. ή e µ.τ. ), η ποσότητα που βρίσκουµε ονοµάζεται γεωµετρικός µέσος (geometric mean) και αναµένεται να έχει παρόµοια τιµή µε τη διάµεσο (είναι πάντα µικρότερη από τη µη-µετασχηµατισµένη µ.τ.). 10 Τα δεδοµένα είναι µέρος των αρχικών µετρήσεων της cohort της Κρήτης (686 άνδρες ηλικίας 40-59 ετών το 1960) από τη Μελέτη των 7 Χωρών (Τοµέας Κοινωνικής Ιατρικής, Τµήµα Ιατρικής, Πανεπιστήµιο Κρήτης). ΙΜοσχανδρέα 20
ΠΑΡΑ ΕΙΓΜΑ 9 (συν). Ο µέσος όρος των λογαριθµηµένων τιµών είναι 2,298. Ο γεωµετρικός µέσος της χοληστερόλης είναι 10 2,298 =198,6 mg/dl {αριθµητική µέση τιµή = 202,4 mg/dl, διάµεσος 198,0 mg/dl}. 350 300 63 61 1000 250 100 200 150 100 10 50 1 0 1E-4 chol0 Α. Boxplot της ολικής χοληστερόλης (mg/dl) chol0 B. Boxplot της ολικής χοληστερόλης που παρουσιάζεται σε λογαριθµική κλίµακα. 3.00 2.50 2.00 1.50 1.00 0.50 0.00 lnchol0 Γ. Boxplot της ολικής χοληστερόλης σε λογαριθµική κλίµακα (µετασχηµατισµένη) Εικόνα 2. Boxplots της συγκέντρωσης ολικής χοληστερόλης σε 150 άνδρες ηλικίας 40-45 ετών. 9. Βιβλιογραφία Altman D.G. (1991) Practical Statistics for Medical Research. Chapman and Hall Armitage P & Berry G (1987) Statistical Methods in Medical Research 2nd ed Blackwell Scientific Publications. Campbell MJ & Machin D (1999) Medical Statistics A Commonsense Approach 3 rd ed Wiley: Chichester. Petrie A, Sabin C. (2005) Medical Statistics at a glance. 2 nd ed. Blackwell Publishing: Oxford. 10. Παραρτήµατα 10.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία Αγγλική Ελληνική Components (of variance) Συνιστώσες (διακύµανσης) Confidence interval (CI) ιάστηµα εµπιστοσύνης ( Ε) ή ιάστηµα αξιοπιστίας Confidence limit Όριο εµπιστοσύνης ή Όριο αξιοπιστίας Degrees of freedom (d.f.) Βαθµοί ελευθερίας (β.ε.) Effect Επίδραση Hypothesis testing (significance testing) Έλεγχος στατιστικής υπόθεσης (έλεγχος σηµαντικότητας). Matched data Ταιριασµένες παρατηρήσεις One sample t-test t-test ενός δείγµατος One way analysis of variance (one way ANOVA) Ανάλυση διακύµανσης κατά µία διεύθυνση ή Ανάλυση της ΙΜοσχανδρέα 21