3. Ανάλυση Ποσοτικών εδοµένων: Συγκρίσεις µεταξύ οµάδων

3. Ανάλυση Ποσοτικών εδοµένων: Συγκρίσεις µεταξύ οµάδων Σελίδα 1 Συµπερασµατολογική στατιστική (inferential statistics) 3 1.1 Εισαγωγή 3 1.2 ιαστήµατα εµπιστοσύνης 3 1.3 Ο έλεγχος στατιστικής υπόθεσης (hypothesis testing) 3 1.3.1 Η γενική διαδικασία 3 1.3.2 Η µηδενική υπόθεση 4 1.3.3 Η τιµή p 4 1.3.4 Το επίπεδο σηµαντικότητας 4 1.3.5 Το στατιστικό κριτήριο ελέγχου 5 1.4 Παραµετρικοί και µη-παραµετρικοί έλεγχοι 6 1.5 Ο έλεγχος στατιστικής υπόθεσης: σφάλµατα & ισχύς (power) 6 1.6 Τι είναι προτιµότερο, η τιµή p ή το διάστηµα εµπιστοσύνης; 7 1.7 Μετασχηµατισµοί 7 2 Η σύγκριση της µέσης τιµής µιας οµάδας παρατηρήσεων µε κάποια καθορισµένη τιµή. 9 2.1 Μεγάλο δείγµα: ο έλεγχος-ζ µιας οµάδας 9 2.2 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µεγάλο. 9 2.3 Ο έλεγχος-t µιας οµάδας (single-sample t-test) 10 2.4 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µικρό. 11 3 ύο σχετιζόµενες οµάδες 12 3.1 Παρατηρήσεις κατά ζεύγη 12 3.2 Η δοκιµασία t-test & Ε για παρατηρήσεις κατά ζεύγη 12 3.3 Μη παραµετρικοί έλεγχοι: οι δοκιµασίες Sign test & Wilcoxon signed ranks test 13 4 Η σύγκριση δύο ανεξάρτητων οµάδων 15 4.1 t-test για ανεξάρτητα (µη-σχετιζόµενα) δείγµατα 15 4.2 Ε για τη διαφορά µεταξύ δύο µέσων τιµών. 16 4.3 Μη παραµετρικοί έλεγχοι: Mann-Whitney test και Wilcoxon rank sum test. 17 5 Συγκρίσεις µε περισσότερες από δύο οµάδες 18 5.1 One-way ANOVA 18 5.2 Μη παραµετρικός έλεγχος: η δοκιµασία Kruskal-Wallis 19 6 Βιβλιογραφία 20 7 Παραρτήµατα 21 7.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία 21 7.2 Παράρτηµα 2. Η τυπική κανονική κατανοµή. 22 7.3 Παράρτηµα 3. Η κατανοµή t και οι πίνακες της κατανοµής t. 23 7.4 Παράρτηµα 4. Τύποι των στατιστικών κριτηρίων ελέγχου που ακολουθούν την t κατανοµή. 25 Οι παρούσες σηµειώσεις συνοδεύονται από σηµειώσεις σε µορφή διαφανειών. ΙΜοσχανδρέα 1

SPSS διαδροµές Σελίδα Μετασχηµατισµός 8 Σύγκριση µιας οµάδας παρατηρήσεων µε κάποια καθορισµένη τιµή: t-test 10 Υπολογισµός του Ε για µια µέση τιµή. 11 Σύγκριση δύο σχετιζόµενων οµάδων: paired samples t-test 13 Σύγκριση δύο σχετιζόµενων οµάδων: Wilcoxon signed ranks test 14 Σύγκριση δύο ανεξάρτητων οµάδων: independent samples t-test 15 Σύγκριση δύο ανεξάρτητων οµάδων: Mann-Whitney test 17 Συγκρίσεις µε περισσότερες από δύο οµάδες: one-way ANOVA 18 Συγκρίσεις µε περισσότερες από δύο οµάδες: Kruskal-Wallis test 20 ΙΜοσχανδρέα 2

1. Συµπερασµατολογική στατιστική 1.1 Εισαγωγή Στην ενότητα «Περιγραφική στατιστική» είδαµε πώς µπορούµε να περιγράψουµε καλύτερα τα χαρακτηριστικά του δείγµατός µας. Συνήθως όµως δεν µας ενδιαφέρει τόσο η συγκεκριµένη οµάδα ατόµων, όσο ο ευρύτερος πληθυσµός των ατόµων που αντιπροσωπεύονται από το δείγµα. H συλλογή των παρατηρήσεων του δείγµατος γίνεται µε σκοπό την εξαγωγή συµπερασµάτων που αφορούν παραµέτρους όπως η πληθυσµιακή µέση τιµή (µ), το ποσοστό του πληθυσµού (π) κ.τ.λ. O στόχος της στατιστικής ανάλυσης είναι να χρησιµοποιηθούν οι πληροφορίες που υπάρχουν από το δείγµα για να βγουν συµπεράσµατα για τον σχετικό πληθυσµό. Αυτές τις πληροφορίες τις παίρνουµε χρησιµοποιώντας της µεθόδους της συµπερασµατολογικής στατιστικής ή αλλιώς στατιστικής επαγωγής (statistical inference). Υπάρχουν πολλοί τρόποι στατιστικής ανάλυσης διαφόρων ειδών δεδοµένων αλλά ουσιαστικά οι διαδικασίες είναι δύο: α) η εκτιµητική (estimation) και β) ο έλεγχος στατιστικής υπόθεσης (hypothesis testing). Έχοντας πάρει ένα τυχαίο δείγµα από τον πληθυσµό, µπορούµε να εκτιµήσουµε την παράµετρο που µας ενδιαφέρει βρίσκοντας την τιµή της αντίστοιχης στατιστικής συνάρτησης (ή στατιστικής), η οποία λέγεται σηµειακή εκτίµηση (point estimate) π.χ. της µέσης τιµής. Υπάρχει η δυνατότητα να βγάλουµε συµπεράσµατα για τον πληθυσµό χρησιµοποιώντας µόνο πληροφορίες από το δείγµα µας. Χρησιµοποιούµε τις ιδιότητες της δειγµατοληπτικής κατανοµής (sampling distribution) της εκτίµησης. ηλαδή, στην περίπτωση της µέσης τιµής, τις ιδιότητες της κατανοµής των µέσων τιµών που θα βρίσκαµε αν παίρναµε όλα τα δυνατά δείγµατα από τον πληθυσµό. Ένα µέτρο της ακρίβειας της εκτίµησής µας δίνεται από την τυπική απόκλιση της δειγµατοληπτικής κατανοµής (των µέσων τιµών). Αυτή η τυπική απόκλιση ονοµάζεται τυπικό σφάλµα (ΤΣ) της εκτίµησης και µπορούµε να την εκτιµήσουµε χρησιµοποιώντας µόνο πληροφορίες από το δείγµα µας. 1.2 ιαστήµατα εµπιστοσύνης Το τυπικό σφάλµα της εκτίµησης της παραµέτρου µπορούµε να το συµπεριλάβουµε σε µια εκτίµηση διαστήµατος (interval estimate) για την παράµετρο του πληθυσµού: υπολογίζουµε ένα διάστηµα εµπιστοσύνης, Ε (confidence interval, CI).To Ε µας δίνει ένα εύρος τιµών µέσα στο οποίο αναµένεται να βρίσκεται η (άγνωστη) τιµή της παραµέτρου του πληθυσµού. Στην ερµηνεία των διαστηµάτων εµπιστοσύνης µας ενδιαφέρει: το εύρος του διαστήµατος. Όσο µειώνεται το εύρος, τόσο πιο ακριβής είναι η εκτίµηση της µέσης τιµής. Οι παράγοντες που επηρεάζουν το εύρος του.ε. είναι το µέγεθος του δείγµατος και η µεταβλητότητα του υπο-µελέτη χαρακτηριστικού. Οπότε µια µικρή µελέτη ενός χαρακτηριστικού µε µεγάλη µεταβλητότητα θα έχει ευρύτερο.ε. από µία µεγάλη µελέτη ενός χαρακτηριστικού µε µικρή µεταβλητότητα. η πιθανή κλινική σηµασία του κατώτερου και ανώτερου ορίου. Από το κατώτερο και ανώτερο όριο µπορεί να φανεί εάν τα αποτελέσµατα είναι κλινικά σηµαντικά. το εάν συµπεριλαµβάνει κάποιες τιµές που έχουν ιδιαίτερη σηµασία. 1.3 Ο έλεγχος στατιστικής υπόθεσης. 1.3.1 Η γενική διαδικασία Σχηµατίζουµε µία υπόθεση για τον πληθυσµό που µας ενδιαφέρει και παίρνουµε ένα δείγµα για να ζυγίσουµε τις αποδείξεις εναντίον αυτής της υπόθεσης. Η τεχνική αυτή λέγεται έλεγχος στατιστικής υπόθεσης (hypothesis testing) ή έλεγχος σηµαντικότητας (significance testing). Η γενική διαδικασία είναι η εξής: 1. Σχηµατισµός της µηδενικής υπόθεσης (Η 0 ) και της εναλλακτικής της υπόθεσης. 2. Έλεγχος των προϋποθέσεων της στατιστικής δοκιµασίας. 3. Ορισµός του επιπέδου στατιστικής σηµαντικότητας (α) 4. Υπολογισµός της τιµής του στατιστικού κριτηρίου ελέγχου (test statistic) που αντιστοιχεί στη συγκεκριµένη Η 0. 5. Σύγκριση της τιµής του κριτηρίου ελέγχου µε τιµές από µια γνωστή κατανοµή πιθανοτήτων. ΙΜοσχανδρέα 3

6. Εύρεση της πιθανότητας να προκύψει, όταν η Η 0 αληθεύει, µια τιµή του στατιστικού δείκτη ελέγχου που είναι όσο ή και περισσότερο ακραία από την παρατηρηµένη τιµή. Αυτή η πιθανότητα ονοµάζεται τιµή p (ή p-τιµή ή τιµή πιθανότητας p, p value). 7. Ερµηνεία της τιµής p. 1.3.2 Η µηδενική υπόθεση Η µηδενική υπόθεση (null hypothesis H 0 ) διαφέρει ανάλογα µε τον στατιστικό έλεγχο στον οποίο εφαρµόζεται. Η H 0 είναι η υπόθεση της έλλειψης επίδρασης 1 (effect) στον πληθυσµό. π.χ. έλλειψη διαφοράς µεταξύ µέσων τιµών, έλλειψη συσχέτισης µεταξύ µεταβλητών. Για παράδειγµα, αν µας ενδιαφέρει να συγκρίνουµε τους ρυθµούς επίπτωσης του καρκίνου του πνεύµονα σε άνδρες και γυναίκες η Η 0 είναι ότι ο µέσος ρυθµός επίπτωσης του καρκίνου του πνεύµονα δεν διαφέρει µεταξύ ανδρών και γυναικών (µ 1 =µ 2 ). Μπορούµε να ορίσουµε και µία εναλλακτική υπόθεση (Η 1 ), η οποία ισχύει όταν δεν ισχύει η Η 0. Σ αυτό το παράδειγµα Η 1 : ο µέσος ρυθµός επίπτωσης του καρκίνου του πνεύµονα διαφέρει µεταξύ ανδρών και γυναικών. Όταν δεν προσδιορίζεται κάποια κατεύθυνση (π.χ. δεν δηλώθηκε ότι αν ο ρυθµός επίπτωσης δεν είναι ίσος, τότε οι άνδρες θα έχουν αυξηµένο ρυθµό), η κατάλληλη δοκιµασία ονοµάζεται αµφίπλευρη (two-tailed test). Παλιότερα εφαρµοζόταν συχνά και ο µονόπλευρος έλεγχος (one-tailed test), δηλαδή η Η 1 έχει τη µορφή µ 1 >µ 2 (ή αλλιώς µ 1 <µ 2 ) και όχι µ 1 µ 2. Ο αµφίπλευρος έλεγχος είναι αυτός που συνιστάται στις περισσότερες περιπτώσεις, διότι συνήθως δεν µπορούµε να είµαστε σίγουροι εκ των προτέρων για την κατεύθυνση της διαφοράς. Ο αµφίπλευρος έλεγχος είναι πιο συντηρητικός (conservative) από τον µονόπλευρο, δηλαδή δεν απορρίπτουµε την Η 0 τόσο συχνά όσο µε τον µονόπλευρο έλεγχο. 1.3.3 Η τιµή p Η τιµή p (ή p-τιµή ή τιµή πιθανότητας p, p value) είναι η πιθανότητα ότι θα βρούµε τα παρατηρούµενα αποτελέσµατα (τη διαφορά, τη συσχέτιση κ.τ.λ.), ή πιο ακραία αποτελέσµατα (µεγαλύτερη διαφορά, πιο στενή συσχέτιση), εφ όσον ισχύει η Η 0. Η τιµή p αντανακλά το µέγεθος της απόδειξης εναντίον της Η 0. Όσο µικρότερη είναι η τιµή p, τόσο περισσότερη απόδειξη υπάρχει εναντίον της Η 0. Για να βρούµε την τιµή p, υπολογίζουµε την τιµή ενός στατιστικού κριτηρίου ελέγχου (βλ. 1.3.5). Το κριτήριο αυτό διαφέρει ανάλογα µε τη στατιστική δοκιµασία που χρησιµοποιείται. Tο στατιστικό κριτήριο ακολουθεί κάποια γνωστή κατανοµή πιθανοτήτων. Συγκρίνοντας την τιµή του στατιστικού κριτηρίου µε τη γνωστή κατανοµή, βρίσκουµε την τιµή p. Η τιµή p είναι ίση µε το εµβαδόν στις ουρές της κατανοµής πιθανότητας. Σχετικές γραφικές παραστάσεις δίνονται στα Παραρτήµατα 2 & 3 (όπου οι πιθανότητες συµβολίζονται µε α/2). Εάν επαναλάβουµε τη δειγµατοληψία πολλές φορές (Ν φορές, Ν>1.000) και εφαρµόσουµε κάθε φορά τη στατιστική δοκιµασία για τον έλεγχο της υπόθεσης που µας ενδιαφέρει, τότε η τιµή p αντιστοιχεί στην αναλογία των περιπτώσεων που οι τιµές του στατιστικού κριτηρίου ελέγχου θα ήταν ίδιες µε, ή µεγαλύτερες από, την τιµή που βρέθηκε αρχικά. 1.3.4 Το επίπεδο σηµαντικότητας Η πιθανότητα που επιλέγεται σαν όριο (cut-off) κάτω του οποίου απορρίπτεται η µηδενική υπόθεση ορίζεται πριν τη συλλογή των δεδοµένων, συµβολίζεται µε το γράµµα α και ονοµάζεται επίπεδο σηµαντικότητας (significance level). Συµβατικά επιλέγεται το α= 0,05, ή 5%, και λέµε ότι εάν η τιµή p είναι µικρότερη του 0,05 τότε οι ενδείξεις είναι αρκετές για να απορρίψουµε την Η 0. Παραδείγµατος χάριν, αν η σύγκριση που ενδιαφέρει είναι η σύγκριση 2 µέσων τιµών, τότε 1 Χρησιµοποιώντας τη λέξη «επίδραση», εννοώ την αριθµητική τιµή που αντιστοιχεί στη σύγκριση που ενδιαφέρει. π.χ. η διαφορά µεταξύ δύο µέσων τιµών. ΙΜοσχανδρέα 4

p>0,05: δεν υπάρχει απόδειξη διαφοράς µεταξύ των µέσων τιµών. εν απορρίπτεται η Η 0. p µεταξύ 0,01 και 0,05: υπάρχει κάποια απόδειξη διαφοράς. p µεταξύ 0,001 και 0,01: υπάρχει ισχυρή απόδειξη διαφοράς. p µικρότερο από 0,001: υπάρχει πολύ ισχυρή απόδειξη διαφοράς. Όταν παρουσιάζουµε τα αποτελέσµατα µιας ανάλυσης είναι προτιµότερο να παρουσιάζεται η ακριβής τιµή p διότι προσφέρει περισσότερη πληροφορία από το όριο π.χ. p=0,048 αντί για p<0,05 και p=0,15 αντί για p>0,05. Όταν χρησιµοποιούσαµε πίνακες για να βρούµε τις τιµές p, τότε χρησιµοποιόντουσαν τα όρια, αλλά στη σηµερινή εποχή τα στατιστικά πακέτα έχουν τη δυνατότητα να µας δίνουν την ακριβή τιµή σε ελάχιστα δευτερόλεπτα. Η µόνη περίπτωση όπου πρέπει να παρουσιάζεται η ανισότητα είναι όταν η τιµή είναι πολύ µικρή, δηλαδή <0,0001. Όταν απορρίπτουµε την Η 0 λέµε ότι το αποτέλεσµα είναι στατιστικά σηµαντικό (statistically significant). Αν οι αποδείξεις δεν είναι αρκετές για να απορρίψουµε την Η 0, δεν σηµαίνει ότι η Η 0 αληθεύει. Αν απορριφθεί η Η 0 όταν στην πραγµατικότητα ισχύει, τότε έχει γίνει σφάλµα τύπου Ι (type I error). Η α είναι η πιθανότητα ότι θα γίνει σφάλµα τύπου Ι. ΣΗΜΕΙΩΣΗ H διαφορά µεταξύ του επίπεδου σηµαντικότητας α και της τιµής p είναι ότι το α ορίζεται από τον ερευνητή ΠΡΙΝ την στατιστική επεξεργασία των δεδοµένων ενώ η τιµή p παρατηρείται ΜΕΤΑ την ολοκλήρωση της µελέτης και βασίζεται στο παρατηρούµενο αποτέλεσµα. 1.3.5 Το στατιστικό κριτήριο ελέγχου. Το στατιστικό κριτήριο ελέγχου (η στατιστική συνάρτηση ελέγχου, test statistic) είναι µία ποσότητα που υπολογίζεται από τα δεδοµένα και χρησιµοποιείται για να ελεγχθεί η µηδενική υπόθεση. Το κριτήριο ελέγχου αλλάζει ανάλογα µε την µηδενική υπόθεση, και τον έλεγχο που θα εφαρµοστεί. Ας πάρουµε το παράδειγµα όπου έχουµε ένα δείγµα µεγέθους n και µια µεταβλητή µε κανονική κατανοµή και δειγµατική µέση τιµή x. Η Η 0 είναι ότι η µέση τιµή του πληθυσµού είναι µ 0. Η τυπική απόκλιση είναι γνωστή= σ 0. Η δειγµατοληπτική κατανοµή της µέσης τιµής θα είναι κανονική µε µ.τ. µ 0 και ΤΑ σ 0 / n. Μπορούµε να ορίσουµε το κριτήριο x µ 0 Z=. σ / n Εφ όσον ισχύει η Η 0, η συνάρτηση Ζ θα έχει κανονική κατανοµή µε µ.τ. 0 και ΤΑ 1, δηλαδή θα έχει µια τυπική κανονική κατανοµή (τκκ, standard normal distribution). Περισσότερες λεπτοµέρειες για την τκκ δίνονται στο Παράρτηµα 2. Γνωρίζουµε 2 ότι η πιθανότητα η x να είναι έξω από το διάστηµα µ,96 / n έως µ +,96 / n 0 0 1 σ 0 0 1 σ 0 είναι 0,05. Η τιµή Ζ θα είναι µικρότερη από 1,96 ή µεγαλύτερη από 1,96 όταν η µέση τιµή x είναι έξω από το παραπάνω διάστηµα. Αν το επίπεδο σηµαντικότητας είναι το 5%, τότε µια τέτοια τιµή x θεωρείται ότι είναι αρκετά µακριά από τη µ 0 ώστε να υπάρχει αµφιβολία για την εγκυρότητα της Η 0. Η Η 0 µπορεί να ισχύει, αλλά σ αυτήν την περίπτωση θα περιµέναµε να βρούµε µια διαφορά τέτοιου µεγέθους ή µεγαλύτερη µόνο µία φορά στις είκοσι (5%). Στο παρακάτω διάγραµµα (Εικόνα 1) φαίνονται 3 διαφορετικές περιπτώσεις. Πάνω αριστερά z=1,96 (δηλαδή p=0,05), πάνω δεξιά z>1,96 (δηλαδή p<0,05, το αποτέλεσµα είναι στατιστικά σηµαντικό σε επίπεδο 5%) και κάτω 1,96<z<1,96 (δηλαδή p>0,05 και το αποτέλεσµα δεν είναι στατιστικά σηµαντικό). 2 Το 95% των τιµών θα είναι µέσα σε διάστηµα +/- 1,96ΤΑ από τη µέση τιµή (Περιγραφική Στατιστική). ΙΜοσχανδρέα 5

Εικόνα 1. Έλεγχοι στατιστικών υποθέσεων µε επίπεδο σηµαντικότητας 5%, που βασίζονται στο τυπικό κανονικό κριτήριο Ζ. Αναπαραγωγή από τους Armitage & Berry σελίδα 96. Όποια και να είναι η µηδενική υπόθεση, η τιµή του κριτηρίου ελέγχου συγκρίνεται µε τη γνωστή κατανοµή (υποθέτοντας πάντα ότι ισχύει η Η 0 ). Η γενική µορφή του κριτηρίου ελέγχου εκφράζεται σε σχέση µε την παρατηρούµενη τιµή της ποσότητας που ενδιαφέρει (π.χ. τη διαφορά µεταξύ 2 µέσων τιµών) και την αναµενόµενη τιµή όταν ισχύει η Η 0 (π.χ. µηδέν) και συχνά είναι ο λόγος της παρατηρούµενης ποσότητας προς το τυπικό σφάλµα. Κάποια παραδείγµατα δίνονται στο Παράρτηµα 4. Υπάρχουν και καταστάσεις όπου το κριτήριο ελέγχου παίρνει άλλη µορφή π.χ. στον έλεγχο προσήµων. 1.4 Παραµετρικοί και µη-παραµετρικοί έλεγχοι υποθέσεων. Μπορούµε να συγκρίνουµε τη µέτρησή µας µε κάποια ορισµένη θεωρητική τιµή για να ερευνήσουµε κατά πόσον είναι πιθανό ότι η πραγµατική τιµή (στον πληθυσµό) είναι αυτή η θεωρητική τιµή. Ελέγχουµε τη στατιστική υπόθεση ότι η πραγµατική τιµή είναι αυτή που δηλώνουµε, και τη συγκρίνουµε µε την εκτίµηση. Γίνεται δηλαδή έλεγχος µιας υπόθεσης (hypothesis testing). Οι έλεγχοι που βασίζονται σε γνώσεις των κατανοµών (πιθανοτήτων) τις οποίες ακολουθούν τα δεδοµένα, είναι γνωστοί ως παραµετρικοί έλεγχοι (parametric tests). Όταν τα δεδοµένα δεν τηρούν τις προϋποθέσεις για την εφαρµογή παραµετρικών µεθόδων, µπορεί να εφαρµοστεί ένας έλεγχος από την οικογένεια των µη-παραµετρικών µεθόδων (non-parametric tests, λέγονται και distribution-free tests ή rank methods). Οι µη-παραµετρικές µέθοδοι γενικώς αντικαθιστούν τις παρατηρούµενες τιµές µε τους αντίστοιχους βαθµούς τους (ranks), ταξινοµώντας τα δεδοµένα σε αύξουσα σειρά. εν χρειάζονται υποθέσεις για την ακριβή µορφή της κατανοµής των δεδοµένων. Αλλά επειδή δεν χρησιµοποιούν πολλές πληροφορίες για τη µορφή της κατανοµής, δεν έχουν τόσο µεγάλη ισχύ, όσο οι παραµετρικοί έλεγχοι, στο να ανιχνεύσουν µια πραγµατική επίδραση (effect) π.χ. µια διαφορά µεταξύ δύο πληθυσµιακών µέσων τιµών. 1.5 Ο έλεγχος στατιστικής υπόθεσης: σφάλµατα & ισχύς (power) Αναφέρθηκε στην 1.3.4 ότι εάν απορριφθεί η Η 0 όταν στην πραγµατικότητα ισχύει, τότε έχει γίνει σφάλµα τύπου Ι (type I error). Το επίπεδο σηµαντικότητας που ορίζουµε πριν την επεξεργασία των δεδοµένων, α, αντιστοιχεί στην πιθανότητα του να γίνει ένα σφάλµα τύπου Ι. Εάν αποδεχθεί η Η 0 όταν δεν ισχύει πραγµατικά, τότε έχει γίνει ένα σφάλµα τύπου ΙΙ (type II error), ή β σφάλµα, µε πιθανότητα β. Η ισχύς της µελέτης είναι 1-β και συνήθως εκφράζεται σαν ποσοστό. Η ισχύς είναι δηλαδή η πιθανότητα ότι (σωστά) θα απορριφθεί η Η 0, όταν αυτή δεν ισχύει πραγµατικά. Συνήθως θέλουµε η ισχύς να είναι τουλάχιστον 80%. Η ισχύς πρέπει να ορίζεται πριν την έναρξη της µελέτης. Είναι ηθικά ανεύθυνο να γίνει µία κλινική δοκιµή εάν η µελέτη έχει χαµηλή ισχύ π.χ. να υπάρχει µόνο 50% πιθανότητα να βρεθεί ένα στατιστικά σηµαντικό αποτέλεσµα ενώ η θεραπεία έχει πραγµατικά επίδραση (real treatment effect). Οι παράγοντες που επηρεάζουν την ισχύ της µελέτης είναι οι εξής: 1. To µέγεθος του δείγµατος. Όσο µεγαλύτερο είναι το δείγµα, τόσο περισσότερη είναι η ισχύς της µελέτης. 2. Η µεταβλητότητα των παρατηρήσεων. Όσο αυξάνεται η µεταβλητότητα των παρατηρήσεων, τόσο µειώνεται η ισχύς της µελέτης. ΙΜοσχανδρέα 6

3. Η επίδραση (effect) που ενδιαφέρει. Όσο µεγαλύτερη είναι η επίδραση που µας ενδιαφέρει να ανιχνεύσουµε (αν υπάρχει), τόσο αυξάνεται η ισχύς. 4. Το επίπεδο σηµαντικότητας. Όσο µεγαλύτερο είναι το επίπεδο σηµαντικότητας που δηλώνουµε, τόσο µεγαλύτερη είναι η ισχύς. Π.χ. η ισχύς θα είναι µεγαλύτερη αν η α=0,05 απ ότι εάν α=0,01. Ένα παράδειγµα δίνεται στην εικόνα παρακάτω. Η εικόνα έχει παρθεί από τους Petrie & Sabin (σελ 45). είχνει τη σχέση µεταξύ ισχύς και το µέγεθος του δείγµατος όταν συγκρίνονται 2 ποσοστά. Η επίδραση που ενδιαφέρει (effect of interest) είναι η διαφορά στα 2 ποσοστά π.χ. 0,5-0,25 =0,25 ή 0,7-0,6=0,1. ΣΗΜΕΙΩΣΗ Ένα ευρύ διάστηµα εµπιστοσύνης είναι το αποτέλεσµα µικρού µεγέθους δείγµατος ή αυξηµένης µεταβλητότητας και δίνει υπόνοιες ότι η ισχύς της µελέτης είναι µικρή. 1.6 Τι είναι προτιµότερο, η τιµή p ή το διάστηµα εµπιστοσύνης; Στην πρόσφατη βιβλιογραφία, συνιστάται η παρουσίαση και της τιµής-p και του Ε. Εάν πρέπει να αφαιρεθεί το ένα, θεωρείται προτιµότερο να αφαιρεθεί η τιµή p. Η International Committee of Medical Journal Editors (ICMJE) εισηγείται ότι στο στατιστικό µέρος ενός άρθρου πρέπει να αποφεύγεται η αποκλειστική χρήση της τιµής-p. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing such as the use of p values, which fails to convey important quantitative information Ann Intern Med 1997:126:36-47. Τα µειονεκτήµατα της τιµής p είναι ότι α) δεν σχετίζεται µε την κλινική σηµασία της µελέτης και β) εξαρτάται (µέχρις ενός σηµείου) από το µέγεθος της µελέτης. Μπορεί σε µια µεγάλη µελέτη να βρεθούν µικρές διαφορές που είναι στατιστικά πολύ σηµαντικές αλλά κλινικά άνευ σηµασίας (π.χ. µεγαλύτερη µείωση της συστολικής πίεσης κατά 1mmHg µε τη θεραπεία Α σε σχέση µε τη Β, P<0,001, n=5000). Και αντίστοιχα, µπορεί σε µία µικρή µελέτη να µη βρεθούν στατιστικά σηµαντικές διαφορές. Το διάστηµα εµπιστοσύνης δίνει µία εκτίµηση της ακρίβειας µε την οποία το στατιστικό του δείγµατος (sample statistic, π.χ. η µέση τιµή) εκτιµάει την τιµή του πληθυσµού. 1.7 Μετασχηµατισµοί Για να εφαρµοστεί µια παραµετρική στατιστική δοκιµασία, συχνή προϋπόθεση είναι ότι η µεταβλητή που ενδιαφέρει έχει κανονική κατανοµή (στον πληθυσµό). Όταν δεν φαίνεται να έχει κανονική κατανοµή, µία πιθανή λύση είναι ο µετασχηµατισµός (transformation) των τιµών της µεταβλητής. Ο µετασχηµατισµός των δεδοµένων (µε µαθηµατικό τρόπο) γίνεται µε σκοπό η µετασχηµατισµένη µεταβλητή να έχει κανονική κατανοµή. Ο πιο συνηθισµένος µετασχηµατισµός είναι ο λογαριθµικός µετασχηµατισµός (παίρνοντας το φυσικό λογάριθµο ή το λογάριθµο µε βάση 10), µε τον οποίον ΙΜοσχανδρέα 7

συχνά πετυχαίνουµε µια περίπου κανονική κατανοµή όταν η µεταβλητή αρχικά παρουσιάζει θετική λοξότητα. Στο SPSS 20, ο µετασχηµατισµός εφαρµόζεται µε τις εντολές Transform Compute variable... function group (Arithmetic) ΠΑΡΑ ΕΙΓΜΑ 1. Μετασχηµατισµός χοληστερόλης: εξέταση 150 ανδρών της Μελέτης 7 Χωρών το 1960 (40-44 ετών). Η µεταβλητή που ενδιαφέρει είναι η συγκέντρωση χοληστερόλης στον ορό. Έχουµε µετρήσεις από το 1960 σε 150 Κρήτες άνδρες ηλικίας 40-44 ετών 3. Η κατανοµή εµφανίζεται θετικά λοξή (το αρχείο δεδοµένων ονοµάζεται sevc40to44.sav και η µεταβλητή είναι η chol0). Κάποιες τιµές χοληστερόλης πριν και µετά την εφαρµογή του λογαριθµικού µετασχηµατισµού εµφανίζονται στον παρακάτω πίνακα. Τα διαγράµµατα που ακολουθούν δείχνουν την κατανοµή της χοληστερόλης (Α), την κατανοµή απεικονισµένη σε λογαριθµική κλίµακα (Β) & την κατανοµή της µετασχηµατισµένης σε λογαριθµική κλίµακα µεταβλητής (Γ) (Εικόνα 2Α-Γ). Οι γραφικές παραστάσεις Β και Γ είναι ίδιες. Χοληστερόλη (mg/dl) Λογ 10 (χοληστερόλη) = λογάριθµος της χοληστερόλης (βάση 10). 128 2.11 156 2.19 157 2.20 159 2.20 189 2.28 191 2.28 212 2.33 216 2.33 224 2.35 246 2.39 Όταν βεβαιωθούµε ότι η νέα µεταβλητή φαίνεται να έχει κανονική κατανοµή (µπορείτε να το διαπιστώσετε µε ένα box-plot), εφαρµόζουµε τον παραµετρικό έλεγχο. Αν αντι-λογαριθµίσουµε τη µ.τ. της νέας µεταβλητής (µετασχηµατίσουµε προς τα πίσω, δηλαδή 10 µ.τ. ή e µ.τ. ), η ποσότητα που βρίσκουµε ονοµάζεται γεωµετρικός µέσος (geometric mean) και αναµένεται να έχει παρόµοια τιµή µε τη διάµεσο (είναι πάντα µικρότερη από τη µη-µετασχηµατισµένη µ.τ.). ΠΑΡΑ ΕΙΓΜΑ 1 (συν). Ο µέσος όρος των λογαριθµηµένων τιµών είναι 2,298. Ο γεωµετρικός µέσος της χοληστερόλης είναι 10 2,298 =198,6 mg/dl {αριθµητική µέση τιµή = 202,4 mg/dl, διάµεσος 198,0 mg/dl}. 350 300 63 61 1000 3.00 2.50 250 100 2.00 200 1.50 150 100 10 1.00 50 1 0.50 0 1E-4 0.00 Α. Boxplot της ολικής χοληστερόλης (mg/dl) chol0 B. Boxplot της ολικής χοληστερόλης (mg/dl) που παρουσιάζεται σε λογαριθµική κλίµακα. chol0 lnchol0 Γ. Boxplot της ολικής χοληστερόλης σε λογαριθµική κλίµακα (µετασχηµατισµένη) Εικόνα 2A-Γ. Boxplots της συγκέντρωσης ολικής χοληστερόλης σε 150 άνδρες ηλικίας 40-45 ετών. 3 Τα δεδοµένα είναι µέρος των αρχικών µετρήσεων της cohort της Κρήτης (686 άνδρες ηλικίας 40-59 ετών το 1960) από τη Μελέτη των 7 Χωρών (Τοµέας Κοινωνικής Ιατρικής, Τµήµα Ιατρικής, Πανεπιστήµιο Κρήτης). ΙΜοσχανδρέα 8

2. Η σύγκριση της µέσης τιµής µιας οµάδας παρατηρήσεων µε κάποια καθορισµένη τιµή. 2.1 Ο έλεγχος Ζ (Ζ test) Προϋποθέσεις: 1) το δείγµα είναι αρκετά µεγάλο ώστε η δειγµατοληπτική κατανοµή της Ζ να προσεγγίζει ικανοποιητικά την τυπική κανονική κατανοµή (n>100 περίπου) 2) Οι παρατηρήσεις είναι ανεξάρτητες. Όταν πρόκειται για ένα µεγάλο δείγµα του οποίου η µ.τ. είναι να συγκριθεί µε κάποια µ.τ. µ 0 τότε µπορεί να χρησιµοποιηθεί «η κανονική µέθοδος για µεγάλα δείγµατα» (large sample normal method), δηλαδή θεωρούµε ότι η ΤΑ σ 0 =s, υπολογίζουµε την τιµή του στατιστικού κριτηρίου Ζ όπου x µ Z= 0 s / n και βρίσκουµε την πιθανότητα να βρεθεί µια τόσο µεγάλη ή πιο µεγάλη Ζ εφ όσον ισχύει η Η 0. 2.2 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µεγάλο. Όταν το δείγµα είναι µεγάλο (n > 100 περίπου 4 ), τότε η δειγµατοληπτική κατανοµή της µέσης τιµής είναι η κανονική. Χρησιµοποιώντας τις ιδιότητες της κανονικής κατανοµής, µπορεί να βρεθεί το Ε για τη µέση τιµή. Γνωρίζουµε 5 ότι το 95% της κατανοµής των µέσων τιµών βρίσκεται σε απόσταση ± 2ΤΑ από τη µ.τ. του πληθυσµού, δηλαδή ± 2ΤΣ ή, για την ακρίβεια, ± 1,96ΤΣ, όπου το ΤΣ (τυπικό σφάλµα της µέσης τιµής) είναι η ΤΑ των µέσων τιµών (στη δειγµατοληπτική κατανοµή), δηλαδή σ/ n (όπου σ = η τυπική απόκλιση του χαρακτηριστικού στον πληθυσµό που εκτιµάται µε το s και n = το µέγεθος του δείγµατος). Όταν έχουµε ένα µοναδικό δείγµα (το οποίο είναι αντιπροσωπευτικό του πληθυσµού) το 95% Ε για τη µέση τιµή θα έχει τα παρακάτω όρια (λεπτοµέρειες δίδονται στο Παράρτηµα 2) : Κατώτερο όριο: µ.τ. του δείγµατος (1,96 επί σ/ n) Ανώτερο όριο: µ.τ. του δείγµατος + (1,96 επί σ/ n) σ ηλαδή x ± (1,96 ) n Αν µπορούσαµε να επαναλάβουµε τη δειγµατοληψία πολλές φορές και να υπολογίσουµε ένα Ε κάθε φόρα, τα διαστήµατα θα περιείχαν τη µ.τ. του πληθυσµού 95 φορές στις 100. Ένα παράδειγµα µε 10 δείγµατα δίνεται στην Εικόνα 3 παρακάτω, στην οποία φαίνεται ότι 1 από τα 10 διαστήµατα δεν περιέχει τη µ.τ. του πληθυσµού. Εικόνα 3. ιαστήµατα εµπιστοσύνης για τη µέση τιµή µιας κανονικής κατανοµής µε γνωστή ΤΑ από µια σειρά δειγµατοληψιών µε δείγµατα µεγέθους n (αναπαραγωγή από τους Armitage & Berry σελ 102). Ερµηνεία του 95% Ε για τη µ.τ.: Έχουµε 95% σιγουριά ότι µέσα σε αυτό το εύρος των τιµών θα βρίσκεται η πραγµατική µέση τιµή του πληθυσµού. 4 Κάποιοι συγγραφείς αναφέρονται σε n>30 ή 40. 5 Από την ενότητα της Περιγραφικής Στατιστικής. ΙΜοσχανδρέα 9

ΠΑΡΑ ΕΙΓΜΑ 2. Πάρθηκε ένα τυχαίο δείγµα 100 γυναικών από µεγάλη αγροτική περιοχή της Κίνας και µετρήθηκε το ύψος σώµατος των γυναικών. Η κατανοµή του ύψους φαίνεται περίπου κανονική. Η µέση τιµή του δείγµατος είναι 155,0 εκ και η ΤΑ 20 εκ. Ποιο είναι το 95% Ε για τη µέση τιµή του πληθυσµού; Το Ε δίνεται από τον τύπο x ± ( 1,96ΤΣ) δηλαδή 155 ± 1,96 (ΤΑ/ n) 155 ± 1,96 (20/10) δηλαδή 155 ± 3,92. Οπότε, το 95% Ε είναι από 151,1 έως 158,9 εκ. (σε 1 δ.ψ.). Λέµε ότι «Έχουµε 95% σιγουριά ότι το µέσο ύψος γυναικών αυτής της αγροτικής περιοχής της Κίνας είναι µεταξύ 151,1 και 158,9 εκ.» 2.3 Ο έλεγχος-t για µία οµάδα (single-sample t-test) Προϋπόθεση: η µεταβλητή να έχει κανονική κατανοµή στον πληθυσµό. ΠΑΡΑ ΕΙΓΜΑ 3. Ζυγίστηκε ένα τυχαίο δείγµα 9 ποντικιών κατά τη γέννησή τους. Οι µητέρες είχαν ειδική δίαιτα πριν την εγκυµοσύνη. Οι τιµές ήταν 15,21,17,19,22,25,22,29 και 21g. Η κατανοµή του βάρους γέννησης είναι κανονική 6. Ο µέσος όρος του δείγµατος είναι 21,2 γρ και η ΤΑ 4,15 γρ (σε 2 δ.ψ.) {Μπορείτε να ελέγξετε τη µ.τ. & ΤΑ στο SPSS} Το µέσο βάρος γέννησης είναι 20 γραµµάρια σε ποντίκια στην κανονική δίαιτα. Είναι πιθανό ότι το µέσο βάρος του πληθυσµού (των ποντικιών µε µητέρα σε ειδική δίαιτα) είναι 20 γραµµάρια; Σκοπός είναι να ελέγξουµε εάν η (άγνωστη) µέση τιµή του πληθυσµού µπορεί να ισούται µε κάποια υποτιθέµενη τιµή µ 0. ηλώνουµε τη µηδενική υπόθεση (Η 0 ) και την εναλλακτική υπόθεση (Η 1 ). Εδώ Η 0 : µ=µ 0, Η 1 : µ µ 0. Εφαρµόζοντας τον έλεγχο t για µία οµάδα (single-sample t-test), υπολογίζουµε την πιθανότητα ότι βρίσκουµε τη συγκεκριµένη εκτίµηση της µ.τ. (ή κάποια πιο διαφορετική εκτίµηση), υποθέτοντας ότι η Η 0 αληθεύει. Όπως αναφέρθηκε παραπάνω, συµβατικά όταν p>0,05 θωρούµε ότι δεν υπάρχει αρκετή απόδειξη για να απορρίψουµε την Η 0 (βλ. 1.3.4). ηλαδή, όταν η πιθανότητα να βρούµε τα συγκεκριµένα αποτελέσµατα είναι πάνω από 5%, δεν απορρίπτουµε την Η 0 (αποδεχόµαστε τη Η 0 ). Λεπτοµέρειες για το πώς διεξάγεται η δοκιµασία δίνονται στο Παράρτηµα 4. Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare means One-Sample T Test... ΠΑΡΑ ΕΙΓΜΑ 3 (συν). SPSS output 6 Εδώ θεωρώ γνωστό ότι η κατανοµή είναι κανονική. 9 παρατηρήσεις είναι λίγες για να βγάλουµε συµπέρασµα για την µορφή της κατανοµής. ΙΜοσχανδρέα 10

To SPSS δίνει την ακριβή πιθανότητα p=0.402. ηλαδή εφ όσον ισχύει η Η 0, η πιθανότητα ότι θαβρίσκαµε αυτά τα αποτελέσµατα (ή µια ακόµη µεγαλύτερη διαφορά από το 1,2) είναι 40%. Συνεπώς, δεν απορρίπτεται η Η 0. Προϋπόθεση για την εφαρµογή του έλεγχου t είναι ότι η κατανοµή της µεταβλητής είναι κανονική στον πληθυσµό. Ο έλεγχος t θεωρείται όµως αρκετά ανθεκτικός (robust). ηλαδή, τα αποτελέσµατα δεν επηρεάζονται εύκολα από κάποια µικρή διαφοροποίηση από την κανονική κατανοµή. Όταν όµως είναι εµφανές ότι η κατανοµή της µεταβλητής δεν είναι κανονική, δεν πρέπει να εφαρµοστεί ο έλεγχος t. ύο άλλες προσεγγίσεις χρησιµοποιούνται όταν η κατανοµή δεν είναι κανονική: 1) ο µετασχηµατισµός της µεταβλητής ώστε να πλησιάζει η κατανοµή την ή 2) η εφαρµογή κάποιας δοκιµασίας που δεν απαιτεί την κανονικότητα, δηλαδή κάποιας µηπαραµετρικής δοκιµασίας. Οι µη-παραµετρικοί µέθοδοι που µπορούν να εφαρµοστούν όταν πρόκειται για µια οµάδα παρατηρήσεων όπου η µεταβλητή δεν φαίνεται να ακολουθεί κανονική κατανοµή, είναι ο προσηµικός έλεγχος (sign test) ή ο προσηµικός έλεγχος βαθµίδων του Wilcoxon (Wilcoxon signed ranks test). Αυτοί οι έλεγχοι περιγράφονται στην παράγραφο 3.3 παρακάτω. 2.4 Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µικρό. Όταν µια µεταβλητή ακολουθεί κανονική κατανοµή, τότε η µέση τιµή του δείγµατος ακολουθεί κανονική κατανοµή. Όταν όµως το δείγµα είναι µικρό (n < 100), δεν µπορούµε να υποθέσουµε ότι η TA του δείγµατος (s) θα πλησιάζει την ΤΑ του πληθυσµού σ, οπότε δεν ξέρουµε εάν το s 2 /n είναι s καλή εκτίµηση της σ 2 /n. Αλλά ο λόγος x ακολουθεί την κατανοµή t µε (n-1) βαθµούς n ελευθερίας 7. Οπότε το 95% Ε για τη µέση τιµή έχει τη µορφή: Κατώτερο όριο: µ.τ. του δείγµατος (t 0,05 επί ΤΣ) Ανώτερο όριο: µ.τ. του δείγµατος + (t 0,05 επί ΤΣ) ηλαδή x ± t 0 ΤΣ) όπου το ΤΣ=s/ n και το t 0,05 είναι το εκατοστιαίο σηµείο της κατανοµής t µε n-1 (, 05 βαθµούς ελευθερίας που δίνει αµφίπλευρη 6 πιθανότητα 0,05. Η κατανοµή t δίνει ένα κάπως πιο ευρύ Ε από αυτό που δηµιουργείται µε τη χρήση της κανονικής κατανοµής, αντανακλώντας έτσι την αβεβαιότητα της εκτίµησης της ΤΑ της µεταβλητής στον πληθυσµό. Όσο αυξάνεται το µέγεθος του δείγµατος, τόσο οι διαφορές µεταξύ της κατανοµής t και της κανονικής κατανοµής (και εποµένως η διαφορά των δύο διαστηµάτων) λιγοστεύουν. Όταν το δείγµα είναι µεγάλο, οι διαφορές είναι µηδαµινές. ΣΥΜΠΕΡΑΣΜΑ Όταν η µεταβλητή έχει κανονική κατανοµή, η κατανοµή t µπορεί να χρησιµοποιηθεί για τη δηµιουργία ενός.ε., ανεξαρτήτως µεγέθους δείγµατος. Συµβατικά χρησιµοποιούµε τα 95% Ε. Μπορούµε όµως να υπολογίσουµε κι άλλα διαστήµατα π.χ. το 99%.Ε. Σε αυτές τις περιπτώσεις αντί να πολλαπλασιάσουµε µε τη τιµή που αντιστοιχεί σε αµφίπλευρη πιθανότητα 0,05 χρησιµοποιούµε την τιµή που αντιστοιχεί στην πιθανότητα που µας ενδιαφέρει π.χ. p=0,01 για ένα 99% Ε. Στο SPSS 20, ένα 95% Ε για τη µέση τιµή δίνεται µε τη διαδροµή Analyze Descriptive Statistics Explore... 7 Περισσότερες λεπτοµέρειες στο Παράρτηµα 3. ΙΜοσχανδρέα 11

Για να βρείτε ένα Ε µε άλλο επίπεδο εµπιστοσύνης (πχ 99%), ακολουθήσετε την ίδια διαδροµή αλλά επιλέξετε το κουτί Statistics και γράψετε το ποσοστό που θέλετε στο κουτί που αντιστοιχεί στο Confidence Interval For Mean ΠΑΡΑ ΕΙΓΜΑ 4 8. ιαφορά σε πρόσληψη πρωτεΐνης. Στα πλαίσια µιας διαχρονικής µελέτης παρέµβασης σε παιδιά αρχικά της πρώτης τάξης του δηµοτικού (το 1992), µία τυχαία υπο-οµάδα παιδιών συµπλήρωσε ένα 3ηµερο ηµερολόγιο καταγραφής ζυγισµένων τροφίµων, από το οποίο εκτιµήθηκε η πρόσληψη µακρο- και µικρο-θρεπτικών συστατικών σε παιδιά της 1 ης και της 6 ης τάξης του δηµοτικού. 42 αγόρια είχαν µετρήσεις. Υπολογίστηκε η διαφορά στην πρόσληψη πρωτεΐνης (σαν ποσοστό ενέργειας) µεταξύ των δύο περιόδων. Η κατανοµή της διαφοράς στην πρόσληψη πρωτείνης φαίνεται περίπου κανονική. Η µέση τιµή είναι 0,78 %En, η ΤΑ 3,72 %En. Ποιο είναι το 95% Ε για τη µέση διαφορά στην πρόσληψη πρωτείνης; SPSS: το 95% Ε είναι από -0,4 µέχρι 1,9 %En. Με το χέρι: έχουµε 42-1=41 β.ε. Οπότε t 0,05 =2,02 (βλ. Παράρτηµα 3) και το 95% Ε x ± t 0 ΤΣ) είναι 0,78 ±(2,02*3,72/ 42) = από -0,4 µέχρι 1,9 %En. Ερµηνεία: Έχουµε 95% σιγουριά ότι η µέση διαφορά στην πρόσληψη πρωτεϊνών σαν % ενέργειας στα αγόρια µεταξύ της 1 ης και 6 ης τάξης βρίσκεται µεταξύ -0,4 και 1,9 %Εn. Πόσο διαφορετικό θα ήταν το 95% Ε αν είχαµε χρησιµοποιήσει το 1,96; 3. ύο σχετιζόµενες οµάδες 3.1 Παρατηρήσεις κατά ζεύγη Τα δεδοµένα θεωρούνται ότι είναι κατά ζεύγη (paired) όταν υπάρχουν 2 δείγµατα που σχετίζονται µεταξύ τους. Οι µετρήσεις µπορεί να γίνονται: 1) στο ίδιο άτοµο, αλλά κάτω από διαφορετικές συνθήκες π.χ. πριν και µετά από κάποια θεραπεία. 2) στο ίδιο άτοµο την ίδια χρονική περίοδο άλλα π.χ. σε 2 διαφορετικά µέρη του σώµατος ή σε κάθε µάτι. 3) σε άτοµα που έχουν «ταιριαστεί» (matched) ένα προς ένα µε άλλα άτοµα π.χ. συχνά επιλέγουµε άτοµα της ίδιας ηλικίας και του ιδίου φύλου για την οµάδα «ελέγχου». Το πλεονέκτηµα του να έχουµε παρατηρήσεις κατά ζεύγη είναι ότι µπορούµε να κάνουµε τις συγκρίσεις που ενδιαφέρουν εξετάζοντας µόνο τις διαφορές εντός-ατόµων (within-subject differences) και αγνοώντας τη µεταβλητότητα µεταξύ ατόµων (between-subject variability). Η µεταβλητότητα µεταξύ ατόµων θα µπορούσε µάλιστα να «κρύψει» τα αποτελέσµατα (effects) που µας ενδιαφέρουν. Εδώ εξετάζουµε τη διαφορά µεταξύ των δύο παρατηρήσεων του κάθε ατόµου και τη µεταβλητότητα αυτών των διαφορών. 3.2 T-test για παρατηρήσεις κατά ζεύγη Ένας παραµετρικός έλεγχος που χρησιµοποιείται συχνά όταν πρόκειται για παρατηρήσεις κατά ζεύγη ονοµάζεται έλεγχος t για παρατηρήσεις κατά ζεύγη (paired t-test). Η προϋπόθεση για την εφαρµογή του ελέγχου είναι ότι οι διαφορές µεταξύ των παρατηρήσεων έχουν κανονική κατανοµή. Σηµειώνεται ότι δεν είναι απαραίτητο η κατανοµή της µεταβλητής να είναι κανονική για να έχουν περίπου κανονική κατανοµή οι διαφορές. Η µηδενική υπόθεση είναι ότι η µέση διαφορά µεταξύ των δύο µετρήσεων είναι µηδέν στον πληθυσµό. Λεπτοµέρειες για το πώς διεξάγεται η δοκιµασία δίνονται στο Παράρτηµα 4. (, 05 8 Το SPSS αρχείο που περιέχει αυτά τα δεδοµένα ονοµάζεται boys9298.sav και η µεταβλητή diffprtper9892. Ελέγξετε ότι βγάζετε τα ίδια αποτελέσµατα. ΙΜοσχανδρέα 12

Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare means Paired-Samples T Test... ΠΑΡΑ ΕΙΓΜΑ 5. Olive oil phenols Σε µια πειραµατική µελέτη της πιθανής επίδρασης των πολυφαινόλων του ελαιολάδου στα επίπεδα κάποιων µετρήσεων του αίµατος που σχετίζονται µε αντιοξειδωτική δράση (και είναι γνωστά ως «δείκτες οξείδωσης») επιλέχθηκε µια οµάδα Ελλήνων καπνιστών. Τα άτοµα συµφώνησαν να λάβουν µέρος σε ένα πρόγραµµα διαιτητικής παρέµβασης όπου θα ελάµβαναν ελαιόλαδο χαµηλής και υψηλής περιεκτικότητας σε πολυφαινόλες. Το κάθε άτοµο κατανάλωσε 70γρ ελαιολάδου (είτε χαµηλής είτε υψηλής περιεκτικότητας σε πολυφαινόλες) ηµερησίως για 3 εβδοµάδες και µετά 70γρ ελαιολάδου (του άλλου τύπου) ηµερησίως για άλλες 3 εβδοµάδες. Έγιναν δύο αιµοληψίες, µια στο τέλος της κάθε (τρις-εβδοµαδιαίας) παρέµβασης. Σκοπός είναι να ερευνηθεί αν τα µέσα επίπεδα των δεικτών οξείδωσης του πλάσµατος διαφέρουν ανάλογα µε το εάν έχει καταναλωθεί ελαιόλαδο υψηλής ή χαµηλής περιεκτικότητας σε πολυφαινόλες (το αρχείο των δεδοµένων ονοµάζεται poloil.sav κι οι µεταβλητές rateh& ratel). Το αποτέλεσµα θα συγκριθεί µε το επίπεδο σηµαντικότητας 5%. Επειδή εξετάζουµε τις διαφορές µεταξύ των δύο µεταβλητών, ουσιαστικά χρησιµοποιούµε τις τεχνικές ανάλυσης της µιας οµάδας παρατηρήσεων, ελέγχοντας αν η µέση διαφορά διαφέρει από το µηδέν. Μπορούµε να δηµιουργήσουµε και ένα Ε, όπως περιγράφεται στην παράγραφο 2.3, δηλαδή d d ± ( t 0, 05ΤΣ( d )), όπου d είναι η µέση διαφορά (δηλαδή i για i=1,2,...,n) και t 0,05 είναι το i n εκατοστιαίο σηµείο της κατανοµής t µε n-1 βαθµούς ελευθερίας. ΠΑΡΑ ΕΙΓΜΑ 5 (συν). Paired Samples Statistics Pair 1 rate ox high rate ox low Std. Error Mean N Std. Deviation Mean.1967 26.02078.00408.2031 26.01789.00351 Pair 1 rate ox high - rate ox low Paired Samples Test Paired Differences 95% Confidence Interval of the Std. Error Difference Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed) -.00635.01809.00355 -.01365.00096-1.789 25.086 Η τιµή p είναι 0,086. Οπότε η Η 0 δεν απορρίπτεται. εν υπάρχει απόδειξη ότι οι ρυθµοί οξείδωσης διαφέρουν ανάλογα µε την περιεκτικότητα σε πολυφαινόλες του ελαιολάδου που καταναλώθηκε. Το 95% Ε της διαφοράς είναι από -0,01365 έως 0,00096 µmol/l dienes/min. ΣΗΜΕΙΩΣΗ Όταν η τιµή p είναι µεγαλύτερη του 0,05, τότε το 95% Ε συµπεριλαµβάνει το 0. Όταν το δείγµα είναι µεγάλο, τότε µπορεί να χρησιµοποιηθεί η τκκ αντί για την κατανοµή t και στη δηµιουργία των Ε αλλά και στον έλεγχο υπόθεσης. ΙΜοσχανδρέα 13

3.3 Μη παραµετρικοί έλεγχοι: οι δοκιµασίες Sign test & Wilcoxon signed ranks test Όταν οι διαφορές δεν φαίνεται να έχουν κανονική κατανοµή (ή ο αριθµός των παρατηρήσεων είναι πολύ µικρός για να παρθεί απόφαση για τη µορφή της κατανοµής), τότε µπορούν είτε να µετασχηµατιστούν τα δεδοµένα είτε να εφαρµοστεί ο µη-παραµετρικός έλεγχος προσήµων (sign test) ή ο µη-παραµετρικός έλεγχος του Wilcoxon για παρατηρήσεις κατά ζεύγη (Wilcoxon matched pairs signed ranks test) για να αξιολογηθεί το εάν οι διαφορές έχουν κεντρικό σηµείο το µηδέν ή όχι. H µηδενική υπόθεση στην εφαρµογή και των δύο ελέγχων είναι ότι η διάµεσος των διαφορών του πληθυσµού είναι 0. Εφαρµόζοντας τον έλεγχο πρόσηµων, συγκρίνεται η συχνότητα των αρνητικών τιµών µε τη συχνότητα των θετικών τιµών. εν λαµβάνεται υπ όψιν όµως το µέγεθος των διαφορών. π.χ. αν είναι 7 οι θετικές διαφορές και 3 οι αρνητικές, δεν έχει σηµασία εάν οι 3 είναι -1,-2 και -3 ή - 100,-200 και -300. Στη δοκιµασία του Wilcoxon για παρατηρήσεις κατά ζεύγη λαµβάνονται υπ όψιν και τα πρόσηµα και τα µεγέθη των διαφορών. Αυτός ο έλεγχος έχει περισσότερη ισχύ (power) από τον έλεγχο πρόσηµων στο να ανιχνεύσει µια διαφορά όταν αυτή πραγµατικά υπάρχει. Προϋπόθεση για την εφαρµογή του ελέγχου είναι ότι οι διαφορές µεταξύ ζευγών παρατηρήσεων προέρχονται από συµµετρική κατανοµή. Οι διαφορές τοποθετούνται στη σειρά ανάλογα µε το µέγεθός τους και βαθµολογούνται από το 1 (µικρότερη διαφορά) µέχρι m (µεγαλύτερη διαφορά). Οι µηδενικές διαφορές αγνοούνται (οπότε m n, όπου το n είναι το µέγεθος του δείγµατος). Υπό την µηδενική υπόθεση έλλειψης διαφοράς τα αθροίσµατα της σειράς των θέσεων (ranks) των θετικών και των αρνητικών διαφορών είναι ίδια. Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Nonparametric Tests Legacy dialogs 2 Related Samples... Και Analyze Nonparametric Tests Related Samples... ΠΑΡΑ ΕΙΓΜΑ 6. Βαθµολόγηση φαρµάκου αϋπνίας Σε 10 άτοµα µε χρόνια αϋπνία δίδεται ένα φάρµακο για 3 εβδοµάδες και µετά από 1 µήνα (wash-out) ένα δεύτερο φάρµακο για 3 εβδοµάδες. Τα άτοµα βαθµολογούν τα 2 φάρµακα (µε πιθανές τιµές από 0 έως 40). Α Β διαφορά 33 36-3 24 24 0 37 20 17 11 12-1 12 14-2 22 36-14 24 26-2 16 17-1 20 21-1 15 18-3 Υπάρχουν 8 διαφορές < 0, 1 διαφορά =0 και 1 διαφορά >0. Test Statistics b Exact Sig. (2-tailed) B - A.039 a a. Binomial distribution used. b. Sign Test Το sign test δίνει πιθανότητα 0,039. Οπότε απορρίπτουµε τη Η 0 σε επίπεδο σηµαντικότητας 5%. Υπάρχει κάποια απόδειξη ότι οι ασθενείς προτιµούν τη Β θεραπεία. Το output για τη δοκιµασία του Wilcoxon είναι: ΙΜοσχανδρέα 14

Ranks B - A a. B < A b. B > A c. B = A Negative Ranks Positive Ranks Ties Total N Mean Rank Sum of Ranks 1 a 9.00 9.00 8 b 4.50 36.00 1 c 10 Test Statistics b Z Asymp. Sig. (2-tailed) B - A -1.608 a a. Based on negative ranks..108 b. Wilcoxon Signed Ranks Test H δοκιµασία του Wilcoxon δίνει p=0,108. εν απορρίπτεται η Η 0 (σε επίπεδο 5%). Σ αυτή την περίπτωση οι 2 έλεγχοι δεν συµφωνούν. Κοιτάζοντας τα δεδοµένα προσεκτικά, µπορείτε να καταλάβετε γιατί; 4. ύο ανεξάρτητες (µη-σχετιζόµενες) οµάδες Η πιο συνηθισµένη στατιστική ανάλυση σε κλινικές µελέτες και σε µελέτες παρατήρησης αφορά τη σύγκριση δύο ανεξάρτητων οµάδων παρατηρήσεων. 4.1 t-test για δύο ανεξάρτητα (µη-σχετιζόµενα) δείγµατα Προϋπόθεση: η µεταβλητή έχει κανονική κατανοµή στον πληθυσµό της κάθε οµάδας και οι διακυµάνσεις στους δύο πληθυσµούς είναι ίδιες. Τα δείγµατα πρέπει να είναι αρκετά µεγάλα ώστε να µπορούν να ελεγχθούν οι υποθέσεις της κανονικής κατανοµής και των ίσων διακυµάνσεων. Η Η 0 είναι ότι οι µέσες τιµές στους πληθυσµούς των 2 οµάδων είναι ίσες. Εξετάζεται η διαφορά των µέσων τιµών. Η 0 : µ 1 -µ 2 =0. Η 1 : µ 1 -µ 2 0 Ο έλεγχος γίνεται µε τον υπολογισµό µιας στατιστικής συνάρτησης ελέγχου (test statistic) που βασίζεται στη διαφορά µεταξύ των µ.τ. των 2 δειγµάτων x 1 x2, και στην υποτιθέµενη διαφορά µεταξύ των 2 µ.τ. των πληθυσµών (δηλαδή 0). Όταν αληθεύει η Η 0, η συνάρτηση αύτη ακολουθεί την κατανοµή t µε (n 1 +n 2-2) β.ε.. Λεπτοµέρειες για το πώς διεξάγεται η δοκιµασία δίνονται στο Παράρτηµα 4. Όπως και στους ελέγχους µιας µέσης τιµής και στη σύγκριση 2 σχετισµένων οµάδων, βρίσκουµε µια πιθανότητα (µια τιµή p) που συνδέεται µε την τιµή της στατιστικής συνάρτησης ελέγχου. Έτσι υπολογίζουµε την πιθανότητα του να βρούµε την παρατηρούµενη διαφορά (ή κάποια ακόµη µεγαλύτερη διαφορά µεταξύ µέσων τιµών) εφ οσον η Η 0 ισχύει. Όπως και για τους άλλους ελέγχους που περιγράφτηκαν, συµβατικά επιλέγουµε ένα επίπεδο σηµαντικότητας 0,05 (5%). Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare means Independent-Samples T Test... Το SPSS εφαρµόζει τη δοκιµασία «Levene s test for equality of variances» της οποίας η Η 0 είναι ότι οι διακυµάνσεις είναι ίσες και κάνει κάποια τροποποίηση στη στατιστική συνάρτηση για να ληφθούν υπ όψιν οι διαφορές στις διακυµάνσεις. Όµως, επειδή οι άνισες διακυµάνσεις συχνά συνοδεύονται από ΙΜοσχανδρέα 15

λοξότητα στην κατανοµή, είναι προτιµότερο να εφαρµοστεί µη-παραµετρικός έλεγχος (ή κάποιος µετασχηµατισµός) εάν υπάρχει η υποψία ότι οι διακυµάνσεις διαφέρουν. ΠΑΡΑ ΕΙΓΜΑ 7. Καπνιστές & πρώην καπνιστές µε ΧΑΠ. Θέλουµε να συγκρίνουµε τα µέσα επίπεδα σπιροµέτρησης (FEV1%pred) σε πρώην καπνιστές (53 άτοµα) και καπνιστές (38 άτοµα) µε ΧΑΠ. Οι κατανοµές της FEV1 φαίνονται κανονικές. (το αρχείο δεδοµένων ονοµάζεται copd_all.sav). H 0 : οι µέσες τιµές της σπιροµέτρησης είναι ίδιες στους πληθυσµούς των καπνιστών και πρώην καπνιστών µε ΧΑΠ. Επιλέγουµε επίπεδο σηµαντικότητας 5%. Περιγραφικά στοιχεία: Group Statistics fev11pred smokstat 0 1 Std. Error N Mean Std. Deviation Mean 53 52.379 22.5669 3.0998 38 60.849 22.5814 3.6632 Levene s test for equality of variances p=0,889. εν υπάρχει καµία απολύτως απόδειξη ότι οι διακυµάνσεις δεν είναι ίσες.{φαίνεται άλλωστε από τις ίδιες τις ΤΑ που είναι και οι δύο 22,6 %pred}. Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means fev11pred Equal variances assumed Equal variances not assumed F Sig. t df Sig. (2-tailed).019.889-1.765 89.081-1.765 79.834.081 t-test: p=0,081. εν απορρίπτουµε την Η0. εν υπάρχει απόδειξη ότι οι µ.τ. τις FEV%pred διαφέρουν µεταξύ καπνιστών και πρώην καπνιστών. Σηµειώνεται ότι όταν τα δείγµατα είναι µεγάλα (το καθένα >50) και οι παρατηρήσεις ανεξάρτητες, τότε µπορεί να εφαρµοστεί ο έλεγχος Ζ για δύο ανεξάρτητα δείγµατα (two sample Z test), ακόµα και όταν οι κατανοµές δεν είναι κανονικές. 4.2.Ε. για τη διαφορά µεταξύ δύο µέσων τιµών. Η προϋπόθεση για τη δηµιουργία του Ε είναι ίδια µε αυτή για την εφαρµογή του ελέγχου t για 2 ανεξάρτητα δείγµατα (στο 4.1), δηλαδή η µεταβλητή έχει κανονική κατανοµή στον πληθυσµό της κάθε οµάδας και οι διακυµάνσεις των δύο πληθυσµών είναι ίδιες. Το 95%.Ε. έχει τη µορφή x x ± ta ΤΣ( x )) όπου το ΤΣ υπολογίζεται µε τον ίδιο τρόπο που 1 2 ( 1 x2 δίνεται στο Παράρτηµα 4 για τον έλεγχο t για 2 ανεξάρτητα δείγµατα. ΙΜοσχανδρέα 16

ΠΑΡΑ ΕΙΓΜΑ 7 (συν). Καπνιστές & πρώην καπνιστές µε ΧΑΠ. Independent Samples Test fev11pred Equal variances assumed Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper -8.4700 4.7982-18.0039 1.0639 Εφαρµόζοντας τον έλεγχο t για ανεξάρτητα δείγµατα, δίνεται και το 95% Ε για τη διαφορά στις µ.τ Έχουµε 95% εµπιστοσύνη ότι η πραγµατική διάφορα στην µέση FEV1%pred κυµαίνεται από µια µείωση 1 µονάδας µέχρι µια αύξηση 18 µονάδων στους καπνιστές σε σχέση µε τους µη-καπνιστές, στους οποίους γίνεται διάγνωση ΧΑΠ. Όπως αναφέρθηκε και παραπάνω, όταν τα δείγµατα είναι µεγάλα (το καθένα >50) και οι παρατηρήσεις ανεξάρτητες, τότε το Ε µπορεί δηµιουργηθεί χρησιµοποιώντας της τιµές της τ.κ.κ. 4.3 Μη-παραµετρικοί έλεγχοι: Mann-Whitney test / Wilcoxon rank sum test Τα µη-παραµετρικά αντίστοιχα του έλεγχου t για ανεξάρτητα δείγµατα είναι το Mann-Whitney U test και το Wilcoxon rank sum test. Οι δύο αυτοί έλεγχοι έχουν διαφορετική προέλευση αλλά δίνουν ακριβώς τα ίδια αποτελέσµατα. εν υπάρχουν προϋποθέσεις για τη µορφή της κατανοµής. Η Η 0 είναι ότι οι δύο οµάδες έχουν την ίδια κατανοµή στον πληθυσµό (δηλαδή έρχονται από τον ίδιο πληθυσµό). Όπως και στις µη-παραµετρικές µεθόδους που αναφέρθηκαν στις παρ. 2.2.2 και 3.2, ο υπολογισµός του κριτηρίου έλεγχου βασίζεται όχι στις ίδιες τις παρατηρήσεις αλλά στη θέση που έχει η κάθε παρατήρηση σε σχέση µε τις άλλες (rank). Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Nonparametric Tests Legacy Dialogs 2 Independent Samples... (ή, εναλλακτικά, Analyze Nonparametric Tests Independent Samples...) ΠΑΡΑ ΕΙΓΜΑ 8. Θέλουµε να συγκρίνουµε τις µέσες τιµές ινσουλίνης σε αγόρια και κορίτσια προσχολικής ηλικίας από µια αγροτική περιοχή της Κρήτης. Η κατανοµή της ινσουλίνης δεν φαίνεται να είναι κανονική και οι διακυµάνσεις φαίνεται να διαφέρουν: η µ.τ. (ΤΑ) της ινσουλίνης είναι 6,2 (12,4) µiu/ml σε 12 αγόρια και 6,1 (3,3) µiu/ml σε 8 κορίτσια. Εφαρµόζοντας τον έλεγχο Mann-Whitney, έχουµε τα εξής αποτελέσµατα: Test Statistics b Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. b. Grouping Variable: sex insulin 35.500 113.500 -.965.335.343 a Η τιµή p είναι 0,34 οπότε δεν υπάρχει καµία απόδειξη ότι οι κατανοµές διαφέρουν µεταξύ αγοριών και κοριτσιών. ΙΜοσχανδρέα 17

Το αρχείο δεδοµένων ονοµάζεται Rouvas20.sav. 5. Συγκρίσεις µε περισσότερες από δύο οµάδες 5.1 One-way ANOVA Όταν υπάρχουν περισσότερα από δύο ανεξάρτητα δείγµατα στα οποία έχουν µετρηθεί οι τιµές µιας αριθµητικής µεταβλητής, η σύγκριση των µέσων τιµών µπορεί να γίνει µε τη δοκιµασία που ονοµάζεται ανάλυση διακύµανσης κατά µία διεύθυνση (one-way analysis of variance, one way ANOVA) 9. Προϋπόθεση: η µεταβλητή έχει κανονική κατανοµή στον πληθυσµό της κάθε οµάδας και οι διακυµάνσεις στους πληθυσµούς είναι ίδιες. Τα δείγµατα πρέπει να είναι αρκετά µεγάλα ώστε να µπορούν να ελεγχθούν οι υποθέσεις της κανονικής κατανοµής και των ίσων διακυµάνσεων. εν είναι απαραίτητο το κάθε δείγµα να έχει το ίδιο µέγεθος. Η Η 0 είναι ότι οι µέσες τιµές στους πληθυσµούς είναι ίσες. Η εναλλακτική υπόθεση είναι ότι τουλάχιστον µία µέση τιµή διαφέρει από τις άλλες. Ο έλεγχος γίνεται µε τον υπολογισµό µιας στατιστικής συνάρτησης ελέγχου η οποία είναι ο λόγος της διακύµανσης µεταξύ οµάδων προς την διακύµανση εντός οµάδων. Όταν αληθεύει η Η 0, η συνάρτηση αύτη ακολουθεί την κατανοµή F µε (k-1,n-1) β.ε. [k-1 στον αριθµητή και ν-1 στον παρανοµαστή], όπου το k είναι ο αριθµός τον οµάδων και το n είναι το συνολικό µέγεθος του δείγµατος. Όπως και στους άλλους ελέγχους, βρίσκουµε µια πιθανότητα (µια τιµή p) που συνδέεται µε την τιµή της στατιστικής συνάρτησης ελέγχου. Έτσι υπολογίζουµε την πιθανότητα του να βρούµε την παρατηρούµενη διαφορά (ή κάποια ακόµη µεγαλύτερη διαφορά µεταξύ µέσων τιµών) εφ οσον η Η 0 ισχύει. Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Compare Means One-way ANOVA... Εάν βρεθεί ένα στατιστικά σηµαντικό αποτέλεσµα, ίσως θελήσουµε να προχωρήσουµε σε post-hoc συγκρίσεις µεταξύ ζευγαριών οµάδων. Συχνά χρησιµοποιούνται οι έλεγχοι LSD και Bonferroni. ΠΑΡΑ ΕΙΓΜΑ 9. Thrombocytosis patients Το αρχείο thrombo.sav 10 περιέχει δεδοµένα από 27 ασθενείς µε essential θροµβοκυττάρωση (ΕΤ), 52 µε reactive θροµβοκυττάρωση (RT) και 25 controls. Σκοπός είναι να εξετασθεί εάν τα µέσα επίπεδα της αιµοσφαιρίνης (Ηb, g/dl) διαφέρουν µεταξύ των 3 οµάδων. Οι κατανοµές φαίνονται περίπου κανονικές και οι διακυµάνσεις παρόµοιες. H 0 : οι µέσες τιµές της αιµοσφαιρίνης είναι ίδιες στους πληθυσµούς των τριών οµάδων. Επιλέγουµε επίπεδο σηµαντικότητας 5%. Περιγραφικά στοιχεία: 9 Η συνολική µεταβλητότητα των δεδοµένων χωρίζεται στην µεταβλητότητα που προέρχεται από διαφορές µεταξύ των ατόµων των διαφόρων οµάδων και στην τυχαία µεταβλητότητα µεταξύ ατόµων που είναι στην ίδια οµάδα. Αυτές οι συνιστώσες (components) της µεταβλητότητας µετρούνται χρησιµοποιώντας τις διακυµάνσεις (variances). εξ ου και η ονοµασία του έλεγχου. 10 Τα δεδοµένα παραχωρήθηκαν από την κ Freda Passam. ΙΜοσχανδρέα 18

Descriptives hb ET RT controls Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 27 13.330 1.4106.2715 52 11.035 1.7774.2465 10.540 11.529 6.4 15.6 25 14.776 1.0635.2127 14.337 15.215 13.1 16.9 104 12.530 2.2025.2160 12.101 12.958 6.4 16.9 ANOVA hb Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 259.658 2 129.829 54.636.000000 240.000 101 2.376 499.658 103 P<0,00001. Υπάρχει πολύ ισχυρή απόδειξη εναντίον της µηδενικής υπόθεσης. Απορρίπτεται η Η 0. Οι µέσες συγκεντρώσεις διαφέρουν µεταξύ οµάδων. Εφαρµόζοντας post-hoc συγκρίσεις Scheffe, έχουµε τα εξής αποτελέσµατα: Dependent Variable: hb Scheffe Multiple Comparisons (I) group (J) group Mean Difference Std. Error Sig. 95% Confidence Interval (I-J) Lower Bound Upper Bound ET RT controls RT 2,2950 *,3657,000 1,387 3,203 controls -1,4464 *,4279,004-2,509 -,383 ET -2,2950 *,3657,000-3,203-1,387 controls -3,7414 *,3752,000-4,673-2,809 ET 1,4464 *,4279,004,383 2,509 RT 3,7414 *,3752,000 2,809 4,673 *. The mean difference is significant at the 0.05 level. Όλες οι συγκρίσεις κατά ζεύγη είναι στατιστικά σηµαντικές. 5.2 Μη-παραµετρικός έλεγχος: Κruskal-Wallis test Όταν οι κατανοµές δεν φαίνονται κανονικές, ή οι διακυµάνσεις δεν µπορούν να θεωρηθούν ίσες (ή ο αριθµός των παρατηρήσεων είναι πολύ µικρός για να παρθεί απόφαση για τη µορφή της κατανοµής), τότε µπορούν είτε να µετασχηµατιστούν τα δεδοµένα είτε να εφαρµοστεί ο αντίστοιχος µηπαραµετρικός έλεγχος του one-way ANOVA, ο οποίος είναι ο έλεγχος Κruskal-Wallis. Ο έλεγχος αυτός είναι η επέκταση του Wilcoxon rank sum test για περισσότερες από 2 οµάδες. εν υπάρχουν προϋποθέσεις για τη µορφή της κατανοµής. Η Η 0 είναι ότι όλες οι οµάδες έχουν την ίδια κατανοµή στον πληθυσµό. Όπως και στις µηπαραµετρικές µεθόδους που αναφέρθηκαν παραπάνω, ο υπολογισµός του κριτηρίου έλεγχου βασίζεται όχι στις ίδιες τις παρατηρήσεις αλλά στη θέση που έχει η κάθε παρατήρηση σε σχέση µε τις άλλες (rank). ΙΜοσχανδρέα 19

Στο SPSS 20, ο έλεγχος εφαρµόζεται µε τις εντολές Analyze Nonparametric Tests Legacy Dialogs Κ Independent Samples... (ή, εναλλακτικά, Analyze Nonparametric Tests Independent Samples...) ΠΑΡΑ ΕΙΤΜΑ 9 (συν). Thrombocytosis patients Το αρχείο thrombo.sav περιέχει δεδοµένα από 27 ασθενείς µε essential θροµβοκυττάρωση (ΕΤ), 52 µε reactive θροµβοκυττάρωση (RT) και 25 controls. Σκοπός είναι να εξετασθεί εάν τα µέσα επίπεδα της Il-2 διαφέρουν µεταξύ των 3 οµάδων. H 0 : οι κατανοµές της Il-2 είναι ίδιες στους πληθυσµούς των τριών οµάδων. Επιλέγουµε επίπεδο σηµαντικότητας 5%. Περιγραφικά στοιχεία: Descriptive Statistics il2 group Percentiles N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75th 103 9.6045 2.47139 2.33 15.29 7.5350 9.6780 11.6390 104 1.98.710 1 3 1.00 2.00 2.00 Test Statistics a,b Chi-Square df Asymp. Sig. il2 2.005 2.367 a. Kruskal Wallis Test b. Grouping Variable: group p=0,367. εν υπάρχει απόδειξη ότι οι κατανοµές της ΙL2 διαφέρουν µεταξύ των 3 οµάδων. Εάν βρεθεί ένα στατιστικά σηµαντικό αποτέλεσµα, και θέλουµε να προχωρήσουµε σε post-hoc συγκρίσεις µεταξύ ζευγαριών οµάδων µπορούν να χρησιµοποιηθούν Mann-Whitney tests. 6. Βιβλιογραφία Altman D.G. (1991) Practical Statistics for Medical Research. Chapman and Hall Armitage P & Berry G (1987) Statistical Methods in Medical Research 2nd ed Blackwell Scientific Publications. Campbell MJ & Machin D (1999) Medical Statistics A Commonsense Approach 3 rd ed Wiley: Chichester. Petrie A, Sabin C. (2005) Medical Statistics at a glance. 2 nd ed. Blackwell Publishing: Oxford. ΙΜοσχανδρέα 20

7. Παραρτήµατα 7.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία Αγγλική Ελληνική Components (of variance) Συνιστώσες (διακύµανσης ή διασποράς) Confidence interval (CI) ιάστηµα εµπιστοσύνης ( Ε) [ ιάστηµα Αξιοπιστίας στο βιβλίο «Βιοστατιστική»] Confidence limit Όριο εµπιστοσύνης ή Όριο αξιοπιστίας Degrees of freedom (d.f.) Βαθµοί ελευθερίας (β.ε.) Effect Επίδραση Hypothesis testing (significance testing) Έλεγχος στατιστικής υπόθεσης (έλεγχος σηµαντικότητας). Matched samples Ταιριασµένα ή συζευγµένα δείγµατα Matching Σύζευξη, ταίριασµα, συναρµογή One sample t-test t-test ενός δείγµατος One way analysis of variance (one way ANOVA) Paired data Ανάλυση διακύµανσης κατά µία διεύθυνση ή Ανάλυση της µεταβλητότητας κατά µία διεύθυνση (βιβλίο «Βιοστατιστική») Παρατηρήσεις κατά ζεύγη Paired t-test Probability density function (p.d.f.) Rank Robust Sampling distribution Sign test Standard deviation Standard error Standard normal distribution Test statistic Transformation Two-tailed probability Unpaired (two-sample) t-test Wilcoxon signed ranks test t-test για ζεύγη µετρήσεων ή κατά ζεύγη t-test. Συνάρτηση πυκνότητας πιθανότητας. Βαθµίδα, δείκτης διάταξης Ανθεκτικός/-ή ειγµατοληπτική κατανοµή ή ειγµατική κατανοµή Προσηµικός έλεγχος Τυπική απόκλιση (ΤΑ) [Σταθερή απόκλιση (ΣΑ)- βιβλίο «Βιοστατιστική»] Τυπικό σφάλµα (ΤΣ) ή [Πιθανό σφάλµα (ΠΣ) )- βιβλίο «Βιοστατιστική»] Τυπική κανονική κατανοµή ή τυποποιηµένη κανονική κατανοµή Στατιστική συνάρτηση ελέγχου ή Στατιστικό κριτήριο ελέγχου Μετασχηµατισµός Αµφίπλευρη πιθανότητα t-test για δύο ανεξάρτητα (µη-σχετιζόµενα) δείγµατα Προσηµικός έλεγχος βαθµίδων του Wilcoxon ΙΜοσχανδρέα 21

7.2 Παράρτηµα 2. Η τυπική κανονική κατανοµή. Εφ όσον το δείγµα είναι αρκετά µεγάλο ή η κατανοµή της µεταβλητής είναι κανονική, τότε η δειγµατοληπτική κατανοµή της µέσης τιµής είναι κανονική, µε µ.τ. µ και διακύµανση σ 2 /n. Μπορούµε να ορίσουµε µια νέα στατιστική συνάρτηση Ζ ως εξής: X µ Z= σ / n Η Ζ θα έχει την τυπική κανονική κατανοµή (τ.κ.κ. standard normal distribution), δηλαδή την κανονική κατανοµή µε µ.τ. 0 και σ 2 =1, η οποία απεικονίζεται στην παρακάτω εικόνα: Όπως και οι άλλες κατανοµές πιθανοτήτων, η τ.κ.κ. έχει την ιδιότητα ότι το συνολικό εµβαδόν (κάτω από τη συνάρτηση πυκνότητας πιθανότητας (probability density function)) αντιπροσωπεύει την πιθανότητα όλων των εφικτών εκβάσεων και ισούται µε τη µονάδα. Για ένα Ε 100(1-α)% για τη µ.τ. µ όπου 0<α<1, από τους πίνακες της τ.κ.κ. βρίσκουµε το εκατοστιαίο σηµείο z α έτσι ώστε Πιθ(Ζ> z α ) = α/2. Λέµε ότι η αµφίπλευρη πιθανότητα (twotailed probability) ότι η τιµή Ζ είναι µεγαλύτερη από την τιµή z α είναι α. Το α αντιπροσωπεύει την αναλογία στις 2 «ουρές» της κατανοµής (δηλαδή, είναι 2,5%+2,5%=5% για ένα 95%.Ε.). Α 0,1 0,05 0,01 0,001 z α 1,64 1,96 2,58 3,29 Για ένα 95% Ε, α=0,05, z 0,05 = 1,96. Για ένα 99% Ε, α=0,01, z 0,01 = 2,58. ηλαδή X µ Πιθ 1,96 1,96 = 0,95 σ / n 1,96σ Η εξίσωση µπορεί να επαναδιαταχθεί Πιθ X n Οπότε το κατώτερο όριο του διαστήµατος είναι και το ανώτερο είναι X 1,96σ +. n 1,96σ µ X + n 1,96σ X n = 0,95 ΙΜοσχανδρέα 22

7.3 Παράρτηµα 3. Η κατανοµή t και οι πίνακες της κατανοµής t. Η γενική µορφή της κατανοµής t δίνεται στην Εικόνα 1 παρακάτω. Η κατανοµή είναι συµµετρική αλλά πιο φαρδιά και πιο επίπεδη στις άκρες της από την κανονική κατανοµή. Το ακριβές σχήµα της κατανοµής εξαρτάται από έναν δείκτη (index) που ονοµάζεται βαθµοί ελευθερίας, β.ε. 11 (degrees of freedom). Όσο αυξάνονται οι β.ε., τόσο η κατανοµή πλησιάζει την κανονική. Οι β.ε. συνδέονται µε το µέγεθος του δείγµατος, β.ε.= n-1. Εικόνα 1. Η συνάρτηση πυκνότητας πιθανότητας (probability density function) για την κατανοµή t µε 2, 5, 20 και άπειρους βαθµούς ελευθερίας. Η κατανοµή t χρησιµοποιείται για τον υπολογισµό διαστηµάτων εµπιστοσύνης και ελέγχους υποθέσεων όταν πρόκειται για µία ή δύο µέσες τιµές. Όπως και η τ.κ.κ., η t κατανοµή έχει την ιδιότητα ότι το συνολικό εµβαδόν κάτω από τη συνάρτηση πυκνότητας πιθανότητας αντιπροσωπεύει την πιθανότητα όλων των εφικτών εκβάσεων και ισούται µε τη µονάδα. {Αναπαραγωγή από το βιβλίο των Campbell & Machin σελ 194} Ο παρακάτω πίνακας περιλαµβάνει τις τιµές της συνάρτησης t α. Αν η Χ έχει κατανοµή t µε n-1 β.ε, τότε η πιθανότητα ότι Χ - t α ή Χ t α είναι α. ηλαδή εντοπίζουµε το εκατοστιαίο σηµείο t α έτσι ώστε Πιθ(T>t α )=α/2. Συγκρίνουµε µε την τιµή της στατιστικής συνάρτησης ελέγχου. π.χ. όταν υπάρχουν 6 β.ε. t 0,05 = 2,447. Αν έχουµε υπολογίσει Τ=3,0 τότε p<0,05. 11 Γενικότερα, οι β.ε. υπολογίζονται ως το µέγεθος του δείγµατος µείον τον αριθµό των εκτιµηµένων παραµέτρων. Εδώ οι β.ε. συνδέονται µε την εκτιµώµενη ΤΑ, που υπολογίζεται ως µεταβλητότητα γύρω από την εκτιµώµενη µ.τ., όποτε είναι (n-1). ΙΜοσχανδρέα 23

Τ=3,0 Aθροίζουµε τις πιθανότητες στα δύο άκρα της κατανοµής επειδή η δοκιµασία είναι αµφίπλευρη (two-tailed test). Θεωρούµε δηλαδή ότι εάν δεν ισχύει η Η 0 η διαφορά µπορεί να είναι είτε στη µία κατεύθυνση είτε στην άλλη (βλ και παρ. 1.3.2). Βαθµοί ελευθερίας α 0.1 0.05 0.02 0.01 0.001 5 2.015 2.571 3.365 4.032 6.869 6 1.943 2.447 3.143 3.707 5.959 7 1.895 2.365 2.998 3.499 5.408 8 1.860 2.306 2.896 3.355 5.041 9 1.833 2.262 2.821 3.250 4.781 10 1.812 2.228 2.764 3.169 4.587 11 1.796 2.201 2.718 3.106 4.437 12 1.782 2.179 2.681 3.055 4.318 13 1.771 2.160 2.650 3.012 4.221 14 1.761 2.145 2.624 2.977 4.140 15 1.753 2.131 2.602 2.947 4.073 16 1.746 2.120 2.583 2.921 4.015 17 1.740 2.110 2.567 2.898 3.965 18 1.734 2.101 2.552 2.878 3.922 19 1.729 2.093 2.539 2.861 3.883 20 1.725 2.086 2.528 2.845 3.850 21 1.721 2.080 2.518 2.831 3.819 22 1.717 2.074 2.508 2.819 3.792 23 1.714 2.069 2.500 2.807 3.768 24 1.711 2.064 2.492 2.797 3.745 25 1.708 2.060 2.485 2.787 3.725 26 1.706 2.056 2.479 2.779 3.707 27 1.703 2.052 2.473 2.771 3.689 28 1.701 2.048 2.467 2.763 3.674 29 1.699 2.045 2.462 2.756 3.660 30 1.697 2.042 2.457 2.750 3.646 31 1.696 2.040 2.453 2.744 3.633 32 1.694 2.037 2.449 2.738 3.622 33 1.692 2.035 2.445 2.733 3.611 34 1.691 2.032 2.441 2.728 3.601 35 1.690 2.030 2.438 2.724 3.591 36 1.688 2.028 2.434 2.719 3.582 37 1.687 2.026 2.431 2.715 3.574 38 1.686 2.024 2.429 2.712 3.566 ΙΜοσχανδρέα 24