3. Ανάλυση Ποσοτικών Δεδομένων: συγκρίσεις μεταξύ ομάδων

Σχετικά έγγραφα
3. Ανάλυση Ποσοτικών Δεδομένων: συγκρίσεις μεταξύ ομάδων. Στατιστικές δοκιµασίες για ποσοτικές εκβάσεις

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

Έλεγχος για τις παραμέτρους θέσης περισσοτέρων των δύο πληθυσμών με ανεξάρτητα δείγματα

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Εισαγωγή στην Ανάλυση Διακύμανσης

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

2.1 Μεγάλο δείγµα: ο έλεγχος-ζ µιας οµάδας Υπολογισµός του Ε για µια µέση τιµή όταν το δείγµα είναι µικρό. 9

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

3. Ανάλυση Ποσοτικών εδοµένων: Συγκρίσεις µεταξύ οµάδων

Έλεγχος υποθέσεων ΚΛΑΣΙΚΟΙ ΈΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ. Ημέσητιμήενόςπληθυσμούείναιίσημε δοθείσα γνωστή τιμή. Έλεγχος για τις μέσες τιμές δύο πληθυσμών.

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

1991 US Social Survey.sav

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗΝ ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΙ ΑΝΑΛΟΓΙΩΝ ΔΥΟ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Λυμένες Ασκήσεις για το μάθημα:

τατιςτική ςτην Εκπαίδευςη II

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA)

$ι ιι η ι ι!η ηι ι ANOVA. To ANOVA ι ι ι η η η ιη (Analysis of Variance). * ι! ι ι ι ι ι η ιη. ;, ι ι ι! η ιι ηιη ι ι!η ι η η ιη ι ι η ι η.

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

τατιστική στην Εκπαίδευση II

Ενότητα 5 η : Επαγωγική Στατιστική ΙΙ Ανάλυση ποσοτικών δεδομένων. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

T-tests One Way Anova

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Ποιοτική και ποσοτική ανάλυση ιατρικών δεδομένων

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

ο),,),--,ο< $ι ιι!η ι ηι ι ιι ιι t (t-test): ι ι η ι ι. $ι ι η ι ι ι 2 x s ι ι η η ιη ι η η SE x

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Εισαγωγή στην Ανάλυση Δεδομένων

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Επαγωγική Στατιστική

Πίνακας 1. Επίπεδα PRAME mrna (αντίγραφα/ κύτταρα) σε άτοµα σε διαφορετικές φάσεις της CML. n Ελάχιστη-µέγιστη

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Στατιστική. 9 ο Μάθημα: Εφαρμογές Στατιστικής ΙΙ: Στατιστικοί Έλεγχοι. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

1. Hasil Pengukuran Kadar TNF-α. DATA PENGAMATAN ABSORBANSI STANDAR TNF α PADA PANJANG GELOMBANG 450 nm

ΕΚΤΙΜΗΤΙΚΗ: ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

Στατιστικοί Έλεγχοι Υποθέσεων. Σαλαντή Γεωργία Εργαστήριο Υγιεινής και Επιδημιολογίας Ιατρική Σχολή

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Mann Whitney U τεστ)

Απλή Ευθύγραµµη Συµµεταβολή

ΜΕΡΟΣ Α Κάθε µια από τις παρακάτω φράσεις (1α, 1β, 1γ, 2α κτλ) µπορεί να είναι σωστή ή λανθασµένη. Ποιες είναι σωστές και ποιες όχι;

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Μη Παραµετρικοί Έλεγχοι

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Έλεγχος Υποθέσεων Εφαρμογές

Κεφάλαιο 12. Σύγκριση μεταξύ δύο δειγμάτων: Το κριτήριο t

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Γ. Πειραματισμός - Βιομετρία

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Εισαγωγή στη Βιοστατιστική

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Χαρακτηριστικά της ανάλυσης διασποράς. ΑΝΑΛΥΣΗ ΙΑΣΠΟΡΑΣ (One-way analysis of variance)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

Transcript:

3. Ανάλυση Ποσοτικών Δεδομένων: συγκρίσεις μεταξύ ομάδων - Στατιστικές δοκιμασίες για ποσοτικές εκβάσεις - Η σύγκριση δύο ανεξάρτητων ομάδων, ΔΕ για τη σύγκριση μέσων τιμών. - Η σύγκριση δύο ομάδων με παρατηρήσεις κατά ζεύγη - Συγκρίσεις με > ομάδες ατόμων - Μετασχηματισμοί - Extra παράδειγμα ελέγχου υπόθεσης: σύγκριση δύο μέσων τιμών σε μια πειραματική μελέτη.

Στατιστικές δοκιµασίες για ποσοτικές εκβάσεις

Στατιστικές δοκιμασίες (έλεγχοι στατιστικής σημαντικότητας) Παραμετρικές Λέγονται οι δοκιμασίες όπου εκτιμάμε τις τιμές των παραμέτρων της κατανομής που υποθέτουμε ότι έχουν τα δεδομένα. π.χ. κανονική κατανομή με ίσες διακυμάνσεις για τον έλεγχο t για δύο ανεξάρτητα δείγματα. Μη-παραμετρικές Λέγονται οι δοκιμασίες όπου δεν υποθέτουμε ότι τα δεδομένα ακολουθούν συγκεκριμένη κατανομή. Συνήθως χρησιμοποιείται ο δείκτης διάταξης (rank) των παρατηρήσεων κι όχι οι ίδιες οι τιμές. Parametric v non-parametric tests for data analysis,bmj 009, Altman 3 & Bland

Συνηθισμένες τεχνικές ανάλυσης ποσοτικών δεδομένων: έλεγχοι στατιστικής σημαντικότητας Σύγκριση ομάδων* Σύγκριση >= 3 ομάδων Ανεξάρτητες παρατηρήσεις Independent samples t-test Mann-Whitney test (Wilcoxon rank sum test) Παρατηρήσεις κατά ζεύγη Paired t-test Wilcoxon signed rank test One-way ANOVA Kruskal Wallis test Με μεγάλα δείγματα μπορεί να χρησιμοποιηθεί το z test* 4

Temple R et al (00) Association between outcome of pregnancy and glycaemic control in early pregnancy in type I diabetes: population based study. BMJ 35:75-6 5

Η σύγκριση δύο ανεξάρτητων ομάδων 6

T-TEST ΓΙΑ ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ Προϋποθέσεις. Κανονικές κατανομές στους πληθυσμούς. Ίσες διακυμάνσεις στους πληθυσμούς 3. (ανεξάρτητες παρατηρήσεις) Όταν θέλουμε να συγκρίνουμε τις μέσες τιμές από δύο ανεξάρτητες ομάδες (οποιουδήποτε μεγέθους), ) ελέγχουμε αν οι κατανομές σε κάθε ομάδα φαίνονται περίπου κανονικές. ) ελέγχουμε ότι οι ΤΑ στις ομάδες δε διαφέρουν πολύ. s s < Εφαρμόζουμε t-test για ανεξάρτητα δείγματα Η 0 : μ =μ 7

ΠΑΡΑΔΕΙΓΜΑ Η 0 : Η μέση σ.π. δεν διαφέρει ανάλογα με το φύλο στην ηλικία των 0 ετών. µ = µ Η Α : Η μέση σ.π. διαφέρει ανάλογα με το φύλο στην ηλικία των 0 ετών. Συμβατικά επιλέγουμε το 5% επίπεδο σημαντικότητας, δηλαδή α=0,05. Ομάδα 54 κορίτσια x = 7,78 s =0,6 Ομάδα 46 αγόρια x =,9 s =9,44 Η 0 : μ =μ Η Α : μ μ Ο στατιστικός δείκτης ελέγχου (το στατιστικό κριτήριο ελέγχου) για τον έλεγχο t για ανεξάρτητα δείγματα είναι t = x ΤΣ x ( x x ) 8

9 ) ( ) ( ) ( ) ( ) ( x Var x Var x x Var x x SD x x SE + = = = ) ( ) ( n n s n s n s x Var x Var + = + = + s = Pooled estimate of variance (η καλύτερη εκτίμηση της σ)= «κοινή» εκτίμηση, ουσιαστικά μία «ζυγισμένη μέση τιμή» των διακυμάνσεων όπου περισσότερο βάρος δίνεται στην εκτίμηση από το μεγαλύτερο δείγμα. Το ΤΣ της διαφοράς εκτιμάται ) ( n n s x x + = ΤΣ όπου ) ( ) ( + + = n n s n s n s θεωρούμε ότι οι διακυμάνσεις των πληθυσμών είναι ίσες.

Και αν ισχύει η Η 0, ο δείκτης ακολουθεί κατανομή t με n +n - βαθμούς ελευθερίας. s = ( 54 )( 0, 6) + ( 46 )( 9, 44) 54+ 46 = 9987, 7 98 = 0, 9 Οπότε SE( x x ) = 0, 9 + = 54 46, 06 Και t = 7, 78, 06, 9 =, 40 0

ΠΑΡΑΔΕΙΓΜΑ (συν). Συγκρίνουμε την τιμή με την κατανομή t με 54+46-=98 β.ε. Από τον πίνακα της κατανομής του t, βρίσκουμε ότι: Με 98 βε, t 0,05 =,99 & t 0,0 =,64 οπότε 0,0<p<0,05. {δείτε τον πίνακα στις αναλυτικές σημειώσεις} P= 0,08 από το SPSS.

Όσο μεγαλύτερη είναι η απόλυτη τιμή του στατιστικού κριτηρίου, τόσο περισσότερες είναι οι ενδείξεις ότι δεν ισχύει η Η0. Petrie & Sabin page 4

.99.4 3

ΠΑΡΑΔΕΙΓΜΑ (συν). SPSS 0: Analyse->Compare Means->Independent samples t-test Group Statistics AVSYST SEX female male Std. Error N Mean Std. Deviation Mean 54 7.7840 0.6475.44585 46.903 9.4446.3953 Independent Samples Test AVSYSEqual varian assumed Equal varian not assumed Levene's Test for quality of Variance F Sig. t-test for Equality of Means 95% Confidence Interval of the Mean Std. Error Difference t df ig. (-taileddifference Difference Lower Upper.09.763.400 98.08 4.8637.0649.845 8.8857.43 97.809.07 4.8637.00739.87996 8.84736 4

Αν το output του SPSS* μας βάζει σε υποψία ότι οι διακυμάνσεις δεν είναι ίσες, να προχωρήσουμε με το διορθωμένο t-test που δεν υποθέτει ισότητα διακυμάνσεων; *Levene s test for equality of variance Μάλλον όχι, γιατί οι άνισες διακυμάνσεις πολύ πιθανόν να συνοδεύονται από ισχυρή λοξότητα στα δεδομένα. 5

ΣΤΗ ΠΡΑΞΗ όταν θέλουμε να συγκρίνουμε τις μέσες τιμές από δύο ανεξάρτητες ομάδες, ) ελέγχουμε αν οι κατανομές φαίνονται κανονικές. ) Αν ναι, ελέγχουμε ότι οι διακυμάνσεις των ομάδων δεν διαφέρουν πολύ και εφαρμόζουμε t-test Αν όχι, μπορούμε να εφαρμόσουμε κάποιο μετασχηματισμό σε μια προσπάθεια να «κανονικοποιήσουμε» τα δεδομένα ή να προχωρήσουμε σε μη-παραμετρικές μεθόδους. 6

Είδαμε στο παράδειγμα ότι τα δείγματα είχαν παρόμοιο μέγεθος. Υπάρχει κανένας λόγος για να έχουμε τα ίδια ή παρόμοια μεγέθη; Αν τα δείγματα έχουν το ίδιο μέγεθος, η μέθοδος t είναι πολύ ανθεκτική σε παρεκκλίσεις από την κανονική κατανομή, αλλά η προσέγγιση χειροτερεύει όσο τα δείγματα γίνονται πιο άνισα σε μέγεθος. Μια μελέτη με δείγματα που έχουν το ίδιο μέγεθος (ν=ν) θα έχει μεγαλύτερη ισχύ απ ότι αν τα δείγματα είναι άνισα (με το ίδιο συνολικό μέγεθος ν+ν). 7

Ζ test for independent samples Όταν το δείγμα είναι αρκετά μεγάλο, τότε ) η μτ αναμένεται να έχει κανονική κατανομή, όποια και να είναι η κατανομή της μεταβλητής και ) η εκτίμηση της ΤΑ θα πλησιάζει την ΤΑ του πληθυσμού. Σ αυτήν την περίπτωση, μπορεί να χρησιμοποιηθούν οι ιδιότητες της κανονικής κατανομής και να εφαρμοστεί ένας έλεγχος Ζ (Ζ-test, large sample normal method) στη διαφορά μεταξύ μέσων τιμών. Οι προϋποθέσεις είναι : ) τα δείγματα να είναι αρκετά μεγάλα για να είναι καλές οι εκτιμήσεις των ΤΣ και να έχουν κανονική κατανομή οι μτ. [>00 παρατηρήσεις συνολικά ο Τριχόπουλος λεει 500] ) οι παρατηρήσεις πρέπει να είναι ανεξάρτητες ΣΗΜΕΙΩΣΗ Το t-test δίνει τα ίδια αποτελέσματα με το Z-test όταν τα 8 δείγματα είναι μεγάλα.

Ομάδα 54 κορίτσια x = 7,78 s =0,6 Ομάδα 46 αγόρια x =,9 s =9,44 Η 0 : μ =μ Η Α : μ μ Ο στατιστικός δείκτης ελέγχου (το στατιστικό κριτήριο ελέγχου) για τον έλεγχο Z για ανεξάρτητα δείγματα είναι x x Z = SE x x ( ) Το ΤΣ της διαφοράς εκτιμάται s s SE( x x) = + =, 006 n n Z = 4,86,006 =,4,4 τυπικές αποκλίσεις από τη μ.τ. Η οποία αντιστοιχεί* σε p=0,054 (cf 0,08). *Η συνάρτηση NORMSDIST στο Excel δίνει p(ζ<=,4)= 0,993. Οπότε, *(-0,993)=0,054. 9

Διαστήματα εμπιστοσύνης για τη σύγκριση μέσων τιμών

Δ.Ε. για τη διαφορά μεταξύ των μέσων τιμών μ και μ (σε ανεξάρτητα δείγματα) Με μεγάλα δείγματα (περίπου >50 σε κάθε δείγμα), θεωρούμε ότι η διαφορά προέρχεται από μια κανονική κατανομή και η εκτιμώμενη ΤΑ είναι καλή εκτίμηση της ΤΑ της κατανομής. Οπότε έχουμε 95% Δ.Ε. Όπου s s SE diff = SE( x x) = + n n x x (,96 SE diff Για μικρά δείγματα, χρησιμοποιούμε την κατανομή t, υποθέτοντας όμως ότι τα δείγματα προέρχονται από κανονικές κατανομές με την ίδια διασπορά. Εκτιμούμε την TA, s Το ΤΣ της διαφοράς είναι SE diff = s + n To 00(-α)% Δ.Ε. για τη διαφορά μεταξύ των μέσων όρων των πληθυσμών είναι x x ( t ) έως a SE diff Το t α βρίσκεται από την κατανομή t με n +n - β.ε. n s = ( n x x + ( t a SE ) ) s+ ( n ) s n+ n diff )

ΔΕ για τη σύγκριση μέσων τιμών Παρατηρήσεις ανεξάρτητα δείγµατα Η διαφορά των µέσων τιµών έχει περίπου κανονική κατανοµή s s < Υποθέτουµε ότι σ=σ Στο κάθε δείγµα, n<50 Στο κάθε δείγµα,n>50 x x ± ( t SE α diff το t α είναι τιμή από την κατανομή t με n +n - βαθμούς ελευθερίας. SEdiff = s + n n s = ) ( n ) s+ ( n ) s n+ n x x ± ( z SE α diff ) α=0,05 => z=.96 s SEdiff = + n s n

ΠΑΡΑΔΕΙΓΜΑ. Σύγκριση μέσων τιμών σπειρομέτρησης (FEV %pred) σε πρώην καπνιστές (53 άτομα) και καπνιστές (38 άτομα) με ΧΑΠ. Οι κατανομές της FEV φαίνονται κανονικές. Group Statistics fevpred smokstat 0 Std. Error N Mean Std. Deviation Mean 53 5.379.5669 3.0998 38 60.849.584 3.663 ) Ποια είναι η μηδενική υπόθεση εδώ; ) Υπάρχει στατιστικά σημαντική διαφορά μεταξύ των μέσων τιμών των ομάδων όσον αφορά τη μέτρηση FEV %pred (σε επίπεδο 5%); 3) Δημιουργήσετε ένα διάστημα εμπιστοσύνης για τη διαφορά και ερμηνεύσετε το ΔΕ. 4) Θα άλλαζε το ΔΕ αν είχαμε τον διπλάσιο αριθμό ατόμων σε κάθε ομάδα; Βρείτε το νέο ΔΕ. 3

ΠΑΡΑΔΕΙΓΜΑ. Λύση Σύγκριση μέσων τιμών σπειρομέτρησης σε πρώην καπνιστές και καπνιστές με ΧΑΠ. Δείγμα 0. 53 πρώην καπνιστές Δείγμα. 38 τωρινοί καπνιστές Group Statistics fevpred smokstat 0 Std. Error N Mean Std. Deviation Mean 53 5.379.5669 3.0998 38 60.849.584 3.663 s = ( n ) s+ ( n ) s =, 6 n+ n =, 6 t 0 =.05,53+ 38.987 SEdiff = s + =, 6x + = n n 53 38 4, 8 4

( 5. 4 60. 8) 0 t= =. 75.99 4. 8 -.75.75 Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means fevpred Equal variances assumed Equal variances not assumed F Sig. t df Sig. (-tailed).09.889 -.765 89.08 -.765 79.834.08 5

t 0.05, 53+ 38 =.987 60, 9 5, 4 ± (. 987 4, 8) = 8, 5 ± 9, 5-8 Independent Samples Test fevpred Equal variances assumed Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper -8.4700 4.798-8.0039.0639 Έχουμε 95% εμπιστοσύνη ότι η πραγματική διάφορα στην μέση FEV %pred κυμαίνεται από μια μείωση μονάδας μέχρι μια αύξηση 8 μονάδων στους καπνιστές σε σχέση με τους μηκαπνιστές (της Κρήτης) στους οποίους γίνεται διάγνωση ΧΑΠ. 6

ΠΑΡΑΔΕΙΓΜΑ. Λύση Θα άλλαζε το ΔΕ αν είχαμε τον διπλάσιο αριθμό ατόμων σε κάθε ομάδα; Δείγμα 0. 53x=06 πρώην καπνιστές; μ.τ.5; ΤΑ,6 Δείγμα. 38x=76 τωρινοί καπνιστές; μ.τ.6; ΤΑ,6 s = ( n ) s+ ( n ) s =, 6 n+ n =, 6 t 0.05,80 =.973 SEdiff = s + =, 6x + = n n 06 76 3, 4 Το 95% ΔΕ για τη διαφορά στην μέση FEV %pred μεταξύ καπνιστών και μη-καπνιστών είναι από έως 5 %pred. 7

MANN-WHITNEY U TEST Προϋπόθεση Ανεξαρτησία παρατηρήσεων H0: οι κατανομές (στους πληθυσμούς) είναι ίδιες. Το κριτήριο ελέγχου υπολογίζεται χρησιμοποιώντας τους δείκτες διάταξης των δεδομένων. Με μικρά δείγματα χρησιμοποιούνται ακριβείς πιθανότητας. Με μεγαλύτερα δείγματα (πχ >5 σε κάθε ομάδα) χρησιμοποιείται η κανονική προσέγγιση στη διωνυμική. Ο έλεγχος είναι αντίστοιχος του Wilcoxon Rank sum test (το κριτήριο ελέγχου έχει άλλη μορφή αλλά τα αποτελέσματα είναι τα ίδια). 8

9

30

Η σύγκριση δύο ομάδων με παρατηρήσεις κατά ζεύγη 3

ΠΑΡΑΔΕΙΓΜΑ 3. Σε 0 άτομα με χρόνια αϋπνία δίδεται ένα φάρμακο για 3 εβδομάδες και μετά από μήνα (wash-out) ένα δεύτερο φάρμακο για 3 εβδομάδες. Τα άτομα βαθμολογούν τα φάρμακα (με πιθανές τιμές από 0 έως 40). Ασθενείς Α Β Διαφορά 33 36-3 4 4 0 3 37 0 7 4-5 4-6 36-4 7 4 6-8 6 7-9 0-0 5 8-3 3

Θα ήταν σωστό να χρησιμοποιήσουμε τη μέθοδο «t-test for independent samples» όταν τα δεδομένα μας είναι σε ζεύγη; Όχι, διότι οι συστηματικές διαφορές μεταξύ ζευγών δεν θα μπορούσαν να αποκλειστούν, και μάλιστα θα ήταν μέρος της διακύμανσης (στον παρανομαστή του κριτηρίου t). - κατά συνέπεια, η ανάλυση θα ήταν λιγότερο ευαίσθητη. Παρατηρούμε στα δεδομένα μας ότι μερικά άτομα έχουν δυο χαμηλές τιμές (ID 5 και 6) ενώ άλλα έχουν δυο αυξημένες τιμές (ID και 3). Αυτού του είδους οι συστηματικές διαφορές μεταξύ ατόμων είναι άσχετες με τη σύγκριση των δύο φαρμάκων, και η μέθοδος οφείλει να μηδενίσει την επίδρασή τους. 33

Γιατί χρησιμοποιούνται «παρατηρήσεις κατά ζεύγη»; Σκοπός είναι να γίνει πιο ακριβής μία σύγκριση. Το «ζευγάρωμα» χρησιμοποιείται σε μια προσπάθεια να περιοριστούν οι εξωγενείς πηγές μεταβλητότητας. Εάν δύο μετρήσεις παίρνονται από το ίδιο άτομο, τότε κάποια ποσότητα της βιολογικής μεταβλητότητας που υπάρχει μεταξύ διαφορετικών ατόμων εξαλείφεται. 34

Ποιες είναι οι παρατηρήσεις «κατά ζεύγη»; Υπάρχουν 3 γενικές κατηγορίες: ) Μετρήσεις σε κάθε άτομο πριν και μετά από κάποια παρέμβαση ή, γενικότερα, σε διαφορετικούς χρόνους. ) Μετρήσεις σε κάθε άτομο την ίδια χρονική περίοδο αλλά με διαφορετικές παρεμβάσεις σε δύο διαφορετικά σημεία του σώματός του. 3) Δεδομένα τα οποία είναι ταιριασμένα ένα προς ένα π.χ. α) για φύλο και ηλικία - περιπτώσεις και controls β) δίδυμα. Το εάν κάποιες μετρήσεις είναι «κάτα ζεύγη» εξαρτάται από το σχεδιασμό της μελέτης. Δεν έχει να κάνει με τις τιμές των δεδομένων, αλλά με τον τρόπο που συλλέχτηκαν τα δεδομένα. 35

McKane MH et al (995) Anesth Analg :8:79-8 36

PAIRED SAMPLES T-TEST Όταν θέλουμε να συγκρίνουμε τις τιμές από δύο ομάδες όπου οι παρατηρήσεις είναι κατά ζεύγη ελέγχουμε αν η κατανομή των διαφορών φαίνεται περίπου κανονική. Αν ναι, εφαρμόζουμε έλεγχο t κατά ζεύγη Η 0 : η μέση διαφορά είναι μηδέν. Αν όχι - εφαρμόζουμε κάποιο μετασχηματισμό σε μια προσπάθεια να «κανονικοποιήσουμε» τα δεδομένα ή - προχωράμε σε μη-παραμετρικές μεθόδους (Π.Χ. Wilcoxon signed ranks test). 37

Έχουμε δύο δείγματα μεγέθους n και X, X,..., X n X, X,..., X n Οι x i και x i είναι με κάποια έννοια «ζευγαρωμένες». Οι διαφορές d i = x i -x i έχουν κανονική κατανομή στον πληθυσμό. H 0 : η μέση διαφορά είναι 0. d 0 t= s / n d = n d i Ο στατιστικός δείκτης t έχει κατανομή t με n- βαθμούς ελευθερίας. s ( d d = n i ) 38

SPSS 3.0: Analyze - Compare means ->Paired samples t-test... Paired Samples Statistics Pair A B Std. Error Mean N Std. Deviation Mean,40 0 8,566,709,40 0 8,303,66 Pair A - B Paired Differences Paired Samples Test 95% Confidence Interval of the Std. Error Difference Mean Std. Deviation Mean Lower Upper t df Sig. (-tailed) -,000 7,483,366-6,353 4,353 -,43 9,683 d = 0 d i 7,483 s / n ( ( )) di = s = 0 t = d s / 0 n 39

Οπότε στη σύγκριση των κατά ζεύγη παρατηρήσεων, χρησιμοποιείται μόνο μία μεταβλητή (η μεταβλητή που δίνει τις διαφορές). Αυτή η δοκιμασία αντιστοιχεί στην δοκιμασία t για ένα δείγμα (one-sample t test), με Η0: μ=0. 40

ΣΗΜΕΙΩΣΗ Οι «κατά ζεύγη» στατιστικές αναλύσεις απαιτούνται όταν η μεταβλητή της έκβασης μετριέται στα ίδια άτομα (ή στα ταιριασμένα άτομα). Κάποιες φορές τα δεδομένα είναι κατά ζεύγη αλλά η στατιστική ανάλυση που χρησιμοποιείται δεν είναι κάποια «κατά ζεύγη» ανάλυση. Π.χ. SPSS Άσκηση (lanreo.sav). Η ένταση (intensity) της hyperfluorescence μετρήθηκε πριν την έναρξη της θεραπείας (baseline) και 6 μήνες μετά την έναρξη της θεραπείας. Είκοσι ασθενείς (0 μάτια) έλαβαν μέρος στη μελέτη και εφαρμόστηκε τυχαίος καταμερισμός σε μια από τις δύο ομάδες (θεραπευτική αγωγή ή placebo). Κύρια έκβαση = η αλλαγή στα ένταση. Υπάρχουν ανεξάρτητα δείγματα των αλλαγών (στη hyperfluorescence). 4

Ζ test for paired samples Οι προϋποθέσεις είναι : ) οι παρατηρήσεις πρέπει να είναι ανεξάρτητες ) το δείγμα είναι αρκετά μεγάλο [>00] Σ αυτήν την περίπτωση, μπορεί να χρησιμοποιηθούν οι ιδιότητες της κανονικής κατανομής και να εφαρμοστεί ένας έλεγχος Ζ (Ζ-test, large sample normal method). 4

ΜΗ-ΠΑΡΑΜΕΤΡΙΚΟΣ ΕΛΕΧΓΟΣ WILCOXON SIGNED-RANKS Προϋπόθεση Ανεξαρτησία παρατηρήσεων Οι διαφορές έχουν συμμετρική κατανομή στον πληθυσμό H0: η διάμεση διαφορά στον πληθυσμό = 0 Το κριτήριο ελέγχου υπολογίζεται χρησιμοποιώντας τους δείκτες διάταξης των δεδομένων. Με μικρά δείγματα χρησιμοποιούνται ακριβείς πιθανότητας. Με μεγαλύτερα δείγματα (πχ >5 σε κάθε ομάδα) χρησιμοποιείται η κανονική προσέγγιση στη διωνυμική. Parametric v non-parametric tests for data analysis BMJ 009 Altman 43 & Bland

Συγκρίσεις με > ομάδες ατόμων 44

Όταν θέλουμε να συγκρίνουμε > ομάδες, τότε χρησιμοποιούμε μια τεχνική που ονομάζεται Ανάλυση διασποράς (ANOVA), εφ όσον τηρούνται κάποιες προϋποθέσεις. Γιατί όχι t-tests, παίρνοντας τις ομάδες σε ζευγάρια; Διότι: ) Είναι πολλές οι συγκρίσεις. Για κ ομάδες, οι συγκρίσεις είναι Κ(κ- )/. Οπότε αυξάνεται η πιθανότητα ότι θα βρεθεί κάποια «σημαντική» σύγκριση ακόμα και όταν ισχύει η Η0 (ότι δεν διαφέρουν οι μ.τ.). Δείτε παρακάτω. ) Όταν οι ομάδες είναι μικρές, η εκτίμηση της διακύμανσης δεν θα έχει πολλούς βαθμούς ελευθερίας ενώ αν χρησιμοποιηθούν όλα τα δεδομένα θα έχουμε περισσότερους β.ε. και μια σύγκριση με περισσότερη ισχύ (more powerful). 45

One-way ANOVA Όταν θέλουμε να συγκρίνουμε τις τιμές από περισσότερες από ομάδες ) η μεταβλητή πρέπει να έχει κανονική κατανομή στον πληθυσμό της κάθε ομάδας [όποια και να είναι τα μεγέθη των δειγμάτων] και ) οι διακυμάνσεις στους πληθυσμούς να είναι ίδιες. Αν ναι, εφαρμόζουμε one-way ANOVA Αν όχι Η Η 0 είναι ότι οι μέσες τιμές στους πληθυσμούς είναι ίσες. Η εναλλακτική υπόθεση είναι ότι τουλάχιστον μία μέση τιμή διαφέρει από τις άλλες. - εφαρμόζουμε κάποιο μετασχηματισμό σε μια προσπάθεια να «κανονικοποιήσουμε» τα δεδομένα ή - προχωράμε σε μη-παραμετρικές μεθόδους (Π.Χ. Kruskal-Wallis test). 46

ΠΑΡΑΔΕΙΓΜΑ 4. Το αρχείο thrombo.sav περιέχει δεδομένα από 7 ασθενείς με essential θρομβοκυττάρωση (ΕΤ), 5 με reactive θρομβοκυττάρωση (RT) και 5 controls. Σκοπός είναι να εξετασθεί εάν τα μέσα επίπεδα της αιμοσφαιρίνης (Ηb, g/dl) διαφέρουν μεταξύ των 3 ομάδων. Οι κατανομές φαίνονται περίπου κανονικές και οι διακυμάνσεις όχι πολύ διαφορετικές. H 0 : οι μέσες τιμές της αιμοσφαιρίνης είναι ίδιες στους πληθυσμούς των τριών ομάδων. Επιλέγουμε επίπεδο σημαντικότητας 5%. Descriptives hb ET RT controls Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound 7 3.330.406.75 Minimum Maximum 5.035.7774.465 0.540.59 6.4 5.6 5 4.776.0635.7 4.337 5.5 3. 6.9 04.530.05.60.0.958 6.4 6.9 47

ΠΑΡΑΔΕΙΓΜΑ 4 (συν). Επιλέγουμε επίπεδο σημαντικότητας 5%. Η στατιστική συνάρτηση ελέγχου είναι ο λόγος της διακύμανσης μεταξύ ομάδων προς την διακύμανση εντός ομάδων. Όταν αληθεύει η Η 0, αναμένεται ότι ο λόγος αυτός = και η συνάρτηση αύτη ακολουθεί την κατανομή F. ANOVA hb Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 59.658 9.89 54.636.000000 40.000 0.376 499.658 03 Εφ όσον ισχύει η Η0, περιμένουμε ότι όλες οι ομάδες έχουν την ίδια μτ και διακύμανση, όποτε η μεταξύ-ομάδων διακύμανση και η εντόςομάδων διακύμανση αναμένεται να είναι ίδιες (επειδή και οι είναι εκτιμήσεις της διακύμανσης σ ). Βλέπουμε ότι ο λόγος των διακυμάνσεων είναι περίπου 55. Δηλαδή η παρατηρούμενη διακύμανση μεταξύ ομάδων είναι 55 φορές της τιμής που θα 48 περιμέναμε, εάν ισχύει η Η0.

ΠΑΡΑΔΕΙΓΜΑ 4 (συν). ANOVA hb Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 59.658 9.89 54.636.000000 40.000 0.376 499.658 03 p<0,000. Υπάρχει πολύ ισχυρή απόδειξη εναντίων της μηδενικής υπόθεσης. Απορρίπτεται η Η0. Τουλάχιστον η μία μέση συγκέντρωση διαφέρει από τις υπόλοιπες. 49

Θέλουμε όμως να ξέρουμε ποιες ομάδες διαφέρουν μεταξύ τους. Μπορούμε να χρησιμοποιήσουμε post-hoc συγκρίσεις όπως Scheffe, Bonferroni, Tukey s Honestly Significant Difference, Newman-Keuls sequential procedure, Duncan. Οι παραπάνω τεχνικές στοχεύουν στο να ελέγχουν το συνολικό σφάλμα τύπου Ι ώστε να μην είναι περισσότερο από 5%. 50

Εφαρμόζοντας post-hoc Scheffe συγκρίσεις, έχουμε τα εξής αποτελέσματα: Dependent Variable: hb Multiple Comparisons Scheffe (I) group ET RT controls (J) group RT controls ET controls ET RT *. The mean difference is significant at the.05 level. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound.950*.3657.000.387 3.03 -.4464*.479.004 -.509 -.383 -.950*.3657.000-3.03 -.387-3.744*.375.000-4.673 -.809.4464*.479.004.383.509 3.744*.375.000.809 4.673 5

Εφαρμόζοντας post-hoc LSD συγκρίσεις, έχουμε τα εξής αποτελέσματα: Dependent Variable: hb LSD Multiple Comparisons (I) group ET RT controls (J) group RT controls ET controls ET RT Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound,950*,3657,0000000,570 3,00 -,4464*,479,00097 -,95 -,598 -,950*,3657,0000000-3,00 -,570-3,744*,375,0000000-4,486 -,997,4464*,479,00097,598,95 3,744*,375,0000000,997 4,486 *. The mean difference is significant at the.05 level. ΣΗΜΕΙΩΣΗ Στις συγκρίσεις LSD δεν γίνεται τροποποίηση για το γεγονός ότι γίνονται πολλαπλές συγκρίσεις (δεν κάνει διαφορά στην τιμή p αν γίνονται ή 00 συγκρίσεις). 5

Εφαρμόζοντας post-hoc Bonferroni συγκρίσεις, έχουμε τα εξής αποτελέσματα: Dependent Variable: hb Bonferroni Multiple Comparisons (I) group ET RT controls (J) group RT controls ET controls ET RT Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound,950*,3657,000000,405 3,85 -,4464*,479,003089 -,488 -,405 -,950*,3657,000000-3,85 -,405-3,744*,375,000000-4,655 -,88,4464*,479,003089,405,488 3,744*,375,000000,88 4,655 *. The mean difference is significant at the.05 level. ΣΗΜΕΙΩΣΗ Οι τιμές p είναι οι τιμές που προκύπτουν από τις LSD συγκρίσεις επί τον αριθμό των συγκρίσεων, δηλαδή J *(J-) / επί LSD p-value. Π.χ. 3*0,00=0,003. 53

KRUSKAL WALLIS TEST Προϋπόθεση Ανεξαρτησία παρατηρήσεων H0: οι κατανομές (στους πληθυσμούς) είναι ίδιες. Το κριτήριο ελέγχου υπολογίζεται χρησιμοποιώντας τους δείκτες διάταξης των δεδομένων. 54

Μετασχηματισμοί 55

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ Συχνά χρειαζόμαστε μία περίπου κανονική κατανομή των δεδομένων για παραμετρικές δοκιμασίες π.χ. συσχετίσεις, παλινδρόμηση, t-tests, ΑΝΟVA...). Πολλές παραμετρικές μέθοδοι επίσης υποθέτουν ότι διαφορετικές ομάδες παρατηρήσεων έχουν την ίδια τυπική απόκλιση. Πώς βλέπουμε αν η κατανομή είναι περίπου κανονική; 56

Πώς βλέπουμε αν η κατανομή είναι περίπου κανονική; ) οπτική εξέταση της κατανομής των δεδομένων & μέση τιμή + ΤΑ (+ διάμεσος + δείκτες λοξότητας & κύρτωσης.). 0 8 6 4 0 00.0 0.0 0.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 00.0 Std. Dev = 8.33 Mean = 34.4 N = 80.00 SBP0 57

) γράφημα ποσοστημορίων (quantile-quantile plot) (λέγεται επίσης Normal plot= γράφημα κανονικής κατανομής ή το ισότιμο p- p plot =standardized Normal probability plot=τυποποιημένο γ.κ.κ.) 30 Αναμενόμενη Κανονική τιμή Expected Normal Value 0 0 0-0 0 0 0 30 40 Γράφημα ποσοστημορίων (Quantile-quantile plot) της κατανομής ινσουλίνης (85 μετρήσεις). Observed Value Παρατηρούμενη τιμή 58

Γραφήματα ποσοστημορίων (Quantile-quantile plots) της κατανομής ινσουλίνης και λογ(ινσουλίνης) στο SPSS ΠΡΙΝ ΜΕΤΑ 30 4,0 3,5 0 3,0,5 Expected Normal Value 0 0-0 0 0 Observed Value 0 30 40 Expected Normal Value,0,5,0,5 0,0 0,0,5,0 Observed Value,5,0,5 3,0 3,5 4,0 Αν τα δεδομένα προέρχονται από κανονική κατανομή, οι τιμές θα βρίσκονται πάνω σε μια ευθεία γραμμή. Το γράφημα ποσοστημορίων είναι καταλληλότερο για μεγάλα δείγματα (n>50). 59

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ C & D: λοξότητα Λεπτοκυρτική Sokal & Rohlf pg 7 60

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ Υπάρχουν κι άλλοι τρόποι: π.χ. μέθοδος Box-Cox Τ(Y)=(Y λ -)/ λ (για λ 0) Τ(Y)=ln(Y) (για λ=0) όπου βρίσκεται η τιμή λ που μεγιστοποιεί την λογαριθμική συνάρτηση πιθανοφάνειας Είναι μέθοδος διαδοχικών προσεγγίσεων. Δεν εφαρμόζεται στο SPSS. λ 6

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ 3) δοκιμασία Shapiro-Wilks ή Kolmogorov-Smirnov Το SPSS εφαρμόζει τη δοκιμασία Lilliefors για την κανονική κατανομή (τροποποίηση του ελέγχου Kolmogorov-Smirnov). Ο έλεγχος των Shapiro-Wilk επίσης εφαρμόζεται. 6

Τι γίνεται αν τα δεδομένα δεν είναι συμβατά με μια κανονική κατανομή; Μπορούν να μετασχηματιστούν ώστε η κατανομή να πλησιάσει την κανονική... Πώς μετασχηματίζουμε τα δεδομένα; Ο συνηθισμένος μετασχηματισμός: Αντικατάσταση των αριθμητικών τιμών με τους αντίστοιχους λογάριθμους (& ο μετασχηματισμός τετραγωνικής ρίζας χρησιμοποιείται για απαριθμήσεις). Ένας γενικός κανόνας είναι για θετικά λοξές κατανομές, δοκιμάσετε τους μετασχηματισμούς ln(υ), Υ και για αρνητικά λοξές κατανομές, δοκιμάσετε τους μετασχηματισμούς Υ,Υ 3 63...

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΠΑΡΑΔΕΙΓΜΑ Το γράφημα δείχνει ατομικές απαριθμήσεις του δειγματολήπτη του ενδο-ρινικού αέρα. Δεν υπήρχαν σημαντικές διαφορές μεταξύ του αριθμού των μορίων που εντοπίστηκαν για κάθε αλλεργιογόνο (Der p, Der p και Der p και Der p μαζί). Στο γράφημα φαίνονται οι 3 επαναμετασχηματισμένοι μέσοι όροι. Gore, R. B., Hadi, E. A., Craven, M., Smillie, F. I., O'Meara, T. J., Tovey, E. R., Woodcock, A. & Custovic, A. Personal exposure to house dust mite allergen in bed: nasal air sampling and reservoir allergen 64 levels. Clinical & Experimental Allergy 3 (6), 856-859. June 00

Έχουμε πει ότι στα βιοιατρικά δεδομένα, οι πιο πολλές κατανομές είναι περίπου κανονικές ή θετικά λοξές. Γνωστός στατιστικολόγος (Bland, σελ 67) προτείνει ότι ο λογαριθμικός μετασχηματισμός είναι αυτός που πρέπει να χρησιμοποιείται κατά προτίμηση, εκτός αν είναι σαφές ότι υστερεί. Ο λογαριθμικός μετασχηματισμός είναι ο μόνος που δίνει χρήσιμα διαστήματα εμπιστοσύνης. BMJ 996; 3:770 (3 March) Transforming data Altman J M Bland, D G 65

Μια ειδική περίπτωση μετασχηματισμού Η KANONIKH ΚΑΤΑΝΟΜΗ z = x σ µ Armitage & Berry (σελ 69) Λέγεται z-τιμή (z value ή z- score) Δεν έχει μονάδες. Π.χ. Τιμή z= - σημαίνει ότι η μέτρηση βρίσκεται τυπικές αποκλίσεις κάτω από το μέσο όρο. 66

Σκοπός είναι στο τέλος του μαθήματος να -μπορείτε να ερμηνεύσετε αποτελέσματα απλών ποσοτικών ελέγχων υποθέσεων (one sample t-test, independent samples t-test, t-test for paired data, Μann-Whitney test, Wilcoxon signed-ranks test, one-way ANOVA, Kruskal-Wallis). -γνωρίζετε πότε, για συγκεκριμένο σχεδιασμό μελέτης, θα πρέπει να εφαρμοστεί ένας έλεγχος υπόθεσης για ανεξάρτητα δείγματα και πότε ένας έλεγχος για παρατηρήσεις κατά ζεύγη. -να γνωρίζετε ότι συχνά μετασχηματίζονται τα δεδομένα με στόχο να πετύχουμε μία κανονική κατανομή. -μπορείτε να αποφασίσετε εάν για τη συγκεκριμένη σύγκριση δύο ομάδων παρατηρήσεων είναι προτιμότερη η μη-παραμετρική ανάλυση. 67

Extra παράδειγμα ελέγχου υπόθεσης: σύγκριση μέσων τιμών σε μια πειραματική μελέτη. 68

ΠΑΡΑΔΕΙΓΜΑ 5. Σε μελέτη σύγκρισης της αποτελεσματικότητας της trabeculectomy (TrabMMC) με της phacotrabeculactomy (PhacotrabMMC) με τη χρήση της mitomycin-c, υποβλήθηκαν 85 μάτια σε TrabMMC και 05 σε PhacotrabMMC. Όλα τα μάτια είχαν γλαύκωμα. Μια έκβαση που ενδιέφερε ήταν η πιθανή διαφορά στη μείωση της ενδοφθάλμιας πίεσης (IOP) σε διάφορους χρόνους παρακολούθησης. (κύρια έκβαση = αναλογίες των ασθενών που πετυχαίνουν το στόχο τους όσον αφορά την IOP δύο χρόνια μετά την επέμβαση) Murthy et al, Can J Opthalmol (006) Μετά από μήνες: Μέση μείωση από τις αρχικές τιμές της IOP (mmhg). TrabMMC.55 (ΤΑ 9.03) PracotrabMMC 6.3 (ΤΑ 8.83) *Έχει ελεγχθεί ότι οι κατανομές των τιμών φαίνονται περίπου κανονικές στις 69 ομάδες.

.54 6.3 = 5.3mmHg (pre-op mean περίπου 5mmHg) Σκέψεις... Απ ότι φαίνεται, τα άτομα που κάνουν trabeculectomy έχουν περισσότερη μείωση της ΙΟP μετά από μήνες. Αλλά αυτά τα αποτελέσματα προήλθαν από ένα δείγμα. Αν είχε παρθεί άλλο δείγμα οι εκτιμήσεις θα ήταν διαφορετικές (ακόμα και με την εφαρμογή τυχαίας δειγματοληψίας). Πόσο σίγουροι μπορούμε να είμαστε για το συμπέρασμά μας; Όσο μεγαλύτερη είναι η διαφορά μεταξύ των μέσων τιμών των ομάδων, τόσο ισχυρότερη απόδειξη έχουμε ότι υπάρχει πραγματική διαφορά στον πληθυσμό. Αλλά, πόσο μεγάλη πρέπει να είναι η διαφορά για να υπάρχει ισχυρή απόδειξη;

Θέτουμε την εξής ερώτηση:.54 6.3 = 5.3mmHg «Ποια είναι η πιθανότητα ότι θα βρίσκαμε μια διαφορά τέτοιου μεγέθους (ή μεγαλύτερη) μεταξύ των μέσων όρων, αν δεν υπήρχε διαφορά μεταξύ των μέσων τιμών στους πληθυσμούς από τους οποίους επιλέχτηκαν τα δείγματα;» Μηδενική υπόθεση (null hypothesis) Υποθέτουμε ότι η μηδενική υπόθεση ΑΛΗΘΕΥΕΙ. 7

Γενική διαδικασία έλεγχου μιας στατιστικής υπόθεσης (ελέγχου στατιστικής σημαντικότητας).. Σχηματισμός της μηδενικής υπόθεσης (Η 0 ) και της εναλλακτικής της υπόθεσης. 7

ΠΑΡΑΔΕΙΓΜΑ 5 (συν) Μηδενική υπόθεση (Η 0 ): δεν υπάρχει διαφορά μεταξύ της επέμβασης trabeculectomy και phacotrabeculectomy, όσον αφορά τη μέση μείωση στην IOP μήνες μετά την επέμβαση. Η 0 : μ -μ =0 ή αλλιώς Η 0 : μ =μ. Εναλλακτική υπόθεση: υπάρχει διαφορά μεταξύ της επέμβασης trabeculectomy και phacotrabeculectomy, όσον αφορά τη μέση μείωση στην IOP μήνες μετά την επέμβαση. 73

Γενική διαδικασία έλεγχου μιας στατιστικής υπόθεσης (ελέγχου στατιστικής σημαντικότητας).. Σχηματισμός της μηδενικής υπόθεσης (Η 0 ) και της εναλλακτικής της υπόθεσης.. Έλεγχος των προϋποθέσεων της στατιστικής δοκιμασίας. 3. Ορισμός του επιπέδου στατιστικής σημαντικότητας (α) 4. Υπολογισμός της τιμής του «στατιστικού κριτηρίου ελέγχου» (test statistic) που αντιστοιχεί στη συγκεκριμένη Η 0. 5. Σύγκριση της τιμής του κριτηρίου ελέγχου με τιμές από μια γνωστή κατανομή πιθανοτήτων. 6. Εύρεση της πιθανότητας να προκύψει, όταν η Η 0 αληθεύει, μια τιμή του στατιστικού δείκτη ελέγχου που είναι όσο ή και περισσότερο ακραία από την παρατηρημένη τιμή. 7. Ερμηνεία της τιμής p. 74

Παράδειγμα 5 (συν). Για να συγκρίνουμε τις μέσες τιμές του δείγματος (εδώ, τις διαφορές) με την υποθετική διαφορά 0 (Η 0 : μ -μ =0) ορίζουμε το στατιστικό κριτήριο ελέγχου Τ όπου T = ( x x ) ΤΣ( x x 0 ) Η δειγματοληπτική κατανομή του Τ είναι η κατανομή t με n +n - β.ε. Εδώ Τ=3,3 75

Στη σύγκριση μέσων τιμών, η στατιστική συνάρτηση ελέγχου ακολουθεί την κατανομή t με n +n - β.ε. Η κατανομή t είναι συμμετρική αλλά πιο φαρδιά και πιο επίπεδη στις άκρες της από την κανονική κατανομή. 76

Όσο μεγαλύτερη είναι η τιμή της στατιστικής συνάρτησης ελέγχου (αγνοώντας το πρόσημο), τόσο περισσότερη είναι η απόδειξη ότι δεν ισχύει η μηδενική υπόθεση. Petrie & Sabin σελ 4 77

ΠΑΡΑΔΕΙΓΜΑ 5 (συν) Χρησιμοποιώντας τα δεδομένα του δείγματος μπορούμε να υπολογίσουμε τη τιμή του κριτηρίου και έτσι να βρούμε την πιθανότητα ότι θα έχουμε μία διαφορά μεταξύ μέσων τιμών που είναι τουλάχιστον 5,3 mmhg. - από πίνακες ή - με τη χρήση κάποιου στατιστικού πακέτου. «Η μέση μείωση της IOP της ομάδας που έκαναν trabmmc,55 (TA 9,03) mmhg ενώ ήταν 6,3 (ΤΑ 8,83) στην ομάδα που έκανε phacotrabmmc (p=0,006)». «Η πιθανότητα ότι θα βρίσκαμε μια δειγματική διαφορά τουλάχιστόν 5,3 mmhg είναι 0,006 ( φορές στις 000) αν δεν υπάρχει διαφορά στον πληθυσμό από τον οποίον προήλθε το δείγμα.» 78

Όσο μεγαλύτερη είναι η τιμή της στατιστικής συνάρτησης ελέγχου (αγνοώντας το πρόσημο), τόσο περισσότερη είναι η απόδειξη ότι δεν ισχύει η μηδενική υπόθεση.,96 3,3 79

ΠΑΡΑΔΕΙΓΜΑ 5(συν) Η πιθανότητα p=0,006 είναι πολύ μικρή και συμπεραίνουμε ότι υπάρχει ισχυρή απόδειξη ότι υπάρχει πραγματική διαφορά στις μέσες μειώσεις στην IOP στους μήνες μεταξύ των ειδών επεμβάσεων. Σε αυτό το παράδειγμα συνεπώς, απορρίπτουμε τη μηδενική υπόθεση (we reject the null hypothesis). Λέμε ότι το αποτέλεσμα είναι στατιστικά σημαντικό (statistically significant). 80

ΠΑΡΑΔΕΙΓΜΑ 4 (συν) Σχεδιασμός της μελέτης: Διαδοχική δειγματοληψία: όλα τα άτομα με γλαύκωμα που εγχειρίστηκαν από συγκεκριμένο χειρουργό από 8/96 μέχρι 6/03. Οι συγγραφείς αναφέρουν ότι η μελέτη ήταν αναδρομική. Στους μήνες δεν υπήρχαν στοιχεία για όλους τους ασθενείς (μονο 49/85 TrabMMC και 73/05 PhacotrabMMC). Τελικό σημείο της μελέτης = 4 μήνες, αλλά μόνο 39 και 59 ασθενείς. Στο baseline (πριν την επέμβαση), η IOC ήταν σημαντικά υψηλότερη (p<0,000) στα άτομα που υποβλήθηκαν σε TrabMMC (6, mmhg, TA 9,0) από αυτούς που υποβλήθηκαν σε PhacotrabMMC (0,3 mmhg, TA 7,0). => Ίσως είναι αναμενόμενη η μεγαλύτερη μείωση σ αυτή την ομάδα. Λύση: Randomization 8