Απαραμετρική Στατιστική. Έλεγχοι για k 2 ανεξάρτητους πληθυσμούς

Απαραμετρική Στατιστική Έλεγχοι για k 2 ανεξάρτητους πληθυσμούς

Πολλά από τα κριτήρια της στατιστικής συμπερασματολογίας βασίζονται σε περιοριστικές υποθέσεις για την κατανομή των πληθυσμών από τους οποίους λαμβάνουμε κάποια τυχαία δείγματα (παραμετρικά κριτήρια). Σε αρκετές περιπτώσεις όμως οι υποθέσεις αυτές για τη μορφή της κατανομής του πληθυσμού είναι δύσκολο να εξηγηθούν. Έτσι, προκύπτει το ερώτημα για το κατά πόσο μπορούμε να εφαρμόσουμε αυτά τα κριτήρια όταν οι υποθέσεις που κάνουμε για τη μορφή της κατανομής του πληθυσμού δεν ευσταθούν. Η πλευρά της στατιστικής που ασχολείται με τα προβλήματα αυτά καλείται μη παραμετρική ή απαραμετρική στατιστική. Με αυτή τη λογική, μη παραμετρικά κριτήρια μπορούν να χρησιμοποιηθούν σε πολλά πρακτικά προβλήματα για τον έλεγχο συγκεκριμένων υποθέσεων.

ΜΕΡΙΚΑ ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΤΩΝ ΑΠΑΡΑΜΕΤΡΙΚΩΝ ΚΡΙΤΗΡΙΩΝ Απλά στην κατασκευή: Χρησιμοποιούνται απλοί συνδυαστικοί τύποι χωρίς ιδιαίτερα «δύσκολα» μαθηματικά Εύκολα στην εφαρμογή: Οι πράξεις είναι ιδιαίτερα απλές και βασίζονται στην αρίθμηση, ταξινόμηση, πρόσθεση κλπ Γρήγορα στην εφαρμογή: Κυρίως για μικρά δείγματα Αποτελεσματικά: Σε πολλές περιπτώσεις έναντι των κλασσικών «παραμετρικών» κριτηρίων Χωρίς πολλές προϋποθέσεις εφαρμογής

Έλεγχοι για 2 ανεξάρτητους πληθυσμούς

Οι έλεγχοι για 2 ανεξάρτητους πληθυσμούς Για την εφαρμογή των μη-παραμετρικών μεθόδων σε 2 ανεξάρτητους πληθυσμούς θεωρούμε δύο ανεξάρτητα δείγματα Χ 1, Χ 2,,Χ n μεγέθους n, από πληθυσμό με κατανομή την F X και Y 1,Y 2,,Y m μεγέθους m, από πληθυσμό με κατανομή την F Y. Η υπόθεση που ελέγχουμε είναι η: H 0 : F X x = F Y (x) για κάθε x

Οι έλεγχοι για 2 ανεξάρτητους πληθυσμούς Χρήσιμα εργαλεία και έννοιες στην εφαρμογή των μη-παραμετρικών μεθόδων σε δύο ανεξάρτητους πληθυσμούς είναι: Το μικτό διατεταγμένο δείγμα W (1),W (2),,W (m+n) Oι βαθμοί (ranks) των παρατηρήσεων Βαθμός της παρατήρησης x i σε ένα τυχαίο δείγμα λέγεται το πλήθος των παρατηρήσεων του δείγματος που είναι μικρότερες ή ίσες με την x i.

Το μικτό διατεταγμένο δείγμα Αν Χ1, Χ2,,Χn το δείγμα μεγέθους n από τον πρώτο πληθυσμό και Y1,Y2,,Ym το δείγμα μεγέθους m από το δεύτερο πληθυσμό, το μικτό δείγμα είναι το Χ1, Χ2,,Χn,Y1,Y2,,Ym W1,W2,,Wn+m Αν στη συνέχεια διατάξουμε το μικτό δείγμα κατ αύξουσα σειρά, προκύπτει το μικτό διατεταγμένο δείγμα W(1),W(2),,W (n+m)

Παράδειγμα βαθμονόμησης (ranking) Έστω ότι έχει προκύψει το ακόλουθο μικτό διατεταγμένο δείγμα: 1.2 1.7 1.9 2.3 2.7 3.4 4.3 Ranks (r): 1 2 3 4 5 6 7 Σε περίπτωση παρατήρησης ίσων τιμών: Έστω ότι έχει προκύψει το ακόλουθο μικτό διατεταγμένο δείγμα: 1.2 1.2 1.9 2.3 2.3 2.3 4.3 Ranks (r): 1 2 3 4 5 6 7 Σε περίπτωση παρατήρησης ίσων τιμών για βαθμό παρατήρησης χρησιμοποιούμε το μέσο όρο των βαθμών που δόθηκαν σε κάθε γκρουπ ίσων παρατηρήσεων στην αρχική βαθμονόμηση. 1.2 1.2 1.9 2.3 2.3 2.3 4.3 Ranks (r): 1.5 1.5 3 5 5 5 7

Δημοφιλείς έλεγχοι για 2 ανεξάρτητους πληθυσμούς Ο έλεγχος Wald Wolfowitz (των ροών) Ο έλεγχος Kolmogorov Smirnov Ο έλεγχος Mann Whitney Ο έλεγχος Rank Sum του Wilcoxon

Ο έλεγχος Wald Wolfowitz (των ροών) Για δύο ανεξάρτητους πληθυσμούς H 0 : F X x = F Y (x) για κάθε x H 1 : F X x F Y (x)

Έστω δύο ανεξάρτητα δείγματα: Χ 1, Χ 2,,Χ n μεγέθους n, από πληθυσμό με κατανομή την F X και Y 1,Y 2,,Y m μεγέθους m, από πληθυσμό με κατανομή την F Y. Οι Wald-Wolfowitz πρότειναν τη χρήση του κριτηρίου R = # ροών στο μικτό διατεταγμενο δειγμα των X i. Y i Η κρίσιμη περιοχή για τον έλεγχο είναι η: R c όπου η σταθερά c προσδιορίζεται, για δεδομένο ε.σ. α, από P(R c H 0 ) a

Παράδειγμα Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 2.3, 1.7 και 3.4 και από τον πληθυσμό Υ με κατανομή την F Y τις παρατηρήσεις 1.2, 4.3, 2.7 και 1.9. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 10%; H 0 : F X x = F Y (x) για κάθε x H 1 : F X x F Y (x)

Παράδειγμα Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ. με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 3.4 4.3 Αριθμός ροών στο μικτό διατεταγμένο δείγμα R=7 Υπολογισμός κρίσιμης περιοχής R c P(R c H 0 ) a

Παράδειγμα Η κατανομή της R H0 Όταν ισχύει η μηδενική υπόθεση. τρεις παρατηρήσεις από τον Χ και τέσσερις παρατηρήσεις από τον Υ μπορεί να εμφανιστούν με τις εξής 35 «σειρές»: Ροές Ροές Ροές 1 X X X Y Y Y Y 2 13 X Y Y Y X X Y 4 25 Y X Y Y Y X X 4 2 X X Y X Y Y Y 4 14 X Y Y Y X Y X 5 26 Y Y X X X Y Y 3 3 X X Y Y X Y Y 4 15 X Y Y Y Y X X 3 27 Y Y X X Y X Y 5 4 X X Y Y Y X Y 4 16 Y X X X Y Y Y 3 28 Y Y X X Y Y X 4 5 X X Y Y Y Y X 3 17 Y X X Y X Y Y 5 29 Y Y X Y X X Y 5 6 X Y X X Y Y Y 4 18 Y X X Y Y X Y 5 30 Y Y X Y X Y X 6 7 X Y X Y X Y Y 6 19 Y X X Y Y Y X 4 31 Y Y X Y Y X X 4 8 X Y X Y Y X Y 6 20 Y X Y X X Y Y 5 32 Y Y Y X X X Y 3 9 X Y X Y Y Y X 5 21 Y X Y X Y X Y 7 33 Y Y Y X X Y X 4 10 X Y Y X X Y Y 4 22 Y X Y X Y Y X 6 34 Y Y Y X Y X X 4 11 X Y Y X Y X Y 6 23 Y X Y Y X X Y 5 35 Y Y Y Y X X X 2 12 X Y Y X Y Y X 5 24 Y X Y Y X Y X 6

Παράδειγμα Η κατανομή της R H0 Έχουμε λοιπόν ότι c=2 αφού: P R 2 H 0 = 0.057 0.1(=α) Τιμή ροών r # εμφανίσεων P(R=r) 2 2 0.057143 3 5 0.142857 4 12 0.342857 5 9 0.257143 6 6 0.171429 7 1 0.028571 και P R 3 H 0 = 0.057143 + 0.142857 = 0.2 >0.1(=α) Εφόσον λοιπόν η σχέση (7=) R c (=2) δεν ισχύει δεν απορρίπτουμε την H 0 : F X x = F Y (x) Σημείωση: Υπάρχουν πίνακες για τον υπολογισμό της κρίσιμης τιμής του ελέγχου

Η κανονική προσέγγιση Όταν τα μεγέθη των δειγμάτων n και m είναι σχετικά μεγάλα (μεγαλύτερα από 10), τότε η κατανομή της R προσεγγίζεται από την N μ R, σ R 2 = N 2mn m + n + 1, 2mn(2mn m n) m + n 2 (m + n 1) και Z = R μ R σ R ~N(0,1) Επομένως, η μηδενική υπόθεση απορρίπτεται, σε ε.σ. α, όταν Z < z a

Παράδειγμα Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις: 8, 2.3, 1.7, 3.4, 5.7, 2.6, 1.2, 3.7, 7.9, 5.2 και 4.9 και από τον πληθυσμό Υ με κατανομή την F Y τις παρατηρήσεις: 1.3, 4.3, 1, 2.7, 1.9, 1.1, 2.5, 3, 4.8, 7.7 και 2.1. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 10%; H 0 : F X x = F Y (x) H 1 : F X x F Y (x)

Παράδειγμα Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ (n=11). με κίτρινο από τον δεύτερο Υ (m=11)): 1 1.1 1.2 1.3 1.7 1.9 2.1 2.3 2.5 2.6 2.7 3 3.4 3.7 4.3 4.8 4.9 5.2 5.7 7.7 7.9 8 Αριθμός ροών στο μικτό διατεταγμένο δείγμα R=14 μ R = 12 σ R 2 = 5.238 Z = 14 12 5.238 = 0.8738

Z = R μ R + 0.5 σ R Διόρθωση συνέχειας

Σχόλια Σε περίπτωση ίσων παρατηρήσεων στα δύο δείγματα, δημιουργούμε το μικτό διατεταγμένο δείγμα με τέτοιο τρόπο ώστε να προκύπτει ο μεγαλύτερος αριθμός ροών. Αν απορριφθεί η μηδενική υπόθεση, αυτό μπορεί να οφείλεται είτε στη θέση των δύο κατανομών, ή στη διασπορά, ή στο σχήμα, ή σε ότιδήποτε άλλο μπορεί να κάνει δύο κατανομές να διαφέρουν.

Εφαρμογές (Wald-Wolfowitz) Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 2.3, 1.7, 2.7 και 3.4 και από τον πληθυσμό Υ με κατανομή την F Y τις παρατηρήσεις 1.2, 4.3, 2.7, 3.2 και 1.9. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 10%; Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ. με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 2.7 3.2 3.4 4.3 R = 7 Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ. με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 2.7 3.2 3.4 4.3 R = 9

Εφαρμογές (Wald-Wolfowitz) Δίνονται παρακάτω οι χρόνοι αντίδρασης δύο φαρμάκων Α και Β, όταν χορηγήθηκαν σε ασθενείς με παρόμοια βιομετρικά χαρακτηριστικά. Α: 1.3, 2.4, 0.9, 1, 1.7, 1.6, 2.1, 1.8, 2, 1.4, 1.1 Β: 2.1, 0.8, 2.3, 2.7, 2.5, 0.7, 2.8, 3, 2.6, 2.2, 3.4 Μπορούμε να συμπεράνουμε ότι ο χρόνος αντίδρασης των δύο φαρμάκων δεν διαφέρει, σε ε.σ. 10%;

Ο έλεγχος Kolmogorov - Smirnov Για δύο ανεξάρτητους πληθυσμούς H 0 : F X x = F Y (x) για κάθε x H 1 : F X x F Y (x)

Έστω δύο ανεξάρτητα δείγματα: Χ 1, Χ 2,,Χ n μεγέθους n, από πληθυσμό με κατανομή την F X και Y 1,Y 2,,Y m μεγέθους m, από πληθυσμό με κατανομή την F Y. Οι Kolmogorov-Smirnov πρότειναν τη σύγκριση των εμπειρικών συναρτήσεων κατανομής που προκύπτουν από τα δύο δείγματα. Η ε.σ.κ. του δείγματος Χ 1, Χ 2,,Χ n μεγέθους n 0 αν x < X (1) S n x = k/n αν X (k) x < X (k+1) 1 k n 1 1 αν x X (n)

Ο έλεγχος γίνεται με τη χρήση του κριτηρίου D n,m = sup x S n x S m (x) όπου S n (x) και S m (x) οι εμπειρικές σ. κ. των δύο δειγμάτων στο μικτό διατεταγμένο δείγμα των n+m παρατηρήσεων. Η μηδενική υπόθεση απορρίπτεται για μεγάλες τιμές του κριτηρίου. D n,m D n,m (a) Οι κρίσιμες τιμές δίνονται σε πίνακες.

m \ n πάνω: α=0.05 κάτω: α=0.01 Αν εμφανίζεται (*) η μηδενική υπόθεση δεν μπορεί να απορριφθεί για καμία τιμή Για μεγάλα δείγματα, ισχύει η προσσέγγιση: Dn,m a = c m + n mn α 0.1 0.05 0.01 c 1.22 1.36 1.63

Παράδειγμα Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 2.3, 1.7, 4.4 και 3.4 και από τον πληθυσμό Υ με κατανομή την G Y τις παρατηρήσεις 1.2, 4.3, 2.7 και 1.9. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 5%; H 0 : F X x = G Y (x) για κάθε x H 1 : F X x G Y (x)

x F 4 (x) G 4 (x) S 3 x S 4 (x) 1.2 0 1/4 1/4 max 1.7 1/4 1/4 0 1.9 1/4 2/4 1/4 max 2.3 2/4 2/4 0 2.7 2/4 3/4 1/4 max 3.4 3/4 3/4 0 4.3 3/4 1 1/4 max 4.4 1 1 0 D n,m = 0.25 D n,m = 0.25 < 1 = D 4,4 (0.05)

D n.m D n.m mn m + n

Παράδειγμα Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις: 8, 2.3, 1.7, 3.4, 5.7, 2.6, 1.2, 3.7, 7.9, 5.2 και 4.9 και από τον πληθυσμό Υ με κατανομή την G Y τις παρατηρήσεις: 1.3, 4.3, 1, 2.7, 1.9, 1.1, 2.5, 3, 4.8, 7.7 και 2.1. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 5%; H 0 : F X x = G Y (x) για κάθε x H 1 : F X x G Y (x)

x 1 1.1 1.2 1.3 1.7 1.9 2.1 2.3 2.5 2.6 2.7 3 3.4 3.7 4.3 4.8 4.9 5.2 5.7 7.7 7.9 8 F 0.00 0.00 0.09 0.09 0.18 0.18 0.18 0.27 0.27 0.36 0.36 0.36 0.45 0.55 0.55 0.55 0.64 0.73 0.82 0.82 0.91 1.00 G 0.09 0.18 0.18 0.27 0.27 0.36 0.45 0.45 0.55 0.55 0.64 0.73 0.73 0.73 0.82 0.91 0.91 0.91 0.91 1.00 1.00 1.00 F-G 0.09 0.18 0.09 0.18 0.09 0.18 0.27 0.18 0.27 0.18 0.27 0.36 0.27 0.18 0.27 0.36 0.27 0.18 0.09 0.18 0.09 0.00 max D n,m = 0.36 D 11,11 0.05 1.36 D n,m = 0.36 < 0.58 D 11,11 (0.05) 11 + 11 11 11 = 0.58 0.364 11 11 11 + 11 = 0.853

Εφαρμογές (Kolmogorov Smirnov) Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 2.3, 1.7, 2.7 και 3.4 και από τον πληθυσμό Υ με κατανομή την G Y τις παρατηρήσεις 1.2, 4.3, 2.7, 3.2 και 1.9. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 5%;

Εφαρμογές (Kolmogorov Smirnov) Δίνονται παρακάτω οι χρόνοι αντίδρασης δύο φαρμάκων Α και Β, όταν χορηγήθηκαν σε ασθενείς με παρόμοια βιομετρικά χαρακτηριστικά. Α: 1.3, 2.4, 0.9, 1, 1.7, 1.6, 2.1, 1.8, 2, 1.4, 1.1 Β: 2.1, 0.8, 2.3, 2.7, 2.5, 0.7, 2.8, 3, 2.6, 2.2, 3.4 Μπορούμε να συμπεράνουμε ότι ο χρόνος αντίδρασης των δύο φαρμάκων δεν διαφέρει, σε ε.σ. 5%;

Ο έλεγχος Mann - Whitney Για δύο ανεξάρτητους πληθυσμούς H 0 : F X x = F Y (x) για κάθε x H 1 : F X x F Y (x)

Ο έλεγχος U των Mann - Whitney χρησιμοποιείται για να ελέγξουμε τη μηδενική υπόθεση ότι δύο ανεξάρτητα δείγματα προέρχονται από τον ίδιο πληθυσμό (ή έχουν την ίδια κατανομή). Ας υποθέσουμε ξανά ότι έχουμε ένα δείγμα μεγέθους n από έναν πληθυσμό, και ένα δεύτερο δείγμα μεγέθους m από έναν δεύτερο πληθυσμό. Ο έλεγχος U των Mann - Whitney βασίζεται στη σύγκριση κάθε παρατήρησης από το πρώτο δείγμα με κάθε παρατήρηση από το δεύτερο δείγμα. Ο συνολικός αριθμός των συγκρίσεων είναι mn.

Για τον υπολογισμό της τιμής της συνάρτησης U των Mann Whitney, μετράμε τον αριθμό των φορών που μια παρατήρηση από το πρώτο δείγμα είναι μεγαλύτερη από μια παρατήρηση από το δεύτερο δείγμα. Συμβολίζουμε αύτον τον αριθμό με x i y j U x. Παρόμοια, μετράμε τον αριθμό των φορών που μια x i από το πρώτο δείγμα είναι μικρότερη από μια y από το δεύτερο δείγμα και συμβολίζουμε αυτόν τον αριθμό με H περιμένουμε τα 0 U και x U y να είναι περίπου ίσα. j U y. Υπό την Ενδείξεις ενάντια στη μηδενική υπόθεση θα υπάρχουν αν για το U X (αντίστοιχα για το U Y ) παρατηρηθεί είτε μεγάλη, είτε μικρή τιμή. Σημειώνεται ότι ισχύει πάντα U X + U y = nm. P(U X c 1 H 0 ) a/2 U X c 1 ή U X c 2 P(U X c 2 H 0 ) a/2

Παράδειγμα Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ. με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 3.4 4.3 Αριθμός φορών που Χ>Υ: U X = 6 Αριθμός φορών που Υ>Χ: U Y = 6

Παράδειγμα Η κατανομή της UΧ H0 Όταν ισχύει η μηδενική υπόθεση. τρεις παρατηρήσεις από τον Χ και τέσσερις παρατηρήσεις από τον Υ μπορεί να εμφανιστούν με τις εξής 35 «σειρές»: U Χ U Χ U Χ 1 X X X Y Y Y Y 0 13 X Y Y Y X X Y 6 25 Y X Y Y Y X X 9 2 X X Y X Y Y Y 1 14 X Y Y Y X Y X 7 26 Y Y X X X Y Y 6 3 X X Y Y X Y Y 2 15 X Y Y Y Y X X 8 27 Y Y X X Y X Y 7 4 X X Y Y Y X Y 3 16 Y X X X Y Y Y 3 28 Y Y X X Y Y X 8 5 X X Y Y Y Y X 4 17 Y X X Y X Y Y 4 29 Y Y X Y X X Y 8 6 X Y X X Y Y Y 2 18 Y X X Y Y X Y 5 30 Y Y X Y X Y X 9 7 X Y X Y X Y Y 3 19 Y X X Y Y Y X 6 31 Y Y X Y Y X X 10 8 X Y X Y Y X Y 4 20 Y X Y X X Y Y 5 32 Y Y Y X X X Y 9 9 X Y X Y Y Y X 5 21 Y X Y X Y X Y 6 33 Y Y Y X X Y X 10 10 X Y Y X X Y Y 4 22 Y X Y X Y Y X 7 34 Y Y Y X Y X X 11 11 X Y Y X Y X Y 5 23 Y X Y Y X X Y 7 35 Y Y Y Y X X X 12 12 X Y Y X Y Y X 6 24 Y X Y Y X Y X 8

Παράδειγμα Η κατανομή της UΧ H0 P U X 0 H 0 = 0.0286 0.05(= a 2 ) P U X 12 H 0 = 0.0286 0.05(= a 2 ) Συνεπώς, η κρίσιμη περιοχή είναι: U X 0 ή U X 12 U X = 6 Παρατηρήθηκε και δεν απορρίπτουμε την H 0 : F X x = F Y (x) UX εμφανίσεις P 0 1 0.0286 1 1 0.0286 2 2 0.0571 3 3 0.0857 4 4 0.1143 5 4 0.1143 6 5 0.1429 7 4 0.1143 8 4 0.1143 9 3 0.0857 10 2 0.0571 11 1 0.0286 12 1 0.0286

Χρήση έτοιμων πινάκων: Θέτουμε U = min{ U x, U }. Για την απόρριψη ή μη της μηδενικής y υπόθεσης, βρίσκουμε την κρίσιμη τιμή U cr του ελέγχου U των Mann Whitney (ακριβής έλεγχος). Αν U Ucr απορρίπτουμε τη μηδενική υπόθεση σε επίπεδο σημαντικότητας α.

Παράδειγμα (συνέχεια) Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ. με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 3.4 4.3 Αριθμός φορών που Χ>Υ: U X = 6 Αριθμός φορών που Υ>Χ: U Y = 6 U = min U X, U Y = 6

Παράδειγμα Η κατανομή της U H0 Όταν ισχύει η μηδενική υπόθεση. τρεις παρατηρήσεις από τον Χ και τέσσερις παρατηρήσεις από τον Υ μπορεί να εμφανιστούν με τις εξής 35 «σειρές»: U U U 1 X X X Y Y Y Y 0 13 X Y Y Y X X Y 6 25 Y X Y Y Y X X 3 2 X X Y X Y Y Y 1 14 X Y Y Y X Y X 5 26 Y Y X X X Y Y 6 3 X X Y Y X Y Y 2 15 X Y Y Y Y X X 4 27 Y Y X X Y X Y 5 4 X X Y Y Y X Y 3 16 Y X X X Y Y Y 3 28 Y Y X X Y Y X 4 5 X X Y Y Y Y X 4 17 Y X X Y X Y Y 4 29 Y Y X Y X X Y 4 6 X Y X X Y Y Y 2 18 Y X X Y Y X Y 5 30 Y Y X Y X Y X 3 7 X Y X Y X Y Y 3 19 Y X X Y Y Y X 6 31 Y Y X Y Y X X 2 8 X Y X Y Y X Y 4 20 Y X Y X X Y Y 5 32 Y Y Y X X X Y 3 9 X Y X Y Y Y X 5 21 Y X Y X Y X Y 6 33 Y Y Y X X Y X 2 10 X Y Y X X Y Y 4 22 Y X Y X Y Y X 5 34 Y Y Y X Y X X 1 11 X Y Y X Y X Y 5 23 Y X Y Y X X Y 5 35 Y Y Y Y X X X 0 12 X Y Y X Y Y X 6 24 Y X Y Y X Y X 4

Παράδειγμα Η κατανομή της U H0 Έχουμε λοιπόν ότι Ucr=0 αφού: P U 0 H 0 = 0.057 0.1(=α) και P U 1 H 0 = 0.057 + 0.057 = 0.114 >0.1(=α) Εφόσον λοιπόν η σχέση (6=) U Ucr (=0) δεν ισχύει, δεν απορρίπτουμε την H 0 : F X x = F Y (x) U Φορές εμφάνισης 0 2 0.057 1 2 0.057 2 4 0.114 3 6 0.171 4 8 0.226 5 8 0.226 6 5 0.143 P

Η κανονική προσέγγιση Όταν τα μεγέθη των δειγμάτων n και m είναι σχετικά μεγάλα (nm>20), τότε η κατανομή της U X (και της U Υ ) προσεγγίζεται από την 2 N μ UX, σ UX = N mn 2, mn(m + n + 1) 12 και Z = U X μ UX σ UX ~N(0,1) Επομένως, η μηδενική υπόθεση απορρίπτεται, σε ε.σ. α, όταν Z > z a/2

Χειρισμός «ισοπαλιών» Στην περίπτωση που παρατηρηθούν κάποιες «ίσες» τιμές ανάμεσα στα δύο δείγματα δίνουμε, για κάθε «ισοπαλία», μισή μονάδα στο U x και μισή μονάδα στο U y. 2 Αν ακολουθήσουμε την κανονική προσέγγιση, η διασπορά σ UX, τροποποιείται ως εξής: 2 σ UX = mn (m + n)(m + n 1) (m + n) 3 (m + n) 12 g i=1 ti 3 t i 12 όπου: g: το πλήθος των γκρουπ ίσων παρατηρήσεων t i : το πλήθος των ίσων παρατηρήσεων στο i γκρουπ

1 1.1 1.2 1.3 1.7 1.9 2.1 2.3 2.5 2.6 2.7 3 3.4 3.7 4.3 4.8 4.9 5.2 5.7 7.7 7.9 8 X>Y 2 3 5 6 8 8 10 10 10 11 11 Y>X 0 0 1 2 2 3 4 4 6 6 9 Αριθμός φορών που Χ>Υ: U X = 84 Αριθμός φορών που Υ>Χ: U Y = 37 U = min U X, U Y = 37 U cr (0.05) = 30 U U cr?? Εφόσον λοιπόν η σχέση (37=) U Ucr (=30) δεν ισχύει, δεν απορρίπτουμε την H 0 : F X x = F Y (x)

Η κανονική προσέγγιση μ UX = mn 2 = 60.5 2 σ UX = mn(m + n + 1) 12 = 231.9166 Z = U X μ UX σ UX = 84 60.5 231.9166 = 1.543 Z = 1.543 < 1.96 = z 0.025

Εφαρμογές (Mann Whitney) Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 2.3, 1.7, 2.7 και 3.4 και από τον πληθυσμό Υ με κατανομή την G Y τις παρατηρήσεις 1.2, 4.3, 2.7, 3.2 και 1.9. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 5%;

Εφαρμογές (Mann Whitney) Δίνονται παρακάτω οι χρόνοι αντίδρασης δύο φαρμάκων Α και Β, όταν χορηγήθηκαν σε ασθενείς με παρόμοια βιομετρικά χαρακτηριστικά. Α: 1.3, 2.4, 0.9, 1, 1.7, 1.6, 2.1, 1.8, 2, 1.4, 1.1 Β: 2.1, 0.8, 2.3, 2.7, 2.5, 0.7, 2.8, 3, 2.6, 2.2, 3.4 Μπορούμε να συμπεράνουμε ότι ο χρόνος αντίδρασης των δύο φαρμάκων δεν διαφέρει, σε ε.σ. 5%;

Ο έλεγχος Rank Sum του Wilcoxon Για δύο ανεξάρτητους πληθυσμούς H 0 : F X x = F Y (x) για κάθε x H 1 : F X x F Y (x)

Ο έλεγχος Rank Sum του Wilcoxon χρησιμοποιείται για να ελέγξουμε τη μηδενική υπόθεση ότι δύο ανεξάρτητα δείγματα προέρχονται από τον ίδιο πληθυσμό (ή έχουν την ίδια κατανομή). Ας υποθέσουμε ξανά ότι έχουμε ένα δείγμα μεγέθους n από έναν πληθυσμό, και ένα δεύτερο δείγμα μεγέθους m από έναν δεύτερο πληθυσμό. Ο έλεγχος Rank Sum του Wilcoxon βασίζεται στη βαθμονόμηση (ranking) των παρατηρήσεων στο μικτό διατεταγμένο δείγμα, και χρησιμοποιεί το άθροισμα των βαθμών των παρατηρήσεων του κάθε δείγματος.

Μετά τη βαθμονόμηση του μικτού διατεταγμένου δείγματος, ας συμβολίσουμε με W X το άθροισμα των βαθμών των τιμών που προέρχονται από το δείγμα των n τιμών του πληθυσμού Χ και με W Y το άθροισμα των βαθμών των τιμών που προέρχονται από το δείγμα των m τιμών του πληθυσμού Υ. Αν η μηδενική υπόθεση είναι ορθή, τότε αναμένεται αυτά τα δύο αθροίσματα να είναι περίπου ίσα. Ενδείξεις ενάντια στη μηδενική υπόθεση θα υπάρχουν αν για το W X (αντίστοιχα για το W Y ) παρατηρηθεί είτε μεγάλη, είτε μικρή τιμή. Σημειώνεται ότι ισχύει πάντα P(W X c 1 H 0 ) a/2 W X + W Y = (n+m)(n+m+1). 2 W X c 1 ή W X c 2 P(W X c 2 H 0 ) a/2

Παράδειγμα Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ, με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 3.4 4.3 Ranks: 1 2 3 4 5 6 7 Άθροισμα βαθμών από το Χ W X = 2 + 4 + 6 = 12 Άθροισμα βαθμών από το Υ W Y = 1 + 3 + 5 + 7 = 16

Παράδειγμα (Χρήση της WX) Η κατανομή της WX H0 Όταν ισχύει η μηδενική υπόθεση. τρεις παρατηρήσεις από τον Χ και τέσσερις παρατηρήσεις από τον Υ μπορεί να εμφανιστούν με τις εξής 35 «σειρές» και έχουν τα παρακάτω αθροίσματα βαθμών για το πρώτο δείγμα Χ: 1 2 3 4 5 6 7 W X 1 2 3 4 5 6 7 W X 1 2 3 4 5 6 7 W X 1 X X X Y Y Y Y 6 13 X Y Y Y X X Y 12 25 Y X Y Y Y X X 15 2 X X Y X Y Y Y 7 14 X Y Y Y X Y X 13 26 Y Y X X X Y Y 12 3 X X Y Y X Y Y 8 15 X Y Y Y Y X X 14 27 Y Y X X Y X Y 13 4 X X Y Y Y X Y 9 16 Y X X X Y Y Y 9 28 Y Y X X Y Y X 14 5 X X Y Y Y Y X 10 17 Y X X Y X Y Y 10 29 Y Y X Y X X Y 14 6 X Y X X Y Y Y 8 18 Y X X Y Y X Y 11 30 Y Y X Y X Y X 15 7 X Y X Y X Y Y 9 19 Y X X Y Y Y X 12 31 Y Y X Y Y X X 16 8 X Y X Y Y X Y 10 20 Y X Y X X Y Y 11 32 Y Y Y X X X Y 15 9 X Y X Y Y Y X 11 21 Y X Y X Y X Y 12 33 Y Y Y X X Y X 16 10 X Y Y X X Y Y 10 22 Y X Y X Y Y X 13 34 Y Y Y X Y X X 17 11 X Y Y X Y X Y 11 23 Y X Y Y X X Y 13 35 Y Y Y Y X X X 18 12 X Y Y X Y Y X 12 24 Y X Y Y X Y X 14

Παράδειγμα Η κατανομή της WX H0 P W X 6 H 0 = 0.0286 0.05(= a 2 ) P W X 18 H 0 = 0.0286 0.05(= a 2 ) Συνεπώς, η κρίσιμη περιοχή είναι: W X 6 ή W X 18 W X = 12 Παρατηρήθηκε και δεν απορρίπτουμε την H 0 : F X x = F Y (x) WX εμφανίσεις P 6 1 0.0286 7 1 0.0286 8 2 0.0571 9 3 0.0857 10 4 0.1143 11 4 0.1143 12 5 0.1429 13 4 0.1143 14 4 0.1143 15 3 0.0857 16 2 0.0571 17 1 0.0286 18 1 0.0286

Παράδειγμα (Χρήση της WY) Η κατανομή της WY H0 Όταν ισχύει η μηδενική υπόθεση. τρεις παρατηρήσεις από τον Χ και τέσσερις παρατηρήσεις από τον Υ μπορεί να εμφανιστούν με τις εξής 35 «σειρές» και έχουν τα παρακάτω αθροίσματα βαθμών για το δεύτερο δείγμα Υ: 1 2 3 4 5 6 7 W Y 1 2 3 4 5 6 7 W Y 1 2 3 4 5 6 7 W Y 1 X X X Y Y Y Y 22 13 X Y Y Y X X Y 16 25 Y X Y Y Y X X 13 2 X X Y X Y Y Y 21 14 X Y Y Y X Y X 15 26 Y Y X X X Y Y 16 3 X X Y Y X Y Y 20 15 X Y Y Y Y X X 14 27 Y Y X X Y X Y 15 4 X X Y Y Y X Y 19 16 Y X X X Y Y Y 19 28 Y Y X X Y Y X 14 5 X X Y Y Y Y X 18 17 Y X X Y X Y Y 18 29 Y Y X Y X X Y 14 6 X Y X X Y Y Y 20 18 Y X X Y Y X Y 17 30 Y Y X Y X Y X 13 7 X Y X Y X Y Y 19 19 Y X X Y Y Y X 16 31 Y Y X Y Y X X 12 8 X Y X Y Y X Y 18 20 Y X Y X X Y Y 17 32 Y Y Y X X X Y 13 9 X Y X Y Y Y X 17 21 Y X Y X Y X Y 16 33 Y Y Y X X Y X 12 10 X Y Y X X Y Y 18 22 Y X Y X Y Y X 15 34 Y Y Y X Y X X 11 11 X Y Y X Y X Y 17 23 Y X Y Y X X Y 15 35 Y Y Y Y X X X 10 12 X Y Y X Y Y X 16 24 Y X Y Y X Y X 14

Παράδειγμα Η κατανομή της WY H0 P W Y 10 H 0 = 0.0286 0.05(= a 2 ) P W Y 22 H 0 = 0.0286 0.05(= a 2 ) Συνεπώς, η κρίσιμη περιοχή είναι: W Y 10 ή W Y 22 W Y = 16 Παρατηρήθηκε και δεν απορρίπτουμε την H 0 : F X x = F Y (x) WY εμφανίσεις P 10 1 0.0286 11 1 0.0286 12 2 0.0571 13 3 0.0857 14 4 0.1143 15 4 0.1143 16 5 0.1429 17 4 0.1143 18 4 0.1143 19 3 0.0857 20 2 0.0571 21 1 0.0286 22 1 0.0286

Χρήση έτοιμων πινάκων για το W = W X, αν n m W Y, αν n > m, n1 = min n, m, n2 = max{n, m}

Παράδειγμα (συνέχεια) Μικτό διατεταγμένο δείγμα (με κόκκινο από τον πρώτο πληθυσμό Χ. με κίτρινο από τον δεύτερο Υ): 1.2 1.7 1.9 2.3 2.7 3.4 4.3 Άθροισμα βαθμών από το Χ W X = 2 + 4 + 6 = 12 Άθροισμα βαθμών από το Υ W Y = 1 + 3 + 5 + 7 = 16 Από πίνακες, για n=3, m=4 και α=0.1, βρίσκω τις κρίσιμες τιμές για το W=Wx αφού n < m. c1=6 και c2=18

Η κανονική προσέγγιση Όταν τα μεγέθη των δειγμάτων n και m είναι σχετικά μεγάλα (nm>20), τότε η κατανομή της W X (και κατ αντιστοιχία της W Υ ) προσεγγίζεται από την 2 N μ WX, σ WX = N n(n + m + 1) 2, mn(m + n + 1) 12 και Z = W X μ WX σ WX ~N(0,1) Επομένως, η μηδενική υπόθεση απορρίπτεται, σε ε.σ. α, όταν Z > z a/2

Χειρισμός «ισοπαλιών» Σε περίπτωση παρατήρησης ίσων τιμών, για βαθμό παρατήρησης χρησιμοποιούμε το μέσο όρο των βαθμών που δόθηκαν σε κάθε γκρουπ ίσων παρατηρήσεων στην αρχική βαθμονόμηση. 2 Αν ακολουθήσουμε την κανονική προσέγγιση, η διασπορά σ WX, τροποποιείται ως εξής: 2 σ WX = όπου: mn (m + n)(m + n 1) (m + n) 3 (m + n) 12 g: το πλήθος των γκρουπ ίσων παρατηρήσεων t i : το πλήθος των ίσων παρατηρήσεων στο i γκρουπ g i=1 ti 3 t i 12

1 1.1 1.2 1.3 1.7 1.9 2.1 2.3 2.5 2.6 2.7 3 3.4 3.7 4.3 4.8 4.9 5.2 5.7 7.7 7.9 8 Rank 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 W X = 3 + 5 + 8 + 10 + 13 + 14 + +17 + 18 + 19 + 21 + 22 = 150 Από πίνακες, για n=m=11 και α=0.05, έχουμε W=WX: c1=96 και c2=157 Εφόσον λοιπόν η σχέση W X = 150 96 = c1 ή W X = 150 157 = c2 δεν ισχύει, δεν απορρίπτουμε την H 0 : F X x = F Y (x)

Η κανονική προσέγγιση W X = 150 μ WX = n(m + n + 1) 2 = 126.5 2 σ WX = mn(m + n + 1) 12 = 231.9166 Z = W X μ WX σ WX = 150 126.5 231.9166 = 1.543 Z = 1.543 < 1.96 = z 0.025

Η κανονική προσέγγιση W X = 150 Το SPSS θεωρεί ως τιμή W του ελέγχου Sum Rank Wilcoxon την W = min{w X, W Y } αν m=n. Πράγματι, W Y = 103. Αν m n, τότε χρησιμοποιούν την τιμή που προκύπτει από το δείγμα που έχουμε δηλώσει ως Group 2, στο σχετικό παράθυρο διαλόγου.

Εφαρμογές (Sum Rank του Wilcoxon) Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 2.3, 1.7, 2.7 και 3.4 και από τον πληθυσμό Υ με κατανομή την G Y τις παρατηρήσεις 1.2, 4.3, 2.7, 3.2 και 1.9. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 5%;

Εφαρμογές (Sum Rank του Wilcoxon) Δίνονται παρακάτω οι χρόνοι αντίδρασης δύο φαρμάκων Α και Β, όταν χορηγήθηκαν σε ασθενείς με παρόμοια βιομετρικά χαρακτηριστικά. Α: 1.3, 2.4, 0.9, 1, 1.7, 1.6, 2.1, 1.8, 2, 1.4, 1.1 Β: 2.1, 0.8, 2.3, 2.7, 2.5, 0.7, 2.8, 3, 2.6, 2.2, 3.4 Μπορούμε να συμπεράνουμε ότι ο χρόνος αντίδρασης των δύο φαρμάκων δεν διαφέρει, σε ε.σ. 5%;

Ασκήσεις Έλεγχοι για 2 ανεξάρτητους πληθυσμούς

Από τον πληθυσμό Χ με κατανομή την F X λάβαμε τις παρατηρήσεις 14, 13, 19, 11, 18 και 17 και από τον πληθυσμό Υ με κατανομή την G Y τις παρατηρήσεις 8, 16, 14, 10, 13, 9 και 12. Μπορούμε να πούμε ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό, σε ε.σ. 5% με τη χρήση: α) του ελέγχου Wald Wolfowitz; β) του ελέγχου Kolmogorov Smirnov; γ) του ελέγχου Mann Whitney; δ) του ελέγχου Rank Sum του Wilcoxon;

Ο έλεγχος Kruskal Wallis Για k 2 ανεξάρτητους πληθυσμούς H 0 : οι πληθυσμοί δεν παρουσιάζουν διαφορές H 1 :τουλάχιστον ένας πληθυσμός διαφέρει από τους υπόλοιπους

Ο έλεγχος Kruskal-Wallis αποτελεί γενίκευση του ελέγχου Rank Sum του Wilcoxon και χρησιμοποιείται για να ελέγξουμε τη μηδενική υπόθεση ότι k ανεξάρτητα δείγματα προέρχονται από τον ίδιο πληθυσμό (ή έχουν την ίδια κατανομή). Έστω ότι έχουμε λάβει n i παρατηρήσεις από τον πληθυσμό Χ i, i = 1,2,, k. Ο έλεγχος βασίζεται στη βαθμονόμηση (ranking) των παρατηρήσεων στο μικτό διατεταγμένο δείγμα, και χρησιμοποιεί το άθροισμα των βαθμών R Xi των παρατηρήσεων του κάθε δείγματος. Η ποσότητα που παρακολουθείται είναι η: H = 12 k N(N + 1) i=1 2 RXi n i 3(N + 1) N = k i=1 n i

Η ποσότητα Η, όταν ισχύει η μηδενική υπόθεση, ακολουθεί 2 προσεγγιστικά την κατανομή χ k 1. Επομένως, η μηδενική υπόθεση απορρίπτεται σε ε.σ. α, αν 2 Η > χ k 1 (α) Χειρισμός «ισοπαλιών» Σε περίπτωση παρατήρησης ίσων τιμών, για βαθμό παρατήρησης χρησιμοποιούμε το μέσο όρο των βαθμών που δόθηκαν σε κάθε γκρουπ ίσων παρατηρήσεων στην αρχική βαθμονόμηση. Σε αυτή την περίπτωση, η ποσότητα που παρακολουθείται είναι η: H = 12 N(N + 1) σ k i=1 g 1 σ i=1 2 R Xi 3(N + 1) n i t i 3 t i Ν 3 N όπου: N = g: το πλήθος των γκρουπ ίσων παρατηρήσεων i=1 t i : το πλήθος των ίσων παρατηρήσεων στο i γκρουπ k n i

Πίνακες με τις κρίσιμες τιμές Για μικρά μεγέθη δειγμάτων, υπάρχουν πίνακες με τις κρίσιμες τιμές του ελέγχου, Η cr. Η μηδενική υπόθεση απορρίπτεται όταν Η > Η cr.

Παράδειγμα Για να ελέγξουμε αν οι επιδόσεις των μαθητών της Α τάξης στα Μαθηματικά διαφέρουν σε k=3 λύκεια της Αττικής, επιλέγουμε τυχαία 5, 3 και 4 μαθητές από κάθε λύκειο και καταγράφουμε το βαθμό που πήραν στην τελευταία τους εξέταση στα μαθηματικά. Λύκειο Βαθμολογία Α 14 12 15 13 15 Β 20 14 10 Γ 17 18 18 19 Κατατάσσουμε τις 12 βαθμολογίες από τη μικρότερη στη μεγαλύτερη και βρίσκουμε τα τελικά Ranks. Ταξινομημένες 10 12 13 14 14 15 15 17 18 18 19 20 παρατηρήσεις Ranks 1 2 3 4 5 6 7 8 9 10 11 12 Τελικά Ranks 1 2 3 4.5 4.5 6.5 6.5 8 9.5 9.5 11 12 Δείγμα Β Α Α Α Β Α Α Γ Γ Γ Γ Β Έτσι έχουμε συγκεντρωτικά: n1=5 με RΑ=22.5, n2=3 με RΒ=17.5 και n3=4 με RΓ=38, με συνολικές παρατηρήσεις Ν=12. Επίσης έχουμε 3 ομάδες με t=2 ίσες παρατηρήσεις. Η τιμή της συνάρτησης Η είναι:

Παράδειγμα H = 12 N N + 1 2 σ k R i i=1 n 3 N + 1 i 1 σ t3 t N 3 N = 12 12 13 22.5 2 5 + 17.52 3 + 382 4 3 13 1 23 2 12 3 12 + 23 2 12 3 12 + 23 2 12 3 12 Η=4.457. Από τις κρίσιμες τιμές Η cr για α=0.05 και μεγέθη δειγμάτων 5, 4 και 3 βρίσκουμε ότι Η cr =5.656. Επειδή Η< Η cr, δεν απορρίπτουμε τη μηδενική υπόθεση και καταλήγουμε ότι οι επιδόσεις των μαθητών στα 3 σχολεία είναι περίπου ισοδύναμες. Επιλέγοντας να κάνουμε τον έλεγχο ασυμπτωτικά, πρέπει να υπολογίζουμε την τιμή χ 2 2 (0.05) = 5.99. Αφού Η < 5.99 δεν απορρίπτουμε τη μηδενική υπόθεση.

Πολλαπλές συγκρίσεις Όταν η μηδενική υπόθεση απορριφθεί, είναι χρήσιμο να γνωρίζουμε ποιος ή ποιοι πληθυσμοί «ευθύνονται» για αυτό. Ο k τρόπος που δουλεύουμε είναι να κάνουμε όλες τις 2 = k(k 1) 2 συγκρίσεις, των k πληθυσμών ανά δύο. Όταν συγκρίνουμε τους πληθυσμούς X i και X j, χρησιμοποιούμε την ποσότητα: Z ij = R Xi n i R X j n j N(N + 1) 12 1 n i + 1 n j k N = Απορρίπτουμε την ισότητα των κατανομών των X i και X j σε επίπεδο σημαντικότητας α (συνολικό, για όλες τις συγκρίσεις ανά δύο) όταν: Z ij > z a με a = a k(k 1) i=1 n i