Απαραμετρική Στατιστική Το βαθμονομικό κριτήριο του Wilcoxon, για ζευγαρωτες παρατηρήσεις Ο βαθμονομικός συντελεστής συσχέτισης του Spearman
Το βαθμονομικό κριτήριο του Wilcoxon, για ζευγαρωτες παρατηρήσεις Wiloxon s signed rank sum test
Σε δείγματα που αποτελούνται από «ζεύγη» παρατηρήσεων (π.χ πριν - μετά), ο έλεγχος προσήμου, χρησιμοποιείται για να ελέγξει τη διάμεσο των διαφορών δυο πληθυσμών. Το μεγάλο του μειονέκτημα είναι το ότι μόνο το πρόσημο των διαφορών ουσιαστικά χρησιμοποιείται στους υπολογισμούς για την ολοκλήρωση του ελέγχου. Ο Wilcoxon πρότεινε να χρησιμοποιείται, εκτός από το πρόσημο, και η απόλυτη τιμή της διαφοράς των παρατηρήσεων πιστεύοντας ότι αυτή η προσέγγιση θα μεγάλωνε την αποδοτικότητα του ελέγχου, υπό την προϋπόθεση ότι η κατανομή των διαφορών είναι συμμετρική γύρω από το 0.
Ας θεωρήσουμε ότι έχουμε n ζευγαρωτές (paired) παρατηρήσεις ( x 1, y1),( x, y),...,( x n, yn) και θέλουμε να ελέγξουμε αν η διάμεσος των διαφορών των πληθυσμών (m) ισούται με 0. Δουλεύουμε παρόμοια με τον έλεγχο του προσήμου, θεωρώντας τις διαφορές d = x y. i i i Στη συνέχεια ταξινομούμε και βαθμολογούμε τις παρατηρηθείσες διαφορές αγνοώντας το πρόσημο, από τη μικρότερη στη μεγαλύτερη, δίνοντας 1 στην μικρότερη, στην αμέσως επόμενη κοκ (ranking). Σε περίπτωση κάποιων ίσων παρατηρηθέντων διαφορών αποδίδουμε σε όλες τη μέση τιμή των αντίστοιχων βαθμολογιών τους. Αν κάποια ή κάποιες διαφορές (έστω d0) προκύψουν ίσες με το 0, προτιμάμε να τις αφαιρέσουμε από το δείγμα, μειώνοντας όμως το μέγεθός του ανάλογα (n = n d0).
Για να ολοκληρώσουμε τον έλεγχο, θυμόμαστε το πρόσημο που είχε κάθε διαφορά, και χωρίζουμε την τελική βαθμολογία των παρατηρηθέντων διαφορών σε δύο σύνολα, ένα που περιέχει τις τελικές βαθμολογίες των διαφορών με θετικό πρόσημο και ένα που περιέχει τις τελικές βαθμολογίες των διαφορών με αρνητικό πρόσημο. Τέλος, υπολογίζουμε τις ποσότητες W + αθροίζοντας τις τελικές βαθμολογίες του πρώτου συνόλου (βαθμολογίες διαφορών με θετικό πρόσημο) και W - αθροίζοντας τις τελικές βαθμολογίες του δεύτερου συνόλου. Προφανώς, υπόθεση, τότε W + + W = n(n + 1) W + W και, αν ισχύει η μηδενική
Αν όμως η διάμεσος των διαφορών δεν είναι 0, τότε θα προκύπτει είτε μεγάλο W + (και προφανώς μικρό W ), ή μικρό W + (και προφανώς μεγάλο W ). Συνεπώς, η μηδενική υπόθεση θα απορρίπτεται αν P(W + LB H 0 ) a/ W + LB ή W + UB Για τις κρίσιμες τιμές, υπάρχουν πίνακες. P(W + UB H 0 ) a/
Πώς προέκυψαν οι τιμές για n=5, στον προηγόυμενο πίνακα;
Η κανονική προσέγγιση Αν ο αριθμός των παρατηρήσεων που τελικά χρησιμοποιούμε από το δείγμα είναι σχετικά μεγάλος, η κανονική προσέγγιση μπορεί να χρησιμοποιηθεί με μ W+ = n(n+1) 4 και σ W+ = n(n+1)(n+1) 4 Σε περίπτωση t ίσων βαθμολογίων (ranks) η διακύμανση πρέπει να μειωθεί κατά ( t 3 t) / 48 για κάθε γκρουπ ίσων τιμών. Z = W + μ W+ σ W+ ~N(0,1) Επομένως, η μηδενική υπόθεση απορρίπτεται, σε ε.σ. α, όταν Z > z a/
Παράδειγμα Θέλουμε να ελέγξουμε αν ένα χάπι κάτα της αϋπνίας είναι δραστικότερο από ένα ήδη υπάρχον στο εμπόριο επιλέγοντας n=8 ασθενείς που πάσχουν από αϋπνία και μετρώντας το χρόνο αντίδρασης των χαπιών (σε ώρες) σε καθένα απ' αυτούς. Η μηδενική μας υπόθεση είναι ότι η διάμεσος των διαφορών ισούται με 0. Ασθενής 1 3 4 5 6 7 8 Χάπι Α 7 6 3 8 5 9 7 9 Χάπι Β 3 5 5 4 3 7 8 7 Από το δείγμα μας παίρνουμε τις εξής διαφορές d i : 4, 1, -, 4,,, -1 και. Ταξινομούμε τις απόλυτες τιμές των διαφορών και βαθμολογούμε. Δεν ξεχνάμε το πρόσημο των διαφορών. Απόλυτες παρατηρηθείσες ταξινομημένες διαφορές 1 1 4 4 Βαθμολογία 1 3 4 5 6 7 8 Τελική βαθμολογία (Ranks) 1.5 1.5 4.5 4.5 4.5 4.5 7.5 7.5 Πρόσημο διαφορών - + - + + + + + Υπολογίζουμε το W + = 1.5 + 4.5 + 4.5 + 4.5 + 7.5 +7.5 = 30 και το W - = 1.5 + 4.5 = 6.
Για n * = n = 8, και α=0.05 έχουμε από πίνακες ότι LB=3 και UB=33. Επειδή δεν ισχύουν οι: δεν θα απορρίψουμε την μηδενική υπόθεση σε ε.σ. 5%. Αν ακολουθήσουμε την κανονική προσέγγιση, έχουμε: 8(8 + 1)(16 + 1) = 18 και σ W+ = = 51. 4 Επειδή όμως έχουμε μια τετράδα ίσων διαφορών και δυο δυάδες ισων διαφορών, η διακύμανση αυτή πρέπει να μειωθεί κατά 3 3 3 4 4 + + = 1.5. Τελικά, = 49.5 48 W + = 30 3 = LB ή W + = 30 33 = UB μ W+ = 48 8(8 + 1) 4 48 Z = 30 18 σ W+ 49.5 = 1.706 < 1.96 = z 0.05
11
O βαθμονομικός συντελεστής συσχέτισης του Spearman Spearman s rank correlation coefficient
Έστω δύο μεταβλητές Χ και Υ για τις οποίες έχουμε καταγράψει τις τιμές της Χ και τις αντίστοιχες τιμές της Υ, i = 1,,..., n, δηλαδή ζεύγη (x i, y i ), i = 1,,..., n. Για την εκτίμηση του συντελεστή συσχέτισης ρ των Χ και Υ χρησιμοποιείται ο δειγματικός συντελεστής συσχέτισης y i x i r X,Y = σ n i=1 (x i x)(y ҧ i തy) σ n i=1 (x i x) ҧ σ n i=1 (y i തy) ο οποίος εκφράζει το βαθμό (γραμμικής) συσχέτισης μεταξύ των μεταβλητών Χ και Υ, παίρνοντας τιμές μεταξύ του 1 και του 1. Όσο μεγαλύτερος (σε απόλυτη τιμή) είναι ο συντελεστής συσχέτισης r, τόσο μεγαλύτερη και η γραμμική εξάρτηση των X Y δύο μεταβλητών. Για τον έλεγχο μηδενικής συσχέτισης (ρ=0), είναι απαραίτητο οι (Χ,Υ) να προέρχονται από δισδιάστατη κανονική κατανομή. Αν κάτι τέτοιο δεν ισχύει, τότε η διαδικασία δεν γίνεται σωστά.
Ο Spearman, πρότεινε αντί των τιμών (x i, y i ) να χρησιμοποιούνται οι αντίστοιχοι βαθμοί (ranks) των τιμών αυτών στα δύο δείγματα. Έτσι, αν R i είναι οι βαθμοί των x i στο δείγμα των Χ και S i είναι οι βαθμοί των y i στο δείγμα των Y, Τότε, από τα αρχικά ζεύγη (x i, y i ) καταλήγουμε να χρησιμοποιούμε τα (R i, S i ) στη σχέση: r s = σ n i=1 (R i തR)(S i S) ҧ σ n i=1 (R i തR) σ n i=1 (S i S) ҧ Ο συντελεστής αυτός καλείται συντελεστής συσχέτισης του Spearman, και χρησιμοποιείται για να ελέγξουμε αν οι Χ και Υ μεταβάλλονται «μονότονα» (και όχι απαραίτητα «γραμμικά»), δηλαδή όσο αυξάνει (ή μειώνεται) η Χ, τότε η Υ επίσης μόνο αυξάνει ή μόνο μειώνεται.
Εναλλακτικές εκφράσεις* Επειδή R i = S i = i = n(n + 1) തR = S ҧ = n + 1 (R i തR) = (S i S) ҧ = (i n + 1 ) = n 1 n(n + 1) 1 Έχουμε: i = n(n + 1)(n + 1) 6 r s = 1 σ n i=1 (R i തR)(S i S) ҧ n 1 n(n + 1) * Αν δεν υπάρχουν ισσοπαλίες
Εναλλακτικές εκφράσεις* D i = R i S i D i = (R i തR) (S i S) ҧ Αν ορίσουμε τότε D i = (R i തR) + (S i ҧ S) (R i തR)(S i ҧ S) D i = (R i തR) (R i തR)(S i ҧ S) D i = n 1 n(n + 1) 6 (R i തR)(S i ҧ S) 6 D i = n 1 n(n + 1) 1 (R i തR)(S i ҧ S) * Αν δεν υπάρχουν ισσοπαλίες
Εναλλακτικές εκφράσεις* Τελικά 1 (R i തR)(S i ҧ S) = n 1 n(n + 1) 6 D i οπότε r s = n 1 n n + 1 6 σ D i n 1 n(n + 1) ή r s = 1 6 σ D i n 1 n(n + 1) *Αν δεν υπάρχουν ισοπαλίες. Στην πράξη, χρησιμοποιείται γενικότερα
Ο έλεγχος μηδενικής συσχέτισης Ακριβής r s = 1 Κρίσιμη περιοχή: 6 σ D i n 1 n(n + 1) r s r cr από πίνακες Ασυμπτωτικός Κρίσιμη περιοχή: t s t n (a/) όπου t s = r s n 1 r s
Πως βγαίνουν οι κρίσιμες τιμές για n=5;
Παράδειγμα Θέλουμε να ελέγξουμε αν η βαθμολογία μαθητών σε τεστ Φυσικής σχετίζεται με τη βαθμολογία σε τεστ Χημείας. Χρησιμοποιήθηκαν οι βαθμοί n=8 μαθητών, όπως φαίνεται στον παρακάτω πίνακα. Μαθητής 1 3 4 5 6 7 8 Φυσική 17 16 13 18 15 9 1 10 Χημεία 13 15 16 14 18 8 1 10 Να υπολογιστεί ο συντελεστής συσχέτισης του Spearman και να γίνει ο έλεγχος που ζητήται, σε ε.σ. 5%. R i S i D i D i
Παράδειγμα R i r s = 1 Ακριβής S i D i D i 6 σ D i n 1 n n + 1 = 1 6 36 7 8 9 = 0.571 0.571 = r s < r cr = 0.738 Ασυμπτωτικός t s = r s n 1 r s = 0.571 8 1 0.571 = 1.704 1.704 = t s < t n (a/)= t 6 0.05 =.447
Παράδειγμα Συνεπώς, οι βαθμοί της Φυσικής με τους βαθμούς της Χημείας μαθητών, δεν φαίνεται να σχετίζονται (στατιστικώς) σημαντικά.