Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική Μη παραμετρικοί στατιστικοί έλεγχοι Καθηγητής ΔΠΘ Κων/νος Τσαγκαράκης Δευτέρα 6 Μαρτίου 13:00-16:00 Ώρα για εξ αποστάσεως συνεργασία Τρίτη 7 Μαρτίου 12:00-14:00 Μέσο επικοινωνίας: Τηλέφωνο 25410 79397 ή skype: konstantinos.tsagarakis
Συντελεστής συσχέτισης Spearman Ο αντίστοιχος μη-παραμετρικός συντελεστής Χρησιμοποιείται για να μας δείξει κατά πόσο δυο μεταβλητές συσχετίζονται. Χρησιμοποιείται για κατηγορικές μεταβλητές και για αριθμητικές μεταβλητές που δεν τηρούνται οι παραδοχές των παραμετρικών ελέγχων (δεν απαιτείται κανονικότητα, ίσες διακυμάνσεις ομάδων, κλίμακες ίσων διαστημάτων). Λαμβάνει τιμές στο διάστημα [-1,1]. Ο μαθηματικός τύπος υπολογισμού είναι n: Παρατηρήσεις d 2 : άθροισμα τετραγώνων διαφορών κατάταξης
Παράδειγμα Θα ελεγχθεί εάν υπάρχει συσχέτιση του βαθμού στη στατιστική με τον βαθμό στα μαθητικά. Μαθητής Μαθηματικά Στατιστική 1 6 10 2 8 7 3 9 11 4 11 14 5 12 9 6 12 12 7 14 17 8 17 16 9 18 19 10 20 18 Ερώτημα, μπορούμε να ισχυριστούμε ότι οι φοιτητές που γράφουν καλά στο ένα μάθημα γράφουν και στο άλλο; Είναι η διαφορά αυτή στατιστικά σημαντική;
Μαθητής Μαθηματικά Στατιστική Κατάταξη Κατάταξη d i d 2 i μαθηματικά στατιστική 1 6 10 1 3-2 4 2 8 7 2 1 1 1 3 9 11 3 4-1 1 4 11 14 4 6-2 4 5 12 9 5.5 2 3.5 12.25 6 12 12 5.5 5 0.5 0.25 7 14 17 7 8-1 1 8 17 16 8 7 1 1 9 18 19 9 10-1 1 10 20 18 10 9 1 1 Σd 2 =26.5
Μηδενική υπόθεση Η ο : Το r είναι μηδέν.
Απορρίπτεται η μηδενική υπόθεση ότι το r s είναι μηδέν (r s =0.839, p<0.01).
Εφαρμογή στο SPSS
Correlati ons Maths Statistics Spearman's rho Maths Correlation Coef f icient 1. 000.839** Sig. (2-t ailed)..002 N 10 10 Statistics Correlation Coef f icient.839** 1. 000 Sig. (2-t ailed).002. N 10 10 **. Correlation is signif icant at the 0.01 lev el (2-tailed).
Υπολογίστε τη σχέση ύψους βάρους με μη παραμετρικό συντελεστή http://www.socscistatistics.com/tests/spearman/default2.aspx
p<0.001
Mann Whitney U test Χρησιμοποιείται για να συγκρίνει τις απαντήσεις που δίνουν δύο διαφορετικές ομάδες (groups) ερωτώμενων σε ποιοτικές κλίμακες για το ίδιο ερώτημα. Χρησιμοποιείται επίσης για ποσοτικά δεδομένα που δεν μπορούν να χρησιμοποιηθούν παραμετρικοί έλεγχοι. Ομάδα 1: Άνδρες Ν 1 : αριθμός ανδρών Απαντήσεις: 3, 4, 6, 2, 7, 2, 4 Ομάδα 2: Γυναίκες Ν 2 : αριθμός γυναικών Απαντήσεις: 3, 8, 8, 9, 7, 6, 10 Ερώτημα, μπορούμε να ισχυριστούμε ότι υπάρχει διαφορά στις απαντήσεις των δύο ομάδων; Είναι η διαφορά των διαμέσων στατιστικά σημαντική; Η ο : μηδενική υπόθεση ότι οι διάμεσοι των απαντήσεων των δύο ομάδων δεν διαφέρουν σημαντικά.
1. Κατάταξη απαντήσεων ανεξαρτήτου ομάδας Απαντήσεις Ανδρών Απαντήσεις Γυναικών 3 3 4 8 6 8 2 9 7 7 2 6 4 10 2 1.5 2 1.5 3 3.5 3 3.5 4 5.5 4 5.5 6 7.5 6 7.5 7 9.5 7 9.5 8 11.5 8 11.5 9 13 10 14 R1=34.5 R2=70.5
Αλλά και U=min{U 1, U 2 }=6.5 Εάν το U μικρότερο ή ίσο από την κρίσιμη τιμή των παρακάτω πινάκων τότε απορρίπτουμε την μηδενική υπόθεση ότι οι διάμεσοι των απαντήσεων των δύο ομάδων δεν διαφέρουν σημαντικά. Επειδή U crit =8>U συμπεραίνουμε ότι υπάρχει στατιστικά σημαντική διαφορά στις απαντήσεις/ Η διαφορά στις διαμέσους είναι στατιστικά σημαντική σε επίπεδο 5%. Οι γυναίκες απάντησαν περισσότερες ερωτήσεις σε σχέση με τους άνδρες (p<0.05).
a=0.05
a=0.01 http://math.usask.ca/~laverty/s245/tables/wmw.pdf
Επειδή U crit =4<U συμπεραίνουμε ότι η διαφορά στις διαμέσους ΔΕΝ είναι στατιστικά σημαντική σε επίπεδο 1%. Για δείγματα άνω των 20 παρατηρήσεων χρησιμοποιείται ο τύπος Αν το εφαρμόσω (καταχρηστικά) στα δεδομένα μου, z=2.3 p=0.01072
Output στο SPSS
Παράδειγμα Πόσο σημαντικό είναι η παρακολούθηση ποδοσφαιρικών αγώνων. Πολύ λίγο σημαντικό Λίγο σημαντικό Ούτε λίγο ούτε πολύ Σημαντικό 1 2 3 Πολύ σημαντικό 4 Πάρα πολύ σημαντικό 5 Απαντήσεις Ανδρών Απαντήσεις Γυναικών 5 2 3 1 3 3 4 3 1 1 5 4 1 2 4
Υπολογίστε με μη παραμετρικό τεστ εάν υπάρχει στατιστικά σημαντική διαφορά στο βάρος ανδρών - γυναικών Φύλο Ύψος Βάρος Βάρος Γ 1.65 55 Άνδρας Γυναίκα Γ 1.68 66 99 55 Α 1.93 99 75 66 Γ 1.58 60 80 60 Α 1.74 75 82 65 Γ 1.69 65 87 75 Α 1.71 80 89 62 Α 1.78 82 98 67 Α 1.83 87 103 Α 1.89 89 Γ 1.58 75 Γ 1.55 62 Α 1.89 98 Α 1.96 103 Γ 1.68 67
http://www.socscistatistics.com/tests/mannwhitney/default.aspx
Wilcoxon Signed Ranks Test Χρησιμοποιείται για να συγκρίνει τις απαντήσεις που δίνουν η ίδια ομάδα ερωτώμενων σε ποιοτικές και κλίμακες για το ίδιο ερώτημα. Χρησιμοποιείται επίσης για ποσοτικά δεδομένα που δεν μπορούν να χρησιμοποιηθούν παραμετρικοί έλεγχοι.
Ομάδα: Φοιτητές Ν: αριθμός φοιτητών Αξιολόγησαν την με κλίμακα 0-100 την φιλικότητα προς το περιβάλλον ενός έργου πριν και μετά τη παρακολούθηση ενημερωτικού σεμιναρίου ως ακολούθως Φοιτητής Μετά Πριν 1 78 78 2 55 55 3 21 22 4 65 63 5 66 64 6 44 48 7 52 45 8 53 43 9 44 56 10 55 34 11 56 78 12 45 23 13 70 33 14 51 11 15 56 15 16 96 33 17 89 22 Ερώτημα, μπορούμε να ισχυριστούμε ότι υπάρχει διαφορά στις αξιολογήσεις των φοιτητών μετά την ενημέρωση σε σχέση με το τι πίστευαν πριν; Είναι η διαφορά των διαμέσων στατιστικά σημαντική;
Η ο : μηδενική υπόθεση ότι δεν υπάρχει διαφορά στις αξιολογήσεις. Έτσι οι αριθμοί των θετικών και των αρνητικών πρόσημων θα είναι σχεδόν ίση. Φοιτητής Μετά Πριν Διαφορά (μετά-πριν) Απόλυτη διαφορά 1 78 78 0 0 2 55 55 0 0 3 21 22-1 1 4 65 63 2 2 5 66 64 2 2 6 44 48-4 4 7 52 45 7 7 8 53 43 10 10 9 44 56-12 12 10 55 34 21 21 11 56 78-22 22 12 45 23 22 22 13 70 33 37 37 14 51 11 40 40 15 56 15 41 41 16 96 33 63 63 17 89 22 67 67
Αγνοούμε τις ισοπαλίες και δημιουργούμε μία επιπλέον στήλη με κατάταξη σύμφωνα με τη διαφορά και μία ακόμα με τις απόλυτες τιμές της κατάταξης. Φοιτητής Μετά Πριν Απόλυτη τιμή του βαθμού κατάταξης Κατάταξη με πρόσημο Γινόμενο των 2 τελευταίων στηλών Διαφορά (μετά-πριν) Απόλυτη διαφορά Θετικοί βαθμοί 1 78 78 0 0 2 55 55 0 0 3 21 22-1 1 1-1 0 0 4 65 63 2 2 2.5 2.5 1 2.5 5 66 64 2 2 2.5 2.5 1 2.5 6 44 48-4 4 4-4 0 0 7 52 45 7 7 5 5 1 5 8 53 43 10 10 6 6 1 6 9 44 56-12 12 7-7 0 0 10 55 34 21 21 8 8 1 8 11 56 78-22 22 9.5-9.5 0 0 12 45 23 22 22 9.5 9.5 1 9.5 13 70 33 37 37 11 11 1 11 14 51 11 40 40 12 12 1 12 15 56 15 41 41 13 13 1 13 16 96 33 63 63 14 14 1 14 17 89 22 67 67 15 15 1 15 W= 98.5
Αλλά p=0.029 Επειδή p<0.05 υπάρχει στατιστικά σημαντική διαφορά στις απαντήσεις.
Output στο SPSS
http://www.socscistatistics.com/tests/ signedranks/default2.aspx
Εργασία Κάντε μια μικρή έρευνα με ένα απλό ερώτημα σε ένα αριθμό συναδέλφων σας (12+). Το ερώτημα θα πρέπει να πάρει απαντήσεις όπως Πολύ λίγο σημαντικό Λίγο σημαντικό Ούτε λίγο ούτε πολύ Πολύ σημαντικό Πάρα πολύ σημαντικό Σημαντικό 1 2 3 4 5 Με τις αντίστοιχες κωδικοποιήσεις. Χρησιμοποιώντας κάποιο online εργαλείο (όπως http://www.socscistatistics.com/tests/mannwhitney/default.aspx), ελέγξτε εάν υπάρχει διαφοροποίηση σε σχέση με το φύλο. Θα πρέπει να μεταφέρετε στην εργασία σας τους υπολογισμούς του προγράμματος και να σχολιάσετε εάν υπάρχει στατιστικά σημαντική διαφορά στις απαντήσεις. Για τη μεταφορά των γραφημάτων σε κείμενο Word θα πρέπει να κάνετε Print Screen, επικόλληση στην εργασία και περικοπή (Trim) των γραφημάτων.
Έλεγχος Χ² Χρησιμοποιείται ως τεστ ομοιογένειας, ανεξαρτησίας και καλής προσαρμογής. Ως τεστ ομοιογένειας, μπορεί να ελέγξει την ύπαρξη διαφοράς σε απαντήσεις, δηλαδή μιας μεταβλητής ανάμεσα σε διαφορετικές ομάδες.
r: Γραμμές c: Στήλες δ: Βαθμοί ελευθερίας (r-1)(c-1) Ο: Παρατηρούμενη συχνότητα Ε: Αναμενόμενη συχνότητα
Παράδειγμα Θα ελεγχθεί εάν υπάρχει διαφορά ως προς το βαθμό ικανοποίησης σε μια πολιτική για 3 πληθυσμιακές ομάδες. Χαμηλός Μέτριος Υψηλός Ομάδα Α 80 50 25 Ομάδα Β 40 120 50 Ομάδα Γ 30 40 30 Ερώτημα, μπορούμε να ισχυριστούμε ότι υπάρχει διαφορά στις απαντήσεις των τριών ομάδων; Είναι η διαφορά αυτή στατιστικά σημαντική; Βασίλης Δαφέρμος (2005). Κοινωνική Στατιστική με το SPSS, Εκδόσεις ΖΗΤΗ. σ. 293.
Μηδενική υπόθεση Η ο : Δεν υπάρχει διαφορά ανάμεσα στις 3 ομάδες ως προς τις απόψεις τους απέναντι στη συγκεκριμένη πολιτική. Συχνότητα γραμμής Χαμηλός Μέτριος Υψηλός Ομάδα Α 80(50) 50(70) 25(35) 155 Ομάδα Β 40(67,7) 120(94,8) 50(47,4) 210 Ομάδα Γ 30(32,3) 40(45,2) 30(22,6) 100 Συχνότητα στήλης 150 210 105 465 Π.χ. 150x155/465=50
δ=(r-1)(c-1)= (3-1)(3-1)=2x2=4
Κρίσιμη τιμή: Επειδή Απορρίπτεται η μηδενική υπόθεση ότι δεν υπάρχει στατιστικά σημαντική διαφορά στις απαντήσεις που έδωσαν οι τρεις ομάδες (Χ 2 =47.934, p<0.05). Οι παραδοχές για την εφαρμογή του συγκεκριμένου τεστ είναι: Τυχαίο δείγμα Οι ομάδες είναι ανεξάρτητες Ονομαστικές μεταβλητές Το πολύ το 20% των κελιών να έχουν συχνότητα άνω των 5
Εφαρμογή στο SPSS
Omada * rate Crosstabulation Omada Total 1 2 3 Count Expec ted Count Count Expec ted Count Count Expec ted Count Count Expec ted Count rate 1 2 3 Total 80 50 25 155 50. 0 70. 0 35. 0 155.0 40 120 50 210 67. 7 94. 8 47. 4 210.0 30 40 30 100 32. 3 45. 2 22. 6 100.0 150 210 105 465 150.0 210.0 105.0 465.0 Pears on Chi-Square Likelihood R atio Linear-by-Linear Assoc iation N of Valid Cases a. Chi-Square Tests Asy mp. Sig. Value df (2-sided) 47.934 a 4.000 47. 341 4.000 18. 385 1.000 465 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.58.
Ως τεστ ανεξαρτησίας, μπορεί να ελέγξει την συσχέτιση μεταξύ δύο μεταβλητών. Στο παρακάτω παράδειγμα θα ελεγχθεί η μηδενική υπόθεση ότι Η ο : Δεν υπάρχει σχέση μεταξύ καπνίσματος και καρκίνου του πνεύμονα Καπνιστής Μη καπνιστής Εμφάνιση καρκίνου 103 21 Μη εμφάνιση 157 281 Βασίλης Δαφέρμος (2005). Κοινωνική Στατιστική με το SPSS, Εκδόσεις ΖΗΤΗ. σ. 310.
Cancer * Smoke Crosstabulation Cancer Total 1 2 Count Expected Count Count Expected Count Count Expected Count Smoke 1 2 Total 103 21 124 57.4 66.6 124.0 157 281 438 202.6 235.4 438.0 260 302 562 260.0 302.0 562.0 Pearson C hi-square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asy mp. Sig. Value df (2-sided) 86.676 b 1.000 84. 787 1.000 91. 543 1.000 86. 522 1.000 562 a. Computed only f or a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided).000.000 b. 0 cells (.0%) hav e expected count less than 5. The minimum expected count is 57. 37. Απορρίπτεται η μηδενική υπόθεση.
http://www.socscistatistics.com/tests/chisquare/default.aspx
Εργασία Κάντε μια μικρή έρευνα με ένα απλό ερώτημα σε ένα αριθμό συναδέλφων σας (12+). Το ερώτημα θα πρέπει να πάρει απαντήσεις όπως Διαφωνώ Συμφωνώ ή Όχι Ναι 0 1 0 1 Με τις αντίστοιχες κωδικοποιήσεις. Χρησιμοποιώντας κάποιο online εργαλείο (όπως http://www.socscistatistics.com/tests/chisquare/default.aspx) ελέγξτε εάν υπάρχει διαφοροποίηση σε σχέση με το φύλο του ερωτόμενου. Θα πρέπει να μεταφέρετε στην εργασία σας τους υπολογισμούς του προγράμματος και να σχολιάσετε εάν υπάρχει στατιστικά σημαντική διαφορά στις απαντήσεις. Για τη μεταφορά των γραφημάτων σε κείμενο Word θα πρέπει να κάνετε Print Screen, επικόλληση στην εργασία και περικοπή (Trim) των γραφημάτων.