GRAĐEVINSKI FAKULTET SVEUČILIŠTE U RIJECI Specijalistički diplomski stručni studij MANN-WHITNEY-WILCOXONOV TEST ZA NEZAVISNE UZORKE Seminarski rad Kolegij: Odabrana poglavlja inžinjerske matematike Akademska godina: 2016/2017 Nastavnik: mr.sc. Ines Radošević, prof. Studentica: Ivana Bilić
Sadržaj: 1. UVOD...3 2. MANN-WHITNEY-WILCOXONOV TEST ZA NEZAVISNE UZORKE...4 3. PRIMJER 1....6 4. PRIMJER 2....9 5. PRIMJER 3....11 6. POPIS PITANJA...13 7. LITERATURA...14 2
1. UVOD Tema ovog seminarskog rada je Mann-Whitney-Wilcoxonov test za nezavisne uzorke. Takav test spada u neparametrijske metode. Neparametrijske metode upotrebljavaju se prvenstveno kod podataka izraženih nominalnim skalama (skale koje nam služe samo za identifikaciju ili kategorizaciju, npr. brojevi igrača na nogometnom terenu) i ordinalnim skalama (skale koje nam služe za označavanje redoslijeda ili poretka, npr. poredak igrača po uspješnosti na nekom natjecanju). Dopušteno je, i moguće, primijeniti neparametrijske metode i pri obradi podataka koji su izraženi intervalnim ili omjernim skalama karakterističnim za parametrijske metode ali je takav postupak neracionalan, jer na taj naćin namjerno gubimo niz informacija (npr. kod rang-korelacije, gdje registriramo samo rang, a ne i razlike izmedu pojedinaca). Neparametrijske metode: Analitičke metode koje se ne zasnivaju na pretpostavci raspodjele podataka, NEMA srednje vrijednosti i standardne devijacije, Podaci su po svojoj prirodi nominalni ili ordinalni, Veličina uzorka je mala (npr. 20 ispitanika) šansa za pogrešku tipa I (lažno pozitivni rezultat). Prednost neparametrijskih metoda: Mogućnost analize raznolikih uzoraka, Analiza se svodi na rang podataka, ne na stvarne vrijednosti. Kada obavezno neparametrijske metode? Mali uzorci (N<30), Varijable koje nemaju normalnu raspodjelu (npr. enzimi, biokemijski pokazatelji, krvni tlak...), Ordinalne varijable (ocjene, starost u godinama, ). 3
2. MANN- WHITNEY -WILCOXONOV TEST ZA NEZAVISNE UZORKE Za testiranje hipoteze o jednakosti oblika dviju distribucija pomoću dvaju nezavisnih uzoraka može se primijeniti Mann - Whitney - Wilcoxonov test (u daljnjem tekstu MWW test). Ovim testom testiramo postoji li statistički značajna razlika između medijana dviju ispitivanih skupina. Kako bi lakše shvatili MWW test moramo znati da je medijan pojam koji određuje sredinu raspodjele i da je, u odnosu na aritmetičku sredinu, manje osjetljiv na ekstremne vrijednosti što ga čini posebno pogodnim za nepravilne asimetrične raspodjele. MWW test koristi se u slučaju kada imamo podatke koji nemaju normalnu distribuciju (raspodjelu) ili u slučaju podataka kod kojih postoji razlika u varijanci (broj ovisan o podacima koji dobro opisuje variranje istih, tj. mjera rasipanja podataka oko aritmetičke sredine). Testira se razlika između dviju grupa koja je veća od razlike koja nastaje zbog slučajne varijacije uzorka. Nulta hipoteza je da su dva uzorka uzeta iz populacija s istim medijanom. Svi rezultati se rangiraju od najmanjih prema najvećim bez obzira kojoj grupi pripadaju. Zatim se izračuna suma rangova za svaku grupu i uspoređuje se. Ako se dvije grupe ne razlikuju, suma rangova je približno ista. Ako postoji razlika, jedna grupa će imati manji, a druga veći rang i možemo zaključiti da uzorci pripadaju različitim populacijama, tj. postoji statistički značajna razlika. Podloga za provođenje MWW testa su vrijednosti redoslijedne ili numeričke varijable u nezavisnim uzorcima koji potječu iz dvaju osnovnih skupova. Veličina uzorka iz provog osnovnog skupa označuje s n1, a iz drugog osnovnog skupa s n2. Pretpostavlja se da je n1 n2. Ako su uzorci različite veličine, prvim se osnovnim skupom smatra onaj iz kojeg je izabran manji uzorak. Da bi se dobila test-veličina T1, najprije se spoje vrijednosti iz oba uzorka, čime nastaje novi niz s n1+n2.članova. Zatim se vrijednostima novog niza pridružuju rangovi: najmanjoj rang 1, a najvećoj rang n1 + n2. Pojavili se više jednakih vrijednosti, svakoj se pridružuje prosječan rang. Test-veličina T1 jednaka je zbroju rangova pridruženih članova uzorka iz prvog osnovnog skupa u zajedničkom nizu. Za testiranje hipoteza o jednakosti medijana dvaju osnovnih skupova hipoteze i način donošenja odluke navedeni su u tablici 1. 4
Tablica 1. Vrsta testa Nulta hipoteza Alternativna hipoteza Kritična vrijednost Područje odbacivanja nulte hipoteze dvosmjeran H 0 n 1 -n 2. = 0 H 1 n 1 -n 2. 0 T L i T U T 1 T L ili T 1 T U jednosmjeran H 0 n 1 -n 2. 0 H 1 n 1 -n 2. > 0 T U T 1 T U jednosmjeran H 0 n 1 -n 2. 0 H 1 n 1 -n 2. < 0 T L T 1 T L Kritične su vrijednosti TL i TU tabelirane, ili se utvrđuju programom za računalo. Ako je n1 > 10 i n2 > 10, upotrebljavamo z-test. Tada je test-veličina, odnosno empirijski z-omjer: 5
3. PRIMJER 1. Uspoređuje se bonitet poduzeća djelatnosti industrije i rudarstva te trgovine i ugostiteljstva pokazateljem QR (Quick Ratio). QR je omjer vrijednosti gotovine i vrijednosnica koje se mogu unovčiti prema kratkoročnim obvezama. Povoljnim se smatra omjer oko jedan. U uzorku od 9 poduzeća s područja industrije i rudarstva i uzorku od 10 trgovačkih poduzeća dobiveni su ovi podaci (tablica 2.): Može li se prihvatiti pretpostavka da je medijalna vrijednost pokazatelja QR u obje djelatnosti jednaka? Testira se na razini 5% signifikatnosti. Primjenite Mann - Whitneyjev U test. Tablica 2. QR uzorak, ind. i rud. QR uzorak, trg. i ugost. 0,83 0,91 0,58 1,37 1,31 0,75 0,81 0,86 0,97 0,72 1,10 0,92 1,13 0,91 0,87 0,79 1,05 1,21 0,91 Ovdje je riječ o testu jednakosti medijana dvaju osnovnih skupova MWW - testom nezavisnih uzoraka. Prvi je osnovni skup skup vrijednosti QR poduzeća u djelatnosti industrije i rudarstva, jer je iz tog skupa izabran manji uzorak. Drugi je osnovni skup skup vrijednosti QR poduzeća trgovine i ugostiteljstva. Prema tome, n1=9, n2=10. Vrijednosti QR s pridruženim rangovima u spojenom nizu (19 članova) jesu (tablica 3.): 6
Tablica 3. QR uzorak, Zbroj 0,83 0,91 0,58 1,37 1,31 0,75 0,81 0,86 0,97 - ind. i rud. rangova Rang ind. i rud. u zajedničkom nizu 6 10 1 19 18 3 5 7 13-82 QR uzorak, Zbroj 0,72 1,10 0,92 1,13 0,91 0,87 0,79 1,05 1,21 0,91 trg. i ugost. rangova Rang trg. i ugo. u zajedničkom nizu 2 15 12 16 10 8 4 14 17 10 108 Hipoteze glase H0 n1 - n2 = 0, H1 n1 - n2. 0. Razina je signifikatnosti α = 0,05. Test veličina je T1 = 82. Kritične su vrijednosti (tablica 4.) TL = 66, TU = 114. 7
Tablica 4. Odluka je ovakva: test-veličina nalazi se između kritičnih granica, pa se nulta hipoteza ne odbacuje, tj. prihvaća se hipoteza da su uzorci izabrani iz skupova s jednakim medijanima. 8
4. PRIMJER 2. Pri odobravanju kredita banka klasificira rizike vraćanja kredita kao dobre i loše. Dobri kreditni rizici u svezi su s korisnicima kredita dobroga boniteta, a loši rizici s korisnicima slabog boniteta. Stupanj zaduženosti komitenata svrstanih u skupnu s dobrim rizikom i stupanj zaduženosti komitenata koji su svrstani u skupinu s lošim rizikom (tablica 5.) jesu: Tablica 5. Dobri rizici 31 35 42 47 48 49 53 78 94 98 Loši rizici 68 70 72 85 86 88 92 96 99 116 Tablica 6. b Zbroj h Dobri rizici 31 35 42 47 48 49 53 78 94 98 rangova g f Rang dobrih f rizika u f 1 2 3 4 5 6 7 11 16 18 73 zajedničkom nizu H i Zbroj Loši rizici 68 70 72 85 86 88 92 96 99 116 p rangova o Rang loših t rizika u e 8 9 10 12 13 14 15 17 19 20 137 zajedničkom z e nizu Hipoteze glase: H0...n1 - n2 = 0, H1...n1 - n2. 0. Razina je signifikatnosti α = 0,05. Test veličina je T1 = 73. Kritične su vrijednosti (tablica 7.) TL = 79, TU = 131. 9
Tablica 7. T1 TL ili T1 TU; 73 < 79 Odluka je ovakva: test-veličina ne nalazi se između kritičnih granica, pa se nulta hipoteza odbacuje, tj. ne prihvaća se hipoteza da su uzorci izabrani iz skupova s jednakim medijanima. 10
5. PRIMJER 3. Uspoređuje se podaci o količinama oborina za dva grada za jedan dan. Mjerna stanica A mjeri za jedan grad, dok stanica B za drugi grad. Mjerna stanica A očittava podatke sa 8 mjernih postaja, dok mjerna stanica B mjeri podatke sa 9 mjernih postaja (tablica 8.) Tablica 8. Mjerna stanica A Mjerna stanica B 1,2 0,58 1,6 2,12 0,78 1,54 0,32 1,63 0,96 1,78 0,42 2,0 1,4 0,64 0,74 1,36 1,41 Može li se prihvatiti pretpostavka da je medijalna vrijednost pokazatelja Mjernih stanica u obje djelatnosti jednaka? Testira se na razini 5% signifikatnosti. Primjenite Mann - Whitneyjev U test. Ovdje je riječ o testu jednakosti medijana dvaju osnovnih skupova MWW - testom nezavisnih uzoraka. Prvi je osnovni skup skup podataka palih oborina na mjernoj stanici A jednog grada, jer je iz tog skupa izabran manji uzorak. Drugi je osnovni skup skup podataka palih oborina na mjernoj stanici B drugogg grada Prema tome, n1=8, n2=9. Vrijednosti mjernih stanica s pridruženim rangovima u spojenom nizu (17 članova) jesu (tablica 9.): Tablica 9. Mjerna stanica A Rang mjernih stanica u zajedničkom nizu Mjerna stanica B Rang mjernih stanica u zajedničkom nizu 1,2 0,58 1,6 2,12 0,78 1,54 0,32 1,63 - ZBROJ RANGOVA 8 3 13 17 6 12 1 14-74 0,96 1,78 0,42 2,0 1,4 0,64 0,74 1,36 1,41 ZBROJ RANGOVA 7 15 2 16 10 4 5 9 11 79 11
Hipoteze glase H0 n1 - n2 = 0, H1 n1 - n2. 0. Razina je signifikatnosti α = 0,05. Test veličina je T1 = 74. Kritične su vrijednosti (tablica 10.) TL = 54, TU = 98. Tablica 10. Odluka je ovakva: test-veličina nalazi se između kritičnih granica, pa se nulta hipoteza ne odbacuje, tj. prihvaća se hipoteza da su uzorci izabrani iz skupova s jednakim medijanima. 12
6. POPIS PITANJA 1. Koje su prednosti neparametrijskih metoda? Mogućnost analize raznolikih uzoraka, analiza se svodi na rang podataka, ne na stvarne vrijednosti. 2. Čemu služi Mann Whitney Wilcoxonov test? Za testiranje hipoteze o jednakosti oblika dviju distribucija pomoću dvaju nezavisnih uzoraka. Ovim testom testiramo postoji li statistički značajna razlika između medijana dviju ispitivanih skupina. 13
7. LITERATURA 1. Šošić, I., Primijenjena statistika, Školska knjiga,zagreb, 2004 WEB: 2. http://faculty.fiu.edu/~mcguckd/wilcoxon%20rank%20sum%20table.pdf 14