Distribuţia multinomială Testul chi-pătrat M. Popa
Evenimente probabilistice binomiale valori dihotomice (P, Q): (masculin/feminin, absent/prezent, adevărat/fals, etc.) multinomiale mai mult de două valori (P, Q, R...): tip de liceu absolvit ( real, umanist, artistic, industrial ) religia ( islamic, ortodox, catolic...) efectul terapiei ( ameliorat, înrăutăţit, fără efect )
un exemplu: tipul de liceu absolvit de studenţii la psihologie (N=100) umanist (P)=60 artistic (Q)=30 real (R)=10 P+Q+R=1 P=1-Q-P dacă liceele ar avea acelaşi număr de absolvenţi: P=Q=R=1/3=0.33 (100/3=33.3) frecvenţe observate (f O )
Tabelul de corespondenţă (contingenţă) pentru date categoriale Liceu umanist Liceu real Liceu artistic Total pe linii f O Fac. Umaniste 45 0 30 95 Fac. Tehnice 14 60 1 86 Fac. Artistice 0 13 50 83 frecvenţe marginale Total pe coloane 79 93 9 64 frecvenţe marginale N
Fundamentarea testului statistic
Fac. Umaniste Fac. Tehnice Fac. Artistice Total pe coloană Liceu umanist Liceu real Liceu artistic 45 0 30 (79*36)/100 8.4 f E? (93*36)/100 33.4 (9*36)/100 33.1 14 60 1 (79*3.5)/100 5.6 (93*3.5)/100 30. (9*3.5)/100 9.9 0 13 50 (79*31.5)/100 4.8 (93*31.5)/100 9. (9*31.5)/100 8.9 Total pe linie 79 93 9 64 Frecvenţe marginale 95 (95/64)*100=36% 86 (86/64)*100=3,5% 83 (83/64)*100=31.5%
Testul chi-pătrat (χ ) - Karl Pearson se bazează pe evaluarea distanţei dintre f O şi f E formula este derivată din z: valorile urmează o distribuţie specială: chi-pătrat (χ) o familie de distribuţii; asimetrică; originea în zero; formă dependentă de numărul de grade de libertate. df=(nr. coloane-1)*(nr. linii-1) formula de calcul z = ( X N * P) χ N * P * Q f = ( O E ) f E f
Decizia statistică Se identificăχ critic pentru alfa ales şi df corespunzătoare Respingere α = 0.05 0 χ critic Τabela χ (parțial) df\aria.100.050.05.010.005 1.70554 3.84146 5.0389 6.63490 7.87944 4.60517 5.99146 7.37776 9.1034 10.59663 3 6.5139 7.81473 9.34840 11.34487 1.83816..................
Tipuri de teste χ testul corespondenţei (goodness of fit) compară f O cu f E ale aceleiaşi variabile obiectiv: testarea diferenţei faţă de un model de distribuţie aşteptat testul asocierii (independenţei) compară f O cu f E ale două variabile obiectiv: testarea asocierii valorilor celor două variabile
Chi-pătrat pentru gradul de corespondenţă (Goodness of Fit) Exemplu: 100 studenți la psihologie Frecvența observată Liceu umanist=60 (0.6) Liceu artistic=30 (0.3) Liceu real=10 (0.1) Proporții teoretice (de nul Liceu umanist=33.33 (0.33) Liceu artistic=33.33 (0.33) Liceu real=33.33 (0.33 Problema cercetării: există o preferință pentru psihologie în funcție de liceul absolvit? Criterii de decizie: alfa=0.05 df(-1)*(3-)=1 χ critic=?
Tabela χ (fragment) df\aria.100.050.05.010.005 1.70554 3.84146 5.0389 6.63490 7.87944 4.60517 5.99146 7.37776 9.1034 10.59663 3 6.5139 7.81473 9.34840 11.34487 1.83816 4 7.77944 9.48773 11.1439 13.7670 14.8606 5 9.3636 11.07050 1.8350 15.0867 16.74960 6 10.64464 1.59159 14.44938 16.81189 18.54758 7 1.01704 14.06714 16.0176 18.47531 0.7774 8 13.36157 15.50731 17.53455 0.0904 1.95495 9 14.68366 16.91898 19.077 1.66599 3.58935 10 15.98718 18.30704 0.48318 3.095 5.18818 11 17.7501 19.67514 1.9005 4.7497 6.75685.................. χ critic=3.84
Calificativ Frecvenţa observată (f O ) Frecvenţa aşteptată (f E ) Umanist 60 33.3% din 100 =33.3 Artistic 30 33.3% din 100 =33.3 Real 10 33.3% din 100 =33.3 ( fo f f (60 33.3) 33.3 (30 33.3) 33.3 (10 33.3) 33.3 Σ 100 χ calculat=38 E E ) = 1.38 = 0.3 = 16.30 χ calculat (38) > χ critic (3.84) H0? H1? Concluzia cercetării? Acest test nu are un coeficient al mărimii efectului
Testul chi-pătrat al asocierii (independence chi-square) mai frecvent utilizat compară f O ale unei variabile cu f E ale altei variabile (ambele categoriale) Măsoară asocierea a două variabile nominale (similar unui test de corelaţie pentru date nominale) obiectiv: există o relaţie între cele două variabile? exemplu: 64 studenți la trei tipuri de facultăți (umaniste, artistice, tehnice), care provin de la trei tipuri de licee (umanist, artistic, real) obiectiv: este o legătură între tipul de liceu absolvit și facultatea aleasă? criterii de decizie: alfa=0.05; df=(3-1)*(3-1)=4; χ critic= 9.48
FU/LU 45 8,4 FU/LA 30 33,1 FU/LR 0 33,4 FT/LU 14 5,6 FT/LA 1 9,9 FT/LR 60 30, FA/LU 0 4,8 FA/LA 50 8,9 FA/LR 13 9, (45 8.4) 8.4 (30 33.1) 33.1 (0 33.4) 33.4 (14 5.6) 5.6 (1 9.9) 9.9 Σ N=64 χ calculat =86.06 (60 30.) 30. (0 4.8) 4.8 (50 8.9) 8.9 (13 9.) 9. = 9.70 = 0.9 = 5.37 = 5.5 = 10.71 = 9.4 = 0.9 = 15.4 = 8.98
Interpretarea testului χ în primul rând se decide asupra semnificaţiei testului χ calculat (86.06) < χ critic (9.48) H0? H1? Concluzia cercetării? Apoi: se analizează procentele celulelor tab. de corespondenţă se scot în evidenţă procentele relevante pentru ipoteza cercetării (se constată procente mai mari în cazul concordanței dintre tipul de liceu și tipul de facultate)
Mărimea efectului pentru χ Indicele φ (fi) ϕ = χ N Indicele φ c (fi) Cramer ϕ c = N χ ( L 1) N este volumul eşantionului L este valoarea cea mai mică dintre numărul liniilor sau al coloanelor tabelului de corespondenţă (de exemplu, pentru un tabel de corespondenţă 4x3 - patru linii şi patru coloane - L are valoarea 3-1=).
Pentru exemplul nostru... ϕ c χ = N ( 1) = 86.06 64*( 1) = 0.40 φ (Cohen) Interpretarea lui φ Indice al asocierii. Se interpretează similar cu coeficientul de corelaţie Prin ridicarea la pătrat poate fi interpretat procentual 0.10 efect mic 0.5 efect mediu 0.40 efect mare
Raportarea rezultatelor Pentru un eșantion de 64 de studenți de la trei tipuri de facultăți (umaniste, artistice, tehnice) a fost testată relația cu liceul de proveniență (umanist, artistic, real). Testul χ pentru asocierea variabilelor indică faptul că rezultatele diferă semnificativ în funcţie de gen, χ(4) =86.06, p >0.05 (φ c =0.57), ceea ce arată o asociere între tipul de liceu și facultatea aleasă
Condiţii pentru testul χ Cele două variabile nu trebuie să se intersecteze (să nu existe subiecţi care să fie incluşi în mai mult de o celulă de tabel) Selecţie aleatoare a eşantioanelor Frecvenţa aşteptată să nu ia valori mai mici de 5 (sau, cel puţin, în nu mai mult de 0% din celule). Nici o celulă nu trebuie să aibă frecvenţa aşteptată mai mică de 1. corecţia Yeates ( fo f E 0. 5) Χ = f E
Utilizarea testului chi-pătrat al asocierii testarea asocierii a două variabile categoriale (nominale, ordinale sau... I-R!) înlocuitor pentru testul t sau ANOVA, dacă nu sunt întrunite condiţiile după transformarea var. dep. în var. categorială
Testul exact Fisher testul chi-pătrat nu urmează cu maximă precizie distribuţia χ cazuri în care rezultatele pot fi alterate suficient de mult pentru a putea fi luate în considerare: volumul eşantionului este redus (N<0); valorile fe pentru una sau mai multe dintre celulele tabelei de corespondenţă sunt foarte mici. În aceste situaţii, precum şi atunci când tabelul de corespondenţă este compus din două linii şi două coloane este recomandabilă utilizarea testului exact Fisher se bazează pe calcularea tuturor tabelelor posibile ce pot fi construite pentru frecvenţele marginale testul exact Fisher se efectuează numai cu ajutorul programelor computerizate.
Sinteza testelor statistice neparametrice nominale distribuţie binomială Variabila dependentă categorială (nominală) distribuţie multinomială 1 eşantion eşantioane independente eşantioane dependente z - prop. unui eşantion z - prop. a două eşant. testul semnului chi-pătrat al corespondenţei (goodness of fit) chi-pătrat al asocierii (independenţei)
Săptămâna viitoare... ultima evaluare parţială! Data examenului:??