Captolul 17 TESTE NEPARAMETRICE 17.1 Teste parametrce versus teste neparametrce T estele statstce abordate anteror sunt cunoscute ca teste parametrce. Acestea mplcă poteze ş/sau presupuner refertoare la parametr ş dstrbuţle populaţlor. Dn fercre aceste teste sunt destul de robuste. O abatere reală de la presupunerle menţonate nu poate nvalda testul atâta tmp cât volumul eşantonulu este mare. Totuş, o problemă seroasă apare atunc când presupunerle făcute pe margnea dstrbuţlor sunt profund afectate ş mărmea eşantoanelor este mcă. Pentru a compensa aceste neajunsur statstca face apel la testele neparametrce. Aceste teste au caltatea de a f ma puţn restrctve în sensul nuanţat ma sus (dstrbuţe normală + volum mare de date). Ele se dovedesc ma puţn senztve decât testele parametrce dacă dstrbuţle de frecvenţe sunt relatv normale ar volumul de date este mare. Prezentăm ma jos tre dntre cele ma utlzate teste neparametrce (testul Mann-Whtney, testul Kruskal-Walls ş testul semnulu). 17.1.1 Transformarea scorurlor în rangur Anumte teste solctă transformarea scorurlor în rangur. Utlzarea rangurlor nu necestă ncun fel de condţ refertoare la forma dstrbuţe populaţe, cu toate că cele ma multe (dstrbuţ) pornesc de la poteza că varabla este contnuă. Altfel, ne plasăm în domenul varable dscrete. În acest ultm caz apar stuaţ de scorur dentce ceea ce rdcă problema stablr rangurlor. Cea ma smplă procedură de determnare a rangurlor constă în atrburea pentru fecare scor dentc a unu rang medu, calculat ca mede a rangurlor care ar f fost înregstrate dacă acestea ar f fost dferte. Subect Scor Rang 1 1 1,5 3,5 4 3 5,5 173
Subect Scor Rang 5 3 5,5 6 3 5,5 7 3 5,5 8 4 8 9 5 9 n Suma rangurlor astfel fxate trebue să fe egală cu n 1. Folosnd datele exemplulu prezentat rezultă că suma rangurlor este egală cu 9 1/ = 45. Într-adevăr 1 +,5 +,5 + 5,5 + 5,5 + 5,5 + 5,5 + 8 + 9 = 45. 17. Testul Mann-Whtney Testul Mann-Whtney este o alternatvă la testul t pentru eşantoane ndependente. Se aplcă în stuaţle în care eşantoanele sunt mc, dstrbuţle datelor nu sunt normale ar datele pot f prezentate sub formă de clasament. Logca testulu este smplă. Să presupunem că se dspune de două grupur de câte 1 subecţ fecare, pentru care dstrbuţle scorurlor sunt cele ndcate în tabelul de ma jos. Grup Scor Rang Grup Scor Rang 1 5 1 16 11 1 6 17 1 1 7 3 18 13 1 8 4 19 14 1 9 5 15 1 1 6 1 16 1 11 7 17 1 1 8 3 18 1 13 9 4 19 1 14 1 5 R 1 1 3 4... 1 55 R 11 1 13.. 18 19 155 Aşa cum se poate constata, scorurle grupulu 1 sunt ma mc decât cele ale grupulu ceea ce explcă ş dferenţa dntre sumele rangurlor R R1 1. 174
Refăcând componenţa grupurlor prn trecerea unor subecţ dn grupul în grupul 1 ş nvers, dstrbuţa scorurlor, evdent se modfcă ca de altfel ş dferenţa dntre sumele rangurlor (vez tabelul de ma jos). Grup Scor Rang Grup Scor Rang 1 5 1 1 8 1 6 1 16 11 1 7 3 1 13 9 1 8 4 9 5 1 6 18 13 11 7 8 18 1 14 1 1 1 15 17 1 1 6 17 19 14 3 19 1 4 16 3 R 1 88 R 1 În cuda acestor ntercalăr, R rămâne ma mcă decât 1 R. O altă rearanjare, ca în tabelul de ma jos, ne conduce la o echlbrare perfectă a celor două sume ale rangurlor: Grup Scor Rang Grup Scor Rang 1 5 1 16 11 6 1 17 1 7 3 18 13 1 8 4 1 19 14 1 9 5 4 15 1 6 1 4 16 11 7 1 6 17 1 1 8 1 8 18 13 9 3 19 1 14 1 3 R 1 15 R 15 175
176 Statstcă ş aplcaţ în ştnţele socale Aceste exemple lustrează semnfcatv efectul întâmplăr în dnamca rangurlor. Testul Mann-Whtney este utlzat pentru a evalua dscrepanţa dntre sumele rangurlor a două eşantoane. Practc se urmăreşte să se vadă dacă dscrepanţa este sufcent de mare pentru a nu ma putea f explcată prn efectul întâmplăr. Paş urmărţ pentru aplcarea testulu Mann-Whtney sunt: 1. Stablrea celor două grupur. Dacă cele două grupur nu sunt egale în volum, atunc grupul cel ma mc va f consderat grupul 1.. Combnarea tuturor scorurlor într-o dstrbuţe de volum n 1 + n. În stuaţa dentfcăr unor scorur dentce, pentru stablrea rangurlor se aplcă procedura de ma sus. 3. Se calculează suma rangurlor tuturor scorurlor în grupul 1. În anexa E sunt date valorle crtce pentru R, corespunzând testulu 1 unlateral la pragurle de:,5;,1;,5 ş,5. 4. Localzarea lne dn anexa E corespunzătoare lu n ş luarea decze în funcţe de următoarele stuaţ: a) H 1 : grup 1 grup. Dacă poteza alternatvă este bdrecţonală, se găseşte ntervalul pentru R corespunzător pragulu de 1 semnfcaţe egal cu. Ipoteza nulă (în stuaţa în care nu exstă dferenţe între cele două populaţ) este respnsă dacă R este 1 egală sau ma mcă decât lmta nferoară în anexă sau dacă este egală sau ma mare decât lmta superoară. b) H 1 : grup 1 < grup. În cazul aceste poteze alternatve undrecţonale se găseşte ntervalul pentru R 1 corespunzător pragulu de semnfcaţe egal cu α. Ipoteza nulă se respnge dacă R este 1 egală sau ma mcă decât lmta nferoară ndcată în anexă. c) H 1 : grup 1 > grup. Se aplcă acelaş raţonament de ma sus cu deosebrea că poteza nulă se respnge dacă R 1 lmta superoară ndcată. Pentru testul Mann-Whtney statstca utlzată, dacă se urmăresc stuaţle a), b) sau c), este: R z 1,5 n n n 1 1 1 n1 n 1 n n 1 1
Se acceptă poteza nulă dacă z z. calculat crtc Exemplu Presupunem că două grupur de subecţ hperemotv sunt supuse la două tpur de tratamente de pshoterape, rezultatele post-terap fnd cele ndcate prn scorurle de ma jos (scorurle mar ndcă hperemotvtate rdcată, scorurle mc hperemotvtate apropată de nvelurle lmnale ale emotvtăţ). Subect 1 3 4 5 6 7 8 9 1 11 Grup 1 5 7 7 9 1 19 3 3 31 Grup 8 1 19 3 6 7 7 8 8 9 3 Se solctă un punct de vedere argumentat statstc refertor la cele două grupur, urmărndu-se efcactatea teraplor. Calculăm rangurle pentru scorurle celor două grupur. Subect 1 3 4 5 6 7 8 9 1 11 Grup 1 1,5,5 5 6,5 8,5 1,5 1,5 Grup 4 6,5 8,5 1 13 14,5 14,5 16,5 16,5 18 R 1 19 R 144 În anexa E pentru n 1 = 11, n = 11 ş α/ =,5, valoarea crtcă corespunzătoare este cuprnsă între 87 ş 166. Întrucât R 1 19, se reţne poteza nulă ar concluza care se trage este că cele două terap au fost relatv de aceeaş efcactate. La acelaş rezultat se poate ajunge calculând statstca z. 19,511 11111 19 16,5 z 1,15 111111111 15, 1 Valoarea crtcă a statstc z la un prag de semnfcaţe α/ =,5 este z,58. Cum z z se acceptă poteza nulă. crtc (,5 ) calculat crtc 177
17.3 Testul Kruskal-Walls Testul Kruskal-Walls este o alternatvă la analza de varanţă pentru cazul unfactoral. Logca de bază a testulu Kruskal-Walls este smlară cu cea a testulu Mann-Whtney. Presupunând că urmăm procedura de combnare a scorurlor de la k grupur, scorurle fnd marcate cu rangur de la 1 la n 1 + n k, în stuaţa în care eşantoanele provn de la populaţ smlare ne aşteptăm ca sumele rangurlor pentru toate grupurle să fe relatv egale, eventualele dferenţe datorându-se întâmplăr. Dacă însă grupurle provn de la populaţ dferte, ne aşteptăm ca sumele rangurlor să dfere semnfcatv. Testul Kruskal-Walls este destnat să măsoare aceste dscrepanţe. Statstca necesară aplcăr acestu test se determnă dn relaţa: H n total 1 n total 1 R1 R Rk n 1 n... n k 3n total 1 cu R suma rangurlor grupulu k; k n k numărul de cazur în grupul k; n total număr total de cazur. Dstrbuţa de selecţe teoretcă a lu H aproxmează dstrbuţa χ. Pentru a aplca testul Kruskal-Walls este nevoe să dspunem de cel puţn tre grupur, fecare având un volum 5. În testarea poteze nule H : grup 1 = grup = grup k se compară valoarea calculată a lu H cu valorle crtce χ pentru k 1 grade de lbertate. Exemplu 15 studenţ de la 3 specalzăr dferte sunt solctaţ să rezolve o problemă de atenţe dstrbutvă. Rezultatele sunt prezentate în tabelul de ma jos. Studenţ la ngnere Studenţ la arte plastce Studenţ la matematcă tmp de rezolvare (mn.) tmp de rezolvare (mn.) tmp de rezolvare (mn.) 1,1,6,7 1,1,5,8 1,14 1,17 1,16 1,3 1,7 1,15 1,18 1,1 1,19 178
Se solctă un punct de vedere statstc refertor la gradul în care cele tre specalzăr cultvă studenţlor capactăţ de atenţe dstrbutvă. Se construeşte dstrbuţa tuturor scorurlor obţnute. Fecăru scor se atrbue un rang de la 1 la 15. Tmp de soluţonare a sarcn de atenţe dstrbutvă (mn.) ş rangurle corespunzătoare Studenţ la ngnere Studenţ la arte plastce Studenţ la matematcă Scor rang scor rang scor rang 1,1 5,6,7 3 1,1 6,5 1,8 4 1,14 7 1,17 1 1,16 9 1,3 14 1,7 15 1,15 8 1,18 11 1,1 13 1,19 1 R 1 43 R 41 R 3 36 1 43 41 36 1 H 315 1 369,8 336, 59,48 1516 5 5 5 4 1 965, 48,6 4 Numărul gradelor de lbertate este 3 1 =, ar 5, 99. Cum,5 H se acceptă poteza nulă, ceea ce înseamnă că la nvelul celor,5 tre specalzăr studenţ dspun de capactăţ sensbl egale de atenţe dstrbutvă. 17.4 Testul semnulu Testul semnulu este o alternatvă la testul t pentru eşantoane dependente. Este utlzat pentru a compara caltatea a două dstrbuţ în condţ de dependenţă a eşantoanelor. Exemplu Un grup de subecţ ncapabl de încredere în forţele propr sunt evaluaţ pe o scala de încredere cu note de la 1 la 7. După evaluare, aceşta benefcază de terape de specaltate la sfârştul cărea sunt supuş dn nou evaluăr. Rezultatele sunt cele prezentate în tabelul de ma jos. 179
18 Statstcă ş aplcaţ în ştnţele socale Încrederea subecţlor ante- ş postterape Subect Ante- Post- Dferenţă 1 1 4 +3 1 4 +3 3 6 +4 4 6 +4 5 1 7 +6 6 3 1 7 1 4 +3 8 3 4 +1 9 3 +1 1 3 +1 Se cere să se apreceze efcactatea terape aplcate. Pentru fecare subect se evaluează dferenţa dntre stărle post- ş anteterape. Se calculează numărul dferenţelor poztve ş negatve. Ipoteza nulă se formulează astfel: Proporţa dferenţelor poztve este egală cu proporţa dferenţelor negatve (H : P d+ P d =,5). În cazul exemplulu prezentat, dferenţa poztvă semnalează efcactatea terape ar cea negatvă, nefcactatea. Folosrea testulu χ solctă evaluarea valorle aşteptate pentru numărul dferenţelor poztve ş negatve. Acestea vor f f aşteptate (+) = f aşteptate ( ) = 5, numărul de subecţ chestonaţ fnd de 1. Valorle observate sunt f o (+) = 9 ş f o ( ) = 1. Calculând statstca χ, obţnem: f f aşteptate 9 5 1 5 16 16 3 6,4 f aşteptate 5 5 5 5 5 Dar 3, 84 pentru un grad de lbertate ( grupur 1) ş cum. 5, se respnge poteza nulă. Întrucât P calculat,5 observat (+) =,9 >,5, rezultă că efcactatea terape aplcate este dovedtă. Probleme propuse: 1. 3 de voluntar partcpă la un experment de testare a memore. Se înregstrează numărul de tem reproduş de fecare partcpant înante ş după prezentarea unor strateg de memorare. Rezultatele sunt prezentate ma jos:
Persoana Ante- Post- 1 1 15 11 14 3 11 13 4 1 15 5 9 15 6 11 16 7 1 13 8 9 14 9 9 15 1 9 13 11 1 14 1 1 14 13 1 14 14 1 13 15 1 15 16 13 15 17 1 13 18 11 14 19 1 13 1 13 1 1 14 1 14 3 1 15 4 11 14 5 11 14 6 1 16 7 9 16 8 1 16 9 11 15 3 1 14 a) Enunţaţ poteza nulă ş poteza alternatvă b) Calculaţ valoarea lu χ ş enunţaţ decza statstcă de acceptare/respngere a poteze nule. Calculaţ rangurle următoarelor scorur: Scorur 3 5 Rang 181
Scorur Rang 7 8 8 9 9 9 3 31 3 3 34 35 36 37 38 39 39 39 39 4 4 41 43 45 45 46 48 3. Se cunosc următoarele date statstce refertoare la două grupur de persoane Grupul 1 14 15 16 18 1 4 5 Grupul 16 19 1 3 4 7 3 31 3 a) Calculaţ rangurle scorurlor R1 ş R b) Calculaţ statstca Mann-Whtney c) Formulaţ decza de acceptare a poteze nule 18
Captolul 18 SELECŢIA STATISTICĂ 18.1 Punerea probleme I ncapactatea studer populaţlor statstce mpune analza unu număr lmtat de elemente ale acestora. De exemplu, stablrea procentulu de anmale bolnave presupune studerea tuturor anmalelor dn untatea tertorală stabltă. Dn motve uşor de înţeles, acest lucru este însă mposbl de realzat. Pe de altă parte, ntuţa ş experenţa celu care recurge la analza elementelor selecţonate pot nfluenţa rezultatele cercetăr. Ceea ce trebue reţnut este faptul că odată cu creşterea volumulu de date colectate, creşte ş şansa de a obţne rezultate cât ma exacte legate de întreaga populaţe-ţntă. Selecţa statstcă oferă posbltatea găsr unor valor tpce (estmaţ ale acestora), specfce întreg populaţ între care menţonăm meda, dspersa, asmetra, corelaţle totale sau parţale etc. Selecţa îş propune următoarele scopur: să estmeze parametr întreg populaţ ţntă; să determne gradul de verosmltate al estmaţlor obţnute. Nvelul verosmltăţ depnde de modul în care au fost obţnute estmaţle ca ş de modul de obţnere al eşantonulu. Fecare estmaţe trebue să fe supusă unu fltru de semnfcaţe. 18. Procedee de selecţe utlzate în formarea eşantoanelor statstce În practca statstcă sunt foloste cu precădere tre modaltăţ de obţnere a eşantoanelor, ş anume: alegerea elementelor la întâmplare; alegerea elementelor în baza une procedur stablte; constturea eşantonulu apelând la cele modaltăț mențonate ma sus. Alegerea elementelor la întâmplare este cunoscută sub numele de selecţe aleatoare. Formarea eşantonulu în baza unu prncpu stablt consttue ceea ce numm selecţe drjată. În cazul în care colectvtatea este supusă partţonăr ar ulteror se eşantonează o parte dn fecare partţe, atunc avem de-a face cu 183
o selecţe stratfcată. Selecţa stratfcată este aplcată în stuaţle în care colectvtatea nu este omogenă. Grupele omogene consttute în urma selecţe stratfcate pot f supuse ulteror selecţe smple. Cercetarea selectvă aplcată în vaţa socală este adesea confruntată cu o sere de partculartăţ. Prezenţa lor este datorată de regulă formelor de organzare exstente la scară socală, concretzate în untăţ complexe (echpe, secţ, întreprnder etc.). În aceste condţ, aplcarea selecţe întâmplătoare smple rscă să nu a în consderare o sere de partculartăţ exstente la nvelul untăţlor complexe, motv pentru care este recomandablă recurgerea la extragerea de untăţ smple dn aceste untăţ complexe numte ser. Acest tp de selecţe este cunoscut în lteratura de specaltate ca selecţe de ser. 18..1 Selecţa aleatoare Selecţa aleatoare presupune ca fecare element dn populaţa orgnală să abă aceeaş şansă de a f extras. Acest tp de selecţe face apel la o sere de tehnc. Spunem că elementele dntr-o populaţe au aceeaş şansă de a f alese dacă metoda de selecţe este ndependentă de caracterstcle populaţe cercetate. Pentru constturea unu eşanton de tp aleator se poate recurge la selecţa de tp lotere, care este aplcablă doar în cazul populaţlor fnte. Procedura constă în asocerea fecăru element cu un număr, screrea numerelor astfel obţnute pe bucăţele de hârte care se amestecă ş, ulteror, extragerea acestora dntr-o urnă. Utlzarea bucăţelelor de hârte numerotate poate f înlocută cu metode numerce (tabelarea funcţe logartm zecmal, a funcţe exponenţale etc.) sau cu utlzarea tabelelor de numere aleatoare. L.H.C. Tppet a construt un astfel de tabel care cuprnde 1.4 de numere de câte 4 cfre fecare. Ma jos sunt prezentate prmele de numere aleatoare ale tabelulu lu Tppet. 95 6641 399 979 7979 5911 317 564 4167 954 1545 1396 73 5356 13 693 37 7483 348 76 Exemplul 1 Utlzând tabelul prezentat, să extragem un eşanton de de subecţ dntr-o populaţe exstentă de 1. Celor de persoane extrase l se pot ataşa numerele de ma sus. Astfel, vom selecta dn cele 1 de persoane doar pe acelea care au ca numere, numerele de ordne ataşate dn tabelul lu Tppet. Să presupunem că vteza de reacţe la stmul vzual (în secunde) înregstrată pentru fecare dn persoanele astfel selectate este:,4,3,,1,5,6,7,8,,1,3,7,3,7,3,56,67,36,17,56 184
Meda artmetcă a acestor valor care corespunde une aproxmaţ a mede întreg populaţ de 1 de subecţ este de,45 secunde. Exemplul Să se extragă un eşanton de 1 untăţ dn populaţa subecţlor care consumă calmante (vez tabelul de ma jos). Tp subecţ Frecvenţă Subecţ cu pshc în lmte normale 5 Subecţ cu tendnțe nevrotce 3 Subecţ cu emotvtate accentuată 45 Subecţ cu depres 8 Total 18 Admtem că pentru realzarea selecţe, dspunem de 1. de numere naturale. Avem următoarele posbltăţ. Fe luăm în consderare prmele 18 de numere naturale, gnorându-le pe celelalte 8, fe luăm în consderare un număr ma mare de numere naturale dn toate cele 1, recurgând la următoarea procedură. Împărţnd numărul de numere dsponble la 18, obţnem câtul 5 ş restul 1. Dec fecăru ndvd se pot asoca 5 numere. Ca urmare, subecţlor dspunând de un pshc în lmte normale le putem asoca prmele 15 numere (5 x 5). Pentru subecţ cu tendnţe nevrotce vom avea următoarele 15 de numere (3 x 5), pentru ce cu emotvtate accentuată următoarele 5 numere (45 x 5) ş, în sfârşt, pentru ce cu depres restul de 4 numere (8 x 5). Dec, se vor aloca în total 9 de numere naturale. În contnuare vom lua prmele 1 numere ale tabelulu lu Tppet, gnorând numerele ma mar de 9. Rezultatele sunt prezentate în tabelul de ma jos. Număr aleator Tp de subect selectat 95 Subect cu emotvtate accentuată 6641 Subect cu depres 399 Subect cu emotvtate accentuată 979 7979 Subect cu depres 5911 Subect cu depres 317 Subect cu emotvtate accentuată 564 Subect cu depres 4167 Subect cu depres 954 1545 Subect cu tendnţe nevrotce 1396 Subect cu tendnţe nevrotce 185
186 Statstcă ş aplcaţ în ştnţele socale Repartţa subecţlor în urma eşantonăr este: Subecţ cu pshc în lmte normale =. Subecţ cu tendnţe nevrotce =. Subecţ cu emotvtate accentuată = 3. Subecţ cu depres = 5. Total subecţ = 1. 18.. Selecţa drjată Percolul denaturăr rezultatelor une selecţ creşte proporţonal cu subectvsmul celu mplcat în realzarea selecţe (selecţa drjată). Totuş, apar stuaţ în care selecţa drjată este preferată selecţe aleatoare. Exemplu Să presupunem că suntem conectaţ la sarcna evaluăr nvelulu medu de cunoştnţe al unu număr mare de subecţ dntr-un anumt domenu. Am putea realza acest lucru fe nvestgând fecare subect, fe nvestgând un eşanton de subecţ. În acest ultm caz, un neavzat ar putea alege doar subecţ care prezntă anumte caracterstc, gnorând altele esenţale care probează nvelul de cunoştnţe. O altă stuaţe ar putea f aceea a aleger unor elte în matere de cunoştnţe care să nu fe reprezentatve pentru întreaga populaţe. Însă un subect famlarzat cu tehncle de selecţe, în mod sgur va f capabl să extragă, pe baza unor ndc pertnente, un eşanton reprezentatv. Folosnd selecţa aleatoare, eşantonul extras ar putea să se abată semnfcatv de la mede. Acest lucru se manfestă dn ce în ce ma pregnant pe măsură ce volumul eşantonulu scade. Însă pe măsură ce volumul eşantonulu creşte, rezultatele selecţe aleatoare tnd să devnă superoare rezultatelor selecţe drjate. În acelaş tmp, la eşantoanele de volum mc selecţa drjată poate furnza nformaţ plauzble legate de valoarea mede a populaţe, dar nu ş de abaterle înregstrate faţă de mede. Avem prn urmare de ales între ncerttudnea hazardulu ofertă de selecţa aleatoare, ncerttudnea datorată subectvsmulu celu care recurge la operaţa de selecţe (selecţa drjată) ş combnarea celor metode, urmărnd mnmzarea efectelor negatve generate de fecare dn ele. 18.3 Reprezentatvtatea colectvtăţ selectate Pentru ca eroarea de estmare a valor tpce a întreg colectvtăţ să fe mnmă este absolut necesar ca eşantonul extras să îndeplnească condţa de reprezentatvtate. Realzarea reprezentatvtăţ are în vedere obţnerea de trăsătur esenţale în colectvtatea selectată, exstente ş la nvelul colectvtăţ generale. O reproducere exactă a aceloraş trăsătur într-o colectvtate constrută
este practc mposblă. De aceea, teora admte că selecţa este reprezentatvă dacă greutatea fecăre grupe nu dferă ma mult de ±5 % în raport cu structura colectvtăţ de bază. În acest context putem vorb de eror de reprezentatvtate care pot f sstematce ş întâmplătoare. Erorle sstematce apar ca efect al subectvsmulu manfestat în procesul de realzare a selecţe ş care în esenţă constă în obturarea posbltăţ fecăre untăţ de a f ncluse în eşanton cu aceeaş probabltate. Spre deosebre de erorle sstematce, erorle întâmplătoare nu pot f elmnate. Cu alte cuvnte, responsable de nerealzarea une estmăr absolut corecte a mede colectvtăţ generale sunt erorle întâmplătoare. Dn cele menţonate rezultă că verfcarea reprezentatvtăţ unu eşanton se poate realza analzând erorle efectve de reprezentatvtate. Aceste eror trebue raportate la o bază de comparaţe care în practca statstcă este cunoscută sub denumrea de selecţe teoretcă. Specfc selecţe teoretce este faptul că structura e este dentcă cu cea a colectvtăţ generale. Un eşanton este cu atât ma reprezentatv, cu cât reproduce ma exact structura selecţe teoretce. Prezentăm în contnuare un exemplu de calcul al erorlor de reprezentatvtate. Exemplu Nvelul Selecţa teoretcă Eşantonul I Eşanton II Eşanton III studlor (an de stud) Frecvenţa absolută Frecvenţa relatvă Frecvenţa absolută Abaterea absolută Frecvenţa absolută Abaterea absolută Frecvenţa absolută Abaterea absolută 8 1 1/181 13 1 4 8 1 1 3 3/181 37 7 5 1 1 4 4/181 5 17 5 17 14 43 43/181 46 3 1 33 6 17 16 36 36/181 4 4 16 56 >18 18 18/181 41 3 1 8 Total 181 1 181 34 181 14 181 74 Pentru calculul erorlor de reprezentatvtate înregstrate de cele 3 eşantoane este necesar să se determne abaterle de structură de la colectvtatea generală reprezentată în cazul de faţă prn selecţa teoretcă. În acest sens se calculează coefcentul de realzare a structur selecţe teoretce, astfel: 187
d Krealzare 1 n Pentru cele 3 eşantoane, valorle coefcentulu sunt: K K K realzare I realzare II realzare III d 34 1 1 19% n 181 d 14 1 1 78% n 181 d 74 1 1 41% n 181 Prmul eşanton reproduce cel ma bne structura selecţe teoretce, înregstrând abater de 19 %, cel de-al dolea eşanton înregstrează abater de 78 % ar cel de-al trelea abater de 41 %. Eroarea efectvă de reprezentatvtate se determnă dn relaţa: d x x ar gradul de reprezentatvtate al eşantonulu dn: x x x Gdx x Pentru acest exemplu, cele 4 med înregstrează următoarele valor: 4 x 13, 7 181 418 xi 13,36 181 58 xii 1, 48 181 496 xiii 13.8 181 188
În mod corespunzător, erorle efectve de reprezentatvtate vor f: dx I xi x 13,36 13,1,15 dx II xii x 1,48 13,1,73 dx III xiii x 13,8 13,1,59 Cu cât eroarea efectvă de reprezentatvtate este ma mcă (în valoare absolută), cu atât eşantonul sau datele dn eşanton sunt ma bne reprezentate. De regulă, datele cu prvre la colectvtatea generală nu sunt cunoscute. În acest caz, este recomandabl ca pentru verfcarea stabltăţ mede ş dsperse să se realzeze selecţ succesve. Eroarea de reprezentatvtate se va calcula astfel: dx x x, unde x este meda medlor de selecţe. 18.3.1 Eroarea mede probablă de reprezentatvtate Cu cât volumul de selecţe este ma mare, cu atât ş dstrbuţa elementelor tnde să urmeze legea dstrbuţe dn colectvtatea generală. În funcţe de volumul colectvtăţ totale, putem forma ma multe eşantoane de aceeaş mărme ar pentru fecare dn ele putem calcula meda de selecţe. Datele cuprnse în eşantoanele astfel formate pot conduce fe la med de selecţe dferte, fe la aparţa une med sau a unor med de ma multe or. Prn urmare, un proces de selecţe va conduce, în sensul celor menţonate, la obţnerea une ser cu dstrbuţe de frecvenţe pentru medle de selecţe. Toate paragrafele care vor urma vor f subordonate scopulu de a vedea în ce măsură rezultatele unu proces de selecţe pot f extnse la întreaga colectvtate. De altfel, acesta este ş scopul selecţe statstce, de a dentfca pe baza unu eşanton sau a ma multor eşantoane extrase trăsăturle colectvtăţ totale. Exemplu Să admtem că volumul colectvtăţ generale este de 4 untăţ dn care se vor forma eşantoane posble de câte 3. Nvelul untăţlor dn colectvtate este: A = 1; B = ; C = 3; D = 4. Datele probleme vor f notate astfel: volumul colectvtăţ generale va f notat cu M, dec M = 4 ar volumul eşantoanelor formate cu n, dec n = 3. Folosnd procedeul selecţe repetate (untăţle extrase sunt rentroduse în vederea une no extrager), se obţn următoarele eşantoane posble: 189
A+A+A B+A+A C+A+A D+A+A A+A+B B+A+B C+A+B D+A+B A+A+C B+A+C C+A+C D+A+C A+A+D B+A+D C+A+D D+A+D A+B+A B+B+A C+B+A D+B+A A+B+B B+B+B C+B+B D+B+B A+B+C B+B+C C+B+C D+B+C A+B+D B+B+D C+B+D D+B+D A+C+A B+C+A C+C+A D+C+A A+C+B B+C+B C+C+B D+C+B A+C+C B+C+C C+C+C D+C+C A+C+D B+C+D C+C+D D+C+D A+D+A B+D+A C+D+A D+D+A A+D+B B+D+B C+D+B D+D+B A+D+C B+D+C C+D+C D+D+C A+D+D B+D+D C+D+D D+D+D Procedeul selecţe repetate conduce la un număr de eşantoane egal cu N n, respectv 4 3 eşantoane. În stuaţa în care untăţle selectate nu se ma rentroduc în vederea unor no selectăr (procedeul selecţe nerepetate), numărul de combnaţ posble va f de: 3 M! 4! C4 4 n! M-N! 3! 4 3! Cele 4 posbltăţ dentfcate sunt: A+B+C A+B+D B+C+D A+C+D Pentru fecare dn cele 64 de selecţ se poate obţne o valoare mede care urmează să fe folostă pentru estmarea mede întreg colectvtăţ. Pe lângă medle obşnute, vom evalua erorle ş dspersle de selecţe ce vor f utlzate ulteror. Rezultatele sunt prezentate în tabelul de ma jos (meda colectvtăţ generale = (1 + + 3 + 4)/4 = 5). 19
Untatea Statstcă ş aplcaţ în ştnţele socale Mărmea caracterstc în eşanton x Meda de selecţe x Eroarea de selecţe x x Dspersa de selecţe A+A+A 3 1 15 5 A+A+B 4 13,3 11,7 158,33 A+A+C 5 16,7 8,3 158,33 A+A+D 6 5 5 A+B+A 4 13,3 11,7 158,33 A+B+B 5 16,7 8,3 91,66 A+B+C 6 5 91,66 A+B+D 7 3,3 1,7 158,33 A+C+A 5 6,7 8,3 158,33 A+C+B 6 5 91,66 A+C+C 7 3,3 1,7 91,66 A+C+D 8 6,7 1,7 158,33 A+D+A 6 5 5 A+D+B 7 3,3 1,7 158,33 A+D+C 8 6,7 1,7 158,33 A+D+D 9 3 5 5 B+A+A 4 13,3 11,7 158,33 B+A+B 5 16,7 8,3 91,66 B+A+C 6 5 91,66 B+A+D 7 3,3 1,7 158,33 B+B+A 5 16,7 8,3 91,66 B+B+B 6 5 5 B+B+C 7 3,3 1,7 91,66 B+B+D 8 6,7 1,7 91,66 B+C+A 6 5 91,66 B+C+B 7 3,3 1,7 5 B+C+C 8 6,7 1,7 5 B+C+D 9 3 5 91,66 B+D+A 7 3,3 1,7 91,66 B+D+B 8 6,7 1,7 91,66 B+D+C 9 3 5 91,66 B+D+D 1 33,3 8,3 158,33 C+A+A 5 16,7 8,3 158,33 C+A+B 6 5 91,66 C+A+C 7 3,3 1,7 91,66 191
Untatea Statstcă ş aplcaţ în ştnţele socale Mărmea caracterstc în eşanton x Meda de selecţe x Eroarea de selecţe x x Dspersa de selecţe C+A+D 8 6,7 1,6 158,33 C+B+A 6 5 91,66 C+B+B 7 3,3 1,7 5 C+B+C 8 6,7 1,7 5 C+B+D 9 3 5 91,66 C+C+A 7 3,3 1,7 91,66 C+C+B 8 6,7 1,7 5 C+C+C 9 3 5 5 C+C+D 1 33,3 8,3 91,66 C+D+A 8 6,7 1,7 158,33 C+D+B 9 3 5 91,66 C+D+C 1 33,3 8,3 91,66 C+D+D 11 36,7 11,7 9,66 D+A+A 6 5 5 D+A+B 7 3,3 1,7 158,33 D+A+C 8 6,7 1,7 158,33 D+A+D 9 3 5 5 D+B+A 7 3,3 1,7 158,33 D+B+B 8 6,7 1,7 91,66 D+B+C 9 3 5 91,66 D+B+D 1 33,3 8,3 158,33 D+C+A 8 6,7 1,7 158,33 D+C+B 9 3 5 91,66 D+C+C 1 33,3 8,3 91,66 D+C+D 11 36,7 1,7 158,33 D+D+A 9 3 5 5 D+D+B 1 33,3 8,3 158,33 D+D+C 11 36,7 11,7 158,33 D+D+D 1 4 15 5 Pe baza acestu tabel se pot obţne dstrbuţle de frecvenţe pentru medle de selecţe, eroarea de reprezentatvtate ş dspersa. Rezultatele pentru medle de selecţe sunt: 19
Nr. crt. Statstcă ş aplcaţ în ştnţele socale Medle de selecţe posble Frecvenţa medlor de selecţe Eroarea de selecţe Probabltăţle de aparţe 1 1 1 15 1/64 13,3 3 11,7 3/64 3 16,7 5 8,3 5/64 4 1 5 1/64 5 3,3 1 1,7 1/64 6 6,7 13 1,7 13/64 7 3 1 5 1/64 8 33,3 6 8,3 6/64 9 36,7 3 11,7 3/64 1 4 1 15 1/64 Total 64 1 În fgura de ma jos este reprezentată grafc sera de dstrbuţe a erorlor de selecţe astfel obţnute. Dstrbuţa erorlor de selecţe Eror 5 1 15 Frecvenţa Cea ma probablă valoare se înregstrează pentru meda de selecţe egală cu 6,7. Eroarea de selecţe corespunzătoare este 1,7. Aşa cum se poate observa, reprezentarea grafcă ne ndcă faptul că repartţa cu care se dstrbue erorle de selecţe urmează o lege normală uşor asmetrcă. Pentru abaterea mede pătratcă a medlor de selecţe se utlzează relaţa: x x f f, unde f frecvenţa de aparţe a fecăre med. 193
În practcă este foarte dfcl de evaluat dferenţa x x datortă frecventelor cazur în care nu se cunoaşte meda colectvtăţ generale. Pentru această speţă se mpune calcularea mede medlor de selecţe. Pentru un număr mare de selecţ se aprecază ca meda medlor de selecţe este egală cu meda colectvtăţ generale. În exemplul de ma sus, meda medlor de selecţe este: 1 113,3316,7 5 1 3, 1 6,7 13 3 1 33,3636,7 34 1 x 64 5,16 dec x x f 6, 44 f Eroarea de reprezentatvtate pentru cele 64 de eşantoane posble este în mede de ±6,44 în jurul mede medlor de selecţe. Pentru selecţa întâmplătoare, eroarea mede de reprezentatvtate se determnă astfel: cazul selecţe repetate când dspersa colectvtăţ generale este cunoscută de unde, n n când dspersa colectvtăţ generale nu este cunoscută (se foloseşte dspersa de selecţe) de unde n 1, n 1 În cazul selecţe nerepetate, dspersa medlor de selecţe de la meda colectvtăţ generale satsface relaţa: 194
nerepetat, n unde este dspersa colectvtăţ generale. Dferenţa dntre selecţa repetată ş cea nerepetată este dată de un factor de corectare egal cu M n (M ş n au semnfcaţle specfcate la aplcaţa M 1 de ma sus). Vom explca în contnuare provenenţa acestu factor. Astfel, în cazul selecţe nerepetate probabltăţle de selecţe cresc de la 1 la prma extragere M 1 la la ultma extragere, astfel încât volumul rămas neextras va f de M n 1 M n. Pentru selecţa repetată, partculartatea rentroducer elementelor extrase în cursa vtoare extrager face ca volumul rămas neextras să fe M 1. Aşadar, în cazul selecţe nerepetate M n nerepetat repetat M 1 Pentru selecţa stratfcată, formulele de calcul ale eror med de reprezentatvtate sunt: cazul selecţe repetate, n n unde exprmă meda dsperslor dn eşantoanele cercetate; cazul selecţe nerepetate N n N n n N 1 n N 1 Pentru selecţa de ser, eroarea mede de selecţe se calculează aplcând relaţle: cazul selecţe repetate r 195
cazul selecţe nerepetate R r r R1 unde r este numărul de ser ar R este numărul de ser pe întreaga colectvtate; cazul selecţe nerepetate când se lucrează cu dspersa de selecţe R r r1 R1 18.3. Eroarea lmtă de reprezentatvtate O selecţe este reprezentatvă dacă nu prezntă eror ma mar de ±5 % faţă de selecţa teoretcă. Între această condţe de reprezentatvtate ş ntervalul de varaţe al mede de selecţe exstă o strânsă legătură după cum vom vedea în cele ce urmează. Grafcul de ma jos ne relevă o dstrbuţe uşor asmetrcă a erorlor în raport cu meda colectvtăţ generale. Pentru o eroare lmtă de ±1 în jurul mede colectvtăţ generale (egală cu 5), probabltatea ca meda să fe cuprnsă între 5 ş 4 va f dată de suma probabltăţlor dn acest nterval, adcă de 13/64 + 1/64 + 6/64 + 3/64 + 1/64 (= 51,56 %). Concluza este că la 1 de selecţ în 5156 de stuaţ, meda 196
se va găs cuprnsă între 5 ş 4 cu condţa ca eroarea de selecţe să nu depăşească ±1. Dacă apar stuaţ în care nu dspunem de toate probabltăţle de aparţe, atunc eroarea lmtă de reprezentatvtate va f dată de relaţa: în cazul selecţe repetate t repetat în cazul selecţe nerepetate t nerepetat unde mărmea t se găseşte tabelată în anexa G. Prezentăm în contnuare un exemplu de calcul al eror lmtă de reprezentatvtate pentru selecţa stratfcată. Exemplu Cercetarea selectvă desfăşurată la două unverstăţ, totalzând 3 de studenţ, în scopul evaluăr numărulu medu al celor care fac faţă programelor unverstare ş a proporţe înregstrate de celalţ studenţ a condus la obţnerea datelor dn tabelul de ma jos. Selecţa a cuprns un procent de 1 % dn numărul de studenţ corespunzător fecăre unverstăţ. Unverstăţ Colectvtatea generală N Colectvtatea de selecţe n Meda de selecţe a numărulu de studenţ care fac faţă programe unverstare x Proporţa studenţlor care fac faţă programe unverstare p Dspersa de selecţe a studenţlor care fac faţă programe unverstare σ Dspersa de selecţe a studenţlor care nu fac faţă programe unverstare p(1 p) 1 1 1 8,1 8,156 9,17 9,1411 Total 3 3 86,66,1533 8,66,193 Pentru calculul eror lmtă au fost determnate: Meda medlor de selecţe xn 81 9 x n 3 86,66 197
Meda dsperslor parţale n 81 9 8, 66 n 3 Eroarea mede de selecţe n 8, 66 3 1 1,161 n N 3 3 La o probabltate de,99999 pentru care t tabelat (anexa G) este egal cu 5, eroarea lmtă de selecţe este: t 5,161,86 Pentru calculul proporţe numărulu de studenţ care nu fac faţă programelor unverstare, meda corespunzătoare la nvelul întregulu eşanton se determnă astfel: pn,1 1,17 p,1533 n 3 Dspersa mede de selecţe este: p1 p n,156 1,1411,193 n 3 Eroarea mede de selecţe,193 3 1, 3 3 Eroarea lmtă calculată cu o probabltate de 99,999 % este de ±,1. 5,,1 198
18.4 Determnarea volumulu de selecţe Stablrea volumulu de selecţe depnde de precza cu care se estmează parametr colectvtăţ generale, de procedeul de selecţe folost ş de eroarea lmtă de reprezentatvtate. Volumul de selecţe se obţne dn relaţle de calcul ale eror lmtă de reprezentatvtate. Pentru selecţa întâmplătoare smplă Selecţa repetată t n Selecţa nerepetată Pentru selecţa stratfcată Selecţa repetată Nt n N t t n Selecţa nerepetată t n t N La selecţa stratfcată, prncpala partculartate este legată de repartzarea volumulu de selecţe pe grupe. Sunt posble următoarele cazur: Selecţa este stratfcată proporţonal. În acest caz greutatea specfcă fecăre grupe trebue să concdă atât în eşanton, cât ş în colectvtatea de bază. Selecţa este stratfcată optm, stuaţe în care este necesară stablrea volumulu de selecţe pe grupe, ţnând seama atât de proporţa de selecţe cât ş de gradul de varaţe dn fecare grupă. Exemplu Se consderă o colectvtate generală împărţtă în grupe. Datele de care dspunem sunt prezentate în tabelul de ma jos. 199
Grupe Volumul colectvtăţ N Statstcă ş aplcaţ în ştnţele socale Abaterle med pătrate pe grupe σ Dspersle pe grupe σ σ N σ N 1 1 15 5 15 5 3 9 6 18 Total 3 75 5 Dn relaţa de calcul t n Dspersa colectvtăţ generale se determnă ca mede ponderată a dsperslor de grupă, astfel: N 5 675 N 3 Presupunând că rezultatele selecţe se obţn cu o probabltate de,99999 pentru t = 5 (anexa G), volumul de selecţe se calculează astfel: 5 675 n 6 3 Acest volum trebue repartzat pe grupe. Pentru selecţa proporţonală, repartzarea se face aplcând relaţa de calcul: N n n, N dec 1 n1 6 3 n 6 4 3 Dacă selecţa este optm repartzată, volumul de selecţe ce revne fecăre grupe se calculează dn relaţa: n N n, N
dec 615 n1 1 75 66 n 5 75 În cazul selecţe smple, fecăre grupe î vor reven 6/ = 3 untăţ. 1