Statisticǎ - curs 3 Cuprins 1 Seria de distribuţie a statisticilor de eşantioane 2 2 Teorema limitǎ centralǎ 5 3 O aplicaţie a teoremei limitǎ centralǎ 7 4 Estimarea punctualǎ a unui parametru; intervalul de încredere 8 1
1 Seria de distribuţie a statisticilor de eşantioane Pentru a face inferenţǎ (predicţie asupra parametrilor populaţiei, este necesar sǎ analizǎm statisticile de eşantioane. Media x în cazul unui eşantion nu este neaparat egalǎ cu media µ a populaţiei. Suntem însǎ mulţumiţi dacǎ media x este apropiatǎ de µ. Dacǎ se considerǎ media x în cazul unui al doilea eşantion aceasta poate sǎ fie diferitǎ de x şi de µ. Ceea ce putem spera este ca aceasta sǎ fie apropiatǎ de valoarea µ şi de x. Valabilitatea acestui tip de comportament intereseazǎ pentru orice populaţie şi orice statisticǎ. Întrebarea care se naşte în mod natural este ce înseamnǎ aproape? Cum se mǎsoarǎ şi se determinǎ aceastǎ apropiere? Definiţia 1. Seria de distribuţie a statisticilor de eşantioane este seria de distribuţie a statisticilor de un anumit tip obţinute eşantioanele de aceeaşi mǎrime. Exemplul 1. Se considerǎ o populaţie de N elemente de la care se pot obţine urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populaţii formǎm toate eşantioanele de mǎrime 2 de la care putem avea urmǎtoarele date statistice: Pentru aceste eşantioane mediile x sunt: (0, 0 (2, 0 (4, 0 (6, 0 (8, 0 (0, 2 (2, 2 (4, 2 (6, 2 (8, 2 (0, 4 (2, 4 (4, 4 (6, 4 (8, 4 (0, 6 (2, 6 (4, 6 (6, 6 (8, 6 (0, 8 (2, 8 (4, 8 (6, 8 (8, 8 0 1 2 3 4 1 2 3 4 5 2 3 4 5 6 3 4 5 6 7 4 5 6 7 8 Probabilitatea de a alege un eşantion din cele 25 este 1/25 şi seria de distribuţie a mediilor acestor eşantioane este: x f (x 0 0.04 1 0.08 2 0.12 3 0.16 4 0.20 5 0.16 6 0.12 7 0.08 8 0.04 unde f (x este frecvenţa relativǎ a mediei x. Diagrama coloanǎ a mediilor eşantioanelor este: 2
Pentru acelaşi set de 25 de eşantioane putem determina seria de distribuţie a plajelor R a acestor eşantioane. Plajele R ale eşantioanelor sunt date în tabelul urmǎtor: 0 2 4 6 8 2 0 2 4 6 4 2 0 2 4 6 4 2 0 2 8 6 4 2 0 Seria de distribuţie a plajelor acestor eşantioane este: R f (R 0 0.20 2 0.32 4 0.24 6 0.16 8 0.08 iar diagrama coloanǎ a plajei eşantioanelor este: 3
Exemplul 2. În cazul aruncǎrii zarului de un numǎr de N ori, setul de date statistice care se referǎ la numǎrul de pe faţǎ care apare este 1, 2, 3, 4, 5, 6. Formǎm eşantioane care constau din 5 aruncǎri. Fiecare din aceste eşantioane are media x. Considerǎm 30 de eşantioane de acest fel (înseamnǎ 30 5 = 150 aruncǎri şi într-un tabel reprezentǎm rezultatele precum şi mediile corespunzǎtoare: Încercare Eşantion x Încercare Eşantion x 1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2 2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6 3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8 4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0 5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6 6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8 7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2 8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6 9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8 10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4 11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4 12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0 13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0 14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8 15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2 Histograma seriei de distribuţie a mediilor celor 30 de eşantioane este reprezentatǎ în figura urmǎtoare: Aceastǎ lege de repartiţie pare sǎ aibe caracteristicile unei legi de repartiţie normalǎ; este maxim şi este simetric faţǎ de media proprie 3.5. 4
2 Teorema limitǎ centralǎ În secţiunea precedentǎ am prezentat seria de distribuţie a mediei şi plajei unui set de eşantioane. Media este statistica folositǎ cel mai frecvent în cazul eşantioanelor şi de aceea este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria de distribuţie a mediei tuturor eşantioanelor aleatoare de aceeaşi mǎrime n. Sǎ formulǎm ce anume intereseazǎ în cazul acestei serii de distribuţie: 1 Unde este centrul datelor? 2 Cât de mare este dispersia datelor? 3 Care este caracterul seriei de distribuţie? Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei întrebǎri. Teorema limitǎ centralǎ Fie µ media şi deviaţia standard a unei variabile în cazul unei populaţii. Dacǎ se considerǎ toate eşantioanele aleatoare de mǎrime n din aceastǎ populaţie, atunci seria de distribuţie a mediilor acestor eşantioane are urmǎtoarele proprietǎţi: a media µ x a acestei serii de distribuţie este egalǎ cu µ; b deviaţia standard x a acestei serii de distribuţie este n. c dacǎ seria de distribuţie a variabilei în cazul populaţiei este normalǎ, atunci seria de distribuţie a mediilor eşantioanelor este normalǎ; dacǎ seria de distribuţiei a variabilei în cazul populaţiei nu este normalǎ, atunci seria de distribuţie a mediilor eşantioanelor este aproximativ normalǎ pentru eşantioane de mǎrime mai mare ca 30. Tendinţa cǎtre o serie de distribuţie normalǎ creşte dacǎ mǎrimea eşantionului creşte. Pe scurt, teorema limitǎ centralǎ stabileşte urmǎtoarele: 1 µ x = µ, unde x este media eşantionului x; 2 Deviaţia standard x a seriei de distribuţie a mediilor eşantioanelor (deviaţia standard a mediilor eşantioanelor faţǎ de media seriei de distribuţie a eşantioanelor este x = / n. 3 seria de distribuţiei a mediei eşantioanelor este aproximativ normalǎ indiferent de seria de distribuţiei a variabilei în cazul populaţiei. Nu vom face demonstraţie teoremei limitǎ centralǎ. examinând un caz ilustrativ. Vom ilustra însǎ validitatea ei 5
Considerǎm o populaţie pentru care seria de distribuţie de date statistice cu frecvenţe relative în cazul variabilei X este: ( 2 4 6 X : 1/3 1/3 1/3 Media µ şi deviaţia standard pentru aceastǎ variabilǎ sunt: 3 µ = x j f x j = 12 ( 3 = 4 = 3 3 2 x 2 j f x j x j f x j = 1, 63 În cazul acestei populaţii oricare eşantion de mǎrime doi are urmǎtoarele date posibile: Eşantioanele au urmǎtoarele medii: (2, 2 (2, 4 (2, 6 (4, 2 (4, 4 (4, 6 (6, 2 (6, 4 (6, 6 2 3 4 3 4 5 4 5 6 Probabilitatea de a alege un eşantion este eşantioanelor este: X ( 2 3 4 5 6 1/9 2/9 3/9 2/9 1/9 1, iar seria de distribuţie a mediilor 9 Media seriei de distribuţie a mediilor eşantioanelor µ x este µ x = 36/9 = 4, 0. Prin urmare µ = µ x, iar deviaţia standard a repartiţiilor mediilor eşantioanelor este: ( x = 5 5 2 ( 2 x 2 j f x j x j f 156 36 x j = 9 = 1, 15 9 n = 1, 63 2 = 1, 63 1, 44 = 1, 15 = x Reprezentând seria de distribuţie a mediilor eşantioanelor obţinem: Aceastǎ diagramǎ aratǎ cǎ seria de distribuţie a mediilor eşantioanelor este normalǎ. 6
3 O aplicaţie a teoremei limitǎ centralǎ Teorema limitǎ centralǎ oferǎ informaţii asupra seriei de distribuţie a mediilor eşantioanelor descriind forma repartiţiei mediilor tuturor eşantioanelor (aproape normalǎ. Ea stabileşte relaţia dintre media µ a populaţiei şi media µ x a seriei de distribuţie a mediilor tuturor eşantioanelor şi relaţia dintre deviaţia standard a populaţiei şi deviaţia standard x a seriei de distribuţie a mediilor eşantioanelor. Deoarece seria de distribuţie a mediilor eşantioanelor este aproape normalǎ putem stabili legǎturi probabiliste dintre media populaţiei şi media unui eşantion. Exemplul 3. Considerǎm o populaţie normalǎ cu µ = 100 şi = 20. Dacǎ se alege un eşantion aleator de mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui eşantion sǎ fie între 90 şi 110? Altfel spus, cât este P (90 < x < 110? Soluţie: Conform teoremei limitǎ centralǎ repartiţia valorilor medii ale eşantioanelor este normalǎ. Prin urmare va trebui sǎ transformǎm condiţia P (90 < x < 110 într-o condiţie care sǎ permitǎ folosirea tabelului de distribuţie normalǎ standard. Aceasta se face scriind: ( 10 P (90 < x < 110 = 2 F = 0.9544 Efectul creşterii dimensiunii n a eşantionului nu afecteazǎ µ x = µ şi micşoreazǎ x. Prin urmare P (90 < x < 110 creşte, dacǎ n creşte. Exemplul 4. Înǎlţimea copiilor la o grǎdiniţǎ are o distribuţie normalǎ având o medie µ = 100 cm cu o deviaţie standard de 12, 5 cm. Pentru un eşantion aleator de 25 de copii se determinǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie între 90 cm şi 110 cm? x Soluţie: P (90 < x < 110 = 2 F (4 = 2 0.499968 7
4 Estimarea punctualǎ a unui parametru; intervalul de încredere Considerǎm o populaţie a cǎrei medie µ nu o cunoaştem şi ne punem problema s-o gǎsim. Pentru acest scop considerǎm un eşantion aleator de dimensiune n pentru care determinǎm media x. Media x a eşantionului este o estimare punctualǎ a mediei µ a populaţiei. Definiţia 2. O estimare punctualǎ a parametrului γ a unei populaţii este o valoare g a unei statistici corespunzǎtoare. Dacǎ x este media eşantioanului cu care estimǎm media necunoscutǎ µ a populaţiei, aceasta nu înseamnǎ cǎ x = µ. În general, x µ şi la ceea ce ne putem aştepta este ca x sǎ fie aproape de µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea unui interval (centrat în µ numit interval de estimare. Definiţia 3. Un interval mǎrginit (a, b folosit pentru a estima valoarea unui anumit parametru γ a populaţiei se numeşte interval de estimare. Valorile a, b (capetele intervalului sunt calculate din eşantion care este folosit pentru estimare. Cum anume se poate specifica un interval centrat în µ care este necunoscut folosind doar date furnizate de un eşantion va fi lǎmurit în continuare. Considerǎm o populaţie având o deviaţie standard cunoscutǎ, o medie µ necunoscutǎ şi un eşantion aleator simplu de mǎrime n şi medie x cunoscute. Condiţia x (µ 1, µ + 1 înseamnǎ cǎ scorul standard z (pentru mediile eşantioanelor dat de: sǎ verifice: z = x µ x = x µ x z ( 1 n, n 1 n n = ( n, Astfel în termenii scorului standard intervalul de estimare este intervalul (a, b cu a = n n şi b =. Mai general condiţia x (µ δ, µ + δ, înseamnǎ cǎ scorul standard z dat de: z = x µ x = x µ x sǎ verifice: z ( δ n Intervalul de estimare este ( δ n, δ n. n, δ n Definiţia 4. Nivelul de neîncredere α este probabilitatea ca statistica eşantionului sǎ aibe valoarea în afara intervalului de estimare. Conform teoremei de limitǎ centralǎ, repartiţia lui x este normalǎ sau aproape normalǎ şi avem: ( n n P (µ 1 < x < µ + 1 = P < z < = 8
unde F (z = 1 2 π z ( 2 P 0 < z < e 1 2 t2 dt. 0 ( n Deci nivelul de neîncredere α este 1 2 F ( n n = 2 F Definiţia 5. Nivelul de încredere (coeficient de încredere 1 α este probabilitatea ca statistica eşantionului sǎ se afle în intervalul de estimare ales. Definiţia 6. Intervalul de încredere este un interval de estimare cu un nivel de încredere 1 α specificat. ( n n Intervalul de estimare, este un interval de încredere cu coeficientul de ( n încredere 1 α = 2 F. Definiţia 7. Eroarea maximǎ de estimare este jumǎtatea lungimii intervalului de încredere cu nivelul de încredere 1 α. În termen de scor standard aceastǎ eroare se exprimǎ cu formula: E = z 2 n unde z este soluţia ecuaţiei F (z = 1 α, iar intervalul de încredere 1 α pentru µ 2 2 este: ( x z, x + z 2 n 2 n x z este limita inferioarǎ de încredere, iar x+z este limita superioarǎ 2 n 2 n de încredere.. 9