Statisticǎ - notiţe de curs

Σχετικά έγγραφα
Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Statisticǎ - curs 2. 1 Parametrii şi statistici ai tendinţei centrale 2. 2 Parametrii şi statistici ai dispersiei 5

Metode iterative pentru probleme neliniare - contractii

Curs 4 Serii de numere reale

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

8 Intervale de încredere

Subiecte Clasa a VII-a

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

MARCAREA REZISTOARELOR

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Curs 1 Şiruri de numere reale

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

NOTIUNI DE BAZA IN STATISTICA

Subiecte Clasa a VIII-a

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

Asupra unei inegalităţi date la barajul OBMJ 2006

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Sisteme diferenţiale liniare de ordinul 1

Curs 2 Şiruri de numere reale

Esalonul Redus pe Linii (ERL). Subspatii.

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

Integrala nedefinită (primitive)

riptografie şi Securitate

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

Metode de interpolare bazate pe diferenţe divizate

7 Distribuţia normală

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Seminar 5 Analiza stabilității sistemelor liniare

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Aplicaţii ale principiului I al termodinamicii la gazul ideal

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

Statisticǎ - curs 4. 1 Generalitǎţi privind ipotezele statistice şi problema verificǎrii ipotezelor statistice 2

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

STATISTICĂ DESCRIPTIVĂ

Scoruri standard Curba normală (Gauss) M. Popa

9 Testarea ipotezelor statistice

Câmp de probabilitate II

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

Criptosisteme cu cheie publică III

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Subiecte Clasa a V-a

z a + c 0 + c 1 (z a)

Să se arate că n este număr par. Dan Nedeianu

5 Statistica matematică

Aparate de măsurat. Măsurări electronice Rezumatul cursului 2. MEE - prof. dr. ing. Ioan D. Oltean 1

Conice - Câteva proprietǎţi elementare

Indicatori sintetici ai distribuțiilor statistice

Variabile statistice. (clasificare, indicatori)

6 n=1. cos 2n. 6 n=1. n=1. este CONV (fiind seria armonică pentru α = 6 > 1), rezultă

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

Problema a II - a (10 puncte) Diferite circuite electrice

prin egalizarea histogramei

Cursul Măsuri reale. D.Rusu, Teoria măsurii şi integrala Lebesgue 15

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

5.4. MULTIPLEXOARE A 0 A 1 A 2

Examen AG. Student:... Grupa: ianuarie 2016

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

a. Caracteristicile mecanice a motorului de c.c. cu excitaţie independentă (sau derivaţie)

III. Reprezentarea informaţiei în sistemele de calcul

INTRODUCERE ÎN STATISTICA MEDICALĂ

I3: PROBABILITǍŢI - notiţe de curs

Lucrare. Varianta aprilie I 1 Definiţi noţiunile de număr prim şi număr ireductibil. Soluţie. Vezi Curs 6 Definiţiile 1 şi 2. sau p b.

Cercul lui Euler ( al celor nouă puncte și nu numai!)

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism. (Y = f(x)).

Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015

Stabilizator cu diodă Zener

GEOMETRIE PLANĂ TEOREME IMPORTANTE ARII. bh lh 2. abc. abc. formula înălţimii

a. 11 % b. 12 % c. 13 % d. 14 %

I3: PROBABILITǍŢI - notiţe de curs

Statisticǎ - exerciţii

Progresii aritmetice si geometrice. Progresia aritmetica.

3.5. Indicatori de împrăştiere

* K. toate K. circuitului. portile. Considerând această sumă pentru toate rezistoarele 2. = sl I K I K. toate rez. Pentru o bobină: U * toate I K K 1

CURS XI XII SINTEZĂ. 1 Algebra vectorială a vectorilor liberi

IV. CUADRIPOLI SI FILTRE ELECTRICE CAP. 13. CUADRIPOLI ELECTRICI

CURS 11: ALGEBRĂ Spaţii liniare euclidiene. Produs scalar real. Spaţiu euclidian. Produs scalar complex. Spaţiu unitar. Noţiunea de normă.

Cursul 6. Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

Profesor Blaga Mirela-Gabriela DREAPTA

3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

Subiecte Clasa a VIII-a

Laborator biofizică. Noţiuni introductive

Cum folosim cazuri particulare în rezolvarea unor probleme

Geometrie computationala 2. Preliminarii geometrice

Transcript:

Statisticǎ - notiţe de curs Ştefan Balint, Loredana Tǎnasie Cuprins 1 Ce este statistica? 3 2 Noţiuni de bazǎ 5 3 Colectarea datelor 7 4 Determinarea frecvenţei şi gruparea datelor 11 5 Prezentarea datelor 14 6 Parametrii şi statistici ai tendinţei centrale 19 7 Parametrii şi statistici ai dispersiei 22 8 Parametrii şi statistici factoriali ai varianţei 25 9 Parametrii şi statistici ale poziţiei 26 10 Seria de distribuţie a statisticilor de eşantioane 28 11 Teorema limitǎ centralǎ 32 12 O aplicaţie a teoremei limitǎ centralǎ 35 13 Estimarea punctualǎ a unui parametru; intervalul de încredere 36 14 Generalitǎţi privind ipotezele statistice şi problema verificǎrii ipotezelor statistice 38 1

15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41 16 Verificarea ipotezelor statistice: varianta probabilistǎ 48 17 Inferenţǎ statisticǎ privind media populaţiei dacǎ nu se cunoaşte abaterea standard a populaţiei 52 18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei 59 19 Generalitǎţi despre corelaţie. Corelaţie liniarǎ 65 20 Analizǎ de corelaţie liniarǎ 73 21 Inferenţǎ privind coeficientul de corelaţie liniarǎ 76 22 Regresie liniarǎ 80 23 Analiza de regresie liniarǎ 83 24 Inferenţǎ referitoare la panta unei drepte de regresie liniarǎ 87 2

1 Ce este statistica? Definiţia 1.1. Statistica este ştiinţa colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii datelor numerice şi a folosirii acestora pentru a formula concluzii şi a lua decizii. Definiţia 1.2. Statistica descriptivǎ se ocupǎ cu colectarea, clasificarea şi prezentarea datelor numerice. Definiţia 1.3. Statistica inferenţialǎ (inferential statistics) se ocupǎ cu interpretarea datelor oferite de statistica descriptivǎ şi cu folosirea acestora pentru a formula concluzii şi lua decizii. Problema 1.1. Universitatea de Vest din Timişoara doreşte sǎ facǎ un plan de dezvoltare a facilitǎţilor de cazare. Pentru a trece la acţiune consiliul de administraţie hotǎrǎşte cǎ este necesar sǎ se rǎspundǎ la urmǎtoarea întrebare: Câţi studenţi vor trebui cazaţi în urmǎtorii zece ani? Pentru a rǎspunde la aceastǎ întrebare trebuie sǎ cunoaştem rǎspunsul la cel puţin urmǎtoarele douǎ întrebǎri: Câţi absolvenţi de liceu vor fi? Câţi vor sǎ vinǎ la universitate? (Şi altele poate). Pentru a rǎspunde la aceste douǎ întrebǎri e nevoie de date referitoare la numǎrul de absolvenţi de liceu în urmǎtorii zece ani şi de date care indicǎ procentul acelor absolvenţi de liceu care doresc sǎ devinǎ studenţi la U.V.T. în urmǎtorii zece ani. O cale de a obţine date refritoare la numǎrul de absolvenţi de liceu în urmǎtorii zece ani este de a vedea care a fost acest numǎr în ultimii zece ani şi a extrapola acest numǎr. Trebuie remarcat cǎ aceastǎ idee presupune cǎ existǎ o legǎturǎ dintre trecut şi viitor. Acest lucru nu este întotdeauna adevǎrat. O întrebare suplimentarǎ care se pune în acest context este dacǎ va trebui sǎ numǎrǎm toţi absolvenţii de liceu din toate şcolile din ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite şcoli? Altfel spus, dacǎ putem considera doar eşantioane? O cale de a obţine date referitoare la procentul acelor absolvenţi care doresc sǎ devinǎ studenţi la U.V.T. este aceea de a vedea aceste procente în ultimii zece ani şi de a extrapola. Alte întrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie pe baza acestor date? Cum se ia o decizie pe baza acestor date? Nu am terminat cu enumerarea întrebǎrilor care pot fi relevante. La acest moment ceea ce este important este sǎ începem sǎ ne gândim la asemenea probleme şi la întrebǎrile care trebuiesc lǎmurite pentru a obţine un rǎspuns. Remarca 1.1. Relaţia dintre statisticǎ şi probabilitǎţi Statistica şi probabilitǎţile sunt douǎ domenii strâns legate, dar distincte ale matematicii. Se spune cǎ probabilitǎţile sunt vehiculul statisticii. Aceasta este adevǎrat în sensul cǎ dacǎ nu ar fi legile probabiliste teoria statisticǎ nu ar fi posibilǎ. Pentru a ilustra însǎ diferenţa dintre probabilitǎţi şi statisticǎ sǎ considerǎm douǎ urne: una probabilistǎ şi una statisticǎ. În cazul urnei probabiliste se ştie cǎ urna conţine 5 bile albe, 5 bile negre şi 5 bile roşii; problema de probabilitate este dacǎ scoatem o bilǎ, care este şansa ca aceasta sǎ fie albǎ? În cazul unei urne statistice nu cunoaştem care este combinaţia de bile din urnǎ. Extragem un eşantion şi din acest eşantion conjecturǎm ce credem cǎ se gǎseşte în urnǎ. Trebuie reţinutǎ deosebirea: probabilitatea pune întrebarea şansei ca ceva (un eveniment) sǎ se întâmple atunci când se cunosc posibilitǎţile (se cunoaşte 3

populaţia). Statistica ne cere sǎ facem un eşantion, sǎ analizǎm eşantionul şi pe urmǎ sǎ facem predicţie asupra populaţiei pe baza informaţiei gǎsite în eşantion. Remarca 1.2. Folosirea corectǎ şi folosirea greşitǎ a statisticii Utilizarea statisticii este nelimitatǎ. Este greu de gǎsit un domeniu în care statistica nu se foloseşte. Iatǎ câteva exemple, unde şi cum este folositǎ statistica: în educaţie; statistica descriptivǎ este adesea folositǎ pentru a prezenta rezultatele; în ştiinţǎ; rezultatele experimentale trebuiesc colectate şi analizate; guvernele; adunǎ diferite date statistice tot timpul. Mulţi oameni sunt indiferenţi faţǎ de descrierea statisticǎ, alţii cred cǎ statisticile sunt minciuni. Majoritatea minciunilor statistice sunt inocente şi rezultǎ din folosirea unei statistici neadecvate sau date obţinute dintr-un eşantion nepotrivit. Toate acestea conduc la o înţelegere greşitǎ a informaţiei din partea consumatorului. Folosirea greşitǎ a statisticii duce uneori la încurcǎturi. Remarca 1.3. Statistica şi calculatorul În ultimul deceniu calculatorul a avut un rol important în aproape toate aspectele vieţii. Domeniul statististicii nu face excepţie. Statistica foloseşte multe tehnici care au o naturǎ repetitivǎ; formule pentru a calcula statistici descriptive, proceduri de urmat pentru a formula predicţii. Calculatorul este foarte bun pentru a face asemenea operaţii repetitive. Dacǎ calculatorul are un soft standard statistic este mult mai uşoarǎ analiza unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program biomedical), SAS (Sistem de analizǎ statisticǎ), IBM Scientific Subroutine Packages şi SPSS (pachet statistic pentru ştiinţe sociale). 4

2 Noţiuni de bazǎ Definiţia 2.1. Populaţia este o colecţie (mulţime) de indivizi, obiecte sau date numerice obţinute prin mǎsurǎtori ale cǎrei proprietǎţi trebuiesc analizate. Remarca 2.1. Populaţia este colecţia completǎ de indivizi, obiecte sau date numerice obţinute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ eşantionul). Conceptul de populaţie este fundamental în statisticǎ. Populaţia trebuie definitǎ cu grijǎ şi se considerǎ complet definitǎ dacǎ lista membrilor este specificatǎ. Mulţimea studenţilor Facultǎţii de Matematicǎ şi Informaticǎ este o populaţie bine definitǎ. Dacǎ auzim cuvântul populaţie de obicei ne gândim la o mulţime de oameni. În statisticǎ populaţia poate fi o mulţime de animale, de obiecte fabricate sau de date numerice obţinute prin mǎsurǎtori. De exemplu mulţimea înǎlţimilor studenţilor facultǎţii de Matematicǎ şi Informaticǎ este o populaţie. Definiţia 2.2. Eşantionul este o submulţime a unei populaţii. Remarca 2.2. Un eşantion constǎ din indivizi, obiecte sau date mǎsurate selectate din populaţie (de cǎtre colectorul de eşantion). Definiţia 2.3. O variabilǎ de rǎspuns (simplu variabilǎ) este o caracteristicǎ (de obicei numericǎ) care prezintǎ interes în cazul fiecǎrui element (individ) al unei populaţii. Remarca 2.3. Vârsta studentului, media lui, culoarea pǎrului, înǎlţimea, greutatea ş.a.m.d. sunt variabile de rǎspuns în cazul populaţiei: studenţii de la Facultatea de Matematicǎ şi Informaticǎ. Definiţia 2.4. O datǎ (la singular) este valoarea unei variabile de rǎspuns în cazul unui element al populaţiei sau eşantionului. Exemplul 2.1. Popescu Nicolae are vîrsta de 19 ani, media 8.50, pǎrul lui este castaniu, înǎlţimea lui este 1 m şi 75 cm, iar greutatea lui este 65 kg. Aceste cinci valori ale celor cinci variabile de rǎspuns (Remarca 2.3) în cazul lui Popescu Nicolae sunt cinci date. Definiţia 2.5. Valorile unei variabile de rǎspuns în cazul unei populaţii sau a unui eşantion constituie un set de date. Într-un set de date aceeaşi datǎ apare de atâtea ori de câte ori variabila are aceastǎ valoare. Exemplul 2.2. Cele 25 de înǎlţimi în cazul unui eşantion de 25 de studenţi este un set de 25 de date nu neapǎrat diferite. Definiţia 2.6. O activitate planificatǎ în urma cǎreia se obţine un set de date se numeşte experiment sau sondaj. Definiţia 2.7. Parametru este o caracteristicǎ numericǎ a unei populaţii. Exemplul 2.3. Procentul de studenţi de la Facultatea de Matematicǎ şi Informaticǎ care au promovat toate examenele la sesiunea din iarnǎ este un exemplu de parametru în cazul populaţiei: studenţii de la Facultatea de Matematicǎ şi Informaticǎ. Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la întreaga populaţie. În statisticǎ se obişnuieşte ca parametrul sǎ fie notat cu literǎ greceascǎ. 5

Definiţia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui eşantion Exemplul 2.4. Înǎlţimea medie gǎsitǎ folosind cele 25 de înǎlţimi în cazul unui eşantion de 25 de studenţi este un exemplu de statisticǎ (de eşantion). Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un eşantion. Statisticile (de eşantion) se noteazǎ cu literele alfabetului latin. 6

3 Colectarea datelor Prima problemǎ a statisticianului este colectarea unui set de date. Aceasta presupune definirea prealabilǎ a obiectivelor sondajului (experimentului) a populaţiei şi a variabilei. Exemple de obiective: a) Compararea eficacitǎţii unui medicament nou cu eficacitatea unui medicament standard; b) Estimarea venitului mediu al unei familii din judeţ. Exemple de populaţii şi variabile corespunzǎtoare: a) pacienţii care suferǎ de o boalǎ care se trateazǎ cu medicamentul considerat reprezintǎ populaţia, iar timpul de recuperare reprezintǎ variabila; b) familiile din judeţ reprezintǎ populaţia, iar venitul total al unei familii din judeţ reprezintǎ variabila. Tot înainte de colectarea setului de date trebuie hotǎrât dacǎ setul de date se constituie pentru întreaga populaţie sau doar pentru un eşantion. Dacǎ setul de date se constituie pentru întreaga populaţie atunci se face un recensǎmânt. Definiţia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al populaţiei împreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului. În cazul unei populaţii mari, constituirea unui set de date la nivelul populaţiei este dificil şi costisitor. De aceea, în cazul în care nu este posibilǎ realizarea unui recensǎmânt, setul de date se constituie doar pentru o parte a populaţiei, pentru un eşantion. Selecţia elementelor pentru eşantion se face dintr-un cadru de eşantionare. Definiţia 3.2. Cadrul de eşantionare este o listǎ de elemente care aparţin populaţiei, din care va fi extras eşantionul. Remarca 3.1. Deoarece numai elementele din cadrul eşantionului au şansa sǎ fie selectate pentru eşantion, din perspectiva variabilei de rǎspuns cadrul de eşantion trebuie sǎ fie reprezentativ pentru populaţie. Remarca 3.2. În cazul unei populaţii de indivizi listele de alegǎtori sau cǎrţile de telefon sunt folosite adesea drept cadru de eşantion. În funcţie de variabila de rǎspuns acestea pot fi cadre de eşantion potrivite sau nepotrivite. Remarca 3.3. Dupǎ definirea cadrului eşantionului se trece la stabilirea modului de alegere a elementelor eşantionului. Acest proces se numeşte proiectarea eşantionului. Definiţia 3.3. Proiectarea eşantionului înseamnǎ stabilirea procedurii de alegere a elementelor eşantionului din cadrul eşantionului. Existǎ mai multe procedee de alegere a elementelor eşantionului. În mare aceste procedee împreunǎ cu eşantioanele corespunzǎtoare se împart în douǎ categorii: procedee bazate pe reprezentativitate şi procedee probabiliste. 7

Definiţia 3.4. Eşantioane bazate pe reprezentativitate sunt acelea pentru care elementele se aleg astfel încât din perspectiva variabilei de rǎspuns, elementul ales sǎ fie reprezentativ pentru populaţie. Exemplul 3.1. Din perspectiva variabilei de rǎspuns: cursul A este util sau nu în formarea dumneavoastrǎ profesionalǎ?, studenţii din cadrul unui eşantion care nu au frecventat cursul nu sunt reprezentativi. Deci nu sunt aleşi în eşantion. Definiţia 3.5. Un eşantion pentru care elementele sunt selectate pe bazǎ probabilistǎ; oricare element din cadrul eşantionului are o anumitǎ şansǎ nenulǎ sǎ fie selectat; se numeşte eşantion probabilist. Remarca 3.4. Inferenţe statistice cer ca eşantionul sǎ fie probabilist. probabiliste aleatoare sunt cele mai familiare eşantioane probabiliste. Eşantioanele Definiţia 3.6. Un eşantion de mǎrimea n este eşantion probabilist aleator dacǎ orice eşantion de mǎrimea n ales din acelaşi cadru are aceeaşi probabilitate sǎ fie ales. Remarca 3.5. Cea mai rǎspânditǎ metodǎ de a colecta date foloseşte eşantion aleator simplu. Definiţia 3.7. Un eşantion probabilist aleator pentru care elementele sunt selectate dintrun cadru în care elementele au aceeaşi probabilitate sǎ fie alese se numeşte eşantion aleator simplu. Remarca 3.6. Atunci când se construieşte un eşantion probabilist aleator simplu trebuie avutǎ grijǎ ca fiecare element din cadrul eşantionului sǎ aibe aceeaşi probabilitate sǎ fie selectat. Adesea se fac greşeli pentru cǎ termenul aleator este confundat cu ales la întâmplare. Un procedeu corect de selectare a unui eşantion probabilist aleator simplu este acela care foloseşte un generator de numere aleatoare sau o tabelǎ de numere aleatoare. Prima oarǎ se numeroteazǎ elementele din cadrul de eşantionare. Dupǎ aceasta în tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru eşantion. Fiecare element din cadrul de eşantionare, al cǎrui numǎr coincide cu un numǎr selectat din tabelul de numere aleatoare va fi ales pentru eşantion. Exemplul 3.2. Dacǎ cadrul eşantionului este o listǎ de 4265 de studenţi atunci ei sunt numerotaţi de la 0001; 0002;...; 4265. Pentru un eşantion de 50 de studenţi se aleg 50 de numere aleatoare cu patru cifre şi se identificǎ studenţii din cadrul eşantionului. Definiţia 3.8. Eşantionul sistematic se construieşte alegând fiecare al k-lea element din cadrul eşantionului. Remarca 3.7. În aceastǎ selecţie se foloseşte tabela de numere aleatoare o singurǎ datǎ, pentru a determina punctul de plecare. Exemplul 3.3. Dacǎ se considerǎ un cadru de eşantion de 245 de studenţi ai Facultǎţii de Matematicǎ şi Informaticǎ şi se doreşte un eşantion sistematic format din 15 studenţi atunci: 1) asociem fiecǎrui student un numǎr de la 1 la 245; 8

2) se calculeazǎ k (pasul de numǎrare) folosind urmǎtoarea relaţie: [ ] [ ] numǎrul de elemente din cadrul eşantionului 245 k = = = 16 numǎrul de elemente din eşantion 15 3) se alege punctul de plecare între 1 şi numǎrul k cu ajutorul unui tabel de numere aleatoare. Dacǎ acest numǎr este 10, atunci obţinem eşantionul: 10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234. Deoarece k = 245 = 16, 33, nu este un numǎr întreg, pasul de numǎrare poate fi şi 17. În 15 acest caz eşantionul sistematic obţinut este de numai 14 elemente. Remarca 3.8. Este o procedurǎ bunǎ pentru a eşantiona un procentaj în cazul populaţiilor mari. Pentru a selecta un eşantion sistematic de x% dintr-o populaţie, un element din 100/x va fi selectat (dacǎ 100/x nu este întreg se ia partea întreagǎ). Remarca 3.9. Folosirea eşantionului sistematic nu este potrivitǎ dacǎ populaţia este repetitivǎ sau ciclicǎ în naturǎ.(din perspectiva variabilei de rǎspuns) Exemplul 3.4. Dacǎ se doreşte estimarea numǎrului studenţilor admişi la Facultatea de Matematicǎ şi Informaticǎ care au depǎşit vârsta de 20 de ani şi se foloseşte eşantionarea sistematicǎ extrǎgând din lista candidaţilor admişi numai pe cei de pe poziţiile care sunt multiplu de 5, existǎ posibilitatea ca toţi candidaţii admişi pe poziţiile respective sǎ aibǎ sub 20 de ani. Un asemenea eşantion spune ca nu au fost admişi candidaţi peste 20 de ani, ceea ce nu poate fi susţinut. Când se eşantioneazǎ populaţii foarte mari, atunci când este posibil se împarte populaţia în douǎ subpopulaţii pe baza unor caracteristici. Aceste subpopulaţii se numesc straturi, iar straturile sunt eşantionate separat. Definiţia 3.9. Un eşantion obţinut în urma stratificǎrii cadrului eşantionului şi prin selectarea unui numǎr dat de elemente din fiecare strat se numeşte eşantion stratificat. Remarca 3.10. Când se proiecteazǎ un eşantion stratificat, cadrul se împarte în douǎ sau mai multe straturi şi în fiecare strat se proiecteazǎ un subeşantion. Aceste subeşantioane pot fi aleatoare, sistematice sau de alt gen. Dupǎ aceea subeşantioanele sunt asamblate într-un singur eşantion pentru a colecta un set de date. Exemplul 3.5. Pentru studierea unei caracteristici a populaţiei studenţilor din Facultatea de Matematicǎ şi Informaticǎ, aceastǎ populaţie poate fi împǎrţitǎ: - pe domenii: informaticǎ, matematicǎ - pe ani de studiu. Definiţia 3.10. Eşantion cotǎ (sau eşantion proporţional) este un eşantion stratificat care se construieşte prin selectarea unui numǎr de elemente din fiecare strat dupǎ o anumitǎ cotǎ sau proporţional cu mǎrimea stratului. 9

Exemplul 3.6. Dacǎ se doreşte construirea unui eşantion de 150 de studenţi din populaţia studenţilor Facultǎţii de Matematicǎ şi Informaticǎ putem face stratificarea dupǎ anii de studiu. În acest caz, numǎrul de studenţi ce va fi selectat din fiecare an ce va fi selectat va fi proporţional cu numǎrul total de studenţi din anul respectiv: Anul de studiu Numǎr studenţi Cota Nr. studenţi selectat în eşantion: Anul I 431 36.49% 54 Anul II 303 25.65% 40 Anul III 206 17.44% 26 Anul IV 240 20.40% 30 Eşantionul va fi format din 54 de studenţi din anul I, 40 de studenţi din anul II, 26 de studenţi din anul III şi 30 de studenţi din anul IV. O altǎ metodǎ de eşantionare care pleacǎ de la stratificarea populaţiei este eşantionul ciorchine. Definiţia 3.11. Eşantionul ciorchine este un eşantion stratificat care se construieşte prin selectarea de eşantioane din anumite straturi (nu din toate). Exemplul 3.7. Dacǎ se doreşte realizarea unui eşantion ciorchine format din studenţii Universitǎţii de Vest din Timişoara, aceastǎ populaţie poate fi startificatǎ în funcţie de specializarea pe care au ales-o studenţii selecţionând eşantioane doar de la câteva specializǎri (nu de la toate). Remarca 3.11. Eşantionul ciorchine se obţine folosind numere aleatoare sau o metodǎ sistematicǎ pentru identificarea straturilor (ciorchine) care trebuiesc eşantionate, dupǎ care fiecare din aceste straturi este eşantionat. Subeşantioanele asamblate formeazǎ un eşantion ciorchine. Într-un caz concret procedeul de eşantionare care se foloseşte depinde de populaţie de variabilǎ de dificultatea eşantionǎrii şi de cost. Dupǎ determinarea eşantionului se poate trece la colectarea setului de date. 10

4 Determinarea frecvenţei şi gruparea datelor Dupǎ colectarea unui set de date urmeazǎ prelucrarea primarǎ a datelor. Determinarea frecvenţei şi gruparea datelor este un procedeu de prelucrae primarǎ a datelor şi este utilizat atunci când numǎrul datelor este mare. Pentru a prezenta conceptul de frecvenţǎ sǎ considerǎm urmǎtorul set de date: 3 2 2 3 2 4 4 1 2 2 4 3 2 0 2 2 1 3 3 1 Valoarea 0 apare în acest set o singurǎ datǎ prin urmare frecvenţa pentru 0 este unu. Valoarea 1 apare în acest set de trei ori prin urmare frecvenţa pentru 1 este trei. Valoarea 2 apare în acest set de opt ori prin urmare frecvenţa pentru 2 este opt. Valoarea 3 apare în acest set cinci ori prin urmare frecvenţa pentru 3 este cinci. Valoarea 4 apare în acest set de douǎ ori prin urmare frecvenţa pentru 4 este doi. Frecvenţa datelor 0,1,2,3,4 care apar în setul de date este redatǎ în tabelul urmǎtor: x f 0 1 1 3 2 8 3 5 4 3 Definiţia 4.1. Frecvenţa f (din coloana a doua) aratǎ de câte ori apare valoarea variabilei x în setul de date. Atunci când într-un set de date multe sunt distincte (în loc de câteva ca în cazul precedent) se grupeazǎ datele în clase şi apoi se construiesc frecvenţe pentru clase. Pentru a ilustra acest procedeu considerǎm urmǎtorul set de date: 82 74 88 66 58 62 68 72 92 86 74 78 84 96 76 76 52 76 82 78 Vom pune în aceeaşi clasǎ toate datele la care prima cifrǎ este aceeaşi şi obţinem urmǎtoarele cinci clase: 50 59; 60 69; 70 79; 80 89; 90 99 (50 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ş.a.m.d.). Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ aparţinǎ la douǎ clase) şi oricare din date aparţine unei clase. Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99. Datele care aparţin unei clase sunt mai mari decât limita inferioarǎ a clasei şi mai mici decât limita superioarǎ a clasei. 11

Definiţia 4.2. Lǎţimea unei clase definitǎ ca diferenţa dintre limita inferioarǎ a clasei urmǎtoare şi limita inferioarǎ a clasei (este egalǎ cu 10 şi este aceeaşi pentru toate clasele în exemplul de mai sus) lǎţimea clasei nu este egalǎ cu diferenţa dintre limita superioarǎ şi limita inferioarǎ a clasei. Definiţia 4.3. Frontierele unei clase definite ca media aritmeticǎ dintre limita superioarǎ a clasei şi limita inferioarǎ a clasei urmǎtoare sunt: 49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5. Definiţia 4.4. Marca unei clase definitǎ ca media aritmeticǎ dintre limita superioarǎ şi limita inferioarǎ a clasei, în acest caz este: 54.5 = 64.5 = 74.5 = 84.5 = 50 + 59 2 60 + 69 2 70 + 79 2 80 + 89 2 în cazul clasei 50 59 în cazul clasei 60 69 în cazul clasei 70 79 în cazul clasei 80 89 90 + 99 94.5 = în cazul clasei 90 99 2 Frecvenţa în acest caz este numǎrul de date dintr-o clasǎ. Frecvenţa datelor pe clase este: în cazul clasei 50 59 2 date în cazul clasei 60 69 3 date în cazul clasei 70 79 8 date în cazul clasei 80 89 5 date în cazul clasei 90 99 2 date În general, în cazul grupǎrii datelor pe clase şi a determinǎrii frecvenţei trebuiesc respectate urmǎtoarele reguli: 1) Clasele nu trebuie sǎ se intersecteze şi fiecare datǎ din setul de date trebuie sǎ aparţinǎ la o clasǎ; 2) Fiecare clasǎ trebuie sǎ aibe aceeaşi lǎţime. Procedeul concret de grupare este urmǎtorul: 12

i) Se identificǎ cea mai mare datǎ H şi cea mai micǎ datǎ L şi se determinǎ plaja: R = H L. ii) Se alege numǎrul de clase m şi lǎţimea clasei c (dacǎ se poate numǎr impar) astfel ca produsul m c sǎ fie puţin mai mare ca plaja R. iii) Se alege un punct de plecare I care este puţin mai mic decât cea mai micǎ datǎ L. Adǎugǎm la I multiplii lui c (c este lǎţimea clasei) şi obţinem numerele: I, I + c, I + 2c, I + 3c,..., I + (m 1)c Aceste numere sunt limitele inferioare ale claselor. iv) Limitele superioare se stabilesc astfel încât sǎ fie respectate condiţiile 1) şi 2). v) Se determinǎ frecvenţa fiecǎrei clase numǎrând elementele din fiecare clasǎ. 13

5 Prezentarea datelor Prezentarea unui set de date poate fi fǎcutǎ sub diferite forme şi face parte din prelucrarea primarǎ a datelor. Prezentarea datelor sub formǎ de serii Definiţia 5.1. Seria de distribuţie este un ansamblu de douǎ şiruri finite dintre care primul este şirul elementelor distincte din setul de date statistice sau şirul claselor obţinute prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este şirul de frecvenţe corespunzǎtoare. Exemplul 5.1. În cazul setului de date statistice: 3 2 2 3 2 4 4 1 2 2 4 3 2 0 2 2 1 3 3 1 seria de distribuţie este: X ( 0 1 2 3 4 1 3 8 5 3 ) Exemplul 5.2. În cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obţinute prin gruparea datelor din setul de date: 82 74 88 66 58 74 78 84 96 76 62 68 72 92 86 76 52 76 82 78 seria de distribuţie este: ( 50 59 60 69 70 79 80 89 90 99 X 2 3 8 5 2 ) În general, o serie de distribuţie aratǎ în felul urmǎtor: ( x1 x X 2 x 3 x n f 1 f 2 f 3 f n ) şi oricare ar fi nivelul de grupare al datelor, x i având frecvenţa f i, se numeşte termenul seriei de distribuţie. Remarca 5.1. Adesea în prezentarea seriilor de distribuţie în locul frecvenţei f i foloseşte frecvenţa relativǎ: sau sub formǎ procentualǎ: f i = f i n j=1 f j f i = f i 100 se 14

Definiţia 5.2. Valoarea datei care apare cu cea mai mare frecvenţǎ într-o serie de distribuţie de date statistice se numeşte mod. Definiţia 5.3. Clasa cu cea mai mare frecvenţǎ într-o serie de distribuţie de date grupate se numeşte clasǎ modalǎ. Definiţia 5.4. Serie bimodalǎ este o serie de distribuţie de date grupate în care apar douǎ clase modale, separate de clase cu frecvenţǎ mai joasǎ. Definiţia 5.5. Frecvenţa cumulatǎ a unei clase este suma frecvenţelor tutror claselor cu valori mai mici (marca mai micǎ). Definiţia 5.6. Seria dinamicǎ (temporalǎ, cronologicǎ) este un şir dublu dintre care primul este şirul de valori ale variabilei de rǎspuns, iar cel de-al doilea şir este şirul de momente de timp la care variabila are aceste valori. În general, o serie dinamicǎ (temporalǎ) se noteazǎ astfel: ( ) x1 x X 2 x 3 x n t 1 t 2 t 3 t n Prezentarea datelor sub formǎ de tabele statistice Tabelele statistice sunt foarte variate şi se folosesc pentru ordonarea datelor statistice dintr-un set de date în vederea aplicǎrii metodelor de calcul şi de interpretare statisticǎ. În funcţie de numǎrul de caracteristici prezentate în tabel existǎ tabele simple, tabele cu dublǎ intrare, tabele pe grupe, etc. Prezentarea datelor sub formǎ graficǎ Existǎ mai multe metode de prezentare graficǎ a unui set de date statistice. Metoda de prezentare graficǎ este determinatǎ de tipul de date şi de ideea de prezentare. De la început trebuie sǎ fie clar cǎ existǎ mai multe cǎi de a dispune grafic anumite date statistice. Judecata analistului şi circumstanţele din jurul problemei joacǎ un rol major în alegerea modului de dispunere graficǎ a datelor statistice. Definiţia 5.7. Graficele de reprezentare a seriilor statistice fǎrǎ grupare se numesc diagrame. Definiţia 5.8. Diagrama cerc a seriei de distribuţie (fǎrǎ grupare) ( ) x1 x X 2 x 3 x n f 1 f 2 f 3 f n este un cerc împǎrţit în n sectoare de cerc S 1, S 2,..., S n astfel încât aria sectorului S i este egalǎ cu procente din aria cercului. f i = f i 100 n f j j=1 15

Exemplul 5.3. În cazul seriei de distribuţie din exemplul 5.1 ( ) 0 1 2 3 4 X 1 3 8 5 3 cercul se împarte în cinci sectoare având ariile egale cu 5%,, 15%, 40%, 25%, 15% din aria cercului Definiţia 5.9. Diagrama coloanǎ a seriei de distribuţie (fǎrǎ grupare): ( ) x1 x X 2 x 3 x n f 1 f 2 f 3 f n este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe axa Ox, iar înǎlţimile lor sunt f 1, f 2,..., f n Exemplul 5.4. În cazul seriei de distribuţie din exemplul 5.1: ( ) 0 1 2 3 4 X 1 3 8 5 3 diagrama coloanǎ este: 16

Definiţia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei de distribuţie (fǎrǎ grupare) ( ) x1 x X 2 x 3 x n f 1 f 2 f 3 f n este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe axa Oy, iar lungimile lor sunt f 1, f 2,..., f n. Exemplul 5.5. În cazul seriei de distribuţie din exemplul 5.1: ( ) 0 1 2 3 4 X 1 3 8 5 3 diagrama linie este: Definiţia 5.11. Histograma seriei de distribuţie cu grupare ( ) x1 x X 2 x 3 x n f 1 f 2 f 3 f n este un set de n dreptunghiuri care reprezintǎ clasele. Bazele acestor dreptunghiuri sunt egale (clasele au aceeaşi lǎţime) şi sunt aşezate pe axa Ox, iar înǎlţimile lor sunt f 1, f 2,..., f n. Exemplul 5.6. histograma este: În cazul seriei de distribuţie din exemplul 5.2: ( 50 59 60 69 70 79 80 89 90 99 X 2 3 8 5 2 ) 17

Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr de date diferite spre deosebire de diagrama coloanǎ. Remarca 5.3. O histogramǎ are urmǎtoarele componente: i) Un titlu care identificǎ populaţia la care se referǎ; ii) O scarǎ orizontalǎ pe care se identificǎ variabila X, valorile limitelor claselor, frontierele claselor, mǎrcile claselor. iii) O scarǎ verticalǎ pe care se identificǎ frecvenţele pentru fiecare clasǎ. Definiţia 5.12. O histogramǎ de frecvenţe relative este o histogramǎ obţinutǎ dintro histogramǎ înlocuind frecvenţele cu frecvenţe relative. Frecvenţa relativǎ (este o mǎsurǎ proporţionalǎ cu frecvenţa în cauzǎ) se obţine prin împǎrţirea frecvenţei clasei la numǎrul total de elemente din setul de date. Definiţia 5.13. Ogiva unei serii de distribuţie de clase cu frecvenţe relative cumulate este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale şi aşezate pe axa Ox, iar înǎţimile lor sunt frecvenţele relative cumulate. Ogiva are urmǎtoarele componente: 1. Un titlu care identificǎ populaţia. 2. O scarǎ orizontalǎ pe care sunt marcate frontierele superioare ale claselor. 3. O scarǎ verticalǎ pe care sunt marcate frecvenţele relative cumulate pentru fiecare clasǎ. 18

6 Parametrii şi statistici ai tendinţei centrale O categorie de caracteristici numerici asociaţi unui set de date statistice sunt: parametrii tendinţei centrale în cazul populaţiilor şi statistici ale tendinţei centrale în cazul eşantioanelor. Întrucât aceştia au definiţii analoage vom prezenta doar statistici ale tendinţei centrale. Definiţia 6.1. Statistici ale tendinţei centrale sunt valori numerice asociate unui set de date statistice care localizeazǎ într-un anumit sens mijlocul mulţimii de date statistice. Definiţia 6.2. Media aritmeticǎ a setului de date statistice {x 1, x 2,..., x n } este prin definiţie suma acestor date împǎrţitǎ la numǎrul datelor x = n i=1 Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ grupare în clase), media aritmeticǎ se gǎseşte cu formula: n x i x = m x j f j j=1 m j=1 f j Remarca 6.2. mediei este: În cazul unei serii de distribuţie (cu grupare în clase) formula de calcul a x fx x = fx în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. Definiţia 6.3. Media pǎtraticǎ a setului de date statistice {x 1, x 2,..., x n } este prin definiţie numǎrul: n x 2 i i=1 x p = n Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ grupare în clase), media pǎtraticǎ se gǎseşte cu formula: m x 2 j f j j=1 x p = m j=1 f j 19

Remarca 6.4. În cazul unei serii de distribuţie cu grupare în clase media pǎtraticǎ este prin definiţie: x2 f x x p = fx în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. Definiţia 6.4. Media armonicǎ a setului de date statistice {x 1, x 2,..., x n } este prin definiţie numǎrul: x h = n n 1 Remarca 6.5. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ grupare în clase), media armonicǎ se gǎseşte cu formula: x h = m j=1 i=1 m j=1 x i f j 1 x j f j Remarca 6.6. În cazul unei serii de distribuţie cu grupare în clase media armonicǎ este prin definiţie: n x h = i=1 n i=1 f x 1 x f x în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. Definiţia 6.5. Media geometicǎ a setului de date statistice {x 1, x 2,..., x n } este prin definiţie numǎrul: x p = n n Remarca 6.7. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ grupare în clase), media geometricǎ se gǎseşte cu formula: i=1 x i Remarca 6.8. În cazul unei serii de distribuţie cu grupare în clase media geometricǎ este prin definiţie: în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. 20

Definiţia 6.6. Mediana m e a unui set de date statistice distincte ordonate dupǎ mǎrime x 1 < x 2 <... < x n este numǎrul care împarte setul de date în douǎ grupe egale ca numǎr: - dacǎ n = 2 k + 1, atunci m e este valoarea de rangul k + 1: m e = x k+1 ; - dacǎ n = 2 k, atunci orice numǎr între valorile x k şi x k+1 satisface condiţia din definiţia lui m e. În acest caz se convine ca m e sǎ fie media aritmeticǎ a valorilor x k şi x k+1 : m e = x k + x k+1. 2 Exemplul 6.1. În cazul setului de date statistice: mediana este m e = 26. În cazul setului de date statistice: mediana este m e = 12 + 26 2 = 19. 4 7 12 26 32 38 59 4 7 12 26 32 38 Remarca 6.9. Mediana m e în acest caz are proprietatea cǎ suma frecvenţelor valorilor mai mari decât m e este egalǎ cu suma frecvenţelor valorilor mai mici decât m e. Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei poate sǎ nu fie adevǎratǎ. În cazul setului de date statistice: Seria de distribuţie corespunzǎtoare este: 1 1 1 2 3 3 4 1 2 3 4 3 1 2 1 Conform definiţiei lui m e în acest caz m e = 2, 5. Aceastǎ valoare a lui m e nu rǎspunde cerinţei cǎ m e este o valoare cu proprietatea cǎ valorile mai mari sau mai mici decât ea apar cu frecvenţe cumulate egale; frecvenţa celor mai mici este 4, iar frecvenǎ celor mai mari este 3. Remarca 6.11. Când datele sunt prezentate sub forma unei serii de distribuţie cu sau fǎrǎ grupare m e se calculeazǎ prin procedeul interpolǎrii liniare, bazate pe ipoteza repartiţiei uniforme a frecvenţelor în intervalul median. Definiţia 6.7. Mijlocul plajei este prin definiţie numǎrul: M r = L + H 2 unde L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X 21

7 Parametrii şi statistici ai dispersiei Dupǎ ce mijlocul unui set de date a fost stabilit urmǎtoarea întrebare naturalǎ este: care sunt parametrii şi statisticile care caracterizeazǎ dispersia (împrǎştierea) datelor. Parametrii şi statisticile dispersiei sunt: plaja, deviaţia medie absolutǎ, varianţa, deviaţia standard şi coeficientul de variaţie. Aceste valori numerice descriu mǎrimea împrǎştierii ori a variabilitǎţilor datelor. Datele strâns grupate vor avea împrǎştiere micǎ, iar cele care nu sunt grupate (sunt împrǎştiate) vor avea o dispersie mai mare. Definiţia 7.1. Plaja P este diferenţa dintre cea mai mare (H) şi cea mai micǎ (L) valoare a valorilor x i dintr-un set de date: P = H L Deviaţia medie absolutǎ, varianţa şi deviaţia standard mǎsoarǎ dispersia faţǎ de media aritmeticǎ. Definiţia 7.2. Deviaţia faţǎ de media aritmeticǎ x a valorii x i a variabilei X este d i = x i x. Deviaţia este zero dacǎ şi numai dacǎ x i = x. Deviaţia este pozitivǎ dacǎ şi numai dacǎ x i > x. Deviaţia este negativǎ dacǎ şi numai dacǎ x i < x. n S-ar putea crede cǎ suma deviaţilor (x i x) poate servi ca mǎsurǎ a dispersiei faţǎ de media aritmeticǎ. Dar aceastǎ sumǎ este zero întotdeauna: n (x i x) = i=1 i=1 n x i n x = n x n x = 0 i=1 Reducerea deviaţiilor poate fi eliminatǎ prin folosirea valorii absolute a deviaţiilor: x i x. Definiţia 7.3. Deviaţia medie absolutǎ a setului de date statistice distincte {x 1, x 2,..., x n } este prin definiţie: n x i x d = i=1 Remarca 7.1. Deviaţia medie absolutǎ, în cazul în care datele sunt prezentate sub forma unei serii de distribuţie fǎrǎ grupare de date se calculeazǎ cu formula: n d = m x j x f j j=1 m j=1 f j 22

Remarca 7.2. Deviaţia medie absolutǎ, în cazul în care datele sunt prezentate sub forma unei serii de distribuţie cu grupare de date se calculeazǎ cu formula: x x fx d = fx în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. Cu toate cǎ acest parametru al împrǎştierii nu se foloseşte frecvent, el este o mǎsurǎ a împrǎştierii şi aratǎ distanţa medie la care se aflǎ o valoare a variabilei X faţǎ de media aritmeticǎ. Mai existǎ o cale de eliminare a reducerii deviaţiilor. Ridicând la pǎtrat deviaţiile individuale acestea devin pozitive (sau zero). Când aceste pǎtrate sunt adunate rezultatul n este pozitiv. Suma pǎtratelor deviaţiilor faţǎ de media aritmeticǎ (x i x) 2 este folositǎ în definirea varianţei. Definiţia 7.4. Varianţa s 2 a setului de date statistice distincte {x 1, x 2,..., x n } este prin definiţie: n (x i x) 2 i=1 s 2 = n Remarca 7.3. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ grupare de date varianţa s 2 se calculeazǎ cu formula: m (x j x) 2 f j s 2 = j=1 m j=1 Remarca 7.4. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu grupare de date varianţa s 2 se calculeazǎ cu formula: (x x)2 f x f j i=1 s 2 = fx în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. Definiţia 7.5. Deviaţia standard (abaterea standard) s a setului de date statistice distincte {x 1, x 2,..., x n } este prin definiţie: s = 1 n (x i x) 2 2 n i=1 23

Remarca 7.5. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ grupare de date deviaţia standard s se calculeazǎ cu formula: s = 1 m (x j x) 2 2 f j m j=1 j=1 Remarca 7.6. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu grupare de date deviaţia standard s se calculeazǎ cu formula: f j 1 (x x)2 f x 2 s = fx în care x reprezintǎ marca clasei şi f x frecvenţa corespunzǎtoare, iar suma se extinde pe ansamblul claselor. Remarca 7.7. Deviaţia standard a fost definitǎ cu o formulǎ. Se poate pune întrebarea ce reprezintǎ ea în realitate? Un rǎspuns la aceastǎ întrebare poate fi dat cu inegalitatea lui Cebîşev din care rezultǎ cǎ pentru orice serie de distribuţie fracţiunea de date situatǎ la cel mult k unitǎţi de deviaţie standard faţǎ de medie este cel puţin 1 1, unde k este k 2 un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ în particular cǎ pentru orice serie de distribuţie fracţiunea de date situatǎ la cel mult k = 2 unitǎţi de deviaţie standard faţǎ de medie este de cel puţin 75% din totalul de date. Dacǎ k = 3 atunci este 89% din totalul de date. Conform regulii empirice dacǎ o serie de repartiţie este normalǎ atunci fracţiunea de date situate la cel mult o unitate de deviaţie standard σ faţa de medie este aproximativ 68%, iar fracţiunea de date situate la cel mult douǎ unitǎţi de deviaţie standard σ faţǎ de medie este aproximativ 95%. Definiţia 7.6. Coeficientul de variaţie V este prin definiţie: V = s x 100 Remarca 7.8. Coeficientul de variaţie este o statisticǎ relativǎ a dispersiei şi se foloseşte la compararea dispersiei diferitelor variabile (caracteristici). Remarca 7.9. V poate lua valori între 0 şi 100%. Dacǎ V este aproape de zero (V < 35%), atunci populaţia studiatǎ statistic este omogenǎ şi media x este reprezentativǎ pentru aceastǎ populaţie. Dacǎ V este aproape de 100% (V > 75%), atunci populaţia studiatǎ statistic este eterogenǎ şi media x nu este reprezentativǎ. De cele mai multe ori în asemenea cazuri este necesarǎ separarea populaţiei statistice în mai multe grupe omogene, care se studiazǎ separat. 24

8 Parametrii şi statistici factoriali ai varianţei În analiza varianţei unui set de date statistice se folosesc urmǎtorii parametrii factoriali ai varianţei: - varianţa de grupǎ (parţialǎ) s 2 j - media varianţelor de grupǎ s 2 - varianţa mediilor de grupǎ faţǎ de media generalǎ δ 2 - varianţa totalǎ (generalǎ) s 2. Definiţia 8.1. Pentru o grupǎ de m date x 1, x 2,..., x m, varianţa de grupǎ este definitǎ cu formula: m (x i x j ) 2 n ij s 2 j = i=1 m i=1 în care j este indicele grupei, x j este media grupei, x i sunt datele din grupa j având frecvenţele n ij Remarca 8.1. Varianţele de grupǎ sunt mai mici decât varianţa şi au valori mai mari sau mai mici în funcţie de eterogenitatea grupei. Definiţia 8.2. Prin definiţie media varianţelor de grupǎ este: n ij s 2 = k s 2 j n j j=1 k j=1 n j m în care k este numǎrul de grupe, n j = n ij este numǎrul de date din grupǎ. i=1 Definiţia 8.3. Varianţa mediilor de grupǎ faţǎ de media generalǎ este prin definiţie: k (x j x) 2 n j δ 2 = j=1 k j=1 n j 25

9 Parametrii şi statistici ale poziţiei Parametrii şi statistici ai poziţiei se folosesc pentru a descrie locaţia unei date în raport cu celelalte date. Definiţia 9.1. Quantilele sunt valori numerice care împart setul de date în q grupe egale. Constanta q se numeşte ordinul quantilei. Mediana este quantila de ordinul doi. Quantilele de ordinul patru împart setul de date în patru grupe egale şi se numesc quartile. Quartilele sunt în numǎr de trei, notate de obicei cu Q 1, Q 2, Q 3. Quartila Q 1 este un numǎr cu proprietatea cǎ o pǎtrime din date au valori mai mici decât Q 1 şi trei pǎtrimi din date au valori mai mari decât Q 1. Quartila Q 2 este un numǎr cu proprietatea cǎ jumǎtate din date au valori mai mici decât Q 2 şi jumǎtate din date au valori mai mari decât Q 2. Quartila Q 2 este chiar mediana. Quartila Q 3 este un numǎr cu proprietatea cǎ trei pǎtrimi din date au valori mai mici decât Q 3 şi o pǎtrime din date au valori mai mari decât Q 3. Alte categorii de quantile folosite sunt: - decilele care împart setul de date în 10 grupe egale. - centilele care împart setul de date în 100 grupe egale. - promilele care împart setul de date în 1000 grupe egale. Orice set de date are 99 de centile P k, k = 1..99. Centila P k este o valoare numericǎ cu proprietatea cǎ k% din date are valori mai mici decât P k, iar (100 k)% din date au valori mai mari decât P k. Remarca 9.1. Q 1 = P 25 ; Q 3 = P 75 ; m e = Q 2 = P 50 Remarca 9.2. Procedeul de determinare a centilei P k este urmǎtorul: 1) datele se ordoneazǎ crescǎtor; 2) trebuie gǎsitǎ poziţia i a centilei k. Prima oarǎ se determinǎ numǎrul n k 100, unde n este numǎrul de date. Dacǎ n k 100 întreg urmǎtor ( n k 100 este n k 100 i = 23.5). + 0.5 (n k 100 = 23 nu este un numǎr întreg, atunci i este numǎrul = 17.2 i = 18). Dacǎ n k 100 este un numǎr întreg, atunci i 3) localizarea valorii P k : se numǎrǎ de la valoarea L (cea mai micǎ valoare a datelor) i valori dacǎ i este întreg. Dacǎ i nu este întreg atunci este un întreg plus o jumǎtate. În acest caz valoarea P k este semisuma datelor de pe locurile n k 100 şi n k 100 + 1 O statisticǎ adiţionalǎ a poziţiei este scorul standard sau z-scor. 26

Definiţia 9.2. Scorul standard sau z-scorul este poziţia valorii x faţǎ de mediana x în unitǎţi de deviaţie standard: z = x x s 27

10 Seria de distribuţie a statisticilor de eşantioane Pentru a face inferenţǎ (predicţie) asupra parametrilor populaţiei, este necesar sǎ analizǎm statisticile de eşantioane. Media x în cazul unui eşantion nu este neaparat egalǎ cu media µ a populaţiei. Suntem însǎ mulţumiţi dacǎ media x este apropiatǎ de µ. Dacǎ se considerǎ media x în cazul unui al doilea eşantion aceasta poate sǎ fie diferitǎ de x şi de µ. Ceea ce putem spera este ca aceasta sǎ fie apropiatǎ de valoarea µ şi de x. Valabilitatea acestui tip de comportament intereseazǎ pentru orice populaţie şi orice statisticǎ. Întrebarea care se naşte în mod natural este ce înseamnǎ aproape? Cum se mǎsoarǎ şi se determinǎ aceastǎ apropiere? Care este seria de distribuţie a statisticilor de eşantioane? Definiţia 10.1. Seria de distribuţie a statisticilor de eşantioane este seria de distribuţie a statisticilor de un anumit tip obţinute pentru eşantioane de aceeaşi mǎrime. Tipul de statisticǎ poate fi oricare din statisticile prezentate în secţiunile 6 şi 7. Exemplul 10.1. Se considerǎ o populaţie de N elemente de la care se pot obţine urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populaţii formǎm eşantioane de mǎrime 2 de la care putem avea urmǎtoarele date statistice: Pentru aceste eşantioane mediile x sunt: (0, 0) (2, 0) (4, 0) (6, 0) (8, 0) (0, 2) (2, 2) (4, 2) (6, 2) (8, 2) (0, 4) (2, 4) (4, 4) (6, 4) (8, 4) (0, 6) (2, 6) (4, 6) (6, 6) (8, 6) (0, 8) (2, 8) (4, 8) (6, 8) (8, 8) 0 1 2 3 4 1 2 3 4 5 2 3 4 5 6 3 4 5 6 7 4 5 6 7 8 Eşantioanele fiind aleatoare fiecare eşantion, are probabilitatea 1/25 sǎ fie ales şi seria de distribuţie a mediilor acestor eşantioane este: x f (x) 0 0.04 1 0.08 2 0.12 3 0.16 4 0.20 5 0.16 6 0.12 7 0.08 8 0.04 unde f (x) este frecvenţa relativǎ a mediei x. Diagrama coloanǎ a mediilor eşantioanelor este: 28

Pentru acelaşi set de 25 de eşantioane putem determina seria de distribuţie a plajelor R a acestor eşantioane. Plajele R ale eşantioanelor sunt date în tabelul urmǎtor: 0 2 4 6 8 2 0 2 4 6 4 2 0 2 4 6 4 2 0 2 8 6 4 2 0 Seria de distribuţie a plajelor acestor eşantioane este: R f (R) 0 0.20 2 0.32 4 0.24 6 0.16 8 0.08 iar diagrama coloanǎ a plajei eşantioanelor este: 29

Exemplul 10.2. În cazul aruncǎrii zarului de un numǎr de N ori, setul de date statistice care se referǎ la numǎrul de pe faţǎ care apare este 1, 2, 3, 4, 5, 6. Formǎm eşantioane care constau din 5 aruncǎri. Fiecare din aceste eşantioane are media x. Considerǎm 30 de eşantioane de acest fel (înseamnǎ 30 5 = 150 aruncǎri) şi într-un tabel reprezentǎm rezultatele precum şi mediile corespunzǎtoare: Încercare Eşantion x Încercare Eşantion x 1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2 2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6 3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8 4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0 5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6 6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8 7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2 8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6 9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8 10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4 11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4 12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0 13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0 14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8 15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2 Histograma seriei de distribuţie a mediilor celor 30 de eşantioane este reprezentatǎ în figura urmǎtoare: 30

Aceastǎ lege de repartiţie pare sǎ aibe caracteristicile unei legi de repartiţie normalǎ; este maxim şi este simetric faţǎ de media proprie 3.5. 31

11 Teorema limitǎ centralǎ În secţiunea precedentǎ am prezentat seria de distribuţie a mediei şi plajei unui set de eşantioane. Media este statistica folositǎ cel mai frecvent în cazul eşantioanelor şi de aceea este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria de distribuţie a mediei tuturor eşantioanelor aleatoare de aceeaşi mǎrime n. Sǎ formulǎm ce anume intereseazǎ în cazul acestei serii de distribuţie: 1) Unde este centrul datelor? 2) Cât de mare este dispersia datelor? 3) Care este caracterul seriei de distribuţie? Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei întrebǎri. Teorema 11.1. Teorema limitǎ centralǎ Fie µ media şi σ deviaţia standard a unei variabile în cazul unei populaţii. Dacǎ se considerǎ toate eşantioanele aleatoare de mǎrime n din aceastǎ populaţie, atunci seria de distribuţie a mediilor acestor eşantioane are urmǎtoarele proprietǎţi: a) media µ x a acestei serii de distribuţie este egalǎ cu µ; b) deviaţia standard σ x a acestei serii de distribuţie este σ n. c) dacǎ seria de distribuţie a variabilei în cazul populaţiei este normalǎ, atunci seria de distribuţie a mediilor eşantioanelor este normalǎ; dacǎ seria de distribuţiei a variabilei în cazul populaţiei nu este normalǎ, atunci seria de distribuţie a mediilor eşantioanelor este aproximativ normalǎ pentru eşantioane de mǎrime mai mare ca 30. Tendinţa cǎtre o serie de distribuţie normalǎ creşte dacǎ mǎrimea eşantionului creşte. Pe scurt, teorema limitǎ centralǎ stabileşte urmǎtoarele: 1) µ x = µ, unde x este media eşantionului x; 2) σ x = σ/ n, deviaţia standard a mediei este egalǎ cu deviaţia standard a populaţiei împǎţitǎ cu rǎdǎcina pǎtratǎ a mǎrimii eşantionului. 3) seria de distribuţiei a mediei eşantioanelor este aproximativ normalǎ indiferent de seria de distribuţiei a variabilei în cazul populaţiei. Remarca 11.1. Deviaţia standard σ x a seriei de distribuţie a mediilor eşantioanelor este deviaţia standard a mediilor eşantioanelor faţǎ de media seriei de distribuţie a eşantioanelor. Nu vom face demonstraţie teoremei limitǎ centralǎ. Vom ilustra însǎ validitatea ei examinând un caz ilustrativ. 32

Considerǎm o populaţie pentru care seria de distribuţie de date statistice cu frecvenţe relative în cazul variabilei X este: ( ) 2 4 6 X : 1/3 1/3 1/3 Media µ şi deviaţia standard σ pentru aceastǎ variabilǎ sunt: ( 3 µ = x j f x j σ = 3 3 ) 2 x 2 j f x j x j f x j j=1 j=1 j=1 µ = 12 3 = 4 σ = 1, 63 În cazul acestei populaţii oricare eşantion de mǎrime doi are urmǎtoarele date posibile: Eşantioanele au urmǎtoarele medii: (2, 2) (2, 4) (2, 6) (4, 2) (4, 4) (4, 6) (6, 2) (6, 4) (6, 6) 2 3 4 3 4 5 4 5 6 Eşantion Media (2,2) 2 (2,4) 3 (2,6) 4 (4,2) 3 (4,4) 4 (4,6) 5 (6,2) 4 (6,4) 5 (6,6) 6 Eşantioanele fiind aleatoare fiecare eşantion are probabilitatea 1 sǎ fie ales şi seria de 9 distribuţie a mediilor eşantioanelor este: ( ) 2 3 4 5 6 X 1/9 2/9 3/9 2/9 1/9 Media seriei de distribuţie a mediilor eşantioanelor µ x este µ x = 36/9 = 4, 0. Prin urmare µ = µ x, iar deviaţia standard a repartiţiilor mediilor eşantioanelor este: ( σ x = 5 5 ) 2 ( ) 2 x 2 j f x j x j f 156 36 x j = 9 = 1, 15 9 σ n = j=1 1, 63 2 = j=1 1, 63 1, 44 = 1, 15 = σ x Reprezentând seria de distribuţie a mediilor eşantioanelor obţinem: 33

Aceastǎ diagramǎ aratǎ cǎ seria de distribuţie a mediilor eşantioanelor este normalǎ. 34

12 O aplicaţie a teoremei limitǎ centralǎ Teorema limitǎ centralǎ oferǎ informaţii asupra seriei de distribuţie a mediilor eşantioanelor descriind forma repartiţiei mediilor tuturor eşantioanelor (aproape normalǎ). Ea stabileşte relaţia dintre media µ a populaţiei şi media µ x a seriei de distribuţie a mediilor tuturor eşantioanelor şi relaţia dintre deviaţia standard σ a populaţiei şi deviaţia standard σ x a seriei de distribuţie a mediilor eşantioanelor. Deoarece seria de distribuţie a mediilor eşantioanelor este aproape normalǎ putem stabili legǎturi probabiliste dintre media populaţiei şi media unui eşantion. Exemplul 12.1. Considerǎm o populaţie normalǎ cu µ = 100 şi σ = 20. Dacǎ se alege un eşantion aleator de mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui eşantion sǎ fie între 90 şi 110? Altfel spus, cât este P (90 < x < 110)? Soluţie: Conform teoremei limitǎ centralǎ repartiţia valorilor medii ale eşantioanelor este normalǎ. Prin urmare va trebui sǎ transformǎm condiţia P (90 < x < 110) într-o condiţie care sǎ permitǎ folosirea tabelului de distribuţie normalǎ standard. Aceasta se face scriind: ( ) ( ) 110 µx 90 µx P (90 < x < 110) = Φ Φ = unde Φ(X) = 1 2π ( ) ( ) ( ) ( ) 110 100 10 10 10 = Φ Φ = 2 Φ 1 = F X σ x σ x σ x e 1 2 t2 dt şi F (X) = Φ(X) 1 2. Deoarece σ x = σ n, avem σ x = 20 16 = 5 şi astfel obţinem: σ x σ x σ x P (90 < x < 110) = 2 Φ(2) 1 = 2F (2) = 0.9544 Efectul creşterii dimensiunii n a eşantionului nu afecteazǎ µ x = µ şi micşoreazǎ σ x. Prin urmare P (90 < x < 110) creşte, dacǎ n creşte. Exemplul 12.2. Înǎlţimea copiilor la o grǎdiniţǎ are o distribuţie normalǎ având o medie µ = 100 cm cu o deviaţie standard de 12, 5 cm. Pentru un eşantion aleator de 25 de copii se determinǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie între 90 cm şi 110 cm? Soluţie: ( ) 10 P (90 < x < 110) = 2 Φ 1 = 2 Φ(4) 1 = 2 F (4) = 2 0.499968 σ x 35