Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015

Statistică descriptivă Distribuția normală Estimare Călinici Tudor 2015

Obiective educaționale Enumerarea caracteristicilor distribuției normale Enumerarea principiilor inferenței statistice Calculul intervalului de încredere pentru medie și frecvență în cazul eșantioane mari Definirea conceptului de test statistic

Distribuția normală Normal?

Parametrii de normalitate Asimetria Boltirea

Asimetria

Boltirea

Verificarea normalității în eșantion Parametrii de statistică descriptivă care indică distribuția normală: Media, modulul și mediana au valori identice sau apropiate Modulul este apropiat de centrul distribuției Populația este omogenă Asimetria aproape de 0 Boltirea aproape de 0 Histograma aduce cu forma de clopot 7

Abaterea standard în condiții normale Intervalul medie±abatere standard 68% din observaţii Intervalul medie±2*abatere standard 95% din observaţii Intervalul medie±3*abatere standard 99,7% din observaţii Valorile care nu se regăsesc în intervalele de mai sus se numesc valori aberante

ESTIMAREA PARAMETRILOR STATISTICI 9

Principii generale În studiul într-o populaţie P a parametrilor a unei caracteristici oarecare (cantitative sau calitative) adesea este necesar să se urmeze procedeul: 1. Se extrage un eşantion reprezentativ al acestei populaţii. 2. Prin mijloacele statisticii descriptive se descrie distribuţia caracteristicii pe eşantionul extras la etapa 1, fiindcă talia acestuia permite o investigare exhaustivă a sa. Astfel se poate determina frecvenţa observată, dacă este vorba de o caracteristică calitativă, sau se calculează media şi variaţia, în cazul unei caracteristici cantitative. 3. Prin mijloacele statisticii inferenţiale sau inductive se extind la întreaga populaţie rezultatele observate pe eşantion. Adică, pornind de la parametrii observaţi (frecvenţa, media, variaţia, etc) pe eşantion se încearcă să se estimeze parametrii teoretici ai întregii populaţii. 10

Principii generale Cazul unei variabile X calitative Frecvenţa teoretică p a variabilei X în populaţia P este necunoscută. Din populaţia P se extrage la întâmplare eşantionul E reprezentativ. In eşantionul E pentru variabila X se observă o frecvenţă f. Se încearcă să se estimeze valoarea necunoscută a lui p cu ajutorul lui f observat. 11

Principii generale Cazul unei variabile X cantitative Media teoretică a variabilei X ca şi variaţia sa teoretică 2 în populaţia P sunt necunoscute. Din populaţia P se extrage la întâmplare eşantionul E reprezentativ. In eşantionul E pentru variabila X se observă o medie m şi o variaţie s 2. Se încearcă să se estimeze valorile necunoscute ale lui şi 2 cu ajutorul lui m şi s 2 observate. 12

Principii generale Eşantionare Variabile calitative FRECVENŢA Calculul caracteristicii Variabile cantitative MEDIA MEDIANA MODULUL Inferenţă 13

ESTIMAREA PUNCTUALĂ Calităţile unui estimator: corectitudinea estimării obţinute, precizia acesteia. 14

Estimator fără bias Fie T estimarea punctuală a unui parametru teoretic al unei populaţii. T este o variabila aleatoare, valorile fiind tributare eşantionului pe baza căruia se calculează. Estimatorul T se spune că este fără bias dacă speranţa matematică a lui T este egală cu valoarea adevărată (teoretică) a parametrului estimat adică M(T) =. Se spune în acest caz că estimarea dată de T este corectă. 15

ESTIMAREA PUNCTUALĂ Proprietăţi ale estimatorilor medie si frecventa: P1. Speranţa matematică a mediilor observate, m, pe eşantioane extrase aleator este egală cu media teoretică a populaţiei din care sau extras eşantioanele, medie considerată pentru valorile unei variabile cantitative luată în studiu: M(m) =. P2. Speranţa matematică a frecvenţelor observate, f, pe eşantioane extrase aleator este egală cu frecvenţa teoretică p a populaţiei din care sau extras eşantioanele, frecvenţă considerată pentru valorile unei variabile calitative luată în studiu: M(f) = p. Din P1 şi P2 rezultă că m şi f sunt estimatori fără bias şi că estimările realizate cu ajutorul lor sunt corecte. 16

ESTIMAREA PUNCTUALĂ P3. Speranţa matematică a variaţiilor descriptive observate s 2 pe eşantioane de talie n, extrase aleator este diferită de variaţia teoretică 2 a populaţiei din care sau extras eşantioanele Se definește variația punctuală de eșantionare ca S 2 = n (x i x ) 2 i=1 n 1 P4. Variaţia punctuală de eşantionare este un estimator fără bias pentru 2 : 17

Concluzie Media, frecvenţa şi variaţia de eşantionare observate pe eşantioane corect extrase (reprezentative) dintr-o populaţie P sunt estimatori fără bias ale mediei, frecvenţei şi respectiv variaţiei teoretice ale populaţiei P 18

ESTIMAREA CU INTERVALE DE INCREDERE Un estimator că este cu atât mai eficace cu cât variaţia sa este mai mică, sau precizia sa depinde de mărimea variaţiei sale. Estimarea punctuală a unui parametru teoretic furnizează o valoare pentru parametrul teoretic estimat. Valoarea sa este tributară fluctuaţiilor de eşantionare şi poate fi la o mare distanţă de valoarea reală a parametrului estimat. Este recomandabil să se estimeze un parametru teoretic nu printr-o singură valoare ci printr-un interval, numit interval de încredere, în care să se poată afirma că parametrul estimat se găseşte cu o probabilitate ridicată. 19

ESTIMAREA CU AJUTORUL INTERVALULUI DE INCREDERE Intervalul de încredere este un interval mărginit de valori (limitele poartă numele de limite de încredere) care include media caracteristicii studiate. Cu cât intervalul este mai larg cu atât suntem mai siguri că media caracteristicii studiate se va regăsi în acel interval. Mărimea încrederii, confidenţa, este dată de probabilitatea ca valoarea (valorile) studiate să se găsească în acel interval. 20

ESTIMAREA UNEI MEDII: EŞANTIOANE MARI N>=30 Intervalul de încredere pentru media cu pragul de semnificaţie este s, s m Z m Z n 1 n 1 Cel mai frecvent se utilizează un prag de semnificaţie = 0.05. Atunci Z =1.96 şi deci intervalul de încredere cel mai utilizat în cazul eşantioanelor mari este m 1,96 s, m 1,96 s n 1 n 1 21

Eroarea de eşantionare a mediei Creşterea erorii standard=> Scăderea acurateţii mediei eşantionului de a estima caracteristica unei populaţii Scăderea erorii standard=> Creşterea acurateţii mediei eşantionului de a estima caracteristica unei populaţii 22

ESTIMAREA UNEI FRECVENȚE Eșantioane mari nf, n(1-f)>=10 f(1-f) f Z, f Z n f(1-f) n f este frecvența relativă observată Cel mai frecvent se utilizează un prag de semnificaţie = 0.05. Atunci Z =1.96 23

Teste statistice

Ipoteze Formularea de noi ipoteze (sau modele sau teorii) este una dintre cele mai importante aspecte ale cercetării ştiinţifice. Aceste ipoteze încercă să descrie sau să explice anumite fenomene reale. In multe cazuri există ipoteze anterioare (descrieri sau explicaţii) pe care oamenii de ştiinţă doresc să le înlocuiască cu altele noi Pentru a fi valabile, ipotezele trebuie să fie testate

Populaţie - eşantion Atunci cînd o investigaţie de tip statistic se efectuează pe un eşantion, orice rezultat obţinut are o valoare relativă, în sensul că datele respective nu numai că nu coincid cu cele referitoare la populaţie, dar nici măcar nu se poate afirma cu certitudine care este diferenţa dintre cele două genuri de date, de vreme ce starea populaţiei este, de regulă, necunoscută.

Ipoteza statistică Prin urmare, asupra populaţiilor studiate selectiv nu se pot emite judecăţi cu valoare de certitudine, ci se pot exprima nişte supoziţii care poartă denumirea de ipoteze statistice. Testarea ipotezelor statistice înseamnă supunerea ipotezelor unor probe, numite teste statistice, operaţie în urma căreia ipoteza se respinge sau se acceptă. O asemenea decizie are întotdeauna la bază calculul intervalului de confidenţă ce corespunde unui prag de semnificaţie ales

Test statistic - concept Testarea unei ipoteze statistice se face prin compararea a două ipoteze concurente: Ipoteza nulă modelul pe care cercetătorul doreşte să îl înlocuiască Ipoteza alternativă noul model, menit să înlocuiască ipoteza nulă Exemplu de ipoteză statistică: Populaţia X este diferită de populaţia Y din punct de vedere al...

Scopul testului statistic Scopul testului statistic este de a dovedi că ipoteza nulă este falsă. Rezultatul testului Nu putem afirma că acceptăm ipoteza nulă O putem sau nu nega

Etapele unui test statistic Definirea ipotezelor Alegerea unui prag de semnificaţie Efctuarea testului Luarea deciziei

Formularea problemelor în termenii ipotezelor statistice Definirea ipotezei nule testul se desfăşoară sub prezumţia că ipoteza nulă ar fi adevărată Definirea diferenţei alternative - numită şi ipoteză de lucru contrazice ipoteza nulă

Alegerea pragului de semnificaţie Pragul (nivelul) de semnificaţie reprezintă mărimea riscului de eroare pe care cercetătorul este dispus să îl accepte, implicit să şi-l asume De obicei se alege un nivel de semnificaţie între 1 şi 5%

Decizia P Probability Nivelul minim de semnificaţie - teoretic - pentru care se poate respinge ipoteza nulă Este specific aplicării testelor cu ajutorul software-ului statistic

Interpretare 0,01 p 0,05 rezultate semnificativ statistice 0,001 p < 0,01 rezultate înalt semnificativ statistice p<0,001 - rezultate foarte înalt semnificativ statistice p>0,05 rezultate nesemnificativ statistice 0,05< p 0,1 tendinţă către semnificaţie statistică

Concluzie test statistic în funcţie de semnificaţia statistică Ipoteza nulă poate fi negată dacă rezultatul testului are cel puţin semnificaţie statistică Dacă rezultatul testului nu are cel puţin semnificaţie statistică, ipoteza nulă nu poate fi negată

Erori în testele statistice Adevăr H 0 adevărată H 0 Falsă Rezultat H 0 se respinge H 0 nu se respinge Eroare tip I (α) Corect Corect Eroare tip II (β)

Eroarea de tip I = H 0 este respinsă deşi este adevărată Am concluzionat că există reale diferenţe deşi acestea sunt datorate şansei Concluzionăm că un tratament este eficient pe baza unei interpretări greşite

Eroarea de tip II = H 0 este nu este respinsă deşi este falsă Am concluzionat că există diferenţele observate sunt datorate şansei atunci când acestea apar datorită diferenţelor dintre eşantioane Am putea abandona un tratament pe care tocmai îl testăm sau o direcţie de cercetare Puterea testului = 1-probabilitatea apariţiei unei erori de tip II

Teste statistice - clasificări Parametrice de semnificaţie Pentru indicatori ai caracteristicilor cantitative medie, variaţie, coeficient de corelaţie, abatere standard, etc. Neparametrice de concordanţă Pentru caracteristici calitative distribuţii de frecvenţe, coeficienţi de asociere

Întrebări S-a măsurat tensiunea arterială într-un eșantion de 101 persoane, s-a obținut media 115 cu o deviație standard 15. Datele sunt normal distribuite. Cu aproximație, numărul de persoane cu tensiunea în intervalul 100 115 este: A. 50 B. 34 C. 68 D. 95 E. 12

Întrebări S-a măsurat tensiunea arterială într-un eșantion de 101 persoane, s-a obținut media 115 cu o deviație standard 15. Cu o probabilitate de 95%, media tensiunii în populația din care s-a extras eșantionul este: A. [100, 130] B. [112,118] C. [95,105] D. [85,145] E. [101, 115]

Întrebări Un cercetător dorește să verifice posibila asociere dintre expunerea la câmpuri electromagnetice și apariția unor forme de cancer. Sub ipoteza nulă cum că expunerea la câmpuri electromagnetice nu infulențează apariția cancerului, cu un prag de semnificație de 5% rezultatul testului statistic a fost p=0,002. Atunci: A. Nu se poate stabili faptul că expunerea la câmpurile electromagnetice influențează apariția cancerului B. Expunerea la câmpurile electromagnetice influențează apariția cancerului, afirmație făcută cu o probabilitate de 95% C. Expunerea la câmpurile electromagnetice influențează apariția cancerului, afirmație făcută cu o probabilitate de 99,8% D. Se poate respinge ipoteza nulă E. Testarea ipotezelor statistice este o tehnică experimentală, nu se poate aplica la o problemă practică

Vă mulţumesc pentru atenţie