Indicatori sintetici ai distribuțiilor statistice

Σχετικά έγγραφα
Statistica descriptivă

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

Curs 4 Serii de numere reale

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Variabile statistice. (clasificare, indicatori)

Metode iterative pentru probleme neliniare - contractii

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

STATISTICĂ DESCRIPTIVĂ

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

8 Intervale de încredere

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

Curs 1 Şiruri de numere reale

MARCAREA REZISTOARELOR

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

Subiecte Clasa a VIII-a

CURSUL AL IV-LEA. Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni, pe clase din 5kg în 5kg

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Integrala nedefinită (primitive)

NOTIUNI DE BAZA IN STATISTICA

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice


Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Subiecte Clasa a VII-a

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Scoruri standard Curba normală (Gauss) M. Popa

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

5.4. MULTIPLEXOARE A 0 A 1 A 2

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

Aplicaţii ale principiului I al termodinamicii la gazul ideal

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

Curs 2 Şiruri de numere reale

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

5 Statistica matematică

riptografie şi Securitate

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

Sisteme diferenţiale liniare de ordinul 1

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

3.5. Indicatori de împrăştiere

Statisticǎ - curs 2. 1 Parametrii şi statistici ai tendinţei centrale 2. 2 Parametrii şi statistici ai dispersiei 5


V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Metode de interpolare bazate pe diferenţe divizate

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

Problema a II - a (10 puncte) Diferite circuite electrice

3.2. Sinteza numerică univariată Indicatori de tendinţă centrală

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

Laborator 11. Mulţimi Julia. Temă

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

Aparate de măsurat. Măsurări electronice Rezumatul cursului 2. MEE - prof. dr. ing. Ioan D. Oltean 1

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

4. Măsurarea tensiunilor şi a curenţilor electrici. Voltmetre electronice analogice

LUCRAREA DE LABORATOR Nr. 9 DETERMINAREA EXPERIMENTALÃ A DISTIBUŢIEI DIMENSIUNILOR EFECTIVE ÎN INTERIORUL CÂMPULUI DE ÎMPRÃŞTIERE

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

Statistica descriptivă (continuare) Şef de Lucrări Dr. Mădălina Văleanu

Progresii aritmetice si geometrice. Progresia aritmetica.

Profesor Blaga Mirela-Gabriela DREAPTA

Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015

Subiecte Clasa a V-a

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Asupra unei inegalităţi date la barajul OBMJ 2006

9 Testarea ipotezelor statistice

CIRCUITE INTEGRATE MONOLITICE DE MICROUNDE. MMIC Monolithic Microwave Integrated Circuit

a. 11 % b. 12 % c. 13 % d. 14 %

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

DistributiiContinue de Probabilitate Distributia Normala

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

Să se arate că n este număr par. Dan Nedeianu

6 n=1. cos 2n. 6 n=1. n=1. este CONV (fiind seria armonică pentru α = 6 > 1), rezultă

Mihai Orzan joi, 19:30, sala 1406

Statisticǎ - notiţe de curs

5.1. Noţiuni introductive

Esalonul Redus pe Linii (ERL). Subspatii.

Criptosisteme cu cheie publică III

V O. = v I v stabilizator

Principiul Inductiei Matematice.

Proiectarea filtrelor prin metoda pierderilor de inserţie

Câmp de probabilitate II

Cursul 6. Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT

Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1)

Seminar 5 Analiza stabilității sistemelor liniare

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

ECO-STATISTICA-NOTITZZE DE LABORATOR

3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003

a. Caracteristicile mecanice a motorului de c.c. cu excitaţie independentă (sau derivaţie)

Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

CURS: METODE EXPERIMENTALE ÎN FCS

Transcript:

Indicatori sintetici ai distribuțiilor statistice

STATISTICA DESCRIPTIVĂ observarea Obiective: organizarea descrierea datelor sintetizarea

1. Populație 2. Eșantion 3. Caracteristica observată Tabel de evidență primară Repartiția de frecvență HISTOGRAMA!!!!! Indicatori sintetici

Ce ne spune HISTOGRAMA? Este un grafic care dă informaţii despre repartizarea valorilor dintr-o serie de valori Greutate corporală la 1014 pacienţi cu diferite afecţiuni:pe clase din 5kg în 5kg (http://www.umfcv.ro/files/b/i/biostatistica%20mg%20-%20cursul%20iv.pdf) Modul cum cresc barele este diferit de modul cum descresc. - asimetria - asimetrie la dreapta. Dacă indivizii de la care s-au cules datele ar fi fost normali, histograma ar fi avut un aspect mai simetric.

Ca regulă generală, este bine să se reţină că: Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă histograme cu 2-4 clase. Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative. Se recomandă: Pentru câteva zeci de valori, să se aleagă maximum 6 8 clase Pentru câteva sute de valori, să se aleagă între 10 şi 15 clase Pentru câteva mii de valori, să se aleagă peste 15 clase. O histogramă reprezintă informaţia dintr-o serie de valori cu pierdere de informaţie. Se pierde cu atât mai multă informaţie cu cât sunt mai puţine clase. Se pierde cu atât mai multă informaţie cu cât clasele au lungimi mai mari.

Nu se recomandă folosirea a mai mult de 20 30 de clase decât în cazuri speciale, în studii cu multe mii de cazuri. folosirea a mai puţin de 4 6 clase. folosirea histogramelor dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face o histogramă

INDICATORII STATISTICI Statistica descriptivă - obiective Cum se prezintă valorile unei distribuţii? Cât de apropiate sunt unele de altele? Cât de diferite sunt unele de altele? Există valori care reprezintă întreaga distribuţie?

Ce sunt???? INDICATORI SINTETICI sunt descriptori numerici care condensează într-o valoare unică o anumită caracteristică a unei întregi distribuţii de valori

Categorii de indicatori 1. Indicatori ai tendinţei centrale valori tipice, reprezentative, care descriu distribuţia în întregul ei 2. Indicatori ai împrăştierii descriu caracteristica de împrăştiere a valorilor distribuţiei 3. Indicatori ai formei distribuţiei se referă la forma curbei de reprezentare grafică a distribuţiei

Indicatorii tendinţei centrale 1. valoarea medie; 2. valoarea mediana ; 3. valoarea dominanta (modulul); 4. Cuartilele.

Indicatorii tendinţei centrale - MEDIA Media este cea mai importantă şi totodată cea mai populară măsură a tendinţei centrale a unei distribuţii. MEDIA DE SONDAJ (Sample Mean) este un indicator care caracterizează un eşantion (o populaţie) din punctul de vedere al unei caracteristici studiate. MEDIA POPULAŢIEI (Population Mean) este media numerelor dintr-o populaţie numerică. Această valoare este un parametru al populaţiei, spre deosebire de media calculată dintr-un eşantion, care este doar o estimaţie a parametrului. Media aritmetică Media aritmetică ponderată Media geometrică

MEDIA ARITMETICĂ (m) Se calculează ca sumă a tuturor valorilor observate ale seriei de date împărţită la numărul de observaţii x x1 x2... x n Notaţii uzuale: (miu), atunci când este media întregii populaţii de referinţă ( x barat) sau m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent) n n i1 n x i

MEDIA ARITMETICĂ Exemplu: Pentru distribuţia 5,8,3,2,5,4 m N X 5 8 3 6 2 5 4 26 6 4,50 Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4 2 2 3 4 4 2 5 2 8 1 m = 2 2 + 3 4 + 4 2 + 5 2 + 8 1 2 + 4 + 2 + 2 + 1 = 42 11 = 3,81

Determinarea mediei în cazul datelor grupate Intervalul (i) Centrul i (x) Frecventa (fi) x * f 3-5 4 2 8 6-8 7 3 21 9-11 10 5 50 12-14 13 5 65 15-17 16 9 144 18-20 19 10 190 21-23 22 6 132 24-26 25 4 100 27-29 28 2 56 30-32 31 1 31 m = x i f i f i = 31 1 + 28 2 + + 4 2 1 + 2 + 4 + 2 = 797 47 = 16,96 Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu date grupate:

Proprietăţile mediei aritmetice Adăugarea/scăderea unei constante la fiecare valoare a distribuţiei, măreşte / scade media cu acea valoare Înmulţirea/împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică divide media cu acea constantă Suma abaterii valorilor de la medie este întotdeauna egală cu zero Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei

Proprietățile mediei

Media arithmetică ponderată Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4 2 2 3 4 4 2 5 2 m ( X * f f ) 5* 2 8*1 3*4 2*2 4*2 2 1 4 2 2 43 11 3,90 8 1

Media geometrică Se utilizează în cazul unor repartiţii de frecvenţe care reprezintă un caracter cu ritm de creştere uniform, (cum este cel al diviziunii celulare), sau pentru aflarea unor valori intermediare, valori ce se succed în ritm mai mult geometric (deci înmulţindu-se) decât aritmetic (deci adăugându-se) x geom n x x * x *...* * 1 2 3 x n n x i

Media geometrică Ex1: În urma unui experiment sau găsit 10 de cazuri pozitive în prima zi şi 1000 de cazuri pozitive în a treia zi. Care este media? x 10 1000 2 1010 : 2 505 x geom 2 10*1000 2 10000 100

MODUL (Mo) sau valoarea dominantă Definiție: MODUL sau VALOAREA DOMINANTĂ este valoarea sau clasa de interval a caracteristicii cu frecvența cea mai mare de apariție. Se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea căreia îi corespunde frecvenţa absolută cea mai ridicată. Distribuţii unimodale (583254 Mo=5) Distribuții bimodale (5832254 Mo=5; =2) Distribuții multimodale (58832254 Mo=5; =2; =8)

Exemplu: În seria de valori 5,8,3,2,5,4, Mo=5 (apare de cele mai multe ori) x n 2 1 3 1 4 1 5 2 8 1

Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. Intervalul Frecventa Intervalul Frecventa 3-5 (4) 2 18-20 (19) 10 6-8 (7) 3 21-23 (22) 6 9-11 (10) 5 24-26 (25) 4 12-14 (11) 5 27-29 (28) 2 15-17 (16) 9 30-32 (31) 1 În cazul nostru, acest interval este 18-20 în interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo = 19.

Caracteristicile modului: - nu ține seama decât de masurile cele mai reprezentative; - necesită ordonarea datelor - corespunde unuia sau mai multor elemente ale seriei (în caz de frecvente egale).

MEDIANA (Me) Mediana undei serii statistice ordonate este valoarea care împarte șirul ordonat al valorilor variabilei în două parți, fiecare parte conținând acelasi numar de valori. Se notează cu Me are 50% dintre valori deasupra ei şi 50% dintre valori dedesubtul ei Dacă numărul observațiilor este impar Me este chiar valoarea de mijloc în urma ordonării lor. Dacă numărul observațiilor este par Me se calculează ca medie aritmetică a valorilor din mijlocul seriei statistice ordonate. 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5 Seria statistică seria statistică ordonată

Cum se determină? Se ordonează crescător seria statistică. Se determină valoarea de mijloc. În cazul distribuţiilor cu număr impar de valori, Me este chiar valoarea respectivă. În cazul distribuţiilor pare, Me se calculează ca medie a celor două valori din mijlocul distribuţiei

Mediana o valoare mediană propriu-zisă nu există decît dacă numărul n este fără soţ, cînd există, de fapt, un individ mijlociu (al [n+1]/2 lea) a cărui valoare este mediana. Dacă n este par, se iau indivizii de rang n/2 şi n/2 + 1

EXEMPLU: În seria de valori 5,8,3,2,5,4, ordonată crescător (2,3,4,5,5,8), Me=4,5 (ca medie a valorilor 4 şi 5 aflate în mijlocul unei distribuţii pare). Dacă distribuţia ar fi avut 5 valori (fără 2, de exemplu), Me=5

Cuartilele. Mediana este un indicator al tendinţei centrale, este valoarea de mijloc, într-o serie de valori. Cuartila este valorea pentru care să avem un sfert din valorile seriei mai mici şi respectiv, mai mari. Definiţie: Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile seriei sunt sub Q1 şi 75%, peste Definiţie: Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile seriei sunt sub Q3 şi 25%, peste.

INDICATORII TENDINȚEI CENTRALE strâns legată de nivelul de măsurare a variabilelor Modul Mediana Media Avantajele Ușor de calculat (nesemnificativ în prezent) Poate fi utilizat pentru orice tip de scală Este singurul indicator pentru scale nominale Poate fi utilizată pe scale ordinale și de interval/raport Reflectă valorile întregii distribuții Se poate calcula numai pentru variabile măsurabile pe scale interval și raport. Modul Mediana Media Dezavantajele În general, nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori; Poate să nu corespundă unei valori reale (N par); Este mai puţin sigură în extrapolarea de la eşantion la populaţie; De obicei nu corespunde unei valori reale; Conduce la interpretări greşite pe distribuţii asimetrice Poate fi puternic afectată de scorurile extreme;

Indicatori ai tendinţei centrale. (rezumat) Cei mai importanţi indicatori ai tendinţei centrale sunt media, mediana şi modul. Media indică tendinţa centrală atunci când seria de valori este repartizată simetric în jurul ei şi când valorile nu au o dispersie exagerat de mare. În cazul seriilor de valori distribuite foarte asimetric, tendinţa centrală nu mai este indicată de către medie, ci de către mediană. Modul, este un indicator al tendinţei centrale, la seriile unimodale, adică atunci când în tabelul de frecvenţe există un singur maxim. Dacă avem o serie multimodală, modul îşi pierde calitatea de indicator al tendinţei centrale.

Grafice Box Plot Grafice Plot Box, sau Box sau graficele Plot mustăți, - sunt destul de comune în statistici și măsurători de calitate. - are cinci valori principale: low, Q1, Median, Q3 și Maxim. Exemplu: 35, 42, 48, 50, 51, 53, 54, 60, 75

xi fa fr% fc fc% 86 1 1,9% 1 1,9% 87 1 1,9% 2 3,8% 89 1 1,9% 3 5,8% 91 1 1,9% 4 7,7% 92 2 3,8% 6 11,5% 94 1 1,9% 7 13,5% 96 1 1,9% 8 15,4% 97 2 3,8% 10 19,2% 98 1 1,9% 11 21,2% 101 4 7,7% 15 28,8% 102 3 5,8% 18 34,6% 104 1 1,9% 19 36,5% 105 1 1,9% 20 38,5% 106 2 3,8% 22 42,3% 107 3 5,8% 25 48,1% 108 3 5,8% 28 53,8% 109 4 7,7% 32 61,5% 110 1 1,9% 33 63,5% 112 1 1,9% 34 65,4% 113 2 3,8% 36 69,2% 114 3 5,8% 39 75,0% 115 2 3,8% 41 78,8% 116 2 3,8% 43 82,7% 117 1 1,9% 44 84,6% 118 2 3,8% 46 88,5% 121 1 1,9% 47 90,4% 123 1 1,9% 48 92,3% 124 1 1,9% 49 94,2% 125 1 1,9% 50 96,2% 135 1 1,9% 51 98,1% 142 1 1,9% 52 100,0% Q 3 Q 1 Interval cuartilic

Arithmetic mean (μ): 107.8076923076 Median: 108 Modes: 101 109 86,87,89,91,92,92,94,96,97,97,98,101, 101,101,101,102,102,102,104,105,106, 106,107,107,107,108,108,108,109,109, 109,109,110,112,113,113,114,114,114, 115,115,116,116,117,118,118,121,123, 124,125,135,142 124 1 123 1 121 1 118 2 117 1 116 2 115 2 114 3 113 2 112 1 110 1 109 4 108 3 107 3 106 2 105 1 104 1 102 3 101 4 98 1 97 2 96 1 94 1 92 2 91 1 89 1 87 1 86 1 http://www.alcula.com/calculators/statistics/box-plot/ 5 4 3 2 1 0 Histograma

Tratarea valorilor extreme sau aberante (outlier) Stabilirea naturii valorilor extreme: erori de înregistrare (tastare); erori de măsurare; rezultate influenţate de anomalii ale condiţiilor experimentale. eşantionul a fost extras dintr-o populaţie asimetrică valorile respective fac parte din altă populaţie de valori eşantion prea mic Tratarea lor pe una din căile posibile: eliminare (dacă sunt erori necorectabile); corectare (dacă este posibil);

https://www.youtube.com /watch?v=5c9lbf3b65s https://www.youtube.com/watch?v =095BdbOunPU