Statistica descriptivă

Σχετικά έγγραφα
Indicatori sintetici ai distribuțiilor statistice

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

8 Intervale de încredere

Scoruri standard Curba normală (Gauss) M. Popa

STATISTICĂ DESCRIPTIVĂ

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

MARCAREA REZISTOARELOR

Variabile statistice. (clasificare, indicatori)

NOTIUNI DE BAZA IN STATISTICA

Curs 4 Serii de numere reale

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

Curs 1 Şiruri de numere reale

Metode iterative pentru probleme neliniare - contractii

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

3.5. Indicatori de împrăştiere

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

Subiecte Clasa a VIII-a

Sisteme diferenţiale liniare de ordinul 1

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Subiecte Clasa a VII-a

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

Metode de interpolare bazate pe diferenţe divizate

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

Aparate de măsurat. Măsurări electronice Rezumatul cursului 2. MEE - prof. dr. ing. Ioan D. Oltean 1


Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Mihai Orzan joi, 19:30, sala 1406

Statistica descriptivă (continuare) Şef de Lucrări Dr. Mădălina Văleanu

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

V O. = v I v stabilizator

Aplicaţii ale principiului I al termodinamicii la gazul ideal

riptografie şi Securitate

Criptosisteme cu cheie publică III

Curs 2 Şiruri de numere reale

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

5.4. MULTIPLEXOARE A 0 A 1 A 2

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

CIRCUITE INTEGRATE MONOLITICE DE MICROUNDE. MMIC Monolithic Microwave Integrated Circuit

Integrala nedefinită (primitive)

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

LUCRAREA DE LABORATOR Nr. 9 DETERMINAREA EXPERIMENTALÃ A DISTIBUŢIEI DIMENSIUNILOR EFECTIVE ÎN INTERIORUL CÂMPULUI DE ÎMPRÃŞTIERE

Statisticǎ - curs 2. 1 Parametrii şi statistici ai tendinţei centrale 2. 2 Parametrii şi statistici ai dispersiei 5

a. 11 % b. 12 % c. 13 % d. 14 %

4. Măsurarea tensiunilor şi a curenţilor electrici. Voltmetre electronice analogice

5.1. Noţiuni introductive

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

Distribuţia multinomială Testul chi-pătrat. M. Popa

Curs 2 DIODE. CIRCUITE DR

Proiectarea filtrelor prin metoda pierderilor de inserţie

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

9 Testarea ipotezelor statistice


Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

2. Circuite logice 2.4. Decodoare. Multiplexoare. Copyright Paul GASNER

Esalonul Redus pe Linii (ERL). Subspatii.

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

Statisticǎ - notiţe de curs

sunt comparate grupuri formate din subiecńi diferińi, evaluańi în condińii diferite testul t pentru eşantioane independente ANOVA

Coeficientul de corelaţie Pearson(r) M. Popa

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Problema a II - a (10 puncte) Diferite circuite electrice

Geometrie computationala 2. Preliminarii geometrice

Analiza bivariata a datelor

Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015

REDRESOARE MONOFAZATE CU FILTRU CAPACITIV

DistributiiContinue de Probabilitate Distributia Normala

Asupra unei inegalităţi date la barajul OBMJ 2006

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Laborator biofizică. Noţiuni introductive

Transformări de frecvenţă

* K. toate K. circuitului. portile. Considerând această sumă pentru toate rezistoarele 2. = sl I K I K. toate rez. Pentru o bobină: U * toate I K K 1

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

6 n=1. cos 2n. 6 n=1. n=1. este CONV (fiind seria armonică pentru α = 6 > 1), rezultă

Capitolul ASAMBLAREA LAGĂRELOR LECŢIA 25

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

Profesor Blaga Mirela-Gabriela DREAPTA

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

Capitolul 2 - HIDROCARBURI 2.3.ALCHINE

5 Statistica matematică

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

Olimpiada Naţională de Matematică Etapa locală Clasa a IX-a M 1

Capitolul 2 - HIDROCARBURI 2.5.ARENE

7 Distribuţia normală

Amplitudinea sau valoarea de vârf a unui semnal

Transcript:

Statistica descriptivă Indicatori sintetici ai distribuţiilor statistice M. Popa

Statistica descriptivă - obiective Cum se prezintă valorile unei distribuţii? Cât de apropiate sunt unele de altele? Cât de diferite sunt unele de altele? Există valori care reprezintă întreaga distribuţie?

Categorii de indicatori Indicatori ai tendinţei centrale valori tipice, reprezentative, care descriu distribuţia în întregul ei Indicatori ai împrăştierii descriu caracteristica de împrăştiere a valorilor distribuţiei Indicatori ai formei distribuţiei se referă la forma curbei de reprezentare grafică a distribuţiei

Indicatori ai tendinţei centrale modul mediana media

Modul (Mo) Definiţie: valoarea cu frecvenţa cea mai mare clasa de interval expresia ce mai directă a valorii tipice (reprezentative) se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea (clasa) căreia îi corespunde frecvenţa absolută cea mai ridicată. distribuţii unimodale (583254 Mo=5) distribuţii bimodale (5832254 Mo=5; =2) distribuţii multimodale (58832254 Mo=5; =2; =8)

MEDIANA (Me) valoarea din mijlocul unei distribuţii are 50% dintre valori deasupra ei şi 50% dintre valori dedesubtul ei corespunde valorii de 50% pe coloana frc%. percentila?... decila?... quartila? distribuţie cu număr impar de valori Me este chiar valoarea respectivă. distribuţie pară Me se calculează ca medie a valorilor din mijlocul distribuţiei 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5 G. Fechner

MEDIA ARITMETICĂ (m) Notaţii uzuale: (miu) media populaţiei m media eşantionului Calcul pentru frecvenţe simple (583254) X m N 5 8 3 2 5 4 6 4,50 Calcul pentru frecvenţe grupate (55833332244) ( X * m f f ) 26 6 5* 2 8*1 3* 4 2 * 2 4* 2 2 1 4 2 2 43 11 3,90

Modul, Mediana și Media vizează același lucru, tendința centrală și totuși 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 N=15 60 45 22 20 16 16 16 15 14 14 14 12 12 12 12 ΣX=300 media=20 ΣX/N=300/15 mediana=15 (N+1)/2=8 modul=12 (valoarea cea mai frecventă)

Proprietăţile mediei aritmetice Adăugarea\scăderea unei constante la fiecare valoare a distribuţiei, măreşte\scade media cu acea valoare Înmulţirea\împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică\divide media cu acea constantă Suma abaterii valorilor de la medie este întotdeauna egală cu zero Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei

Proprietățile mediei variabila constantă + * abateri medie 5 2 7 10 0,50 8 2 10 16 3,50 3 2 5 6-1,50 2 2 4 4-2,50 5 2 7 10 0,50 4 2 6 8-0,50 m=4.5 m=6.5 m=9 suma=0 media=?

Valori nedeterminate şi clase deschise Valorile nedeterminate valori a căror mărime nu decurge din procesul de măsurare, în acelaşi mod în care rezultă oricare valoare a seriei Exemplu: testul de asociere verbală (10 sec) Clase (categorii) deschise categorii care au una dintre limite liberă Exemplu: Câte ţigări fumezi zilnic? ( 30 sau mai mult ). În astfel de cazuri se utilizează mediana

Avantajele indicatorilor tendinţei centrale MODUL - Uşor de calculat (nesemnificativ în prezent); - Poate fi utilizat pentru orice tip de scală; - Este singurul indicator pentru scale nominale;- - Corespunde unui scor real al distribuţiei; MEDIANA MEDIA - Poate fi utilizată pe scale ordinale şi de interval\raport; - Poate fi utilizată şi pe distribuţii de frecvenţă cu clase deschise sau scoruri nedeterminate la marginile distribuţiei; - Reflectă valorile întregii distribuţii; - Are multe proprietăţi statistice dezirabile; - Adecvată pentru utilizare în statistici avansate;

Dezavantajele indicatorilor tendinţei centrale MODUL - În general, nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori; - Poate fi greşit interpretat. Se identifică total cu un scor anume, fără a spune nimic despre celelalte valori; - Nu poate fi utilizat în statistici inferenţiale; MEDIANA MEDIA - Poate să nu corespundă unei valori reale (N par); - Nu reflectă valorile distribuţiei (un scor extrem se poate modifica, fără a afecta Me); - Este mai puţin sigură în extrapolarea de la eşantion la populaţie; - Greu de utilizat în statistici avansate - De obicei nu corespunde unei valori reale; - Nu este tocmai adecvată pentru scale ordinale; - Conduce la interpretări greşite pe distribuţii asimetrice - Poate fi puternic afectată de scorurile extreme;

Valori extreme (excesive) ale distribuţiei valori excesive, neobişnuit de mari sau de mici faţă de celelalte valori ale unei distribuţii Identificare metoda grafică Box-and-Whisker-Plot (Box- Plot) autor Tukey

142 valoare extremă 135 valoare extremă Limita de sus poate urca până la 133,5 Cea mai apropiată valoare este 125 114+1.5x13=133.5 114 Percentila 75 (114) H=114-101=13 Mediana (Q2) 101 Percentila 25 (101) Limita de jos este 81.5 Trasăm la 86 101-1.5x13=81.5

30 25 Rasp corecte examen iunie 20 15 10 5 0 1 2 3 4 5 grupa 6 7 8 9 10

125 SUM (it_01 to it_22) 100 75 50 25 f Gender m

Tratarea valorilor extreme Stabilirea naturii valorilor extreme: erori de înregistrare (tastare); erori de măsurare; rezultate influenţate de anomalii ale condiţiilor experimentale. eşantionul a fost extras dintr-o populaţie asimetrică valorile respective fac parte din altă populaţie de valori eşantion prea mic Tratarea lor pe una din căile posibile: eliminare (dacă sunt erori necorectabile); corectare (dacă este posibil); utilizarea mediei 5%trim, transformare (extragerea radicalului din toate valorile distribuţiei, logaritmarea distribuţiei, etc.)

Indicatori sintetici ai împrăştierii măsoară gradul de diversificare a valorilor împrăştierea scorului la un test de rezistenţă la stres, înainte şi după un program de psihoterapie înainte dupa m1=30 m2=40

Tipuri de indicatori 1. Amplitudinea absolută 2. Amplitudinea relativă 3. Abaterea quartilă (cvartilă, intercvartilă) 4. Abaterea semi-interquartilă 5. Abaterea medie 6. Dispersia (varianţa) 7. Abaterea standard 8. Coeficientul de variaţie

Amplitudinea absolută (R) diferenţa dintre valoarea maximă şi valoarea minimă a unei distribuţii indică în mod absolut plaja de valori între care se întinde distribuţia. poate fi influenţată de o singură valoare aflată la extremitatea distribuţiei 1,2,3,4,5,6,7 R=Xmax-Xmin=7-1=6

Amplitudinea relativă (R%) raportul procentual dintre amplitudine şi medie utilă când cunoaştem plaja teoretică de variaţie a valorilor 1,2,3,4,5,6,7 R R% *100 m 6 R% *100 150% 4

Imprecizia amplitudinii Distribuţia A are o amplitudine mai mare dar şi o variabilitate mai mare decât distribuţia B Amplitudinile distribuţiilor A şi B sunt identice, dar distribuţia A are mai multă variabilitate.

Abaterea quartilă (cvartilă, intercvartilă) (RQ) diferenţa dintre quartila 3 şi quartila 1 este distanţa dintre limita superioară şi cea inferioară a casetei Box-Plot (valoarea H) R Q Q Q 3 1

Abaterea semi-interquartilă (RSQ) distanţa unui un scor tipic faţă de amplitudinea întregii distribuţii este abaterea quartilă împărţită la 2 într-o distribuţie perfect simetrică RSQ=Q2=Me RSQ nu este afectată de valorile aberante indicator robust al împrăştierii R SQ Q Q 3 1 2

Abaterea medie (d) X X i m 5 (5 4.5) =.5 8 (8 4.5) = 3.5 3 (3 4.5) = -1.5 2 (2 4.5) = -2.5 5 (5 4.5) =.5 4 (4 4.5) = -.5 X = 27 (X i -m) = 0 N = 6 m = 4.5 d abaterea valorii abaterea medie Întotdeauna d=0 X i N dar... m 1.5

Dispersia (varianţa, abaterea medie pătratică) Notaţii uzuale: s 2 (eşantion) 2 (populaţie) Se calculează ca sumă a abaterilor de la medie ridicate la pătrat

Dispersia (varianţa) s 2 (eşantion) 2 (populaţie) X = 27 N = 6 X (X i m) (X i m) 2 5 (5 4.5) =.5.25 8 (8 4.5) = 3.5 12.25 3 (3 4.5) = -1.5 2.25 2 (2 4.5) = -2.5 6.25 5 (5 4.5) =.5.25 4 (4 4.5) = -.5.25 m = 4.5 (X i -m) = 0 (X-m) 2 = 21.5 s s ( X N m 2 2 i ) 2 21,5 6 3.58

Abaterea standard s (eşantion); (populaţie), SD (APA); ab.std. se calculează prin extragerea radicalului din expresia dispersiei s ( X i N m) 2 s 21,5 6 1,89

Corecţia indicatorilor împrăştierii calculaţi pentru eşantioane s ( X N m 2 2 i ) dispersia abaterea standard Abaterea standard nu este definită pentru (n-1), ci pentru n Dar... suma abaterilor de la medie este întotdeauna 0... dacă ştim n-1 abateri, o cunoaştem pe ultima... doar primele n-1 abateri pot varia liber....(n-1) sunt definite ca grade de libertate s ( X i N m) 2 s 2 ( X N i m) 1 2 s ( X N i m) 1 2

Proprietăţile abaterii standard 1. Dacă se adaugă/scade o constantă la fiecare valoare a unei distribuţii, abaterea standard nu este afectată

Proprietăţile abaterii standard 2. Dacă se multiplică/divide fiecare valoare a unei distribuţii cu o constantă, abaterea standard se multiplică/divide cu acea constantă

Proprietăţile abaterii standard 3. Abaterea standard faţă de medie este mai mică decât abaterea standard faţă de orice altă valoare a unei distribuţii X (X i m) (X i 5) 2 5 (5 4.5) =.5 (5-5) 2 =0 8 (8 4.5) = 3.5 (8-5) 2 =9 3 (3 4.5) = -1.5 (3-5) 2 =4 2 (2 4.5) = -2.5 (2-5) 2 =9 5 (5 4.5) =.5 (5-5) 2 =0 4 (4 4.5) = -.5 (4-5) 2 =1 X = 27 (X i -m) = 0 (X-5) 2 =23 N = 6 m = 4.5

Coeficientul de variaţie (cv) abaterea medie şi abaterea standard se exprimă în unităţile de măsură ale variabilei de referinţă ca urmare, nu pot fi comparate în mod direct, pentru variabile diferite cv s m *100 cv poate fi calculat numai pe scale de raport (origine în 0) cv<15%, împrăştierea este mică şi, deci, media este reprezentativă cv este între 15%-30%, împrăştierea este mijlocie şi media este suficient de reprezentativă cv > 30%, împrăştierea este mare şi media are o reprezentativitate redusă

Alegerea indicatorului împrăştierii Abaterea standard este cea mai utilizată pentru scale de măsurare interval/raport. Realizează cea mai bună combinaţie între calitatea estimării şi posibilitatea de a fundamenta inferenţe statistice. Amplitudinea este un indicator nesigur şi care nici nu poate fi calculat în cazul scalelor nominale Pe distribuţii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartilă (semi-interquartilă).

Indicatori ai formei distribuţiei simetrie (skewness) simetrică asimetrică negativ asimetrică pozitiv Skewness 0 negativ pozitiv

Efectul asimetriei asupra mediei 3, 4, 5, 5, 6, 7 Modul: 5 Mediana: 5 Media: 5 3, 4, 5, 5, 6, 7, 17 Modul: 5 Mediana: 5 Media: 6.7

Distribuţie: simetrică asimetrică negativ asimetrică pozitiv Medie Mediana Mod Medie Mediană Mod Mod Medie Mediană

Indicatori ai formei distribuţiei boltire (kurtosis) leptocurtica Kurtosis pozitiv mezocurtica Kurtosis 0 platicurtica Kurtosis negativ

Pentru sănătatea dvs., Când traversați, uitați-vă spre partea de unde pot veni mașini!