Statistica descriptivă Indicatori sintetici ai distribuţiilor statistice M. Popa
Statistica descriptivă - obiective Cum se prezintă valorile unei distribuţii? Cât de apropiate sunt unele de altele? Cât de diferite sunt unele de altele? Există valori care reprezintă întreaga distribuţie?
Categorii de indicatori Indicatori ai tendinţei centrale valori tipice, reprezentative, care descriu distribuţia în întregul ei Indicatori ai împrăştierii descriu caracteristica de împrăştiere a valorilor distribuţiei Indicatori ai formei distribuţiei se referă la forma curbei de reprezentare grafică a distribuţiei
Indicatori ai tendinţei centrale modul mediana media
Modul (Mo) Definiţie: valoarea cu frecvenţa cea mai mare clasa de interval expresia ce mai directă a valorii tipice (reprezentative) se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea (clasa) căreia îi corespunde frecvenţa absolută cea mai ridicată. distribuţii unimodale (583254 Mo=5) distribuţii bimodale (5832254 Mo=5; =2) distribuţii multimodale (58832254 Mo=5; =2; =8)
MEDIANA (Me) valoarea din mijlocul unei distribuţii are 50% dintre valori deasupra ei şi 50% dintre valori dedesubtul ei corespunde valorii de 50% pe coloana frc%. percentila?... decila?... quartila? distribuţie cu număr impar de valori Me este chiar valoarea respectivă. distribuţie pară Me se calculează ca medie a valorilor din mijlocul distribuţiei 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5 G. Fechner
MEDIA ARITMETICĂ (m) Notaţii uzuale: (miu) media populaţiei m media eşantionului Calcul pentru frecvenţe simple (583254) X m N 5 8 3 2 5 4 6 4,50 Calcul pentru frecvenţe grupate (55833332244) ( X * m f f ) 26 6 5* 2 8*1 3* 4 2 * 2 4* 2 2 1 4 2 2 43 11 3,90
Modul, Mediana și Media vizează același lucru, tendința centrală și totuși 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 N=15 60 45 22 20 16 16 16 15 14 14 14 12 12 12 12 ΣX=300 media=20 ΣX/N=300/15 mediana=15 (N+1)/2=8 modul=12 (valoarea cea mai frecventă)
Proprietăţile mediei aritmetice Adăugarea\scăderea unei constante la fiecare valoare a distribuţiei, măreşte\scade media cu acea valoare Înmulţirea\împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică\divide media cu acea constantă Suma abaterii valorilor de la medie este întotdeauna egală cu zero Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei
Proprietățile mediei variabila constantă + * abateri medie 5 2 7 10 0,50 8 2 10 16 3,50 3 2 5 6-1,50 2 2 4 4-2,50 5 2 7 10 0,50 4 2 6 8-0,50 m=4.5 m=6.5 m=9 suma=0 media=?
Valori nedeterminate şi clase deschise Valorile nedeterminate valori a căror mărime nu decurge din procesul de măsurare, în acelaşi mod în care rezultă oricare valoare a seriei Exemplu: testul de asociere verbală (10 sec) Clase (categorii) deschise categorii care au una dintre limite liberă Exemplu: Câte ţigări fumezi zilnic? ( 30 sau mai mult ). În astfel de cazuri se utilizează mediana
Avantajele indicatorilor tendinţei centrale MODUL - Uşor de calculat (nesemnificativ în prezent); - Poate fi utilizat pentru orice tip de scală; - Este singurul indicator pentru scale nominale;- - Corespunde unui scor real al distribuţiei; MEDIANA MEDIA - Poate fi utilizată pe scale ordinale şi de interval\raport; - Poate fi utilizată şi pe distribuţii de frecvenţă cu clase deschise sau scoruri nedeterminate la marginile distribuţiei; - Reflectă valorile întregii distribuţii; - Are multe proprietăţi statistice dezirabile; - Adecvată pentru utilizare în statistici avansate;
Dezavantajele indicatorilor tendinţei centrale MODUL - În general, nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori; - Poate fi greşit interpretat. Se identifică total cu un scor anume, fără a spune nimic despre celelalte valori; - Nu poate fi utilizat în statistici inferenţiale; MEDIANA MEDIA - Poate să nu corespundă unei valori reale (N par); - Nu reflectă valorile distribuţiei (un scor extrem se poate modifica, fără a afecta Me); - Este mai puţin sigură în extrapolarea de la eşantion la populaţie; - Greu de utilizat în statistici avansate - De obicei nu corespunde unei valori reale; - Nu este tocmai adecvată pentru scale ordinale; - Conduce la interpretări greşite pe distribuţii asimetrice - Poate fi puternic afectată de scorurile extreme;
Valori extreme (excesive) ale distribuţiei valori excesive, neobişnuit de mari sau de mici faţă de celelalte valori ale unei distribuţii Identificare metoda grafică Box-and-Whisker-Plot (Box- Plot) autor Tukey
142 valoare extremă 135 valoare extremă Limita de sus poate urca până la 133,5 Cea mai apropiată valoare este 125 114+1.5x13=133.5 114 Percentila 75 (114) H=114-101=13 Mediana (Q2) 101 Percentila 25 (101) Limita de jos este 81.5 Trasăm la 86 101-1.5x13=81.5
30 25 Rasp corecte examen iunie 20 15 10 5 0 1 2 3 4 5 grupa 6 7 8 9 10
125 SUM (it_01 to it_22) 100 75 50 25 f Gender m
Tratarea valorilor extreme Stabilirea naturii valorilor extreme: erori de înregistrare (tastare); erori de măsurare; rezultate influenţate de anomalii ale condiţiilor experimentale. eşantionul a fost extras dintr-o populaţie asimetrică valorile respective fac parte din altă populaţie de valori eşantion prea mic Tratarea lor pe una din căile posibile: eliminare (dacă sunt erori necorectabile); corectare (dacă este posibil); utilizarea mediei 5%trim, transformare (extragerea radicalului din toate valorile distribuţiei, logaritmarea distribuţiei, etc.)
Indicatori sintetici ai împrăştierii măsoară gradul de diversificare a valorilor împrăştierea scorului la un test de rezistenţă la stres, înainte şi după un program de psihoterapie înainte dupa m1=30 m2=40
Tipuri de indicatori 1. Amplitudinea absolută 2. Amplitudinea relativă 3. Abaterea quartilă (cvartilă, intercvartilă) 4. Abaterea semi-interquartilă 5. Abaterea medie 6. Dispersia (varianţa) 7. Abaterea standard 8. Coeficientul de variaţie
Amplitudinea absolută (R) diferenţa dintre valoarea maximă şi valoarea minimă a unei distribuţii indică în mod absolut plaja de valori între care se întinde distribuţia. poate fi influenţată de o singură valoare aflată la extremitatea distribuţiei 1,2,3,4,5,6,7 R=Xmax-Xmin=7-1=6
Amplitudinea relativă (R%) raportul procentual dintre amplitudine şi medie utilă când cunoaştem plaja teoretică de variaţie a valorilor 1,2,3,4,5,6,7 R R% *100 m 6 R% *100 150% 4
Imprecizia amplitudinii Distribuţia A are o amplitudine mai mare dar şi o variabilitate mai mare decât distribuţia B Amplitudinile distribuţiilor A şi B sunt identice, dar distribuţia A are mai multă variabilitate.
Abaterea quartilă (cvartilă, intercvartilă) (RQ) diferenţa dintre quartila 3 şi quartila 1 este distanţa dintre limita superioară şi cea inferioară a casetei Box-Plot (valoarea H) R Q Q Q 3 1
Abaterea semi-interquartilă (RSQ) distanţa unui un scor tipic faţă de amplitudinea întregii distribuţii este abaterea quartilă împărţită la 2 într-o distribuţie perfect simetrică RSQ=Q2=Me RSQ nu este afectată de valorile aberante indicator robust al împrăştierii R SQ Q Q 3 1 2
Abaterea medie (d) X X i m 5 (5 4.5) =.5 8 (8 4.5) = 3.5 3 (3 4.5) = -1.5 2 (2 4.5) = -2.5 5 (5 4.5) =.5 4 (4 4.5) = -.5 X = 27 (X i -m) = 0 N = 6 m = 4.5 d abaterea valorii abaterea medie Întotdeauna d=0 X i N dar... m 1.5
Dispersia (varianţa, abaterea medie pătratică) Notaţii uzuale: s 2 (eşantion) 2 (populaţie) Se calculează ca sumă a abaterilor de la medie ridicate la pătrat
Dispersia (varianţa) s 2 (eşantion) 2 (populaţie) X = 27 N = 6 X (X i m) (X i m) 2 5 (5 4.5) =.5.25 8 (8 4.5) = 3.5 12.25 3 (3 4.5) = -1.5 2.25 2 (2 4.5) = -2.5 6.25 5 (5 4.5) =.5.25 4 (4 4.5) = -.5.25 m = 4.5 (X i -m) = 0 (X-m) 2 = 21.5 s s ( X N m 2 2 i ) 2 21,5 6 3.58
Abaterea standard s (eşantion); (populaţie), SD (APA); ab.std. se calculează prin extragerea radicalului din expresia dispersiei s ( X i N m) 2 s 21,5 6 1,89
Corecţia indicatorilor împrăştierii calculaţi pentru eşantioane s ( X N m 2 2 i ) dispersia abaterea standard Abaterea standard nu este definită pentru (n-1), ci pentru n Dar... suma abaterilor de la medie este întotdeauna 0... dacă ştim n-1 abateri, o cunoaştem pe ultima... doar primele n-1 abateri pot varia liber....(n-1) sunt definite ca grade de libertate s ( X i N m) 2 s 2 ( X N i m) 1 2 s ( X N i m) 1 2
Proprietăţile abaterii standard 1. Dacă se adaugă/scade o constantă la fiecare valoare a unei distribuţii, abaterea standard nu este afectată
Proprietăţile abaterii standard 2. Dacă se multiplică/divide fiecare valoare a unei distribuţii cu o constantă, abaterea standard se multiplică/divide cu acea constantă
Proprietăţile abaterii standard 3. Abaterea standard faţă de medie este mai mică decât abaterea standard faţă de orice altă valoare a unei distribuţii X (X i m) (X i 5) 2 5 (5 4.5) =.5 (5-5) 2 =0 8 (8 4.5) = 3.5 (8-5) 2 =9 3 (3 4.5) = -1.5 (3-5) 2 =4 2 (2 4.5) = -2.5 (2-5) 2 =9 5 (5 4.5) =.5 (5-5) 2 =0 4 (4 4.5) = -.5 (4-5) 2 =1 X = 27 (X i -m) = 0 (X-5) 2 =23 N = 6 m = 4.5
Coeficientul de variaţie (cv) abaterea medie şi abaterea standard se exprimă în unităţile de măsură ale variabilei de referinţă ca urmare, nu pot fi comparate în mod direct, pentru variabile diferite cv s m *100 cv poate fi calculat numai pe scale de raport (origine în 0) cv<15%, împrăştierea este mică şi, deci, media este reprezentativă cv este între 15%-30%, împrăştierea este mijlocie şi media este suficient de reprezentativă cv > 30%, împrăştierea este mare şi media are o reprezentativitate redusă
Alegerea indicatorului împrăştierii Abaterea standard este cea mai utilizată pentru scale de măsurare interval/raport. Realizează cea mai bună combinaţie între calitatea estimării şi posibilitatea de a fundamenta inferenţe statistice. Amplitudinea este un indicator nesigur şi care nici nu poate fi calculat în cazul scalelor nominale Pe distribuţii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartilă (semi-interquartilă).
Indicatori ai formei distribuţiei simetrie (skewness) simetrică asimetrică negativ asimetrică pozitiv Skewness 0 negativ pozitiv
Efectul asimetriei asupra mediei 3, 4, 5, 5, 6, 7 Modul: 5 Mediana: 5 Media: 5 3, 4, 5, 5, 6, 7, 17 Modul: 5 Mediana: 5 Media: 6.7
Distribuţie: simetrică asimetrică negativ asimetrică pozitiv Medie Mediana Mod Medie Mediană Mod Mod Medie Mediană
Indicatori ai formei distribuţiei boltire (kurtosis) leptocurtica Kurtosis pozitiv mezocurtica Kurtosis 0 platicurtica Kurtosis negativ
Pentru sănătatea dvs., Când traversați, uitați-vă spre partea de unde pot veni mașini!