1.0.011 STATISTICA Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 16 martie 011 al.isaic-maniu www.amaniu.ase.ro http://www.ase.ro/ase/studenti/inde.asp?itemfisiere&id Observati doua seturi de date ipotetice: Set de date cu variabilitate red Valoarea medie asigura o buna reprezentare ale valorilor dintr-un set de date. Set de date cu variabilitate rid Acesta este setul de date anterior. Acum se schimba intr-un... Aceasi valoare medie nu asigura o prezentare a datelor la fel de buna in setul de valori ca mai inainte. Indicatori simpli ai variabilitatii : Amplitudinea Abaterea valorilor de la medie Abaterile maime (+ /-) Eprimare : -absolut -relativ ( %) Eemplu 1
1.0.011 Amplitudinea Amplitudinea unui set de masuratori este diferenta intre cea mai mare si cea mai mica valoare masurata. Cel mai mare Dar cum avantaj se imprastie al acesteia valorile este masurate? usurinta cu care se calculeaza. Amplitudinea nu Amplitudinea raspunde la aceasta intrebare??? Dezavantajul sau major este faptul ca nu furnizeaza informatii Minim asupra dispersiei Maim valorilor dintre minim si maim. Indicatorii sintetici ai variaţiei (1) Abaterea medie liniară Definiție: Media aritmetică a abaterilor individuale față de medie (d i ) luate în valoare absolută Pentru un şir simplu de valori: i d n Pentru o serie de frecvențe sau pentru o serie de date grupate pe intervale de grupare: i ni d ni Abaterea medie liniară are ca unitate de măsură, unitatea de măsură a variabilei analizate. Indicatorii sintetici ai variaţiei () Dispersia sau momentul centrat de ordin Definiție: Media aritmetică a pătratelor abaterilor individuale față de medie (d i ) Pentru un şir simplu de valori: ( ) i n Pentru o serie de frecvențe sau pentru o serie de date grupate pe intervale de grupare: ( i ) n i Din considerente de interpretare vom lăsa dispersia fără unitate de măsură. Formula alternativă de calcul a dispersiei: n p i
1.0.011 Indicatorii sintetici ai variaţiei () Abaterea standard sau abaterea medie pătratică Definiție: Rădăcina pătrată a dispersiei Proprietate: De obicei, între abaterea medie pătratică şi abaterea medie liniară eistă următoarea relație: d Abaterea medie pătratică are ca unitate de măsură, unitatea de măsură a variabilei analizate. Sa luam doua populatii de dimensiuni reduse: 9-10 -1 Populatia A:, 9, 10, 11, 1 11-10 +1 Populatia B:, 7, 10, 1, 16-10 - A B 7 10 dar The masuratorile mean of both in B sunt mult mai imprastiate populations decat is 10... acelea din A. 1 16 1-10 + Astfel, este nevoie de o masura a Sa incepem prin calcularea sumei Suma 0 dispersiei abaterilor care sa fie in concordanta Suma abaterilor este cu aceasta. zero in ambele cazur de aceea, o alta mas 9 10 11 1 este necesara. -10-6 16-10 +6 7-10 - 1-10 + Suma 0 Suma abaterilor patratice este utilizata in calcularea dispersiei. Vezi eemplul urmator. 9-10 -1 11-10 +1-10 - 1-10 + A 9 10 11 1 Suma 0 Suma abaterilor este zero in ambele cazuri de aceea, este neces o alta masura. B 7 10 1 16-10 - 6 16-10 +6 7-10 - 1-10 + Suma 0 9
1.0.011 Sa calculam dispersia a celor doua populatii: ( 10) + (9 10) + (10 10) + (11 10) + (1 10) A ( 10) + (7 10) + (10 10) + (1 10) + (16 10) B 1 De ce este dispersia definita ca media abaterilor patratice? De ce nu utilizam suma abaterilor patratice ca masura a Pana la urma, suma abaterilor imprastierii? patratice creste in marime cand imprastierea unui set de date creste!! 10 Care set de date are cea mai mare imprastiere? Sa calculam suma abaterilor patratice pentru ambele setu A Cu toate acestea, Data set cand B dispersia este calc prin impartirea is more la numarul dispersed de observatii, dis sunt clasate around corespunzator. the mean B 1 1 Suma A (1-) + +(1-) +(-) + +(-) 10 A Suma A /N 10/ ori ori Suma B (1-) + (-)! B Suma B /N / 11. Interpretarea abaterii standard Abaterea standard poate fi utilizata pentru: a compara variabilitatea diverselor distributii a face o afirmatie despre forma generala a unei distributii. Regula empirica -Daca un esantion de masuratori este in forma de clopot, intervalul: ( s, + s) contine aproimativ 6% din masuratori ( s, + s) contine aproimativ 9% din masuratori ( s, + s) contine aproape toate masuratorile 1
1.0.011 Teorema Chebyshev Fiind date un set de masuratori si un numar k (mai mare ca 1), fractiunea acestor masuratori aflate intre k abateri standard in jurul mediei este de cel putin 1-1/k. 1-1/ / Aceasta teorema este valida pentru orice set de masuratori (esantion, populatie) de orice forma. 1-1/ /9 K Interval Chebyshev Regula empirica 1 s, + s cel putin 0% aproimativ 6% s, + s s, + s cel putin 7% aproimativ 9% cel putin 9% aproimativ 100% 1 Indicatorii sintetici ai variaţiei () Coeficientul de variație sau de omogenitate Definiție: Este o eprimare în cifre relative (vezi indicatorii simpli ai împrăştierii) a abaterii standard CV [ 100] Proprietăți: de obicei CV ia valori în intervalul [0;100] valori mici (apropiate de limita inferioară) ale indicatorului indică o serie omogenă (media, mediana, valoarea modală sunt reprezentative) valori mari (apropiate de limita superioară) ale indicatorului arată o serie eterogenă (neomogenă) (media, mediana, valoarea modală sunt nereprezentative) pentru a considera o serie omogenă, teoria recomandă, ca valoarea CV sa fie cel mult 0-% Caz particular pentru dispersie Dispersia variabilei de tip binar (1 p ) N+ (0 p) M N M q + p N+ M N+ M N+ M ( p+ q) q p+ p q pq pq p( 1 p) Dispersia maimă a variabilei de tip binar este 0,
1.0.011 Studiul formei funcţiilor de repartiţie (1) Asimetria 1) Metode simple de analiză a asimetriei a) metoda vizuală serie simetrică serie asimetrică spre stânga serie asimetrică spre dreapta 1 1 6 7 9 10 1 1 6 7 9 10 1 1 6 7 9 10 Asimetria () b) metoda comparării indicatorilor tendinței centrale (, Me şi Mo) 1 1 Mo 6 7 9 10 Me Asimetria () b) metoda comparării indicatorilor tendinței centrale (, Me şi Mo) 1 1 6 7 9 10 Mo Me 6
1.0.011 Asimetria () b) metoda comparării indicatorilor tendinței centrale (, Me şi Mo) 1 1 6 7 Me Mo 9 10 Asimetria () ) Metode analitice de abordare Coeficienții de asimetrie ai lui Pearson C as Mo Proprietăți şi interpretare: interval de valori [-1;+1 ] semnul arată direcția asimetriei valori mici (apropiate de 0) indică o asimetrie de mică intensitate valori mari (apropiate de ±1) indică o asimetrie cu intensitate foarte mare C as ( Me) Proprietăți şi interpretare: interval de valori [-;+ ] semnul arată direcția asimetriei valori mici (apropiate de 0) indică o asimetrie de mică intensitate valori mari (apropiate de ±) indică o asimetrie cu intensitate foarte mare Asimetria (6) Coeficienții lui Pearson (continuare) C as µ β 1 µ unde: µ ( i ) ni (momentul centrat de ordin ) ( i ) ni µ ni (momentul centrat de ordin ) n i Coeficientul lui Bowley C as ( q q) ( q q1) ( q q ) + ( q q ) Proprietăți şi interpretare: interval de valori [-1;+1 ] semnul arată direcția asimetriei valori mici (apropiate de 0) indică o asimetrie de mică intensitate valori mari (apropiate de ±1) indică o asimetrie cu intensitate foarte mare 1 7
1.0.011 Boltirea (1) 1) Metoda vizuală 0 0 0 0 1 10 0 0 0 serie mezocurtică 0 0 1 10 0 serie leptocurtică 1 6 7 9 10 1 6 7 9 10 serie platicurtică 0 0 0 0 1 10 0 1 6 7 9 10 γ Boltirea () ) Metoda analitică Coeficientul lui Pearson µ β unde µ ( i ) ni µ ni (momentul centrat de ordinul ) Interpretare: β (repartiție mezocurtică) β > (repartiție leptocurtică) β < (repartiție platicurtică) Coeficientul lui Fischer γ Interpretare: γ γ γ β 0 (repartiție mezocurtică) >0 (repartiție leptocurtică) <0 (repartiție platicurtică)