Statisticǎ - curs Cupris Parametrii şi statistici ai tediţei cetrale Parametrii şi statistici ai dispersiei 5 3 Parametrii şi statistici factoriali ai variaţei 8 4 Parametrii şi statistici ale poziţiei 9
Parametrii şi statistici ai tediţei cetrale O categorie de caracteristici umerici asociaţi uui set de date statistice sut: parametrii tediţei cetrale î cazul populaţiilor şi statistici ale tediţei cetrale î cazul eşatioaelor. Îtrucât aceştia au defiiţii aaloage vom prezeta doar statistici ale tediţei cetrale. Defiiţia.. Statistici ale tediţei cetrale sut valori umerice asociate uui set de date statistice care localizeazǎ îtr-u aumit ses mijlocul mulţimii de date statistice. Defiiţia.. Media aritmeticǎ a setului de date statistice {x, x,..., x } este pri defiiţie suma acestor date împǎrţitǎ la umǎrul datelor x = Dacǎ datele sut prezetate sub forma uei serii de distribuţie (fǎrǎ grupare î clase), atuci formula petru media aritmeticǎ devie: x j x = x i, iar î cazul uei serii de distribuţie (cu grupare î clase) formula de calcul a mediei este: x x = ude x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare. Defiiţia.3. Media pǎtraticǎ a setului de date statistice {x, x,..., x } este pri defiiţie umǎrul: x i x p = Dacǎ datele sut prezetate sub forma uei serii de distribuţie (fǎrǎ grupare î clase), formula petru media pǎtraticǎ devie: x j x p =, iar î cazul uei serii de distribuţie cu grupare î clase media pǎtraticǎ este : x f x x p = î care x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare.
Defiiţia.4. Media armoicǎ a setului de date statistice {x, x,..., x } este pri defiiţie umǎrul: x h = x i Dacǎ datele sut prezetate sub forma uei serii de distribuţie (fǎrǎ grupare î clase), formula petru media armoicǎ devie: x h = x j iar î cazul uei serii de distribuţie cu grupare î clase media armoicǎ este: x h = f x x f x î care x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare. Defiiţia.5. Media geometicǎ a setului de date statistice {x, x,..., x } este pri defiiţie umǎrul: x g = x i, Dacǎ datele sut prezetate sub forma uei serii de distribuţie (fǎrǎ grupare î clase), formula petru media geometricǎ devie: x g = f x i j, iar î cazul uei serii de distribuţie cu grupare î clase media geometricǎ este pri defiiţie: x g = x f x î care x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare. 3
Defiiţia.6. Mediaa m e a uui set de date statistice disticte ordoate dupǎ mǎrime x < x <... < x este umǎrul care împarte setul de date î douǎ grupe egale ca umǎr: - dacǎ = k +, atuci m e este valoarea de ragul k + : m e = x k+ ; - dacǎ = k, atuci orice umǎr ître valorile x k şi x k+ satisface codiţia di defiiţia lui m e. Î acest caz se covie ca m e sǎ fie media aritmeticǎ a valorilor x k şi x k+ : m e = x k + x k+. Î cazul setului de date statistice: mediaa este m e = 6. Î cazul setului de date statistice: 4 7 6 3 38 59 4 7 6 3 38 + 6 mediaa este m e = = 9. Mediaa m e î acest caz are proprietatea cǎ suma frecveţelor valorilor mai mari decât m e este egalǎ cu suma frecveţelor valorilor mai mici decât m e. Î cazul setului de date statistice: 3 3 4 Seria de distribuţie corespuzǎtoare este: Care este mediaa acestei serii de date? 3 4 3 Câd datele sut prezetate sub forma uei serii de distribuţie cu sau fǎrǎ grupare m e se calculeazǎ pri procedeul iterpolǎrii liiare, bazate pe ipoteza repartiţiei uiforme a frecveţelor î itervalul media. Defiiţia.7. Mijlocul plajei este pri defiiţie umǎrul: M r = L + H ude L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X Dacǎ mediaa uui set de date statistice este umǎrul care împarte setul de date î douǎ grupe egale ca umǎr, plaja este media aritmetica a valorilor extreme ale setului de date. 4
Parametrii şi statistici ai dispersiei Dupǎ ce mijlocul uui set de date a fost stabilit urmǎtoarea îtrebare aturalǎ este: care sut parametrii şi statisticile care caracterizeazǎ împrǎştierea datelor. Parametrii şi statisticile dispersiei sut: plaja, deviaţia medie absolutǎ, variaţa, deviaţia stadard şi coeficietul de variaţie. Defiiţia.. Plaja P este difereţa ditre cea mai mare (H) şi cea mai micǎ (L) valoare a valorilor x i ditr-u set de date: P = H L Defiiţia.. Deviaţia faţǎ de media aritmeticǎ x a valorii x i a variabilei X este d i = x i x. Deviaţia este zero dacǎ şi umai dacǎ x i = x. Deviaţia este pozitivǎ dacǎ şi umai dacǎ x i > x. Deviaţia este egativǎ dacǎ şi umai dacǎ x i < x. S-ar putea crede cǎ suma deviaţilor (x i x) poate servi ca mǎsurǎ a dispersiei faţǎ de media aritmeticǎ. Dar aceastǎ sumǎ este zero îtotdeaua. Reducerea deviaţiilor poate fi elimiatǎ pri folosirea valorii absolute a deviaţiilor: x i x. Defiiţia.3. Deviaţia medie absolutǎ a setului de date statistice disticte {x, x,..., x } este pri defiiţie: x i x d = Deviaţia medie absolutǎ, î cazul î care datele sut prezetate sub forma uei serii de distribuţie fǎrǎ grupare de date se calculeazǎ cu formula: x j x d = Deviaţia medie absolutǎ, î cazul î care datele sut prezetate sub forma uei serii de distribuţie cu grupare de date se calculeazǎ cu formula: x x d = î care x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare, iar suma se extide pe asamblul claselor. 5
Defiiţia.4. Variaţa s a setului de date statistice disticte {x, x,..., x } este pri defiiţie: (x i x) s = Dacǎ setul de date este prezetat sub forma uei serii de distribuţie fǎrǎ grupare de date variaţa s se calculeazǎ cu formula: (x j x) s = Dacǎ setul de date este prezetat sub forma uei serii de distribuţie cu grupare de date variaţa σ se calculeazǎ cu formula: (x x) f x s = î care x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare, iar suma se extide pe asamblul claselor. Defiiţia.5. Deviaţia stadard (abaterea stadard) s a setului de date statistice disticte {x, x,..., x } este pri defiiţie: (x i x) s = Dacǎ setul de date este prezetat sub forma uei serii de distribuţie fǎrǎ grupare de date deviaţia stadard s se calculeazǎ cu formula: (x j x) s = Dacǎ setul de date este prezetat sub forma uei serii de distribuţie cu grupare de date deviaţia stadard s se calculeazǎ cu formula: (x x) f x s = î care x reprezitǎ marca clasei şi f x frecveţa corespuzǎtoare, iar suma se extide pe asamblul claselor. Deviaţia stadard a fost defiitǎ cu o formulǎ. Se poate pue îtrebarea ce reprezitǎ ea î realitate? U rǎspus la aceastǎ îtrebare poate fi dat cu iegalitatea lui Cebîşev di care rezultǎ cǎ petru orice serie de distribuţie fracţiuea de date situatǎ la cel mult k 6
uitǎţi de deviaţie stadard faţǎ de medie este cel puţi k, ude k este u umǎr pozitiv oarecare mai mare ca. Rezultǎ î particular cǎ petru orice serie de distribuţie fracţiuea de date situatǎ la cel mult k = uitǎţi de deviaţie stadard faţǎ de medie este de cel puţi 75% di totalul de date. Dacǎ k = 3 atuci este 89% di totalul de date. Coform regulii empirice dacǎ o serie de repartiţie este ormalǎ atuci fracţiuea de date situate la cel mult o uitate de deviaţie stadard σ faţa de medie este aproximativ 68%, iar fracţiuea de date situate la cel mult douǎ uitǎţi de deviaţie stadard σ faţǎ de medie este aproximativ 95%. Defiiţia.6. Coeficietul de variaţie V este pri defiiţie: V = s x 00 Coeficietul de variaţie este o statisticǎ relativǎ a dispersiei şi se foloseşte la compararea dispersiei diferitelor variabile (caracteristici). V poate lua valori ître 0 şi 00%. Dacǎ V este aproape de zero (V < 35%), atuci populaţia studiatǎ statistic este omogeǎ şi media x este reprezetativǎ petru aceastǎ populaţie. Dacǎ V este aproape de 00% (V > 75%), atuci populaţia studiatǎ statistic este eterogeǎ şi media x u este reprezetativǎ. De cele mai multe ori î asemeea cazuri este ecesarǎ separarea populaţiei statistice î mai multe grupe omogee, care se studiazǎ separat. 7
3 Parametrii şi statistici factoriali ai variaţei Î aaliza variaţei uui set de date statistice se folosesc urmǎtorii parametrii factoriali ai variaţei: - variaţa de grupǎ (parţialǎ) s j - media variaţelor de grupǎ s - variaţa mediilor de grupǎ faţǎ de media geeralǎ δ - variaţa totalǎ (geeralǎ) s. Defiiţia 3.. Petru o grupǎ de m date x, x,..., x m, variaţa de grupǎ este defiitǎ cu formula: (x i x j ) ij s j = î care j este idicele grupei, x j este media grupei, x i sut datele di grupa j avâd frecveţele ij Variaţele de grupǎ sut mai mici decât variaţa şi au valori mai mari sau mai mici î fucţie de eterogeitatea grupei. Defiiţia 3.. Pri defiiţie media variaţelor de grupǎ este: ij s = k s j j k j î care k este umǎrul de grupe, j = ij este umǎrul de date di grupǎ. Defiiţia 3.3. Variaţa mediilor de grupǎ faţǎ de media geeralǎ este pri defiiţie: k (x j x) j δ = k j 8
4 Parametrii şi statistici ale poziţiei Parametrii şi statistici ai poziţiei se folosesc petru a descrie locaţia uei date î raport cu celelalte date. Defiiţia 4.. Quatilele sut valori umerice care împart setul de date î q grupe egale. Costata q se umeşte ordiul quatilei. Mediaa este quatila de ordiul doi. Quatilele de ordiul patru împart setul de date î patru grupe egale şi se umesc quartile. Quartilele sut î umǎr de trei, otate de obicei cu Q, Q, Q 3. De exemplu, quartila Q este u umǎr cu proprietatea cǎ o pǎtrime di date au valori mai mici decât Q şi trei pǎtrimi di date au valori mai mari decât Q. Alte categorii de quatile folosite sut: - decilele care împart setul de date î 0 grupe egale. - cetilele care împart setul de date î 00 grupe egale. - promilele care împart setul de date î 000 grupe egale. Orice set de date are 99 de cetile P k, k =..99. Cetila P k este o valoare umericǎ cu proprietatea cǎ k% di date are valori mai mici decât P k, iar (00 k)% di date au valori mai mari decât P k. Deducem cǎ: Q = P 5 ; Q 3 = P 75 ; m e = Q = P 50 Procedeul de determiare a cetilei P k este urmǎtorul: ) datele se ordoeazǎ crescǎtor; ) trebuie gǎsitǎ poziţia i a cetilei k. Prima oarǎ se determiǎ umǎrul k 00, ude este umǎrul de date. Dacǎ k 00 îtreg urmǎtor ( k 00 este k 00 i = 3.5). + 0.5 ( k 00 = 3 u este u umǎr îtreg, atuci i este umǎrul = 7. i = 8). Dacǎ k 00 este u umǎr îtreg, atuci i 3) localizarea valorii P k : se umǎrǎ de la valoarea L (cea mai micǎ valoare a datelor) i valori dacǎ i este îtreg. Dacǎ i u este îtreg atuci este u îtreg plus o jumǎtate. Î acest caz valoarea P k este semisuma datelor de pe locurile k 00 şi k 00 + O statisticǎ adiţioalǎ a poziţiei este scorul stadard sau z-scor. Defiiţia 4.. Scorul stadard sau z-scorul este poziţia valorii x faţǎ de mediaa x î uitǎţi de deviaţie stadard: z = x x s 9