CURS STATISTICĂ CURS 1 Bibliografie: 1. P. Blaga, Calculul probabilităţilor şi statistică matematică, vol. 2, Curs şi Culegere de probleme, Litografiat Univ. Babeş-Bolyai, Cluj-Napoca, 1994 2. P. Blaga, Statistică prin Matlab, Presa Universitară Clujeană, 2002 3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003 4. R. Trîmbiţaş, Metode statistice, Presa Universitară Clujeană, Cluj-Napoca, 2000
1. Noţiuni introductive Statistica se ocupă cu descrierea şi analiza numerică a fenomenelor de masă, dezvăluind particularităţile lor de volum, structură, dinamică, precum şi legile care le guvernează. Statistica joacă un rol tot mai important în diverse domenii de activitate. O analiză statistică a datelor experimentale sau observaţionale necesită stabilirea originii şi naturii datelor considerate. (Lat. status=stat, stare de fapt)
Modele de probabilitate Elemente aleatoare într-o analiză statistică strânsă conexiune între probabilităţi şi statistică. 2 repetări a unei cercetări pot conduce la rezultate diferite. Cauza: experimentul nu se repetă în exact aceleaşi condiţii. Rezultate similare la repetarea experimentului în aceleaşi condiţii experimentul este deterministic. Natura deterministă a ştiinţei permite folosirea teoriei ştiinţifice pentru prezicerea unor rezultate în anumite condiţii date. Există experimente a căror rezultat variază in ciuda eforturilor de a păstra condiţiile experimentale constante, de ex.: aruncarea
zarului, aruncarea monezii, alegerea unei cărţi dintr-un pachet de cărţi de joc. Apar în toate domeniile de activitate, de ex.: seminţe aparent identice produc plate de înalţimi diferite, lungimea vieţii este diferită pentru persoane care trăiesc în condiţii similare, etc. Experimentele care nu sunt deterministe, care în condiţii identice nu produc acelaşi rezultat, se numesc experimente aleatoare. Probabilităţile şi statistica se ocupă cu analiza experimentelor aleatoare.
Exemplu. Aruncarea unui zar (Teoria probabilităţilor îşi are începuturile în studiul jocului de aruncare a zarurilor.) Aruncăm un zar pe o masă. Notăm cu X numărul de puncte ce apar pe faţa zarului după aruncare. Experimentul nu e deterministic deoarece X poate fi oricare dintre numerele 1,2,3,4,5,6 şi nu se poate prezice. Putem face orice efort să controlăm condiţiile experimentale prin aşezarea zarului în cupă în aceeaşi poziţie, prin scuturarea cupei de un număr constant, prin aruncarea în aceeaşi parte a mesei, etc. In ciuda eforturilor rezultatele rămân variabile şi neprevăzute. Deşi rezultatul unei repetări a unui experiment nu poate fi prevăzut, totuşi o succesiune de repetări coduce la o stabilitate care serveşte ca bază pentru preziceri destul de exacte.
Considerăm valorile lui X după 10 repetări: Repetarea 1 2 3 4 5 6 7 8 9 10 X 6 3 2 1 5 6 1 3 5 2 Considerăm evenimentul: Valoarea lui X este mai mică decât 3. Acest eveniment are loc la repetările 3, 4, 7, 10. Deci are loc la 4 repetări din 10. Frecvenţa relativă de apariţie este f = 4 10 = 0.4. Considerăm 20 de serii a câte 10 repetări, prima fiind cea de mai sus. 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.6 0.6 0.2 0.4 0 0.3 0.7 0.5 0.2 0.1 0.5 0.3 0.3 0.3 0.6 0.4 0.3 0.1 0.2
Reprezentăm grafic aceste date: 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 f(x<3) 0.5 f(x<3) 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 2 4 6 8 10 12 14 16 18 20 Seria 20 de serii de 10 repetări 0 0 2 4 6 8 10 12 14 16 18 20 Seria 20 de serii de 50 repetări Se observă că f(x < 3) nu depăşeşte 0.7. Experimentul sugerează că o valoare mai mare de 0.7 nu se obţine foarte des. Avem 0 < f(x < 3) < 0.7
Dacă se consideră 20 de serii a câte 50 de repetări se va obţine ca 0.2 < f(x < 3) < 0.48. Deci, cu cât este mai mare seria de repetări cu atât frecvenţa este mai puţin variabilă şi mai uşor de prezis. Dacă se consideră un număr suficient de mare de repetări frecvenţa poate deveni aproape constantă. Frecvenţa relativă oscilează în jurul unei valori care este probabilitatea evenimentului.
Etapele cercetării statistice: Concepte de bază ale statisticii 1. Definirea obiectului studiat: conţine definirea unităţilor statistice, conceperea chestionarului, planificarea culegerii datelor. 2. Observarea statistică: culegerea, înregistrarea datelor. 3. Descrierea statistică: reprezentarea grafică a datelor statistice, sistematizarea acestora, calcularea indicatorilor numerici pentru punerea în evidenţă a unor proprietăţi şi pentru sugerarea unor ipoteze referitoare la legile care guvernează fenomenul cercetat.
4. Modelarea probabilistică: cercetarea fenomenului folosind ca instrument de lucru teoria probabilităţilor relativă la datele statistice obţinute. Definiţia 1 Numim colectivitate (populaţie) o mulţime C de elemente cercetată din punct de vedere al unei sau mai multor proprietăţi. Elementele componente se numesc indivizi sau unităţi statistice. Numărul elementelor colectivităţii se numeşte volumul colectivităţii. Definiţia 2 Numim caracteristică sau variabilă a colectivităţii C proprietatea supusă investigării statistice relativă la C. Când o caracteristică poate fi măsurată o numim caracteristică cantitativă sau numerică, iar dacă aceasta se exprimă printr-o însuşire o numim caracteristică calitativă.
Caracteristici cantitative: greutate, volum, concentraţie. Caracteristici calitative: profesiune, sex, culoarea ochilor, grupa sanguină. Observaţia 3 Din punct de vedere al teoriei probabilităţilor o caracteristică a unei populaţii C este o variabilă aleatoare X. Scopul principal al cercetării statistice este de a stabili legea de probabilitate pe care o urmează caracteristica X, utilizând observaţiile (datele statistice) relative la colectivitatea cercetată. Definiţia 4 O caracteristică X ce ia o mulţime numărabilă de valori se numeşte caracteristică de tip discret, iar dacă ia valori într-un interval se numeşte caracteristică de tip continuu.
Exemplul 5 C-mulţimea bolnavilor externaţi pe parcursul unei săptămâni; X-numărul zilelor de internare avute; Y-greutatea bolnavilor externaţi X,Y-caracteristici ale lui C X de tip discret (nr. finit de valori) Y de tip continuu (valori într-un interval, [45kg,145kg])
2. Culegerea, prezentarea şi prelucrarea datelor statistice Tehnici de culegere a datelor: 1. Observarea totală (recensământ): când toţi indivizii colectivităţii C sunt înregistraţi; 2. Observarea parţială (sondaj, selecţie): când, după criterii bine stabilite, sunt înregistraţi o parte dintre indivizii colectivităţii C, numită eşantion sau selecţie; 3. Observarea curentă: când înregistrarea indivizilor se face odată cu apariţia (producerea) lor;
4. Observarea perodică: când înregistrarea indivizilor se face la intervale de timp stabilite. 2.1 Tabele statistice Definiţia 6 Numim tabel statistic (nesistematizat) un tablou în care înregistrările sunt trecute în ordinea apariţiei lor. Definiţia 7 Numim tabel statistic (sistematizat) relativ la caracteristica X de tip discret, tabloul care conţine valorile distincte ale caracteristicii şi frecvenţele de apariţie a acestora. Considerăm caracteristica X de tip discret pentru care se obţin datele primare x 1,..., x N. Aceasta ia valorile distincte x i, i =
1,..., n. Tabelul statistic sistematizat este de forma: x f x 1 f 1 x 2. f 2. x n unde f i este frecvenţa absolută de apariţie a valorii x i în datele primare x k, k = 1,..., N. f n Are loc relaţia n i=1 f i = N. Fie caracteristica de tip continuu X, care ia valori în intervalul (a, b), descompus în intervale disjuncte prin punctele care satisfac
relaţiile: Avem (a 0, a 1 ) ( n a = a 0 < a 1 <... < a n = b. [a i 1, a i ) i=2 ) = (a, b) şi [a i 1, a i ) [a j 1, a j ) =. Definiţia 8 Intervalele disjuncte [a i 1, a i ), i = 1,..., n se numesc clase. Definiţia 9 Numim tabel statistic (sistematizat) relativ la caracteristica X de tip continuu, tabloul care conţine clasele caracteristicii şi frecvenţele de apariţie a acestor clase. Dacă datele primare ale caracteristicii continue X, care ia valori în intervalul (a, b), sunt x 1,..., x N atunci tabelul statistic sistematizat
este de forma: x f (a 0, a 1 ) f 1 [a 1, a 2 ) f 2.. [a n 1, a n ) f n sau x f x 1 f 1 x 2. f 2. x n f n unde f i este frecvenţa absolută de apariţie a clasei [a i 1, a i ) printre datele primare x k, k = 1,..., N, iar x i = a i 1+a i 2. Definiţia 10 Numim amplitudinea clasei, definită de intervalul [a i 1, a i ), lungimea acestui interval, adică d i = a i a i 1. Când amplitudinile claselor sunt egale sunt utilizate frecvent 2 reguli de stabilire a numărului lor: n = [1 + 103 ] lg N regula lui Sturges
sau d = 8 100 (x max x min ), unde x max = max{x 1,..., x N } şi x min = min{x 1,..., x N }. Pentru regula lui Sturges se obţine: d = b a şi a i = a + id, i = 0,..., n. n Când (a, b) este infinit atunci d = x max x min n şi a i = x min + id, i = 0,..., n. (Aceste formule au rolul de a da o primă informaţie relativă la numărul claselor.)
Exemplu. Se analizează un lot de 30 de becuri din punct de vede al caracteristii X ce reprezintă durata de viaţă în mii de ore. Datele statistice obţinute sunt: 1.31 3.12 1.97 2.31 2.21 1.96 3.42 1.69 2.64 1.87 2.25 3.38 3.97 2.63 2.75 2.20 2.26 1.40 2.12 2.42 3.53 1.63 3.39 2.44 1.54 2.29 0.84 1.58 1.68 1.97 Scriem tabelul sistematizat al datelor statistice, considerând clase de amplitudini egale. Considerăm numărul claselor n = 5, a i = 0.8 + id, i = 0,...,5 cu d = x max x min n = 3.97 0.84 5 = 0.62
Se consideră d = 0.7. Se obţine x f (0.8, 1.5) 3 [1.5, 2.2) 10 [2.2, 2.9) 11 [2.9, 3.6) 5 [3.6, 4.3) 1 sau x f 1.15 3 1.85 10 2.55 11 3.25 5 3.95 1
CURS 2 2.1 Tabele statistice (continuare) Pentru caracteristica X de tip discret tabelul statistic sistematizat este de forma: x f x 1 f 1 x 2. f 2. x n f n unde f i este frecvenţa absolută de apariţie a valorii x i între datele primare x k, k = 1,..., N.
Pentru caracteristica X de tip continuu tabelul statistic sistematizat este de forma: x f (a 0, a 1 ) f 1 [a 1, a 2 ) f 2.. [a n 1, a n ) f n sau x f x 1 f 1 x 2. f 2. unde f i este frecvenţa absolută de apariţie a clasei [a i 1, a i ) printre datele primare x k, k = 1,..., N, iar x i = a i 1+a i 2. Definiţia 11 Numim frecvenţă relativă a clasei x i raportul p i = f i N. x n f n
Definiţia 12 Numim frecvenţe cumulate ascendente, respectiv frecvenţe cumulate descendente frecvenţele date de relaţiile F k = k i=1 unde F 0 = 0 şi F n = 0. f i, F k = n i=k+1 f i, k = 0,..., n, Pentru frecvenţele relative are loc relaţia n i=1 p i = 1, iar pentru cele cumulate au loc relaţiile F k + F k = N, F n = N şi F 0 = N.
Definiţia 13 Numim distribuţie statistică a caracteristii X tabloul de forma X ( xi f i ) i=1,...,n sau X ( xi p i ) i=1,...,n unde x i, i = 1,..., n sunt clasele considerate, iar f i şi p i, i = 1,..., n sunt frecvenţele absolute şi respectiv frecvenţele relative. Exemplul 14 Se analizează un lot de 30 de becuri din punct de vedere al caracteristii X ce reprezintă durata de viaţă în mii de ore. Tabelul sistematizat al datelor statistice, considerând 5
clase de amplitudini egale, este: x f (0.8, 1.5) 3 [1.5, 2.2) 10 [2.2, 2.9) 11 [2.9, 3.6) 5 [3.6, 4.3) 1 sau x f 1.15 3 1.85 10 2.55 11 3.25 5 3.95 1 Distribuţia statistică a caracteristii X poate fi scrisă, fie cu ajutorul frecvenţelor absolute: X ( 1.15 1.85 2.55 3.25 3.95 3 10 11 5 1 )
fie cu ajutorul frecvenţelor relative: ( 1.15 1.85 2.55 3.25 3.95 X 3 30 10 30 11 30 5 30 1 30 ). Definiţia 15 Fie colectivitatea C relativ la care sunt cercetate două caracteristici X şi Y. Numim tabel de contingenţă un tablou care conţine clasele caracteristicilor X şi respectiv Y, împreună cu frecvenţele absolute ale acestor clase. Dacă pentru caracteristicile X şi Y avem respectiv clasele date prin x i, i = 1,..., m şi y j, j = 1,..., n, iar datele primare sunt date prin perechile (x 1, y 1 ), (x 2, y 2 ),...,(x N, y N ), atunci tabelul de
contingenţă este de forma: X/Y y 1 y 2... y n x 1 f 11 f 12... f 1n f 1 x 2 f 21 f 22......... f 2n. f 2. x m f m1 f m2... f mn f m f 1 f 2... f n f = N unde f ij este frecvenţa absolută de apariţie a clasei (x i, y j ) între
datele primare (x k, y k ), k = 1,..., N şi f j = f i = f = m i=1 n f ij, f ij, j=1 n f j = j=1 m i=1 j = 1,..., n i = 1,..., m f i = m n i=1 j=1 f ij = N. Observaţia 16 Când caracteristicile X şi Y sunt caracteristici cantitative şi între ele există o relaţie de dependenţă, tabelul de contingenţă se numeşte tabel de corelaţie. Exemplul 17 Un astfel de tabel de corelaţie este prezentat pentru datele statistice ce reprezintă 85 de copii de 10 ani cercetaţi
din punct de vedere al înălţimii X (în cm) şi al greutăţii (în kg): X/Y 27 28 29 30 31 32 128 4 1 2 1 8 129 4 1 5 2 3 15 130 1 2 1 3 2 2 11 131 4 2 5 1 1 13 132 3 2 6 2 2 1 16 133 1 7 3 4 2 5 22 13 18 18 16 9 11 85 2.2. Reprezentări grafice Definiţia 18 Se numeşte diagramă prin batoane (bare) a distribuţiei statistice X de tip discret, reprezentarea grafică întrun sistem de axe rectangulare a segmentelor (batoanelor) date
prin {(x i, y) 0 y αf i }, i = 1,..., n, unde α > 0 este un factor de proporţionalitate, iar f i este frecvenţa absolută a valorii x i. 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 Definiţia 19 Se numeşte diagramă cumulativă (ascendentă) a unei distribuţii statistice X de tip discret, linia poligonală care uneşte punctele de coordonate (x 1, αf 0 ),(x 1, αf 1 ),(x 2, αf 1 )(x 2, αf 2 ),...,(x n, αf n )
unde F i este frecvenţa cumulată (ascendentă) ataşată valorii x i, iar α > 0 este un factor de proporţionalitate. Definiţia 20 Se numeşte histograma unei distribuţii statistice X de tip continuu, diagrama obţinută prin construirea de dreptunghiuri având drept baze clasele distribuţiei statistice şi înălţimile astfel considerate încât ariile dreptunghiurilor să fie proporţionale cu frecvenţele claselor. 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 3 2 1 0 1 2 3
Observaţia 21 Dacă factorul de proporţionalitate este 1 N atunci se obţine histograma frecvenţelor relative. Observaţia 22 Histograma frecveţelor relative a distribuţiei statistice reprezintă o aproximare rudimentară a graficului densităţii de probabilitate a caracteristicii X. Definiţia 23 Numim poligonul frecvenţelor unei distribuţii statistice X de tip continuu, poligonul obţinut prin unirea punctelor de coordonate (x i, α i f i ), i = 1,..., n, unde α i este un factor de proporţionalitate, iar f i este frecvenţa clasei x i. 1200 Poligonul frecventelor 1000 800 600 400 200 0 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2
Definiţia 24 Numim diagrame integrale (cumulative) ale frecvenţelor cumulate ascendente, respectiv descendente, relative la distribuţia statistică X de tip continuu, liniile poligonale obţinute prin unirea punctelor de coordonate (a k, F k ), k = 0,..., n, şi respectiv (a k, F k ), k = 0,..., n. 100 Diagrama ascendenta si Diagrama descendenta 90 80 70 60 50 40 30 20 10 0 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 Definiţia 25 Numim nor statistic ataşat caracteristicilor X şi Y, punctele din plan obţinute prin reprezentarea grafică a datelor primare (x k, y k ), k = 1,..., N.
7 6 5 4 3 2 1 0 1 2 3 2 1 0 1 2 3 4 2.3. Parametrii distribuţiilor statistice Se consideră datele primare x k, k = 1,..., N relative la caracteristica X, pentru care avem distribuţia statistică X ( xi f i ) i=1,...,n Definiţia 26 Media (aritmetică) a distribuţiei statistice a carac-.
teristicii X este dată prin x a = 1 N N x k = 1 N n f k x k = n p k x k. Definiţia 27 Media geometică a distribuţiei statistice a caracteristicii pozitive X este dată prin x g = N x 1 x 2...x N = N x f 1 1 x f 2 2...x f n n. Observaţia 28 In aplicaţii se lucrează mai uşor cu lg x g = 1 N N lg x k = 1 N n f k lg x k = n p k lg x k.
Definiţia 29 Media armonică a distribuţiei statistice a caracteristicii nenule X este dată prin x h = N N 1 x k = N n = f k x k 1 n. p k x k Lema 30 Fie x i > 0, i = 1,..., n. Are loc relaţia: n 1 x +... + 1 n x 1...x n x 1 +... + x n. (1) n 1 x n Demonstraţie. Fie f : (0, ) R, f(x) = ln x. Aceasta este concavă pe (0, ). Conform inegalităţii lui Jensen are loc ( ) x1 +... + x n f f(x 1) +... + f(x n ) = ln x 1 +... + ln x n = ln n x 1...x n, n n n
de unde rezultă n x1...x n x 1 +... + x n. n Pentru prima inegalitate se ia în a doua x i := 1, i = 1,..., n. x i Consecinţă. Din (1) rezultă că are loc relaţia între medii: x h x g x a. Definiţia 31 Se numeşte mediana distribuţiei statistice a caracteristii X, valoarea numerică m care împarte datele statistice, ordonate crescător, în două părţi egale.
Fie datele statistice primare: Atunci mediana va fi dată prin m = x (1) x (2)... x (N). x, dacă N = 2k 1, (k) x (k) +x (k+1) 2 dacă N = 2k. Când datele statistice sunt grupate se determină intervalul median [a j 1, a j ) astfel încât pentru frecvenţele cumulate F j 1 şi F j să fie satisfăcute inegalităţile F j 1 < N 2 < F j. Folosind apoi interpolarea liniară se ia ca mediană m = a j 1 + d j N 2 F j 1 f j,
unde d j este amplitudinea intervalului median. Semnificaţie: Se consideră punctele A(a j 1, F j 1 ) şi B(a j, F j ). Dreapta AB are ecuaţia: Tinând cont că x a j 1 a j a j 1 = y F j 1 F j F j 1. (2) a j a j 1 = d j şi F j F j 1 = f j ecuaţia (2) devine x = a j 1 + d j f j (y F j 1 ).
Mediana este abscisa punctului de ordonată N/2. Definiţia 32 Numim cuartile ale distribuţiei statistice a caracteristicii X, valorile numerice care împart datele statistice, ordonate crescător, în patru părţi egale: Q 1 (cuartila inferioară), Q 2 = m, Q 3 (cuartila superioară),. Când datele statistice sunt grupate se determină intervalul cuartilic inferior [a i 1, a i ) astfel încât să aibă loc: F i 1 < N 4 < F i, respectiv intervalul cuartilic superior [a k 1, a k ) astfel încât: F k 1 < 3N 4 < F k.
Folosind interpolarea liniară se consideră Q 1 = a i 1 + d i N 2 F i 1 f i, Q 3 = a k 1 + d k N 2 F k 1 f k. Observaţia 33 In mod analog se definesc decilele şi centilele. Definiţia 34 Se numeşte abatere cuartilă (interval intercuartilic) a distribuţiei statistice a caracteristicii X, diferenţa între cuartila superioară şi cuartila inferioară, adică Q 3 Q 1. Definiţia 35 Se numeşte variaţie intercuartilă: Q = (Q 3 m) + (m Q 1 ) 2 = Q 3 Q 1 2
şi abatere cuartilă relativă: Q r = Q 3 Q 1 m.
CURS 3 2.3. Parametrii distribuţiilor statistice (continuare) Se consideră datele primare x k, k = 1,..., N relative la caracteristica X, pentru care avem distribuţia statistică X ( xi f i ) i=1,...,n Definiţia 36 Numim cuartile ale distribuţiei statistice a caracteristicii X, valorile numerice care împart datele statistice, ordonate crescător, în patru părţi egale: Q 1 (cuartila inferioară), Q 2 = m, Q 3 (cuartila superioară),..
Când datele statistice sunt grupate se determină intervalul cuartilic inferior [a i 1, a i ) astfel încât să aibă loc: F i 1 < N 4 < F i, respectiv intervalul cuartilic superior [a k 1, a k ) astfel încât: F k 1 < 3N 4 < F k. Folosind interpolarea liniară se consideră Q 1 = a i 1 + d i N 2 F i 1 f i, Q 3 = a k 1 + d k N 2 F k 1 f k. Observaţia 37 In mod analog se definesc decilele şi centilele.
Definiţia 38 Se numeşte abatere cuartilă (interval intercuartilic) a distribuţiei statistice a caracteristicii X, diferenţa între cuartila superioară şi cuartila inferioară, adică Q 3 Q 1. Definiţia 39 Se numeşte variaţie intercuartilă: Q = (Q 3 m) + (m Q 1 ) 2 şi abatere cuartilă relativă: Q r = Q 3 Q 1 m. = Q 3 Q 1 2 Definiţia 40 Numim mod al distribuţiei statistice a caracteristicii X orice punct mo de maxim local al distribuţiei statistice. Când distribuţia statistică are un singur mod spunem că avem distribuţie statistică unimodală. Dacă există două sau mai
multe moduri se numeşte distribuţie statistică bimodală, respectiv multimodală. Când datele statistice sunt grupate, pentru determinarea modului se determină intervalul modal, adică intervalul cu frecvenţa maximă locală. Dacă intervalul modal este [a k 1, a k ), atunci se consideră f mo = a k 1 + d k k, (3) f k f k+1 unde d k = a k a k 1, f k = f k f k 1, f k+1 = f k+1 f k. Formula se obţine ca intersecţie a interpolantului liniar al punctelor (a k 1, f k 1 ) şi (a k, f k ) cu interpolantul liniar al punctelor (a k 1, f k ) şi (a k, f k+1 ).
Interpolatul liniar al punctelor (a k 1, f k 1 ) şi (a k, f k ) este: y f k 1 f k f k 1 = x a k 1 a k a k 1 y = f k 1 + f k d k (x a k 1 ) şi interpolantul liniar al punctelor (a k 1, f k ) şi (a k, f k+1 ) este: y f k f k+1 f k = x a k 1 a k a k 1 y = f k + f k+1 d k (x a k 1 ). Modul este abscisa punctului de intersecţie, adică f k 1 + f k d k (mo a k 1 ) = f k + f k+1 d k (mo a k 1 ) de unde rezultă (3). (mo a k 1 ) f k f k+1 d k = f k,
Exemplul 41 Tabelul sistematizat pentru caracteristica X de tip discret: x f 1.5 6 2.2 4 2.9 10 3.6 5 4.3 1 Modurile sunt: mo 1 = x 1 = 1.5 şi mo 2 = x 3 = 2.9.
Tabelul sistematizat pentru caracteristica X de tip continuu: x f (0.8, 1.5) 3 [1.5, 2.2) 10 [2.2, 2.9) 11 [2.9, 3.6) 5 [3.6, 4.3) 1 Intervalul modal este:[a 2, a 3 ] = [2.2,2.9). Avem d 3 = a 3 a 2 = 0.7, f 3 = f 3 f 2 = 1, f 4 = f 4 f 3 = 6. Rezultă că modul este: f mo = a k 1 + d k k = 2.9 + 0.7 1 f k f k+1 1 + 6 = 3.
Definiţia 42 Numim moment de ordin k al distribuţiei statistice a caracteristicii X, valoarea numerică ν k = 1 N N i=1 x k i = 1 N n i=1 f i x k i = n i=1 p i x k i. Parametrii distribuţiilor statistice prezentaţi măsoară tendinţa. In continuare sunt daţi parametrii care măsoară împrăştierea (dispersarea) datelor statistice. Definiţia 43 Se numeşte amplitudine (interval de variaţie) a distribuţiei statistice a caracteristicii X, valoarea numerică ω = max{x 1, x 2,..., x N } min{x 1, x 2,..., x N } = x max x min.
Observaţia 44 Dacă abaterea cuartilă Q 3 Q 1 < ω 2 atunci distribuţia se consideră intens concentrată, iar în caz contrar, intens dispersată. Definiţia 45 Numim abatere medie (absolută) a distribuţiei statistice X, valoarea numerică δ = 1 N unde x = x a. N i=1 x i x = 1 N n i=1 f i x i x = n i=1 p i x i x, Definiţia 46 Numim moment centrat de ordin k al distribuţiei statistice X, valoarea numerică µ k = 1 N N i=1(x i x)k = 1 N n i=1 f i (x i x) k = n i=1 p i (x i x) k.
Definiţia 47 Momentul centrat de ordinul 2 al distribuţiei statistice X se numeşte dispersie şi se notează cu σ 2 = µ 2, iar σ = µ 2 se numeşte abatere medie pătratică sau abatere standard. Alte formule de calcul pentru dispersie: σ 2 = 1 N σ 2 = 1 N n i=1 f i x 2 i 1 N n i=1 n i=1 f i x i 2 f i (x i a) 2 ( x a) 2, a R (Formula lui König). Definiţia 48 Numim coeficient de variaţie al distribuţiei statistice X, raportul v = σ x,
care se exprimă în procente. Definiţia 49 Se numesc coeficienţii lui Pearson relativi la distribuţia statistică X, rapoartele: s = β 1 = µ2 3 µ 3 2 β 2 = µ 4 µ 2 2 x mo σ Coeficientul de asimetrie Skewness Kurtosis.
Definiţia 50 Se numesc coeficienţii lui Fisher relativi la distribuţia statistică X, valorile numerice: γ 1 = β 1 = µ 3 σ 3 γ 2 = β 2 3 = µ 4 µ 2 2 Asimetria 3 = µ 4 σ 4 3 Excesul. Pentru legea normală avem: 1 µ 3 = R (x x)3 e (x m)2 2σ 2 dx = 1 2πσ 2πσ R y3 e y 2 2σ 2 dy = 0 = γ 1 = 0 Considerând I(r) := 1 2π R x2r e x2 2 dx = (2r 1)!!
se obţine µ 4 = 1 (x 2πσ R x)4 e (x m) 2 2σ 2 dx = σ4 2π R y4 e y2 2 dy = σ 4 I(2) = 3σ 4 = γ 2 = 0 Observaţie. Coeficienţii lui Fisher (asimetria şi excesul) pentru legea normală sunt 0. Proprietăţi. 1) Suma algebrică a abaterilor valorilor caracteristicii X de la valoarea medie a acesteia este nulă. N (x n i x) = f i (x i x) = i=1 i=1 n i=1 f i x i N x = n i=1 f i x i N 1 N n i=1 f i x i = 0
2) Momentul centrat µ k se poate exprima în funcţie de momentele ν j, j = 0,..., k. µ k = 1 N = k j=0 N i=1(x i x)k = 1 N ( 1) j C j k xj N i=1 N k i=1 j=0 1 N (x i )k j = ( 1) j C j k (x i )k j x j k j=0 ( 1) j C j k xj ν k j. 3) Fie caracteristicile X şi Y. Dacă Y = ax + b atunci β 2 şi γ 2 coincid, pentru X şi Y. β 2 (Y ) = µ 4(Y ) µ 2 2 (Y ) = a4 µ 4 (X) (a 2 σ 2 ) 2 = β 2 (X) γ 2 = β 2 3. (Se verifică uşor că µ k (Y ) = a k µ k (X).)
4) Mediana este mai stabilă decât media în raport cu fluctuaţiile valorilor caracteristicii X. De exemplu, mediana nu se modifică prin înlăturarea valorilor extreme (x min, x max ) ale şirului valorilor caracteristicii X.
CURS 4 2.4. Corelaţie şi regresie Corelaţie = legatura care există între o caracteristică dependentă şi una sau mai multe caracteristici independente. Regresia = metoda prin care se stabileşte această legătură. 2.4.1. Parametrii distribuţiilor statistice bidimensionale Fie caracteristicile cantitative X şi Y relative la colectivitatea C. Datele statistice primare sunt (x k, y k ), k = 1,..., N. După grupare
se reprezintă în tabelul de corelaţie: X/Y y 1 y 2... y n x 1 f 11 f 12... f 1n f 1 x 2 f 21 f 22......... f 2n. f 2. x m f m1 f m2... f mn f m f 1 f 2... f n f = N unde f ij este frecvenţa absolută de apariţie a clasei (x i, y j ) între datele primare (x k, y k ), k = 1,..., N. Definiţia 51 Numim moment de ordinul (k 1, k 2 ) al distribuţiei
statistice a caracteristicii bidimensionale (X, Y ), valoarea numerică ν k1,k 2 = 1 N = N i=1 m n i=1 j=1 x k 1 i y k 2 i = 1 N p ij x k 1 i y k 2 j, m n i=1 j=1 f ij x k 1 i y k 2 j unde p ij = f ij N este frecvenţa relativă a clasei (x i, y j ).
Definiţia 52 Numim moment centrat de ordinul (k 1, k 2 ) al distribuţiei statistice a caracteristicii bidimensionale (X, Y ), valoarea numerică µ k1,k 2 = 1 N unde = m N i=1(x i x)k 1(y i ȳ)k 2 = 1 N n i=1 j=1 x = ν 10 = 1 N p ij (x i x) k 1(y j ȳ) k 2, m m n i=1 j=1 i=1 f i x i, ȳ = ν 01 = 1 N f ij (x i x) k 1(y j ȳ) k 2 n j=1 f j y j.
Dispersiile pentru distribuţiile statistice ale caracteristicilor X şi Y sunt date de: σ 2 X = µ 20 = 1 N m i=1 f i (x i x) 2, σ 2 Y = µ 02 = 1 N n j=1 f j (y j ȳ) 2. Definiţia 53 Numim coeficient de corelaţie (al lui Pearson) al distribuţiei statistice bidimensionale (X, Y ), raportul r = µ 11 = ν 11 xȳ. µ20 µ02 σ X σ Y Observaţia 54 1) Are loc r 1. 2) Dacă r = 1 atunci a 0, b R astfel încât Y = ax + b, şi reciproc.
3) Dacă r = 0 atunci cele 2 caracteristici sunt necorelate. 4) Dacă caracteristica bidimensională (X, Y ) urmează legea normală bidimensională, atunci r = 0 implică faptul că cele două caracteristici sunt independente. 5) Folosind datele statistice negrupate formula de calcul pentru coeficientul de corelaţie este: N ( x i x ) ( y i y) r = N i=1 ( x i x ) 2 N ( y i y ) 2 i=1 i=1 Definiţia 55 Se numeşte valoare medie condiţionată a distribuţiei statistice a caracteristicii Y în raport cu X = x i, valoarea nu-
merică y i = y(x i ) = 1 f i n j=1 f ij y j, i = 1,..., m, şi respectiv valoare medie condiţionată a distribuţiei statistice a caracteristicii X în raport cu Y = y j, valoarea numerică x j = x(y j ) = 1 f j m i=1 f ij x i, j = 1,..., n. Definiţia 56 Se numeşte dispersie condiţionată a distribuţiei statistice a caracteristicii Y în raport cu X = x i, valoarea numerică σ 2 Y x i = 1 f i n j=1 f ij (y j y i ) 2, i = 1,..., m,
şi respectiv dispersie condiţionată a distribuţiei statistice a caracteristicii X în raport cu Y = y j, valoarea numerică σ 2 X y j = 1 f j m i=1 f ij (x i x j ) 2, j = 1,..., n. Definiţia 57 Se numeşte dispersie condiţionată a distribuţiei statistice a lui Y în raport cu distribuţia statistică a lui X, valoarea numerică σ 2 Y X = 1 N m i=1 f i σ 2 Y x i = m i=1 p i σ 2 Y x i, şi respectiv dispersie condiţionată a distribuţiei statistice a lui X în raport cu distribuţia statistică a lui Y, valoarea numerică σ 2 X Y = 1 N n j=1 f j σ 2 X y j = n j=1 p j σ 2 X y j,
unde p i = f i N este frecvenţa relativă a clasei x i, iar p j = f j N este frecvenţa relativă a clasei y j. Dispersiile condiţionate satisfac relaţiile σ 2 Y = σ2 Y X + σ2 Y X, σ2 X = σ2 X Y + σ2 X Y, unde σ 2 Y X = 1 N m i=1 f i (y i y) 2 şi σ 2 X Y = 1 N sunt dispersiile valorilor medii condiţionate. n j=1 f j (x j x) 2, Definiţia 58 Numim raport de corelaţie al distribuţiei statistice a caracteristicii Y faţă de distribuţia statistică a lui X, val-
oarea numerică η Y X = 1 σ2 Y X σ 2 Y = σ2 Y X σ 2 Y, analog avem η X Y = 1 σ2 X Y σ 2 X = σ2 X Y σ 2 X. Observaţia 59 1) η Y X = 0 = σ 2 Y X = 0 = y = y i, i = 1,..., m. 2) η Y X = 1 = σ 2 Y X = 0 = σ2 Y x i = 0, i = 1,..., m, adică valorile caracteristicii Y sunt aceleaşi.
Coeficientul lui Spearman Considerăm datele primare (x i, y i ), i = 1,..., N. Fie (u k, v k ), k = 1,.., N rangurile datelor statistice primare obţinute printr-o ordonare crescătoare după prima, respectiv a doua componentă. Definiţia 60 Se numeşte coeficient de corelaţie al rangurilor sau coeficientul lui Spearman, valoarea numerică s = r(u, V ), unde U şi V sunt caracteristicile care definesc rangurile datelor statistice pentru X şi Y. Teorema 61 Dacă notăm d k = u k v k, k = 1,..., N diferenţa dintre rangurile aceluiaşi individ atunci s = 1 6 N(N 2 1) N d 2 k.
Demonstraţie. Prin definiţie se obţine s = r(u, V ) = Avem µ 11 µ20 µ02 = ū = v = 1 N 1 N N 1 N N (u k ū)(v k v) (u k ū) 2 1 N N N + 1 (1 + 2 +... + N) =. 2 (v k v) 2.
şi α := = N N (u k ū) 2 = k 2 2 N + 1 2 N N N(N + 1)(2N + 1) = 6 = N(N2 1). 12 Analog, N ( k N + 1 2 k + ( N + 1 2 2 N + 1 2 ) 2 ) 2 N N(N + 1) 2 (v k v) 2 = N(N2 1). 12 1 (N + 1)2 + N 4
Pentru numărător avem d 2 k = (u k v k ) 2 = (u k ū + v v k ) 2 = (u k ū) 2 + ( v v k ) 2 2(u k ū)( v v k ). Insumând se obţine N de unde rezultă că d 2 k = α + α 2 N N In final se obţine (u k ū)(v k v) = α 1 2 (u k ū)(v k v), N d 2 k. s = N α 1 2 d 2 k = 1 1 12 α α 2N(N 2 1) N d 2 k.
Proprietatea 62 1) Coeficientul lui Spearman verifică relaţiile 1 s 1. 2) s = 1 când cele 2 clasamente pentru caracteristicile X şi Y coincid. 3) s = 1 când cele 2 clasamente pentru caracteristicile X şi Y sunt inverse unul celuilalt ((1, N),(2, N 1),...,(N,1)). 4) s = 0 când caracteristicile X şi Y sunt independente. 5) Când există două sau mai multe date statistice primare care au aceeaşi valoare, atunci rangurile acestora se consideră toate
egale cu media aritmetică a rangurilor pe care le ocupă aceste date în ordonarea crescătoare. Coeficientul lui Kendall Definiţia 63 Se numeşte coeficientul lui Kendall relativ la distribuţia statistică a caracteristicii bidimensionale (X, Y ), raportul unde t = N i,j=1 i<j k = 2 t N(N 1), sign{(x j x i )(y j y i )}.
Proprietatea 64 1) Coeficientul lui Kendall satisface relaţiile 1 k 1. 2) Pentru k = 1 cele 2 clasamente pentru caracteristicile X şi Y sunt indentice. 3) Pentru k = 1 cele 2 clasamente pentru caracteristicile X şi Y sunt inverse unul celuilalt. 4) Pentru k = 0 caracteristicile X şi Y sunt independente. 5) Când în cele două clasamente sunt valori egale se înlocuiesc toate rangurile pentru valorile egale prin media aritmetică a rangurilor pe care le ocupă în ordonare.
Pentru calculul rapid al lui k se poate proceda după cum urmează. Se ordonează datele primare ( x k, y k), k = 1, N, în mod crescător după prima componentă: ( x ik, y i k ), k = 1, N, cu x i1 x i 2 x i N. Se calculează apoi numărul t = obţinându-se astfel k. N u,v=1 u<v sign ( y i v y i u ), Formula lui Daniels Coeficientul r de corelaţie (al lui Pearson), coeficientul s al lui Spearman şi coeficientul k al lui Kendall se pot exprima prin
formula unică D = N N a ij b ij i=1 j=1 N N a 2 N N ij b 2 ij i=1 j=1 i=1 j=1 Dacă a ij = x i x j, b ij = y i y j, atunci D = r. Dacă a ij = u i u j, b ij = v i v j, atunci D = s. Dacă a ij = sign ( x i x j), bij = sign ( y i y j), atunci D = k.
CURS 5 2.4.2. Curbe de regresie. Regresie liniară Definiţia 65 Curba de ecuaţie y = f(x) pe care se situează punctele de coordonate (x i, ȳ i ), i = 1,..., m se numeşte curba de regresie a lui Y în raport cu X, iar curba de ecuaţie x = f(y) pe care se situează punctele de coordonate ( x j, y j ), j = 1,..., n se numeşte curba de regresie a lui X în raport cu Y. y=f(x) y y i y j x i x x j x=f(y)
Determinarea curbelor de regresie Determinarea ecuaţiilor curbelor de regresie se face prin metoda celor mai mici pătrate. Presupunem că prin reprezentarea punctelor (x i, y i ), i = 1, m, curba de regresie a lui Y în raport cu X este de forma y = y (x) = f (x; a 1, a 2,..., a s ). Se determină parametrii a k, k = 1, s, astfel încât S (a 1, a 2,..., a s ) = să fie minimă. = ( N i=1 m y i y ( x i n i=1 j=1 ) ) 2 = m n i=1 j=1 f ij (y j y (x i ) f ij (y j f (x i ; a 1, a 2,..., a s ) ) 2 ) 2
Punctul de minim (a 1, a 2,..., a s ) al funcţiei S se obţine prin rezolvarea sistemului normal de ecuaţii, rezultat din ) S m n f (xi ; a = 2 f ij (y j f (x i ; a 1, a 2,..., a 1, a 2,..., a s ) s ) = 0, a k a k i=1 j=1 pentru k = 1, s. Ecuaţia curbei de regresie va fi y = f (x; a 1, a 2,..., a s ). La fel se determină şi ecuaţia curbei de regresie a lui X în raport cu Y. Drepte de regresie Cazul liniar când ecuaţia curbei de regresie este y = y (x) = ax+b. Ecuaţiile dreptelor de regresie a lui Y în raport cu X şi, respectiv,
a lui X în raport cu Y sunt: şi y y = r σ Y σ X (x x) x x = r σ X σ Y (y y). Coeficientul unghiular al dreptei de regresie a lui Y în raport cu X, notat cu a Y X = r σ Y σ X, se numeşte coeficientul de regresie al lui Y în raport cu X şi a X Y = r σ X σ Y se numeşte coeficientul de regresie al lui X în raport cu Y.
Avem r = a Y X a X Y şi sign ( a X Y ) = sign ( ay X ). Unghiul α format de cele două drepte de regresie este dat prin relaţia tg α = 1 r2 σ X σ Y r 2 σ 2 X + σ2 Y Folosind această relaţie se pot trage următoarele concluzii: Dacă r = 1 atunci α = 0, deci dreptele de regresie se confundă, cu specificaţia că pentru r = 1 dreptele au panta
(coeficientul unghiular) negativă, iar pentru r = 1 panta este pozitivă. Dacă X şi Y sunt independente atunci r = 0, deci α = π 2 (dreptele de regresie sunt perpendiculare). Tipuri de curbe de regresie care pot fi liniarizate sunt: 1. y = ab x (exponenţială), care prin logaritmare se liniarizează log y = log a + x log b, luând z = log y, A = log a, B = log b = z = A + Bx 2. y = x a +b (hiperbolică), care se liniarizează dacă se notează z = 1 x
3. 1 y = x a + b sau y = a +b, 1 care se liniarizează dacă se notează u = 1 x, v = 1 y x 4. y = alog x + b (logaritmică), care se liniarizează dacă se notează z = log x 5. y = be ax (exponenţială), care prin logaritmare se liniarizează ln y = ln b + ax, luând z = ln y 6. y = be a x, care prin logaritmare se liniarizează ln y = ln b + a x, luând u = 1 x, v = ln y 7. y = bx a, care prin logaritmare se liniarizează, log y = log b + alog x, luând u = log x, v = log y
8. 1 y = ae x + b sau y = 1 ae x,care se liniarizează dacă se +b fac notaţiile u = e x, v = 1 y Curbe de regresie ce nu pot fi liniarizate: 1. y = a 0 + a 1 x + + a n x n, n 2 (polinomială), 2. y = ax b + clog x, 3. y = ax b e cx, 4. y = a+bx+ce x. (Ultimele trei se pot aduce la forma polinomială.)
Capitolul 3. TEORIA SELECŢIEI Definiţia 66 Se numeşte eşantion (selecţie, sondaj) relativ la colectivitatea C o submulţime de indivizi E a lui C, care urmează să fie cercetaţi din punct de vedere al uneia sau mai multor caracteristici. Numărul indivizilor din eşantionul E se numeşte volumul eşantionului. Modurile de obţinere a eşantionului E ne conduc la metode nealeatoare şi respectiv metode aleatoare de selecţie. Metodele nealeatoare: selecţia sistematică, când indivizii care intră în eşantion sunt consideraţi după o anumită regulă, de exemplu din 10 în 10
selecţie tipică, când, cunoscându-se informaţii anterioare referitoare la colectivitate, sunt consideraţi indivizi cu valori medii apropiate de valoarea medie a întregii colectivităţi selecţie stratificată, când colectivitatea este clasificată (stratificată) după anumite criterii, cunoscându-se proporţia indivizilor pentru fiecare strat. Eşantionul se ia astfel încât să fie respectate aceste proporţii pentru fiecare strat Metodele aleatoare fiecare individ al colectivităţii C poate să intre în eşantion cu aceeaşi probabilitate (selecţie cu probabilităţi egale) sau cu probabilităţi diferite.
Metode aleatoare de selecţie sunt: repetate (bernoulliene), când individul ce intră în eşantion, după ce a fost cercetat, este reintrodus în colectivitate nerepetate, când individul ce intră în eşantion, după ce a fost cercetat, nu este reintrodus în colectivitate Observaţia 67 Dacă volumul colectivităţii este mult mai mare decât volumul eşantionului, atunci o selecţie nerepetată poate fi considerată ca fiind de tip repetat. În cele ce urmează vom considera că avem de fiecare dată o selecţie repetată. Fie colectivitatea C cercetată din punct de vedere al caracteristicii X.
Definiţia 68 Se numesc date de selecţie relative la caracteristica X datele statistice (observate) x 1, x 2,..., x n privind indivizii care intră în eşantion. Definiţia 69 Se numesc variabile de selecţie variabilele aleatoare X 1, X 2,..., X n, care iau ca valori datele de selecţie. În cazul unei selecţii repetate sunt variabile aleatoare independente, identic repartizate cu X. 3.1. FUNCŢII DE SELECŢIE Se numeşte funcţie de selecţie sau statistică variabila aleatoare Z n = h n (X 1, X 2,..., X n ),
unde h n : R n R este o funcţie măsurabilă, iar z n = h n (x 1, x 2,..., x n ) se numeşte valoarea funcţiei de selecţie. Definiţia 70 Se numeşte medie de selecţie funcţia de selecţie X = 1 n n X k, iar x = 1 n se numeşte valoarea mediei de selecţie. n x k Proprietatea 71 Fie caracteristica X pentru care există valoarea medie m = M (X) şi dispersia σ 2 = D 2 (X), atunci M ( X ) = m şi D 2 ( X ) = 1 n σ2.
Demonstraţie. Folosind proprietăţile valorii medii şi ale dispersiei şi având în vedere că selecţia este repetată avem succesiv respectiv M ( X ) = 1 n n M (X k ) = 1 n n M (X) = 1 n n m = m, D 2 ( X ) = 1 n n 2 D 2 (X k ) = 1 n n 2 D 2 (X) = 1 n 2n σ2 = 1 n σ2. Observaţia 72 In cazul în care caracteristica X urmează legea normală N (m, σ), atunci X, fiind o combinaţie liniară de variabile aleatoare independente ce urmează fiecare legea normală,
va( urma de asemenea legea normală. X va urma legea normală N m, σ n ). Proprietatea 73 Fie caracteristica X pentru care există valoarea medie m = M (X) şi dispersia σ 2 = D 2 (X), atunci statistica Z n = X m σ n converge în repartiţie la legea normală N (0,1), când n. (Convergenţa în repartiţie: Sirul de variabile aleatoare (X n ) n N converge în repartiţie la variabila aleatoare X dacă lim n F n (x) = F(x).)
Definiţia 74 Se numeşte moment de selecţie de ordin k funcţia de selecţie n ν k = 1 Xi k n, iar ν k = 1 x k i i=1 n, i=1 se numeşte valoarea momentului de selecţie de ordin k. n Se observă că ν 1 = X. Proprietatea 75 Fie caracteristica X pentru care există momentul teoretic ν 2k = M ( X 2k) atunci M ( ν k ) = ν k şi D 2 ( ν k ) = 1 n ( ν2k ν 2 k ).
Demonstraţie. Deoarece selecţia este repetată putem scrie succesiv şi respectiv M ( ν k ) = 1 n n i=1 M ( X k i D 2 ( ν k ) = 1 n 2 n i=1 ) = 1 n D 2 ( X k i = 1 n 2n ( ν 2k ν 2 k n i=1 M ( X k) = 1 n nν k = ν k ) = 1 ) = 1 n 2 n n i=1 ( ν2k ν 2 k D 2 ( X k) ).
CURS 6 3.1. FUNCŢII DE SELECŢIE (continuare) Definiţia 76 Se numeşte moment centrat de selecţie de ordin k funcţia de selecţie µ k = 1 n n i=1 ( Xi X ) k, iar µk = 1 n n i=1 (x i x) k, se numeşte valoarea momentului centrat de selecţie de ordin k. Se observă că µ 1 = 0 şi µ 2 = ν 2 ν 2 1. Proprietatea 77 Fie caracteristica X pentru care există momentul teoretic ν 4, atunci pentru momentul centrat de ordinul
doi avem şi unde σ 2 = D 2 (X). M ( µ 2 ) = n 1 n σ2 D 2 ( µ 2 ) = n 1 n 3 [(n 1) µ 4 (n 3) σ 4 ], Definiţia 78 Se numeşte dispersie de selecţie funcţia de selecţie iar valoarea numerică σ 2 = 1 n 1 σ 2 = 1 n 1 n n ( Xk X ) 2, (x k x) 2,
se numeşte valoarea dispersiei de selecţie. Observaţia 79 Între momentul centrat de selecţie de ordinul doi şi dispersia de selecţie există relaţia ca urmare, avem σ 2 = n n 1 µ 2, M ( σ 2) = n n 1 M ( µ 2) = n n 1 n 1 n µ 2 = µ 2 = σ 2, D 2 ( [ σ 2) = n2 (n 1) 2 (n 1)(n 3) (n 1) 2D2 ( µ 2 ) = n 3 µ 4 n 3 µ 2 2 [ ] 1 = (n 1) µ 4 (n 3) µ 2 2. n(n 1) ]
Proprietatea 80 Fie caracteristica X pentru care există momentul centrat teoretic [( ) k ] µ k = M X M (X), atunci avem şi M ( µ k ) = µ k + O ( ) 1 D 2 ( µ k ) = µ 2k 2kµ k 1 µ k+1 µ 2 k + k2 µ k µ 2 k 1 n n + O ( ) 1 n 2 Fie caracteristica bidimensională (X, Y ) şi o selecţie repetată de volum n, cu datele de selecţie (x k, y k ), k = 1, n şi respectiv variabilele de selecţie (X k, Y k ), k = 1, n.
Definiţia 81 Se numeşte coeficient de corelaţie de selecţie funcţia de selecţie ( Xi X ) ( Y i Y ) n r = i=1 n ( Xi X ) 2 n ( Yi Y ) 2, iar valoarea numerică r = i=1 n i=1 n i=1 i=1 (x i x)(y i y ) (x i x) 2 n i=1 (y i y ) 2, se numeşte valoarea coeficientului de corelaţie de selecţie. Lema 82 (Fisher) Dacă variabilele aleatoare X 1, X 2,..., X n sunt independente, fiecare urmând legea normală N (0, 1) şi dacă se
consideră matricea ortonormată A = ( a ij, atunci variabilele )i,j=1,n aleatoare Y i = n a ik X k, i = 1, n, sunt independente, fiecare urmând legea normală N (0,1). Obs. Matricea A este ortonormată = produsul scalar a două linii distincte este 0, iar produsul scalar al unei linii cu ea însăşi este 1. Proprietatea 83 Fie caracteristica X ce urmează legea normală N (0,1) şi variabilele de selecţie X 1, X 2,..., X n ce corespund unei
selecţii repetate de volum n, atunci statisticile U n = n X = 1 n n V n = n ( Xk X ) 2, X k, sunt variabile aleatoare independente ce urmează legea normală N (0,1) şi respectiv legea χ 2 cu n 1 grade de libertate. Proprietatea 84 Fie caracteristica X ce urmează legea normală N (m, σ) şi variabilele de selecţie X 1, X 2,..., X n ce corespund
unei selecţii repetate de volum n, atunci statisticile U n = X m σ, n V n = 1 σ 2 n ( Xk X ) 2, sunt variabile aleatoare independente ce urmează legea normală N (0,1) şi respectiv legea χ 2 cu n 1 grade de libertate. Demonstraţie. Se consideră variabilele aleatoare Z k = X k m σ, k = 1, n, care sunt variabile aleatoare independente, fiecare urmând legea normală N (0, 1). Se aplică Proprietatea 83 pentru variabilele aleatoare Z k, k = 1, n. Într-adevăr avem 1 n n Z k = 1 n n X k m σ = 1 n n ( 1 n n X k ) nm σ = U n
urmează legea normală N (0,1) şi n ( Zk Z ) 2 = n = 1 σ 2 n = V n. ( Xk m σ 1 n (X k m 1 n n i=1 n X i m i=1 urmează legea χ 2 cu n 1 grade de libertate. σ ) 2 X i + 1 n nm)2 = 1 σ 2 n Proprietatea 85 Fie caracteristica X ce urmează legea normală N (m, σ) şi variabilele de selecţie X 1, X 2,..., X n ce corespund unei selecţii repetate de volum n, atunci statistica T = X m σ n = X m, µ2 n 1 ( Xk X ) 2
urmează legea Student cu n 1 grade de libertate. Demonstraţie. Cu notaţiile de la Proprietatea 84, arătăm că Avem succesiv U n Vn n 1 = X m σ n 1 n σ = X m σ = T. n T = U n. Vn n 1 n 1 ( Xk X ) = X m 2 ( Xk X ) 2 1 1 n n n 1 Din teoria probabilităţilor se ştie că raportul dintre o variabilă aleatoare ce urmează legea normală N (0, 1) şi radicalul unei vari-
abile aleatoare ce urmează legea χ 2, raportată la numărul gradelor de libertate, în cazul în care cele două variabile aleatoare sunt independente, este o variabilă aleatoare ce urmează legea Student cu acelaşi număr al gradelor de libertate ca legea χ 2 considerată. Proprietatea 86 Fie caracteristicile independente X şi X, fiecare urmând legea normală, respectiv N ( m, σ ) şi N ( m, σ ) şi variabilele de selecţie X 1,..., X n, respectiv X 1,..., X n, ce corespund unei selecţii repetate de volum n pentru caracteristica X şi unei selecţii repetate de volum n pentru caracteristica X, atunci statistica ( ) X X ( m m ) n + n 2 T = (n 1 ) σ 2 + ( n 1 ) σ 2 1 n + 1, n
urmează legea Student cu n + n 2 grade de libertate, considerând X = 1 n n X k, X = 1 n n X k, σ 2 = 1 n 1 n ( X k X ) 2, σ 2 = 1 n 1 n ( X k X ) 2. Demonstraţie. Mediile de ( selecţie) X şi ( X urmează ) fiecare legea normală, respectiv N m, şi N m, ([Curs 5, σ n Observaţia 8]). Prin urmare statistica ( ) X X ( m m ) σ n U = σ 1 n + 1, n
urmează legea normală N (0,1) (teoria probabilităţilor). Pe de altă parte, folosind Proprietatea 84, se obţine că statistica V = 1 σ 2 n ( X k X ) 2 + 1 σ 2 n ( X k X ) 2, urmează legea χ 2 cu n + n 2 grade de libertate, fiind suma a două variabile aleatoare independente ce urmează legea χ 2 cu n 1 grade de libertate şi respectiv n 1 grade de libertate. Statistica U V n +n 2 urmează legea Student cu n + n 2 grade de libertate (ca şi în demonstraţia Proprietăţii 85). Se arată că
această statistică este chiar T. Avem ( ) U X X ( m m ) = V n +n 2 = 1 n σ σ 1n + 1 n n + n 2 ( X k X ) 2 + n ( X k X ) 2 ( ) X X ( m m ) n + n 2 (n 1 ) σ 2 + ( n 1 ) σ 2 1 n + 1 = T. n Observaţia 87 Dacă se consideră caracteristicile independente X şi X, fiecare urmând legea normală N ( m, σ ) şi respectiv N ( m, σ ) şi dacă avem variabilele de selecţie X 1, X 2,..., X n ce
corespund unei selecţii repetate de volum n relativă la caracteristica X şi respectiv variabilele de selecţie X 1, X 2,..., X n ce corespund unei selecţii repetate de volum n relativă la caracteristica X, atunci statistica ( ) X X ( m m ) Z = σ 2 n urmează legea normală N (0,1). + σ 2 n, Proprietatea 88 Fie caracteristicile independente X şi X, fiecare urmând legea normală, respectiv N ( m, σ ) şi N ( m, σ ) şi variabilele de selecţie X 1,..., X n, respectiv X 1,..., X n, ce corespund unei selecţii repetate de volum n pentru caracteristica X şi unei selecţii repetate de volum n pentru caracteristica X, atunci
statistica F = σ 2 σ 2 / σ 2 σ 2 urmează legea Snedecor-Fisher cu m = n 1 şi n = n 1 grade de libertate. Demonstraţie. Din Proprietatea 84 avem că funcţiile de selecţie, V = 1 σ 2 V = 1 σ 2 n n ( X k X ) 2 = ( n 1 ) σ 2 σ 2, ( X k X ) 2 = ( n 1 ) σ 2 σ 2 urmează fiecare legea χ 2 cu m = n 1 şi n = n 1 grade de libertate.
Pe de altă parte, X şi X sunt independente = V şi V sunt independente. Din calculul probabilităţilor se ştie că raportul a două variabile aleatoare independente, ce urmează legea χ 2, raportate fiecare la numărul gradelor de libertate corespunzător, este o variabilă aleatoare ce urmează legea Snedecor Fisher cu numărul gradelor de libertate dat de numerele gradelor de libertate ale celor două legi χ 2. Aşadar avem că V / V n 1 n 1 = σ 2 / σ 2 σ 2 σ 2 = F urmează legea Snedecor-Fisher cu m = n 1 şi n = n 1 grade de libertate.
CURS 7 3.1. FUNCŢII DE SELECŢIE (continuare) Fie caracteristica X, datele de selecţie x 1, x 2,..., x n şi variabilele de selecţie X 1, X 2,..., X n. Definiţia 89 Se numeşte funcţie de repartiţie de selecţie funcţia de selecţie definită prin unde F n (x) = ν n(x) n, x R, ν n (x) = card{ X i X i < x, i = 1, n }, iar valoarea funcţiei de repartiţie de selecţie este F n (x) = card{ x i x i < x, i = 1, n }, x R. n
Proprietatea 90 1) F n este crescătoare şi F n (R) [0,1]. 2) Dacă datele de selecţie sunt ordonate crescător atunci F n (x) = 0, x x 1 k n, x k x x k+1, 1, x > x n. Teorema 91 (Glivenko) Fie caracteristica X, care are funcţia de repartiţie teoretică F, şi fie o selecţie repetată de volum n relativă la caracteristica X, cu variabilele de selecţie X 1, X 2,..., X n şi funcţia de repartiţie de selecţie corespunzătoare F n, atunci P ( lim n sup x R F n (x) F (x) = 0 ) = 1, adică funcţia de repartiţie de selecţie converge aproape sigur la funcţia de repartiţie teoretică.
Teorema 92 (Kolmogorov) Fie caracteristica X care are funcţia de repartiţie teoretică F continuă şi fie o selecţie repetată de volum n relativă la caracteristica X cu variabilele de selecţie X 1, X 2,..., X n şi funcţia de repartiţie de selecţie corespunzătoare F n, atunci unde D n = sup x R lim n P ( ndn < x ) = K (x), x > 0, F n (x) F (x), iar K (x) = + k= este funcţia lui Kolmogorov. ( 1) k e 2k2 x 2, x > 0,
4. TEORIA ESTIMAŢIEI Se obţin datele statistice în urma cercetării selective Se fac generalizări relative la populaţia din care se extrage selecţia. Generalizările - estimarea parametrilor statistici necunoscuţi. Estimarea - printr-o mărime cât mai apropiată de valoarea reală. Dacă nu se reuşeşte se caută limite în interiorul cărora se află, cu o anumită probabilitate. Fie colectivitatea C, caracteristica X cu funcţia de probabilitate f (x; θ), (=funcţia de frecvenţă dacă X este de tip discret; densitatea de probabilitate dacă X este de tip continuu), θ A este
un parametru real necunoscut. Se consideră o selecţie repetată de volum n având variabilele de selecţie X 1, X 2,..., X n. 4.1. FUNCŢII DE ESTIMAŢIE Definiţia 93 Se numeşte funcţie de estimaţie (estimator) pentru parametrul θ, funcţia de selecţie Θ = θ(x 1, X 2,..., X n ), care ia valori în domeniul A, iar valoarea numerică θ = θ(x 1, x 2,..., x n ) se numeşte estimaţia lui θ. Definiţia 94 Estimatorul Θ = θ (X 1, X 2,..., X n ) este estimator (funcţie de estimaţie) nedeplasat pentru parametrul necunoscut θ dacă M( Θ) = θ,
iar valoarea numerică θ = θ(x 1, x 2,..., x n ) se numeşte estimaţie nedeplasată pentru parametrul θ. Definiţia 95 Estimatorul Θ = θ(x 1, X 2,..., X n ) se numeşte estimator consistent pentru parametrul necunoscut θ dacă adică Θ p θ, lim n P ( Θ θ < ε ) = 1, pentru orice ε > 0, iar valoarea numerică θ = θ(x 1, x 2,..., x n ) se numeşte estimaţie consistentă pentru parametrul θ.
FUNCŢII DE ESTIMAŢIE ABSOLUT CORECTE Definiţia 96 Se numeşte funcţie de estimaţie (estimator) absolut corectă pentru parametrul θ funcţia de selecţie Θ = θ(x 1, X 2,..., X n ) care satisface condiţiile (i) M ( Θ ) = θ, (ii) lim n D 2 ( Θ ) = 0, iar valoarea numerică θ = θ(x 1, x 2,..., x n ) se numeşte estimaţie absolut corectă pentru parametrul θ.
Proprietatea 97 Un estimator absolut corect este un estimator consistent. Demonstraţie. Fie estimatorul Θ = θ(x 1, X 2,..., X n ) un estimator absolut corect pentru parametrul θ. Din inegalitatea lui Cebîşev avem 1 P ( Θ θ < ε ) 1 D2 ( Θ) ε 2, pentru orice ε > 0. Făcând pe n din (ii) rezultă lim n P ( Θ θ < ε ) = 1, pentru orice ε > 0, ceea ce trebuia demonstrat. Proprietatea 98 Fie caracteristica X pentru care există momentul teoretic de ordinul 2k, ν 2k = M ( X 2k), şi fie o selecţie
repetată de volum n, atunci momentul de selecţie de ordin k ν k = 1 n n Xi k i=1 este funcţie de estimaţie absolut corectă pentru parametrul ν k. Demonstraţie. Din [Curs 5, Propr. 11] avem că şi M (ν k ) = ν k Rezultă D 2 (ν k ) = ν 2k ν 2 k n. lim n D2 (ν k ) = lim n ν 2k ν 2 k n = 0.
Deci condiţiile pentru o funcţie de estimaţie absolut corectă sunt satisfăcute. Observaţia 99 Media de selecţie X (= ν 1 ) este funcţie de estimaţie absolut corectă pentru media teoretică M (X) (= ν 1 ). FUNCŢII DE ESTIMAŢIE CORECTE Definiţia 100 Se numeşte funcţie de estimaţie (estimator) corectă pentru parametrul necunoscut θ, funcţia de selecţie Θ = θ(x 1, X 2,..., X n ) care satisface condiţiile (i) lim n M ( Θ ) = θ,