Verificarea ipotezelor statistice 1 de I.Văduva Notaţii si noţiuni preliminare Variabila aleatoare: X,Y,U,V,etc., descrisă de funcţie de repartiţie. Variabila aleatoare este asaociată unei populaţii statistice; valorile ei corespund indivizilor populaţiei. Funcţie de repartiţie: F (x) = P (X < x). P =Probabilitate. Repartiţie continuă, când există F (x). Densitate de repartiţie: f(x) = F (x) F (x) = x f(u)du X : 0 F (x) 1, F ( ) = 0, F (+ ) = 1, Deci f(x) 0, + f(u)du = 1 a, b R, a < b F (a) F (b) Variabila aleatoare discreta este dată de repartiţia sa a 1, a 2,..., a n p 1, p 2,..., p n F (x) =, p i = P (X = a i ), 1 i n, n p i = 1. a i <x p i, p i = probabilitati. 1 Conferinţă prezentată la deschiderea seminarului ştiinţific Nicolas Georgescu Roegen al Societăţii Române de Econometrie, 4 iulie 2012 1
Notă. n poate fi si. Definiţie. Selecţie (Bernoulliană) de volum n asupra variabilei aleatoare X este mulţimea de variabile aleatoare {X 1, X 2,..., X n } n N,independente şi identic repartizate ca şi X. Notă. Selecţia este rezultatul unor observaţii sau măsurători independente (stochastic) efectuate asupra a n indivizi din populaţie. Daca variebilele aleatoare X, Y au respectiv funcţiile de repartiţie F, G, iar funcţia lor comună de repartiţie este H(x, y) = P (X < x, Y < y) atunci ele sunt independente dacă H(x, y) = F (x)g(y). Valori medii. Momente. Dacă considerăm funcţia reală φ(x) masurabilă (!) atunci numim valoare medie a variabilei aleatoare φ(x) mărimea E[φ(X)] = φ(u)f(u)du când integrala există, iar in cazul discret, dacă n =, când seria este convergentă. Cazuri particulare: E[φ(X)] = φ(a i )p i Momente de ordinul r, r N : m r = E[X r ] = x r f(x)dx, in cazul continuu 2
m r = E[X r ] = a r i p r, in cazul discret. m 1 = E[X] = (notat) = m se numeşte medie sau valoare medie a lui X. Momente centrate de ordinul r, r N : µ r = E[(X m) r ] Momentul centrat de ordinul al doilea se numeşte dispersie sau varianţă şi se notează σ 2 = µ 2 = V ar(x) iar σ = σ 2 se numeşte abatere medie pătratică sau abatere standard sau deviaţie standard. Inegalitatea lui Cebysheff. Dacă esistă momentele de ordinul 1 şi 2, atunci are loc inegalitatea P ( X m tσ) 1 1 t 2, t R+. Notă. Aceasta inegalitate permite determinarea unui interval de concentraţie al valorilor variabilei aleatoare X. De ex. dacă t = 4, atunci in intervalul (m 4σ, m + 4σ) se gasesc peste 94% din valorile variabilei aleatoare X. Cazul multidimensional. Vector aleator: X = (X 1, X 2,..., X k ) =vector coloană de dimensiune k. 3
Funcţie de repartiţie: F (x) = F (x 1, x 2,..., X k ) = P (X 1 < x 1,..., X k < x k ) Densitate de repartiţie (cazul continuu) când ea există: Proprietăţi: f(x) = f(x 1, x 2,..., x k ) = k F (x 1,..., x k ) x 1... x k F (,..., ) = 0, F ((..., ) = 1, 0 F (x 1,..., x k ) 1 i, < a i < b i < F (x 1,..., a i,..., x k ) F (x 1,..., b i,..., X k ) (adica monotonia crescatoare pe componente). Proprietăţi ale densităţii de repartiţie: f(x) 0, F (x) = R k f(u)du = 1 x f(u)du Fie X = (X 1, X 2 ), DimX 1 = r, DimX 2 = s, r + s = k X 1, X 2 subvectori ai lui X Funcţia de repartiţie marginală a lui X 1 este F 1 (x 1 ) = F (X 1, = x 2 ) Densitatea marginală a lui X 1 este f 1 (x 1 ) = r F 1 (x 1 ) x 1,..., x r 4
Momente: i, E[X i ] = m i = R k x i f(x)dx = x i f i (x i )dx i unde f i (x i ) este densitatea marginala a componentei aleatoare X i cand integrela există. Momentul mixt m ij = E[X i X j ] = + + inf ty f ij =densitate marginala a lui (X i, X j ). Covarianţa. cand există este: x i x j f ij (x i, x j )dx i dx j cov(x i, X j ) = E[(X i m i )(X j m j )] = m ij m i m j = σ ij Se observa că V ar(x i ) = cov(x i, X i ) = σ 2 i = σ ii. Inegalitatea lui Schwarz σ ij σ i σ j. Coeficientul de corelaţie al variabilelor aleatoare X i şi X j este ρ ij = corr(x i, X j ) = Notă. Ineg. Schwarz ρ ij [ 1, 1] cov(x i, X j ) V ar(xi )V ar(x j ) = σ ij σ i σ j Interpretarea lui ρ : măsoară gradul de dependenţă stochastică al variabilelor aleatoare X i şi X j. 5
Notaţii: Vectorul valoare medie al lui X este µ = (m 1, m 2,..., m k ) = E(X). Matricea de covarianţă a vectorului X este Σ = σ 11 σ 12,..., σ 1k...... σ k1 σ k2,..., σ kk = Cov(X, X ) Este pozitiv definită Σ 0, adică x Σx > 0, şi deci inversabilă. Ipoteză statistică. F = multimea funcţiilor de repartiţie. F 0 F. X= variabilă aleatoare X F = funcţie de repartiţie. Definiţie. Ipoteză statistică este o afirmaţie asupra lui F de forma H 0 : F F 0 ce trebuie verificată cu ajutorul unei selecţii de volum n, X 1, X 2,..., X n, dată. (Se mai numeste ipoteza nula!) Ipoteză simpla când CardF 0 = 1; ipoteză compusă, când CardF 0 > 1. Ipoteza alternativă: H 1 : F F 1, F 1 F, F 1 F 0. Cea mai generală alternativă H 1 : F F \ F 1. Ipoteza parametrica: H 0 se referă la un parametru al funcţiei de repartiţie. De ex. F 0 este familia repartiţiilor normale N(m, σ) şi ipoteza este de forma H : m = m 0 (ipoteză simplă); aici alternativa poate fi simplă de forma H 1 : m = 6
m 1, m 1 m 0, sau altternativa compusă de forma H 1 : m m 0. In acest caz ipoteza simplă poate fi de forma H 0 : m m 0 < λ, iar alternativa va fi de forma H 1 : m m 0 λ. Aici m = E[X] este adevărata medie a variabilei aleatoare X, m 0 este o valoare dată (de referinţă), iar λ > 0 este eroarea cu care apreciem că m poate fi egal cu m 0. Ipoteză de concordanţă: H 0 : F F 0, (adica se specifică tipul funcţiei de repartiţie (de ex normală exponenţială Cauchy, Poisson, binomoală etc.) Majoritatea funcţiilor de repartiţie depind de parametri θ, adică F (x) = F (x, θ) unde θ este un parametru uni sau multidimensional. Dacă θ este cunoscut, atunci ipoteza de concordanţă se numeşte complet specificată, iar in caz contrar, se numeşte nespecificată. Notă. Fiind data o selecţie X = X 1, X 2,..., X n de volum n asupra variabilei aleatoare X, vectorul X are o repartiţie de probabilitate pe R n, a cărui densitate f, (când F are densitate) este L(x 1, x 2,..., X n ) = n f(x i ) Funcţia L(x 1,..., x n ) se numeşte funcţie de verosimilitate. Să mai observăm că L(X 1,..., X n ), cu argumente X i = valori de selecţie este o variabilă aleatoare!. Definiţie. Un test de verificare a unei ipoteze statistice, este o regulă prin care spaţiul R n al selecţiilor se descompune in două părţi W = R1, n şi W = R2 n = R n \ R1 n (complementarul lui R1) n astfel incât, dacă vectoerul de selecťie X W atunci se respinge ipoteza H 0, (adică se acceptă alternativa H 1 ), iar in caz contrar (adica dacă X W,) atunci se acceptă 7
ipoteza H 0. Mulţimea W = R n 1 se numdeşte domeniu critic al ipotezei H 0, iar W = R n 2 se numeşte domeniu de acceptare al ipotezei H 0. Observaţie importantă. Deoarece o selecţie de volum finit n nu asigură o informaţie completă, decizia care se ia pe baza acestei selecţii asupra validităţii sau nu a ipotezei H 0 ne poate conduce la următoarele rezultate: să acceptăm H 0 cand ea este adevărată (notată (H 0 H 0 )), să accepotăm H 0 când ea nu este adevărată (notată (H 0 H 1 )), să respingem H 0 când ea este adevărată (notată (H 1 H 0 ) sau să respingem H 0 când ea nu este adevărată (notată (H 1 H 1 )). Evident, deciziile bune sunt in primul şi ultimul caz, pe cand celelalte două cazuri constituie erori ce se comit fiecare cu o probabilitate. Aceste probabilităţi sunt α = P (H 1 H 0 ) = P (X W H 0 ), β = P (H 0 H 1 ) = P (X W ) α este probabilitatea erorii de genul intâi sau riscul, de genul intâi, in timp ce β este probabilitatea erorii de genul doi sau riscul de genul doi. α se mai numeşte şi prag de semnificaţie. Probabilitatea se numeşte puterea testului. π = P (H 1 H 1 ) = 1 β Un test bun este acela pentru care α şi β sunt mici (de ex. 0.05 sau mai mici, sau α este mic şi puterea testului π este mare). Din păcate, pentru o selecţie de volum n dată, dacă se impune un rtisc α dat, atunci nu există un test pentru care β sa fie de asemenea oricât mic. Testul pentru care la un 8
prag de semnificaţie dat α există o limitare inferioară a riscului de genul doi β (sau corespunzător există o limitare superioară a lui π), se numeşte test uniform cel mai puternic. Existenţa acestui lucru a este stipulată de următoarea Lema lui Neyman-Pearson. Fie X f(x, θ) şi fie ipoteza parametrică simplă H 0 : θ = θ 0 şi alternativa H 1 : θ = θ 1. Atunci pentru un prag α dat, există un test uniform cel mai puternic a cărui regiune critică este de forma c este o constantă şi unde W = {(X 1,..., X n ) L 1 L 0 c > o, } L 1 = L(X 1,..., X n, θ 1 ) = n f(x i, θ 1 ), L 0 = L(X 1,..., X n, θ 0 ) = n f(x i, θ 0 ), adică L 1, L 0 sunt respectiv funcţiile de verosimilitate ale lui X in ipotezele H 1, H 0. Definiţie. Numim statistică o funcţie t(x 1,..., X n ) (care depinde de datele de selecţie). Depinzând de repartiţia de probabilitate a lui X, statistica t are o repartiţie de probabilitate. Dacă riscul α este dat atunci, pentru o statistică t convenabil aleasă se poate construi un test pentru ipoteza H 0 a cărui regiune critica este de forma W α = {(X 1, X 2,..., X n ) : P (t(x 1,..., X n ) > c α H 0 ) = α}, unde repartiţia statisticii t este considerată in ipoteza H 0. Regiumea critică a testului, W α, se numeşte regiune critică de nivel α. 9
O statistică t cu ajutorul căreia se construieşte un test pentru o ipoteză nulă H 0 se numeşte statistică test. Din lema lui Neyman-Pearson rezultă că pentru verificarea ipotezei H 0 cu alternativa H 1 statistica test este raportul de verosimililităţi t(x 1, X 2,..., X n, θ 0, θ 1 ) = L(X 1,..., X n ; θ 1 ) L(X 1, X 2,..., X n ; θ 0 ) Testul, se numeşte testul raportului de verosimilităţi. Exemplu. Fie X N(m.σ) variabila normală, cu abaterea medie pătratică σ, cunoscută. Fie de verificat ipoteza parametrică H 0 : m + m 0 cu alternativa H 1 : m = m 1 > m 0. (Ambele ipoteze sunt simple). Testul raportului de verosimilităţi conduce,după calcule, la statistica t = L 1 = e X.n( m 1 m 0 σ L 2 m2 1 m2 0 2σ 2 ), 0 unde X este media aritmetică a datelor de selecţie, sau media de selecţie. Regiunea critică de nivel α se obţine din relaţia P ( L 1 c) = α = P (X( m 1 m 0 m2 1 m 2 2 ) log c) = α, L σ 2 2σ 2 0 n n adică regiunea critică a testului este in final de forma W α = {(X 1,..., X n ) : P (X 2σ 2 n log c + (m2 1 m 2 0) 2(m 1 m 0 ) ) = α}. (1) Regiunea critică W α se poate deduce sub o formă echivalentă astfel. In ipoteza H 0, statistica U = X m 0 σ n N(0, 1). 10
Deci, pentru un α dat, alegem z α astfel incat P (Z z α ) = de unde domeniul critic este z α e t 2 2 dt = α, W α = {(X 1, X 2,..., X n ) X m 0 + z α n }. (2) Mărimea z α se numeşte α-cuantila superioară a repartiŗiei normale N(0, 1). Observăm că cele două forme ale domeniului critic W α date de (1) şi (2) coincid, deoarece au acelaş nivel α. Puterea testului, este π(m 1 ) = P (X m 0 +z α σ n H 1 ) = P ( X m 1 σ n m 0 m 1 σ n +z α ) = = P (Z m 0 m 1 σ n + z α ) Deoarece π(m 1 ) = 1 β rezultă că 1 ϕ(z α + σ n ) = 1 β deci z α + m o m 1 σ n = z 1 β Ultima formulă conduce la faptul că dacă se dau riscurile α şi β atunci volumul minim de selectie necesar pentru realizarea acestor riscuri este n = (z 1 β z α ) 2 σ 2 11 (m 1 m 0 ) 2
ceea ce conduce si la o altă consecinţă a lemei Neyman-Pearson. Notă. Din cele de mai sus, observăm că dacă considerăm parametrul λ = m 0 m 1 ca o distanţă intre ipotezele H 0 şi H 1 şi considerăm că pentru o distanţă λ 0 dată H 1 H 0 atunci puterea π se exprimă in funcţie de λ si anume π(λ) = 1 ϕ(z α + λ σ n ). Forma generală a testului raportului de verosimilităţi. Să considerăm ipoteza H : F ω Ω, unde Ω este o clasă de funcţii de repartiţie si ω o submulţime a sa.alternativa este N H : F Ω \ ω. Să notăm (L) Ω, (L) ω valorile maxime ale funcţiei de verosimilitate in ip[otezele Ω, ω şi să cosniderăm raportul de verosimilitate Λ(X) = (L) ω (L) Ω, X = vectorul de selecţie. Deoarece ω Ω rezultă că Λ(X) 1, iar cand ω este adevărată, Λ(X) = 1. (Caz ideal!). Deci domeniul critic pentru testarea ipotezei H este de forma W (c) = {X Λ(X) c < 1}, P (Λ(X c) = α. (3) Lema lui Neyman-Pearson este valabilă şi aici; regiunea critică W (c) dată de (3) corespunde testului uniform cel mai puternic. 12
Pentru a construi testul raportului de verosimilităţi pentru o ipoteză H va trebui mai intai să calculăm valorile maxime (L) Ω, (L) ω ale funcţiei de verosimilitate. Exemplu. Fie X N(m, σ) cu σ-cunoscut si fie de verificat ipoteza H : m = m 0 cu alternativa N H : m m 0. Maximul funcţiei de verosimilitate in ipoteza Ω conduce la iar (L) Ω = ( ) n 1 2 1 e 2σ 2 2πσ 2 ( 1 (L) ω = 2πσ 2 Raportul de verosimilităţi este ) n 2 e 1 2σ 2 n (X i X) 2 n Λ(X) = e n 2σ 2 (X m 0) 2 (X i m 0 ) 2. iar domeniul critic este de forma (3) unde c = c α satisface relaţia α = P [ n 2σ 2(X m 0) 2 log c α ] = P [ Deoarece X m 0 σ n X m 0 σ n = Z N(0, 1) 2 log c α ]. rezultă că folosind z α 2 dat de relaţia z α 2 e u 2 2 du = 1 α, z α 2 domeniul c ritic este de forma W α = {X : X m 0 σ n 13 z α 2 }. (3 )
Puterea testului π(m) se calculează cu formula P ( X m 0 σ n Testul prezentat se numeste testul U. z α N H) = π(m). (4) 2 Problema celor două selecţii. Fie X N(m 1, σ 1 ), Y N(m 2, σ 2 ) cu σ 1, σ 2 cunoascute. Se dă o selectie de volum n 1 pentru X si o selecţie de volum n 2 pentru Y. Pentru verificarea ipotezei H : m 1 = m 2 cu alternativa N H : m 1 m 2 se foloseşte statistica U = X Y m 1 + m 2 σ 2 1 n 1 + σ2 2 n 2. (5) care in ipoteza H are repartiţia normală N(0, 1). Domeniul critic se determină pe baza statisticii U dată de (5) şi el este de forma W α = {X : U z α 2 }, iar Puterea testului se calculează cu formula π(m 1 m 2 ) = P ( U z α N H). 2 Cazul dispersiilor necunoscute. Repartiţii inrudite cu repartiţiile normale. Fie de testat H : m = m 0, N H : m m 0, cu σ necunoscut. Determinarea raportului de verosimilităţi, conduce mai intâi la estimarea lui m cu X şi a lui σ 2 cu formula s 2 = 1 n 1 n 14 (X i X) 2 (6)
după care se calculează (L) Ω şi (L) ω In final testul raportului de verosimilităţi conduce la statistica t a lui Student, adică t = X m 0 s n (6 ) care in ipoteza H are repartiţia Student cu f = n 1 grade de libertate, ce are densitatea de repartiţie g(x) = 1 Γ( f+1 2 ) 1 π Γ( f 2 ). (7) (1 + x 2 ) f+1 2 Variabila Student se defineşte cu formula t f = Z χ f f, t f R, Z N(0, 1) unde χ 2 f = f Z2 i, iar Z i sunt variabile N(0, 1) independete şi Z e independent de χ 2 f. Densitatea de repartiţie a lui χ 2 f este h(x) = 1 2 f 2 Γ( f 2 )xf 2 1 e x 2, x > 0, h(x) = 0 daca x 0. (8) Dacă E[Z i ] = m i 0 măcar pentru un i atunci f Z 2 i = χ 2 f,δ cu δ 2 = f m2 i se numeşte variabilă χ 2 necentrată, cu f grade de libertate şi cu parametru de excentricitate δ. 15
Nu precxizăm densitatea de repartiţie (complicată!) a acestei variabile. Definiţie. Variabila aleatoare F f1,f 2 > 0 este definită astfel F f1,f 2 = f 2χ 2 f 1 f 1 χ 2 f 2, (9) Variabila F f1,f 2 are o densitate de repartiţie pe care nu o prezentăm aici. Sunt utilizate si variabile F necentrate de forma F f1,f 2 ;δ 1,0, F f1,f 2 ;0,δ 2, F f1,f 2 ;δ 1,δ 2. Cea mai utilizată după cum vom vedea, este prima formă de F-necentrataă. Intre variabila F si variabila t este valabilă relaţia t 2 f = F 1,f. Forme ale testului t. Pentru un risc α dat, să cosiderăm cuantila superioară t f, α 2 > 0 care satisface relaţia tf, α 2 P ( t f t f, α ) = 2 t f, α 2 g(u)du = 1 α (10) Ca şi testul U, testul t, dedus din testul general al raportului de probabilităţi, capătă forme asemănătoare, după cum urmează: t1.verificarea ipotezei H : m = m 0, σ necunoscut, cu alternativa N H : m m 0. Domeniul critic este X m 0 s n t f, α, f = n 1, (11) 2 16
Puterea testului se calculează cu formula π(m) = P ( X m 0 s n t f, α 2 : N H) (11 ) unde statistica din formulă are repartiţia t-necentrată adica t 2 f,δ = F 1,f:δ,0, δ 2 = m 1 m 0 s n 2. (11 ) t2.verificarea ipotezei H : m 1 = m 2 pentru două populaţii N(m 1, σ), N(m 2 ), σ), σ cunoscut cu N H : m 1 m 2. Fie X N(m 1, σ 1 ), Y N)(m 2, σ 2 ) σ 1 = σ 2 = σ. si volumele de selecţie n 1, n 2. Dispersia σ 2 se estimează astfel s 2 1 = n 1 + n 2 2 { n1 (X i X) 2 + n 2 (Y j Y ) 2 }, f = n 1 + n 2 2. j=1 Statistica t este in acest caz t = s X Y 1 n1 + 1 n2 domeniul critic de nivel α este de forma (11), iar puterea testului π(m 1 m 2 ) este de forma (11 ) cu δ 2 = m 1 m 2 s 1 n1 + 1 n2 2 t3.verificarea ipotezei H din cazul precedent, cu σ 1, σ 2 necunoscute şi ne egale. In acest caz testul t are o construcţie specială şi anume;. 17
- se estimează dsispersiile cu formulele obişnuite s 2 1 = 1 n 1 (X i X) 2, f 1 = n 1 1; s 2 2 = 1 n 2 (Y j Y ) 2, f 2 = n 2 1; f 1 f 2 j=1 - se calcullează gradele de libertate f cu formulele c = f = s 2 1 f 1 s 2 1 f 1 + s2 2 f 2 1 c 2 f 1 + (1 c)2 f 2 (f este rotunjit la intreg) -statistica t este t = X Y s 2 1 n 1 + s2 2 n 2 In continuare testul t se dezvoltă ca la t2. (12) Teste privind egalitatea dispersiilor populaţiilor normale. Se dau X N(m 1, σ 1 ), Y M(m 2, σ 2 ) şi selecţiile independente corespunzătoare de volume n 1, n 2. Ipoteza H : σ 1 = σ 2 cu alternativa N H : σ 1 σ 2 se verifică folosind testul F (al lui Snrdrcor) după cum urmează: - se estimează σ 2 1, σ 2 2 cu formulele (12); se calculează statistica F = s2 1 s 2 2 18
Statistica F are repartiţia F -centrată cu (f 1, f 2 ) grade de libertate. Deci domeniul critic de nivel α este F F f1,f 2 ;α, unde P (F f1,f 2 F f1,f 2 ;α) = α, adică F f1,f 2 ;α este α-cuantila superioară a repartiţiei F. Testul lui Bartlett pentru egalitatea a mai multe dispersii. Se dau k populaţii normale N(m 1, σ i ), 1 i k si selectţii corespunzătoare X i,j,.1 i k, 1 j n i de volume n 1, n 2,..., n k, n i > 3 respectiv. Se cere să se verifice ipoteza K : σ 2 1 =... = σ 2 k. Testul lui Bartlett se realizează in următorii paşi: - se estimează dispersiile cu formulele Si 2 = 1 n i 1 ( ni j=1 - se calculează s 2 cu formula X 2 ij n i X i 2 ), 1 i k s 2 = 1 f ( k f i s 2 i ), f i = n i 1, f = k se calculează statistica lui Bartlett f i χ 2 = 1 B k f i log s2 i s 2, B = k 1 n i 1 1 n k 3(k 1) + 1, n = i n i. (13) Statistica χ 2 are k 1 grade de libertate, deci domeniul critic al testului lui Bartlett este χ 2 χ 2 k 1,α, unde P (χ 2 k 1 χ 2 k 1,α) = α. 19
(aici α este riscul de genul intai). Puterea testului se calculează pe baza repatriţiei necentrate (σ i diferite intre ele). χ 2 k 1,δ, δ 2 = k f iσ 2 i f, Teste de concordanţă. Presupunem că se dă o selecţie de volum n asupra lui X si se cere să verificăm ipoteza de concordanţă H : X F. Prezentăm două teste asimptotice (când n ). Testul de concordanţă χ 2. Dacă ipoteza H este complet specificată, atunci testul χ 2 constă din următoarele etape: - se consideră 0 diviziune a mulţimii pe care variabila aleatoare X ia valori de probabilităţi pozitive, adică = k i, i j = ø, P ( i ) > 0. - se calculează probabilităţile p i = P ( i ) > 0, 1 i k; - pentru selecţia dată X 1, X 1,..., X n, n = f.mare(n > 1000) se determină f i = numărul valorilor de selecţie ce aparţin lui i, adică frecvenţele absolute pe i ; - se calculează statistica χ 2 = k (f i np i ) 2 (13 1) np i Deoarece statistica χ 2 are repartiţia χ 2 k 1, domeniul critic al testului este χ 2 χ 2 k 1,α, P (χ 2 k 1 χ 2 k 1,α = α. 20
Puterea testului se determină ca deobicei cu χ 2 necentrat (repartiţia statisticii (13-1) in ipoteza N H.) Dacă H este nespecificată, atunci etapele testului χ 2 suferă o modificare şi anume dacă funcţia de repartiţie depinde de un parametru θ = (θ 1,..., θ c ), c < k 1, atunci p i = p i (θ) şi statistica (13-1) devine χ 2 (θ) = k (f i np i (θ) 2 np i (θ) (13 2) iar parametrul θ trebuie estimat. Estimaţia θ se obţine minimizând (13-2) in raport cu theta, dar cu condiţia ca numitorii din suma (13-2) sa fie asimptotic constanţi.(această metodă de estimare se numeşte metoda minimului lui χ 2 modificat.) După estimarea celor c parametri, probabilităţile din (13-1) devin p i = ˆp i = p i (θ), iar statistica devine χ 2 (θ) = k (f i nˆp i ) 2. (13 3) nˆp i Se ştie că statistica (13-3) are o repartiţie χ 2 k c 1 şi de aici se continuă paşii din cazul când H este complet specificată. Puterea testului se calculează tot cu χ 2 -necentrat unde paqrametrul de excentricitate este unde p H i, p N H i δ 2 = k (p H i p N H np H i i ) 2 sunt calculate in ipotezele respective. Teste de concordanţă de tip Kolmogorov-Smirnov. Aceste teste se aplică numai când funcţia de repartiţie F este continuă. 21,
Definim mai intâi estimaţia nedeplasaată a funcţiei de repartiţie F (x). Aceasta este F n (x) = ν(x), (13 4) n unde ν(x) =numărul valorilor de selecţie mai mici decât X. Ea se mai numeşte şi funcţia de repartiţie empirică. Să notăm D n = sup F (x) F n (x) = max F (X x i) F n (X i ) 1 i n D n + = max [F n(x i ) F (X i )], D 1 i n n = max [F (X i) F n (X i )]. 1 i n Testele de tip Kolmogorov-Smirnov se bazează pe următoarele teoreme limită: Teorema lui Kolmogorov. Dacă F este continuă, atunci lim P (D n n < λ n ) = + k= ( 1) k e λ2 k 2 = K(λ). (13 5) Teorema lui Smirnov. Dacă F este continuă atunci lim P n (D+ n < λ ) = 1 e 2λ2. (13 6) n Testul lui Kolmogorov are domeniul critic de nivel α 0.05 de forma D n > λ α n, unde K(λ α ) = 1 α. (13 7) In mod asemănător, domeniul critic pentru testul lui Smirnov este D + n > θ α n, unde e 2θ2 α = α. (13 8) 22
Puterea testului Kolmogorov se calculează pe baza repartiţiei asimptotice a statisticii Dn = sup F n (x) G(x), unden H : X G(x). x Nu există evaluări exacte privind puterea testului lui Kolmogorov. Dacă pentru două variabile X având funcţia de repartiţie F şi Y având funcţia de repartiţie G (F, G necunoscute!), se dau două selecţii asupra lor, de volume n şi m respectiv, atunci se poate pune problema testării ipotezei H : F = G. Testarea acestei ipoteze se face pe baza următoarei teoreme Teorema lui Smirnov. Dacă F şi G sunt continue şi notăm atunci lim n,m, n D n,m = sup F n (x) G m (x), x m =ρ=const. P (D n,m < λ( 1 n + 1 )) = K(λ). (13 9) m Domeniul critic al testului este D n,m > λ 1 α n + 1 m, K(λ α) = 1 α. (13 10) Puterea testului se determină ca şi in cazul testului Kolmogorov. Teste pentru repartiţii multidimensionale. Vom prezenta teste referitoare la mediile repartiţiilor normale multidimensionale. Vectorul = (X 1, X 2,..., X k ) X are repartiţia normală k-dimensională N(µ, Σ) dacă densitatea sa de repartiţie este 1 f(x, µ, Σ) = e 1 (2π) k 2 det(σ) 1 2 (x µ) Σ 1 (x µ). (14) 2 23
µ este vectorul medie al lui X, iar Σ este mateicea de covarianţă a lui X notate respectiv µ = E(X), Σ = Cov(X, X ), vectorii, fiind vectori coloană, iar produsele matriceale sunt calculate conform regulii obişnuite linii prin coloane. Matricea Σ este pozitiv definită, (notată Σ 0), de unde rezultă că forma pătratică de la exponent in formula (14) este pozitiv definită. O selecţie de volum N asupra vectorului aleator X este de forma X 1, X 2,..., X N care de fapt este o matrice N k, X i fiind coloanele acestei matrici: X i sunt deci valori de selectie efectuate asupra lui X. Estimaţiile nedeplasate ale parametrilor ν, Σ sunt respectiv adică X = N X i, S = 1 N 1 N E[X] = µ, E[S] = Σ. (X i X)(X i X), (16) In cazul unidimensional testele asupra mediilor se bazau pe staistica U repatizată normal şi pe statistica t a lui Student. Asemănător, testele privind mediile repartiţiilor normale multi dimensionale se vor baza pe o statistică χ 2 si pe o statistică T 2 a lui Hoteling, cu n grade de libertate. Aceste statistici arată de forma χ 2 k = Y Σ 1 Y, Y N(0, Σ), (17) Tn 2 = Y S 1 Y, Y N(0, Σ), ns = n Z α Z α, (18) unde Z i N(0, σ), Z i ind Y. S este o matrice W ishart. Variabila T 2 n are repartiţia Hoteling cu n grade de libertate. 24
Se arată că variabila T 2 n este legată de variabila F prin relaţia n k + 1 Tn 2 k n = F k,n k+1. (18) iar dacă in (18) Y N(µ, Σ), atunci T 2 n din (18) are repartiţia Hoteling necentrată cu parametrul de excentricitate δ 2 = µ Σ 1 µ, relatia (18 ) ramânând valabilă si pentru variabile necentrate. Relaţia (18 ) se păstrează şi intre cuantilele variabilelor F şi T 2 şi anume Tn,α 2 nk = n k + 1 F k,n k,α. (18 ) Verificarea ipotezelor asupra mediilor cand matricile de covarianţă sunt cunoscute. H 1. Ipoteza H : µ = µ 0, cu alternativa N H; µ µ 0. Se foloseşte selecţia de volum N. Deoarece in ipoteza, H X N(µ 0, Σ N ), rezultă că statistica χ 2 = N(X µ 0 ) Σ 1 (X µ 0 ) (19) are repartiţia χ 2 k, deci domeniul critic de nivel α este conform (19) χ 2 χ 2 k,α, unde P (χ 2 k χ 2 k,α) = α. (19 ) Puterea testului este dată de repartiţia χ 2 -necentrată adică π(m) = P (χ k;δ χ 2 k,α), unde δ 2 = N(µ µ 0 ) Σ 1 (µ µ 0 ). (20) Amintim faptul că distanţa lui Mahalanobis dintre repartiţiile normale N(µ 1, Σ), N(µ 2, Σ) este D 2 = (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ) 25
deci δ 2 este o distanţă Mahalanobis. H 2. Problema celor două saelecţii, pentru două populaţii normale X N(µ 1, Σ), Y N(µ 2, Σ) cu Σ cunoscut. Presupunem că volumele celor două selecţii sunt N 1 respectiv N 2 si avem de testat ipoteza H : µ 1 = µ 2 cu alternativa N H : µ 1 µ 2. Deoarece in ipoteza H avem (X Y ) N(0, ( 1 N 1 + 1 N 2 )Σ), rezultă χ 2 = N 1N 2 N 1 + N 2 (X Y) Σ 1 (X Y) (21) Domeniul critic de nivel α este deci de forma (19 ) iar puterea testului se determină cu χ 2 -necentrat cu parametrul de excentricitate δ 2 = N 1N 2 N 1 + N 2 (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ). (21 ) H 3. Problema celor r selecţii. Fie vectorii normali X (i) N(µ (i), Σ), Σ cunoscut şi selecţiile de volume N i asupra lor, 1 i r. Se dau constantele β i, 1 i r (ce pot fi numite măsuri de ponderare). Se cere să se verifice ipoteza H : µ = µ 0, µ = r β iµ i, numită problema celor r selectii. (In biologie µ este media caracteristicii unei specii ce provine din r ascendenţi; in economie, µ poate fi suma cheltuită de o familie pentru a-şi asigura r resurse necesare). Deoarece in ipoteza H vectorul aleator r β ix (i) N(µ 0, ( r βi 2 N i )Σ), rezultă ca testul se bazează pe statistica χ 2 = r β 2 1 i N i ( r β i X (i) µ 0 ) Σ 1 ( r β i X (i) µ 0 ). (22) 26
Domeniul critic de nivel α este tot de forma (19 ) cu χ 2 dat de (22). Puterea testului se calculează tot cu χ 2 necentrat cu parametrul de excentricitate δ 2 = r β 2 1 i N i ( r β i µ (i) µ 0 ) Σ 1 ( r β i µ i µ 0 ). (22 ) H 4. Cazul matricilor de covarianţă neegale. Dacă X (i) r N(µ i, Σ i ), nu implică dificultăţi. In acest caz vectorul β ix (i) N(µ, Σ ) unde µ = r β i µ i, Σ = ( r Statistica testului este in acest caz χ 2 = ( r β 2 i N i )Σ. (23) β i X (i) µ 0 ) Σ 1 ( r β i X (i) µ 0 ), (23 ) care are repartiţia χ 2 k, deci domeniul critic este de forma (19 ), iar puterea testului se determină cu χ 2 necentrat cu parametrul de excentricitate δ 2 = (µ µ 0 ) Σ 1 (µ µ 0 ). (23 ) H 5. Problema simetriei. Fie X N(µ, Σ), µ = (µ 1,..., µ k ). Problema simetriei constă in a verifica ipoteza H : µ 1 =... = µ k. Fie ϵ = (1, 1,..., 1) vectorul k-dimensional cu toate componentele 1. Să considerăm o matrice C k (k 1), astfel incât Cϵ = 0. O astfel de matrice există deoarece cele k (k 1) elemente ale ei satisfac numai k ecuaţii. Cu aceste notaţii ipoteza H se poate 27
scrie H : Cµ = 0. Deoarece X este o estimaţie a lui µ,, rezultă că statistica test χ 2 = N(CX) (CΣC ) 1 (CX) (24) are repartiţia χ 2 k 1 şi deci domeniul critic iar puterea tesctului este χ 2 χ 2 k 1,α, π = P (χ 2 k 1;δ χ 2 k 1,α), unde δ 2 = N(Cµ) (CΣC ) 1 (Cµ). (24 ) Teste asupra mediilor repartiţiilor normale k-dimensionale, când matricile de covarianţă sunt necunosacute. T 1. Verificarea ipotezei H : µ = µ 0 cu alternativa N H : µ µ 0, cu Σ-necunoscut. Cu ajutorul selecţiei de volum N se estimează µ şi Σ astfel X = 1 N N X i, S = 1 N 1 N (X i X)(X i X). (25) Matricea S fiind o matrice Wishart, rezultă că statistica T 2 = N(X µ 0 ) S 1 (X µ 0 ) (26) are, in ipoteza H, o repartiţie Hoteling cu N 1 grade de libertate. Deci domeniul critic de nivel α pentru verificarea ipotezei H este T 2 T 2 N 1,α, unde P (T 2 N 1 T 2 N 1,α) = α. Puterea testului se calculează cu ajutorul repartiţiei T 2 necentrate cu parametrul de excentricitate δ 2 = N(µ µ 0 ) Σ 1 (µ µ 0 ) (26 ) 28
adică π(µ) = P (T 2 N 1;δ T 2 N 1,α). (26 ) T 2. Problema celor două selecţii când matricile de covarianţă sunt necunoscute si egale. Fie X (1) N(µ 1,Σ), X (2) N(µ 2, Σ si două selecţii de volume N 1, N 2 respectiv. Se cere testarea ipotezei H : µ 1 = µ 2 cu alternativa N H : µ 1 µ 2. Matricea de covarianţă comună se estimează cu 1 N 1 + N 2 2 N 1 (X (1) S = i X (1) )(X (1) i X (1) ) + N 2 Deoarece X (1) X (2) N(0, N 1+N 2 N 1 N 2 (X (2) j=1 j X (2) )(X (2) (27)) Σ), rezultă că statistica T 2 = N 1N 2 N 1 + N 2 (X (1) X (2) ) S 1 (X (1) X (2) ), (28) are repartiţia T 2 N 1 +N 2 2. Atunci, domeniul critic al testului este T 2 T N1 +n 2 2,α, unde TN 2 1 +N 2 2,α = N 1 + N 2 2)k N 1 + n 2 k 1 F k,n 1 +N 2 k 1<α, (28 ) iar puterea testului se calculează cu T 2 necentrat cu parametrul de excentricitate δ 2 = N 1N 2 N 1 + N 2 (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ). (28 ) T 3. Problema celor două selecţii când matricile de covarianţă sunt necunoscute şi diferite. Presupunem deci că se dau vectorii normali X (1) N(µ 1, Σ 1 ), X (2) N(µ 2, Σ 2 ), 29 j X (2) ).
selecţiile corespunzătoare de volume N 1, N 2 şi se cere să se testeze ipoteza H : µ 1 = µ 2 < cu alternativa N H : µ 1 µ 2. Dacă până acum construcţia testelor T 2 decurgea asemănător testelor t din statistica unidimensională aici construcţia presupune un atificiu ce va fi prezentat in continuare. Astfel să presupunem că N 1 < N 2. (In caz contrar schimbam notarea vectorilor normali!). Din selectiile X (1) i, 1 i N 1 şi X (2) j, 1 j N 2, construim o nouă selecţie Y i, 1 i N 1 astfel N 1 Y i = X (1) i + 1 N 1 X (1) s 1 N 1 X (2) j, 1 i N 1. N 2 N 1 N 2 s=1 N 2 j=1 (29) Se arată că valorile de selectie Y i, 1 i N 1 sunt independente stochastic şi repartizate normal N(µ 1 µ 2, Σ), unde Σ = Σ 1 + N 1 N 2 Σ 2. (30) Matricea Σ se estimează cu S = 1 N 1 1 iar in ipoteza H statistica N 1 j=1 (Y j Y)(Y j Y) (30 ) T 2 = N 1 Y S 1 Y (31) are N 1 1 grade de libertate. Domeniul critic al testului este in acest caz T 2 T 2 N 1 1,α, (31 ) iar puterea testului este π(µ 1 µ 2 ) = P (T 2 N 1 1;δ T 2 N 1 1,α); δ 2 = N 1 (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ). (31 ) 30
T 4. Problema celor r selecţii când matricile de covarianţă sunt necunoscute şi egale.problema se tratează in paralel cu cazul H 4. Fie X (i) α, 1 i r, 1 α N i cele r selecţii, selecţia X (i) α fiind efectuată asupra populeţiei normale N(µ i, Σ). Se cere testarea ipotezei H : µ = r β iµ i = µ 0, cu alternativa N H : µ µ 0. Matricea Σ se estimează in mod obişnuit adică S = şi deoarece r r 1 N i r rezultă statistica test T 2 = care are f = r deci n i r (X (i) α α=1 β ix (i) µ 0 N(0, Σ ) unde r β 2 i ( r N i Σ = r β 2 i N i X (i) )(X (i) α X (i) ), (32) Σ, β i X (i) µ 0 ) S 1 ( r β i X (i) µ 0 ) (32 ) N i k grade de libertate. Domeniul critic este T 2 T 2 f,α, T 2 dat de (32 ), (33) iar puterea testului se calculează cu T 2 necentrat adică π(µ) = P (T f;δ T 2 f,α), (33 ) cu δ 2 = r β 2 1 i N i ( r β i µ i µ 0 ) Σ 1 r β i µ i µ 0 ). (33 ) 31
T 5. Problema celor r selecţii, cazul general. Presupunem că se dau r selecţii X (i) α, 1 i r, 1 α N i din populaţiile normale independente N(µ i, Σ i ), 1 i r, cu Σ i necunoscute si ne egale. Se cere să se verifice ipoteza H : µ = r β iµ i = µ 0 cu alternativa N H : µ µ 0, unde µ 0 şi coeficienţii β i, 1 i r sunt daţi. Şi aici se aplică un artificiu asemănător celui din cazul T 3. Presupunem că N 1 = min 1 i r N i. (In caz contrar schimbăm numerotarea astfel incât N 1 să fie cel mai mic). Construim selecţia Y α = β 1 X (1) α + r N 1 N i X (i) α 1 N 1 N i ν=1 X (i) ν + 1 N1 N i N i X (i) γ. γ=1 (34) Se arată că variabilele de selecţie Y α sunt independente stochastic şi repartizate normal Fie estimaţia lui Σ S = N(µ, Σ ), Σ = r 1 N 1 1 N 1 β 2 i N 1 N i Σ i. (35) (Y α Y)(Y α Y). (35 ) Dacă notăm cu S i estimatia lui Σ i, 1 i r se arată că S = r Statistica test pentru ipoteza H este β 2 i N 1 N i S i. (35 ) T 2 = N 1 (Y µ 0 ) S 1 (Y µ 0 ) (36) 32
şi ea are (in ipoteza H) repartiţia Hoteling cu N 1 1 grade de libertate. De aici rezultă că domeniul critic al testului este iar puterea testului este T 2 T N1 1,α, (36) π(µ) = P (T 2 N 1 1;δ T N1 1,α), δ 2 = N 1 (µ µ 0 ) Σ 1 (µ µ 0 ). (36 ) T 6. Problema simetriei când Σ este necunoscut. Se dă deci selecţia X α, 1 α N asupra unei populaţii normale N(µ, Σ), µ = (µ 1,..., µ k ) cu Σ necunoscut. Se cere sa se testeze ipoteza H : µ 1 =... = µ k cu alternativa N H care inseamnă că nu toate µ i sunt egale. Ca şi in cazul H 5, se alege matricea C k (k 1) astfel incât Cϵ = 0, ϵ = (1, 1,..., 1) iar ipoteza H este echivalentă cu Cµ = 0. Dacă considerăm estimaţia obişnuită S a lui Σ,şi estimaţia X a lui µ, atunci rezultă că CX N(Cµ, CΣC ) şi deci statistica T 2 = N(CX) (CSC ) 1 (CX) (37) are repartiţia Hoteling cu N 1 grade de libertate ( pe spaţiul k 1 dimensional!).domeniul critic al testului este T 2 T 2 N 1,α, T 2 N 1,α = (N 1)(k 1) (N k)(k 1) F k 1,N k,α. (37 ) Puterea testului se calculează cu variabila Hoteling necentrată (pe spaţiul k 1 dimensional) şi anume π(µ) = P (T 2 N 1;δ T 2 N 1,α), δ 2 = N(Cµ) (CΣC ) 1 (Cµ). (37 ) 33
Consideraţii finale. 1. Aici s-au prezentat numai consideraţii introductive privind verificarea ipotezelor statistice. Probleme ca: verificarea ipotezelor folosind selecţiile cenzurate ce intervin in fiabilitate, etc; testele secvenţiale; analiza dispersională;teste bazate pe statistici de ordine; teste pentru serii dinamice cu multiple aplicaţii in activităţi bancare;etc am coniderat că-şi au locul in prezentari speciale separate. 2. Pentru aplicarea testelor prezentate, se impun unele precizări legate de utilizarea tehnicilor moderne de calcul. 2.1. Toate funcţiile de repartiţie pot fi calculate cu pachetele de programe statistice existente. Astfel se pot determina atât cuantilele cat şi valorile acestor funcţii. Este o preoblema insă cu utilizarea funcţiilor de repartiţie ne centrate. Deoarece expresiile densităţilor de repartiţie ale lui t-necentrat, χ 2 -necentrat şi F - necentrat sunt date de serii de puteri, folosirea acestor expresii la calculul numeric al functiilor de repartiţie sau al cuantilelor (când trebuie rezolvată o ecuaţie in x de forma F (x) = p), este complicată. O ieşire din impas o poate reprezenta aproximarea lui Pathnaik pentru repartiţia χ 2 k;δ si anume: se aproximează repartiţia acestei variabile cu o variabilă repartiţie de forma cχ 2 k, adică χ 2 k;δ = cχ 2 k. (38) Egalând mediile şi dispersiile celor două variabile din (38) rezultă k + δ 2 = ck, k + 2δ 2 = c 2 k, (38 ) de unde c = k + 2δ2 k + δ 2, k = (k + δ2 ) 2 k + 2δ 2. (38 ) 34
Soluţia k din (38 ) se rotunjeşte la un intreg. Pentru utilizarea repartiţiilor F şi T 2 necentrate se poate utiliza in prealabil aproximarea repartiţiei χ 2 necentrată ce intră in definiţia lui F necentrată. Trebuie subliniat faptul că aproximarea Pathnaik este ne recomandată, fiind prea laxă. 2.2. Simularea Monte Carlo oferă o alternativă facilă şi mai bună pentru determinarea puterii testului in cazul unei repartiţii necentrate (sau oricărei alte repartiţii) şi anume: -in ipoteza N H, se simulează o selecţie de volum mare n, a statisticii test g: - cu această selecţie se determină estimaţia puterii testului π n = 1 F n (x α ) P (g > x α ), unde x α este valoarea critică a statisticii test. Dacă nu se poate utiliza uşor sau nu se cunoaşte expresia convenabilă a repartiţiei statisticii test g, atunci se procedează in mod asemănător,adică: - se simulează o selecţie de volum mare n, a statisticii test g in ipoteza H; - Se construieţe histograma lui g pe baza acestei selecţii; - cu ajutorul histogramei se rezovă ecuaţia P (g > x α ) = α, unde α este riscul de genul intâi, x α fiind valoarea critica a statisticii test.(problema inversă celei precedente). Când selecţiile de care dispunem au un volum mic, se poate folosi metoda bootstrap de re-selectie, care produce multe replici ale selecţiei iniţiale, ce pot permite o abordare asimptotica a analizei statistice a datelor originale ale selecţiei. 35
3. Verificarea ipotezei de normalitate unidimensională, nu ridică nicio problemă. Nu s-a menţionat ceva semnificativ privind verificarea ipotezei de normalitate multidimensională. In acest sens, recomandăm lucrările [3,4] de la bibliografie care prezintă adaptarea testului de concordanţă χ 2 in acest caz. 3.1. Cazul specificat. S-a văzut că testul χ 2 presupune ca spaţiul R p =,care reprezintă mulţimea valorilor vectorului p-dimensional X N(µ, Σ), sa fie divizat in k părţi disjuncte, făra a se impune cum se alege diviziunea. In lucrările menţionate se pleacă de la ideea că forma pătratică Φ(x) = (x µ) Σ 1 (x µ) permite divizarea spaţiului R p in coroane de elipsoizi, determinate de k 1 constante 0 < θ 0 <... < θ k 1. Astfel spaţiul R p se divide in k mulţimi disjuncte de forma 1 = {x 0 Φ(x) θ 1 }, i = {x θ i 1 < Φ(x) θ i, 2 i k 1}, Deoarece adica are o repartiţie χ 2 p, rezultă că k = {x Φ(x) > θ k 1. (39) (X µ) Σ 1 (X µ) = χ 2 p, (40) p 1 = P (X 1 ) = P (χ 2 p θ 1 ), p i = P (X i ) = = P (θ i 1 < χ 2 p θ i ), 2 i k 1), p k = P (X k ) = P (χ 2 p > θ k 1 ). (40 ) Frecvenţele f i care intervin in testul de concordanţă χ 2 se calculează simpu, numărând valorile de selecţie ce cad in i, 1 i k. 36
3.2. Cazul nespecificat. In acest caz, construcţia statisticii testului de concordanţă χ 2 se realizeată in următorii paşi (pentru selecţia X 1,..., X n de volum n mare): -se separă o (sub)selecţie de volum n 1 < n; - cu acestă selecţie se estimează parametri µ şi Σ cu formulele obişnuite (adica µ X, Σ S); se observă că variabilele (X i X) S 1 (X i X i ), n 1 < i n sunt repartizate T 2 n 1 1 pe spaţiul R p. - construcţia continuă ca in cazul specificat, elipsoizii fiind de acelaş tip, dar probabilităţile teoretice p i se calculează cu repartiţia T 2 n 1 1 pe R p in loc de χ 2 p. References [1] Gheorghe MIHOC, Virgil CRAIU.(1977).Tratat de statistică matematică, Vol.II. Verificarea ipotezelor statistice, Editura Academiei. [2] Ion VADUVA. (1970). Analiză dispersională. Editura Tehnică. [3] Ion VĂDUVA and Nicolae POPOVICIU.(1979). χ2 test of goodness of fit for multivariate normal distribution. Specified case. Econ.Comp.Econ.Cyb.St. and Res.,No. 2, 1979,p.93-109. [4] Ion VĂDUVA and Nicolae POPOVICIU.(1980). χ2 test of goodness of fit for multivariate normal distribution.unspecified case. Econ.Comp.Econ.Cyb.St. and res., No 1, 1980,p.33-42. 37