Verificarea ipotezelor statistice 1 de I.Văduva

Σχετικά έγγραφα
Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Metode iterative pentru probleme neliniare - contractii

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Sisteme diferenţiale liniare de ordinul 1

8 Intervale de încredere

Curs 4 Serii de numere reale

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

9 Testarea ipotezelor statistice

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

Integrala nedefinită (primitive)

Asupra unei inegalităţi date la barajul OBMJ 2006

Metode de interpolare bazate pe diferenţe divizate

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Curs 1 Şiruri de numere reale

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

Seminar 5 Analiza stabilității sistemelor liniare

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Curs 2 Şiruri de numere reale

prin egalizarea histogramei

Spatii liniare. Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară. Mulţime infinită liniar independentă

Aplicaţii ale principiului I al termodinamicii la gazul ideal

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

2 Transformări liniare între spaţii finit dimensionale

riptografie şi Securitate

Cursul Măsuri reale. D.Rusu, Teoria măsurii şi integrala Lebesgue 15

MARCAREA REZISTOARELOR

z a + c 0 + c 1 (z a)

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

Esalonul Redus pe Linii (ERL). Subspatii.

Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1)

Functii Breviar teoretic 8 ianuarie ianuarie 2011

7 Distribuţia normală

Concurs MATE-INFO UBB, 1 aprilie 2017 Proba scrisă la MATEMATICĂ

Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism. (Y = f(x)).

Vectori liberi Produs scalar Produs vectorial Produsul mixt. 1 Vectori liberi. 2 Produs scalar. 3 Produs vectorial. 4 Produsul mixt.

Subiecte Clasa a VIII-a

1.3 Baza a unui spaţiu vectorial. Dimensiune

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

Principiul Inductiei Matematice.

Laborator 11. Mulţimi Julia. Temă

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

V O. = v I v stabilizator

f(x) = l 0. Atunci f are local semnul lui l, adică, U 0 V(x 0 ) astfel încât sgnf(x) = sgnl, x U 0 D\{x 0 }. < f(x) < l +

Matrice. Determinanti. Sisteme liniare

INTERPOLARE. y i L i (x). L(x) = i=0


Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Subiecte Clasa a VII-a

Ecuatii trigonometrice

CURS 11: ALGEBRĂ Spaţii liniare euclidiene. Produs scalar real. Spaţiu euclidian. Produs scalar complex. Spaţiu unitar. Noţiunea de normă.

Sisteme liniare - metode directe

Capitolul 2. Integrala stochastică

Criptosisteme cu cheie publică III

5.4. MULTIPLEXOARE A 0 A 1 A 2

SEMINAR TRANSFORMAREA FOURIER. 1. Probleme

Lucrare. Varianta aprilie I 1 Definiţi noţiunile de număr prim şi număr ireductibil. Soluţie. Vezi Curs 6 Definiţiile 1 şi 2. sau p b.

Curs 2 DIODE. CIRCUITE DR

CONCURS DE ADMITERE, 17 iulie 2017 Proba scrisă la MATEMATICĂ

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

Lucrarea nr. 2: Determinarea legii de repartiţie

Analiza bivariata a datelor

Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.

Toate subiectele sunt obligatorii. Timpul de lucru efectiv este de 3 ore. Se acordă din oficiu 10 puncte. SUBIECTUL I.

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

IV. CUADRIPOLI SI FILTRE ELECTRICE CAP. 13. CUADRIPOLI ELECTRICI

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

Seminar Algebra. det(a λi 3 ) = 0

VARIABILE ŞI PROCESE ALEATOARE: Principii. Constantin VERTAN, Inge GAVĂT, Rodica STOIAN

Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

2. Circuite logice 2.4. Decodoare. Multiplexoare. Copyright Paul GASNER

Exemple de probleme rezolvate pentru cursurile DEEA Tranzistoare bipolare cu joncţiuni

CURS XI XII SINTEZĂ. 1 Algebra vectorială a vectorilor liberi

DistributiiContinue de Probabilitate Distributia Normala

Laborator 6. Integrarea ecuaţiilor diferenţiale

Câmp de probabilitate II

Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2)

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

Criterii de comutativitate a grupurilor

Problema a II - a (10 puncte) Diferite circuite electrice


6 n=1. cos 2n. 6 n=1. n=1. este CONV (fiind seria armonică pentru α = 6 > 1), rezultă

T R A I A N ( ) Trigonometrie. \ kπ; k. este periodică (perioada principală T * =π ), impară, nemărginită.

ELEMENTE DE GEOMETRIA COMPUTAŢIONALĂ A CURBELOR Interpolare cu ajutorul funcţiilor polinomiale

NOTIUNI DE BAZA IN STATISTICA

Profesor Blaga Mirela-Gabriela DREAPTA

O generalizare a unei probleme de algebră dată la Olimpiada de Matematică, faza judeţeană, 2013

Transcript:

Verificarea ipotezelor statistice 1 de I.Văduva Notaţii si noţiuni preliminare Variabila aleatoare: X,Y,U,V,etc., descrisă de funcţie de repartiţie. Variabila aleatoare este asaociată unei populaţii statistice; valorile ei corespund indivizilor populaţiei. Funcţie de repartiţie: F (x) = P (X < x). P =Probabilitate. Repartiţie continuă, când există F (x). Densitate de repartiţie: f(x) = F (x) F (x) = x f(u)du X : 0 F (x) 1, F ( ) = 0, F (+ ) = 1, Deci f(x) 0, + f(u)du = 1 a, b R, a < b F (a) F (b) Variabila aleatoare discreta este dată de repartiţia sa a 1, a 2,..., a n p 1, p 2,..., p n F (x) =, p i = P (X = a i ), 1 i n, n p i = 1. a i <x p i, p i = probabilitati. 1 Conferinţă prezentată la deschiderea seminarului ştiinţific Nicolas Georgescu Roegen al Societăţii Române de Econometrie, 4 iulie 2012 1

Notă. n poate fi si. Definiţie. Selecţie (Bernoulliană) de volum n asupra variabilei aleatoare X este mulţimea de variabile aleatoare {X 1, X 2,..., X n } n N,independente şi identic repartizate ca şi X. Notă. Selecţia este rezultatul unor observaţii sau măsurători independente (stochastic) efectuate asupra a n indivizi din populaţie. Daca variebilele aleatoare X, Y au respectiv funcţiile de repartiţie F, G, iar funcţia lor comună de repartiţie este H(x, y) = P (X < x, Y < y) atunci ele sunt independente dacă H(x, y) = F (x)g(y). Valori medii. Momente. Dacă considerăm funcţia reală φ(x) masurabilă (!) atunci numim valoare medie a variabilei aleatoare φ(x) mărimea E[φ(X)] = φ(u)f(u)du când integrala există, iar in cazul discret, dacă n =, când seria este convergentă. Cazuri particulare: E[φ(X)] = φ(a i )p i Momente de ordinul r, r N : m r = E[X r ] = x r f(x)dx, in cazul continuu 2

m r = E[X r ] = a r i p r, in cazul discret. m 1 = E[X] = (notat) = m se numeşte medie sau valoare medie a lui X. Momente centrate de ordinul r, r N : µ r = E[(X m) r ] Momentul centrat de ordinul al doilea se numeşte dispersie sau varianţă şi se notează σ 2 = µ 2 = V ar(x) iar σ = σ 2 se numeşte abatere medie pătratică sau abatere standard sau deviaţie standard. Inegalitatea lui Cebysheff. Dacă esistă momentele de ordinul 1 şi 2, atunci are loc inegalitatea P ( X m tσ) 1 1 t 2, t R+. Notă. Aceasta inegalitate permite determinarea unui interval de concentraţie al valorilor variabilei aleatoare X. De ex. dacă t = 4, atunci in intervalul (m 4σ, m + 4σ) se gasesc peste 94% din valorile variabilei aleatoare X. Cazul multidimensional. Vector aleator: X = (X 1, X 2,..., X k ) =vector coloană de dimensiune k. 3

Funcţie de repartiţie: F (x) = F (x 1, x 2,..., X k ) = P (X 1 < x 1,..., X k < x k ) Densitate de repartiţie (cazul continuu) când ea există: Proprietăţi: f(x) = f(x 1, x 2,..., x k ) = k F (x 1,..., x k ) x 1... x k F (,..., ) = 0, F ((..., ) = 1, 0 F (x 1,..., x k ) 1 i, < a i < b i < F (x 1,..., a i,..., x k ) F (x 1,..., b i,..., X k ) (adica monotonia crescatoare pe componente). Proprietăţi ale densităţii de repartiţie: f(x) 0, F (x) = R k f(u)du = 1 x f(u)du Fie X = (X 1, X 2 ), DimX 1 = r, DimX 2 = s, r + s = k X 1, X 2 subvectori ai lui X Funcţia de repartiţie marginală a lui X 1 este F 1 (x 1 ) = F (X 1, = x 2 ) Densitatea marginală a lui X 1 este f 1 (x 1 ) = r F 1 (x 1 ) x 1,..., x r 4

Momente: i, E[X i ] = m i = R k x i f(x)dx = x i f i (x i )dx i unde f i (x i ) este densitatea marginala a componentei aleatoare X i cand integrela există. Momentul mixt m ij = E[X i X j ] = + + inf ty f ij =densitate marginala a lui (X i, X j ). Covarianţa. cand există este: x i x j f ij (x i, x j )dx i dx j cov(x i, X j ) = E[(X i m i )(X j m j )] = m ij m i m j = σ ij Se observa că V ar(x i ) = cov(x i, X i ) = σ 2 i = σ ii. Inegalitatea lui Schwarz σ ij σ i σ j. Coeficientul de corelaţie al variabilelor aleatoare X i şi X j este ρ ij = corr(x i, X j ) = Notă. Ineg. Schwarz ρ ij [ 1, 1] cov(x i, X j ) V ar(xi )V ar(x j ) = σ ij σ i σ j Interpretarea lui ρ : măsoară gradul de dependenţă stochastică al variabilelor aleatoare X i şi X j. 5

Notaţii: Vectorul valoare medie al lui X este µ = (m 1, m 2,..., m k ) = E(X). Matricea de covarianţă a vectorului X este Σ = σ 11 σ 12,..., σ 1k...... σ k1 σ k2,..., σ kk = Cov(X, X ) Este pozitiv definită Σ 0, adică x Σx > 0, şi deci inversabilă. Ipoteză statistică. F = multimea funcţiilor de repartiţie. F 0 F. X= variabilă aleatoare X F = funcţie de repartiţie. Definiţie. Ipoteză statistică este o afirmaţie asupra lui F de forma H 0 : F F 0 ce trebuie verificată cu ajutorul unei selecţii de volum n, X 1, X 2,..., X n, dată. (Se mai numeste ipoteza nula!) Ipoteză simpla când CardF 0 = 1; ipoteză compusă, când CardF 0 > 1. Ipoteza alternativă: H 1 : F F 1, F 1 F, F 1 F 0. Cea mai generală alternativă H 1 : F F \ F 1. Ipoteza parametrica: H 0 se referă la un parametru al funcţiei de repartiţie. De ex. F 0 este familia repartiţiilor normale N(m, σ) şi ipoteza este de forma H : m = m 0 (ipoteză simplă); aici alternativa poate fi simplă de forma H 1 : m = 6

m 1, m 1 m 0, sau altternativa compusă de forma H 1 : m m 0. In acest caz ipoteza simplă poate fi de forma H 0 : m m 0 < λ, iar alternativa va fi de forma H 1 : m m 0 λ. Aici m = E[X] este adevărata medie a variabilei aleatoare X, m 0 este o valoare dată (de referinţă), iar λ > 0 este eroarea cu care apreciem că m poate fi egal cu m 0. Ipoteză de concordanţă: H 0 : F F 0, (adica se specifică tipul funcţiei de repartiţie (de ex normală exponenţială Cauchy, Poisson, binomoală etc.) Majoritatea funcţiilor de repartiţie depind de parametri θ, adică F (x) = F (x, θ) unde θ este un parametru uni sau multidimensional. Dacă θ este cunoscut, atunci ipoteza de concordanţă se numeşte complet specificată, iar in caz contrar, se numeşte nespecificată. Notă. Fiind data o selecţie X = X 1, X 2,..., X n de volum n asupra variabilei aleatoare X, vectorul X are o repartiţie de probabilitate pe R n, a cărui densitate f, (când F are densitate) este L(x 1, x 2,..., X n ) = n f(x i ) Funcţia L(x 1,..., x n ) se numeşte funcţie de verosimilitate. Să mai observăm că L(X 1,..., X n ), cu argumente X i = valori de selecţie este o variabilă aleatoare!. Definiţie. Un test de verificare a unei ipoteze statistice, este o regulă prin care spaţiul R n al selecţiilor se descompune in două părţi W = R1, n şi W = R2 n = R n \ R1 n (complementarul lui R1) n astfel incât, dacă vectoerul de selecťie X W atunci se respinge ipoteza H 0, (adică se acceptă alternativa H 1 ), iar in caz contrar (adica dacă X W,) atunci se acceptă 7

ipoteza H 0. Mulţimea W = R n 1 se numdeşte domeniu critic al ipotezei H 0, iar W = R n 2 se numeşte domeniu de acceptare al ipotezei H 0. Observaţie importantă. Deoarece o selecţie de volum finit n nu asigură o informaţie completă, decizia care se ia pe baza acestei selecţii asupra validităţii sau nu a ipotezei H 0 ne poate conduce la următoarele rezultate: să acceptăm H 0 cand ea este adevărată (notată (H 0 H 0 )), să accepotăm H 0 când ea nu este adevărată (notată (H 0 H 1 )), să respingem H 0 când ea este adevărată (notată (H 1 H 0 ) sau să respingem H 0 când ea nu este adevărată (notată (H 1 H 1 )). Evident, deciziile bune sunt in primul şi ultimul caz, pe cand celelalte două cazuri constituie erori ce se comit fiecare cu o probabilitate. Aceste probabilităţi sunt α = P (H 1 H 0 ) = P (X W H 0 ), β = P (H 0 H 1 ) = P (X W ) α este probabilitatea erorii de genul intâi sau riscul, de genul intâi, in timp ce β este probabilitatea erorii de genul doi sau riscul de genul doi. α se mai numeşte şi prag de semnificaţie. Probabilitatea se numeşte puterea testului. π = P (H 1 H 1 ) = 1 β Un test bun este acela pentru care α şi β sunt mici (de ex. 0.05 sau mai mici, sau α este mic şi puterea testului π este mare). Din păcate, pentru o selecţie de volum n dată, dacă se impune un rtisc α dat, atunci nu există un test pentru care β sa fie de asemenea oricât mic. Testul pentru care la un 8

prag de semnificaţie dat α există o limitare inferioară a riscului de genul doi β (sau corespunzător există o limitare superioară a lui π), se numeşte test uniform cel mai puternic. Existenţa acestui lucru a este stipulată de următoarea Lema lui Neyman-Pearson. Fie X f(x, θ) şi fie ipoteza parametrică simplă H 0 : θ = θ 0 şi alternativa H 1 : θ = θ 1. Atunci pentru un prag α dat, există un test uniform cel mai puternic a cărui regiune critică este de forma c este o constantă şi unde W = {(X 1,..., X n ) L 1 L 0 c > o, } L 1 = L(X 1,..., X n, θ 1 ) = n f(x i, θ 1 ), L 0 = L(X 1,..., X n, θ 0 ) = n f(x i, θ 0 ), adică L 1, L 0 sunt respectiv funcţiile de verosimilitate ale lui X in ipotezele H 1, H 0. Definiţie. Numim statistică o funcţie t(x 1,..., X n ) (care depinde de datele de selecţie). Depinzând de repartiţia de probabilitate a lui X, statistica t are o repartiţie de probabilitate. Dacă riscul α este dat atunci, pentru o statistică t convenabil aleasă se poate construi un test pentru ipoteza H 0 a cărui regiune critica este de forma W α = {(X 1, X 2,..., X n ) : P (t(x 1,..., X n ) > c α H 0 ) = α}, unde repartiţia statisticii t este considerată in ipoteza H 0. Regiumea critică a testului, W α, se numeşte regiune critică de nivel α. 9

O statistică t cu ajutorul căreia se construieşte un test pentru o ipoteză nulă H 0 se numeşte statistică test. Din lema lui Neyman-Pearson rezultă că pentru verificarea ipotezei H 0 cu alternativa H 1 statistica test este raportul de verosimililităţi t(x 1, X 2,..., X n, θ 0, θ 1 ) = L(X 1,..., X n ; θ 1 ) L(X 1, X 2,..., X n ; θ 0 ) Testul, se numeşte testul raportului de verosimilităţi. Exemplu. Fie X N(m.σ) variabila normală, cu abaterea medie pătratică σ, cunoscută. Fie de verificat ipoteza parametrică H 0 : m + m 0 cu alternativa H 1 : m = m 1 > m 0. (Ambele ipoteze sunt simple). Testul raportului de verosimilităţi conduce,după calcule, la statistica t = L 1 = e X.n( m 1 m 0 σ L 2 m2 1 m2 0 2σ 2 ), 0 unde X este media aritmetică a datelor de selecţie, sau media de selecţie. Regiunea critică de nivel α se obţine din relaţia P ( L 1 c) = α = P (X( m 1 m 0 m2 1 m 2 2 ) log c) = α, L σ 2 2σ 2 0 n n adică regiunea critică a testului este in final de forma W α = {(X 1,..., X n ) : P (X 2σ 2 n log c + (m2 1 m 2 0) 2(m 1 m 0 ) ) = α}. (1) Regiunea critică W α se poate deduce sub o formă echivalentă astfel. In ipoteza H 0, statistica U = X m 0 σ n N(0, 1). 10

Deci, pentru un α dat, alegem z α astfel incat P (Z z α ) = de unde domeniul critic este z α e t 2 2 dt = α, W α = {(X 1, X 2,..., X n ) X m 0 + z α n }. (2) Mărimea z α se numeşte α-cuantila superioară a repartiŗiei normale N(0, 1). Observăm că cele două forme ale domeniului critic W α date de (1) şi (2) coincid, deoarece au acelaş nivel α. Puterea testului, este π(m 1 ) = P (X m 0 +z α σ n H 1 ) = P ( X m 1 σ n m 0 m 1 σ n +z α ) = = P (Z m 0 m 1 σ n + z α ) Deoarece π(m 1 ) = 1 β rezultă că 1 ϕ(z α + σ n ) = 1 β deci z α + m o m 1 σ n = z 1 β Ultima formulă conduce la faptul că dacă se dau riscurile α şi β atunci volumul minim de selectie necesar pentru realizarea acestor riscuri este n = (z 1 β z α ) 2 σ 2 11 (m 1 m 0 ) 2

ceea ce conduce si la o altă consecinţă a lemei Neyman-Pearson. Notă. Din cele de mai sus, observăm că dacă considerăm parametrul λ = m 0 m 1 ca o distanţă intre ipotezele H 0 şi H 1 şi considerăm că pentru o distanţă λ 0 dată H 1 H 0 atunci puterea π se exprimă in funcţie de λ si anume π(λ) = 1 ϕ(z α + λ σ n ). Forma generală a testului raportului de verosimilităţi. Să considerăm ipoteza H : F ω Ω, unde Ω este o clasă de funcţii de repartiţie si ω o submulţime a sa.alternativa este N H : F Ω \ ω. Să notăm (L) Ω, (L) ω valorile maxime ale funcţiei de verosimilitate in ip[otezele Ω, ω şi să cosniderăm raportul de verosimilitate Λ(X) = (L) ω (L) Ω, X = vectorul de selecţie. Deoarece ω Ω rezultă că Λ(X) 1, iar cand ω este adevărată, Λ(X) = 1. (Caz ideal!). Deci domeniul critic pentru testarea ipotezei H este de forma W (c) = {X Λ(X) c < 1}, P (Λ(X c) = α. (3) Lema lui Neyman-Pearson este valabilă şi aici; regiunea critică W (c) dată de (3) corespunde testului uniform cel mai puternic. 12

Pentru a construi testul raportului de verosimilităţi pentru o ipoteză H va trebui mai intai să calculăm valorile maxime (L) Ω, (L) ω ale funcţiei de verosimilitate. Exemplu. Fie X N(m, σ) cu σ-cunoscut si fie de verificat ipoteza H : m = m 0 cu alternativa N H : m m 0. Maximul funcţiei de verosimilitate in ipoteza Ω conduce la iar (L) Ω = ( ) n 1 2 1 e 2σ 2 2πσ 2 ( 1 (L) ω = 2πσ 2 Raportul de verosimilităţi este ) n 2 e 1 2σ 2 n (X i X) 2 n Λ(X) = e n 2σ 2 (X m 0) 2 (X i m 0 ) 2. iar domeniul critic este de forma (3) unde c = c α satisface relaţia α = P [ n 2σ 2(X m 0) 2 log c α ] = P [ Deoarece X m 0 σ n X m 0 σ n = Z N(0, 1) 2 log c α ]. rezultă că folosind z α 2 dat de relaţia z α 2 e u 2 2 du = 1 α, z α 2 domeniul c ritic este de forma W α = {X : X m 0 σ n 13 z α 2 }. (3 )

Puterea testului π(m) se calculează cu formula P ( X m 0 σ n Testul prezentat se numeste testul U. z α N H) = π(m). (4) 2 Problema celor două selecţii. Fie X N(m 1, σ 1 ), Y N(m 2, σ 2 ) cu σ 1, σ 2 cunoascute. Se dă o selectie de volum n 1 pentru X si o selecţie de volum n 2 pentru Y. Pentru verificarea ipotezei H : m 1 = m 2 cu alternativa N H : m 1 m 2 se foloseşte statistica U = X Y m 1 + m 2 σ 2 1 n 1 + σ2 2 n 2. (5) care in ipoteza H are repartiţia normală N(0, 1). Domeniul critic se determină pe baza statisticii U dată de (5) şi el este de forma W α = {X : U z α 2 }, iar Puterea testului se calculează cu formula π(m 1 m 2 ) = P ( U z α N H). 2 Cazul dispersiilor necunoscute. Repartiţii inrudite cu repartiţiile normale. Fie de testat H : m = m 0, N H : m m 0, cu σ necunoscut. Determinarea raportului de verosimilităţi, conduce mai intâi la estimarea lui m cu X şi a lui σ 2 cu formula s 2 = 1 n 1 n 14 (X i X) 2 (6)

după care se calculează (L) Ω şi (L) ω In final testul raportului de verosimilităţi conduce la statistica t a lui Student, adică t = X m 0 s n (6 ) care in ipoteza H are repartiţia Student cu f = n 1 grade de libertate, ce are densitatea de repartiţie g(x) = 1 Γ( f+1 2 ) 1 π Γ( f 2 ). (7) (1 + x 2 ) f+1 2 Variabila Student se defineşte cu formula t f = Z χ f f, t f R, Z N(0, 1) unde χ 2 f = f Z2 i, iar Z i sunt variabile N(0, 1) independete şi Z e independent de χ 2 f. Densitatea de repartiţie a lui χ 2 f este h(x) = 1 2 f 2 Γ( f 2 )xf 2 1 e x 2, x > 0, h(x) = 0 daca x 0. (8) Dacă E[Z i ] = m i 0 măcar pentru un i atunci f Z 2 i = χ 2 f,δ cu δ 2 = f m2 i se numeşte variabilă χ 2 necentrată, cu f grade de libertate şi cu parametru de excentricitate δ. 15

Nu precxizăm densitatea de repartiţie (complicată!) a acestei variabile. Definiţie. Variabila aleatoare F f1,f 2 > 0 este definită astfel F f1,f 2 = f 2χ 2 f 1 f 1 χ 2 f 2, (9) Variabila F f1,f 2 are o densitate de repartiţie pe care nu o prezentăm aici. Sunt utilizate si variabile F necentrate de forma F f1,f 2 ;δ 1,0, F f1,f 2 ;0,δ 2, F f1,f 2 ;δ 1,δ 2. Cea mai utilizată după cum vom vedea, este prima formă de F-necentrataă. Intre variabila F si variabila t este valabilă relaţia t 2 f = F 1,f. Forme ale testului t. Pentru un risc α dat, să cosiderăm cuantila superioară t f, α 2 > 0 care satisface relaţia tf, α 2 P ( t f t f, α ) = 2 t f, α 2 g(u)du = 1 α (10) Ca şi testul U, testul t, dedus din testul general al raportului de probabilităţi, capătă forme asemănătoare, după cum urmează: t1.verificarea ipotezei H : m = m 0, σ necunoscut, cu alternativa N H : m m 0. Domeniul critic este X m 0 s n t f, α, f = n 1, (11) 2 16

Puterea testului se calculează cu formula π(m) = P ( X m 0 s n t f, α 2 : N H) (11 ) unde statistica din formulă are repartiţia t-necentrată adica t 2 f,δ = F 1,f:δ,0, δ 2 = m 1 m 0 s n 2. (11 ) t2.verificarea ipotezei H : m 1 = m 2 pentru două populaţii N(m 1, σ), N(m 2 ), σ), σ cunoscut cu N H : m 1 m 2. Fie X N(m 1, σ 1 ), Y N)(m 2, σ 2 ) σ 1 = σ 2 = σ. si volumele de selecţie n 1, n 2. Dispersia σ 2 se estimează astfel s 2 1 = n 1 + n 2 2 { n1 (X i X) 2 + n 2 (Y j Y ) 2 }, f = n 1 + n 2 2. j=1 Statistica t este in acest caz t = s X Y 1 n1 + 1 n2 domeniul critic de nivel α este de forma (11), iar puterea testului π(m 1 m 2 ) este de forma (11 ) cu δ 2 = m 1 m 2 s 1 n1 + 1 n2 2 t3.verificarea ipotezei H din cazul precedent, cu σ 1, σ 2 necunoscute şi ne egale. In acest caz testul t are o construcţie specială şi anume;. 17

- se estimează dsispersiile cu formulele obişnuite s 2 1 = 1 n 1 (X i X) 2, f 1 = n 1 1; s 2 2 = 1 n 2 (Y j Y ) 2, f 2 = n 2 1; f 1 f 2 j=1 - se calcullează gradele de libertate f cu formulele c = f = s 2 1 f 1 s 2 1 f 1 + s2 2 f 2 1 c 2 f 1 + (1 c)2 f 2 (f este rotunjit la intreg) -statistica t este t = X Y s 2 1 n 1 + s2 2 n 2 In continuare testul t se dezvoltă ca la t2. (12) Teste privind egalitatea dispersiilor populaţiilor normale. Se dau X N(m 1, σ 1 ), Y M(m 2, σ 2 ) şi selecţiile independente corespunzătoare de volume n 1, n 2. Ipoteza H : σ 1 = σ 2 cu alternativa N H : σ 1 σ 2 se verifică folosind testul F (al lui Snrdrcor) după cum urmează: - se estimează σ 2 1, σ 2 2 cu formulele (12); se calculează statistica F = s2 1 s 2 2 18

Statistica F are repartiţia F -centrată cu (f 1, f 2 ) grade de libertate. Deci domeniul critic de nivel α este F F f1,f 2 ;α, unde P (F f1,f 2 F f1,f 2 ;α) = α, adică F f1,f 2 ;α este α-cuantila superioară a repartiţiei F. Testul lui Bartlett pentru egalitatea a mai multe dispersii. Se dau k populaţii normale N(m 1, σ i ), 1 i k si selectţii corespunzătoare X i,j,.1 i k, 1 j n i de volume n 1, n 2,..., n k, n i > 3 respectiv. Se cere să se verifice ipoteza K : σ 2 1 =... = σ 2 k. Testul lui Bartlett se realizează in următorii paşi: - se estimează dispersiile cu formulele Si 2 = 1 n i 1 ( ni j=1 - se calculează s 2 cu formula X 2 ij n i X i 2 ), 1 i k s 2 = 1 f ( k f i s 2 i ), f i = n i 1, f = k se calculează statistica lui Bartlett f i χ 2 = 1 B k f i log s2 i s 2, B = k 1 n i 1 1 n k 3(k 1) + 1, n = i n i. (13) Statistica χ 2 are k 1 grade de libertate, deci domeniul critic al testului lui Bartlett este χ 2 χ 2 k 1,α, unde P (χ 2 k 1 χ 2 k 1,α) = α. 19

(aici α este riscul de genul intai). Puterea testului se calculează pe baza repatriţiei necentrate (σ i diferite intre ele). χ 2 k 1,δ, δ 2 = k f iσ 2 i f, Teste de concordanţă. Presupunem că se dă o selecţie de volum n asupra lui X si se cere să verificăm ipoteza de concordanţă H : X F. Prezentăm două teste asimptotice (când n ). Testul de concordanţă χ 2. Dacă ipoteza H este complet specificată, atunci testul χ 2 constă din următoarele etape: - se consideră 0 diviziune a mulţimii pe care variabila aleatoare X ia valori de probabilităţi pozitive, adică = k i, i j = ø, P ( i ) > 0. - se calculează probabilităţile p i = P ( i ) > 0, 1 i k; - pentru selecţia dată X 1, X 1,..., X n, n = f.mare(n > 1000) se determină f i = numărul valorilor de selecţie ce aparţin lui i, adică frecvenţele absolute pe i ; - se calculează statistica χ 2 = k (f i np i ) 2 (13 1) np i Deoarece statistica χ 2 are repartiţia χ 2 k 1, domeniul critic al testului este χ 2 χ 2 k 1,α, P (χ 2 k 1 χ 2 k 1,α = α. 20

Puterea testului se determină ca deobicei cu χ 2 necentrat (repartiţia statisticii (13-1) in ipoteza N H.) Dacă H este nespecificată, atunci etapele testului χ 2 suferă o modificare şi anume dacă funcţia de repartiţie depinde de un parametru θ = (θ 1,..., θ c ), c < k 1, atunci p i = p i (θ) şi statistica (13-1) devine χ 2 (θ) = k (f i np i (θ) 2 np i (θ) (13 2) iar parametrul θ trebuie estimat. Estimaţia θ se obţine minimizând (13-2) in raport cu theta, dar cu condiţia ca numitorii din suma (13-2) sa fie asimptotic constanţi.(această metodă de estimare se numeşte metoda minimului lui χ 2 modificat.) După estimarea celor c parametri, probabilităţile din (13-1) devin p i = ˆp i = p i (θ), iar statistica devine χ 2 (θ) = k (f i nˆp i ) 2. (13 3) nˆp i Se ştie că statistica (13-3) are o repartiţie χ 2 k c 1 şi de aici se continuă paşii din cazul când H este complet specificată. Puterea testului se calculează tot cu χ 2 -necentrat unde paqrametrul de excentricitate este unde p H i, p N H i δ 2 = k (p H i p N H np H i i ) 2 sunt calculate in ipotezele respective. Teste de concordanţă de tip Kolmogorov-Smirnov. Aceste teste se aplică numai când funcţia de repartiţie F este continuă. 21,

Definim mai intâi estimaţia nedeplasaată a funcţiei de repartiţie F (x). Aceasta este F n (x) = ν(x), (13 4) n unde ν(x) =numărul valorilor de selecţie mai mici decât X. Ea se mai numeşte şi funcţia de repartiţie empirică. Să notăm D n = sup F (x) F n (x) = max F (X x i) F n (X i ) 1 i n D n + = max [F n(x i ) F (X i )], D 1 i n n = max [F (X i) F n (X i )]. 1 i n Testele de tip Kolmogorov-Smirnov se bazează pe următoarele teoreme limită: Teorema lui Kolmogorov. Dacă F este continuă, atunci lim P (D n n < λ n ) = + k= ( 1) k e λ2 k 2 = K(λ). (13 5) Teorema lui Smirnov. Dacă F este continuă atunci lim P n (D+ n < λ ) = 1 e 2λ2. (13 6) n Testul lui Kolmogorov are domeniul critic de nivel α 0.05 de forma D n > λ α n, unde K(λ α ) = 1 α. (13 7) In mod asemănător, domeniul critic pentru testul lui Smirnov este D + n > θ α n, unde e 2θ2 α = α. (13 8) 22

Puterea testului Kolmogorov se calculează pe baza repartiţiei asimptotice a statisticii Dn = sup F n (x) G(x), unden H : X G(x). x Nu există evaluări exacte privind puterea testului lui Kolmogorov. Dacă pentru două variabile X având funcţia de repartiţie F şi Y având funcţia de repartiţie G (F, G necunoscute!), se dau două selecţii asupra lor, de volume n şi m respectiv, atunci se poate pune problema testării ipotezei H : F = G. Testarea acestei ipoteze se face pe baza următoarei teoreme Teorema lui Smirnov. Dacă F şi G sunt continue şi notăm atunci lim n,m, n D n,m = sup F n (x) G m (x), x m =ρ=const. P (D n,m < λ( 1 n + 1 )) = K(λ). (13 9) m Domeniul critic al testului este D n,m > λ 1 α n + 1 m, K(λ α) = 1 α. (13 10) Puterea testului se determină ca şi in cazul testului Kolmogorov. Teste pentru repartiţii multidimensionale. Vom prezenta teste referitoare la mediile repartiţiilor normale multidimensionale. Vectorul = (X 1, X 2,..., X k ) X are repartiţia normală k-dimensională N(µ, Σ) dacă densitatea sa de repartiţie este 1 f(x, µ, Σ) = e 1 (2π) k 2 det(σ) 1 2 (x µ) Σ 1 (x µ). (14) 2 23

µ este vectorul medie al lui X, iar Σ este mateicea de covarianţă a lui X notate respectiv µ = E(X), Σ = Cov(X, X ), vectorii, fiind vectori coloană, iar produsele matriceale sunt calculate conform regulii obişnuite linii prin coloane. Matricea Σ este pozitiv definită, (notată Σ 0), de unde rezultă că forma pătratică de la exponent in formula (14) este pozitiv definită. O selecţie de volum N asupra vectorului aleator X este de forma X 1, X 2,..., X N care de fapt este o matrice N k, X i fiind coloanele acestei matrici: X i sunt deci valori de selectie efectuate asupra lui X. Estimaţiile nedeplasate ale parametrilor ν, Σ sunt respectiv adică X = N X i, S = 1 N 1 N E[X] = µ, E[S] = Σ. (X i X)(X i X), (16) In cazul unidimensional testele asupra mediilor se bazau pe staistica U repatizată normal şi pe statistica t a lui Student. Asemănător, testele privind mediile repartiţiilor normale multi dimensionale se vor baza pe o statistică χ 2 si pe o statistică T 2 a lui Hoteling, cu n grade de libertate. Aceste statistici arată de forma χ 2 k = Y Σ 1 Y, Y N(0, Σ), (17) Tn 2 = Y S 1 Y, Y N(0, Σ), ns = n Z α Z α, (18) unde Z i N(0, σ), Z i ind Y. S este o matrice W ishart. Variabila T 2 n are repartiţia Hoteling cu n grade de libertate. 24

Se arată că variabila T 2 n este legată de variabila F prin relaţia n k + 1 Tn 2 k n = F k,n k+1. (18) iar dacă in (18) Y N(µ, Σ), atunci T 2 n din (18) are repartiţia Hoteling necentrată cu parametrul de excentricitate δ 2 = µ Σ 1 µ, relatia (18 ) ramânând valabilă si pentru variabile necentrate. Relaţia (18 ) se păstrează şi intre cuantilele variabilelor F şi T 2 şi anume Tn,α 2 nk = n k + 1 F k,n k,α. (18 ) Verificarea ipotezelor asupra mediilor cand matricile de covarianţă sunt cunoscute. H 1. Ipoteza H : µ = µ 0, cu alternativa N H; µ µ 0. Se foloseşte selecţia de volum N. Deoarece in ipoteza, H X N(µ 0, Σ N ), rezultă că statistica χ 2 = N(X µ 0 ) Σ 1 (X µ 0 ) (19) are repartiţia χ 2 k, deci domeniul critic de nivel α este conform (19) χ 2 χ 2 k,α, unde P (χ 2 k χ 2 k,α) = α. (19 ) Puterea testului este dată de repartiţia χ 2 -necentrată adică π(m) = P (χ k;δ χ 2 k,α), unde δ 2 = N(µ µ 0 ) Σ 1 (µ µ 0 ). (20) Amintim faptul că distanţa lui Mahalanobis dintre repartiţiile normale N(µ 1, Σ), N(µ 2, Σ) este D 2 = (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ) 25

deci δ 2 este o distanţă Mahalanobis. H 2. Problema celor două saelecţii, pentru două populaţii normale X N(µ 1, Σ), Y N(µ 2, Σ) cu Σ cunoscut. Presupunem că volumele celor două selecţii sunt N 1 respectiv N 2 si avem de testat ipoteza H : µ 1 = µ 2 cu alternativa N H : µ 1 µ 2. Deoarece in ipoteza H avem (X Y ) N(0, ( 1 N 1 + 1 N 2 )Σ), rezultă χ 2 = N 1N 2 N 1 + N 2 (X Y) Σ 1 (X Y) (21) Domeniul critic de nivel α este deci de forma (19 ) iar puterea testului se determină cu χ 2 -necentrat cu parametrul de excentricitate δ 2 = N 1N 2 N 1 + N 2 (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ). (21 ) H 3. Problema celor r selecţii. Fie vectorii normali X (i) N(µ (i), Σ), Σ cunoscut şi selecţiile de volume N i asupra lor, 1 i r. Se dau constantele β i, 1 i r (ce pot fi numite măsuri de ponderare). Se cere să se verifice ipoteza H : µ = µ 0, µ = r β iµ i, numită problema celor r selectii. (In biologie µ este media caracteristicii unei specii ce provine din r ascendenţi; in economie, µ poate fi suma cheltuită de o familie pentru a-şi asigura r resurse necesare). Deoarece in ipoteza H vectorul aleator r β ix (i) N(µ 0, ( r βi 2 N i )Σ), rezultă ca testul se bazează pe statistica χ 2 = r β 2 1 i N i ( r β i X (i) µ 0 ) Σ 1 ( r β i X (i) µ 0 ). (22) 26

Domeniul critic de nivel α este tot de forma (19 ) cu χ 2 dat de (22). Puterea testului se calculează tot cu χ 2 necentrat cu parametrul de excentricitate δ 2 = r β 2 1 i N i ( r β i µ (i) µ 0 ) Σ 1 ( r β i µ i µ 0 ). (22 ) H 4. Cazul matricilor de covarianţă neegale. Dacă X (i) r N(µ i, Σ i ), nu implică dificultăţi. In acest caz vectorul β ix (i) N(µ, Σ ) unde µ = r β i µ i, Σ = ( r Statistica testului este in acest caz χ 2 = ( r β 2 i N i )Σ. (23) β i X (i) µ 0 ) Σ 1 ( r β i X (i) µ 0 ), (23 ) care are repartiţia χ 2 k, deci domeniul critic este de forma (19 ), iar puterea testului se determină cu χ 2 necentrat cu parametrul de excentricitate δ 2 = (µ µ 0 ) Σ 1 (µ µ 0 ). (23 ) H 5. Problema simetriei. Fie X N(µ, Σ), µ = (µ 1,..., µ k ). Problema simetriei constă in a verifica ipoteza H : µ 1 =... = µ k. Fie ϵ = (1, 1,..., 1) vectorul k-dimensional cu toate componentele 1. Să considerăm o matrice C k (k 1), astfel incât Cϵ = 0. O astfel de matrice există deoarece cele k (k 1) elemente ale ei satisfac numai k ecuaţii. Cu aceste notaţii ipoteza H se poate 27

scrie H : Cµ = 0. Deoarece X este o estimaţie a lui µ,, rezultă că statistica test χ 2 = N(CX) (CΣC ) 1 (CX) (24) are repartiţia χ 2 k 1 şi deci domeniul critic iar puterea tesctului este χ 2 χ 2 k 1,α, π = P (χ 2 k 1;δ χ 2 k 1,α), unde δ 2 = N(Cµ) (CΣC ) 1 (Cµ). (24 ) Teste asupra mediilor repartiţiilor normale k-dimensionale, când matricile de covarianţă sunt necunosacute. T 1. Verificarea ipotezei H : µ = µ 0 cu alternativa N H : µ µ 0, cu Σ-necunoscut. Cu ajutorul selecţiei de volum N se estimează µ şi Σ astfel X = 1 N N X i, S = 1 N 1 N (X i X)(X i X). (25) Matricea S fiind o matrice Wishart, rezultă că statistica T 2 = N(X µ 0 ) S 1 (X µ 0 ) (26) are, in ipoteza H, o repartiţie Hoteling cu N 1 grade de libertate. Deci domeniul critic de nivel α pentru verificarea ipotezei H este T 2 T 2 N 1,α, unde P (T 2 N 1 T 2 N 1,α) = α. Puterea testului se calculează cu ajutorul repartiţiei T 2 necentrate cu parametrul de excentricitate δ 2 = N(µ µ 0 ) Σ 1 (µ µ 0 ) (26 ) 28

adică π(µ) = P (T 2 N 1;δ T 2 N 1,α). (26 ) T 2. Problema celor două selecţii când matricile de covarianţă sunt necunoscute si egale. Fie X (1) N(µ 1,Σ), X (2) N(µ 2, Σ si două selecţii de volume N 1, N 2 respectiv. Se cere testarea ipotezei H : µ 1 = µ 2 cu alternativa N H : µ 1 µ 2. Matricea de covarianţă comună se estimează cu 1 N 1 + N 2 2 N 1 (X (1) S = i X (1) )(X (1) i X (1) ) + N 2 Deoarece X (1) X (2) N(0, N 1+N 2 N 1 N 2 (X (2) j=1 j X (2) )(X (2) (27)) Σ), rezultă că statistica T 2 = N 1N 2 N 1 + N 2 (X (1) X (2) ) S 1 (X (1) X (2) ), (28) are repartiţia T 2 N 1 +N 2 2. Atunci, domeniul critic al testului este T 2 T N1 +n 2 2,α, unde TN 2 1 +N 2 2,α = N 1 + N 2 2)k N 1 + n 2 k 1 F k,n 1 +N 2 k 1<α, (28 ) iar puterea testului se calculează cu T 2 necentrat cu parametrul de excentricitate δ 2 = N 1N 2 N 1 + N 2 (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ). (28 ) T 3. Problema celor două selecţii când matricile de covarianţă sunt necunoscute şi diferite. Presupunem deci că se dau vectorii normali X (1) N(µ 1, Σ 1 ), X (2) N(µ 2, Σ 2 ), 29 j X (2) ).

selecţiile corespunzătoare de volume N 1, N 2 şi se cere să se testeze ipoteza H : µ 1 = µ 2 < cu alternativa N H : µ 1 µ 2. Dacă până acum construcţia testelor T 2 decurgea asemănător testelor t din statistica unidimensională aici construcţia presupune un atificiu ce va fi prezentat in continuare. Astfel să presupunem că N 1 < N 2. (In caz contrar schimbam notarea vectorilor normali!). Din selectiile X (1) i, 1 i N 1 şi X (2) j, 1 j N 2, construim o nouă selecţie Y i, 1 i N 1 astfel N 1 Y i = X (1) i + 1 N 1 X (1) s 1 N 1 X (2) j, 1 i N 1. N 2 N 1 N 2 s=1 N 2 j=1 (29) Se arată că valorile de selectie Y i, 1 i N 1 sunt independente stochastic şi repartizate normal N(µ 1 µ 2, Σ), unde Σ = Σ 1 + N 1 N 2 Σ 2. (30) Matricea Σ se estimează cu S = 1 N 1 1 iar in ipoteza H statistica N 1 j=1 (Y j Y)(Y j Y) (30 ) T 2 = N 1 Y S 1 Y (31) are N 1 1 grade de libertate. Domeniul critic al testului este in acest caz T 2 T 2 N 1 1,α, (31 ) iar puterea testului este π(µ 1 µ 2 ) = P (T 2 N 1 1;δ T 2 N 1 1,α); δ 2 = N 1 (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ). (31 ) 30

T 4. Problema celor r selecţii când matricile de covarianţă sunt necunoscute şi egale.problema se tratează in paralel cu cazul H 4. Fie X (i) α, 1 i r, 1 α N i cele r selecţii, selecţia X (i) α fiind efectuată asupra populeţiei normale N(µ i, Σ). Se cere testarea ipotezei H : µ = r β iµ i = µ 0, cu alternativa N H : µ µ 0. Matricea Σ se estimează in mod obişnuit adică S = şi deoarece r r 1 N i r rezultă statistica test T 2 = care are f = r deci n i r (X (i) α α=1 β ix (i) µ 0 N(0, Σ ) unde r β 2 i ( r N i Σ = r β 2 i N i X (i) )(X (i) α X (i) ), (32) Σ, β i X (i) µ 0 ) S 1 ( r β i X (i) µ 0 ) (32 ) N i k grade de libertate. Domeniul critic este T 2 T 2 f,α, T 2 dat de (32 ), (33) iar puterea testului se calculează cu T 2 necentrat adică π(µ) = P (T f;δ T 2 f,α), (33 ) cu δ 2 = r β 2 1 i N i ( r β i µ i µ 0 ) Σ 1 r β i µ i µ 0 ). (33 ) 31

T 5. Problema celor r selecţii, cazul general. Presupunem că se dau r selecţii X (i) α, 1 i r, 1 α N i din populaţiile normale independente N(µ i, Σ i ), 1 i r, cu Σ i necunoscute si ne egale. Se cere să se verifice ipoteza H : µ = r β iµ i = µ 0 cu alternativa N H : µ µ 0, unde µ 0 şi coeficienţii β i, 1 i r sunt daţi. Şi aici se aplică un artificiu asemănător celui din cazul T 3. Presupunem că N 1 = min 1 i r N i. (In caz contrar schimbăm numerotarea astfel incât N 1 să fie cel mai mic). Construim selecţia Y α = β 1 X (1) α + r N 1 N i X (i) α 1 N 1 N i ν=1 X (i) ν + 1 N1 N i N i X (i) γ. γ=1 (34) Se arată că variabilele de selecţie Y α sunt independente stochastic şi repartizate normal Fie estimaţia lui Σ S = N(µ, Σ ), Σ = r 1 N 1 1 N 1 β 2 i N 1 N i Σ i. (35) (Y α Y)(Y α Y). (35 ) Dacă notăm cu S i estimatia lui Σ i, 1 i r se arată că S = r Statistica test pentru ipoteza H este β 2 i N 1 N i S i. (35 ) T 2 = N 1 (Y µ 0 ) S 1 (Y µ 0 ) (36) 32

şi ea are (in ipoteza H) repartiţia Hoteling cu N 1 1 grade de libertate. De aici rezultă că domeniul critic al testului este iar puterea testului este T 2 T N1 1,α, (36) π(µ) = P (T 2 N 1 1;δ T N1 1,α), δ 2 = N 1 (µ µ 0 ) Σ 1 (µ µ 0 ). (36 ) T 6. Problema simetriei când Σ este necunoscut. Se dă deci selecţia X α, 1 α N asupra unei populaţii normale N(µ, Σ), µ = (µ 1,..., µ k ) cu Σ necunoscut. Se cere sa se testeze ipoteza H : µ 1 =... = µ k cu alternativa N H care inseamnă că nu toate µ i sunt egale. Ca şi in cazul H 5, se alege matricea C k (k 1) astfel incât Cϵ = 0, ϵ = (1, 1,..., 1) iar ipoteza H este echivalentă cu Cµ = 0. Dacă considerăm estimaţia obişnuită S a lui Σ,şi estimaţia X a lui µ, atunci rezultă că CX N(Cµ, CΣC ) şi deci statistica T 2 = N(CX) (CSC ) 1 (CX) (37) are repartiţia Hoteling cu N 1 grade de libertate ( pe spaţiul k 1 dimensional!).domeniul critic al testului este T 2 T 2 N 1,α, T 2 N 1,α = (N 1)(k 1) (N k)(k 1) F k 1,N k,α. (37 ) Puterea testului se calculează cu variabila Hoteling necentrată (pe spaţiul k 1 dimensional) şi anume π(µ) = P (T 2 N 1;δ T 2 N 1,α), δ 2 = N(Cµ) (CΣC ) 1 (Cµ). (37 ) 33

Consideraţii finale. 1. Aici s-au prezentat numai consideraţii introductive privind verificarea ipotezelor statistice. Probleme ca: verificarea ipotezelor folosind selecţiile cenzurate ce intervin in fiabilitate, etc; testele secvenţiale; analiza dispersională;teste bazate pe statistici de ordine; teste pentru serii dinamice cu multiple aplicaţii in activităţi bancare;etc am coniderat că-şi au locul in prezentari speciale separate. 2. Pentru aplicarea testelor prezentate, se impun unele precizări legate de utilizarea tehnicilor moderne de calcul. 2.1. Toate funcţiile de repartiţie pot fi calculate cu pachetele de programe statistice existente. Astfel se pot determina atât cuantilele cat şi valorile acestor funcţii. Este o preoblema insă cu utilizarea funcţiilor de repartiţie ne centrate. Deoarece expresiile densităţilor de repartiţie ale lui t-necentrat, χ 2 -necentrat şi F - necentrat sunt date de serii de puteri, folosirea acestor expresii la calculul numeric al functiilor de repartiţie sau al cuantilelor (când trebuie rezolvată o ecuaţie in x de forma F (x) = p), este complicată. O ieşire din impas o poate reprezenta aproximarea lui Pathnaik pentru repartiţia χ 2 k;δ si anume: se aproximează repartiţia acestei variabile cu o variabilă repartiţie de forma cχ 2 k, adică χ 2 k;δ = cχ 2 k. (38) Egalând mediile şi dispersiile celor două variabile din (38) rezultă k + δ 2 = ck, k + 2δ 2 = c 2 k, (38 ) de unde c = k + 2δ2 k + δ 2, k = (k + δ2 ) 2 k + 2δ 2. (38 ) 34

Soluţia k din (38 ) se rotunjeşte la un intreg. Pentru utilizarea repartiţiilor F şi T 2 necentrate se poate utiliza in prealabil aproximarea repartiţiei χ 2 necentrată ce intră in definiţia lui F necentrată. Trebuie subliniat faptul că aproximarea Pathnaik este ne recomandată, fiind prea laxă. 2.2. Simularea Monte Carlo oferă o alternativă facilă şi mai bună pentru determinarea puterii testului in cazul unei repartiţii necentrate (sau oricărei alte repartiţii) şi anume: -in ipoteza N H, se simulează o selecţie de volum mare n, a statisticii test g: - cu această selecţie se determină estimaţia puterii testului π n = 1 F n (x α ) P (g > x α ), unde x α este valoarea critică a statisticii test. Dacă nu se poate utiliza uşor sau nu se cunoaşte expresia convenabilă a repartiţiei statisticii test g, atunci se procedează in mod asemănător,adică: - se simulează o selecţie de volum mare n, a statisticii test g in ipoteza H; - Se construieţe histograma lui g pe baza acestei selecţii; - cu ajutorul histogramei se rezovă ecuaţia P (g > x α ) = α, unde α este riscul de genul intâi, x α fiind valoarea critica a statisticii test.(problema inversă celei precedente). Când selecţiile de care dispunem au un volum mic, se poate folosi metoda bootstrap de re-selectie, care produce multe replici ale selecţiei iniţiale, ce pot permite o abordare asimptotica a analizei statistice a datelor originale ale selecţiei. 35

3. Verificarea ipotezei de normalitate unidimensională, nu ridică nicio problemă. Nu s-a menţionat ceva semnificativ privind verificarea ipotezei de normalitate multidimensională. In acest sens, recomandăm lucrările [3,4] de la bibliografie care prezintă adaptarea testului de concordanţă χ 2 in acest caz. 3.1. Cazul specificat. S-a văzut că testul χ 2 presupune ca spaţiul R p =,care reprezintă mulţimea valorilor vectorului p-dimensional X N(µ, Σ), sa fie divizat in k părţi disjuncte, făra a se impune cum se alege diviziunea. In lucrările menţionate se pleacă de la ideea că forma pătratică Φ(x) = (x µ) Σ 1 (x µ) permite divizarea spaţiului R p in coroane de elipsoizi, determinate de k 1 constante 0 < θ 0 <... < θ k 1. Astfel spaţiul R p se divide in k mulţimi disjuncte de forma 1 = {x 0 Φ(x) θ 1 }, i = {x θ i 1 < Φ(x) θ i, 2 i k 1}, Deoarece adica are o repartiţie χ 2 p, rezultă că k = {x Φ(x) > θ k 1. (39) (X µ) Σ 1 (X µ) = χ 2 p, (40) p 1 = P (X 1 ) = P (χ 2 p θ 1 ), p i = P (X i ) = = P (θ i 1 < χ 2 p θ i ), 2 i k 1), p k = P (X k ) = P (χ 2 p > θ k 1 ). (40 ) Frecvenţele f i care intervin in testul de concordanţă χ 2 se calculează simpu, numărând valorile de selecţie ce cad in i, 1 i k. 36

3.2. Cazul nespecificat. In acest caz, construcţia statisticii testului de concordanţă χ 2 se realizeată in următorii paşi (pentru selecţia X 1,..., X n de volum n mare): -se separă o (sub)selecţie de volum n 1 < n; - cu acestă selecţie se estimează parametri µ şi Σ cu formulele obişnuite (adica µ X, Σ S); se observă că variabilele (X i X) S 1 (X i X i ), n 1 < i n sunt repartizate T 2 n 1 1 pe spaţiul R p. - construcţia continuă ca in cazul specificat, elipsoizii fiind de acelaş tip, dar probabilităţile teoretice p i se calculează cu repartiţia T 2 n 1 1 pe R p in loc de χ 2 p. References [1] Gheorghe MIHOC, Virgil CRAIU.(1977).Tratat de statistică matematică, Vol.II. Verificarea ipotezelor statistice, Editura Academiei. [2] Ion VADUVA. (1970). Analiză dispersională. Editura Tehnică. [3] Ion VĂDUVA and Nicolae POPOVICIU.(1979). χ2 test of goodness of fit for multivariate normal distribution. Specified case. Econ.Comp.Econ.Cyb.St. and Res.,No. 2, 1979,p.93-109. [4] Ion VĂDUVA and Nicolae POPOVICIU.(1980). χ2 test of goodness of fit for multivariate normal distribution.unspecified case. Econ.Comp.Econ.Cyb.St. and res., No 1, 1980,p.33-42. 37