[Iulian Stoleriu] Statistică Aplicată

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "[Iulian Stoleriu] Statistică Aplicată"

Transcript

1 [Iulian Stoleriu] Statistică Aplicată

2 Statistică Aplicată (C1) 1 Elemente de Statistic teoretic (C1) Populaµie statistic O populaµie (colectivitate) statistic este o mulµime de elemente ce posed o trasatur comun ce urmeaz a studiat. Aceasta poate nit sau innit, real sau imaginar. In acest material vom nota populatia statistica cu Ω. Din punct de vedere matematics, Ω este o multime nevida. Elementele ce constituie o colectivitate statistic se vor numi unit µi statistice sau indivizi. Vom nota cu ω o unitate statistic. Dac populaµia este nit, atunci num rul N al unit µilor statistice ce o compun (i.e., Ω ) îl vom numi volumul colectivit µii (sau volumul populaµiei). Caracteristica (variabila) unei populaµii statistice este o anumit proprietate urm rit la indivizii ei în procesul prelucr rii statistice ³i care constituie obiectul m sur rii. Spre exemplu, inaltimea barbatilor dintr-o anumita tara, rata inltrarii apei in solul urban, media la Bacalaureat, altitudinea, culoarea frunzelor, nationalitatea participantilor la un congres international etc. Din punct de vedere matematic, caracteristica este reprezentata printr-o variabila aleatoare denita pe Ω. Spre exemplu, daca populatia statistica este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anul întâi de master, atunci o caracteristica a sa ar media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic, mulµimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoare din acest interval. Caracteristicile pot : cantitative (sau m surabile sau numerice) (e.g., 2, 3, 5.75, 1/3,... ) sau calitative (categoriale sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor, variabilele cantitative pot discrete (num rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptare între dou sosiri ale tramvaiului în staµie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracteristici numerice ale colectivit µii. Vom numi date (sau date statistice) informaµiile obµinute în urma observaµiei valorilor unei caracteristici a unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile la licenµ observate. În general, datele pot calitative (se mai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are o valoare numerica). Totodata, aceste date pot date de tip discret, dac sunt obµinute în urma observ rii unei caracteristici discrete (o variabila aleatoare discret, sau o variabila ale carei posibile valori sunt in numar nit sau cel mult numarabil), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor cantitative ³i continue. Datele calitative mai pot nominale sau ordinale. Variabilele nominale au nivele distincte, fara a avea o anumita ordine. De exemplu, culoarea parului, sau genul unei persoane. Pe de alta parte, valorile ordinale fac referinta la ordinea lor. De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate : imbunatatire semnicativa, imbunatatire moderata, nicio schimbare, inrautatire moderata, inrautatire semnicativa). În Statistic, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, X,..., si valorile lor cu litere mici, x, y, x,.... In general, volumul colectivitatii poate foarte mare sau chiar innit, astfel ca efectuarea unui recensamant (i.e., observarea caracteristicii de interes pentru toate elementele ce compun colectivitatea) este e foarte costisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii de interes sau chiar a repartitiei datelor observate, este sucienta analiza unei selectii de volum sucient de mare formata din observatii ale

3 SA 1 [Dr. Iulian Stoleriu] 2 caracteristicii, urmand ca aceasta analiza sa e extrapolata (folosind metode statistice specice) pentru intreaga populatie. O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu) din colectivitatea general, în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Num rul indivizilor din selecµia aleas se va numi volumul selecµiei. Dac se face o enumerare sau o listare a ec rui element component al unei a populaµii statistice, atunci spunem c am facut un recens mânt. Selecµia ar trebui s e reprezentativ pentru populaµia din care face parte. Numim o selecµie repetat (sau cu repetiµie) o selecµie în urma c reia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selecµie nerepetat. Selecµia nerepetat nu prezint interes dac volumul colectivit µii este nit, deoarece în acest caz probabilitatea ca un alt individ s e ales într-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt parte, dac volumul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunci putem presupune c selecµia efectuat este repetat, chiar dac în mod practic ea este nerepetat. Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibilitatea informaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Câteva metode de selec- µie: selecµie simpl, selecµie sistematic, selecµie straticat, selecµie ciorchine, selecµia de tip experienµ, selecµie de convenienµ, selecµie de cot etc. Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a explicate sau estimate pe baza datelor. Spre exemplu, pentru variabilele cantitative ale populatiei, putem avea: parametri care sa descrie tendinta centrala a populatiei (e.g., media, mediana, momente), parametri care sa descrie dispersia datelor (e.g., dispersia, deviatia standard, coecient de variatie), parametri de pozitie (e.g., cuantile), parametri ce descriu forma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot descrise de parametrii ce descriu legatura intre variabile: corelatia sau coecientul de corelatie. Pentru date calitative (categoriale), cei mai des utilizati parametri sunt: π proportia din populatie ce are caracteristica de interes (e.g., numarul de fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa ploua maine). Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc statistici. Prin intermediul statisticilor putem trage concluzii despre populaµia Ω, din care a provenit e³antionul observat. Teoria probabilit µilor ne ofer procedee de determinare a repartiµiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiµia exact este acea repartiµie ce poate determinat pentru orice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (n < 30), atunci repartiµia exact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ. Repartiµia asimptotic este repartiµia limit a statisticii când n, iar utilizarea acesteia conduce la rezultate bune doar pentru n 30. In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai del si sugestiv acele date (prin grace sau indicatori statistici), sa estimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa verice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.

4 SA 1 [Dr. Iulian Stoleriu] 3 Variabile aleatoare În general, rezultatul posibil al unui experiment aleator poate asociat unei valori reale, precizând regula de asociere. O astfel de regul de asociere se nume³te variabil aleatoare (prescurtat, v.a.). Se nume³te variabil deoarece poate lua valori diferite, se nume³te aleatoare deoarece valorile observate depind de rezultatele experimentului aleator, ³i este "real " deoarece valoarea numeric este un num r real. A³adar, din punct de vedere euristic, o variabil aleatoare este o cantitate ce poate avea orice valoare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). În viaµ de zi cu zi întâlnim numeroase astfel de funcµii, e.g., numerele ce apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii, num rul clienµilor deserviµi la un anumit ghi³eu într-o anumit perioad, timpul de a³teptare a unei persoane într-o staµie de autobuz pân la sosirea acestuia, calicativele obµinute de elevii de clasa a IV-a la un test de matematic etc. De regula, variabilele aleatoare sunt notate cu litere de la sfâr³itul alfabetului, X, Y, Z sau ξ, η, ζ etc. Exemplu 1.1. Un exemplu simplu de variabila aleatoare este urm torul. Consider m experimentul aleator al arunc rii unei monede. Acest experiment poate avea doar dou rezultate posibile, notate S (stema) ³i B (banul). A³adar, spaµiul selecµiilor este Ω = {S, B}. Acestui experiment aleator îi putem ata³a variabila aleatoare real X, care asociaz feµei S valoarea 1 ³i feµei B valoarea 0. Matematic, scriem astfel: X : Ω R, X(S) = 1, X(B) = 0. Astfel, valorile 1 ³i 0 pentru X vor indica faµa ap rut la aruncarea monedei. O astfel de variabil aleatoare se nume³te variabil aleatoare Bernoulli ³i poate ata³at oric rui eveniment aleator ce are doar dou rezultate posibile, numite generic succes ³i e³ec. Variabilele aleatoare (prescurtat v.a.) pot discrete sau continue. Variabilele aleatoare discrete sunt cele care pot lua o mulµime nit sau cel mult num rabil (adica, o multime care poate numarata) de valori. O variabil aleatoare se nume³te variabil aleatoare continu (sau de tip continuu) dac mulµimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real (posibil innit) sau toate numerele dintr-o reuniune disjunct de astfel de intervale, cu precizarea c pentru orice posibil valoare c, P (X = c) = 0. Exemple de v.a. discrete: num rul feµei ap rute la aruncarea unui zar, num rul de apariµii ale unui tramvai într-o staµie într-un anumit interval, num rul de insuccese ap rute pân la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de a³teptare la un ghi³eu pân la servire, preµul unui activ nanciar într-o perioad bine determinat. Pentru a specica o v.a. discret, va trebui s enumer m toate valorile posibile pe care aceasta le poate lua, împreun cu probabilit µile corespunzatoare. Suma tuturor acestor probabilit µi va întotdeauna egal cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire la repartiµia unei v.a. discrete, se înµelege modul în care probabilitatea total 1 este distribuit între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compact, adeseori unei v.a. discrete i se atribuie urm toarea reprezentare schematica: tabelul de repartiµie X x 1 x 2 x 3... x n p k p 1 p 2 p 3... x n (1.1) unde p k este probabilitatea cu care variabila X ia valoarea x k (matematic, scriem p k = P (X = x k )) ³i n suma tuturor probabilit µilor corespunz toare variabilei discrete este egal cu 1 (scriem ca p i = 1).

5 SA 1 [Dr. Iulian Stoleriu] 4 Exemplu 1.2. Presupunem c X este v.a. ce reprezint num rul de puncte ce apare la aruncarea unui zar ideal. Aceast variabila o putem reprezenta schematic ca in tabelul alaturat. tabelul de repartiµie X p k 1/6 1/6 1/6 1/6 1/6 1/6 Dac X este o v.a. discret de forma (1.1), atunci denim funcµia de probabilitate (de frecvenµ ) (en., probability mass function) ata³at variabilei aleatoare discrete X ca ind o funcµie ce ataseaza ecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca f(x i ) = p i, i {1, 2,..., n}. În cuvinte, pentru ecare posibil valoare a unei v.a. discrete, funcµia de probabilitate ata³eaz probabilitatea cu care X ia aceast valoare. Funcµia de probabilitate este pentru o v.a. discreta ceea ce o densitate de repartiµie este pentru o variabil aleatoare continu. Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un interval a chiar din R. Deoarece in aceste multimi exista o innitate de valori, nu mai putem deni o variabila aleatoare continua la fel ca in cazul discret, precizandu-i ecare valoare pe care o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiµie (en., probability density function). Exemplu 1.3. Vom spune c o variabila aleatoare X are o repartitie (sau distributie) normala de medie µ ³i deviatie standard σ (notam aceasta prin X N (µ, σ)) dac X poate lua orice valoare reala si are densitatea de repartitie data de: f(x; µ, σ) = 1 σ (x µ) 2 2π e 2σ 2, pentro orice x R. Aceasta repartitie se mai nume³te ³i repartiµia gaussian sau distribuµia gaussian. Funcµia de probabilitate sau densitatea de repartiµie poate depinde de unul sau mai mulµi parametri reali. Spre exemplu, repartitia normala are doi parametri, µ si σ. Funcµia de repartiµie (sau funcµia de repartiµie cumulat ) Numim funcµie de repartiµie ata³at v.a reale X o funcµie F : R [0, 1], denit prin F (x) = P (X x), pentru orice x R. Termenul din englez pentru funcµia de repartiµie este cumulative distribution function (cdf). Functia de repartitie asociaza ecarei valori reale x probabilitatea cu care variabila X ia valori mai mici sau egale cu x. Ea este o functie crescatoare, care ia valori intre 0 si 1. În cazul unei variabile aleatoare discrete, cu tabelul de repartiµie dat de (1.1), funcµia de repartiµie este: F (x) = p i, (1.2) {i; x i x} adic suma tuturor probabilit µilor corespunz toare valorilor lui X care nu-l dep ³esc pe x.

6 SA 1 [Dr. Iulian Stoleriu] 5 Dac X este o variabil aleatoare continu ³i f este densitatea sa de repartiµie, atunci funcµia de repartiµie este dat de formula: Mai mult, F (x) = f(x), pentru orice x R. x F (x) = f(t) dt, x R. (1.3) Parametrii populaµiei O colectivitate statistica poate descrisa folosind una sau mai multe variabile. Pentru ecare dintre aceste variabile se pot determina anumite cantitati sau calitati specice, numite parametri. Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii, ce pot determinate sau estimate pe baza unor masuratori (observatii) ale variabilelor. In continuare vom prezenta cativa parametri numerici importanti pentru o variabila aleatoare, folositi in analiza statistica. Vom denumi acesti parametri caracteristici numerice ale unei variabile aleatoare. Media (sau valoarea a³teptat ) (en., expected value; fr., espérance; ger., Erwartungswert) Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca exista variabile (atat discrete cat si continue) care nu admit o valoare medie. ˆ Dac X este o v.a. discret având tabelul de repartiµie (1.1), atunci media acestei v.a. (dac exist!) se dene³te prin: n µ = x i p i. (1.4) Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) se deneste prin E(U(X)) = n U(x i )p i. ˆ Dac X este o v.a. de tip continuu, cu densitatea de repartiµie f(x), atunci media (teoretic ) acestei v.a., dac exist (!), se dene³te astfel: µ = xf(x)dz. (1.5) Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) (dac exist!) se deneste prin E(U(X)) = U(x)f(x)dz. Notaµii: În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia µ X. Pentru media teoretic a unei variabile aleatoare se mai folosesc ³i notaµiile: m, M(X) sau E(X). Dispersia (sau varianµa) (en., variance) ³i abaterea standard (en., standard deviation) Consideram X o variabil aleatoare care admite medie nita µ. Dorim sa stim in ce masura valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare X 0 = X µ (numit abaterea lui X

7 SA 1 [Dr. Iulian Stoleriu] 6 de la media sa), atunci E(X 0 ) = 0. A³adar, nu putem m sur gradul de împr ³tiere a valorilor lui X în jurul mediei sale doar calculând X µ. Avem nevoie de o alt m sur. Aceasta este dispersia variabilei aleatoare, notat prin σ 2 sau V ar(x). În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia σ 2 X. σ 2 = n (x i µ) 2 p i (in cazul unei v.a. discrete). σ 2 = (x µ) 2 f(x) dz (in cazul unei v.a. continue). Alte formule pentru dispersie: σ 2 = E[X 2 ] µ 2 = n x 2 i p i µ 2, în cazul discret x 2 f(x) dz µ 2, în cazul continuu Numim abatere standard (sau deviaµie standard) cantitatea σ = σ 2. Are avantajul ca unitatea sa de masura este aceeasi cu a variabilei X. În conformitate cu teorema lui Cebâ³ev 1, pentru orice variabila aleatoare X ce admite medie si orice a > 0, are loc inegalitatea: P ({ X µ kσ}) 1 k 2. (1.6) În cuvinte, probabilitatea ca valorile variabilei X sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat 1 k 2. În cazul particular k = 3, obµinem regula celor 3σ: P ({ X µ 3σ}) sau P ({µ 3σ < X < µ + 3σ}) 8 9, (1.7) semnicând c o mare parte din valorile posibile pentru X se a în intervalul [µ 3σ, µ + 3σ]. Coecientul de variaµie Este denit prin CV = σ µ sau, sub forma de procente, CV = 100σ %. Este util in compararea variatiilor µ a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare. Standardizarea unei variabile aleatoare Pentru o variabila aleatoare X de medie µ ³i dispersie σ 2, variabila aleatoare Y = X µ se nume³te σ variabila aleatoare standardizat (sau normat ). Astfel, prin standardizarea unei variabile, vom obtine urmatoarele proprietati ale sale: E(Y ) = 0, V ar(y ) = 1. Daca X este o variabila normala (scriem asta prin X N (µ, σ)), atunci standardizarea sa este o variabila normala standard, adica X µ σ N (0, 1). 1 Pafnuty Lvovich Chebyshev ( ), matematician rus

8 SA 1 [Dr. Iulian Stoleriu] 7 Momente centrate Pentru o v.a. X (discret sau continu ), ce admite medie, momentele centrate sunt valorile a³teptate ale puterilor lui X µ. Denim astfel µ k (X) = E((X µ) k ). In particular, µ k (X) = n (x i µ) k p i ; (in cazul unei v.a. discrete). µ k (X) = (x µ) k f(x) dx; (in cazul unei v.a. continue). Momente speciale: ˆ µ 2 (X) = σ 2. Se observa ca al doilea moment centrat este chiar dispersia. ˆ γ 1 = µ 3(X) σ 3 este coecientul de asimetrie (en., skewness); Coecientul γ 1 este al treilea moment centrat standardizat. O repartiµie este simetric dac γ 1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac γ 1 > 0 ³i negativ (sau la stânga) dac γ 1 < 0. ˆ K = µ 4(X) 3 este excesul (coecientul de aplatizare sau boltire) (en., kurtosis). σ 4 Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul ( 3) apare pentru c indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentru K = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptul c, în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decât clopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss. Cuantile Fie o v.a. X ce are funcµia de repartiµie F (x). Pentru un α (0, 1), denim cuantila de ordin α acea valoare reala x α R pentru care F (x α ) = P (X x α ) = α. (1.8) (1) Cuantilele sunt m suri de poziµie, ce m soar locaµia unei anumite observaµii faµ de restul datelor. A³a cum se poate observa din Figura 1.1, valoarea x α este acel num r real pentru care aria ha³urat este chiar α. (2) În cazul în care X este o variabil aleatoare discret, atunci (1.8) nu are soluµie pentru orice α. Îns, dac exist o soluµie a acestei ecuaµiei F (x) = α, atunci exist o innitate de soluµii, ³i anume intervalul ce separ dou valori posibile. (3) Cazuri particulare de cuantile: Figura 1.1: Cuantila de ordin α.

9 SA 1 [Dr. Iulian Stoleriu] 8 ˆ pentru α = 1/2, obtinem mediana. Astfel, F (Me) = 0.5. Mediana (notata Me) este valoarea care imparte repartitia in doua parti in care variabila X ia valori cu probabilitati egale. Scriem asta astfel: P (X Me) = P (X > Me) = 0.5. Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media pentru tendinta centrala a valorilor variabilei. ˆ pentru α = i/4, i {1, 2, 3}, obtinem cuartilele. Prima cuartila, Q 1, este acea valoare pentru care probabilitatea ca X sa ia o valoare la stanga ei este Scriem asta astfel: P (X Q 1 ) = Cuartila a doua este chiar mediana, deci Q 2 = Me. Cuartila a treia, Q 3, este acea valoare pentru care probabilitatea ca X sa ia o valoare la stanga ei este Scriem asta astfel: P (X Q 3 ) = ˆ pentru α = j/10, j {1, 2,..., 9}, obtinem decilele. Prima decila este acea valoare pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.1. S.a.m.d. ˆ pentru α = j/100, j {1, 2,..., 99}, obtinem centilele. Prima centila este acea valoare pentru care probabilitatea ca X sa ia o valoare la stanga ei este S.a.m.d. (4) Dac X N (0, 1), atunci cuantilele de ordin α le vom nota prin z α. Modul (valoarea cea mai probabil ) Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvinte, este acea valoare x pentru care f(x ) (densitatea de repartiµie sau funcµia de probabilitate) este maxim. O repartiµie poate s nu aib niciun mod, sau poate avea mai multe module. Covarianµa ³i coecientul de corelaµie Conceptul de corelaµie (sau covarianµ ) este legat de modul în care dou variabile aleatoare tind s se modice una faµ de cealalt ; ele se pot modica e în aceea³i direcµie (caz în care vom spune c X 1 ³i X 2 sunt direct <sau pozitiv> corelate) sau în direcµii opuse (X 1 ³i X 2 sunt invers <sau negativ> corelate). Consideram variabilele X 1, X 2 ce admit mediile, respectiv, µ 1, µ 2. Denim corelaµia (sau covarianµa) variabilelor X 1 ³i X 2, notat prin cov(x 1, X 2 ), cantitatea cov(x 1, X 2 ) = E[(X 1 µ 1 )(X 2 µ 2 )]. Daca X 1 si X 2 coincid, sa spunem ca X 1 = X 2 = X, atunci cov(x, X) = σ 2 X. O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie. Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie pozitiv, însemnând c X 1 ³i X 2 cresc sau descresc împreun (vezi cazurile in care ρ = 0.85 sau ρ = 1 in Figura 19.2), sau o corelaµie negativ, însemnând c X 1 ³i X 2 se modic în direcµii opuse (vezi cazul ρ = 0.98 in Figura 19.2). In cazul ρ = 0.16 din Figura 19.2, nu se observa nicio tendinta, caz in car putem banui ca variabilele nu sunt corelate.

10 SA 1 [Dr. Iulian Stoleriu] 9 O m sur a corelaµiei dintre dou variabile este coecientul de corelaµie. Acesta este foarte utilizat în ³tiinµe ca ind o m sur a dependenµei liniare între dou variabile. Se nume³te coecient de corelaµie al v.a. X 1 ³i X 2 cantitatea ρ = cov(x 1, X 2 ) σ 1 σ 2, unde σ 1 si σ 2 sunt deviatiile standard pentru X 1, respectiv, X 2. Uneori se mai noteaza prin ρ(x 1, X 2 ) sau ρ X1, X 2. Coecientul de corelatie ia valori intre 1 (perfect negativ corelate) si 1 (perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile. Legi limita in Teoria Probabilitatilor Figura 1.2: Reprezentare de date bidimensionale. Legea (tare) a numerelor mari: Teoremele limit clasice descriu comportarea asimptotic a sumei S n, potrivit normalizat. Legea numerelor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare. În cazul cel mai simplu (si cel mai utilizat in Statistica), in care variabilele aleatoare {X k } k 1 sunt independente stochastic ³i identic repartizate, cu E(X n ) = µ <, n N, atunci legea tare a numerelor mari spune ca sirul {S n } n 1, cu S n = n X k satisface convergenta: k=1 S n n a.s. µ. Astfel, de³i variabilele aleatoare independente {X k } k 1 pot lua valori dep rtate de mediile lor, media aritmetic a unui num r sucient de mare de astfel de variabile aleatoare ia valori în vecin tatea lui m, cu o probabilitate foarte mare. In Statistica, acest ³ir de v.a. poate privit ca ind un model pentru repetiµii independente ale unui experiment aleator, efectuate în aceleasi condiµii. De³i avem de-a face cu un ³ir de funcµii ce iau valori întâmpl toare, suma unui num r sucient de mare de variabile aleatoare î³i pierde caracterul aleator. Legea tare a numerelor mari e foarte util în metode de simulare tip Monte Carlo. Teorema limita centrala Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s aproxim m sume de variabile aleatoare identic repartizate, avînd orice tip de repartiµii (atât timp cât variaµia lor e nit ), cu o variabila aleatoare normal. Presupunem ca in urma unor masuratori am obtinut datele x 1, x 2,..., x n si ca aceste date sunt realizarile n unor variabile X 1, X 2,..., X n. Daca aceste variabile sunt normale, atunci suma acestora (S n = X i ) cat si media lor (X = 1 n n X i ) sunt tot variabile normale, pentru orice volum al selectiei, n.

11 SA 1 [Dr. Iulian Stoleriu] 10 Matematic, teorema TLC ne spune c, dac avem un ³ir de v.a. independente stochastic ³i identic repartizate, atunci, pentru n sucient de mare, repartiµia asimptotic a sumei S n este o variabil N (µ, σ n). Acest fapt este echivalent cu a spune c variabila aleatoare sum standardizat S n = S n nµ σ n = S n E(S n ) D 2 (S n ) (1.9) este o v.a. de repartiµie N (0, 1). n X k este aproxi- Totodat, mai avem c distribuµia variabilei aleatoare medie de selecµie X = S n n = 1 n σ mativ normal N (µ, ). n k=1 A³adar, Teorema limita centrala spune ca, dac variabilele X 1, X 2,..., X n nu sunt neap rat normal repartizate, atunci, pentru un volum n este sucient de mare, repartitiile pentru S n si X tind sa e tot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru S n si X sunt normale. Cu cat volumul observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala. Mai mult, daca variabilele X i au aceeasi medie (µ) si aceeasi deviatie standard σ, atunci media X este o variabila normala de medie µ X = µ si deviatie standard σ X = σ. Se observa ca, daca n este foarte n mare, atunci deviatia standard a lui X scade, astfel ca valorile sale vor deveni foarte apropiate de µ. Se pune problema: Cât de mare ar trebui s e n, în practic, pentru c teorema limit central s e aplicabil? Se pare ca un num r n astfel încât n 30 ar sucicient pentru aproximarea cu repartiµia normal de³i, dac variabilele sunt simetrice, aproximarea ar putea bun ³i pentru un num r n mai mic de 30. Statistici Consider m o caracteristic de interes X a unei populaµii statistice ³i e x 1, x 2,..., x n un set de date observate pentru aceast caracteristic. Fiec rei date observate x i i se poate asocia o variabil aleatoare X i, astfel încât x i devine o posibil valoarea a variabilei X i. Variabilele aleatoare X 1, X 2,..., X n se numesc variabile aleatoare de selecµie ³i pot interpretate ca ind un set de observaµii independente asupra variabilei X. Toate aceste variabile de selectie sunt identic repartizate, repartiµia comun ind repartiµia variabilei X. A³adar, X i este o observaµie a variabilei X ³i x i este valoarea corespunz toare observat. Se nume³te statistic (sau funcµie de selecµie) o funcµie de aceste variabile aleatoare de selecµie, i.e., o variabil aleatoare de forma S n (X) = g(x 1, X 2,..., X n ), unde g este o funcµie g : R n R m surabil. Ca o observaµie, numele de statistic este folosit în literatura de specialitate atât pentru variabila aleatoare de mai sus, cât ³i pentru valoarea ei, înµelesul exact desprinzându-se din context. Repartiµia unei statistici se mai nume³te ³i repartiµia (distribuµia) de selecµie. În literatur, statistica este notat cu una dintre urm toarele: S n (X), S(X, n), S(X 1, X 2,..., X n ). Valoarea numeric S n (x) = g(x 1, x 2,..., x n )

12 SA 1 [Dr. Iulian Stoleriu] 11 se nume³te valoarea funcµiei de selecµie pentru un set dat de observaµii x 1, x 2,..., x n. Prin intermeniul statisticilor putem trage concluzii despre populaµia din care a provenit e³antionul observat. Teoria probabilit µilor ne ofer procedee de determinare atât a repartiµiei exacte a lui S n (X), cât ³i a repartiµiei asimptotice a lui S n (X). Repartiµia exact este acea repartiµie ce poate determinat pentru orice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (n < 30), atunci repartiµia exact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ. Repartiµia asimptotic este repartiµia limit a S n (X) când n, iar utilizarea acesteia conduce la rezultate bune doar pentru n 30. De cele mai multe ori, o statistic este utilizat în urm toarele cazuri: ˆ în probleme de estimare punctual a parametrilor populaµiei; ˆ în obµinerea intervalelor de încredere pentru un parametru necunoscut; ˆ ca o statistic test pentru vericarea ipotezelor statistice. Exemple de statistici: Media de selecµie: Numim medie de selecµie (de volum n), statistica X = 1 n n X i. Valoarea mediei de selecµie pentru valori ale acestor variabile aleatoare este media empiric : x = 1 n Media de selecµie satisface urm toarele propriet µi: n x i. [1] E(X) = E(X); V ar(x) = 1 n V ar(x) [2] X a.s. E(X) (n ) Convergenµa de mai sus spune c media de selecµie X se apropie mult de media teoretic a populaµiei atunci când volumul selecµiei este mare. [3] Dac {X 1, X 2,..., X n }, variabile aleatoare de selecµie repetat de volum n, ce urmeaz o repartiµie dat, atunci pentru un volum n sucient de mare, statistica X este o variabil normal. Matematic scriem c X satisface: ( ) σ X N µ,. (n > 30) n În cazul în care X i sunt toate normale, atunci concluzia este valid pentru orice n N. [3] Dac selecµia se face f r revenire dintr-o populaµie de volum mai mic decât 30 ³i X nu este neap rat normal repartizat, atunci putem spune doar c E(X) = µ ³i V ar(x) = σ n N n N 1, f r a putea preciza care este repartiµia asimptotic a lui X. Aici N este volumul populaµiei ³i n este volumul selecµiei, cu n > 0.05N.

13 SA 1 [Dr. Iulian Stoleriu] 12 Dispersie de selecµie (sau varianµa selecµiei): Numim dispersie de selecµie (de volum n), statistica S 2 (sau SX 2, dac avem mai multe variabile) denit prin: S2 = 1 n [X i X] 2. n 1 Valoarea dispersiei de selecµie pentru valori ale acestor variabile aleatoare este dispersia (sau variaµia) empiric : simplitate, o vom nota cu s 2 (sau s 2 X, dac avem mai multe variabile), iar valoarea acesteia pentru un ω (n) xat este: s 2 = 1 n [x i x] 2. n 1 în anumite situaµii, în locul lui S 2 se mai utilizeaz statistica S 2 (X), denit prin: S 2 (X) = 1 n n [X i X] 2. Motivaµia pentru considerarea statisticii S 2 în detrimentul lui S 2 este dat de faptul c prima statistic estimeaz variaµia teoretic σ 2 mai bine decât cea de-a doua. Aceste statistici satisfac urm toarele propriet µi: Dispersiile de selecµie veric urm toarele propriet µi: [1] E(S 2 ) = n 1 n [2] S 2 prob σ 2 (n ) σ 2 ; E(S 2 ) = σ 2 [3] Dac {X 1, X 2,..., X n }, variabile aleatoare de selecµie repetat de volum n, ce urmeaz o repartiµie dat, atunci pentru un volum n sucient de mare, statistica S 2 este o variabil χ 2 (n 1). Matematic scriem c S 2 satisface: n 1 σ 2 S 2 χ 2 (n 1) [4] Dup cum vom vedea în capitolul urm tor, primele dou relaµii arat c statistica S 2 este un estimator nedeplasat pentru dispersia teoretic σ 2, pe când S 2 este estimator deplasat. Funcµia de repartiµie de selecµie Fie X 1, X 2,..., X n variabile aleatoare de selecµie repetat de volum n. Numim funcµie de repartiµie de selecµie (de volum n), funcµia F n(x) = n(x) n, x R, unde n(x) = card {i, X i x} reprezint num rul de elemente din selecµie mai mici sau egale cu x. Relaµia din deniµie poate scris ³i sub forma: F n(x) = 1 n n χ (, x] (X i ), x R, (1.10) unde χ A este funcµia indicatoare a mulµimii A. Pentru un x R xat, F n este o variabil aleatoare repartizat binomial B(n, F (x)). Pentru o selecµie xat, F n(x) ia valorile: (i.e., este funcµia de repartiµie empiric ). Fn(x) = card {i, x i x}, n Funcµia de repartiµie de selecµie satisface urm toarele propriet µi: [1] E(F n(x)) = F (x), x R;

14 SA 1 [Dr. Iulian Stoleriu] 13 [2] V ar(f n(x)) = 1 n [F (x)(1 F (x))], x R În Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui F n(x) de F (x). Mai jos, amintim doar dou dintre ele. [3] Funcµia de repartiµie de selecµie satisface convergenµa F n(x) a.s. F (x), x xat în R. n [4] Pentru n N sucient de mare, funcµia de repartiµie de selecµie satisface proprietatea n(f n (x) F (x)) N ( 0, F (x)(1 F (x)) ), x xat în R.

15 LSA 1 [Dr. Iulian Stoleriu] 14 2 Statistică Aplicată (L1) Generarea de numere (pseudo-)aleatoare Numerele generate de Matlab sunt rezultatul compil rii unui program deja existent în Matlab, a³adar el vor pseudo-aleatoare. Putem face abstracµie de modul programat de generare ale acestor numere ³i s consider m c acestea sunt numere aleatoare. Generarea de numere uniform repartizate într-un interval, U(a, b) Funcµia rand ˆ Funcµia rand genereaz un num r aleator repartizat uniform în [0, 1]. De exemplu, comanda X = (rand < 0.5) simuleaz aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este un num r aleator repartizat B(1, 0.5). ˆ De asemenea, num rul Y = sum(rand(10,1) < 0.5) urmeaz repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale). ˆ rand(m, n) genereaz o matrice aleatoare cu m n componente repartizate U(0, 1). ˆ Comanda a + (b a) rand genereaz un num r pseudo-aleator repartizat uniform în [a, b]. ˆ Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, reprezentând starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba starea curent a generatorului sau iniµializarea lui, putem folosi comanda rand(method, s) unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state', 'seed' sau 'twister'), iar s este un num r natural între 0 ³i , reprezentând starea iniµializatorului. De exemplu, rand('state', 125) xeaz generatorul la starea 125. Observaµia 2.1. Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegem numere aleatoare care au aceea³i ³ans de a oriunde în (a, b), ³i nu numere la intervale egale.

16 LSA 1 [Dr. Iulian Stoleriu] 15 Figura 2.1 reprezint cu histograme date uniform distribuite în intervalul [ 2, 3], produse de comanda Matlab: hist(5*rand(1e4,1)-2,100) Figura 2.1: Reprezentarea cu histograme a datelor uniforme. Generarea de numere repartizate normal, N (µ, σ) Funcµia randn ˆ Funcµia randn genereaz un num r aleator repartizat normal N (0, 1). ˆ randn(m, n) genereaz o matrice aleatoare cu m n componente repartizate N (0, 1). ˆ Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda: randn(method, s) unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state' sau 'seed'), iar s este un num r natural între 0 ³i , reprezentând starea iniµializatorului. ˆ Comanda m+σ randn genereaz un num r aleator repartizat normal N (m, σ). De exemplu, codul urm tor produce Figura 2.2: x = 0:0.05:10; y = *randn(1e5,1); % date distribuite N (5, 1.1) hist(y,x)

17 LSA 1 [Dr. Iulian Stoleriu] Figura 2.2: Reprezentarea cu histograme a datelor normale. Generarea de numere aleatoare de o repartiµie dat Comenzile Matlab ³i legernd(<param>, m, n) random('lege', <param>, m, n). Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu m linii ³i n coloane, având componente numere aleatoare ce urmeaz repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din Tabelul 2.1. De exemplu, normrnd (5, 0.2, 100, 10); genereaz o matrice aleatoare cu componente repartizate N (5, 0.2). random ('poiss',0.01, 200, 50); genereaz o matrice aleatoare cu componente repartizate P(0.01). Utilizând comanda randtool putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ grac ce reprezint prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 2.3). Datele generate de Matlab pot exportate în ³ierul Workspace cu numele dorit. De exemplu, folosind datele din Figura 2.3, am generat o selecµie aleatoare de de numere ce urmeaz repartiµia lognormal de parametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

18 LSA 1 [Dr. Iulian Stoleriu] 17 Figura 2.3: Interfaµ pentru generarea de numere aleatoare de o repartiµie dat. Tabelul 2.1 conµine câteva repartiµii uzuale ³i funcµiile corespunz toare în Matlab. repartiµii probabilistice discrete repartiµii probabilistice continue norm: repartiµia normal N (µ, σ) bino: repartiµia binomial B(n, p) unif: repartiµia uniform continu U(a, b) nbin: repartiµia binomial negativ BN(n, p) exp: repartiµia exponenµial exp(λ) poiss: repartiµia Poisson P(λ) gam: repartiµia Gamma Γ(a, λ) unid: repartiµia uniform discret U(n) beta: repartiµia Beta β(m, n) geo: repartiµia geometric Geo(p) logn: repartiµia lognormal logn (µ, σ) hyge: repartiµia hipergeometric H(n, a, b) chi2: repartiµia χ 2 (n) t: repartiµia student t(n) f: repartiµia Fisher F(m, n) wbl: repartiµia Weibull W bl(k, λ) Tabela 2.1: Repartiµii uzuale în Matlab

19 LSA 1 [Dr. Iulian Stoleriu] 18 Simularea unui experiment aleator Simularea arunc rii unei monede ˆ Comanda X = (rand < 0.5); simuleaz aruncarea unei monede ideale. Vom mai spunem c num rul X astfel generat este un num r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn are bile albe ³i negre în num r egal ³i extragem o bil la întâmplare) ˆ Num rul Y = sum (rand(30,1)<0.5) urmeaz repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale). ˆ Acela³i experiment poate modelat ³i prin comanda round(rand(30,1)) Pentru a num ra câte feµe de un anumit tip au ap rut, folosim sum(round(rand(30,1))) Simularea în Matlab a unei v.a. de tip discret S consider m o variabil aleatoare ce poate avea doar 3 rezultate posibile, a, b ³i c, cu probabilit µile de realizare 0.5, 0.2 ³i, respectiv, 0.3. Tabloul de repartiµie asociat este: ( ) a b c X :, Pentru a modela aceast variabil aleatoare în Matlab, proced m astfel: alegem uniform la întâmplare un num r x din intervalul [0, 1]. Dac x < 0.5, atunci convenim c rezultatul a s-a realizat, dac 0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul v.a. X este c. Dac acest experiment se repet de multe ori, atunci rezultatele pot folosite în estimarea probabilit µilor de realizare a variabilei aleatoare. Cu cât vom face mai multe experimente, cu atât vom aproxima mai bine valorile teoretice ale probabilit µilor, deci putem spune c am aproximat variabila aleatoare X. În Matlab, scriem: syms a b c % declaram a, b si c ca variabile simbolice r = rand; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)

20 LSA 1 [Dr. Iulian Stoleriu] 19 Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile, ³i anume, apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modic m în mod convenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz mulµimea tuturor cazurilor posibile ³i împ rµim intervalul [0, 1] în 6 subintervale de lungimi egale: { (0, 1 6 ), (1 6, 2 6 ), (2 6, 3 6 ), (3 6, 4 6 ), (4 6, 5 6 ), (5 6, 1) corespunz toare, respectiv, celor ³ase feµe, s zicem în ordinea cresc toare a punctelor de pe ele. Vom vedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschise sau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac dorim s simul m în Matlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "la întâmplare" din intervalul [0, 1] ³i veric m dac acesta se a în intervalul ( 2 6, 3 6 ). A³adar, comanda Matlab u = rand; (u < 3/6 & u > 2/6) simuleaz aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simplica aceast comanda ³i scrie (rand < 1/6). Repartiµii probabilistice în Matlab }. Funcµia de probabilitate (pentru v.a. discrete) ³i densitatea de repartiµie (pentru v.a. continue) (ambele notate anterior prin f(x)) se introduc în Matlab cu ajutorul comenzii pdf, astfel: pdf('lege', x, <param>) sau LEGEpdf(x, <param>). Funcµia de repartiµie F (x) a unei variabile aleatoare se poate introduce în Matlab cu ajutorul comenzii cdf, astfel: cdf('lege', x, <param>) sau LEGEcdf(x, <param>). Inversa funcµiei de repartiµie pentru repartiµii continue, F 1 (y), se introduce cu comanda icdf, astfel: icdf('lege', y, <param>) sau LEGEinv(y, <param>). În comenzile de mai sus, LEGE poate oricare dintre legile de repartiµie din Tabelul 2.1, x este un scalar sau vector pentru care se calculeaz f(x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y), iar <param> este un scalar sau un vector ce reprezint parametrul (parametrii) repartiµiei considerate. Observaµia 2.2. Fie X o variabil aleatoare ³i F (x, θ) funcµia sa de repartiµie, θ ind parametrul repartiµiei. Pentru un x R, relaµia matematic o putem scrie astfel în Matlab: P (X x) = F (x) cdf('numele repartiµiei lui X',x,θ). (2.1)

21 LSA 1 [Dr. Iulian Stoleriu] 20 Problema poate aparea la evaluarea în Matlab a probabilit µii P (X < x). Dac repartiµia considerat este una continu, atunci corespondentul în Matlab este tot (2.1), deoarece în acest caz De exemplu, dac X N (5, 2), atunci Dac X este de tip discret, atunci P (X x) = P (X < x) + P (X = x) = P (X < x). P (X < 4) = cdf('norm', 4, 5, 2). P (X < x) = unde [x] este partea întreag a lui x. De exemplu, dac X B(10, 0.3), atunci { P (X [x]) P (X < 5) = P (X 4), x nu e întreg P (X m 1), x = m Z, = cdf('bino', 4, 10, 0.3) = Exerciµii rezolvate Exerciµiu 2.1. Un sondaj preliminar a determinat c 42% dintre persoanele cu drept de vot dintr-o anumit µar ar vota candidatul C pentru pre³edinµie. Alegem la întâmplare 200 de votanµi. Care este probabilitatea ca un procent dintre ace³tia, situat între 40% ³i 50%, îl vor vota pe C la pre³edinµie? S not m cu p = 0.42 ³i cu X variabila aleatoare ce reprezint num rul de votanµi ce au ales candidatul C, din selecµia aleatoare de volum n = 200 considerat. Este clar c X B(n, p). Se cere probabilitatea P (80 X 100) (deoarece 40% din 200 înseamn 80 etc). Deoarece X este o variabil aleatoare discret, avem c : P = P (80 X 100) = P (X 100) P (X < 80) = F X (100) F X (79), unde F X este funcµia de repartiµie a lui X. În Matlab: P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = Exerciµiu 2.3. O companie independent de evalu ri statistice a estimat ca un anumit candidat are 25% ³anse s câ³tige alegerile locale. Dorim s efectu m un alt sondaj de opinie care s verice rezultatul companiei. Determinaµi care ar trebui s e volumul minim de selecµie pentru ca, cu o probabilitate de cel puµin 0.97, procentul de aleg tori ce intenµioneaz s -l voteze pe respectivul candidat se încadreaz între valorile 20% ³i 30%. Determinaµi volumul minim folosind dou metode: teorema lui Cebâ³ev ³i teorema limit central. Soluµie: S not m cu ν n num rul de votanµi (din n ale³i aleator) care voteaz cu respectivul candidat. Se cere cel mai mic n N pentru care ( P 0.2 ν ) n n ,

22 LSA 1 [Dr. Iulian Stoleriu] 21 echivalent cu ( ν ) n P n (i) Observ m c variabila aleatoare ν n B(n, 0.25), de unde E(ν n ) = n 4 ³i V ar(ν n) = 3n 16. A³adar, E( ν n n ) = 0.25, V ar(ν n n ) = 3 16n. Folosim inegalitatea lui Cebâ³ev pentru X = νn n, a = G sim c : ( ν ) n P n V ar ( ν nn ) = 1 75 n. Impunem condiµia de unde obµinem c n n 0.97, (ii) C ut m n astfel încât ( P 0.05 ν ) n n = (2.2) Ne a³tept m ca valoarea lui n s e mare, deci putem aplica Teorema limit central. Aplicând TLC, scriem c variabila aleatoare standardizat ν n E(ν n ) σ(ν n ) = 4 ν n 0.25n 3n N (0, 1). Folosind aceasta, rescriem egalitatea (2.2) astfel: ( 0.97 = P 0.05 ν ) n n ( ) n = P ν n 0.25n n n 3 ( ) ( ) n n = Θ 0.2 Θ ( ) [ ( )] ( ) n n n = Θ Θ 0.2 = 2Θ de unde Θ ( 0.2 n 3 ) = ³i 0.2 n 3 = z (cuantila de ordin pentru repartiµia normal standard). Din ultima egalitate g sim c n În Matlab, calcul m astfel: n = 3*(norminv(0.985,0,1)/0.2)^2 A³adar, pentru ca relaµia din enunµ s aib loc, va trebui ca n 354. Observ m, din nou, c aceast valoare este mult mai mic decât cea g sit anterior.

23 LSA 1 [Dr. Iulian Stoleriu] 22 Exerciµii propuse Exerciµiu 2.2. Temperatura T ( 0 C) dintr-un anumit proces chimic are repartiµia U( 5, 5). Calculaµi P (T < 0); P ( 2.5 < T < 2.5); P ( 2 T 3). Exerciµiu 2.3. Temperatura de topire a unui anumit material este o v.a. cu media de 120 o C ³i deviaµia standard de 2 o C. Determinaµi temperatura medie ³i deviaµia standard în o F, ³tiind c o F = 1.8 o C Exerciµiu 2.4. Dac Z N (0, 1), calculaµi: P (Z 1.35); P (0 Z 1); P (1 Z); P ( Z > 1.5). Exerciµiu 2.5. Calculaµi cuartilele repartiµiei N (0, 1). De asemenea, calculaµi z 0.95 ³i z

24 CSA 2 [Dr. Iulian Stoleriu] 23 3 Elemente de Statistic descriptiv (C2) Statistica descriptiv este acea ramur a Statisticii care se preocup de descrierea datelor statistice, prin gruparea, reprezentarea grac ³i calcularea unor m suri empirice ale formei sau tendinµei datelor. Este primul pas pe care il face un statistician ce urmareste sa scoata informatii dintr-un set de date. Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o mai buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului), datele sunt asezate in tabele de frecvente. Aceste tabele pot contine, pe langa clasele construite, frecvente absolute, frecvente relative, frecvente cumulate, frontierele claselor, valorile de mijloc. Uneori doar un singur tip de frecvente este sucient pentru a continua analiza datelor. Un exemplu de tabel de frecvente este Tabelul 3.4. Exista mai multe optiuni pentru reprezentarea graca a datelor, in functie de tipul de date pe care le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare sau cu sectoare de disc. Dupa caz, mai pot folosite reprezentari cu puncte sau stem&leaf. Pentru date continue se folosesc histograme sau sectoare de disc. Organizarea ³i descrierea datelor Presupunem c avem o colectivitate statistic, c reia i se urm re³te o anumit caracteristic (sau variabila). Spre exemplu, colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anul întâi de master, iar caracteristica este media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic, mulµimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoare din acest interval. Vom numi date (sau date statistice) informaµiile obµinute în urma observarii valorilor acestei caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenµ observate. În general, datele pot calitative (se mai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are o valoare numerica). Totodata, aceste date pot date de tip discret, dac sunt obµinute în urma observ rii unei caracteristici discrete (o variabila aleatoare discret, sau o variabila ale carei posibile valori sunt in numar nit sau cel mult numarabil), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor cantitative ³i continue. În Statistica clasic, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z,..., si valorile lor cu litere mici, x, y, z,.... In mare parte din acest curs vom folosi notatia Z pentru variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus notam cu Z variabila medie la licenta, atunci un anume z observat va media la licenta pentru un student din colectivitate ales aleator. Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea ³i reprezentarea graca a datelor, dar ³i în calcularea anumitor caracteristici numerice pentru acestea. Datele înainte de prelucrare, adic exact a³a cum au fost culese, se numesc date negrupate. Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 3.1, reprezentând timpi (în min.sec) de a³teptare pentru primii 100 de clienµi care au a³teptat la un ghi³eu pân au fost serviµi. De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urm re³te a se grupa datele, pentru o mai u³oar gestionare. Imaginaµi-v c enumer m toate voturile unei selecµii întâmpl toare de de votanµi, abia ie³iµi de la vot. Mai degrab, ar mai util ³i practic s grup m

25 CSA 2 [Dr. Iulian Stoleriu] Tabela 3.1: Date statistice negrupate datele dup numele candidaµilor, precizând num rul de voturi ce l-a primit ecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase de interes. Gruparea datelor Datele prezentate sub form de tabel (sau tablou) de frecvenµe se numesc date grupate. Datele de selecµie obµinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue. (1) Date de tip discret: Dac datele de selecµie sunt discrete (e.g., {z 1, z 2,..., z n }), este posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z 1, z 2,..., z r, r n. Atunci, putem grupa datele într-un a³a-numit tabel de frecvenµe (vezi exemplul din Tabelul 8.1). Alternativ, putem organiza datele negrupate într-un tabel de frecvenµe, dup cum urmeaz : data z 1 z 2... z r frecventa f 1 f 2... f r (3.1) unde f i este frecvenµa apariµiei valorii z i, (i = 1, 2,..., r), ³i se va numi distribuµia empiric de selecµie a lui Z. Aceste frecvenµe pot absolute sau de relative. Un tabel de frecvenµe (sau o distribuµie de frecvenµe) conµine cel puµin dou coloane: o coloan ce reprezint datele observate (grupate în clase) ³i o coloan de frecvenµe. În prima coloan apar clasele, adic toate valorile distincte observate. Datele din aceast coloan nu se repet. Prin frecvenµa absolut a clasei înµelegem num rul de elemente ce aparµine ec rei clase în parte. De asemenea, un tabel de frecvenµe mai poate conµine frecvenµe relative sau cumulate. O frecvenµ relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelor din tabel. Astfel, suma tuturor frecvenµelor relative este egal cu 1. Frecvenµa (absolut ) cumulat a unei clase se obµine prin cumularea tuturor frecvenµelor absolute pân la (inclusiv) clasa respectiv. Frecvenµa relativ cumulat a unei clase se obµine prin cumularea tuturor frecvenµelor relative pân la (inclusiv) clasa respectiv. A³adar, elementele unui tabel de frecvenµe pot : clasele (ce conµin valori pentru variabile), frecvenµe absolute, frecvenµe relative sau cumulate. Într-un tabel, nu este obligatoriu s apar toate coloanele cu frecvenµe sau ele s apar în aceast ordine. Vom numi o serie de timpi (sau serie dinamic ori cronologic ) un set de date culese la momente diferite de timp. O putem reprezenta sub forma unui tablou de forma ( ) z1 z 2... z n data :, t 1 t 2... t n unde z i sunt valorile caracteristicii, iar t i momente de timp (e.g., r spunsurile citite de un electrocardiograf).

26 CSA 2 [Dr. Iulian Stoleriu] 25 nota frecvenµa absolut frecvenµa cumulat frecvenµa relativ frecvenµa relativ cumulat % 2.22% % 6.66% % 15.55% % 32.22% % 52.22% % 71.11% % 87.78% % 95.56% % 100% Total % - Tabela 3.2: Tabel cu frecvenµe pentru date discrete. În Tabelul 8.1, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic. Acesta este exemplu de tabel ce reprezent o caracteristic discret. (o glum povestit de G. Pólya, 2 despre cum NU ar trebui interpretat frecvenµa relativ ) Un individ suferind merge la medic. pacientului: Medicul îl examineaz îndelung ³i, balansând dezam git capul, îi spune "Of... drag domnule pacient, am dou ve³ti: una foarte proast ³i una bun. Mai întâi v aduc la cuno³tinµ vestea proast : suferiµi de o boal groaznic. Statistic vorbind, din zece pacienµi ce contracteaz aceast boal, doar unul scap." Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun : "Dar, µi pe pace! Dumneavoastr aµi venit la mine, ³i asta v face tare norocos", continu optimist doctorul. "Am avut deja nou pacienµi ce au avut aceea³i boal ³i toµi au murit, a³a c... veµi supravieµui!" (2) Date de tip continuu: Dac datele statistice sunt realiz ri ale unei variabile Z de tip continuu, atunci se obi³nuieste s se fac o grupare a datelor de selecµie în clase. Datele de tip continuu pot grupate într-un tablou de distribuµie sau sub forma unui tabel de distribuµie, dupa cum urmeaza: data [a 0, a 1 ) [a 1, a 2 )... [a r 1, a r ) frecventa f 1 f 2... f r clasa frecvenµa valoare medie [a 0, a 1 ) f 1 z 1 [a 1, a 2 ) f 2 z 2. [a r 1, a r ) f r z r.. Tabela 3.3: Tabel cu frecvenµe pentru date de tip continuu. În particular, putem grupa datele de tip continuu din Tabelul 3.1 în tabloul de distribuµie urm tor: data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) frecventa Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot modicate dupa cum doreste utilizatorul. Uneori, tabelul de distribuµie pentru o caracteristic de tip continuu mai poate scris ³i sub forma unui tabel ca in (3.1), unde 2 György Pólya ( ), matematician ungur

27 CSA 2 [Dr. Iulian Stoleriu] 26 vârsta frecvenµa frecvenµa relativ frecvenµa cumulat vârsta medie [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 3.4: Tabel cu frecvenµe pentru rata somajului. ˆ z i = a i 1 + a i 2 este elementul de mijloc al clasei [a i 1, a i ); ˆ f i este frecvenµa apariµiei valorilor din [a i 1, a i ), (i = 1, 2,..., r), r f i = n. Pentru denirea claselor unui tabel de frecvenµe, nu exist o regul precis. Fiecare utilizator de date î³i poate crea propriul tabel de frecvenµe. Scopul nal este ca acest tabel s scoat în evidenµ caracteristicele datelor, cum ar : existenµa unor grupe (clase) naturale, variabilitatea datelor într-un anumit grup (clas ), informaµii legate de existenµa unor anumite date statistice care nu au fost observate in selecµia dat etc. În general, aceste caracteristici nu ar putea observate privind direct setul de date negrupate. Totu³i, pentru crearea tabelelor de frecvenµe, se recomand urm torii pa³i: 1. Determinarea num rului de clase (disjuncte). Este recomandat ca num rul claselor s e între 5 ³i 20. Dac volumul datelor este mic (e.g., n < 30), se recomand constituirea a 5 sau 6 clase. De asemenea, dac este posibil, ar util ca ecare clas s e reprezentat de cel puµin 5 valori (pentru un num r mic de clase). Dac num rul claselor este mai mare, putem avea ³i mai puµine date într-o clas, dar nu mai puµin de 3. O clas cu prea puµine valori (0, 1 sau 2) poate s nu e reprezentativ. 2. Determinarea l µimii claselor. Dac este posibil, ar bine dac toate clasele ar avea aceea³i l µime. Acest pas depinde, în mare m sur, de alegerea din pasul anterior. 3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât ecare dat statistic s aparµine unei singure clase. În practic, un tabel de frecvenµe se realizeaz prin încerc ri, pân avem convingerea c gruparea f cut poate surprinde cât mai del datele observate. A³adar, dac ne este dat o în³iruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul de repartiµie ³i vrem s enumer m datele) nu este posibil, decât doar în cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 3.4, ce reprezint rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nu am putea ³ti cu exactitate vârsta exact a persoanelor care au fost selecµionate pentru studiu. Observ m c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de mijloc pentru o clas, valoarea obµinut prin media valorilor extreme ale clasei. În cazul Tabelului 3.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frecvenµelor tuturor claselor cu valori mai mici.

28 CSA 2 [Dr. Iulian Stoleriu] 27 Reprezentarea datelor statistice Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multe ori baza unor reprezent ri grace, pentru o mai bun vizualizare a datelor. Aceste reprezent ri pot f cute în diferite moduri, dintre care amintim pe cele mai uzuale. Reprezentare prin puncte Reprezentarea prin puncte (en., dot plot) este folosit, de regula, pentru selecµii de date de tip discret de dimensiuni mici. Sunt reprezentate puncte a³ezate unul peste celalalt, reprezentând num rul de apariµii ale unei valori pentru caracteristica dat. Un astfel de grac este reprezentat în Figura 3.1. Aceste reprezent ri sunt utile atunci când se dore³te scoaterea în evidenµ a anumitor pâlcuri de date (en., clusters) sau chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate. Reprezentarea stem-and-leaf Figura 3.1: Reprezentarea cu puncte. Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Urm torul set de date negrupate reprezinta punctajele (din 100 de puncte) obµinute de cei 20 de elevi ai unui an de studiu la o testare semestrial : Tabelul 3.3 reprezint aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ c acest tabel arat atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gracul c având pe OY drept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7 5 semnic un punctaj de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. În secµiunile urm toare vom prezenta ³i alte metode utile.

29 CSA 2 [Dr. Iulian Stoleriu] 28 stem leaf Figura 3.2: Reprezentarea datelor discrete. Figura 3.3: Tabel stem-and-leaf reprezentând punctajele studenµilor. Reprezentarea cu bare (bar charts) Este util pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele sunt dreptunghiuri ce reprezint frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenµele pe vertical. În Figura sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea categoriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal (vezi Figura ). Figura 3.4: Reprezent rile cu bare. Figura 3.5 contine o reprezentare de date folosind bare 3D.

30 CSA 2 [Dr. Iulian Stoleriu] 29 Figura 3.5: Reprezentare 3D prin bare. Histograme Cuvântul "histogram " a fost introdus pentru prima oar de Karl Pearson 3 în Acesta deriv din cuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram este o form pictorial a unui tabel de frecvenµe, foarte util pentru selecµii mari de date de tip continuu. Se aseam n cu reprezentarea prin bare, cu urm toarele dou diferenµe: nu exist spaµii între bare (de³i, pot ap rea bare de înalµime zero ce arat a spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµele corespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului este intervalul clasei, iar în lµimea este a³a încât aria ec rui dreptunghi reprezint frecvenµa. Aria total a tuturor dreptunghiurilor este egal cu num rul total de observaµii. Dac barele unei histograme au toate aceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogramei se mai numesc ³i densit µi de frecvenµ. În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac: în lµimea = k frecvenµa l µimea clasei, k = factor de proporµionalitate. S presupunem c am grupat datele din Tabelul 3.5 într-o alt manier, în care clasele nu sunt echidistante (vezi Tabelul 3.7). În Tabelul 3.7, datele din ultimele dou clase au fost cumulate într-o singur clas, de l µime mai mare decât celelalte, deoarece ultima clas din Tabelul 3.5 nu avea suciente date. Histograma ce reprezint datele din Tabelul 3.7 este cea din Figura 3.8. Conform cu regula proporµionalit µii ariilor cu frecvenµele, se poate observa c primele patru bare au în lµimi egale cu frecvenµele corespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµei corespunz toare, deoarece l µimea acesteia este dublul l µimii celorlalte. 3 Karl Pearson ( ), statistician, avocat ³i eugenist britanic

31 CSA 2 [Dr. Iulian Stoleriu] 30 În lµimea (în cm) frecvenµa [0, 5) 5 [5, 10) 13 [10, 15) 23 [15, 20) 17 [20, 25) 10 [25, 30) 2 Tabela 3.5: Tabel cu în lµimile plantelor. Tabela 3.6: Histograme pentru datele din Tabelul 3.5. În general, pentru a construi o histogram, vom avea în vedere urm toarele: datele vor împ rµite (unde este posibil) în clase de lungimi egale. Uneori aceste diviz ri sunt naturale, alteori va trebui s le fabric m. num rul de clase este, în general, între 5 ³i 20. înregistraµi num rul de date ce cad în ecare clas (numite frecvenµe). gura ce conµine histograma va avea clasele pe orizontal ³i frecvenµele pe vertical. Figura 3.6: Histogram 3D. Observaµia 3.1. (1) Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 3.7 este [20, )), atunci se obi³nuie³te ca l µimea ultimului interval s e luat drept dublul l µimii intervalului precedent. (2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom putea utiliza alte valori. Spre exemplu, s consider m clasa [15, 20). Aceast clas reprezint clasa acelor plante ce au în lµimea cuprins între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15 ³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas s conµin acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Am putea face referire la aceste valori ca ind valorile reale ale clasei, numite frontierele clasei. În cazul în care am determinat frontierele clasei, l µimea unei clase se dene³te ca ind diferenµa între frontierele ce-i corespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele , l µimea 6 ³i densitatea de frecvenµ Pentru exemplicare, în Tabelul 3.9 am prezentat frontierele claselor, l µimile lor ³i densit µile de frecvenµ pentru datele din Tabelul 3.4. Reprezentare prin sectoare de disc (pie charts) Se poate reprezenta distribuµia unei caracteristici ³i folosind sectoare de disc (diagrame circulare) (en., pie charts), ecare sector de disc reprezentând câte o frecvenµ relativ. Aceast variant este util în special la reprezentarea datelor calitative.

32 CSA 2 [Dr. Iulian Stoleriu] 31 În lµimea (în cm) frecvenµa [0, 5) 5 [5, 10) 13 [10, 15) 23 [15, 20) 17 [20, 30) 12 Tabela 3.7: Tabel cu în lµimile plantelor. Tabela 3.8: Histograme pentru datele din Tabelul 3.7. în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) [25, 35) [35, 45) [45, 55) [55, 65) Tabela 3.9: Tabel cu frontierele claselor. Exist ³i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 am reprezentat datele din Tabelul % 10% 16% Nota 5 Nota 6 Nota 7 Nota 8 Nota 9 Nota 10 16% 22% 26% Figura 3.7: Reprezentarea pe disc a frecvenµelor relative ale notelor din tabelul cu note Figura 3.8: Reprezentare pe disc 3D

33 CSA 2 [Dr. Iulian Stoleriu] 32 Ogive Pentru frecventele cumulate pot folosite ogive. O ogiv reprezint gracul unei frecvenµe cumulate (absolut sau relativ ). X = [ ]; plot(2:10, cumsum(x), '*-') Diagrama Q-Q sau diagrama P-P Figura 3.9: Ogiva pentru frecvenµele absolute cumulate din Tabelul 8.1 Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate) sunt utilizate in a determina apropierea dintre doua seturi de date (repartitii). Daca datele provin dintr-o acceasi repartitie, atunci ele se aliniaza dupa o dreapta desenata in gura. Diagrama Q-Q este bazata pe rangurile valorilor, iar diagrama P-P este bazata pe functiile de repartitie empirice. Figura 3.10: Exemplu de diagrama Q-Q plot S consider m o populaµie statistic de volum N ³i o caracteristic a sa, X, ce are funcµia de repartiµie F. Asupra acestei caracteristici facem n observaµii, în urma c rora culegem un set de date statistice. Dup cum am v zut anterior, datele statistice pot prezentate într-o form grupat (descrise prin tabele de frecvenµe) sau pot negrupate, exact a³a cum au fost culese în urma observ rilor. Pentru analiza acestora, pot utilizate diverse tehnici de organizare ³i reprezentare grac a datelor statistice îns, de cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesaµi în a

34 CSA 2 [Dr. Iulian Stoleriu] 33 atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel de valori numerice, e.g., m suri ale tendinµei centrale (media, modul, mediana), m suri ale dispersiei (dispersia, deviaµia standard), m suri de poziµie (cuantile, distanµa intercuantilic ) etc. În acest capitol, vom introduce diverse m suri descriptive numerice, atât pentru datele grupate, cât ³i pentru cele negrupate. M suri descriptive ale datelor negrupate Consider m un set de date statistice negrupate, x 1, x 2,..., x n (x i R, i = 1, 2..., n, n N), ce corespund unor observaµii f cute asupra variabilei X. Pe baza acestor observatii, denim urm toarele m suri descriptive ale datelor, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Deoarece ele se bazeaza doar pe observatiile culese, aceste masuri se mai numesc si masuri empirice. ˆ Valoarea medie Este o m sur a tendinµei centrale a datelor. Pentru o selecµie {x 1, x 2,..., x n }, denim: x = 1 n n x i, ca ind media datelor observate. Aceasta medie empirica este un estimator pentru media teoretica, µ = EX, daca aceasta exista. ˆ Pentru ecare i, cantitatea d i = x i x se nume³te deviaµia valorii x i de la medie. Aceasta nu poate denit ca o m sur a gradului de împr ³tiere a datelor, deoarece ˆ Momentele n (x i x) = 0. Pentru k N, momentele de ordin k se denesc astfel: α k = 1 n n x k i. Pentru ecare k N, momentele centrate de ordin k se denesc astfel: µ k = 1 n n (x i x) k. ˆ Dispersia Aceasta este o m sur a gradului de împr ³tiere a datelor în jurul valorii medii. Pentru o selecµie {x 1, x 2,..., x n }, denim dispersia astfel: ( ) s 2 = µ 2 = 1 n (x i x) 2 = 1 n n 1 n 1 [ x 2 i n( x) 2 ].

35 CSA 2 [Dr. Iulian Stoleriu] 34 ˆ Deviaµia standard Este tot o m sur a împr ³tierii datelor în jurul valorii medii. Pentru o selecµie {x 1, x 2,..., x n }, denim deviaµia standard: s = 1 n (x i x) n 1 2. ˆ Coecientul de variaµie (sau de dispersie) Aceste coecient (de obicei, exprimat în procente) este util atunci când compar m dou repartiµii având unit µi de m sur diferite. Nu este folosit atunci când x sau µ este foarte mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor este mai mare pentru populatie ce are media mai mica. CV = s x, coecient de variaµie, ˆ Amplitudinea (plaja de valori, range) Pentru un set de date, amplitudinea (en., range) este denit ca ind diferenµa dintre valoarea cea mai mare ³i valoarea cea mai mic a datelor, i.e., x max x min. ˆ Scorul z Este num rul deviaµiilor standard pe care o anumit observaµie, x, le are sub sau deasupra mediei. Pentru o selecµie {x 1, x 2,..., x n }, scorul X este denit astfel: ˆ Corelaµia (covarianµa) x = x x. s Dac avem n perechi de observaµii, (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), denim corelaµia (covarianµa): ˆ Coecientul de corelaµie cov sel = 1 n 1 n (x i x)(y i ȳ). (3.2) r sel = cov sel s x s y, coecient de corelaµie, ˆ Funcµia de repartiµie empiric Se nume³te funcµie de repartiµie empiric asociat unei variabile aleatoare X ³i unei selecµii {x 1, x 2,..., x n }, funcµia F n : R [0, 1], denit prin Fn(x) = card{i; x i x}. (3.3) n Propoziµia de mai jos arat c funcµia de repartiµie empiric aproximeaz funcµia de repartiµie teoretic (vezi Figura 3.11). Propoziµie: Fie Ω o colectivitate statistic ³i X o caracteristic a sa, ce se dore³te a studiat. Notez cu F (x) funcµia de repartiµie (teoretica) a lui X. Pentru o selecµie de valori ale lui X, {x 1, x 2,..., x n }, construim funcµia de repartiµie empiric, F n(x). Atunci: F n(x) prob F (x), când n, x R.

36 CSA 2 [Dr. Iulian Stoleriu] 35 Figura 3.11: Funcµia de repartiµie empiric ³i funcµia de repartiµie teoretic pentru distribuµia normal. ˆ Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se dene³te prin γ 1 = µ 3 µ 3/2 = µ 1 n 3 s 3 = n (x i x) 3 [ 2 1 ] 3/2. n (x i x) 2 n 1 O repartiµie este simetric dac γ 1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac γ 1 > 0 ³i negativ (sau la stânga) dac γ 1 < 0. ˆ Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se dene³te prin K = µ 4 µ 2 3 = µ 1 n 4 2 s 4 3 = n (x i x) 4 ( 1 n n (x i x) 2) 2 3. Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul ( 3) apare pentru c indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentru K = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptul c, în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decât clopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss. ˆ Cuantile Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separ repartiµia ordonat în q p rµi egale. Pentru q = 2, cuantila x q se nume³te median, notat prin x 0.5 sau Me. Presupunem c observaµiile sunt ordonate, x 1 < x 2 < < x n. Pentru aceast ordine, denim valoarea median : { x x 0.5 = (n+1)/2, dac n = impar; (x n/2 + x n/2+1 )/2, dac n = par; Pentru q = 4, cuantilele se numesc cuartile (sunt în num r de 3). Prima cuartil, notat x 0.25 sau Q 1, se nume³te cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x 0.75

37 CSA 2 [Dr. Iulian Stoleriu] 36 sau Q 3, se nume³te cuartila superioar. Diferenµa Q 3 Q 1 se nume³te distanµa intercuartilic. Pentru q = 10 se numesc decile (sunt în num r de 9), pentru q = 100 se numesc percentile (sunt în num r de 99), pentru q = 1000 se numesc permile (sunt în num r de 999). Sunt m suri de poziµie, ce m soar locaµia unei anumite observaµii faµ de restul datelor. ˆ Modul Modul (sau valoarea modal ) este acea valoare x din setul de date care apare cel mai des. Un set de date poate avea mai multe module. Dac apar dou astfel de valori, atunci vom spune c setul de date este bimodal, pentru trei astfel de valori avem un set de date trimodal etc. În cazul în care toate valorile au aceea³i frecvenµ de apariµie, atunci spunem c nu exist mod. De exemplu, setul de date nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date. ˆ Valori aberante (en. outliers) Valorile aberante sunt valori statistice observate care sunt îndep rtate de marea majoritate a celorlalte observaµii. Ele pot ap rea din cauza unor m sur tori defectuoase sau în urma unor erori de m surare. De cele mai multe ori, ele vor excluse din analiza statistic. Din punct de vedere matematic, valorile aberante sunt valorile ce nu aparµin intervalului urm tor. [Q 1 1.5(Q 3 Q 1 ), Q (Q 3 Q 1 )] ˆ Sinteza prin cele cinci valori statistice (ve number summary) Reprezint cinci m suri statistice empirice caracteristice unui set de date statistice. Acestea sunt (în ordine cresc toare): cea mai mic valoare observat (min{x i }), prima cuartil (Q 1 ), mediana (Me), a treia cuartil (Q 3 ) ³i cea mai mare valoare observat (max{x i }). Aceste cinci numere pot reprezentate grac într-o diagram numit box-and-whisker plot. În gurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 3.4 sunt reprezentate în prima gur de mai jos prin dou diagrame box-and-whiskers. În prima diagram (numerotat cu 1) am generat uniform datele din tabel, p strând clasele; în a doua diagram am folosit reprezentarea datelor din acela³i tabel prin centrele claselor. Reprezent rile sunt cele clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-whisker plot. i i vârsta f. abs. f. rel. f. cum. mijlocul clasei [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 3.10: Tabel cu frecvenµe. Figura 3.12: Box-an-whisker plot pentru datele din Tabelul 3.4

38 CSA 2 [Dr. Iulian Stoleriu] 37 În Figura 3.13, am reprezentat cu box-and-whisker un set de date discrete ce conµine dou valori aberante. Aici dreptunghiul a fost crestat (notched box-and whisker plot); lungimea crest turii oferind un interval de încredere pentru median. Valorile aberante sunt reprezentate in gura prin puncte in afata range-ului datelor. M suri descriptive ale datelor grupate Figura 3.13: Box-an-whisker plot pentru un set de date discrete Consider m un set de date statistice grupate (de volum n), ce reprezinta observaµii asupra variabilei X. Pentru o selecµie cu valorile de mijloc {x 1, x 2,..., x r } ³i frecvenµele absolute corespunz toare, {f 1, f 2, r..., f r }, cu f i = n, denim: x f = 1 r s 2 = 1 n 1 r x i f i, media (empiric ) de selecµie, (sau, media ponderat ) r ( r ) f i (x i x f ) 2 = 1 x 2 i f i n x 2 f, dispersia empiric, n 1 s = s 2, deviaµia empiric standard. Formule similare se pot da ³i pentru m surile descriptive ale întregii populaµii. Mediana pentru un set de date grupate este acea valoare ce separ toate datele în dou p rµi egale. Se determin mai întâi clasa ce conµine mediana (numit clas median ), apoi presupunem c în interiorul ec rei clase datele sunt uniform distribuite. O formul dup care se calculeaz mediana este: Me = l + n 2 F Me f Me c, unde: l este limita inferioar a clasei mediane, n este volumul selecµiei, F Me este suma frecvenµelor pân la (exclusiv) clasa median, f Me este frecvenµa clasei mediane ³i c este l µimea clasei. Similar, formulele pentru cuartile sunt: Q 1 = l 1 + n 4 F Q 1 f Q1 c ³i Q 3 = l 3 + 3n 4 F Q 3 f Q3,

39 CSA 2 [Dr. Iulian Stoleriu] 38 unde l 1 si l 3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar F Q este suma frecvenµelor pân la (exclusiv) clasa ce contine cuartila, f Q este frecvenµa clasei unde se gaseste cuartila. Pentru a aa modul unui set de date grupate, determin m mai întâi clasa ce conµine aceast valoare (clas modal ), iar modul va calculat dup formula: Mod = l + d 1 d 1 + d 2 c, unde d 1 ³i d 2 sunt frecvenµa clasei modale minus frecvenµa clasei anterioare ³i, respectiv, frecvenµa clasei modale minus frecvenµa clasei posterioare, l este limita inferioar a clasei modale ³i c este l µimea clasei modale. Transformari de date Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate (folosind functiile ln sau log 10, daca valorile sunt toate pozitive), radacina patrata a valorilor, transformarea logit, radacini de ordin superior etc. In Tabelul 3.11 am sugerat tipul de transformare ce poate utilizat in functie de coecientul de skewness γ 1. In ce conditii... skewness formula date aproape simetrice 0.5 < γ 1 < 0.5 nicio transformare skewness moderat pozitiv, date nenegative 0.5 γ 1 < 1 y i = x i skewness moderat pozitiv, exista date < γ 1 < 1 y i = x i + C skewness moderat negativ 1 < γ y i = C x i skewness mare negativ γ 1 1 y i = ln(c x i ) sau y i = log 10 (C x i ) skewness mare pozitiv, date pozitive γ 1 1 y i = ln x i sau y i = log 10 x i skewness mare pozitiv, exista date 0 γ 1 1 y i = ln(x i + C) sau y i = log 10 (x i + C) Tabela 3.11: Exemple de transformari de date statistice unde C > 0 este o constanta ce poate determinata astfel incat datele transformate sa aiba un skewness cat mai aproape de 0. Aceasta constanta va aleasa astfel incat functia ce face transformarea este denita. De exemplu, presupunem ca datele observate sunt x 1, x 2,..., x n si acestea nu sunt toate pozitive, cu un coecient de asimetrie (skewness) γ 1 = Ne uitam la valoarea minima a datelor; aceasta este x min = Pentru a obtine un set de valori pozitive, vom adauga valoarea 1 la toate datele observate. Apoi,logaritmam valorile obtinute. Cele doua procedee cumulate sunt echivalente cu folosirea directa a formulei ln(1 + x i ) (adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y 1, y 2,..., y n, unde y i = ln(1 + x i ). Un exemplu este cel din Figura Se observa ca datele logaritmate sunt aproape normale. O analiza statistica poate condusa pentru datele y i, urmand ca, eventual, la nal sa aplicam transformarea inversa x i = e y i 1 pentru a transforma rezultatele pentru datele initiale.

40 CSA 2 [Dr. Iulian Stoleriu] 39 Figura 3.14: Datele intiale si datele logaritmate Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a determina proprietatile datelor originale. De aceea, ar potrivit de a exprima indicatorii statistici atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul Indicatorul datele originale datele tranformate x i y i = ln(1 + x i ) Minimum Maximum Media Cuartila Q Mediana Cuartila Q Deviatia standard Dispersia Skewness Kurtosis Numarul de observatii χ 2 pentru testul de normalitate (cu 7 grade de libertate) Tabela 3.12: Exemplu de indicatori pentru datele originale si pentru datele transformate

41 LSA 1 [Dr. Iulian Stoleriu] 40 4 Statistică Aplicată (L2) Exerciµiu 4.1. Urm torul set de date reprezint preµurile (în mii de euro) a 20 de case, vândute într-o anumit regiune a unui ora³: (a) Determinaµi amplitudinea, media, mediana, modul, deviatia standard, cuartilele ³i distanµa intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ? (b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante? (c) Calculaµi coecientii de asimetrie si de aplatizare. Soluµie: Rearanj m datele în ordine cresc toare: Amplitudinea este = 475, media lor este , mediana este = , modul este 100, cuartila in ferioar este Q 1 = = 84, Q 2 = Me, cuartila superioar este Q 3 = = 140 ³i distanµa intercuartilic este d = Q 3 Q 1 = 56. Mediana este valoarea cea mai reprezentativ în acest caz, deoarece cele mai mari trei preµuri, anume 340.5, 475.5, 525, m resc media ³i o fac mai puµin reprezentativ pentru celelalte date. În cazul în care setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. Deviatia standard este s = 1 n (x i x) n 1 2 = Folosind formulele, gasim ca γ 1 = (asimetrie la dreapta) si K = (boltire pronuntata). Figura 4.1: Box-an-whisker plot pentru datele din Exerciµiul 4.1 Valorile aberante sunt cele ce se aa in afara intervalului [Q 1 1.5(Q 3 Q 1 ), Q (Q 3 Q 1 )] = [0, 178]. Se observa ca valorile sunt valori aberante, reprezentate prin puncte in gura. În Matlab, X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = range(x); m = mean(x); Me = median(x); Mo = mode(x); boxplot(x) Q1 = quantile(x,0.25); Q2 = quantile(x,0.5); Q3 = quantile(x,0.75); d = Q3 - Q1; g1 = skewness(x); K = kurtosis(x);

42 LSA 1 [Dr. Iulian Stoleriu] 41 Exerciµiu 4.2. Consider m datele din Tabelul 3.5. (a) Determinaµi amplitudinea, media, mediana, modul, dispersia si distanta intercuartilic pentru aceste date. (b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante? Soluµie: Amplitudinea este a = 30. Folosind centrele claselor, media este (x f) x = n Dispersia este: = 1 ( ) = s 2 1 = n 1 ( (x 2 f) n x 2 ) = 1 69 ( ) = Clasa median este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) ³i [5, 10)) se a deja = 18 date mai mici decât mediana, pentru a aa valoarea median a plantelor (i.e., acea valoare care este mai mare decât alte 35 de valori la stanga ei ³i mai mic decât alte 35 de plante de la dreapta sa), va trebui s determin m acea valoare din clasa median ce este mai mare decât alte 17 valori din aceast clas. A³adar, avem nevoie de a determina o fracµie 17 dintre valorile clasei mediane. În concluzie, valoarea median este Me = = Clasa modal este [10, 15), iar modul este Mo = = Calcul m acum prima cuartil dupa formula Q 1 = l n 4 F Q 1. Clasa in care se gaseste prima cuartila este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintre valorile observate). Avem: F Q1 = 5, f Q1 = 13, c = 5, de unde Q 1 = Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest interval va avea la dreapta sa 70/4 dintre valori. Avem: F Q3 = 41, f Q3 = 10, c = 5, de unde Q 3 = Folosind Matlab: f Q1 X = [5*rand(1,5), 5+5*rand(1,13),10+5*rand(1,23), 15+5*rand(1,17), *rand(1,10), 25+5*rand(1,2)]; % datele x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor f = [5; 13; 23; 17; 10; 2]; % frecventele n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1); Q1 = quantile(x,0.25); Me = median(x); Q2 = quantile(x,0.75); Exerciµiu 4.3. O companie de asigur ri a înregistrat num rul de accidente pe s pt mân ce au avut loc într-un anumit sat, în decurs de un an (52 de s pt mâni). Acestea sunt, în ordine: 1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2 (a) Construiµi un tabel de frecvenµe care s conµin num rul de accidente, frecvenµele absolute ³i relative. (b) G siµi media empiric, mediana ³i deviaµia standard empiric.

43 LSA 1 [Dr. Iulian Stoleriu] 42 (c) Reprezentaµi prin bare rezultatele din tabelul de frecvenµe. (d) G siµi ³i reprezentaµi grac (cdfplot) funcµia de repartiµie empiric a num rului de accidente. Soluµie: (a) Tabelul de frecvenµe este Tabelul 4.1. num rul frecv. abs frecv. rel Tabela 4.1: Tabel de frecvenµe pentru Exerciµiu 4.3 (b) Avem: 52 x = x i = , s = 1 52 (x i x) 51 2 = , Me = 2. (c) Reprezentarea prin bare a num rului de accidente ³i gracul lui F n(x) sunt reprezentate în Figura 4.2. (d) Funcµia de repartiµie empiric este: 0, dac x < 0; Fn(x) = P (X x) = , dac x [0, 1);, dac x [1, 2);, dac x [2, 3); 52, dac x [3, 4); 1, dac x 4. Codul Matlab pentru calcule ³i grace este: Figura 4.2: Reprezentare pentru num rul de accidente. Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(y); s = std(y); Me = median(y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(y) % graficul functiei de repartitie empirice

44 LSA 1 [Dr. Iulian Stoleriu] 43 Exerciµii propuse Exerciµiu 4.4. Pentru un set de 5 valori, media empiric este x = 50 ³i dispersia empiric este s 2 = 4. Dac trei dintre valori sunt 48, 51, 52, determinaµi ³i celelalte dou valori. Exerciµiu 4.5. Se consider urm toarea selecµie de note obµinute de elevii unei ³coli la teza de Matematic. 5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7, 6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6 (a) Estimaµi media, deviaµia standard ³i mediana populaµiei din care provine aceast selecµie, precizând formulele folosite. (b) Grupaµi datele ³i scrieµi funcµia de repartiµie empiric. (c) Reprezentaµi un box-and-whisker plot pentru date. Exerciµiu 4.6. Pentru evaluarea rezultatelor obµinute la proba de Matematic a examenului de Bacalaureat de c tre elevii unei ³coli, s-a f cut un sondaj de volum 30 printre elevii ³colii, notele ind urm toarele: (a) Descrieµi datele folosind o reprezentare stem & leaf. (b) Calculaµi media, dispersia ³i mediana pentru selecµia considerat, precizând formulele folosite. (c) Determinaµi cele cinci m suri statistice din ve number summary (d) Reprezentaµi un box-and-whisker plot pentru date. (e) Ionel a obµinut nota 8.45 la examen. Determinaµi scorul s u. Exerciµiu 4.7. Tabelul de mai jos conµine notele la Matematic a 10 elevi dintr-o anumit ³coal obµinute la: testul de simulare a examenului de Bacalaureat (T) ³i la examenul Bacalaureat (B). T B (a) Reprezentaµi cele dou seturi de date prin câte un box-and-whisker plot, în aceea³i gur. (b) Reprezentaµi datele din tabel printr-o diagram scatter. (c) Calculaµi coecientul de corelaµie empiric între notele la cele dou teste.

45 CSA 3 [Dr. Iulian Stoleriu] 44 Statistică Aplicată (C3) 5 Estimatori. Intervale de incredere (C3) Una dintre problemele de care se preocupa Statistica este estimarea parametrilor unei populatii. Consideram o populatie statistica de volum N (nit sau innit) si X o caracteristica (variabila aleatoare) a sa. Pe baza unor observatii asupra lui X, x 1, x 2,..., x n, dorim sa estimam parametrii µ = EX, σ 2 = D 2 (X). In continuare, vom preciza atat estimatori punctuali pentru acesti parametri, cat si intervale de incredere. Deoarece setul de valori observate poate sa difere de la un esantion la altul, vom considera in locul lor variabilele aleatoare de selecµie repetat de volum n, {X 1, X 2,..., X n }. Cu alte cuvinte, x i este o posibila valoare a variabilei X i (i = 1, 2,,..., n). Aceste variabile sunt independente si repartitia lor comuna este repartiµia lui X. ˆ O functie f(x 1, X 2,..., X n ) ce depinde de aceste variabile se va numi generic statistic. In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f(x 1, x 2,..., x n ), se numeste tot statistic. ˆ Se nume³te estimator al lui θ o statistic ˆθ = ˆθ(X 1, X 2,..., X n ), cu ajutorul c reia dorim s îl aproxim m pe θ. În acest caz, ne-am dori s ³tim în ce sens ³i cât de bine este aceast aproximaµie. ˆ Dac {x 1, x 2,..., x n } sunt date observate, atunci ˆθ = ˆθ(x 1, x 2,..., x n ) se nume³te estimaµie a lui θ. A³adar, o estimaµie pentru un parametru necunoscut este valoarea estimatorului pentru selecµia observat. Prin abuz de notaµie, vom nota atât estimatorul cât ³i estimaµia cu ˆθ ³i vom face diferenµa între ele prin precizarea variabilelor de care depind. Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot exacte. Apar astfel erori de aproximare. Ne-am dori s ³tim în ce sens ³i cât de bine un estimator aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati care sa cuantice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea medie patratica si eroarea standard. ˆ Un estimator ˆθ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul θ dac media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic, scriem astfel: E(ˆθ) = θ. ˆ Altfel, spunem c ˆθ este un estimator deplasat pentru θ, iar deplasarea (distorsiunea) se dene³te prin: b(ˆθ, θ) = E(ˆθ) θ. Cantitatea b(ˆθ, θ) este o m sur a erorii pe care o facem în estimarea lui θ prin ˆθ. ˆ O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea standard (en., standard error), notata aici prin σ(ˆθ) sau σˆθ. Spre exemplu, daca estimatorul ˆθ este X, atunci σ X = σ n,

46 SA 3 [Dr. Iulian Stoleriu] 45 unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σ X va tinde la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor masuratori se apropie mult de valoarea parametrului µ. ˆ Un estimator pentru eroarea standard (en., estimated standard error), notata aici prin σ(ˆθ) sau σˆθ sau sˆθ. Spre exemplu, daca estimatorul ˆθ este X, atunci un estimator pentru eroarea standard este s X = s n, unde s este estimatorul nedeplasat pentru deviatia standard. ˆ Numim eroare medie p tratic a unui estimator ˆθ pentru θ (en., mean squared error) cantitatea ( ] ) 2 MSE(ˆθ, θ) = E [ˆθ θ. Exemple: Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia estimatorului, σ 2ˆθ. 1. Media de selecµie X = 1 n este un estimator nedeplasat pentru parametrul µ (media teoretic ). 2. Dispersia de selecµie modicat S 2 = 1 n 1 n X i n [X i X] 2 este un estimator nedeplasat pentru dispersia teoretic pentru parametrul σ dispersia de selecµie S 2 = 1 n n [X i X] 2 este un estimator deplasat pentru parametrul σ 2, deplasarea ind b(s 2, σ 2 ) = σ2 n. ˆ Un estimator nedeplasat ˆθ pentru θ, θ Θ, se nume³te estimator nedeplasat uniform de dispersie minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice alt estimator nedeplasat pentru θ, notat cu ˆθ, avem pentru orice valoarea a parametrului θ. V ar(ˆθ) V ar(ˆθ ),

47 SA 3 [Dr. Iulian Stoleriu] 46 ˆ Estimatorul ˆθ pentru θ este un estimator consistent dac ˆθ(X 1, X 2,..., X n ) prob θ, când n. În acest caz, valoarea numeric a estimatorului, ˆθ(x 1, x 2,..., x n ), se nume³te estimaµie consistent pentru θ. ˆ Pentru un anumit parametru pot exista mai mulµi estimatori nedeplasati. parametrul λ din repartiµia P oisson P(λ) exist urm torii estimatori: De exemplu, pentru X ³i S 2. Dintre doi estimatori pentru un parametru, este de preferat acel estimator care are dispersia minima. In exemplul anterior il vom alege pe X. ˆ Metodele clasice de determinare a unor estimatori punctuali sunt: metoda momentelor, metoda verosimilitatii maxime, metoda minimului lui χ 2, metoda celor mai mici patrate. Aceste metode au fost studiate in cursurile anterioare de Statistica si nu le mai tratam aici. ˆ Dac ˆθ este un estimator pentru θ este un estimator obµinut prin metoda verosimilit µii maxime ³i h(x) este o funcµie bijectiv, atunci ĥ(θ) = h( θ). În cazul în care h(x) nu este bijectiv, atunci relaµia anterioar nu este neap rat valabil, dup cum arat exemplul urm tor. Exemplu 5.1. Fie ˆθ un estimator pentru θ. P tratul acestui estimator, ˆθ 2 nu este, în general, estimatorul pentru θ 2. Aici, h(x) = x 2. De exemplu, s presupunem c X N (0, 1) ³i avem urm toarele 20 de observaµii asupra lui X: ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; Un estimator absolut corect pentru media teoretic a lui X, i.e., pentru µ X = 0, este X. (pentru selecµia dat, X = ). Variabila aleatoare X 2 urmeaz repartiµia χ 2 (1) ³i are media µ X 2 = 1 (vezi repartiµia χ 2 ). Un estimator absolut corect pentru µ X 2 este X 2. Pe de alt parte, pentru selecµia dat avem c X iar ( X ) 2 = Estimarea parametrilor prin intervale de încredere Dup cum am v zut anterior, putem determina estimaµii punctuale pentru parametrii unei populatii îns, o estimaµie punctual, nu precizeaz cât de aproape se g se³te estimaµia ˆθ(x 1, x 2,..., x n ) faµ de valoarea real a parametrului θ. De exemplu, dac dorim s estim m masa medie a unor produse alimentare fabricate de o anumit ma³in, atunci putem g si un estimator punctual (e.g., media de selecµie) care s ne indice c aceasta este de 500 de grame. Ideal ar dac aceast informaµie ar prezentat sub forma: masa medie este 500g±10g. Putem obµine astfel de informaµii dac vom construi un interval în care, cu o probabilitate destul de mare, s g sim valoarea real a lui θ. S consider m o selecµie repetat de volum n, X 1, X 2,..., X n, ce urmeaz repartiµia lui X. Dorim s

48 SA 3 [Dr. Iulian Stoleriu] 47 g sim un interval aleator care s acopere cu o probabilitate mare (e.g., 0.95, 0.98, 0.99 etc) valoarea posibil a parametrului necunoscut. Pentru un α (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval de încredere (en., condence interval (C.I.)) pentru parametrul θ, cu probabilitatea de încredere 1 α, un interval aleator (θ, θ) astfel încât P (θ < θ < θ) = 1 α, (5.1) unde θ(x 1, X 2,..., X n ) ³i θ(x 1, X 2,..., X n ) sunt statistici. Spre exemplu, un interval de încredere cu semnicaµia 0.95 (en., a 95% C.I.) este un interval aleator ce acoper valoarea real a parametrului θ cu probabilitatea Probabilitatea 0.95 este asociat intervalului ³i nu parametrului de estimat, θ. Cu alte cuvinte, în cazul unui interval de încredere cu încrederea de 95%, este gre³it armaµia c probabilitatea ca parametrul estimat s se ae în acest interval este de Intervalul este aleator iar parametrul de estimat este o constant. Pentru o observaµie xat, capetele intervalului (aleator) de încredere vor funcµii de valorile de selecµie. De exemplu, pentru datele observate, x 1, x 2,..., x n, intervalul ( θ(x1, x 2,..., x n ), θ(x 1, x 2,..., x n ) ) se nume³te valoare a intervalului de încredere pentru θ. Pentru simplitate îns, vom folosi termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât ³i pentru valoarea acestuia, înµelesul desprinzându-se din context. Valoarea α se nume³te nivel de semnicaµie sau probabilitate de risc. Cu cât α este mai mic (de regul, α = 0.01 sau 0.02 sau 0.05), cu atât ³ansa (care este (1 α) 100%) ca valoarea real a parametrului θ s se g seasc în intervalul g sit este mai mare. De³i ³ansele 99% sau 99.99% par a foarte apropiate ³i ar da rezultate asem n toare, sunt cazuri în care ecare sutime conteaz. De exemplu, s presupunem c într-un an calendaristic un eveniment are ³ansa de 99% de a se realiza, în orice zi a anului, independent de celelalte zile. Atunci, ³ansa ca acest eveniment s se realizeze în ecare zi a anului în tot decursului acestui an este de %. Dac ³ansa de realizare în ecare zi ar fost de 99.99%, atunci rezultatul ar fost 96.42%, ceea ce înseamn o diferenµ foarte mare generat de o diferenµ iniµial foarte mic. Intervalul de încredere pentru valoarea real a unui parametru nu este unic. Dac ni se dau condiµii suplimentare (e.g., xarea unui cap t), atunci putem obµine intervale innite la un cap t ³i nite la cel lalt cap t. În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale. O singur populaµie statistic Interval de încredere pentru medie, când dispersia este cunoscut Intervalul de incredere pentru medie poate bilateral (daca nu exista alte informatii suplimentare despre interval, atunci il alegem centrat) sau unilateral (daca nu exista limita superioara sau inferioara pentru medie). Vom nota cu prin z α cuantila de ordin α pentru repartitia N (0, 1). (1) Intervalul de încredere bilateral pentru media teoretic µ când σ este cunoscut este: ( ) σ σ (µ, µ) = x z 1 α, x + z 2 1 α. (5.2) n 2 n

49 SA 3 [Dr. Iulian Stoleriu] 48 (2) Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de încredere este: ( ) σ (µ, ) = x z 1 α n,. (3) Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de încredere este: ) σ (, µ) = (, x + z 1 α n. În cazul în care volumul selecµiei este mare (de cele mai multe ori în practic, aceasta înseamn n 30) metoda de determinare a unui interval de încredere prezentat mai sus se poate aplica ³i pentru selecµii dintr-o colectivitate ce nu este neap rat normal. Aceasta este o consecinµ faptului c, pentru n mare, statistica X urmeaz repartiµia N (0, 1) pentru orice form a repartiµiei caracteristicii X (conform teoremei limit central ). Intervalele de încredere determinate mai sus sunt valide pentru selecµia (repetat sau nerepetat ) dintr-o populaµie innit, sau pentru selecµii repetate dintr-o populaµie nit. În cazul selecµiilor nerepetate din colectivit µi nite, în estimarea intervalelor de încredere vom µine cont ³i de volumul N al populaµiei. Spre exemplu, dac selecµia de volum n se face dintr-o populaµie nit de volum N ³i n 0.05N, atunci un inteval de încredere centrat pentru media populaµiei este: (µ, µ) = ( x z 1 α 2 σ n N n N 1, x + z 1 α 2 Interval de încredere pentru medie, când dispersia este necunoscut ) σ N n. (5.3) n N 1 Ne a m în condiµiile din secµiunea precedent (i.e., o caracteristic normal, X N (µ, σ)), mai puµin faptul c σ este cunoscut. Dac deviaµia standard σ nu este cunoscut, atunci ea va trebui estimat. tim deja c o estimaµie absolut corect pentru σ este statistica s, dat prin s = 1 n (x i x) 2. n 1 Intervalele de incredere sunt: (1) Dac nu se cunoa³te o alt informaµie suplimentar despre µ, atunci intervalul de încredere pentru media teoretic µ când σ este necunoscut este: ( ) s s (µ, µ) = x t 1 α 2 ; n 1, x + t 1 α n 2 ; n 1. (5.4) n (2) Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de încredere este: ( ) s (µ, ) = x t 1 α; n 1,. n (3) Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de încredere este: ( ) s (, µ) =, x t α; n 1. n

50 SA 3 [Dr. Iulian Stoleriu] 49 Aici, prin t α; n 1 am notat cuantila de ordin α pentru repartiµia t cu (n 1) grade de libertate. Formulele din aceast secµiune sunt practice atunci când selecµia se face dintr-o colectivitate gaussian de volum n mic. Când n este mare, atunci va o diferenµ foarte mic între valorile z 1 α ³i t 1 α 2 2 ; n 1, de aceea am putea folosi z 1 α în locul valorii t 1 α 2 2 ; n 1. Mai mult, pentru un n mare (n 30), intervalele de încredere obµinute mai sus r mân acelea³i pentru orice form a repartiµiei caracteristicii X, nu neap rat pentru una gaussian. A³adar, pentru o selecµie de volum mare dintr-o colectivitate oarecare, un interval de încredere pentru media populaµiei, când dispersia nu este cunoscut, este: ( ) s s (µ, µ) = x z 1 α, x + z 2 1 α. (5.5) n 2 n Interval de încredere pentru dispersie, când media este cunoscut Pentru estimarea punctual a lui σ 2 când media este cunoscut folosim statistica s 2 denit prin s 2 = 1 n n [x i µ] 2. În funcµie de faptul dac avem sau nu informaµii suplimentare despre dispersie (analog ca anterior), g sim c intervalul de încredere pentru σ 2, dup cum urmeaz : (1) nu avem informaµii suplimentare despre dispersie: ( (σ 2, σ 2 n s 2 ) = χ 2, 1 α 2 ; n n s 2 χ 2 α 2 ; n ) ; (5.6) (2) avem informaµii c dispersia este nem rginit superior: ( ) (σ 2, σ 2 n s 2 ) =, + ; (5.7) χ 2 1 α; n (3) avem informaµii c dispersia este nem rginit inferior: ( (σ 2, σ 2 n s 2 ) = 0, χ 2 α; n ), (5.8) unde prin χ 2 α; n am notat cuantila de ordin α pentru repartiµia χ 2 cu n grade de libertate. Interval de încredere pentru dispersie, când media este necunoscut Pentru estimarea punctual a lui σ 2 când media este necunoscut folosim statistica s 2 denit prin s 2 = 1 n 1 n [x i x] 2. În funcµie de faptul dac avem sau nu informaµii suplimentare despre dispersie, g sim c intervalul de încredere pentru σ 2 este:

51 SA 3 [Dr. Iulian Stoleriu] 50 (1) nu avem informaµii suplimentare despre dispersie: ( (σ 2, σ 2 (n 1)s 2 ) = χ 2, 1 α 2 ; n 1 ) (n 1)s 2 χ 2, (5.9) α 2 ; n 1 unde prin χ 2 α; n 1 am notat cuantila de ordin α pentru repartiµia χ2 cu (n 1) grade de libertate. (2) avem informaµii c dispersia este nem rginit superior: ( ) (σ 2, σ 2 (n 1)s 2 ) = χ 2, + ; (5.10) 1 α; n 1 (3) avem informaµii c dispersia este nem rginit inferior: ( ) (σ 2, σ 2 (n 1)s 2 ) = 0, χ 2. (5.11) α; n 1 Intervale de încredere pentru deviaµia standard se obµin prin extragerea r d cinii p trate din capetele de la intervalele de încredere pentru dispersie. Interval de încredere pentru proporµii într-o populaµie binomial Pentru o populaµie statistic, prin proporµie a populaµiei vom înµelege procentul din întreaga colectivitate ce satisface o anumit proprietate (sau are o anumit caracteristic ) (e.g., proporµia de studenµi integrali³ti dintr-o anumit facultate). Pe de alt parte, prin proporµie de selecµie înµelegem procentajul din valorile de selecµie ce satisfac o anumit proprietate (e.g., proporµia de studenµi integrali³ti dintr-o selecµie aleatoare de 40 de studenµi ai unei facult µi). Proporµia unei populaµii este un parametru (pe care îl vom nota cu p), iar proporµia de selecµie este o statistic (pe care o not m aici prin p). Fie X o caracteristic binomial a unei colectivit µi, cu probabilitatea de succes p (e.g., num rul de steme ap rute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim s construim un interval de încredere pentru proporµia populaµiei, p. Pentru aceasta, avem nevoie de selecµii de volum mare din aceast colectivitate. Un estimator potrivit pentru p este proporµia de selecµie, adic p = p = X n. Printr-un "volum mare" vom înµelege un n ce satisface: n 30, n p > 5 ³i n (1 p) > 5. Media variabilei aleatoare X este E(X) = np, iar dispersia este D 2 (X) = np(1 p). Putem scrie pe X ca n ind X = X i, unde X i sunt variabile aleatoare Bernoulli B(1, p). Pentru un volum n mare, variabila aleatoare X satisface (conform teoremei limit central aplicat ³irului {X i } i ): X n p n p (1 p) = X n p p (1 p) = p p p (1 p) N (0, 1). n Pe baza acestui rezultat, putem construi un interval de încredere pentru p, de forma: ( ) p (1 p) p (1 p) p z 1 α, p + z 2 n 1 α. (5.12) 2 n n

52 SA 3 [Dr. Iulian Stoleriu] 51 Deoarece p nu este a priori cunoscut, p a fost înlocuit sub radical cu estimatorul s u. Valoarea p (1 p) E = z 1 α 2 n (5.13) se nume³te eroarea standard a proporµiei. E este eroarea care se face prin estimarea lui p prin intervalul de încredere dat de (5.12). Acest interval de încredere este valabil pentru selecµie dintr-o populaµie innit (sau n N, de regul n < 0.05N) sau pentru selecµia cu repetiµie dintr-o populaµie nit. Dac selecµia se realizeaz f r repetiµie dintr-o populaµie nit (cu N astfel înât n 0.05N), atunci intervalul de încredere este: ( ) p (1 p) N n p (1 p) N n p z 1 α 2 n N 1, p + z 1 α. (5.14) 2 n N 1 Observaµia 5.2. [1] Dac se dore³te estimarea volumului selecµiei pentru care se obµine estimarea proporµiei p printr-un interval de încredere cu o eroare maxim E, atunci folosim formula (5.13). Dac am putea ghici proporµia populaµiei, p, atunci g sim urm toarea estimare a volumului selecµiei: [ ( ) ] z1 α 2 2 n = p(1 p), (5.15) E unde [ ] este partea întreag. Dac p nu poate ghicit, atunci folosim faptul c p(1 p) este maxim pentru p = 0.5 ³i estim m pe n prin [ ( ) ] 1 z1 α 2 2 n =. 4 E [2] Exist ³i alte metode de a determina intervale de încredere pentru proporµie. Spre exemplu, intervalul urm tor, obµinut de E. B. Wilson în 1927, este o îmbun t µire a intervalului (5.12), care ofer rezultate foarte bune chiar ³i pentru un n mic sau pentru valori extreme ale lui p n z2 1 α 2 [ ˆp + 1 2n z2 1 α 2 ± z 1 α ˆp (1 ˆp) + n 4n 2 z2 1 α 2 ] (5.16) Dou populaµii statistice Interval de încredere pentru diferenµa mediilor Fie X 1 ³i X 2 caracteristicile a dou populaµii. Presupunem ca aceste variabile sunt normale, N (µ 1, σ 1 ), respectiv, N (µ 1, σ 1 ). Intervalul de incredere pentru diferenta mediilor este bazat pe cate o selectie aleatoare pentru ecare variabila. Alegem din prima populaµie o selecµie repetat de volum n 1, notat prin (X 1k ) k=1, n1, ce urmeaz repartiµia lui X 1, iar din a doua populaµie alegem o selecµie repetat de volum n 2, notat prin (X 2k ) k=1, n2, ce urmeaz repartiµia lui X 2. Fix m nivelul de semnicaµie α. Fie (x 1k ) k=1, n1 si (x 2k ) k=1, n2 realizarile variabilelor corespunzatoare. S not m dispersiile de selecµie pentru ecare caracteristic prin s 2 1 = 1 n 1 1 n 1 (x 1k x 1 ) 2 ³i s 2 2 = 1 n 2 1 n 2 (x 2k x 2 ) 2.

53 SA 3 [Dr. Iulian Stoleriu] 52 Un estimator punctual pentru µ 1 µ 2 este x 1 x 2. Deviaµia standard a acestui estimator depinde de informaµia ce o avem despre dispersii. Ele pot : cunoscute, necunoscute ³i egale, necunoscute ³i diferite. Tipic, intervalul de încredere pentru diferenµa mediilor se va scrie sub forma ( ) x 1 x 2 q 1 α s x 2 1 x 2, unde q 1 α 2 este cuantila de ordin 1 α 2 specic ec rui caz. Distingem urm toarele trei cazuri: (1) dispersiile σ1 2 ³i σ2 2 sunt cunoscute a priori. Atunci, un interval de încredere pentru diferenµa mediilor este: σ1 x 2 1 x 2 z 1 α + σ2 2 σ1 2, x 2 1 x 2 + z n 1 n 1 α + σ n 1 n 2 (2) dispersiile σ1 2 = σ2 2 = σ2 ³i necunoscute. In acest caz, un interval de încredere pentru µ 1 µ 2 este: ( (n 1 1)s (n 2 1)s 2 2 x 1 x 2 t 1 α 2 ; n 1+n 2 2 x 1 x 2 + t 1 α 2 ; n 1+n 2 2 ( (n 1 1)s (n 2 1)s 2 2 ) 1 2 n 1 + n n 1 + 1, n 2 n 1 + n n n 2 ) 1 2. (3) dispersiile σ1 2 σ2 2, necunoscute. Atunci, un interval de încredere pentru µ 1 µ 2 la nivelul de semnicaµie α este: x 1 x 2 t 1 α 2 ; m s 2 1 n 1 + s2 2 n 2, x 1 x 2 + t 1 α 2 ; m s s2 2, n 1 n 2 unde m = ( s s2 2 n 1 n 2 ( ) s 2 2 ( 1 1 s 2 n n 1 ) 2 n 2 ) 2 1 n Pentru un volum de selecµie n mare (n 30), intervalele de încredere obµinute mai sus r mân acelea³i pentru orice form a repartiµiei caracteristicii X, nu neap rat pentru una gaussian. Interval de încredere pentru raportul dispersiilor Fie X 1 ³i X 2 caracteristicile a dou populaµii normale, N (µ 1, σ 1 ), respectiv, N (µ 2, σ 2 ), pentru care nu se cunosc mediile ³i dispersiile teoretice. Alegem din prima populaµie o selecµie repetat de volum n 1 ce urmeaz repartiµia lui X 1, iar din a doua populaµie alegem o selecµie repetat de volum n 2 ce urmeaz repartiµia lui X 2. Fix m nivelul de semnicaµie α. Un interval de încredere pentru raportul dispersiilor, σ 2 1 / σ 2 2

54 SA 3 [Dr. Iulian Stoleriu] 53 este: ( s 2 1 s 2 f α 2, n 1 1, n 2 1, 2 s 2 1 s 2 f 1 α 2, n 1 1, n ), (5.17) unde f n, m; α reprezint cuantila de ordin α pentru repartiµia F isher cu (n, m) grade de libertate. Interval de încredere pentru diferenµa proporµiilor într-o populaµie binomial Fie X 1 ³i X 2 dou caracteristici binomiale independente ale unei populaµii, cu volumele ³i probabilit µile de succes n 1, p 1 ³i, respectiv, n 2, p 2. Dorim s a m un interval de încredere pentru diferenµa proporµiilor, p 1 p 2. Pentru a reu³i aceasta, avem nevoie de selecµii de volum mare. Condiµiile testului sunt: n 1 30, n 2 30, n 1 p 1 > 5, n 2 p 2 > 5, n 1 (1 p 1 ) > 5, n 2 (1 p 2 ) > 5. Un estimator punctual pentru p 1 p 2 este p 1 p 2. Deviaµia standard a acestui estimator este s p1 p 2 = p1 (1 p 1 ) n 1 + p 2 (1 p 2 ) n 2. La un nivel de semnicaµie α, un interval de încredere pentru p 1 p 2 este: ( ) p 1 p 2 z 1 α s p 2 1 p 2, p 1 p 2 + z 1 α s p 2 1 p 2 (5.18)

55 LSA 3 [Dr. Iulian Stoleriu] 54 6 Statistică Aplicată (L3) Exerciµiu 6.1. Un studiu susµine c între 35% ³i 40% dintre elevii de liceu din µar fumeaz. Cât de mare ar trebui s e volumul unei selecµii dintre elevii de liceu pentru a estima procentul real de elevi ce fumeaz, cu o eroare de estimare maxim de 0.5%. Se va alege nivelul de semnicaµie α = 0.1. Soluµie: Folosim formula (5.15), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiat de 50%). Cuantila este z 0.95 = G sim c o estimaµie pentru n este: [ ( ) ] n = 0.4(1 0.4) = Exerciµiu 6.2. O fabric produce batoane de ciocolat cânt rind 100g ecare. Pentru a se estima abaterea masei de la aceast valoare, s-a f cut o selecµie de 35 de batoane, obµinându-se valorile: ; 99.92; 100.1; 99.89; ; 99.88; ; 99.90; 99.97; 100.2; 99.89; ; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; ; 99.89; 99.76; 100.1; 99.24; 98.19; ; 100.5; 99.79; 98.95; ; 99.89; ; 98.63; 99.03; 100.3; G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard masei batoanelor produse de respectiva fabric. Soluµie: Mai întâi, calcul m d 2 (x). Avem: d 2 (x) = [X i 100] 2 = 0.3. Din tabele, sau utilizând Matlab, g sim cuantilele: χ ; 35 = ; χ ; 35 = În Matlab, cuantilele se calculeaz astfel: icdf('chi2',0.975, 35); icdf('chi2',0.025, 35) Intervalul de încredere pentru dispersie este (folosind formula (5.6)): (σ 2, σ 2 ) = (0.20, 0.51). Pentru variaµia standard, intervalul de încredere este: (σ, σ) = ( 0.2, 0.51) = (0.44, 0.71).

56 LSA 3 [Dr. Iulian Stoleriu] 55 Exerciµiu 6.3. G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard a conµinutului de nicotin a unui anumit tip de µig ri, dac o selecµie de 24 de buc µi are deviaµia standard a conµinutului de nicotin de 1.6mg. Soluµie: Mai întâi, s = d (x) = 1.6. Din tabele, sau utilizând Matlab, g sim: χ ; 24 = ; χ ; 24 = Intervalul de încredere pentru dispersie este (folosind formula (5.9)): (σ 2, σ 2 ) = (1.56, 4.95). Pentru variaµia standard, intervalul de încredere este: ( , ) = (1.25, 2.22). Exerciµiu 6.4. O selecµie aleatoare de volum n = 25 cu media se selecµie x = 50 se ia dintr-o populaµie de volum N = 1000, ce are deviaµia standard σ = 2. (a) Dac presupunem c populaµia este normal, g siµi un interval de încredere pentru media populaµiei, cu α = (b) G siµi un interval de încredere pentru media populaµiei (α = 0.05) în cazul în care populaµia nu este normal. Soluµie: (a) Folosim formula (5.2). G sim intervalul de încredere ( ) 2 2 (µ, µ) = 50 z 0.975, 50 + z = (48.4, 51.6) (b) Deoarece populaµia nu este normal distribuit ³i nici volumul populaµiei nu este mare (n < 30), vom estima intervalul de încredere bazându-ne pe inegalitatea lui Cebâ³ev. Aceasta spune c, dac X este o variabil aleatoare ce admite medie (µ) ³i dispersie (σ 2 ), atunci are loc inegalitatea P ({(X µ) 2 a}) σ2, pentru orice a > 0, a2 Aplic m inegalitatea lui Cebâ³ev pentru variabila X. Luând a = kσ, g sim c probabilitatea ca valorile lui X s e aproximate prin µ X = µ cu o eroare de cel mult k deviaµii standard este: P ({ X µ X < kσ X }) 1 1 k 2. Luând 1 1 k 2 = 0.95, g sim k = 20. Astfel, un interval de încredere pentru media populaµiei va (µ, µ) = (x k n σ, x + k n σ ) = ( , ) = (46.42, 53.58). Am folosit faptul c σ 2 X = D2 (X) = σ2. Observ m c acest interval este mai mare decât cel g sit anterior, n de aceea inegalitatea lui Cebî³ev este rar folosit pentru a determina intervale de încredere. Totu³i, în acest caz nu aveam o alt alternativ de calcul. Dac se dore³te o precizie mai bun, ar indicat ca volumul selecµiei s e de cel puµin 30, caz în care putem folosi aproximarea cu repartiµia normal.

57 LSA 3 [Dr. Iulian Stoleriu] 56 Exerciµii propuse Exerciµiu 6.5. Într-o ³coal sunt 200 de elevi de clasa a XII-a care au susµinut tez la Matematic. Tabelul urm tor conµine o selecµie aleatoare de 36 de note la aceast tez : note frecvenµa [1] Estimaµi punctual media, dispersia ³i mediana populaµiei din care provine aceast selecµie, precizând formulele folosite. [2] Determinati un interval de incredere pentru media populatiei la nivelul α = [3] Scrieµi funcµia de repartiµie empiric ³i desenaµi gracul acesteia. [4] Estimaµi printr-un interval de încredere procentul notelor de trecere obµinute de elevii de clasa a XII-a din acea ³coal (α = 0.04). Exerciµiu 6.6. Tabelul urm tor conµine preµurile la Benzin 95 pentru o selecµie de 64 de benzin rii din µar. preµul (6.10, 6.15] (6.15, 6.20] (6.20, 6.25] (6.25, 6.30] (6.30, 6.35] (6.35, 6.40] frecvenµa [1] Estimaµi punctual media, dispersia ³i mediana populaµiei din care provine aceast selecµie, precizând formulele folosite. [2] Reprezentati datele prin histograme. [3] Determinaµi un interval de încredere pentru preµul mediu al benzinei în µar (α = 0.04). Exerciµiu 6.7. În urma arunc rii unei monede de 4050 de ori, s-a observat c faµa cu stema a ap rut de 2052 ori. Determinaµi un interval de încredere pentru probabilitatea de apariµie a feµei cu stema la aruncarea respectivei monede. Se va lua nivelul de semnicaµie α = Exerciµiu 6.8. La un control de calitate, dintr-un lot de 150 de piese, 5 au fost g site defecte. Determinaµi un interval de încredere cu α = 0.01 pentru probabilitatea ca o pies luat la întâmplare s e defect. Exerciµiu 6.9. Cât de mare ar trebui s e volumul selecµiei, pentru a estima proporµia de fum tori din µar cu o eroare de cel mult 2%, ³i o probabilitate de încredere de 0.95? Exerciµiu Un studiu recent arat c dintre 120 de accidente rutiere ce s-au soldat cu victime, 56 era datorate consumului de alcool. G siµi un interval de încredere care s estimeze cu o probabilitate de risc α = 0.05 procentul real al accidentelor rutiere cauzate de consumul de alcool. Exerciµiu Fie selecµia S se estimeze varianµa populaµiei din care provine aceast selecµie.

58 LSA 3 [Dr. Iulian Stoleriu] 57 Exerciµiu Fie X 1, X 2,..., X n o selecµie repetat de volum n mare, luat dintr-o caracteristic ce are media µ necunoscut ³i dispersia 4. Determinaµi volumul selecµiei pentru care, cu o probabilitate de 99% putem estima pe µ cu o eroare de o zecime. Exerciµiu La un control de calitate, dintr-un lot de 150 de piese, 5 s-au g sit a avea defecte. Determinaµi un interval de încredere cu α = 0.01 pentru probabilitatea ca o pies luat la întâmplare s e defect. Exerciµiu Un angajat la Serviciu Forµelor de Munc dore³te s fac un sondaj prin care s determine procentul de persoane dintr-o regiune a µ rii ce lucreaz la negru. El dore³te s e 98% sigur c rezultatul g sit estimeaz procentul real cu o eroare de cel mult 2%. Dintr-un sondaj recent, la care au participat 1500 de persoane angajate, 273 au declarat c nu li s-au f cut carte de munc. (a) Cât de mare ar trebui s e volumul selecµiei pentru a realiza estimarea dorit? (b) Dac nu ar avea acces la acel sondajul recent, cât de mare ar trebui s e volumul selecµiei pentru a realiza estimarea dorit?

59 CSA 4 [Dr. Iulian Stoleriu] 58 Statistică Aplicată (C4) 7 Testarea ipotezelor statistice (C4) Punerea problemei Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utilizând datele experimentale culese. Testele prezentate mai jos au la baz noµiuni din teoria probabilit µilor. Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite estim ri de parametri ai unei repartiµii sau chiar putem prezice forma legii de repartiµie a caracteristicii considerate. Presupunem c X este variabila de interes a unei populaµii statistice ³i c legea sa de probabilitate este dat de depinde de un parametru θ. In general, o repartitie poate depinde de mai multi parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, s presupunem c (x k ) k=1, n sunt datele observate relativ la caracteristica X. ˆ Numim ipotez statistic tipul legii caracteristicii. o presupunere relativ la valorile parametului θ sau chiar referitoare la ˆ O ipotez neparametric este o presupunere relativ la repartitia lui X. De exemplu, o ipotez de genul X Normal. ˆ Numim ipotez parametric o presupunere f cut asupra valorii parametrilor unei repartiµii. Dac mulµimea la care se presupune c aparµine parametrul necunoscut este format dintr-un singur element, avem de-a face cu o ipotez parametric simpl. Altfel, avem o ipotez parametric compus. ˆ O ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate ³i o presupunem a priori a adev rat. Cu alte cuvinte, ipoteza nul este ceea ce dore³ti s crezi, în cazul în care nu exist suciente evidenµe care s sugereze contrariul. Un exemplu de ipotez nul este urm toarul: "presupus nevinovat, pân se g sesc dovezi care s ateste o vin ". O ipotez alternativ este orice alt ipotez admisibil cu care poate confruntat ipoteza nul. ˆ A testa o ipotez statistic (en., statistical inference) înseamn a lua una dintre deciziile: ipoteza nul se respinge (caz in care ipoteza alternativa este admisa) ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei) ˆ În Statistic, un rezultat se nume³te semnicativ din punct de vedere statistic dac este improbabil ca el s se realizat datorit ³ansei. Între dou valori exist o diferenµ semnicativ dac exist suciente dovezi statistice pentru a dovedi diferenµa, ³i nu datorit faptului c diferenµa ar mare. ˆ Numim nivel de semnicaµie probabilitatea de a respinge ipoteza nul când, de fapt, aceasta este adev rat. În general, nivelul de semnicaµie este o valoare pozitiva apropiata de 0, e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic, valoarea implicita pentru α este ˆ În urma unui test statistic pot aparea dou tipuri de erori: 1. eroarea de speµa (I) sau riscul furnizorului (en., false positive) este eroarea care se poate comite respingând o ipotez (în realitate) adev rat. Se mai nume³te ³i risc de genul (I).

60 CSA 4 [Dr. Iulian Stoleriu] 59 Probabilitatea acestei erori este egala chiar nivelul de semnicaµie α, adic : α = P (H 0 se respinge H 0 este adev rat ). 2. eroarea de speµa a (II)-a sau riscul beneciarului (en., false negative) este eroarea care se poate comite acceptând o ipotez (în realitate) fals. Se mai nume³te ³i risc de genul al (II)-lea. Probabilitatea acestei erori este β = P (H 0 se admite H 0 este fals ). Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este mai grav decât riscul de genul al (II)-lea dac veric m calitatea unui articol de îmbrac minte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dac veric m concentraµia unui medicament. ˆ Denumim valoare P sau P valoare sau nivel de semnicaµie observat (en., P-value) probabilitatea de a obµine un rezultat cel puµin la fel de extrem ca cel observat, presupunând c ipoteza nul este adev rat. Valoarea P este cea mai mic valoare a nivelului de semnicaµie α pentru care ipoteza (H 0 ) ar respins, bazându-ne pe observaµiile culese. Dac P v α, atunci respingem ipoteza nul la nivelul de semnicaµie α, iar dac P v > α, atunci admitem (H 0 ). Cu cât P v este mai mic, cu atât mai mari ³anse ca ipoteza nul s e respins. De exemplu, dac valoarea P este P v = atunci, bazându-ne pe observaµiile culese, vom respinge ipoteza (H 0 ) la un nivel de semnicaµie α = 0.05 sau α = 0.1, dar nu o putem respinge la un nivel de semnicaµie α = Dac ne raport m la P valoare, decizia într-un test statistic poate f cut astfel: dac aceasta valoare este mai mic decât nivelul de semnicaµie α, atunci ipoteza nul este respins, iar dac P value este mai mare decât α, atunci ipoteza nul nu poate respins. Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne d dreptul s decidem dac exist sau nu suciente evidenµe s concluzion m c o sarcin este prezent. Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor în acest caz vor c dea de acord cum c un false negative este mai grav decât un false positive. S presupunem c suntem într-o sal de judecat ³i c judec torul trebuie s decid dac un inculpat este sau nu vinovat. Are astfel de testat urm toarele ipoteze: { (H 0 ) inculpatul este nevinovat; (H 1 ) inculpatul este vinovat. Posibilele st ri reale (asupra c rora nu avem control) sunt: [1] inculpatul este nevinovat (H 0 este adev rat ³i H 1 este fals ); [2] inculpatul este vinovat (H 0 este fals ³i H 1 este adev rat ) Deciziile posibile (asupra c rora avem control putem lua o decizie corect sau una fals ) sunt: [i] H 0 se respinge (dovezi suciente pentru a încrimina inculpatul); [ii] H 0 nu se respinge (dovezi insuciente pentru a încrimina inculpatul);

61 CSA 4 [Dr. Iulian Stoleriu] 60 Situaµie real Decizii H 0 - adev rat H 0 - fals Respinge H 0 [1]&[i] [2]&[i] Accept H 0 [1]&[ii] [2]&[ii] Tabela 7.1: Posibilit µi decizionale. Situaµie real Decizii H 0 - adev rat H 0 - fals Respinge H 0 închide o persoana nevinovat închide o persoana vinovat Accepta H 0 elibereaz o persoana nevinovat elibereaz o persoana vinovat Tabela 7.2: Decizii posibile. Situaµie real Decizii H 0 - adev rat H 0 - fals Respinge H 0 α judecat corect Accepta H 0 judecat corect β Tabela 7.3: Erori decizionale. În realitate, avem urm toarele posibilit µi, sumarizate în Tabelul 7.1: Interpret rile datelor din Tabelul 7.1 se g sesc în Tabelul 7.2. Erorile posibile ce pot aparea sunt cele din Tabelul 7.3. Tipuri de teste statistice Tipul unui test statistic este determinat de ipoteza alternativ (H 1 ). Avem astfel: ˆ test unilateral stânga, atunci când ipoteza alternativ este θ < θ 0 (vezi Figura 7.1 (a)); ˆ test unilateral dreapta, atunci când ipoteza alternativ este θ > θ 0 (vezi Figura 7.1 (b)); ˆ test bilateral, atunci când ipoteza alternativ este θ θ 0 (vezi Figura 7.2); A³adar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast regiune critic vom utiliza metoda intervalelor de încredere. Dac valoarea observat se a în regiunea critic (adic în afara intervalului de încredere), atunci respingem ipoteza nul.

62 CSA 4 [Dr. Iulian Stoleriu] 61 Figura 7.1: Regiune critic pentru test (a) unilateral stânga, (b) unilateral dreapta. Figura 7.2: Regiune critic pentru test bilateral. Etapele unei test ri parametrice ˆ Consider m o selecµie întâmpl toare x 1, x 2,..., x n de observaµii asupra caracteristicii de interes. De multe ori, aceast selecµie provine dintr-o repartiµie normal. În caz contrar, va trebui ca volumul selecµiei s e mare, de regula n 30. Fie X 1, X 2,..., X n variabile aleatoare de selecµie; ˆ Alegem o statistic (criteriu) S(X 1, X 2,..., X n ) care, dup acceptarea ipotezei (H 0 ), aceast are o repartiµie cunoscut, independent de parametrul testat; ˆ Alegem un nivel de semnicaµie α apropiat de 0. De regul, α = 0.01, 0.02, ˆ G sim regiunea critic U; ˆ Calcul m valoarea s 0 a statisticii S(X 1, X 2,..., X n ) pentru selecµia considerat ; ˆ Lu m decizia: Dac s 0 U, atunci ipoteza nul, (H 0 ), se respinge; Dac s 0 U, atunci ipoteza nul, (H 0 ), se admite (mai bine zis, nu avem motive s o respingem ³i o admitem pân la efectuarea eventual a unui test mai puternic).

63 CSA 4 [Dr. Iulian Stoleriu] 62 Testul t pentru medie Teste parametrice Testul t pentru medie se folose³te pentru selecµii normale de volum mic, de regul n < 30, când dispersia populaµiei este necunoscut a priori. Fie caracteristica X ce urmeaz legea normal N (µ, σ) cu µ necunoscut ³i σ > 0 necunoscut. Vrem s veric m ipoteza nul versus ipoteza alternativ cu probabilitatea de risc α. Metoda I: Etapele testului sunt urmatoarele: (H 0 ) : µ = µ 0 (H 1 ) : µ µ 0, ˆ Obtinem o multime de masuratori asupra variabilei X: x 1, x 2,..., x n. ˆ Pe baza acestor masuratori putem calcula media si deviatia standard: x = 1 n x i si s = 1 n (x i x) n n 1 2. ˆ Calculam statistica t 0 = x µ 0 s n. (7.1) ˆ Decizia se ia astfel: dac t 0 < t 1 α 2 ; n 1, atunci admitem (H 0 ). dac t 0 t 1 α 2 ; n 1, atunci respingem (H 0 ). Observaµia 7.1. Regiunea critic este complementara intervalului de încredere. Decizia se ia astfel: ˆ dac t 0 = x µ 0 s n ˆ dac t 0 = x µ 0 s n ( t 1 α 2 ; n 1, t 1 α 2 ; n 1 ) (echivalent, t 0 U), atunci admitem (H 0 ). ( t 1 α 2 ; n 1, t 1 α 2 ; n 1 ) (echivalent, t 0 U), atunci respingem (H 0 ). Metoda a II-a: O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul P valorii, P v. Reamintim, P valoarea este probabilitatea de a obµine un rezultat cel puµin la fel de extrem ca cel observat, presupunând c ipoteza nul este adev rat. Aceasta valoare este asata de orice soft statistic folosit in testarea ipotezelor. Daca S este statistica test, atunci P v = P ( S > s 0 ) = P (S > s 0 ) + P (S < s 0 ), (7.2)

64 CSA 4 [Dr. Iulian Stoleriu] 63 unde S este statistica folosit în testare ³i s 0 este valoarea acestei statistici pentru selecµia dat (respectiv, selecµiile date, în cazul test rii cu dou selecµii). Pentru testul unilateral stânga, P valoarea se poate calcula dup formula: iar pentru testul unilateral dreapta, P valoarea este dat de: P v = P (S < s 0 ), (7.3) P v = P (S > s 0 ), (7.4) Utilizând P valoarea, testarea se face astfel: Ipoteza nul va respins dac P v < α ³i va admis dac P v α. A³adar, cu cât P v este mai mic, cu atât mai multe dovezi de respingere a ipotezei nule. Test pentru dispersie Pentru variabila X ca mai sus dorim sa testam ipoteza: (H 0 ) : σ 2 = σ 2 0 vs. ipoteza alternativ (H 1 ) : σ 2 σ 2 0, cu probabilitatea de risc α. Etapele testului sunt urmatoarele: ˆ Obtinem o multime de masuratori asupra variabilei X: x 1, x 2,..., x n. ˆ Pe baza acestor masuratori putem calcula media si deviatia standard: x = 1 n x i si s = 1 n (x i x) n n 1 2. ˆ Calculam statistica χ 2 0 = n 1 σ 2 s 2, (7.5) ˆ Luarea deciziei se face astfel: ( ) dac χ 2 0 χ 2 α 2 ; n 1, χ2 1 α 2 ; n 1, atunci admitem (H 0 ) (i.e., σ 2 = σ0 2); ( ) dac χ 2 0 χ 2 α 2 ; n 1, χ2 1 α 2 ; n 1, atunci respingem (H 0 ) (i.e., σ 2 σ0 2). Observaµia 7.2. Decizia testului putea luat ³i pe baza P valorii. Valoarea ei pentru testul unilateral stânga (resp., dreapta) este P v = P (χ 2 < χ 2 0) (resp., P v = P (χ 2 > χ 2 0)). Pentru testul bilateral este dublul celei mai mic valori dintre cele dou de mai sus.

65 CSA 4 [Dr. Iulian Stoleriu] 64 Test pentru proporµie într-o populaµie binomial Fie X o caracteristic binomial a unei colectivit µi, cu probabilitatea de succes p. Pe baza unor selecµii ale populaµiei, dorim s test m urm toarea ipotez asupra lui p: (H 0 ) : p = p 0 vs. (H 1 ) : p p 0. De asemenea, putem considera ³i ipoteze alternative unilaterale: (H 1 ) s : p < p 0 sau (H 1 ) d : p > p 0. Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaµiei (N) este mult mai mare posibil innit) decât volumul n al selecµiilor considerate. Fix m un nivel de semnicaµie α. Vom construi testul pentru proporµia populaµiei pe baza intervalului de încredere (5.12). Etapele testului sunt: ˆ Pe baza selecµiei, calcul m proporµia de selecµie p, care este o estimare a proporµiei populaµiei, p; ˆ Calcul m valoarea p p 0 P 0 = ; p0 (1 p 0 ) ˆ Calcul m cuantila z 1 α 2 ; ˆ Dac n P 0 ( z 1 α 2, z 1 α 2 ), atunci admitem ipoteza nul la acest nivel de semnicaµie. Altfel, o respingem. Regiunea critic este complementara intervalului de încredere.

66 LSA 4 [Dr. Iulian Stoleriu] 65 8 Statistică Aplicată (L4) Teste statistice Exerciµiu 8.1. Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma sondajului sunt grupate in Tabelul 8.1. Dorim s test m, la nivelul de semnicaµie α = 0.05, dac media tuturor notelor la teza de Matematic a elevilor din oras este µ = 6.5. Soluµie: A³adar, avem de testat nota frecv Tabela 8.1: Tabel cu notele la teza (H 0 ) µ = 6.5 vs. (H 1 ) µ 6.5. Media si deviatia standard a notelor din tabel sunt: x = , s = Valoarea statisticii t 0 si pragul teoretic de referinta (cuantila) sunt: t 0 = x µ 0 s = , t 1 α 2 ; n 1 = t 0.975; 89 = n Deoarece t 0 < t 0.975; 89, luam decizia ca ipoteza (H 0 ) este admisa la acest nivel de semnicatie. Metoda a II-a: Decizia testului putea luat ³i pe baza P valorii. Aceasta poate calculata de un soft statistic, valoarea ei ind P v = P ( T > t 0 ) = , care este mai mare decat valoarea lui α. Astfel, ipoteza nula este admisa in acest caz. Testul t pentru o selecµie în Matlab Testul t poate simulat în Matlab utilizând comanda general unde: [h, p, ci, stats] = ttest(x,m0,alpha,tail) ˆ h este rezultatul testului. Dac h = 1, atunci ipoteza nul se respinge, dac h = 0, atunci ipoteza nul nu poate respins pe baza observaµiilor facute (adic, se admite, pân la un test mai puternic); ˆ p este valoarea P (P value); ˆ ci este un interval de încredere pentru µ, la nivelul de semnicaµie α; ˆ m0 = µ 0, valoarea testat ; ˆ alpha este nivelul de semnicaµie; ˆ tail poate unul dintre urm toarele ³iruri de caractere:

67 LSA 4 [Dr. Iulian Stoleriu] 66 'both', pentru un test bilateral (poate s nu e specicat, se subînµelege implicit); 'left', pentru un test unilateral stânga (µ < µ 0 ); 'right', pentru un test unilateral dreapta (µ > µ 0 ); ˆ variabila stats înmagazineaz urm toarele date: tstat - este valoarea statisticii T pentru observaµia considerat ; df - num rul gradelor de libertate ale testului; sd - deviaµia standard de selecµie; Pentru exercitiul 8.1, codul Matlab este: n = 90; alpha = 0.05; m0 = 6.5; x=2:10; f=[ ]; xbar = x*f'/n; s = sqrt(sum(f.*(x-xbar).^2)/(n-1)); t0 = (xbar-m0)/(s/sqrt(n)); t = tinv(1-alpha/2,n-1); if (abs(t0)< t); disp('(h0)') else disp('(h1)') end Sau, folosind functia ttest: n = 90; alpha = 0.05; m0 = 6.5; X = [2*ones(1,2), 3*ones(1,4), 4*ones(1,8), 5*ones(1,15), 6*ones(1,18),... 7*ones(1,17), 8*ones(1,15), 9*ones(1,7), 10*ones(1,4)]; [h, p, ci, stats] = ttest(x,m0,alpha,'both')"} aseaza: h = p = ci = stats = tstat: df: 89 sd: Exerciµiu 8.2. Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (în mm) produse de un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecµie de piese de volum n = 11 ³i obµinem distribuµia empiric : ( ).

68 LSA 4 [Dr. Iulian Stoleriu] 67 S se testeze (cu α = 0.1) ipoteza nul (H 0 ) : σ 2 = 0.003, versus ipoteza alternativ (H 1 ) : σ Soluµie: Calculam mai intai s 2 si apoi valoarea statisticii test. Obtinem s 2 = si, astfel, χ 2 0 = = Cuantilele sunt: χ 2 α 2 ; n 1 = ; χ2 1 α ; n 1 = Astfel, intervalul teoretic de referinta este ( ) χ 2 0 χ 2 α 2 ; n 1, χ2 1 α 2 ; n 1 = (3.9403, ). Cum valoarea χ 2 0 = se aa in acest interval, tragem concluzia ca ipoteza nula nu poate respinsa. (o acceptam). Metoda a II-a: Decizia testului putea luat ³i pe baza P valorii. Deoarece P (χ 2 < ) = ³i P (χ 2 > ) = , valoarea ei pentru testul bilateral este P v = 2P (χ 2 < χ 2 0) = 2 chi2cdf(7.2727,10) = , care este mai mare decat valoarea lui α. Astfel, ipoteza nula este admisa in acest caz. Test pentru dispersie în Matlab Testul pentru dispersie (varianµ ) poate simulat în Matlab utilizând comanda unde: [h, p, ci, stats] = vartest(x,var,alpha,tail) ˆ h, p, ci, m0, alpha, stats, tail sunt la fel ca în funcµia ttest; ˆ var este valoarea testat a dispersiei; Pentru exercitiul 8.2, codul Matlab este alpha = 0.1; n = 11; sig0 = 0.003; x = [ ]; f = [ ]; xbar = x*f'/n; s2 = sum(f.*(x-xbar).^2)/(n-1); c0 = (n-1)*s2/sig0; c1 = chi2inv(alpha/2,n-1); c2 = chi2inv(1-alpha/2,n-1); if (c1 < c0 & c0 < c2); disp('(h0)') else disp('(h1)') end

69 LSA 4 [Dr. Iulian Stoleriu] 68 Sau, folosind functia vartest: n = 11; alpha = 0.1; sig0 = 0.003; X = [10.5*ones(1,2), 10.55*ones(1,3), 10.6*ones(1,5), 10.65]; [h, p, ci, stats] = vartest(x,sig0,alpha,'both') aseaza: h = p = ci = stats = tstat: df: 10

70 LSA 4 [Dr. Iulian Stoleriu] 69 Exerciµii propuse Exerciµiu 8.3. În clasa a-ix-a a unui liceu sunt 160 de elevi. Reprezentarea stem&leaf de mai jos conµine punctajele a 40 dintre ace³tia, obµinute la testul iniµial de Matematic (punctajul maxim este 100 de puncte). (1) Calculaµi media, dispersia ³i modul pentru selecµia dat. (2) Estimaµi printr-un interval de încredere punctajul mediu la Matematic pentru elevii din acea ³coal (α = 0.06). (3) Estimaµi printr-un interval de încredere procentul elevilor din ³coal care au obµinut mai puµin de 50 de puncte la testul iniµial la Matematic (α = 0.06). (4) Testaµi ipoteza c 18% dintre elevii din acea ³coal au punctaje sub 50 (α = 0.06). stem leaf Exerciµiu 8.4. Tabelul al turat conµine repartiµia pe grupe de vârst ³i gen a unei selecµii aleatoare de 385 de ³omeri dintr-o anumit regiune a µ rii. [1] Calculaµi vârsta medie si deviaµia standard pentru selecµia dat. [2] Estimaµi printr-un interval de încredere vârsta medie a ³omerilor din acea regiune (α = 0.04). [3] Testaµi ipoteza c vârsta medie a ³omerilor este 42 de ani (α = 0.04). [4] Testaµi ipoteza c vârsta ³omerilor este o variabil aleatoare normal (α = 0.04). vârsta frecvenµa [18, 25) 34 [25, 35) 76 [35, 45) 124 [45, 55) 87 [55, 65) 64 Exerciµiu 8.5. Caracteristica X reprezint cheltuielile lunare pentru convorbirile telefonice ale unei familii. În urma unui sondaj la care au participat 100 de familii, am obµinut datele (repartiµia de frecvenµe): ( ) [50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300) (a) S se verice, cu nivelul de semnicaµie α = 0.02, ipoteza c media acestor cheltuieli lunare pentru o singur familie este de 140 RON, ³tiind c abaterea standard este 35 RON. (b) S se verice aceea³i ipotez, în cazul în care abaterea standard nu este cunoscut a priori. Exerciµiu 8.6. La un examen naµional, se contabilizeaz nota x obµinut de ecare examinat în parte. Pentru o analiza statistic, se aleg la întâmplare 200 de candidaµi. S-a g sit c suma notelor alese este x i = ³i suma p tratelor acestor note este x 2 i = Se cer: (a) G siµi un interval de încredere pentru media µ a tuturor notelor participanµilor la examen, la nivelul de semnicaµie α = (b) Testaµi ipoteza nul (H 0 ) : µ = 6.75, vs. ipoteza alternativ (H 1 ) : µ 6.75, la nivelul α = Argumentaµi statistica folosit în testare. Exerciµiu 8.7. Un patron susµine c rma sa nu face discriminare sexual la angajare (i.e., atât b rbaµii, cât ³i femeile au aceea³i ³ans de a se angaja în respectiva rm ). Se aleg 500 de angajaµi ³i se g sesc 267 de b rbaµi. Testaµi la nivelul de semnicaµie 0.05 dac patronul rmei spune adev rul sau nu.

71 LSA 4 [Dr. Iulian Stoleriu] 70 Exerciµiu 8.8. Dintre toate înregistr rile vitezelor vehiculelor ce trec prin dreptul radarului x a³ezat în faµa universit µii, se aleg 10 date la întâmplare. Acestea sunt (în km/h): Presupunem c selecµia face parte dintr-o populaµie normal. (a) G siµi un interval de încredere cu încrederea de 98% pentru viteza medie a vehiculelor ce trec prin dreptul radarului. (b) Testaµi dac viteza medie cu care se circul prin faµa acestui radar este de 45km/h sau nu, considerânduse un nivel de semnicaµie α = 0.02 ; (c) Estimaµi probabilitatea ca viteza legal de 50km/h s fost dep ³it, folosind datele selecµiei considerate. Exerciµiu 8.9. Informaµiile din tabelul de mai jos sunt date despre dou selecµii independente ce au fost extrase din dou populaµii statistice. Selecµia Volumul selecµiei media de selecµie deviaµia standard de selecµie Se cer: (a) Estimaµi punctual ³i printr-un interval de încredere (α = 0.01) valoarea µ 1 µ 2 ; (b) Testaµi (α = 0.01) ipoteza (H 0 ) : µ 1 = µ 2 vs. (H 1 ) : µ 1 µ 2 Exerciµiu O selecµie de 700 de salarii pe or din România arat c media salariului pe or este x = 11.42RON ³i s = 9.3. Putem decide, pe baza acestui sondaj, c media salariului pe or este, de fapt, µ > 9.78RON, valoare stabilit de guvernul român? Se va folosi α = 0.05.

72 CSA 5 [Dr. Iulian Stoleriu] 71 Statistică Aplicată (C5) 9 Teste parametrice (continuare) (C5) Teste parametrice pentru dou populaµii Vom discuta mai jost 3 teste statistice: testul t pentru diferenta mediilor, testul pentru egalitatea a dou varianµe si testul pentru egalitatea a dou proporµii. Fie X 1 ³i X 2 caracteristicile (independente) a dou populaµii normale, N (µ 1, σ 1 ), respectiv, N (µ 2, σ 2 ), pentru care nu se cunosc mediile teoretice. Alegem din prima populaµie o selecµie repetat de volum n 1, x 1 = {x 1 1, x 1 2,..., x 1 n1 }, ce urmeaz repartiµia lui X 1, iar din a dou populaµie alegem o selecµie repetat de volum n 2, x 2 = {x 2 1, x 2 2,..., x 2 n2 }, ce urmeaz repartiµia lui X 2. Fie (X 1i ), n1 ³i (X 2j ) j=1, n2 aleatoare de selecµie corespunz toare ec rei selecµii. Fix m pragul de semnicaµie α. Testul t pentru diferenµa mediilor a dou selecµii Testul t pentru diferenµa mediilor se folose³te pentru selecµii normale independente de volum mic (n < 30), atunci când dispersiile populaµiilor considerate sunt necunoscute a priori. Dorim s test m ipoteza nul c mediile sunt egale (H 0 ) : µ 1 = µ 2 vs. ipoteza alternativ (H 1 ) : µ 1 µ 2. Pentru testul t pentru diferenµa mediilor distingem doua cazuri: (1) σ 1 σ 2 sunt necunoscute; (2) σ 1 = σ 2 ³i sunt necunoscute. Etapele testul t pentru diferenµa mediilor (1) Se dau: {x 1 1, x 1 2,..., x 1 n1 }, {x 2 1, x 2 2,..., x 2 n2 } (date normale), µ 0, α; (2) Calculam x 1, x 2, s 1 si s 2 dupa formulele uzuale; (3) Determin m valoarea t 1 α 2 ; m (unde m = N, dac σ 1 σ 2 sau m = n 1 + n 2 2, dac σ 1 = σ 2 ) astfel încât funcµia de repartiµie pentru repartiµia Student t(m), F m ( t1 α 2 ; m ) = 1 α 2. Aici, N = ( s s2 2 n 1 n 2 ( ) s 2 2 ( 1 1 s 2 n n 1 ) 2 n 2 ) 2 1 n (4) Calculez valoarea x 1 x 2, dac σ 1 σ 2 s s2 2 t 0 = n 1 n 2 x 1 x 2 n1 + n 2 2 (n1 1)s (n 2 1)s n 1 + 1, dac σ 1 = σ 2 n 2

73 CSA 5 [Dr. Iulian Stoleriu] 72 (5) Dac : (i) (ii) t 0 < t 1 α 2 ; m, atunci µ 1 = µ 2 ; t 0 t 1 α 2 ; m, atunci µ 1 µ 2. Observaµia 9.1. (1) În practic, nu putem ³ti a priori dac dispersiile teoretice a celor dou populaµii ce urmeaz a testate sunt egale sau nu. De aceea, pentru a ³ti ce test s folosim, va trebui s test m mai întâi ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s utiliz m un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide ce varianta folosim în testarea egalit µii mediilor. (2) Testul t pentru dou selecµii, bilateral sau unilateral, poate aplicat cu succes ³i pentru populaµii non-normale, dac volumele selecµiilor observate sunt n 1 30, n (3) Pentru testul t, P valoarea se poate calcula dup urm toarele formule: P v = P ( T > t 0 ) = 1 F m ( t 0 ) + F m ( t 0 ) (pentru testul T bilateral); (9.1) P v = P (T < t 0 ) = F m (t 0 ) (pentru testul T unilateral stânga); (9.2) P v = P (T > t 0 ) = 1 F m (t 0 ) (pentru testul T unilateral dreapta). (9.3) unde m = N sau m = n 1 + n 2 2, dup caz. Testul F pentru raportul a dou dispersii Dorim s test m ipoteza nul c dispersiile teoretice σ 1 si σ 2 sunt egale vs. ipoteza alternativ Calculam statistica: (H 0 ) : σ 2 1 = σ 2 2 (H 1 ) : σ 2 1 σ 2 2. f 0 = σ2 2 σ 2 1 s 2 1 s 2 2. (9.4) Calculam cuantilele pentru repartitia Fisher cu (n 1 1, n 2 1) grade de libertate: Regula de decizie este: ˆ dac f 0 ˆ dac f 0 f α 2 ; n 1 1, n 2 1 si f 1 α 2 ; n 1 1, n 2 1. ( ) f α 2 ; n 1 1, n 2 1, f 1 α 2 ; n 1 1, n 2 1, atunci admitem (H 0 ) (i.e., σ 1 = σ 2 ); ( f α 2 ; n 1 1, n 2 1, f 1 α 2 ; n 1 1, n 2 1 ), atunci respingem (H 0 ) (i.e., σ 1 σ 2 ). Testul pentru egalitatea a dou proporµii Fie X 1 ³i X 2 dou caracteristici binomiale independente ale unei populaµii, cu volumele ³i probabilit µile de succes n 1, p 1 ³i, respectiv, n 2, p 2. Pe baza unor selecµii, dorim s test m ipotezele: (H 0 ) : p 1 = p 2 vs. (H 1 ) : p 1 p 2.

74 CSA 5 [Dr. Iulian Stoleriu] 73 De asemenea, putem considera ³i ipoteze alternative unilaterale: (H 1 ) s : p 1 < p 2 sau (H 1 ) d : p 1 > p 2. Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c volumul populaµiei (N) este mult mai mare (posibil innit) decât volumele selecµiilor considerate. Fix m un nivel de semnicaµie α. Dac ipoteza nul este admis, atunci p 1 = p 2 = p. Un estimator pentru p este frecvenµa relativ a num rului de succese cumulate în cele dou selecµii, i.e., Etapele testului sunt: p = n 1 p 1 + n 2 p 2 n 1 + n 2. ˆ Calcul m proporµiile de selecµie p 1 ³i p 2, care sunt estim ri pentru p 1, respectiv, p 2 ; ˆ Calcul m valoarea P 0 = p 1 p 2 ( ) ; p (1 p ) n1 n2 ˆ Calcul m cuantila z 1 α 2 ; ˆ Dac P 0 ( ) z 1 α, z 1 α, 2 2 atunci admitem ipoteza nul la acest nivel de semnicaµie. Altfel, o respingem. Regiunea critic este complementara intervalului de încredere. Teste de concordanµ În general, testele de concordanµ (en., goodness-of-t tests) realizeaz concordanµa între repartiµia empiric (repartiµia datelor observate) ³i o repartiµie teoretic sau testeaz dac dou seturi de date observate provin dintr-o aceea³i repartiµie. Dou dintre cele mai des utilizate teste de concordanµ sunt: ˆ testul χ 2 de concordanµ (pentru a testa concordanµa între repartiµia datelor obsevate ³i o repartiµie teoretic dat ) ˆ ³i testul Kolmogorov-Smirnov (pentru a testa a testa concordanµa între repartiµia datelor obsevate ³i o repartiµie teoretic dat (one-sample test) sau pentru a testa dac dou seturi de date observate provin dintr-o aceea³i repartiµie (two-sample test). Testul χ 2 de concordanµ Acest test de concordanµ poate utilizat ca un criteriu de vericare a ipotezei potrivit c reia un ansamblu de observaµii urmeaz o repartiµie dat. Se aplic la vericarea normalit µii, a exponenµialit µii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit ³i testul χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of t test). Acest test poate aplicat pentru orice tip

75 CSA 5 [Dr. Iulian Stoleriu] 74 de date pentru care funcµia de repartiµie empiric poate calculat. Cazul neparametric S consider m o caracteristic X a unei populaµii statistice Ω. Repartiµia variabilei aleatoare X este necunoscut a priori, îns intuim (sau avem anumite informaµii) cum c aceasta ar dat de legea de probabilitate complet specicat f(x, θ) (e.g., f(x) = e 2 2 x x!, x N ( X P(2) ) sau f(x) = 1 3 e (x 5) 2 2 π 18 ( X N (5, 3) )). Deoarece legea de probabilitate ipotetic este complet specicat, θ este cunoscut ³i vom omite s mai punem în evidenµ dependenµa lui f de acesta în decursul aceste secµiuni. Pentru a verica ipoteza f cut asupra repartiµiei lui X, consider m un set de observaµii asupra lui X ³i test m concordanµa dintre repartiµia empiric a datelor observate cu legea teoretic dat de f(x). Fie x 1, x 2,..., x n setul de date observate. S not m cu F (x) funcµia de repartiµie teoretic, i.e., F = f. În cele ce urmeaz, urm rim s aplic m testul χ 2 de concordanµ, ale c rui etape sunt: ˆ Descompunem în clase mulµimea observaµiilor f cute asupra lui X, astfel încât ecare element al mulµimii aparµine unei singure clase. Scriem a³adar, {x 1, x 2,..., x n } = k O i, O i Oj =, i j. Determin m frecvenµele empirice absolute, i.e., numerele n i de observaµii ce aparµin ec rei clase k O i. În mod evident, va trebui s avem c n i = n. În general, se dore³te ca n 30 ³i n i 5, pentru ca testul s e concludent. În cazul în care num rul de apariµii într-o anumit clas nu dep ³e³te valoarea 5, atunci se vor cumula dou sau mai multe clase, astfel încât în noua clas s e respectat condiµia. De³i, dac avem cel puµin 5 clase, atunci sunt suciente cel puµin 3 valori în ecare clas. În ambele cazuri, trebuie µinut cont de modicarea num rului de clase, iar num rul k trebuie modicat corespunz tor (îl înlocuim cu noul num r, notat aici tot cu k). ˆ Pentru ecare i {1, 2,..., k}, determin m probabilitatea teoretic p i ca un element al populaµiei s se ae în clasa O i. Aceast probabilitate este obµinut cu ajutorul funcµiei f(x). Astfel, frecvenµele teoretice absolute sunt n p i, i {1, 2,..., k}. Altfel spus, n p i este num rul estimat de valori ale repartiµiei cercetate ce ar c dea în clasa O i. ˆ Formul m ipoteza nul, Aceasta este echivalent cu (H 0 ) : Funcµia de repartiµie a lui X este F (x). (H 0 ) : probabilitatea unei observaµii de a aparµine clasei O i este p i. (i = 1, 2,..., k). ˆ Ipoteza alternativ este negaµia ipotezei nule. ˆ Deviaµia între cele dou situaµii (empiric ³i teoretic ) este m surat de statistica χ 2 = k (n i n p i ) 2 n p i. (9.5)

76 CSA 5 [Dr. Iulian Stoleriu] 75 (Fiecare dintre termenii (n i n p i ) 2 poate privit ca ind o eroare relativ de aproximare a valorilor n p i a³teptate ale repartiµiei cu valorile observate.) Statistica χ 2 urmeaz repartiµia χ 2 (k 1). Uneori, statistica χ = χ 2 se nume³te discrepanµ. ˆ Alegem nivelul de semnicaµie α, de regul, foarte apropiat de zero. ˆ Alegem regiunea critic, ca ind regiunea pentru care valoarea χ 2 0 a acestei statistici pentru observaµiile date satisface χ 2 0 > χ 2 1 α; k 1, unde χ 2 1 α; k 1 este cuantila de ordin 1 α pentru repartiµia χ2 (k 1). ˆ Dac ne a m în regiunea critic, atunci datele observate sunt semnicativ diferite de datele a³teptate (calculate teoretic). În consecinµ, ipoteza nul (H 0 ) se respinge la nivelul de semnicaµie α. Altfel, nu sunt dovezi statistice suciente s se resping. Cazul parametric Când probabilit µile teoretice p i nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare atunci când legea de probabilitate f(x, θ) nu este complet specicat, ci doar specicat (³tim forma lui f, dar nu ³tim unul sau, eventual, mai mulµi parametri ai s i). Folosind datele observate, va trebui s estim m parametrii necunoscuµi ai repartiµiei ipotetice. Fiecare estimare ne va costa un grad de libertate. Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru doi parametri, pierdem dou grade etc. S presupunem c legea de probabilitate a lui X de mai sus este f(x, θ), unde θ = (θ 1, θ 2,..., θ p ) Θ R p sunt parametri necunoscuµi. Pentru a aproxima ace³ti parametri, folosim observaµiile culese asupra lui X. O metod la îndemân pentru estim ri parametrice este metoda verosimilit µii maxime. Dup ce am estimat parametrii repartiµiei teoretice ipotetice, determin m probabilit µile estimate. Stabilim apoi ipoteza nul : (H 0 ) : p i = ˆp i, (i = 1, 2,..., k), unde p i este probabilitatea unei observaµii de a aparµine clasei i ³i ˆp i sunt valorile estimate. Din acest moment, etapele testului χ 2 cazul parametric sunt asem n toare cu cele din cazul neparametric, cu deosebirea c statistica χ 2 dat prin (9.5) urmeaz repartiµia χ 2 cu (k p 1) grade de libertate. Aceasta este urmare a faptului c se pierd p grade de libertate din cauza folosirii observaµiilor date pentru estimarea celor p parametri necunoscuµi. Etapele aplic rii testului χ 2 de concordanµ (neparametric sau parametric) ˆ Se dau: α, x 1, x 2,..., x n. Intuim F (x; θ 1, θ 2,..., θ p ); ˆ Formul m ipotezele statistice: (H 0 ) funcµia de repartiµie teoretic a variabilei aleatoare X este F (x; θ 1, θ 2,..., θ p ) (H 1 ) ipoteza nul nu este adev rat. ˆ Dac θ 1, θ 2,..., θ k (k p) nu sunt parametri cunoscuµi, atunci determin m estim rile de verosimilitate maxim ˆθ 1, ˆθ 2,..., ˆθ k pentru ace³tia (doar în cazul parametric; altfel s rim peste acest pas);

77 CSA 5 [Dr. Iulian Stoleriu] 76 ˆ Scriem distribuµia empiric de selecµie (tabloul de frecvenµe), ( ) clasa Oi n i, n, n n i = n, n i 5; ˆ Se calculeaz probabilitatea p i, ca un element luat la întâmplare s se ae în clasa O i. Dac O i = [a i 1, a i ), atunci p i = F (a i ; θ) F (a i 1 ; θ), în cazul neparametric; p i = F (a i ; ˆθ) F (ai 1 ; ˆθ), în cazul parametric. ˆ Se calculeaz χ 2 0 = k (n i n p i ) 2 n p i ; ˆ Determin m valoarea χ, care este χ = { χ 2 1 α; k 1 χ 2 1 α; k p 1, în cazul neparametric,, în cazul parametric, unde χ 2 α; n este cuantila de ordin α pentru repartiµia χ2 (n); ˆ Dac χ 2 0 < χ, atunci accept m (H 0 ), altfel o respingem. Testul de concordanµ Kolmogorov-Smirnov Testul de concordanµ Kolmogorov-Smirnov poate utilizat în compararea unor observaµii date cu o repartiµie cunoscut (testul K-S cu o selecµie) sau în compararea a dou selecµii (testul K-S pentru dou selecµii). Spre deosebire de criteriul χ 2 al lui Pearson, care folose³te densitatea de repartiµie, criteriul Kolmogorov-Smirnov utilizeaz funcµia de repartiµie empiric, F n(x). În cazul unei singure selecµii, este calculat distanµa dintre funcµia de repartiµie empiric a selecµiei ³i funcµia de repartiµie teoretica pentru repartiµia testat, iar pentru dou selecµii este m surat distanµa între dou funcµii empirice de repartiµie. În ecare caz, repartiµiile considerate în ipoteza nul sunt repartiµii de tip continuu. Testul Kolmogorov- Smirnov este bazat pe rezultatul teoremei urmatoare: Teorema 9.2. (Kolmogorov) Fie caracteristica X de tip continuu, care are funcµia de repartiµie teoretic F ³i e funcµia de repartiµie de selecµie Fn. Atunci, distanta d n = sup Fn(x) F (x) satisface relatia: x R lim n P ( n d n < x) = K(x) = k= ( 1) k e 2 k2 x 2, x > 0. (9.6) Testul K-S pentru o selecµie În cazul în care ipotezele testului sunt satisf cute, acest test este mai puternic decât testul χ 2. Avem un set de date statistice independente, pe care le ordon m crescator, x 1 < x 2 < < x n. Aceste observaµii independente provin din aceea³i populaµie caracterizat de variabila aleatoare X, pentru care urm rim s îi stabilim repartiµia. Mai întâi, caut m s stabilim ipoteza nul. De exemplu, dac intuim c funcµia de repartiµie teoretic a lui X ar F (x), atunci stabilim: (H 0 ) : funcµia de repartiµie teoretic a variabilei aleatoare X este F (x).

78 CSA 5 [Dr. Iulian Stoleriu] 77 Ipoteza alternativ (H 1 ) este, de regul, ipoteza ce arm c (H 0 ) nu este adev rat. Alegem un nivel de semnicaµie α 1. În criteriul K-S pentru o singur selecµie, se compar funcµia F (x) intuit a priori cu funcµia de repartiµie empiric, Fn(x). Reamintim, Fn(x) = card{i; x i x}. n Studiind funcµia empiric de repartiµie a acestui set de date, Kolmogorov a g sit c distanµa d n = Fn(x) F (x) satisface relaµia (9.6), unde K(λ), λ > 0, este funcµia lui Kolmogorov (tabelat ). În sup x R testul K-S, m sura d n caracterizeaz concordanµa dintre F (x) ³i F n(x). Dac ipoteza (H 0 ) este adev rat, atunci diferenµele d n nu vor dep ³i anumite valori. Etapele aplic rii testului Kolmogorov-Smirnov pentru o selecµie: ˆ Se dau α ³i x 1 < x 2 < < x n. Consider m cunoscut (intuim) F (x); ˆ Ipotezele statistice sunt: (H 0 ) funcµia de repartiµie teoretic a variabilei aleatoare X este F (x) (H 1 ) ipoteza nul nu este adev rat. ˆ Calcul m λ 1 α, cuantila de ordin 1 α pentru funcµia lui Kolmogorov. Aceasta cuuantila verica relatia K(λ 1 α ) = 1 α. ˆ Se calculeaz d n = max F n(x) F (x) ; x ˆ Dac d n satisface inegalitatea n d n < λ 1 α, atunci admitem ipoteza (H 0 ), altfel o respingem. Testul K-S pentru dou selecµii În cazul în care avem de comparat dou repartiµii, proced m astfel. S presupunem c F m(x) este funcµia de repartiµie empiric pentru o selecµie de volum m dintr-o populaµie ce are funcµia teoretic de repartiµie F (x) ³i c G n(x) este funcµia de repartiµie empiric pentru o selecµie de volum n dintr-o populaµie ce are funcµia teoretic de repartiµie G(x). Dorim s test m (H 0 ) : F = G versus (H 1 ) : F G. (eventual, în (H 1 ) putem considera F > G sau F < G.) Consider m statistica d m,n = sup Fm(x) G n(x), x ce reprezint diferenµa maxim între cele dou funcµii. Etapele testului urmeaz îndeaproape pe cele din testul K-S cu o singur selecµie. Decizia se face pe baza criteriului m n m + n d m,n < q α. Testul Kolmogorov-Smirnov pentru dou selecµii este unul dintre cele mai utile teste de contingenµ pentru compararea a dou selecµii. Acest test nu poate specica natura celor dou repartiµii.

79 CSA 5 [Dr. Iulian Stoleriu] 78 Etapele aplic rii testului Kolmogorov-Smirnov pentru dou selecµii: ˆ Se dau α, x 1 < x 2 < < x m ³i y 1 < y 2 < < y n. Consider m cunoscute (intuim) F (x) ³i G(x); ˆ Ipotezele statistice sunt: (H 0 ) F = G vs. (H 1 ) F G. ˆ Determinam pragul teoretic q α corespunzator valorii α din tabelul urmator: ˆ Se calculeaz d m,n = sup Fm(x) G n(x). x α q α ˆ Dac d m,n satisface inegalitatea m n m+n d m,n < q α, atunci admitem ipoteza (H 0 ), altfel ipoteza nul este respins la acest prag de semnicaµie. Observaµia 9.3. Pentru ipoteza alternativ F > G (sau F < G), se va considera statistica d m,n = sup[fm(x) G n(x)] (respectiv, d m,n = sup[g n(x) Fm(x)]). x x

80 LSA 5 [Dr. Iulian Stoleriu] Statistică Aplicată (L5) Testarea tipului de date experimentale Pentru a putea efectua un test statistic în mod corect, este necesar s ³tim care este tipul (tipurile) de date pe care le avem la dispoziµie. Pentru anumite teste statistice (e.g., testul Z sau testul t, datele testate trebuie s e normal distribuite ³i independente. De multe ori, chiar ³i ipoteza ca datele s e normal repartizate trebuie vericat. De aceea, se pune problema realiz rii unei leg turi între funcµia de repartiµia empiric ³i cea teoretic (teste de concordanµ ). Vom discuta mai pe larg aceste teste de concordanµ într-o secµiune urm toare. În Matlab sunt deja implementate unele funcµii ce testeaz dac datele sunt normal repartizate. Funcµia normplot(x) reprezint grac datele din vectorul X versus o repartiµie normal. Scopul acestei funcµii este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiµie normal, atunci acest grac va liniar, dac nu, atunci va un grac curbat. De exemplu, s reprezent m cu normplot vectorii X ³i Y de mai jos. Gracele sunt cele din Figura X = normrnd(100,2,200,1); subplot(1,2,1); normplot(x) Y = exprnd(5,200,1); subplot(1,2,2); normplot(y) Figura 10.1: Reprezentarea normal a datelor. Observ m c primul grac este aproape liniar, pe când al doilea nu este. Putem astfel s concluzion m c datele date de X sunt normal repartizate (fapt conrmat ³i de modul cum le-am generat), iar datele din Y nu sunt normal repartizate. Funcµia chi2gof determin, în urma unui test χ 2, dac datele observate sunt normal repartizate, la un nivel de semnicaµie α = Astfel, comanda h = chi2gof(x)

81 LSA 5 [Dr. Iulian Stoleriu] 80 ne va furniza rezultatul h = 1, dac datele nu sunt normal repartizate (i.e., ipoteza alternativ (H 1 ) este admis ), sau h = 0, dac nu putem respinge ipoteza c datele observate sunt normal distribuite (i.e., ipoteza nul (H 0 ) este admis ). Aplicând testul pentru X ³i Y de mai sus, obµinem h = 0, respectiv, h = 1. De asemenea, putem verica dac datele statistice ar putea proveni ³i din alte repartiµii decât cea normal. De exemplu, funcµia probplot(distribution,y) creaz un grac ce compar repartiµia datelor din vectorul Y cu repartiµia dat de distribution. Printre repartiµiile ce pot comparate folosind aceast comand menµion m: 'normal', 'exponential', 'weibull' ³i 'lognormal'. Trebuie avut grij ca valorile vectorului Y s e pozitive pentru compararea cu oricare dintre ultimele trei repartiµii. Comanda simplicat este probplot(y), care presupune în mod implicit c distribution = 'normal'. O alt comand util este wblplot(y) care este echivalent cu comanda probplot(weibull,y). În continuare, prezent m un exemplu de utilizare a acestor comenzi. Figura 10.2, veric m dac ecare dintre cele dou selecµii generate, una exponenµial ³i cealalt normal, ar putea proveni dintr-o repartiµie exponenµial. x = exprnd(0.5, 250,1); % selectie exponentiala y = normrnd(3, 1, 250,1); % selectie normala probplot('exponential',[x y]) legend('selectie exponentiala','selectie normala','location','se') Figura 10.2: Reprezentarea exponenµial a datelor.

82 LSA 5 [Dr. Iulian Stoleriu] 81 Urm toarea funcµie Matlab compar un set de date cu o repartiµie precizat. Funcµia histfit(x, n, 'tip_repartitie') reprezint datele din vectorul X printr-o histogram ce are num rul de bare egal cu n. Dac opµiunea 'tip_repartitie' apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram se va desena densitatea de repartiµie a repartiµiei precizate (e.g., exponential, gamma, lognormal etc). În caz în care opµiunea nu apare, se consider implicit c repartiµia cu care se compar datele este cea normal. Exemplul de mai jos produce gracul din Figura X = binornd(1e3, 0.1, 1e4, 1); histfit(x, 100) Figura 10.3: Compararea prin histograme. Exerciµii rezolvate Exerciµiu Se arunc un zar de 60 de ori ³i se obµin rezultatele din Tabelul S se decid, la nivelul de semnicaµie α = 0.02, dac zarul este corect sau fals. Faµa (clasa O i ) Frecvenµa absolut (n i ) Tabela 10.1: Tabel cu num rul de puncte obµinute la aruncarea zarului. Soluµie: (aplic m testul χ 2 de concordanµ, cazul neparametric) Zarul este corect doar dac ecare faµ a sa are aceea³i ³ans de a aparea, adic probabilit µile ca ecare faµ în parte s apar sunt: (H 0 ) : p i = 1, (i = 1, 2,..., 6). 6

83 LSA 5 [Dr. Iulian Stoleriu] 82 Altfel, not m cu X variabila aleatoare ce are valori num rul punctelor ce apar la aruncarea zarului. Un zar corect ar însemna c X urmeaz repartiµia uniform discret U(6). Toate cele 60 de rezultate obµinute în urma arunc rii zarului pot împ rµite în ³ase clase. Aceste clase sunt: O i = {i}, i {1, 2,..., 6}. Ipoteza nul este (H 0 ) sau, echivalent, (H 0 ) : Funcµia de repartiµie a lui X este U(6). Ipoteza alternativ este "(H 0 ) nu are loc", adic : (H 1 ) : Exist un j, cu p j 1, (j {1, 2,..., 6}). 6 Calculez valoarea statisticii χ 2 pentru observaµiile date: χ 2 0 = (15 10) = (7 10) (4 10) (11 10) (6 10)2 10 Repartiµia statisticii χ 2 este χ 2 cu k 1 = 5 grade de libertate. Regiunea critic este: U = (χ ; 5; + ) = ( , + ). + (17 10)2 10 Deoarece χ 2 0 se a în regiunea critic, ipoteza nul se respinge la nivelul α = 0.02, a³adar zarul este m sluit. Codul Matlab: n = 60; k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); chi2 = sum((f-n*p).^2)./(n*p)); % valoarea χ 2 0 val = chi2inv(1-alpha,k-1); % cuantila χ ; 5 H = (chi2 > val) % afiseaza 0 daca zarul e corect si 1 daca nu Observaµia Dac nivelul de semnicaµie este ales α = 0.01, atunci χ ; 5 = , ceea ce determin acceptarea ipotezei nule (adic zarul este corect) la acest nivel. Teste de concordanµ în Matlab (1) Funcµia chi2gof(x) testeaz (folosind testul χ 2 al lui Pearson) dac vectorul x provine dintr-o repartiµie normal, cu media ³i dispersia estimate folosind x. În cazul în care datele sunt negrupate, atunci rezultatul testului de normalitate se obµine din [h,p,stats] = chi2gof(x) În cazul în care datele sunt grupate, deci au anumite perticularit µi observate, va trebui s µinem cont de aceste particularit µi. Aceasta se poate face apelând la forma general a funcµiei Matlab este: [h,p,stats] = chi2gof(x,name1,val1,name2,val2,...) unde: h, p sunt la fel ca în exemplele anterioare; perechile namei/valuei sunt opµionale. Variabilele namei pot : num rul de clase, 'nbins', un vector de valori centrale ale intervalelor ce denesc clasele, 'ctrs', sau un vector cu capetele claselor, 'edges'. Alte variabile ce pot utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'. variabila de memorie stats a³eaz : chi2stat - statistica χ 2, df - gradele de libertate, edges - un vector cu capetele intervalelor claselor dup triere, O - num rul de valori observate în ecare clas, E - num rul de valori a³teptate în ecare clas.

84 LSA 5 [Dr. Iulian Stoleriu] 83 Exerciµiu Spre exemplicare, revenim la Exerciµiul 10.1, dar cu valoarea nivelului de încredere din Observaµia Codul Matlab ce folose³te funcµia de mai sus este: x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01; [h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha) Acest cod returneaz : h = p = stats = chi2stat: df: 5 edges: [ ] O: [ ] E: [ ] Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul α = Exemplu La campionatul mondial de fotbal din 2006 au fost jucate în total 64 de meciuri, iar repartiµia num rului de goluri înscrise într-un meci are tabelul de distribuµie ca în Tabelul Determinaµi (la nivelul de semnicaµie α = 0.05) dac num rul de goluri pe meci urmeaz o distribuµie Poisson. Nr. de goluri pe meci Nr. de meciuri Tabela 10.2: Tabel cu num rul de goluri pe meci la FIFA WC Soluµie: (aplic m testul de concordanµ χ 2 parametric) Fie X variabila aleatoare ce reprezint num rul de goluri înscrise într-un meci. Teoretic, X poate lua orice valoare din mulµimea N. Mulµimea observaµiilor f cute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenµele respective din tabel. În total, au fost inscrise 144 de goluri. Estim m num rul de goluri pe meci prin media lor, adic ˆλ = x = = Pe baza datelor observate, dorim s test m dac X urmeaz o repartiµie Poisson. Avem astfel de testat ipoteza nul : vs. ipoteza alternativ (H 0 ) : X urmeaz o lege Poisson P(ˆλ). (H 1 ) : X nu urmeaz o lege Poisson P(ˆλ). Dac admitem ipoteza (H 0 ) (adic X P(2.25), atunci p i = p i (ˆλ) ³i distribuµia valorilor variabilei este dat de Tabelul Valoarea p i este P (X = i), adic probabilitatea ca variabila aleatoare X P(2.25) s ia valoarea i (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din Tabelul 10.3, anume {X = 5} ³i {X 6}, numerele n i nu dep ³e³c valoarea 3, le ³tergem din tabel ³i le unim într-o singur clas, în care {X 5}, cu n i = 4 > 3. Vom nota prin p 5 probabilitatea p 5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1 4 P (X = i). i=0

85 LSA 5 [Dr. Iulian Stoleriu] 84 (n i n p i ) 2 Clasa n i p i n p i n p i Tabela 10.3: Tablou de distribuµie pentru P(2.25). R mânem a³adar cu 6 clase. Ipoteza nul (H 0 ) se poate rescrie astfel: Ipoteza alternativ este (H 0 ) : p 0 = , p 1 = , p 2 = , p 3 = , p 4 = , p 5 = (H 1 ) : ipoteza (H 0 ) nu este adev rat. Calcul m acum valoarea statisticii χ 2 pentru observaµiile date: χ 2 0 = + ( )2 ( ) ( )2 ( ) ( ) = ( ) Deoarece avem 6 clase ³i am estimat parametrul λ, deducem c num rul gradelor de libertate este = 4. Cuantila de referinµ (valoarea critic ) este χ ; 4 = Regiunea critic pentru χ 2 este intervalul (χ ; 4, + ). Deoarece χ 2 0 < χ ; 4, urmeaz c ipoteza nul (H 0) nu poate respins la nivelul de semnicaµie α. A³adar, este rezonabil s arm m c num rul de goluri marcate urmeaz o repartiµie Poisson. Prezent m mai jos un cod Matlab ce rezolv aceast problem X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);... 5*ones(2,1);6*ones(2,1)]; f = [ ]; % vectorul de frecvente absolute n = 64; alpha = 0.05; lambda = mean(x); for :5 % probabilitatile P(X=i), i=0,1,2,3,4 p(i) = poisspdf(i-1,lambda); end p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X 5) H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4); if (H2 < Hstar) disp('x urmeaza repartitia Poisson'); else disp('x nu urmeaza repartitia Poisson'); end Eventual, putem folosi funcµia chi2gof. y = [ ]; [h, p, stats] = chi2gof(y,'ctrs', y,'frequency', f,'expected',e, 'alpha',alpha) Observaµia Dac ipoteza nul este respins, atunci motivul poate acela c unele valori observate au deviat prea mult de la valorile a³teptate. În acest caz, este interesant de observat care valori sunt

86 LSA 5 [Dr. Iulian Stoleriu] 85 extreme, cauzând respingerea ipotezei nule. Putem deni astfel reziduurile standardizate: r i = O i n p i n pi (1 p i ) = O i E i Ei (1 p i ), unde prin O i am notat valorile observate ³i prin E i valorile a³teptate. Dac ipoteza nul ar adev rat, atunci r i N (0, 1). În general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate extreme. Exemplu Într-o anumit zi de lucru, urm rim timpii de a³teptare într-o staµie de tramvai, pân la încheierea zilei de lucru (adic, pân trece ultimul tramvai). Fie T caracteristica ce reprezint num rul de minute a³teptate în staµie, pân sose³te tramvaiul. Rezultatele observaµiilor sunt sumarizate în Tabelul Se cere s se cerceteze (α = 0.05) dac timpii de a³teptare sunt repartizaµi exponenµial. Durata n i Tabela 10.4: Timpi de a³teptare în staµia de tramvai. Soluµie: (folosim testul χ 2 de concordanµ, parametric) Avem de testat ipoteza nul vs. ipoteza alternativ (H 0 ) F (x) = F 0 (x) = 1 e λ x, x > 0 (H 1 ) ipoteza (H 0 ) este fals. Deoarece parametrul λ este necunoscut, va trebui estimat pe baza selecµiei date. Pentru aceasta, folosim metoda verosimilit µii maxime. Funcµia de verosimilitate pentru exp(λ) este L(t 1, t 2,..., t n ; λ) = n λe λ t i = λ n e λ n t. Mai sus, am notat prin t 1, t 2,..., t n valorile de selecµie pentru variabila aleatoare T. Punctele critice pentru L(λ) sunt date de ecuaµia Se observ cu u³urinµ c ln L λ k=1 = 0 = ( ) 1 n ln λ λ n t = ˆλ = λ t. 2 ln L λ 2 λ=ˆλ = n t 2 < 0, de unde concluzion m c ˆλ este punct de maxim pentru funcµia de verosimilitate. Tabelul de distribuµie pentru caracteristica T este: ( ) Calcul m media de selecµie, t = ( ) = 7.7, adic ˆλ = Dac variabila T ar urma repartiµia exponenµial exp(ˆλ), atunci probabilit µile ca T s ia valori în ecare clas sunt, în mod corespunz tor: p i = p i (ˆλ) = P (X (a i, a i+1 ] F = F 0 ) = F 0 (a i+1 ; ˆλ) F 0 (a i ; ˆλ), i = 1, 2, 3, 4, 5. unde a 6 = +. În Tabelul 10.5 am înregistrat urm toarele date:

87 LSA 5 [Dr. Iulian Stoleriu] 86 ˆ clasele (de notat c ultima clas este (20, + ), deoarece se dore³te o concordanµ a datelor observate cu date repartizate exponenµial, iar mulµimea valorilor pentru repartiµia exponenµial este R + ), ˆ extremit µile din stânga ale claselor (a i ), ˆ frecvenµele absolute n i (sau valorile observate în ecare clas ), ˆ probabilit µile p i, valorile a³teptate în ecare clas (n p i ), ˆ erorile relative de aproximare ale datelor a³teptate cu cele observate. Num rul gradelor de libertate este k p 1 = 3. Calcul m valoarea critic χ ; 3 asemenea, valoarea k (n i n p i ) 2 H 0 = = n p i Deoarece χ 2 0 < χ2 0.95; 3, ipoteza (H 0) nu poate respins la acest nivel de semnicaµie. = ³i, de (n i n p i ) 2 Clasa a i n i p i n p i n p i (0, 5] (5, 10] (10, 15] (15, 20] (20, + ) (0, + ) Tabela 10.5: Tabel de distribuµie pentru timpii de a³teptare. Codul Matlab este urm torul: T = [2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)]; % sau % T = [5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)]; n = 100; alpha = 0.05; m = mean(t); lambda = 1/m; a = [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5]; for i =1:5 p(i) = expcdf(a(i+1),m)-expcdf(a(i),m); end H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3); if (H2 < cuant) disp('timpii de asteptare sunt exponential repartizati'); else disp('ipoteza (H0) se respinge'); end Exerciµiu (test de vericare a normalit µii) Consider m selecµia { 2; 0.5; 0; 1; 1; 2; 2; 3}, extras dintr-o anumit colectivitate. La nivelul de semnicaµie α = 0.1, s se decid dac populaµia din care provine selecµia este normal de medie 1 ³i dispersie 2 (i.e., X N (1, 2)).

88 LSA 5 [Dr. Iulian Stoleriu] 87 Soluµie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calcul m funcµia de repartiµie empiric. Avem: 0, dac x < 2; Fn(x) = P (X x) = , dac x [ 2, 0.5);, dac x [ 0.5, 0);, dac x [0, 1);, dac x [1, 2); 8, dac x [2, 3); 1, dac x 3. Pentru α = 0.1 ³i n = 8, c ut m în tabelul pentru inversa funcµiei lui Kolmogorov acel x 1 α; 8 = x 0.9; 8 astfel încât K(x 1 α; 8 ) = 1 α. G sim c x 0.9; 8 = Pe de alt parte, F (x) = Θ( x 1 2 ), unde Θ(x) este funcµia de repartiµie pentru legea normal N (0, 1). Ipoteza c X urmeaz repartiµia normal N (1, 2) este acceptat dac n d n < x 1 α. Calculele pentru determinarea valorii d n sunt date de Tabelul În Figura 10.4, putem observa reprezent rile acestor dou funcµii pentru setul de date observate. x i F (x i ) Fn(x i 0) Fn(x i ) Fn(x i 0) F (x i ) Fn(x i ) F (x i ) Tabela 10.6: Tabel de valori pentru testul Kolmogorov-Smirnov. Figura 10.4: F n(x) ³i F (x) din Tabelul Pentru a calcula d n, not m faptul c cea mai mare diferenµ între F (x) ³i F n(x) poate realizat ori

89 LSA 5 [Dr. Iulian Stoleriu] 88 înainte de salturile funcµiei Fn, ori dup acestea, i.e., { sup F (x) Fn(x) F (x i ) F = max n(x i 0), înainte de saltul i; x R i F (x i ) Fn(x i ), dup saltul i. Din tabel, observ m c d n = Deoarece n d n = = < 0.411, concluzion m c putem accepta ipoteza (H 0 ) la pragul de semnicaµie α = 0.1. Testul Kolmogorov in Matlab (o singura selectie) Pentru testul Kolmogorov-Smirnov pentru o selecµie, funcµia Matlab este: [h, p, ksstat] = kstest(x, F, alpha, type) În plus, faµ de funcµiile anterioare, avem opµiunea 'type'. Aceasta se refer la cum se compar cele dou funcµii de repartiµie, ³i poate una dintre urm toarele: 'unequal', 'larger', 'smaller'. Codul Matlab ce rezolv problema este: X = [-2; -0.5; 0; 1; 1; 2; 2; 3]; F = normcdf(x, 1, sqrt(2)); [h, p, ksstat] = kstest(x, [X,F], 0.1, 'unequal') unde, X este vectorul de date observate ³i F este vectorul ce conµine valorile funµiei de repartiµie F (x) pentru componentele lui X. Rulând acest cod, obµinem: h = p = ksstat = Observ m c valoarea ksstat este chiar d n g sit anterior.

90 LSA 5 [Dr. Iulian Stoleriu] 89 Probleme propuse Exerciµiu Urm rim s compar m preµurile aceluia³i tip de pâine de 500g, alegând la întâmplare diverse magazine din dou ora³e. Scopul investigaµiei este de a decide dac preµul mediu al acestui produs difer de la un ora³ la altul. Not m cu X 1 preµul acestui produs în primul ora³ ³i cu X 2 preµul din al doilea ora³. Valorile pentru ecare caracteristic ³i frecvenµele absolute sunt sumarizate în urm toarele dou matrice: X 1 : ( ) ³i X 2 : ( (a) Determinaµi un interval de încredere pentru diferenµa mediilor celor dou caracteristici (α = 0.04). (b) Se poate admite ipoteza c dispersiile celor dou caracteristici sunt egale (α = 0.04)? (c) inând cont de rezultatul de la (b), se poate admite ipoteza c preµul mediu al acestui tip de pâine nu difer între cele dou ora³e (α = 0.04)? ) Exerciµiu Testaµi normalitatea datelor din Tabelul 3.5 la nivelul de semnicaµie α = 0.1. Exerciµiu Se prezice c repartiµia literelor care apar cel mai des în limba englez ar urm toarea: Litera O R N T E Frecvenµa Aceasta semnic urm toarea: de ecare dat când cele 5 litere apar într-un text, în 16% dintre cazuri apare litera O, în 21% dintre cazuri apare litera T etc. S presupunem c un criptologist analizeaz un text ³i num r apariµiile celor 5 litere. Acesta a g sit urm toarea distribuµie: Litera O R N T E Frecvenµa Folosind testul χ 2 de concordanµ, s se verice dac aceste apariµii sunt în not discordant cu predicµia iniµial. Exerciµiu Tabelul urm tor conµine num rul de na³teri pe zi ce au avut loc într-o anumit maternitate, observate în decursul a 100 de zile alese la întâmplare. na³teri pe zi frecvenµa (a) Estimaµi num rul na³teri pe zi ce au loc în mod regulat în acea maternitate. (b) Testaµi ipoteza c num rul de na³teri pe zi este o variabil aleatoare repartizat Poisson. (c) Folosind rezultatul de la punctul (b), estimaµi probabilitatea ca, într-o zi aleas la întâmplare, s aib loc cel puµin 2 na³teri în acea maternitate. Exerciµiu Se dore³te determinarea ³anselor de avea un b iat sau o fat pentru mamele cu patru copii. Avem la îndemân o selecµie de 564 de mame a câte 4 copii. Rezultatele sunt cele din tabelul de mai jos.

91 LSA 5 [Dr. Iulian Stoleriu] 90 Num r de copii Frecvenµa 4 fete 38 3 fete ³i un b iat fete ³i 2 baieµi 213 o fat ³i 3 baieµi baieµi 34 (i) Reprezentaµi grac datele pe un pe disc (pie chart). (ii) La nivelul de semnicaµie α = 0.05, testaµi ipoteza c, pentru mamele cu patru copii, probabilitatea de avea un baiat este egal cu probabilitatea de avea o fat. Indicaµie: Se testeaz concordanµa cu repartiµia B(4, 0.5). Exerciµiu Se arunc o moned de 250 de ori, obµinându-se 138 de apariµii ale stemei. La un nivel de semnicaµie α = 0.05, s se decid dac avem suciente dovezi de a arma c acest moned este fals. Exerciµiu Datele din tabelul de mai jos reprezint repartizarea pe vârste pentru un e³antion de 385 de ³omeri dintr-o anumit regiune a µ rii. Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65) Frecvenµa (a) Reprezentaµi datele prin bare. (b) Folosind testul χ 2, testaµi dac datele din tabel sunt observaµii f cute asupra unei caracteristici normale (se va alege α = 0.05). Exerciµiu Se consider caracteristica X ce reprezint în lµimea b rbaµilor (în centimetri) dintr-o anumit regiune a unei µ ri. S-a f cut o selecµie de volum n = 200, iar datele de selecµie au fost grupate în tabelul urm tor: Clasa 165 (165, 170] (170, 175] (175, 180] (180, 185] (185, 190] (190, 195] 195 n i (a) Reprezentaµi datele printr-o histogram. (b) Precizaµi estimatori nedeplasaµi pentru media ³i dispersia în lµimii b rbaµilor din acea regiune. Folosind datele din tabel, determinaµi valorile acestor estimatori. (c) Testaµi dac datele din tabel sunt observaµii f cute asupra unei caracteristici normale (α = 0.05). (d) Care este probabilitatea ca un b rbat ales la întâmplare din acest µinut s e mai înalt de 182 cm? Exerciµiu Dou strunguri produc piese de acela³i tip. Not m cu X 1 diametrul pieselor produse de primul strung, ³i cu X 2 diametrul pieselor produse de al doilea strung. Presupunem c ambele caracteristicile, X 1 ³i X 2, urmeaz legea normal. ( ) ( ) X 1 : ³i X : (a) Determinaµi un interval de încredere pentru diferenµa mediilor celor dou caracteristici (α = 0.03). (b) Se poate admite ipoteza c dispersiile celor dou caracteristici sunt egale (α = 0.03)? (b) inând cont de rezultatul de la (b), se poate admite ipoteza c mediile diametrelor pieselor produse de cele dou strunguri sunt egale, cu alterntiva c E(X 1 ) > E(X 2 )? (α = 0.03)

92 CSA 6 [Dr. Iulian Stoleriu] 91 Statistică Aplicată (C6) 11 Test de independenµ folosind tabele de contingenµ (C6) Pân acum am discutat cum pot grupate observaµiile unei singure caracteristici, e discret sau continu. Îns, în multe cazuri avem de studiat o anumit populaµie prin prisma a mai mult de dou caracteristici. În aceast secµiune, vom prezenta un test de independenµ între dou caracteristici dup care se face împ rµirea datelor observate. S presupunem c avem un set de observaµii ce sunt împ rµite în categorii determinate de dou criterii diferite. Spre exemplu, în vederea introducerii de cursuri opµionale pentru elevii de liceu ai unei ³coli, s-a realizat un sondaj de opinie la care au participat 350 de elevii, în care ace³tia au avut de precizat cursul de limbi str ine preferat ³i nivelul de studiu ce consider c li s-ar potrivi. Rezultatele în stare negrupat pot ar ta astfel: Nr. crt. Limba straina Nivel de studiu 1 engleza mediu 2 franceza avansat 3 germana avansat 4 engleza incepator 5 spaniola mediu 6... Aceste observaµii pot sumarizate sub forma unui tabel (vezi tabelul 11.1). Aici, populaµia de elevi din respectiva ³coal este descris de valorile a dou caracteristici, ³i anume: limba str in ³i nivelul de studiu. Un astfel de tabel va util în luarea de decizii, dup cum vom vedea mai târziu. De exemplu, putem s test m dac alegerea limbii str ine este independent de nivelul de studii (i.e., cele dou caracteristici sunt independente) Identic m aici dou caracteristici (atribute): X este limba str in (e.g., Englez, Francez, German, Italian, Spaniol ³i Rus ) ³i Y reprezint nivelul de studiu (e.g., încep tor, mediu ³i avansat). Num rul de elevi ce intr în ecare categorie este a³at în Tabelul Nivel Limba Englez Francez German Italian Spaniol Rus Total încep tor mediu avansat Total Tabela 11.1: Tabel cu repartizarea elevilor la cursurile de limbi str ine. În general, dac datele observate sunt clasicate în categorii ce depind de dou atribute diferite, atunci putem forma un tabel de genul Tabelului 11.2, numit tabel de contingenµ. Aici X ³i Y sunt atributele ³i X i, i = 1, r, Y j, j = 1, s, sunt diverse categorii în care ecare atribut în parte poate împ rµit. În Tabelul 11.2 am folosit urm toarele notaµii: n ij pentru num rul (frecvenµa absolut ) de observaµii ce au valoarea X i pentru atributul X ³i valoarea Y j pentru atributul Y (i = 1, r, j = 1, s), iar n j, n i ³i n

93 CSA 6 [Dr. Iulian Stoleriu] 92 X Y Y 1 Y 2... Y j... Y s Suma pe linie X 1 n 11 n n 1j... n 1s n 1 X 2 n 21 n n 2j... n 2s n X i n i1 n i2... n ij... n is n i X r n r1 n r2... n rj... n rs n r Suma pe coloan n 1 n 2... n j... n s n (suma total ) Tabela 11.2: Tabel de contingenµ. sunt n j = r n ij, n i = s n ij, n = j=1 r j=1 s n ij. Fiecare individ din selecµia aleas aparµine unei singure categorii caracterizat de atributul X ³i unei singure categorii caracterizat de atributul Y. În concluzie, ecare individ poate aparµine doar uneia dintre cele r s celule. Dorim acum s test m dac atributele X ³i Y sunt independente (în exemplul de mai sus, aceasta ar însemna determinarea faptului dac alegerea cursului de limba str in este independent de nivelul de studiu). S not m prin p ij probabilitatea ca o dat observat s cad în categoria (X i, Y j ), ³i prin p i ³i p j probabilit µile marginale, s r p i = p ij, p j = p ij. Avem c r j=1 j=1 s p ij = r p i = s p j = 1. În general, valorile reale pentru p ij, p i ³i p j nu sunt cunoscute (specicate) a priori ³i se vor estima folosind datele din tabelul de contingenµ. Vom nota prin p ij, p i ³i, respectiv, p j estimatorii lor. Pentru a estima probabilit µile marginale, folosim metoda verosimilit µii maxime. Funcµia de verosimilitate este L = s p n i i s j=1 j=1 p n j j Condiµiile de extrem (cu leg tura r s j=1 p ij = 1) pentru ln L = r s r s n i ln p i + n j ln p j + λ( p ij 1) j=1 j=1 sunt: ln L p i = 0, i = 1, n ³i ln L p j = 0

94 CSA 6 [Dr. Iulian Stoleriu] 93 Valorile probabilit µilor marginale le estim m prin valorile maxime ale lui L, ³i anume: Ipoteza nul este: p i = n i n (i = 1, r) ³i p j = n j n (j = 1, s). (11.1) (H 0 ) : p ij = p i p j, i = 1, r, j = 1, s (i.e., nu exist nicio asociere între atributele X ³i Y ). (H 1 ) : (H 0 ) nu este adev rat. Astfel, pentru i ³i j xaµi, dac ipoteza nul ar adev rat, atunci valoarea a³teptat în celula (i, j) este Calcul m valoarea statisticii E ij = n p ij = n p i p j = n i n j, i = 1, r, j = 1, s. (11.2) n H 2 = i, j ( n ij n i n j n n i n j n ) 2 = i, j (O ij E ij ) 2, (11.3) unde, în parantez, O ij = n ij este num rul de valori observate în celula (i, j) iar E ij num rul de valori a³teptate (en., expected) în celula (i, j). Dac în ecare celul num rul de valori ce îi apaµin este de cel puµin 5, atunci statistica H 2 urmeaz repartiµia χ 2 cu (r 1)(s 1) grade de libertate. E ij Etapele testului de independenµ sunt urm toarele: ˆ Se dau n ij, i = 1, r, j = 1, s ³i pragul de semnicaµie α; ˆ Pe baza observaµiilor n ij, calcul m estimaµiile (11.1); ˆ Calcul m H 2 cu formula (11.3); ˆ Dac E ij 5, i, j ³i H 2 χ 2 1 α; (r 1)(s 1), atunci se admite (H 0) la pragul de semnicaµie α. Altfel, respingem (H 0 ) la acest prag de semnicaµie. Revenim la datele din Tabelul Pentru a stabili dac, la un nivel de semnicaµie α = 0.05, alegerea cursului de limba str in este independent de nivelul de studiu, calcul m mai întâi estimaµiile E ij. Acestea sunt scrise în paranteze în Tabelul Calcul m H 2 : H 2 = 3 6 j=1 (n ij E ij ) 2 ( )2 (7 5.77)2 = + + E ij = < = χ , 10 deci admitem ipoteza nul conform c reia tipul cursului ³i nivelul s u sunt atribute independente. Pentru calculul acestor valori în Matlab, putem proceda astfel:

95 CSA 6 [Dr. Iulian Stoleriu] 94 n = 350; r = 3; s = 6; alpha = 0.05; O = [ ; ; ]; E = sum(o')'*sum(o)/n; H2 = sum(sum((o-e).^2./e)); Hcrit = chi2inv(1-alpha,(r-1)*(s-1)); if (H2<Hcrit) disp('variabilele sunt independente') else disp('variabilele sunt dependente') end Cazul tabelelor de contingenµ 2 2. Testul exact al lui Fisher În cazul particular în care r = s = 2, tabelul de contingenµ este de forma: unde a, b, c, d sunt valorile observate pentru ecare celul în parte. Valorile a³teptate E ij (vezi formula (11.2)) sunt: E 11 = (a + b)(a + c), E 12 = n (a + b)(b + d), E 21 = n (c + d)(a + c), E 22 = n unde n = a + b + c + d. Statistica H 2 dat de relaµia (11.3) devine: ( ) ad bc 2 ( 1 H 2 = ), n E 11 E 12 E 21 E 22 (c + d)(b + d), n ³i urmeaz repartiµia χ 2 (1). Din faptul c H 2 χ 2 (1), rezult c statistica H = H 2 N (0, 1), ³i se poate utiliza H pentru testul statistic de independenµ. De³i acest test poate realizat, în cazul tabelelor de contingenµ 2 2 se utilizeaz testul exact al lui Fisher. Acest test poate utilizat chiar ³i în cazul în care valorile observaµiilor sunt mai mici decât 5. S alegem un prag de semnicaµie α. Test m ipoteza nul (H 0 ) : nu exist nicio asociere între atributele X ³i Y. Nivel Limba Englez Francez German Italian Spaniol Rus Total încep tor (37.06) (18.66) (7.36) (11.30) (12.35) (5.26) 92 mediu (63.25) (31.85) (12.56) (19.29) (21.08) (8.97) 157 avansat (40.69) (20.49) (8.08) (12.41) (13.56) (5.77) 101 Total Tabela 11.3: Tabel cu repartizarea ³i estimaµia elevilor la cursurile de limbi str ine.

96 CSA 6 [Dr. Iulian Stoleriu] 95 X Y Y 1 Y 2 Suma pe linie X 1 a b a + b X 2 c d c + d Suma pe coloan a + c b + d a + b + c + d Tabela 11.4: Tabel de contingenµ 2 2. versus ipoteza alternativ (H 1 ) : (H 0 ) nu este adev rat. (test bilateral) Rezultatele obµinute le putem scrie sub forma unei matrice, pe care o vom numi matricea conguraµiei. Aceasta este: ( ) a b M =. c d S presupunem acum c, pentru o matrice 2 2, sumele valorilor pe linii ³i pe coloane sunt xate a priori. Atunci, putem alege elementele matricei ce satisface aceste condiµii în mai multe moduri (este greu de precizat în câte moduri, în cazul cel mai general). În cazul problemei de faµ, s presupunem c a + b, c + d, a + c ³i b + d sunt xate. Atunci, dac ipoteza nul este adev rat, probabilitatea de a obµine exact valorile din Tabelul 11.4 este: P = Ca a+b Cc c+d Cn a+c. (11.4) Aceast probabilitate se obµine prin utilizarea schemei hipergeometrice. Exist îns mai multe matrice de tip 2 2 care au o conguraµie xat a sumelor pe ecare linie ³i pe ecare coloan (i.e., a + b, c + d, a + c ³i b + d sunt xate). Pentru ecare matrice de acest tip, putem calcula o probabilitate (condiµionat de realizarea ipotezei nule) de genul celei de mai sus. În cazul testului bilateral, P valoarea testului (notat prin P v ) este suma tuturor probabilit µilor condiµionate astfel calculate, care sunt mai mici sau egale cu probabilitatea obµinut pentru conguraµia dat (inclusiv probabilitatea conguraµiei date). Dac P valoarea este mai mare decât α, atunci ipoteza nul este admis la acest prag de semnicaµie. Dac P v α, atunci respingem (H 0 ). În cazul în care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt), atunci P valoarea este doar jum tate din suma anterioar. Spunem în acest caz c avem un test unilateral. Exemplu Se testeaz efectele unui anumit tip de medicamente pe un grup de voluntari ce prezint simptome de r ceal. Ace³tia sunt în num r de 14 ³i au fost împ rµiµi în dou grupuri de 7 persoane. Pacienµilor din primul grup, G 1, li s-au administrat medicamentul iar pacienµilor din grupul G 2 nu li s-au administrat nimic. Dup o s pt mân, s-a testat starea s n t µii celor 14 pacienµi, rezultatele ind cele din Tabelul S se determine dac administrarea medicamentului are vreun efect asupra st rii de X Y s n tos bolnav Suma pe linie G G Suma pe coloan Tabela 11.5: Tabel de contingenµ pentru testarea unui medicament.

97 CSA 6 [Dr. Iulian Stoleriu] 96 s n tate a voluntarilor. Se va folosi nivelul de semnicaµie α = Ipoteza nul este: (H 0 ) : Starea de s n tate a voluntarilor este independent de administrarea medicamentului. Ipoteza alternativ (bilateral ) este: (H 1 ) : Ipoteza (H 0 ) este fals. Matricea conguraµiei este M 1 = ( ) Folosind relaµia (11.4), probabilitatea apariµiei acestei conguraµii, ³tiind c sumele pe linii ³i pe coloane sunt xate, este P 1 = C6 7 C4 7 C14 10 = Alte conguraµii cu suma 7 pe ecare linie ³i sumele 10 pe prima coloan ³i 4 pe a doua coloan sunt: M 2 = ( ) ( 5 2, M 3 = 5 2 ) ( 3 4, M 4 = 7 0 ) ( 7 0, M 5 = 3 4 ). Probabilit µile condiµionate corespunz toare acestora sunt: P 2 = ; P 3 = , P 4 = , P 5 = P valoarea este suma tuturor probabilit µilor mai mici sau egale cu P 1 : P v = P 1 + P 2 + P 4 + P 5 = = > 0.05 = α. A³adar, la acest prag de semnicaµie admitem ipoteza nul. Observaµia (1) A se observa c suma P 1 + P 2 + P 3 + P 4 + P 5 = 1, ceea ce era de a³teptat. (2) Dac rezultatul experimentului ar matricea M 5 ³i ipoteza alternativ este (H 1 ) : exist evidenµe c medicamentul are efecte benece, atunci avem un test unilateral. În acest caz, P valoarea este P v = P 5 /2 = < α, ceea ce conduce la respingerea ipotezei nule ³i, deci, exist evidenµe c medicamentul are efecte benece.

98 LSA 6 [Dr. Iulian Stoleriu] Statistică Aplicată (L6) Probleme propuse Exerciµiu Se prezice c repartiµia literelor care apar cel mai des în limba englez ar urm toarea: Litera O R N T E Frecvenµa Aceasta semnic urm toarea: de ecare dat când cele 5 litere apar într-un text, în 16% dintre cazuri apare litera O, în 21% dintre cazuri apare litera T etc. Un criptologist analizeaz un text ³i num r apariµiile celor 5 litere. Acesta a g sit urm toarea distribuµie: Litera O R N T E Frecvenµa Folosind testul χ 2 de concordanµ, s se verice dac aceste apariµii sunt în not discordant cu predicµia iniµial. Exerciµiu Un patron susµine c rma sa nu face discriminare sexual la angajare (i.e., atât b rbaµii, cât ³i femeile au aceea³i ³ans de a se angaja în respectiva rm ). Se aleg 500 de angajaµi ³i se g sesc 267 de b rbaµi. Testaµi la nivelul de semnicaµie 0.05 dac patronul rmei spune adev rul sau nu. Exerciµiu Într-un sondaj de opinie, 5 b rbaµi ³i 5 femei au fost întrebate dac urm resc meciuri de fotbal la TV în mod regulat. Toµi b rbaµii ³i doar dou femei au r spuns armativ, ceilalµi spunând c nu. Folosind testul Fisher, s se testeze la nivelul de semnicaµie α = 0.05 dac diferenµa este semnicativ din punct de vedere statistic (i.e., dac femeile se uit la fotbal la TV cot la cot cu b rbaµii). Exerciµiu Se arunc o moned de 250 de ori, obµinându-se 138 de apariµii ale stemei. La un nivel de semnicaµie α = 0.05, s se decid dac avem suciente dovezi de a arma c acest moned este fals. Exerciµiu Tabelul de mai jos reprezint o selecµie de rezultate din diferite sporturi, grupate pe echipa câ³tig toare ³i sport. Fotbal Baschet Handbal Volei Rugby Gazdele câ³tig Oaspeµii câ³tig La nivelul de semnicaµie α = 0.05, s se decid dac victoria gazdelor/oaspeµilor este independent de sport. Exerciµiu Se doreste a se testa daca testul poligraf poate detecta daca o persoana minte sau nu. Tabelul de mai jos reprezint o selecµie de rezultate. Realitatea Subiectul testat a minµit în realitate Rezultatul poligrafului NU DA Poligraful indic faptul c subiectul minte Poligraful indic faptul c subiectul nu minte 32 9

99 LSA 6 [Dr. Iulian Stoleriu] 98 La nivelul de semnicaµie α = 0.05, s se decid dac testul poligraf este ecient în a detecta minciuna. Exerciµiu Se doreste a se testa daca sentinta pe care o va primi un acuzat este independenta de cum pledeaza. Tabelul de mai jos reprezint o selecµie de rezultate. Cum pledeaz Acuzatul pledeaz Decizia judec torului "vinovat" "nevinovat" trimis la închisoare r mâne liber La nivelul de semnicaµie α = 0.05, s se decid dac sentinµa este independent de cum pledeaz acuzatul. Dac aµi avocatul ap r rii, aµi încuraja acuzatul s pledeze vinovat?

100 CSA 7 [Dr. Iulian Stoleriu] 99 Statistică Aplicată (C7) 13 Teste neparametrice (C7) Multe dintre testele discutate anterior au ca cerinµ ca datele selectate s urmeze o repartiµie normal (dac selecµia este mic ). Se pune problema urm toare: Ce se întâmpl dac aceast cerinµ (posibil ³i altele) nu este vericat ³i nu ³tim nimic despre repartiµia datelor sau despre parametrii variabilei? Testele neparametrice sunt cele în cadrul c rora nu se fac presupuneri asupra formei repartiµiei. Aceste teste nu estimeaz parametrii tradiµionali necunoscuµi, de aceea mai sunt cunoscute ³i sub titulatura de metode f r parametri (en., parameter-free methods) sau metode f r repartiµie (en., distribution-free methods). Aceste teste pot utilizate atunci când aveµi dubii asupra normalit µii datelor statistice. Se pot construi teste neparametrice corespunz toare ec rui test parametric studiat mai sus, îns aceste teste neparametrice sunt, în general, grupate în urm toarele categorii: ˆ teste pentru diferenµa dintre grupuri (pentru selecµii independente). Este cazul compar rii mediilor a dou selecµii ce provin din populaµii independente. De regul, se utilizeaz testul t dac ipotezele acestuia sunt îndeplinite. Variante neparametrice ale acestui test sunt: testul Wald-Wolfowitz, testul Mann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecµii; ˆ teste pentru diferenµa dintre variabile (pentru selecµii dependente). Utilizat la compararea a dou variabile ce caracterizeaz populaµia din care s-a luat selecµia. Teste neparametrice utilizate: testul semnelor, testul Wilcoxon. ˆ teste pentru relaµii între variabile. Pentru a g si corelaµia între variabile, se utilizeaz coecientul de corelaµie. Exist variante neparametrice ale coecientului de corelaµie standard, e.g., coecientul R (Spearman), coecientul τ (Kendall) sau coecientul Gamma. Exist, de asemenea, ³i teste privind coecientul de corelaµie: χ 2 sau testul Fisher exact. Testul semnelor Testul semnelor se mai numeste si testul medianei si este un test neparametric bazat pe semnele anumitor valori ³i nu pe valorile în sine. Este unul dintre cele mai simple teste statistice neparametrice. Ipoteza de baz a testului este c datele statistice observate sunt alese aleator din populaµia considerat. Acest test face referire la o valoare centrala a setului de date observate si nu impune nicio ipoteza referitoare la repartiµia acestor valori observate. Daca testul t clasic testeaza valoarea medie a valorilor observate (in conditiile normalitatii datelor sau pentru un volum sucient de mare de date), testul semnelor testeaza valoarea mediana a observatiilor. Daca setul de date este simetric, atunci valoarea median este egal cu media datelor. In acest caz, testul semnelor poate da informatii despre media datelor observate, desi este un test mai putin precis decat testul t. Presupunem c x 1, x 2,..., x n sunt observaµii aleatoare asupra unei caracteristici X dintr-o populaµie. Pentru o valoare reala data Me, testul semnelor testeaza ipoteza nula: (H 0 ) : Me = Me, la nivelul de semnicaµie α. In funcµie de ipoteza alternativ, putem avea un test unitaleral sau un test bilateral.

101 CSA 7 [Dr. Iulian Stoleriu] 100 Teste unilaterale: (H 0 ) : Me = Me (H 1 ) s : Me < Me [sau (H 1 ) d : Me > Me ] Statistica test S = S < = n 1 {xi <Me } unde S < = nr. datelor mai mici decât Me n [sau S = S > = 1 {xi >Me } unde S > = nr. datelor mai mari decât Me ] Test bilateral: (H 0 ) : Me = Me (H 1 ) : Me Me. Statistica test S = S = max{s <, S > } Observaµiile care au o valoare egal cu Me sunt eliminate din analiz ³i n este ajustat corespunz tor. Dac mediana este Me, atunci S este o variabil binomial S B(n, 0.5). Pe baza acestor statistici se calculeaz valoarea critic P v, care reprezint probabilitatea ca ipoteza nul s e respins. Aceste valori critice sunt: cazul unilateral: P v = P (S S ); cazul bilateral: P v = 2P (S S ); unde S B(n, 0.5). Dac valoarea P v este mai mare decât α, atunci accept m ipoteza nul (nu avem motive s o respingem). Altfel, accept m ipoteza alternativ. Observaµia Dac volumul observaµiilor este mare (e.g., n 30) ³i S B(n, 0.5), atunci statistica S este aproximativ S N (n/2, n/2). În acest caz, testul pentru median se poate face pe baza statisticii z 0 = (S 0.5) n/2, n/2 unde S este statistica corespunz toare de mai sus. Valoarea " 0.5" este corecµia de aproximare a unei variabile discrete cu una continu. Decizia nal se ia astfel: accept m ipoteza nul dac z 0 > z 1 α (pentru (H 1 ) s ), z 0 < z 1 α (pentru (H 1 ) d ), z 0 < z 1 α 2 (pentru (H 1)). Exemplu Dorim s test m preferinµele clienµilor dintr-o anumit pizzerie pentru pizza cu blat subµire sau gros. S spunem c aceste preferinµe sunt reprezentate în Tabelul În acest tabel, ec rei marime subµire gros gros gros subµire gros gros subµire gros gros semn Tabela 13.1: Tabel cu preferinµe pentru blatul de pizza. preferinµe i se atribuie un semn, + pentru "blat gros" ³i pentru "blat subµire". Dintr-o privire în tabel, se pare c marea parte (70%) a clienµilor prefer blatul gros. Dorim s test m semnicaµia acestor date. Cu alte cuvinte, care este ³ansa obµinerii acestor rezultate dac, de fapt, nu exist vreo diferenµ între preferinµe? Sau, dac am presupune c preferinµele pentru cele dou tipuri sunt împ rµite în mod egal, care sunt ³ansele de a obµine un rezultat de genul prezentat în tabelul de mai sus?

102 CSA 7 [Dr. Iulian Stoleriu] 101 Soluµie: Stabilim ipoteza nul versus ipoteza alternativ bilateral (H 0 ) : preferinµele pentru cele dou blaturi sunt 50% 50%; (H 1 ) : exist diferenµe semnicative în preferinµele pentru cele dou blaturi; Pot considerate ³i teste unilaterale (stânga sau dreapta). Alegem pragul de semnicaµie α = Ca de obicei, presupunem c ipoteza nul este adev rat ³i, atunci, ³ansa ca cineva s aleag un blat sub- µire este p = 0.5. Dac not m cu X variabila aleatoare ce reprezint alegerea blatului, f cut de clienµii care au comandat pizza, atunci X B(10, 0.5) (aici avem o selecµie de n = 10). Calcul m P valoarea, adic valoarea maxim pentru pragul de semnicaµie pentru care ipoteza nul nu poate respins. Aici, S < = 3, S > = 7 ³i S = 7. Probabilitatea critic este P v = 2 P (X 7) = Deoarece α < P v, concluzion m c ipoteza nul nu poate respins la acest nivel de semnicaµie. Testul semnelor pentru date perechi De multe ori, este nevoie de a compara caracteristicile a doua seturi de date statistice. Vom spune ca aceste date sunt date perechi daca aceste date reprezinta observatii asupra aceleiasi caracteristici colectate la diverse momente in timp. Aceste seturi de valori provin din caracteristici care nu sunt independente intre ele. Spre exemplu, un set de date reprezinta masele corporale ale unor persoane inainte de o anumita dieta si celalalt set de date reprezinta masele corporale ale acelorasi persoane, dar dupa dieta. Scopul analizei statistice este studierea efectului dietei asupra masei corporale. Alt exemplu: pentru testarea progresului facut de elevi intr-un semestru, se compara notele elevilor la testarea initiala la Matematica si notele acelorasi elevi la teza de Matematica. Presupunem ca X si Y sunt doua variabile dependente intre ele observate asupra aceleeasi populatii (e.g., X este nota la testul initial si Y este nota la teza). Daca se doreste compararea mediilor celor doua seturi observatii, nu se poate aplica testul t pentru diferenta mediilor, acolo unde cerinta de independenta dintre X si Y este una de baza. Vom vedea mai tarziu (testul t pentru date perechi) cum putem testa daca mediile sunt egale. Deocamdata, sa ne indreptam atentia spre medianele datelor. Presupunem ca (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) sunt datele perechi observate. In multe aplicatii se doreste a se determina cum este X fata de Y. Pentru aceasta, se considera diferentele d i = x i y i. Se presupune ca d 1, d 2,..., d n provin dintr-o populatie continua de mediana unica, Me. Se poate utiliza testul anterior pentru a testa daca valoarea mediana este 0: (H 0 ) : Me = 0 (H 1 ) s : Me < 0 [sau (H 1 ) d : Me > 0] (H 0 ) : Me = 0 (H 1 ) : Me 0. Atenµie, acest test nu veric daca medianele celor doua selectii, Me X si Me Y, sunt egale! Testul seriilor pentru caracterul aleator Testul seriilor (en., runs test) este un test neparametric ce veric ipoteza c un ³ir de date bivariate este aleator generat (i.e., datele statistice constituie o selectie aleatoare dintr-un sir innit de valori). In

103 CSA 7 [Dr. Iulian Stoleriu] 102 general, ipoteza vericata este vs. (H 0 ) : valorile observate provin dintr-un sir aleator, (H 1 ) : valorile observate nu provin dintr-un sir aleator. Dac o anumit valoare a unui anumit ³ir de caractere este inuenµat de poziµia sa sau de valorile ce o preced, atunci selecµia generat nu poate aleatoare. Denim noµiunea de serie sau faz (en., run) ca ind o succesiune a unuia sau mai multe simboluri de acela³i tip, care sunt precedate ³i urmate de simboluri de alt tip sau niciun simbol. De exemplu: sau MFFFFFMMMF sau Num rul de faze ³i lungimea lor pot folosite în determinarea gradului de stochasticitate a unui ³ir de simboluri. Prea puµine sau prea multe faze, sau de lungimi excesiv de mari sunt rare în serii cu adev rat aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticit µii. Aceste criterii sunt adiacente: prea puµine faze implic faptul c unele faze sunt prea lungi (se observa o persistenta), prea multe faze implic faptul c unele faze sunt prea scurte (se observa o secventa in zigzag). A³adar, ne vom preocupa doar de num rul total de faze. Fie n 1 ³i n 2 num rul de semne +, respectiv, din ³ir, ³i e n = n 1 + n 2. Fie r 1 ³i r 2 num rul de faze ce corespund semnului +, respectiv, din ³ir. Num rul total de faze este r = r 1 + r 2. Vom nota cu litere mari, R 1, R 2 sau R, variabilele aleatoare ale caror realizari sunt r 1, r 2, respectiv, r. Sa exemplicam aceste numere pentru sirurile considerate mai sus. Primul sir de n = 12 cifre este constituit din r = 7 faze: r 1 = 4 faze de "0" si r 2 = 3 faze de "1"; n 1 = n 2 = 6. Al doilea sir este format din r = 4 faze, r 1 = 2 de "M" si r 2 = 2 de "F", iar ultimul sir de n = 19 este constituit din r = 10 faze, cate r 1 = r 2 = 5 din ecare "+" sau "-". Alegem ipoteza nul : (H 0 ) : ³irul este aleator (ecare aranjament de + ³i este echiprobabil). vs. ipoteza alternativ Se pot considera si ipoteze alternative: (H 1 ) : ³irul nu este aleator. sau (H 1 ) s : datele au o tendinta de se aduna ciorchine. (H 1 ) d : datele au o tendinta de se r sra. Putem g si repartiµiile vectorilor aleatori (R 1, R 2 ), R 1, R 2 sau R. Spre exemplu, pentru R avem functia de probabilitate: C r/2 1 n 1 1 Cr/2 1 n 2 C n, dac r = par; 1 n f(r) = [ ] C (r 1)/2 n 1 1 C (r 3)/2 n C (r 3)/2 n 1 1 C (r 1)/2 n 2 1 C n 1 n, dac r = impar.

104 CSA 7 [Dr. Iulian Stoleriu] 103 Cazul I: Când n 1 ³i n 2 sunt mari (i.e., n 1 > 12, n 2 > 12). In acest caz, variabila aleatoare corespunzatoare lui r are o repartitie aproape normala, R N (µ, σ), unde µ = 2 n 1 n 2 n + 1, σ = 2 n 1 n 2 (2 n 1 n 2 n) (µ 1)(µ 2) n 2 =. (n 1) n 1 A³adar, R µ N (0, 1). σ Aceast statistic poate utilizat în testarea ipotezei nule (H 0 ). Pentru testul bilateral, vom admite ipoteza nula daca r µ σ z 1 α. 2 Altfel, se respinge ipoteza nula. Pentru testul unilateral, conditia de respingere a ipotezei nule este r µ z 1 α σ pentru test unilateral stanga r µ z 1 α σ pentru test unilateral dreapta Cazul II: Când n 1 ³i n 2 sunt mici (n 1 12, n 2 12). In acest caz, valorile critice pentru r se gasesc intr-un tabel (vezi Tabelul 29.4). Astfel, pentru testul bilateral, regiunea care asigura acceptarea ipotezei nule este r α2, L < r < r α2, U. Pentru testul unilateral stanga, ipoteza nula va respinsa daca r < r α1, L. Pentru testul unilateral dreapta, ipoteza nula va respinsa daca r > r α1, U. Testul seriilor poate folosit in: ˆ testarea caracterului aleator a unei selectii de date, prin marcarea cu "+" a valorilor ce sunt mai mari decat mediana si cu " " ale celor ce sunt mai mici decat mediana. Valorile egale cu mediana sunt omise si n este ajustat in consecinta. ˆ testarea potrivirii unei functii cu un set de date, prin marcarea cu "+" a valorilor ce sunt mai mari decat valoarea functiei si cu " " ale celor ce sunt mai mici decat valoarea functiei. Valorile egale cu valoarea funµiei sunt omise si n este ajustat in consecinta. Acest test nu tine cont de distante dintre date si functie, ci doar de semne, spre deosebire de un test χ 2. Exerciµiu Ratele de schimb valutare EUR/RON sunt inregistrate pentru 20 zile consecutive din luna Octombrie 2014 si sunt comparate cu ratele de schimb medii istorice inregistrate in ultimii 5 ani. Se noteaza cu "+" daca valoarea din 2014 este peste valoarea medie istorica si cu " " daca este sub valoarea medie istorica. Obtinem sirul binar: La nivelul de semnicatie α = 0.05, testati ipoteza ca deviatia ratei din Octombrie 2014 de la rata medie istorica este aleatoare sau nu. Presupunem ca simbolurile + constituie elementele de tip 1. Sunt n = 20 elemente, cu n 1 = 11 si n 2 = 9, r = 11 serii, cu r 1 = 6 si r 2 = 5. Din Tabelul 29.4, observam ca valorile critice sunt r α2, L = 8 si r α2, U = 17. Cum 8 < r = 11 < 17, concluzionam ca ipoteza nula nu poate respinsa la acest nivel de semnicatie.

105 LSA 7 [Dr. Iulian Stoleriu] Statistică Aplicată (L7) Teste neparametrice (probleme) Testul semnelor în Matlab În Matlab, testul semnelor poate realizat cu ajutorul funcµiei [p, h] = signtest(x, m) unde: ˆ m este un num r real; ˆ x este un ³ir de caractere sau vector, asupra c ruia facem testul semnelor; ˆ variabila de memorie h este rezultatul testului. Dac rezultatul a³at este h = 0, atunci ipoteza nul, (H 0 ): setul de date x provine dintr-o distribuµie continu de median egal cu m, este admis la acest nivel de semnicaµie. Dac rezultatul a³at este h = 1, atunci ipoteza nul este respins. Se va admite astfel ipoteza alternativ (H 1 ): setul de date x provine dintr-o distribuµie continu care nu are median egal cu m. Dac m nu apare, atunci se subînµelege c m = 0. ˆ variabila de memorie p este P- valoarea, adic valoarea maxim pentru pragul de semnicaµie α pentru care ipoteza nul este admis. Deoarece aici α = 0.05 este subînµeles, pentru un p > 0.05 se a³eaz h = 0. Altfel, se a³eaz h = 1. O variant îmbun t µit a comenzii anterioare este urm toarea: [p, h, stats] = signtest(x, y,'alpha',alpha,'method',method) Aici, în plus faµ de preciz rile de mai sus, mai ad ug m c : ˆ Ipoteza nul este (H 0 ): setul de date x y provine dintr-o distribuµie continu de median egal cu 0, cu ipoteza alternativ c mediana lui x y nu este 0; ˆ variabila stats înmagazineaz urm toarele date: zval - este valoarea statisticii Z pentru observaµia considerat (apare doar pentru selecµii de volum mare, n 30); sign - este valoarea statisticii test; ˆ alpha este nivelul de semnicaµie; ˆ method este metoda folosit în testare. Putem avea o metod exact, când method este 'exact', sau aproximativ pentru 'approximate'; Exemplu Pentru problema cu pizza, de mai sus, codul Matlab ce genereaz testul semnelor este:

106 LSA 7 [Dr. Iulian Stoleriu] 105 x = [ ]; [p, h, stats] = signtest(x, 0) Rezultatul testului este: p = h = stats = sign: 3 Observaµia Revenim la Exerciµiul 10.1 ³i urm rim testarea ipotezei nule folosind funcµia signtest. Soluµie: Codul Matlab este simplu: x = [ones(59,1); zeros(41,1)]; [p, h, stats] = signtest(x,.5) Obµinem rezultatele: p = h = stats = zval: sign: 41 ceea ce conrm c ipoteza nul este admis la nivelul de semnicaµie α = Testul seriilor în Matlab Funcµia Matlab ce simuleaz testul de vericare a stochasticit µii unui ³ir de caractere este [h, p, stats] = runstest(x) Acesta este un test ce veric dac valorile ce compun ³irul de caractere x apar în ordine aleatoare. Variabilele h, p ³i x sunt ca în testul signtest. Aici, variabila stats a³eaz urm toarele: num rul de faze, lungimile ec rei faze ³i valoarea statisticii pentru selecµia considerat. În urma rul rii comenzii, se va a³a valoarea h = 0 dac ipoteza c valorile apar în ordine aleatoare nu poate respins (este acceptat la nivelul de semnicaµie α = 0.05) ³i h = 1 în caz contrar. De exemplu, rularea codului x = ' '; [h, p, stats] = runstest(x)

107 LSA 7 [Dr. Iulian Stoleriu] 106 a³eaz h = p = stats = nruns: 38 n1: 24 n0: 27 z: Acest rezultat se traduce astfel: ipoteza c ³irul considerat este aleator generat este respins la nivelul de semnicaµie α = 0.05 (subînµeles), P valoarea este P v = (asta însemnând c doar pentru un nivel de semnicaµie mai mic de P v ³irul poate considerat aleator). Variabila de memorie stats a³eaz datele folosite în aplicarea testului. Comanda urm toare [h, p, stats] = runstest(x, v, alpha, tail) a³eaz ˆ decizia testului, ori h = 0 ori h = 1, cu semnicaµia de mai sus; ˆ v este valoarea de referinµ a ³irului de caractere. Sunt num rate valorile ce sunt mai mici sau mai mari decât v, cele care sunt exact egale cu v nu sunt contabilizate; ˆ alpha este nivelul de semnicaµie; ˆ tail poate una dintre urm toarele ipoteze alternative: 'both', ³irul nu este aleator (test bilateral). Aceasta opµiune poate s nu e specicat, deoarece se subînµelege implicit. 'left', dac valorile tind s se adune în ciorchine (test unilateral stânga); 'right', dac valorile tind s se separe (test unilateral dreapta); De exemplu, s consider m urm toarele comenzi: y = 0:10; y = 0:10; y = 0:10; [h, p] = runstest(y,median(y),0.02,'left') [h, p] = runstest(y,median(y),0.02,'right') [h, p] = runstest(y,median(y),0.02,'both') Rezultatele rul rii lor sunt (în ordine): h = 1 p = h = 0 p = 1 h = 1 p =

108 LSA 7 [Dr. Iulian Stoleriu] 107 Exerciµiu Urmatoarele date reprezinta cotele apelor Dunarii (in cm) inregistrate in Sulina in ultimele 60 de zile: La nivelul de semnicatie α = 0.05, testati ipoteza ca aceste valori sunt generate de un proces aleator, cu alternativa ca exista un trend in aceste valori. Metoda I: Formulam ipoteza nula: (H 0 ) : datele sunt generate aleator, vs. ipoteza alternativa (H 1 ) : datele sunt nu generate aleator. Folosind functia runstest din Matlab, [h, p, stats] = runstest(x, median(x), 0.05, 'both') obtinem: h = p = stats = nruns: e-005 n1: 30 n0: 30 z: Se observa ca ipoteza alternativa este admisa, insemnand prezenta unui trend. In fapt, daca in loc de optiunea 'both' alegem 'left', se va observa ca ipoteza alternativa este admisa cu probabilitatea critica P v = e 6, indicand tendinta datelor spre grupare (clustering). Metoda a-ii-a: Putem ajunge la acelasi rezultat si pe baza statisticii test. Aceasta este z = r µ σ, unde r = 14, µ = 2 n 1 n 2 n + 1 = 31, σ = 2 n 1 n 2 (2 n 1 n 2 n) n 2 = (n 1) Gasim ca z = < z 1 α = z 0.95 = , deci acceptam ipoteza alternativa ca datele au o tendinta spre grupare in clustere. Exerciµiu Testati la nivelul de semnicatie α = 0.04 ipoteza c valoarea median a cotelor apelor Dun rii din Exerciµiul 14.1 este de 80 cm sau o alt valoare.

109 LSA 7 [Dr. Iulian Stoleriu] 108 Metoda I: Formulam ipoteza nula: (H 0 ) : Me = 80, vs. ipoteza alternativa Folosind functia signtest din Matlab: (H 1 ) : Me 80. x = [ ]; [p,h,stats] = signtest(x, 80, 'alpha', 0.04) Rezultatul este: h = p = stats = sign: 25 Metoda a-ii-a: Altfel, daca M e = 80, atunci numaram cate observatii avem sub mediana si peste mediana. Valorile egale cu mediana sunt eliminate din analiza. Obtinem: n = 55, S < = 30, S > = 25, S = S = max{s <, S > } = 30. Daca S B(60, 0.5), atunci P v = 2P (S > S ) = 2[1 P (S 29)] = 2*(1-binocdf(29,55,0.5)) = Cum α = 0.04 < = P v, acceptam ipoteza nula. Exerciµiu Intr-un studiu de piata, sunt comparate doua tipuri de oferte O 1 si O 2 pentru un anumit produs. Pentru a alua o decizie, au fost intrebate 50 de persoane care dintre cele doua oferte le prefera. Astfel 30 de persoane au declarat ca prefera O 1, 16 au preferat oferta O 2 si restul nu s-au putut decide. La nivelul de semnicatie α = 0.05, sa se decida daca este o diferenta semnicativa intre cele doua oferte. Formulam ipoteza nula: vs. ipoteza alternativa (H 0 ) : Ofertele O 1 si O 2 sunt egal preferate, (H 1 ) : Oferta O 1 este preferat ofertei O 2. Utilizam testul semnelor pentru date perechi. Consideram diferentele intre cele doua oferte pentru grupul test. Vom avea 30 de valori "+" si 16 valori " ". Opiniile celor 4 persoane indecise sunt ignorate. Vom avea: n = 46, S < = 16, S > = 30. Daca S B(46, 0.5), atunci P v = P (S > S > ) = P (S > 30) = 1 P (S 29) = 1-binocdf(29,46,0.5) =

110 LSA 7 [Dr. Iulian Stoleriu] 109 Cum α = 0.05 > = P v, respingem ipoteza nula. Asadar, concluzionam ca oferta O 1 este preferata (semnicativ) ofertei O 2, la nivelul de semnicatie α = În Matlab, folosim comanda signtest: x=[ones(1,30),-1*ones(1,16)] [p,h] = signtest(x); Pv = p/2; if (Pv > 0.05) disp('ofertele O1 si O2 sunt egal preferate') else disp('oferta O1 este preferata (semnificativ) ofertei O2') end

111 LSA 7 [Dr. Iulian Stoleriu] 110 Probleme propuse Exerciµiu Tabelul de mai jos conµine calicativele obµinute de un elev de clasa I la o selectie de 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a-ii-a. Discipline A B C D E F G H I clasa I S FB FB B B FB S B FB clasa a II-a B I B FB FB B B S B La nivelul de semnicaµie α = 0.05, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în clasa a II-a. Exerciµiu Testaµi dac funcµiile Matlab rand ³i randn genereaz numere (pseudo-)aleatoare. Exerciµiu Testaµi dac ³irul de numere din progresia geometric sunt numere aleator generate. Exerciµiu Un ocial al serviciului de ambulanµ arm c timpul mediu de r spuns la un apel 112 este de 20 de minute. Dintre toate apelurile primite în 2008, se alege o selecµie întâmpl toare de 300 de apeluri la 112, dintre care, pentru 178 dintre acestea timpul de r spuns a dep ³it 20 de minute, restul ind sub aceast valoare. Plecând de la aceast selecµie, putem arma sau inrma declaraµia ocialului? (α = 0.05) Exerciµiu O anumit rm dore³te s angajeze personal masculin ³i feminin respectând criteriul egalit µii în drepturi pentru ambele sexe. tiind c sexele ultimelor 50 de persoane angajate sunt dup cum urmeaz MFFMMFMFMFMFMMFFFMMMFMFMFMFMFMMMFFMFMFFFMFMFMFMMMFMF s se determine dac angaj rile în acest rm au caracter preferenµial pentru o anumit categorie de sexe (adic, s se verice dac apariµia de M sau de F în ³irul de mai sus este aleatorie). Se va lua α = 0.05.

112 CSA 8 [Dr. Iulian Stoleriu] 111 Statistică Aplicată (C8) 15 Teste neparametrice (continuare) (C8) Testul Wald-Wolfowitz (Wald 4 -Wolfowitz 5 two-sample runs test) Acest test este o alternativa neparametrica a testului t pentru selectii independente. Este utilizat in testarea ipotezei ca doua selectii sunt observatii ale unor caracteristici independente ce au o aceeasi repartitie. Reamintim, testul t pentru doua selectii decide daca doua selectii independente provin din doua caracteristici ce au aceeasi medie. Testul Wald-Wolfowitz poate depista chiar mai multe diferente dintre cele doua repartitii decat testul t pentru doua selectii. Spre exemplu, testul W-W poate depista diferentele dintre mediile sau dintre formele caracteristicilor din care provin cele doua seturi de observatii. Este ecient pentru un volum al selectiei cel putin moderat, e.g. cel putin egal cu 10. Presupunerea principala este ca datele observate sunt observatii ale unor caracteristici continue independente. Presupunem ca avem doua seturi de date, {x i },m si {y j } j=1,n. La nivelul de semnicatie α se doreste a se testa ipoteza nula (H 0 ) : Cele doua seturi de date provin din doua caracteristici ce au o aceeasi repartitie, vs. (H 1 ) : Cele doua seturi de date provin din doua caracteristici ce au repartitii diferite. Pentru a testa ipoteza nula, datele observate se vor scrie împreun, in ordine crescatoare, ecare observatie ind codata cu 1 sau 2, dupa cum provine din setul 1 sau 2 de date. Testul Wald-Wolfowitz are la baza ipoteza nula ca ecare valoare observata din sirul combinat este extrasa independent dintr-o aceeasi repartitie data. Statistica test este r = numarul de faze (runs) observate in sirul obtinut prin alipire. Daca aceasta statistica ar avea o valoare numerica mica, atunci acest fapt indica un anumit trend in datele alipite (datele ce provin din acelasi set tind sa se adune in clustere), adica putin improbabil ca aceste date sa provenit din aceeasi repartitie. Pe de alta parte, un numar mare pentru r este un indiciu ca datele sunt observatii aleatoare ale unei repartitii, fapt care va duce la acceptarea ipotezei nule. In cazul in care valori ale sirului x coincid cu valori ale sirului y, la codarea lor in sirul alipit se va cauta continuarea fazei deja incepute. Decizia se va lua pe baza unor valori tabelate (vezi Tabelul 29.5), astfel: Daca r < r c, respingem ipoteza nula ; dac r > r c, acceptam ipoteza nula. Pentru volume mai mari de 20, se poate folosi statistica R = r µ, unde µ este numarul asteptat de faze σ si σ deviatia sa standard: µ = 1 + 2n 1n 2 2n 1 n 2 (2n 1 n 2 n 1 n 2 ) si σ = n 1 + n 2 (n 1 + n 2 ) 2 (n 1 + n 2 1). Daca ipoteza nula este admisa, atunci statistica R urmeaza o repartitie normala N (0, 1). Pentru a lua decizia, procedam astfel: 4 Abraham Wald ( ) matematician ungur n scut în Cluj 5 Jacob Wolfowitz ( ) matematician polonez-american

113 CSA 8 [Dr. Iulian Stoleriu] 112 Daca R z 1 α, atunci respingem ipoteza nula. Altfel, o acceptam. 2 Exemplu Datele de mai jos reprezinta procentajele obtinute de doua grupuri (baieti si fete) la un test de Matematica Baiat Fata La nivelul de semnicatie α = 0.05, sa se decida daca cele doua seturi de date provin din aceeasi repartitie (adica, datele sunt omogene). vs. Ipoteza nula este omogenitatea datelor, i.e.: (H 0 ) : Cele doua seturi de date provin din doua caracteristici ce au o aceeasi repartitie, (H 1 ) : Cele doua seturi de date provin din doua caracteristici ce au repartitii diferite. Scriem datele in ordine crescatoare si le atasam codurile: date cod b f f b f b b b b b f f f b b f f f f b f Se observa ca valoarea 50 apare de doua ori, avand coduri diferite. In atribuirea codurile s-a urmarit ca primul cod corespunzator valorii 50 sa e cel anterior (continuare de faza). Similar s-a procedat pentru valoarea 83. Numarul de faze este r = 10. Valoarea critica se citeste din Tabelul 29.5 pentru n 1 = 10 si n 2 = 11. Astfel, valoarea critica (la nivelul de semnicatie α = 0.05) este r c = 6. Cum r = 10 > 6, admitem ipoteza nula. Asadar, admitem ipoteza ca aceste punctaje provin dintr-o aceeasi repartitie, la nivelul de semnicatie α = Altfel, daca am dori sa utilizam repartitia asimptotica in acest caz (nu este un caz in care n 1 > 20 si n 2 > 20, insa facem acest lucru pentru exemplicare), atunci gasim ca: µ = , σ = , R = = , z = Cum R < 1.96, acceptam ipoteza nula la nivelul de semnicatie α = Testul Wilcoxon bazat pe ranguri cu semn (Wilcoxon Signed-Rank Test) Testeaza valoarea centrala a unui set de date. Este folosit ca o alternativa pentru testul t pentru medie cand ipotezele acestuia nu sunt vericate. Astfel, testul signed rank al lui Wilcoxon este utilizat pentru vericarea daca un set de date provine dintr-o distributie de o anumita mediana, in cazul in care datele observate nu sunt neaparat normale. Presupunem ca x 1, x 2,..., x n este o selectie aleatoare de date observate asupra unei variabile continue si simetrice X, de mediana M e. Acest test verica daca media variabilei X este o valoare data Me. Putem avea teste unilaterale sau test bilateral. teste unilaterale: (H 0 ) : Me = Me (H 1 ) s : Me < Me [sau (H 1 ) d : Me > Me ] test bilateral: (H 0 ) : Me = Me (H 1 ) : Me Me.

114 CSA 8 [Dr. Iulian Stoleriu] 113 Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci Me = Me. urmatoarele valori in ordine crescatoare: Ordonam x 1 Me, x 2 Me,..., x n Me. (15.1) Determin m rangurile asociate acestor valori. Statistica test va S = suma rangurilor asociate cu valorile pozitive pentru x i Me. Regiunile care duc la respingerea ipotezei nule sunt, respectiv: S c 1, pentru testul unilateral dreapta S n(n + 1) c 2 = c 1, 2 pentru testul unilateral stanga S n(n + 1) c sau S c, 2 pentru testul bilateral unde c, c 1 si c 2 sunt date in Tabelul Exemplu Un brutar doreste sa verice daca o anumita masina de paine functioneaza corect. Aceasta este potrivita sa produca paini de 500g. Urmatorul set de date reprezinta gramajele a 15 paini alese aleator, produse de aceasta masina: Se presupune ca deviatiile de la mediana au aceeasi probabilitate de a pozitive sau negative si nu putem presupune normalitatea datelor. Totodata, avem prea putine observatii pentru a folosi o distributie normala asimptotica. Dorim sa utilizam testul rangurilor cu semn al lui Wilcoxon pentru a testa daca masina este calibrata corect. (α = 0.05) Ipoteza nula este Scadem 500 din toate datele si obtinem: (H 0 ) : Me = 500 vs (H 1 ) : Me Le ordonam valorile absolute in ordine crescatoare: valoarea absoluta rangul semnul Statistica test este S = = Folosind Tabelul 29.6, observam ca pentru n = 15, daca ipoteza nula este acceptata, atunci: ( P (S 95) = P (S 25) = 0.024, ³i astfel, P {S 95} ) {S 25} = Asadar testul bilateral va respinge ipoteza nula pentru S 95 sau pentru S 25. Cum S = 42.5, acceptam ipoteza nula la acest nivel de semnicatie.

115 CSA 8 [Dr. Iulian Stoleriu] 114 Testul t pentru date perechi Acesta este un test parametric. Il mentionam aici doar pentru a face diferenta intre acest test si alte teste neparametrice ce pot utilizate pentru datele perechi. Testul poate aplicat pentru perechi de date pentru care diferentele intre valorile perechi sunt normale. In cursurile anterioare am vazut cum putem testa daca mediile a doua variabile independente X si Y sunt egale pe baza observatiilor facute asupra acestor variabile, {x i }, m si {y j } j=1, n, unde m si n nu sunt neaparat egale. Exista insa situatii in care variabilele X si Y nu sunt independente intre ele. Spre exemplu, observatiile facute asupra aceluiasi grup de indivizi inainte si dupa un tratament. In astfel de situatii, testul t pentru diferenta mediilor studiat anterior nu se mai poate aplica. Presupunem ca X si Y sunt doua variabile (posibil corelate) si ca (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) sunt datele perechi observate. Notam mediile teoretice ale acestor variabile prin: µ X = E(X) si µ Y = E(Y ). In multe aplicatii se doreste a se determina cum este X fata de Y. Pentru ecare pereche, consideram d i = x i y i. Presupunem ca variabilele corespunzatoare diferentelor, {D i }, n, sunt normale, de media µ D si deviatie standard σ D. Evident, avem ca µ D = µ X µ Y, insa σd 2 nu mai este neaparat egal cu σx 2 + σ2 Y, egalitatea avand loc doar in cazul independentei dintre variabilele X si Y. Deoarece D i sunt considerate normale, putem folosi testul t obisnuit pentru medie pentru a testa ipoteza nula teste unilaterale: (H 0 ) : µ D = µ 0 (H 1 ) s : µ D < µ 0 [sau (H 1 ) d : µ D > µ 0 ] Pentru setul de date {d i }, n, notam cu d = 1 n Statistica test este test bilateral: (H 0 ) : µ D = µ 0 (H 1 ) : µ D µ 0. n d i si s d = 1 n [d i d] n 1 2. t = d µ 0 s D / n. Regiunile care duc la respingerea ipotezei nule sunt, respectiv: t t α;n 1 pentru testul unilateral stanga t t α;n 1 pentru testul unilateral dreapta t t 1 α 2 ;n 1 pentru testul bilateral De asemenea, testul poate efectuat pe baza unei valori P v, care poate calculata in ecare caz. Testul Wilcoxon pentru date perechi Este varianta neparametrica a testului anterior. Acest test este utilizat cand ipoteza de normalitate a diferentelor nu este vericata. Ipoteza testului este: repartitia diferentelor d i este una continua si simetrica. In cazul in care observatiile pentru X si Y sunt continue si difera doar prin valorile medii, atunci repartitia diferentelor va continua si simetrica. Nu este necesar ca repartitiile lui X si Y sa e simetrice. Acest test verica ipoteza nula ca valoarea mediana Me D = Me X Me Y a diferentelor este una data.

116 CSA 8 [Dr. Iulian Stoleriu] 115 teste unilaterale: (H 0 ) : Me D = Me (H 1 ) s : Me D < Me [sau (H 1 ) d : Me D > Me ] test bilateral: (H 0 ) : Me D = Me (H 1 ) : Me D Me. Pentru a testa aceasta ipoteza pentru mediana Me D, se continu cu etapele testului Wilcoxon Signed- Rank Test discutat anterior. Testul Wilcoxon bazat pe suma rangurilor (Wilcoxon 6 Rank-Sum Test sau Mann-Whitney test) Acest test este varianta neparametrica a testului t pentru compararea medilor. Este utilizat in cazul in care ipotezele testului t nu sunt satisfacute (lipsa normalitatii a cel putin unui set de date). Presupunem ca avem doua seturi independente de date continue, {x i },m si {y j } j=1,n. Notam cu Me 1 si Me 2 mediianele teoretice corespunzatoare repartitiilor din care provin aceste date. Se presupune ca X si Y au aceeasi forma, singura diferenta posibila ind valorile lor medii. La nivelul de semnicatie α se doreste a se testa ipoteza nula teste unilaterale: (H 0 ) : Me D = Me (H 1 ) s : Me D < Me [sau (H 1 ) d : Me D > Me ] test bilateral: (H 0 ) : Me D = Me (H 1 ) : Me D Me. Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci Me D = Me. Presupunem ca m n (daca nu e adevarat, renotam selectiile). Ordonam urmatoarele valori in ordine crescatoare: x 1 Me, x 2 Me,..., x m Me, y 1 Me, y 2 Me,..., y n Me. (15.2) Statistica test va S = suma rangurilor asociate cu valorile (x i Me ) din sirul (15.2). Regiunile care duc la respingerea ipotezei nule sunt, respectiv: S c 1, pentru testul unilateral dreapta S c 2, pentru testul unilateral stanga S c sau S m(m + n + 1) c, pentru testul bilateral unde c, c 1 si c 2 sunt date in tabelele 29.8 ³i Exemplu Pe baza datelor observate in Exercitiul 15.1, testati ipoteza ca procentajul mediu real obtinut de fete este mai mare decat cel obtinut de baieti, la nivelul de semnicatie α = Datele sunt urmatoarele: Baiat Fata Frank Wilcoxon ( ), chimist ³i statistician irlandez

117 CSA 8 [Dr. Iulian Stoleriu] 116 Notam cu x i procentajele baietilor si cu y j pe ale fetelor. Avem ca m = 10, n = 11. Ipoteza nula este: vs. (H 0 ) : Me 1 Me 2 = 0, (H 1 ) : Me 1 Me 2 < 0. Scriem datele in ordine crescatoare si le atasam codurile si rangurile: date cod b f f b f b b b b b f f f b b f f f f b f rang Statistica test este S = = Pentru m = 10 si n = 11 gasim ca valoarea critica c 2 (tabelul 29.9, n = 10, m = 11, la nivelul de semnicatie α = 0.05) este c 2 = 86. Cum S = 93.5 > 86, admitem ipoteza nula. Asadar, nu este o diferenta semnicativa intre punctajele mediane reale, la nivelul de semnicatie α = 0.05.

118 LSA 8 [Dr. Iulian Stoleriu] Statistică Aplicată (L8) Testele Wilcoxon in Matlab Functia Matlab pentru testul Wilcoxon bazat pe rangurile cu semn este signrank. Modurile de apelare sunt: [p,h,stats] = signrank(x,m,'alpha', alpha, 'method', metoda, 'tail', tail) sau [p,h,stats] = signrank(x,y,'alpha', alpha, 'method', metoda, 'tail', tail), unde x este vectorul format cu observatii, m este valoarea testata (pentru prima varianta) si x, y corespund vectorului de date perechi (pentru a doua varianta). Optiunea metoda poate una dintre 'exact' (implicit) si 'approximate'. Metoda exacta calculeaza regiunea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi pentru selectii de volum mare. Optiunea tail poate una dintre 'both' (implicit), 'left' sau 'right'. Spre exemplu, pentru Exercitiul 15.2, apelam functia astfel: unde x este vectorul format cu observatii, m este valoarea testata, metoda poate una dintre 'exact' si 'approximate'. Metoda exacta calculeaza regiunea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi pentru selectii de volum mare. Spre exemplu, pentru Exercitiul 15.2, apelam functia astfel: g = [ ]; [p,h,stats] = signrank(g,500,'alpha', 0.05, 'method', 'exact') % sau, simplu, [p,h,stats] = signrank(g,500) Obtinem rezultatul: p = h = stats = signedrank: Pe baza acestui rezultat, concluzionam ca ipoteza nula nu poate respinsa la nivelul de semnicatie α = Functia Matlab pentru testul Wilcoxon bazat pe suma rangurilor este ranksum. Se poate folosi astfel: [p,h,stats] = ranksum(x,y,'alpha', alpha, 'method', metoda) Spre exemplu, pentru Exercitiul 15.3, apelam functia astfel:

119 LSA 8 [Dr. Iulian Stoleriu] 118 b = [ ]; f = [ ]; [p,h,stats] = ranksum(b,f, 'method', 'exact') obtinandu-se: p = h = stats = ranksum:

120 LSA 8 [Dr. Iulian Stoleriu] 119 Probleme propuse Exerciµiu Conducerea unui liceu investigheaza daca situatia scolara a elevilor transferati in acest liceu s-a imbunatatit in urma tranferului. Tabelul de mai jos contine mediile generale ale unui grup de 15 elevi in anul dinainte de transfer si in primul an de dupa transfer. Vericati daca transferul a fost benec pentru elevi, folosind trei teste: testul t pentru date perechi, testul semnelor si testul Wilcoxon (signed-rank test) (α = 0.05). Nr. crt inainte dupa Exerciµiu Tabelul de mai jos conµine calicativele obµinute de un elev de clasa I la o selectie de 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a-ii-a. Discipline A B C D E F G H I clasa I B FB FB B B FB S B FB clasa a II-a S I B FB FB B B S B La nivelul de semnicatie α = 0.05, testati ipoteza ca rezultatele elevului s-au imbunatatit in clasa a II-a. Exerciµiu Tabelul al turat conµine mediile obµinute de un elev de clasa a V-a la 10 discipline din cele dou semestre ³colare. Discipline A B C D E F G H I J semestrul I semestrul al II-a Folosind un test potrivit, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în semestrul al doilea (α = 0.04). Exerciµiu Se testeaz ecacitatea unui anumit medicament în reducerea tensiunii arteriale pe un grup format din 12 pacienµi. Datele de mai jos reprezit m sur torile observate înainte ³i dup administrarea medicamentului. Pacientul P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 inainte dupa Folosind un test potrivit, testaµi ipoteza nul medicamentul nu are efect versus ipoteza alternativ medicamentul este ecient (α = 0.05) în ecare dintre urm toarele cazuri: (a) (b) ambele seturi de date sunt considerate a normale; datele nu sunt neap rat normale. Exerciµiu Elevii unui anumit liceu au efectuat de generaµii excursii organizate. Directorul liceului dore³te s verice dac p rinµii copiilor înc mai susµin aceast iniµiativ. El a trimis un chestionar la toµi p rinµii copiilor din liceu, prin care le cerea s indice opµiunea lor ³i ciclul de studii al copilului lor. Doar 150 de p rinµi au r spuns, iar rezultatele au fost grupate în tabelul de mai jos.

121 LSA 8 [Dr. Iulian Stoleriu] 120 Ciclul \ Opinia De acord Nu sunt de acord Nicio p rere Gimnaziu Liceu (a) Testaµi dac alegerea p rinµilor este independent de ciclul de studii. (α = 0.05) (b) Pe baza r spunsurilor primite, decideµi dac proporµia de p rinµi ce sunt de acord cu excursiile este semnicativ diferit de proporµia celor ce au alte opinii (α = 0.05).

122 CSA 9 [Dr. Iulian Stoleriu] 121 Statistică Aplicată (C9) 17 Teste de ree³antionare (C9) Testele de reesantionare sunt metode statistice de estimare a unor parametri sau pentru realizarea unor teste statistice, bazate pe generarea de subselectii de date pe computer. In general, aceste metode pot utilizate doar cu ajutorul unui computer. Marele lor avantaj este ca pot utilizate atunci cand testele clasice (Z, t, F etc.) nu pot aplicate. Testele clasice sunt uneori prea restritive. Una dintre cerintele importante pentru testele clasice este normalitatea datelor. Daca aceasta conditie nu este indeplinita, pentru a putea realiza un test clasic ar necesara considerarea unui volum sucient de mare de date. Daca nici aceasta conditie nu este indeplinita, atunci folosirea metodelor clasice in estimarea parametrilor sau in vericara ipotezelor statistice este inoportuna. In plus, exista multi parametri ai populatiei pentru care nu exista statistici potrivite, ce pot folosite in estimarea unor parametri sau pentru validarea ipotezelor statistice. Exemple de astfel de parametri sunt: cuantilele, cotele, unii coecienti de corelatie etc. Testele neparametrice sau cele de reesantionare pot metodele alternative care pot scoate un statistician din impas. Dintre metodele de reesantionare amintim: testele de permutari, bootstrapping, metoda jackknife sau metodele Monte Carlo. Testele de permutari (sau metode de randomizare) sunt metode de reesantionare efectuate fara repetitie folosite in a testa anumite ipoteze statistice. In general, sunt utilizate pentru a testa ipoteze de tipul "lipsa de efect". Metoda de bootstrap (sau bootstrapping) este o metoda de reesantionare efectuate cu repetitie, in special utilizate pentru a determina intervale de incredere pentru parametrii unei populatii. Metodele Monte Carlo folosesc esantioane repetate din populatii cu parametri cunoscuti pentru a determina senzitivitate metodelor statistice. Metoda jackknife (sau jackkning) este o metoda similara cu bootstrapping, folosita in estimarea variantei sau a deplasarii unui estimator. Este bazata pe eliminarea sistematica a unei date observate din setul de date si obtinerea de estimari pe baza datelor ramase. Avantaje ale metodelor de reesantionare:: ˆ ipoteze mai putin restrictive. De exemplu, nu este necesara ipoteza de normalitate sau ca volumul selectiei sa e mare. ˆ acuratete mai mare. Testele de permutari si anumite metode bootstrap au acuratete mai mare decat a testelor clasice. ˆ grad larg de aplicabilitate. Pot utilizate pentru testarea multor ipoteze statistice si nu necesita utilizarea unor statistici speciale. ˆ usurinta in utilizare In continuare, vom discuta doar doua dintre aceste metode, si anume testele de permutari si metoda bootstrapping. Teste de permutari (en., permutation or randomization tests) Sunt teste de reesantionare bazate pe reesantionarea fara repetitie, folosite pentru testarea unor ipoteze statistice. De exemplu, pot folosite pentru a testa egalitatea mediilor, pentru egalitatea variantelor,

123 CSA 9 [Dr. Iulian Stoleriu] 122 pentru egalitatea proportiilor a doua populatii, sau pentru compararea datelor perechi. De asemenea, pot utilizate in compararea corelatilor dintre doua variabile cantitative. Aceste teste sunt utilizate atunci cand testele clasice corespunzatoare nu pot aplicate (ori datele nu sunt normale, ori avem prea putine date). Etapele unui test de permutari sunt: ˆ Se alege o statistica ce masoara efectul studiat; ˆ Construim repartitia de selectie a acestei statistici pentru cazul in care ipoteza nula este valida (i.e., nu exista niciun efect observat). ˆ Localizam valoarea observata a statisticii in aceasta repartitie si calculam valoarea P v (probabilitatea de a observa un rezultat cel putin la fel de extrem ca si cel observat, sau probabilitatea de a respinge ipoteza nula in cazul in care ea este adevarata). Ipoteza nula pentru acest test este: (H 0 ) : Efectul studiat nu este prezent pentru populatia (populatiile) observata (e). Ipoteza alternativa este orice ipoteza care se opune ipotezei nule. Se pun in comun toate valorile observate si apoi se va face o reesantionare (o rearanjare fara repetitie) a datelor, care sa e in concordanta cu ipoteza nula. Pentru ecare conguratie a datelor se va calcula statistica de interes S (cea care masoara efectul studiat). In cazul testarii egalitatii a doua medii, aceasta statistica este diferenta mediilor de selectie. S not m cu S valoarea statisticii de interes pentru conguraµia observat. Pentru un test bilateral, valoarea critica a testului, P v, este egala cu raportul dintre numarul de diferente absolute cel putin egale cu S si numarul total de diferente. Pentru un test unilateral dreapta, valoarea critica a testului, P v, este egala cu raportul dintre numarul de diferente cel putin egale cu S si numarul total de diferente. Pentru un test unilateral stanga, valoarea critica a testului, P v, este egala cu raportul dintre numarul de diferente cel mult egale cu S si numarul total de diferente. Decizia nala se va lua astfel: daca α P v, atunci respingem ipoteza nula. In caz contrar, ipoteza nula va acceptata. Pentru exemplicare, consideram urmatorul exercitiu demonstrativ. Exemplu Datele urmatoare reprezinta punctajele a 5 elevi (baieti si fete) la un anumit test de Matematica: {53, 75, 80, 67, 78}, unde primele 3 valori sunt punctajele baietilor si ultimele doua sunt punctajele fetelor. Se doreste ca, pe baza acestor valori, sa se testeze daca exista diferente semnicative intre valorile medii ale punctajele baietilor si ale fetelor (la un nivel de semnicatie α = 0.05). Desigur, acest exemplu este unul demonstrativ; in practica pot mai multe valori de ecare parte. Ipoteza nula este urmatoarea: (H 0 ) : Nu este nicio diferenta intre punctajele medii pentru baieti si fete. Altfel spus, avem de testat ipoteza: (H 0 ) : µ b = µ f vs. (H 1 ) : µ b µ f, unde µ b si µ f sunt mediile procentajelor la baieti (variabila o notam cu b) si, respectiv, la fete (variabila este notata aici cu f). Daca ipoteza nula ar adevarata, atunci acest set de date sunt observatii aleatoare asupra unei aceleasi repartitii. In acest caz, oricum am alege 3 valori (din cele 5) care sa corespunda baietilor si, respectiv, 2

124 CSA 9 [Dr. Iulian Stoleriu] 123 valori pentru fete, mediile µ b si µ f nu se vor modica. In consecinta, ne vom uita la toate combinatiile posibile pentru ecare grup. Pentru ecare combinatie in parte, calculam diferenta valorilor, obtinand astfel un set de C5 3 = 10 diferente. In general, daca avem doua seturi de date, unul de volum m si celalalt de volum n, atunci putem forma C m m+n combinatii, deci vom determina un set de C m m+n diferente. Statistica de interes, S, care va determina diferenta dintre cele doua medii, este diferenta mediilor de selectie. Pentru exemplul nostru, aceasta este S = b f. Localizam acum valoarea lui S pentru conguratia data, notata aici prin S. Valoarea critica P v este egala cu raportul dintre numarul de diferente cel putin egale cu S si numarul total de diferente. Dupa cum se poate observa din Tabelul 17.1, statistica observata este S = In ultima coloana din tabel exista 9 valori cel putin egale cu S (inclusiv valoarea absoluta observata), de unde gasim ca P v = card{ S S } C m m+n = 9 10 = 0.9. La nivelul de semnicatie α = 0.05 < 0.9 = P v, nu avem motive sa respingem ipoteza nula. baieti b fete f S = b f S = b f 53, 75, , , 75, , , 75, , , 67, , , 78, , , 67, , , 75, , , 75, , , 67, , , 67, , Tabela 17.1: Tabel cu toate combinatiile posibile. Un test de permutari este un test exact. In cazul in care numarul C m m+n este foarte mare, atunci este practic de a considera doar o selectie aleatoare (cu repetitie) dintre toate valorile. In cazul in care m si n (volumele celor doua seturi de date) sunt sucient de mari, atunci ar oportuna folosirea testului t, care este un test mai puternic (in sensul ca va avea o eroare de speta a doua, β, mai mica pentru un α xat). Testul de permutari poate folosit cu succes atunci cand ipotezele testului t nu sunt satisfacute, oferind valori bune pentru P v chiar daca datele observate sunt asimetrice. Bootstrapping Aceasta metoda foloseste datele de selectie pentru a estima parametrii relevanti ai unei populatii statistice. Metoda foloseste reesantionarea cu repetitie a datelor observate. Poate folosita cu succes in estimarea erorii unui estimator, σ θ, in cazul in care intervalele de incredere clasice nu sunt aplicabile. De asemenea, exista diversi parametri pentru care nu exista metode clasice de a-i estima, e prin estimatori punctuali sau cu intervale de incredere. Exemplu de astfel de parametri: cuantile, coecienti de corelatie, deviatii etc. Aceasta metoda poate da rezultate foarte bune si in cazul unor statistici test neliniare complicate, care nu pot estimate prin alte metode traditionale. In practica, aceasta metoda poate functiona doar cu ajutorul unui computer, din cauza ca poate aparea un volum foarte mare de date.

125 CSA 9 [Dr. Iulian Stoleriu] 124 Avem un set de date observate, {x 1, x 2,..., x n }, pe baza carora dorim sa estimam un parametru θ al populatiei din care provin aceste date. In metoda de bootstrap, aceste date vor privite ca ind o populatie statistica, din care vom extrage diverse esantioane de volum n. Pe baza acestor esantioane vom determina intervale de incredere pentru θ. Etapele metodei bootstrapping sunt: ˆ Reesalonam cu repetitie valorile observate, obtinand un set de date reesalonate de volum n: {x 1, x 2,..., x n}. ˆ Repetam pasul anterior de un numar r de ori, unde r n n. Vom obtine selectiile de bootstrap: {x b1, x b2,..., x bn }, b = 1, 2,..., r. Aici, numarul B = n n este numarul maxim de reesalonari cu repetitie de volum n pe care le putem obtine. In cazul in care B nu este un numar foarte mare (astfel incat computerul sa poata face reesalonarile in timp util), atunci putem lua r = B. ˆ Pentru ecare b = 1, 2,..., r, calculam θ b = 1 n n x bi, θ = 1 r r θ b (media selectiei de bootstrap) si un estimator pentru eroarea standard a selectiei de bootstrap, = 1 r ( θ s θ r 1 b θ ) 2. ˆ Daca θ = x, atunci un interval de incredere pentru medie la nivelul de condenta α este [ ] x z 1 α s x, x + z 1 α s x. 2 2 ˆ In cazul in care r = B, atunci x n = x si estimatorul pentru eroarea standard devine: s x = 1 B ( x B b x ) 2. Consideram urmatorul exemplu demonstrativ. Exemplu Urmatoarele date reprezinta salariile (in mii de RON) pentru 4 perechi sot-sotie dintr-un anumit oras: {(2.4, 1.9), (1.7, 1.8), (3.2, 3.6), (4.0, 3.4)}. La nivelul de semnicatie α = 0.05, dorim sa determinam un interval de incredere pentru diferenta salariilor intre sot si sotie. Notam cu H si W variabilele salariu pentru sot, respectiv, sotie. Pentru datele observate nu avem garantia ca ele ar observatii asupra unor repartitii normale si nici nu sunt sucient de multe. Asadar, ipotezele de lucru pentru determinarea unui interval de incredere pentru medie clasic (folosind statisticile Z sau t) nu sunt satisfacute. Totusi, pentru a putea face ulterior o comparatie, vom scrie un interval de incredere folosind statistica Student t(n). Intervalul obtinut nu va unul legitim (care sa poata folosit in estimarea diferentei).

126 CSA 9 [Dr. Iulian Stoleriu] 125 Nr. crt. H W d i = h i w i Tabela 17.2: Tabel cu salarii pentru perechi sot-sotie. Pentru setul de date {d i },4 = {0.5, 0.1, 0.4, 0.6}, calculam media si deviatia standard: d = 0.15 si s d = Daca ipotezele de normalitate are valide, atunci un interval de incredere pentru diferenta medilor ar : [ ] s d s d t 1 α 2 ; n 1 d, d + t 1 α 4 2 ; n 1 = [ , ]. 4 Insa acest interval nu poate considerat in practica. Vom determina un interval de incredere bazandu-ne pe metoda bootstrapping. Tabelul 17.3 contine r = 7 selectii de bootstrap pentru populatia {0.5, 0.1, 0.4, 0.6}. b d b1, d b2, d b3, d b4 d b , 0.5, 0.1, , 0.1, 0.1, , 0.1, 0.1, , 0.1, 0.4, , 0.1, 0.1, , 0.4, 0.4, , 0.4, 0.6, Tabela 17.3: Tabel cu 7 reesantionari pentru metoda bootstrapping. In acest caz, B = 4 4 = 256, d = 0.15 si si d = d b = 0.1 s d = (media selectiei de bootstrap) ( d b d ) 2 = Un interval de incredere la nivelul de semnicatie α = 0.05 este [ ] d z 1 α s 2 d, d + z 1 α s 2 d = [ , ]. Acesta poate considerat ca ind un interval de incredere legitim pentru diferenta salariilor. In acest caz, acest interval este chiar de lungime mai mica decat intervalul obtinut anterior. x = [ ]; r = 200; n = 4; [b1, b2] = bootstrp(r, 'mean', x); xb = mean(x); xs = mean(b1); % data % means

127 CSA 9 [Dr. Iulian Stoleriu] 126 s = std(x); ss = std(b1); t = tinv(0.975,3); z = norminv(0.975); [xb- t* s/ sqrt(n), xb+ t* s/ sqrt(n)] [xs- t* ss, xs+ t* ss] % standard deviations % quantiles % C.I. using t-test % C.I. using bootstrap Metoda Monte Carlo Metoda Monte Carlo este o metod de simulare statistic, ce produce soluµii aproximative pentru o mare varietate de probleme matematice prin efectuarea de experimente statistic pe un computer. Se poate aplica atât problemelor cu deterministe, cât ³i celor probabilistice ³i este folositoare în obµinerea de soluµii numerice pentru probleme care sunt prea dicile în a rezolvate analitic. Este o metod folosit de secole, dar a c p tat statutul de metod numeric din anii În 1946, S. Ulam 7 a devenit primul matematician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile de noroc, în special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis 8 a adus contribuµii importante metodei. Are la baz generarea de numere aleatoare convenabile ³i observarea faptului c o parte dintre acestea veric o proprietate sau anumite propriet µi. În general, orice metod care are la baz generarea de numere aleatoare în vederea determin rii rezultatului unui calcul este numit o metod Monte Carlo. Orice eveniment zic care poate v zut ca un proces stochastic este un candidat în a modelat prin metoda MC. Integrarea folosind metoda Monte Carlo Dorim s folosim metode Monte Carlo pentru evaluarea integralei I = b a f(x) dx. (17.1) În general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, însa este foarte util în cazul în care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient decât alte metode de aproximare când dimensiunea spaµiului e mare. Dac dorim aplicarea metodei MC, atunci avem de ales una din urm toarele variante: Varianta 1 (poate aplicat doar pentru f 0. Dac f ³i valori negative, dar este m rginit inferior, atunci putem utiliza o translaµie, astfel încât s avem de integrat o funcµie nenegativ ) Încadr m gracul funcµiei f într-un dreptunghi D = [a, b] [0, d], unde d > sup f. Evalu m integrala folosindu-ne de calculul probabilit µii evenimentului A, c un punct [a, b] ales la întâmplare în interiorul dreptunghiului D s se ae sub gracul funcµiei f(x). Facem urm toarea experienµ aleatoare: alegem în mod uniform (comanda rand ne ofer aceast posibilitate în Matlab) un punct din interiorul dreptunghiului ³i test m dac acest punct se a sub gracul lui f(x). Repet m experienµa de un num r N (mare) de ori ³i contabiliz m num rul de apariµii f(n) ale punctului sub grac. Pentru un num r mare de experienµe, probabilitatea ca un punct generat aleator în interiorul dreptunghiului s se ae sub gracul funcµiei va aproximat de frecvenµa relativ a realiz rii evenimentului, 7 Stanislaw Marcin Ulam ( ), matematician de origine polonez, n scut în Lvov, Ucraina 8 Nicholas Constantine Metropolis ( ), zician grec

128 CSA 9 [Dr. Iulian Stoleriu] 127 adic Pe de alt parte, probabilitatea teoretic este de unde aproximarea P = P f(n) N. I aria dreptunghi, I aria dreptunghi f(n) N. (17.2) Totu³i, aceast metod nu e foarte ecient, deoarece N trebuie s e foarte mare pentru a avea o precizie bun. Exemplu Utilizând metoda Monte Carlo, s se evalueze integrala I = 5 2 e x2 dx. Soluµie: Gener m 10 6 puncte aleatoare în interiorul p tratului [ 2, 5] [0, 1] ³i veric m care dintre acestea se a sub gracul funcµiei f(x) = e x2, x [0, 1]. Urm toarea funcµie Matlab calculeaz integrala dorit : function I = integrala(n) % functia integrala.m x = 7*rand(N,1)-2; y = rand(n,1); % genereaza N numere aleatoare in [ 2, 5] [0, 1] f = find(y < exp(-x.^2)); % numar punctele aflate sub graficul functiei e x2 I = 7* length(f)/n; % formula (17.2) O rulare a funcµiei, integrala(1e6), ne furnizeaz rezultatul I = Varianta 2 Putem rescrie integrala în forma unde I = (b a) b a 1, dac x [a, b], h(x) = b a 0, altfel. f(x)h(x) dx, (17.3) Funcµia h(x) denit mai sus este densitatea de repartiµie a unei v.a. X U[a, b], iar relaµia (17.1) se rescrie I = (b a)e(f(x)). (17.4) Folosind legea slab a numerelor mari, putem aproxima I prin: I b a N N f(x k ), (17.5) k=1 unde X k sunt numere aleatoare ce urmeaz repartiµia U[a, b].

129 CSA 9 [Dr. Iulian Stoleriu] 128 Putem generaliza aceast metod pentru calculul integralelor de tipul f(x) dx, unde V R n. V Exemplu S se evalueze integrala din Exemplul (17.3) folosind formula (17.5). Soluµie: Codul Matlab este urm torul: x = 7*rand(1e6,1)-2; % genereaza 10 6 numere aleatoare U( 2, 5) g = exp(-x.^2); % g(x) = e x2 I = 7*mean(g) % 7*media lui g(x) sau, restrâns, putem apela urm toarea comand : estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2))) % I Exemplu Evaluând integrala I = 1 0 e x dx printr-o metod Monte Carlo s se estimeze valoarea num rului transcendent e. (e = I + 1). Soluµie: estimate = mean(exp(rand(10^6,1))) + 1 % e

130 LSA 9 [Dr. Iulian Stoleriu] Statistică Aplicată (L9) Exemplu (aproximarea lui π folosind jocul de darts) În ce const jocul? S presupunem c suntem la nivelul încep tor. Avem de aruncat o s geat ascuµit, ce poate penetra cu u³urinµ lemnul, spre o tabl p trat din lemn, în interiorul c ruia se a desenat un cerc circumscris p tratului. Dac s geata se înnge în interiorul discului atunci aµi câ³tigat un punct, dac nu - nu câ³tigaµi nimic. Repet m jocul de un num r N de ori ³i contabiliz m la sfâr³it num rul de puncte acumulate, s zicem c acest num r este ν N. S presupunem c sunteµi un juc tor slab de darts (asta implic faptul c orice punct de pe tabl are aceea³i ³ans de a µintit), dar nu a³a de slab încât s nu nimeriµi tabla. Cu alte cuvinte, presupunem c de ecare dat când aruncaµi s geata, ea se înnge în tabl. Se cere s se aproximeze valoarea lui π pe baza jocului de mai sus ³i s se scrie un program în Matlab care s simuleze experimentul. Soluµie: S not m cu A evenimentul ca s geata s se înng chiar în interiorul discului. În cazul în care num rul de arunc ri N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat ν N de limit ³irului frecvenµelor relative, adic lim n N. Pe de alt parte, P (A) = aria disc aria perete = π 4. A³adar, putem aproxima π prin π 4 ν N N (pentru N 1). (18.1) Funcµia Matlab care aproximeaz pe π este prezentat mai jos. Metoda care a stat la baza aproxim rii lui π este o metoda Monte Carlo. function Pi = darts(n) % numar de aruncari theta = linspace(0,2*pi,n); % genereaza vectorul theta x = rand(n,1); y = rand(n,1); % (x,y) - intepaturi X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar plot(x,y,'b+',x,y,'r-'); % deseneaza cercul si punctele S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese Prob = S/N; % frecventa relativa approxpi = 4*Prob; % aproximarea lui pi axis([ ]); % deseneaza axele title([int2str(n),' aruncari, \pi \approx ', num2str(approxpi)]); O simpl rulare a funcµiei, darts(2000), ne genereaz Figura 18.1.

131 LSA 9 [Dr. Iulian Stoleriu] 130 Figura 18.1: Simularea jocului de darts. Exerciµiu Într-o clas sunt 30 de elevi. Calculaµi probabilitatea ca m car doi dintre ei s serbeze ziua de na³tere în aceaa³i zi a anului. Folosiµi o metod Monte Carlo pentru a aproxima aceast probabilitate. [1] Metoda teoretica: Notam cu A evenimentul ca macar doi elevi din clasa sa serbeze ziua de nastere in aceeasi zi a anului. Atunci, A este evenimentul ca sa nu exista elevi din clasa care sa serbeze ziua de nastere in aceeasi zi a anului. Avem ca: P (A) = 1 P (A). Calculam mai intai probabilitatea evenimentului contrar, A. Spatiul selectiilor, Ω, este Obtinem ca: In Matlab, scriem: Ω = {E = (e 1, e 2,..., e 30 ), e k 1, 365}, Ω = A = {E Ω, e i e j }, A = A P (A) = 1 P (A) = 1 A = p = 1 - factorial(30)*nchoosek(365,30)/(365)^(30) [2] Metoda Monte Carlo: Generam un numar sucient de mare (N = 10 6 ) de vectori formati din 30 de valori (ecare vector reprezita o variabila uniform discreta U(365), cu comanda unidrnd(365,30,1e6)) din multimea zilelor anului, {1, 2,..., 365}. Obtinem o matrice M cu 30 de linii si 10 6 coloane. Fiecare coloana reprezinta o posibila clasa de 30 de elevi. Dorim sa observam in cate astfel de clase exista macar doi elevi care serbeaza ziua de nastere in aceeasi zi a anului. Pentru aceasta, va trebui sa vericam pe cate coloane avem dubluri de valori. Daca notam cu ν N numarul de dubluri, atunci putem aproxima probabilitatea cautata prin P (A) = ν N N.

132 LSA 9 [Dr. Iulian Stoleriu] 131 Totusi, este mai usor sa numaram cate coloane nu contin dubluri, ceea ce va conduce la calcularea probabilitatii evenimentului contrar. Pentru aceasta, procedam astfel: ordonam crescator valorile pe coloane (comanda sort), apoi facem diferentele componentelor consecutive ale elementelor de pe ecare coloana a matricei M. Daca ar exista macar o dublura pe o coloana, atunci ar aparea macar un 0 in vectorul diferentelor. Comanda all verica daca exista macar o componenta zero pe ecare coloana, atribuind valoarea 1 in caz ca nu exista si 0 in cazul in care exista. Insumam aceste valori, obtinand astfel numarul cazurilor in care nu exista dubluri ale zilelor de nastere, i.e., numarul de clase in care nu am gasit doi copii ce serbeaza aceeasi zi de nastere. Pe scurt, scriem povestea de mai sus astfel: p = 1 - sum(all(diff(sort(unidrnd(365,30,1e6)))))/1e6 obtinand aproximarea p = Exerciµiu Utilizaµi metoda Monte Carlo pentru a g si aproxim ri pentru urm toarele integrale: (a) 1 0 x + 3 x dx, (b) dx, (c) 1 + x2 π 0 sin( x) dx, Folosind metoda MC: x = rand(1e6,1); f = sqrt(x+x.^(1/3)); I_a = mean(f) % I_a = y = 5*rand(1e6,1)-2; f = 4/(1+y.^2); I_b = mean(f) % I_b = z = pi*rand(1e6,1); f = sin(sqrt(z)); I_c = pi*mean(f) % I_c = ori, folosind functia quadl din Matlab: I_a = quadl(@(x)sqrt(x+x.^(1/3)),0,1) % I_a = I_b = quadl(@(y)4./(1+y.^2)),-2,3) % I_b = I_c = quadl(@(z)sin(sqrt(z)),0,pi) % I_c = (d) x 2 y 2 dy dx. Folosind metoda MC: x = rand(1e6,1); y = 2*rand(1e6,1)-1; f = sqrt(4-x.^2-y.^2); ori, folosind functia dblquad din Matlab: I_c = dblquad(@(x,y)sqrt(4-x.^2-y.^2),0,1,-1,1) I_c = 2*mean(f) % I_c = % I_c =

133 LSA 9 [Dr. Iulian Stoleriu] 132 Probleme propuse Exerciµiu (paradoxul de la St. Petersburg) S presupunem c într-un cazino se desf ³oar urm torul joc cu un singur juc tor, pe care-l numim J. O moned ideal este aruncat iar, dac apare faµa cu stema (S), atunci J prime³te 2 din partea casei, iar jocul continu. Dac la a doua aruncare apare tot stema, atunci J prime³te 4 ³i jocul continu mai departe, pan când la o aruncare apare cealalt faµ, caz în care jocul se opre³te. La ecare nou apariµie a feµei S, suma pe care J o avea se dubleaz. Dac not m cu X variabila aleatoare ce reprezint suma câ³tigat de J, atunci tabloul s u de distribuµie este: ( n )... X = n S se simuleze în Matlab acest joc, precizând la nal suma câ³tigat de J. câ³tigat de J la acest joc? Care este suma medie Exerciµiu Folosind generarea de numere aleatoare în Matlab, calculaµi aria regiunii din plan pentru care 1 x 1 ³i 0 y x 3. Exerciµiu Timpul mediu de functionare al unui bec este o variabila aleatoare N (2000h, 50h). Alegem la intamplare un bec de acest tip. Care este probabilitatea ca el sa functioneze mai mult de 2500h? Folositi o metoda Monte Carlo de aproximare a probabilitatii. Exerciµiu Tabelul al turat conµine mediile generale obµinute de 7 elevi de liceu care au fost transferaµi de la un liceu la altul, in anul inainte de transfer si in anul de dupa transfer. Elevi A B C D E F G inainte dupa Consideraµi variabila ce reprezint diferenµa mediilor. (a) Determinaµi media de selecµie ³i deviaµia standard. (b) Folosind bootstrapping, determinaµi un interval de încredere pentru diferenµa mediilor. (c) Folosind un test de permut ri, testaµi ipoteza c nu este nicio diferenµ între medii. Exerciµiu Un anumit medicament pentru tratarea hipertensiunii arteriale este testat pe 3 voluntari. Rezultatele inainte si dupa administrarea medicamentului sunt: pacientul P 1 P 2 P 3 inainte dupa Folosind un test de permut ri, testaµi ipoteza c administrarea medicamentului este benec. Care ar rezultatul dac am presupune normalitatea datelor?

134 CSA 10 [Dr. Iulian Stoleriu] 133 Statistică Aplicată (C10) 19 Corelaµie (C10) Introducere În acest capitol vom discuta m suri ³i tehnici de determinare a leg turii între dou sau mai multe variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [12], [13], [14]. Primele metode utilizate în studiul relaµiilor dintre dou sau mai multe variabile au ap rut de la începutul secolului al XIX-lea, în lucr rile lui Legendre 9 ³i Gauss 10, în ce prive³te metoda celor mai mici p trate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om de ³tiinµ al timpului, Francis Galton 11, a studiat gradul de asem nare între copii ³i p rinµi, atât la oameni, cât ³i la plante, observând c în lµimea medie a descendenµilor este legat liniar de în lµimea ascendenµilor. Este primul care a utilizat conceptele de corelaµie ³i regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit c din p rinµi a c ror în lµime este mai mic decât media colectivit µii provin copii cu o în lµime superioar lor ³i viceversa. Astfel, a concluzionat c în lµimea copiilor ce provin din p rinµi înalµi tinde s "regreseze" spre în lµimea medie a populaµiei. Din lucr rile lui Galton s-a inspirat un student de-al s u, Karl Pearson, care a continuat ideile lui Galton ³i a introdus coecientul (empiric) de corelaµie ce îi poart numele. Acest coecient a fost prima m sur important introdus ce cuantica t ria leg turii dintre dou variabile ale unei populaµii statistice. Un ingredient fundamental în studiul acestor dou concepte este diagrama prin puncte, numita diagrama scatter plot. În probleme de regresie în care apare o singur variabila r spuns ³i o singur variabil observat, diagrama scatter plot (r spuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram scatter plot ar trebui reprezentat pentru orice problem de analiz regresional, deoarece aceasta ne va da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat în Figura 19.1, în care am reprezentat coecientul de inteligenµ (IQ) a 200 de perechi soµ-soµie. Fiecare cruciuliµ din diagram reprezint IQ-ul pentru o pereche soµ-soµie. Corelaµie teoretic Corelaµie ³i coecient de corelaµie Corelaµia este un termen statistic folosit pentru a deni interdependenµa sau leg tura între dou sau mai multe variabile aleatoare. Totodat, corelaµia este ³i o metod statistic de descriere ³i analiz a leg turilor de tip statistic între dou sau mai multe variabile. Dac X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaµia sau covarianµa (teoretic ) dintre X ³i Y se dene³te prin: cov(x, Y ) = E [(X E(X)) (Y E(Y ))] = E(X Y ) E(X) E(Y ). Observaµia (i) Din punct de vedere teoretic, dac X ³i Y sunt variabile aleatoare independente, atunci cov(x, Y ) = 0. 9 Adrien-Marie Legendre ( ), matematician francez 10 Johann Carl Friedrich Gauss ( ), matematician ³i zician german 11 Sir Francis Galton ( ), om de ³tiinµ britanic

135 CSA 10 [Dr. Iulian Stoleriu] 134 Figura 19.1: Scatter plot pentru IQ în familie. Reciproca nu este, în general, adev rat. De exemplu, dac X U( 1, 1) ³i Y = X 2, atunci cov(x, Y ) = 0, îns X ³i Y sunt dependente. (se poate verica, de asemenea, c E(X Y ) = E(X) E(Y )). (ii) În cazul în care X ³i Y sunt, în plus, variabile aleatoare normal repartizate, atunci independenµa variabilelor aleatoare X ³i Y este echivalent cu cov(x, Y ) = 0. O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie. Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie pozitiv, însemnând c X ³i Y cresc sau descresc împreun, sau o corelaµie negativ, însemnând c X ³i Y se modic în direcµii opuse. O m sur a corelaµiei dintre dou variabile este coecientul de corelaµie. Acesta este foarte utilizat în ³tiinµe ca ind o m sur a dependenµei liniare între dou variabile. Din punct de vedere teoretic, denim coecientul de corelaµie a dou variabile aleatoare X ³i Y prin: ρ X,Y = cov(x, Y ) σ X σ Y = cov(x, Y ), unde X ³i Y sunt variabilele aleatoare standardizate iar σ X = ( E(X X) 2) 1/2 ³i σy = ( E(Y Y ) 2) 1/2 sunt deviaµiile standard corespunz toare variabilelor aleatoare X, respectiv Y. Propriet µile coecientului de corelaµie au fost prezentate anterior. În practic, pentru a stabili dac exist sau nu vreo leg tura între dou variabile aleatoare, se fac observaµii asupra acestora, urmând apoi a cuantica relaµia dintre observaµii. Fie (x k, y k ), k {1, 2,..., n} un set de date bidimensionale, ce reprezint observaµii asupra vectorului aleator (X, Y ). O m sur a leg turii dintre {x k } k ³i {y k } k este coecientul de corelaµie empiric introdus

136 CSA 10 [Dr. Iulian Stoleriu] 135 de K. Pearson (în literatura de specialitate mai este cunoscut ³i sub denumirea de coecientul r): n (x k x)(y k y) unde cov e (x, y) = 1 n 1 r = k=1 (19.1) n (x k x) 2 n (y k y) 2 k=1 k=1 = cov e(x, y) s x s y, (19.2) n (x k x)(y k y), s x = 1 n 1 k=1 n (x k x) 2, s y = 1 n 1 sunt covarianµa (corelaµia) empiric ³i deviaµiile standard empirice pentru X ³i Y. Spre exemplu, pentru selecµiile k=1 n (y k y) 2 k=1 x = [ ]; y = [ ]; coecientul r al lui Pearson este r = Asemeni coecientului de corelaµie teoretic, ρ X,Y, coecientul r al lui Pearson ia valori doar în intervalul [ 1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri în care putem trage concluzia c variabilele X ³i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 19.2). Pentru valori ale lui r între 1 ³i 1, nu putem vorbi de gradul de corelare între X ³i Y f r a efectua un test statistic asupra valorii coecientulul teoretic de corelaµie, ρ. De multe ori îns, putem arma ca avem o corelaµie pozitiv dac r este apropiat de valoarea 1 (e.g., r = 0.85, caz în care norul de date are panta ascendent ) ³i avem o corelaµie negativ dac r este apropiat de valoarea 1 (e.g., r = 0.98, caz în care norul de date are panta descendent ). Rezultatul r = de mai sus ar putea sugera faptul c cele dou selecµii au fost obµinute independent una faµ de cealalt (i.e., ρ = 0), fapt ce va trebui conrmat folosind un test statistic în care test m ipoteza nul ρ = 0, cu ipoteza alternativ ρ 0. Figura 19.2: Scatter plots ³i coecienµi de corelaµie. Test statistic pentru coecientul de corelaµie Pearson

137 CSA 10 [Dr. Iulian Stoleriu] 136 Presupunem c avem un set de date bidimensionale (x k, y k ), k {1, 2,..., n} asupra variabilelor aleatoare X, Y, ³i am calculat r, obµinând o valoare r 0 apropiat de 0. Plecând doar de la acest informaµie, nu putem extrapola ³i decide gradul de corelare între X ³i Y. Pentru aceasta, vom construi un test statistic, care va decide dac valoarea real a lui ρ (coecientul teoretic de corelaµie) este 0 sau semnicativ diferit de 0. Consider m ipoteza nul vs. ipoteza alternativ (H 0 ) ρ X,Y = 0 (variabilele aleatoare nu sunt corelate) (H 1 ) ρ X,Y 0 (variabilele aleatoare sunt corelate) Alegem un nivel de semnicaµie α << 1 (e.g., α = 0.05) ³i consider m statistica n 2 T = r 1 r 2 t(n 2). Calculez valoarea statisticii T pentru r = r 0 (o not m cu T 0 ) ³i, de asemenea, calcul m cuantila t 1 α 2 ; n 2, de ordin 1 α 2 a repartiµiei t cu (n 2) grade de libertate. Decizia nal este urm toarea: T 0 < t 1 α 2 ; n 2, atunci ipoteza (H 0 ) este acceptat ; T 0 t 1 α 2 ; n 2, atunci ipoteza (H 0 ) este respins. Observaµia (i) Coecientul lui Pearson, r, este un num r adimensional ce stabile³te doar dac exist o leg tura liniar între dou seturi de date statistice. Totodat, în denirea acestui coecient se presupune c datele statistice urmeaz o repartiµie normal. De multe ori, în practic, doar coecientul r sigur nu poate edicator asupra t riei leg turii între dou seturi de date statistice, ba chiar poate genera informaµii false în cazul în care cele dou seturi date nu depind liniar unul de cel lalt. De aceea, ³i alµi coecienµi pentru determinarea corelaµiei sunt luaµi în consideraµie, cum ar : ˆ r 2, coecientul de determinare (notat în Statistic prin R 2 ), care stabile³te care este procentul din variaµia uneia dintre datele statistice ce determina (sau explic ) pe celelalte date. De exemplu, un coecient de determinare R 2 = 0.42 semnic faptul c variabila independent explic doar 42% din variaµia variabilei dependente. În Statistic, acest coecient este denit în mai multe moduri, unele nu tocmai într-un mod echivalent; ˆ coecientul lui Spearman 12, coecientul lui Kendall 13 etc. (acestea nu presupun c datele statistice sunt normale) (ii) Se poate testa, de asemenea, ipoteza nul îns aceasta nu este foarte des întâlnit în practic. În acest sens, se poate utiliza statistica Z = 1 ( ) 1 + r 2 ln N 1 r (H 0 ) : ρ X, Y = ρ 0, cu ρ 0 0, ( 1 2 ln ( 1 + ρ0 1 ρ 0 ), ) 1. n 3 (iii) Corelaµia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaµie între vârst ³i în lµime la copii, îns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaµia poate luat în evidenµ pentru o posibil relaµie cauzal, îns nu este determinant ³i nu poate preciza relaµia cauzal, dac aceast exist. (iv) Volumul selecµiei este un factor foarte important în testarea ipotezei c dou variabile aleatoare sunt necorelate. Spre exemplu, o relaµie poate puternic (având un r nu foarte aproape de 0), îns nu semnicativ, dac valoarea lui n nu este sucient de mare. Invers, o relaµie poate slab (un r aproape de 0), dar semnicativ. Exemplul (19.3) poate edicator. 12 Charles Edward Spearman ( ), psiholog britanic 13 Sir Maurice George Kendall ( ), statistician britanic

138 CSA 10 [Dr. Iulian Stoleriu] 137 Exemplu S presupunem c dorim s stabilim dac exist vreo leg tura între vârst unei persoane ³i coecientul s u de inteligenµ. Culegem astfel dou seturi de datele asupra acestor caracteristici, de volum n = 10, ³i s presupunem c am g sit un coecient de corelaµie empiric r = Se cere: (a) Este aceast leg tur puternic? (b) Este aceast leg tur semnicativ? Soluµie: (a) Calcul m coecientul de determinare, R 2, ³i g sim R 2 = Asta semnic faptul c doar 38.44% din variaµia coecientului de inteligenµ este explicat de vârst. (b) Aplic m testul pentru coecientul de corelaµie la un nivel de semnicaµie α = Statistica considerat va avea 8 grade de libertate, T 0 = = < = t 0.975; 8, de unde concluzion m c ipoteza nul ρ = 0 este admis (i.e., nu sunt dovezi suciente pentru ca ipoteza s poate respins la acest nivel de semnicaµie).. (v) Se poate testa ³i ipoteza c doi coecienµi de corelaµie ce corespund a dou selecµii diferite difer semnicativ unul de cel lalt. Presupunem c avem de testat ipoteza vs. ipoteza alternativ (H 0 ) : ρ 1 = ρ 2, (H 1 ) : ρ 1 ρ 2. Presupunem c volumele selecµiilor folosite în testare sunt n 1 ³i n 2 ³i c r 1, r 2 sunt coecienµii de corelaµie empirici calculaµi. Pentru a testa ipoteza de mai sus, consider m statistica Z = Z 1 Z 2 (µ Z1 µ Z2 ) 1 n n 2 3 N (0, 1), unde Z i = 1 ( ) ln ri, µ Zi = 1 ( ) r i 2 ln ρi, i = 1, 2. 1 ρ i Coecientul de corelaµie Spearman În cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coecientul de corelaµie Pearson nu mai poate calculat. Pentru aceste date, este util de calculat coecientul de corelaµie Spearman, sau coecientul de corelaµie a rangurilor. Acest coecient poate calculat atât pentru date calitative, cât ³i pentru date cantitative. Pentru a calcula acest coecient, ec rui atribut sau ec rei valori a caracteristicii i se desemneaz un rang. Coecientul de corelaµie Spearman este coecientul de corelaµie Pearson pentru aceste ranguri. În general, dac (x i, y i ), n este un set de date bidimensionale, reprezentând rangurile corespunz toare variabilelor cercetate, ³i not m cu r S coecientul de corelaµie Spearman, atunci n (x k x)(y k y) k=1 r S =. (19.3) n (x k x) 2 n (y k y) 2 k=1 La fel ca ³i coecientul lui Pearson, coecientul Spearman ia valori reale în intervalul [ 1, 1]; valoarea 1 însemnând corelaµie pozitiv perfect a rangurilor, iar valoarea 1 însemnând corelaµie negativ perfect a rangurilor. În cazul în care avem n perechi de observaµii ³i nu exist valori egale pentru rangurile aceleia³i variabile, atunci formula alternativ pentru calcului lui r S este: 6 n k=1 d 2 i r S = 1 n(n 2 1), (19.4)

139 CSA 10 [Dr. Iulian Stoleriu] 138 unde d i = x i y i, i.e., diferenµa dintre rangurile corespunz toare pentru poziµia i. Vezi exemplele (20.1) ³i (20.2). Se poate, de asemenea, testa semnicatia valorii obtinute, r S. Testul este acelasi ca in cazul semnicatiei coecientului Pearson, cu deosebirea ca r este inlocuit cu r S.

140 LSA 10 [Dr. Iulian Stoleriu] Statistică Aplicată (L10) Exemplu Doi degust tori de vinuri (denumiµi D1 ³i D2) au fost rugaµi s testeze 9 soiuri de vin ³i s le claseze în ordinea preferinµelor. S not m mostrele testate cu A, B, C, D, E, F ³i G. Preferinµele acestora sunt cele din Tabelul 20.1, în ordinea descresc toare a preferinµelor. Tabelul 20.2 conµine rangurile preferinµelor celor doi degust tori, iar Figura 20.1 reprezint grac rangurile (diagrama scatter plot). Mostra A B C D E F G H I D1 E B A G C H F D I D2 B E C G A H D I F Tabela 20.1: Preferinµele degust torilor de vin. Mostra rang D1 rang D2 A 3 5 B 2 1 C 5 3 D 8 7 E 1 2 F 7 9 G 4 4 H 6 6 I 9 8 Tabela 20.2: Tabel cu rangurile preferinµelor. Din diagrama scatter plot se observ o corelaµie pozitiv între ranguri, ceea ce implic o oarecare concordanµ între preferinµele celor doi degust tori. Coecientul de corelaµie Spearman va atribui o valoare numeric acestei concordanµe, aceasta ind r S = Tem! Utilizaµi testul semnelor pentru a testa ipoteza c preferinµele celor doi degust tori nu sunt semnicativ diferite (α = 0.05). Figura 20.1: Scatter plot pentru ranguri. Exist cazuri (în special pentru date cantitative) când valorile caracteristicii se repet, a³a încât pentru valori egale desemn m acela³i rang. În aceste cazuri nu mai putem utiliza formula (19.4) pentru calculul coecientului Spearman, ci va trebui s utiliz m formula (19.3) (vezi exemplul urm tor). Exemplu Datele din Tabelul 20.3 reprezint num rul de accidente rutiere (A) ³i num rul de decese (D) înregistrate într-un anumit ora³, în primele 6 luni ale anului. Rangurile corespunz toare valorilor sunt prezentate în Tabelul Datele au fost introduse în tabel în ordinea invers a num rului de accidente. De notat c, deoarece num rul de decese înregistrate în luna Mai este egal cu num rul de decese din Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziµii în care s-ar aa. Folosind formula (19.3), calcul m coecientul de corelaµie Spearman. Acesta este r S =

141 LSA 10 [Dr. Iulian Stoleriu] 140 Luna Ian. Feb. Mar. Apr. Mai Iun. A D Tabela 20.3: Evenimente rutiere în primele 6 luni. Luna A rang A D rang D Ian Feb Mai = 2.5 Mar Iun Apr = 2.5 Tabela 20.4: Tabel cu rangurile pentru accidente. Probleme propuse Exerciµiu Tabelul de mai jos conµine calicativele obµinute de un elev de clasa I la o selectie de 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a-ii-a. Discipline A B C D E F G H I clasa I S FB FB B B FB S B FB clasa a II-a B I B FB FB B B S B (a) Calculaµi coecientul de corelaµie Spearman ³i semnicaµia lui pentru calicativele obµinute în clasa I ³i cele din clasa a II-a. (b) La nivelul de semnicaµie α = 0.05, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în clasa a II-a Exerciµiu Se m soar viteza unei ma³ini în primele 10 secunde dup ce a început s accelereze. Datele sunt înregistrate în tabelul de mai jos. t v Folosind un test statistic, vericaµi dac t (timp) ³i v (vitez ) sunt liniar corelate (α = 0.04). Exerciµiu S-a realizat un studiu pentru a aa dac exist vreo relaµie între masa corporal ( M) ³i presiunea sanguin (P) la oameni. Urm torul set de date a fost obµinut dintr-un studiu clinic, alegând 10 persoane la întâmplare. M P (a) Calculaµi indicele de corelaµie Pearson ³i determinaµi semnicaµia acestuia ( α = 0.05). (b) Calculaµi indicele de corelaµie Spearman dintre W ³i P. Exerciµiu Tabelul de mai jos conµine mediile obµinute de un elev de clasa a V-a la toate disciplinele ³colare, pentru ecare dintre cele dou semestre. Discipline A B C D E F G H I J semestrul I semestrul al II-a (a) Calculaµi coecientul de corelaµie Pearson ³i testaµi semnicaµia valorii obµinute. ( α = 0.04) (b) Calculaµi coecientul de corelaµie Spearman. (c) Folosind un test potrivit, testaµi ipoteza c rezultatele elevului s-au îmbun t µit în semestrul al doilea. ( α = 0.04)

142 CSA 11 [Dr. Iulian Stoleriu] 141 Statistică Aplicată (C11) 21 Regresie C(11) Punerea problemei Regresia este o metod statistic utilizat pentru descrierea naturii relaµiei între variabile. De fapt, regresia stabile³te modul prin care o variabil depinde de alt variabil, sau de alte variabile. Analiza regresional cuprinde tehnici de modelare ³i analiz a relaµiei dintre o variabil dependent (variabila r spuns) ³i una sau mai multe variabile independente. De asemenea, r spunde la întreb ri legate de predicµia valorilor viitoare ale variabilei r spuns pornind de la o variabil dat sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante în prezicerea variabilei r spuns. Se nume³te variabil independent o variabil ce poate manipulat (numit ³i variabil predictor, stimul sau comandat ), iar o variabil dependent (sau variabila prezis ) este variabila care dorim s o prezicem, adic o variabil c rei rezultat depinde de observaµiile f cute asupra variabilelor independente. S lu m exemplul unei cutii negre (black box) (vezi Figura 21.1). În aceasta cutie intr (sunt înregistrate) informaµiile x 1, x 2,..., x m, care sunt prelucrate (în timpul prelucr rii apar anumiµi parametri, β 1, β 2,..., β k ), iar rezultatul nal este înregistrat într-o singur variabila r spuns, y. De exemplu, se dore³te a se stabili o relaµie între valoarea pensiei (y) în funcµie de num rul de ani lucraµi (x 1 ) ³i salariul avut de-alungul carierei (x 2 ). Variabilele independente sunt m surate exact, f r erori. În timpul prelucr rii datelor sau dup aceasta pot ap ra distorsiuni în sistem, de care putem µine cont dac introducem un parametru ce s cuantice eroarea ce poate ap rea la observarea variabilei y. Se stabile³te astfel o leg tur între o variabil dependent, y, ³i una sau mai multe variabile independente, x 1, x 2,..., x m, care, în cele mai multe cazuri, are forma matematic general y = f(x 1, x 2,..., x m ; β 1, β 2,..., β k ) + ε, (21.1) unde β 1, β 2,..., β k sunt parametri reali necunoscuµi a priori (denumiµi parametri de regresie) ³i ε este o perturbaµie aleatoare. În cele mai multe aplicaµii, ε este o eroare de m sur, considerat modelat printr-o variabil aleatoare normal de medie zero. Funcµia f se nume³te funcµie de regresie. Dac aceasta nu este cunoscut a priori, atunci poate greu de determinat iar utilizatorul analizei regresionale va trebui s o intuiasc sau s o aproximeze utilizând metode de tip trial and error (prin încerc ri). Dac avem doar o variabila independent (un singur x), atunci spunem c avem o regresie simpl. Regresia multipl face referire la situaµia în care avem multe variabile independente. Figura 21.1: Black box. Dac observarea variabilei dependente s-ar face f r vreo eroare, atunci relaµia (21.1) ar deveni (cazul ideal): y = f(x 1, x 2,....., x m ; β 1, β 2,..., β k ). (21.2) Forma vectorial a dependenµei (21.1) este: y = f(x; β) + ε. (21.3) Pentru a o analiz complet a regresiei (21.1), va trebui sa intuim forma funcµiei f ³i apoi s determin m (aproxim m) valorile parametrilor de regresie. În acest scop, un experimentalist va face un num r sucient de observaµii

143 CSA 11 [Dr. Iulian Stoleriu] 142 (experimente statistice), în urma c rora va aproxima aceste valori. Dac not m cu n num rul de experimente efectuate, atunci le putem contabiliza pe acestea în urm torul sistem stochastic de ecuaµii: y i = f(x, β) + ε i, i = 1, 2,..., n. (21.4) În ipoteze uzuale, erorile ε i sunt variabile aleatoare identic repartizate N (0, σ), independente stochastic dou câte dou (σ > 0). Astfel, sistemul (21.4) cu n ecuaµii stochastice algebrice are necunoscutele {β j } j ³i σ. În cazul în care num rul de experimente este mai mic decât num rul parametrilor ce trebuie aproximaµi ( n < k), atunci nu avem suciente informaµii pentru a determina aproxim rile. Dac n = k, atunci problema se reduce la a rezolva n ecuaµii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunci avem un sistem cu valori nedeterminate. În funcµie de forma funcµiei de regresie f, putem avea: ˆ regresie liniar simpl, în cazul în care avem doar o variabil independent ³i ˆ regresie liniar multipl, dac ˆ regresie p tratic multipl (cu dou variabile), dac ˆ regresie polinomial, dac f(x; β) = β 0 + β 1 x. f(x; β) = β 0 + β 1 x 1 + β 2 x β m x m. f(x; β) = β 0 + β 1 x 1 + β 2 x 2 + β 11 x β 12 x 1 x 2 + β 22 x 2 2. f(x; β) = β 0 + β 1 x + β 2 x 2 + β 3 x β k x k. Vom avea regresie p tratic pentru k = 2, regresie cubic pentru k = 3 etc. ˆ regresie exponenµial, când f(x; β) = β 0 e β1 x. ˆ regresie logaritmic, dac f(x; β) = β 0 log β1 x. ˆ ³i altele. De remarcat faptul c primele patru modele sunt liniare în parametri, pe când ultimele dou nu sunt liniare în parametri. Modelele determinate de aceste funcµii se vor numi modele de regresie (curbe, suprafeµe etc). În cadrul analizei regresionale, se cunosc datele de intrare, {x i } i, ³i c ut m s estim m parametrii de regresie {β j } j ³i deviaµia standard a erorilor, σ. Dac funcµia de regresie f este cunoscut (intuit ), atunci metode statistice folosite pentru estimarea necunoscutelor sunt: metoda verosimilit µii maxime, metoda celor mai mici p trate ³i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea necunoscutelor sunt: metoda celor mai mici p trate sau metoda minimax. Regresie liniar simpl Este cel mai simplu tip de regresie, în care avem o singur variabil independent, x, ³i variabila dependent y. S presupunem c ni se d familia de date bidimensionale {(x i, y i )}, n. Reprezent m grac aceste date într-un sistem x0y (de exemplu, vezi Figura 21.2 (a)) ³i observ m o dependenµ aproape liniar a lui y de x. Dac valoarea coecientului de corelaµie liniar, r, este aproape de 1 sau 1 (indicând o corelaµie liniar strâns ), atunci se pune problema stabilirii unei relaµii numerice exacte între x ³i y de forma y = β 0 + β 1 x. (21.5) O astfel de dreapt o vom numi dreapta de regresie a lui y în raport cu x. Pentru un set de date bidimensionale ca mai sus, putem reprezenta aceast dreapt ca în Figura 21.2 (b).

144 CSA 11 [Dr. Iulian Stoleriu] 143 Figura 21.2: Aproximarea unui nor de date prin dreapta de regresie. Exemplu Te hot r ³ti s cumperi ma³ina favorit, ce se vinde acum la preµul de EUR. La semnarea contractului de vânzare-cump rare, pl te³ti suma iniµial de RON ³i apoi rate lunare de 650 RON, timp de 5 ani. Dac not m cu X num rul lunilor pân la ultima rat ³i cu Y suma total pl tit pe ma³in, atunci între X ³i Y exist relaµia: Y = X. În acest exemplu, relaµia între X ³i Y este una perfect liniar. O relaµie perfect liniar între datele bidimensionale {(x i, y i )}, n reprezentate în Figura 21.2 ar însemna c toate acestea s-ar aa pe dreapta de regresie, ceea ce nu se întâmpl. De cele mai multe ori, datele reale nu urmeaz o astfel de relaµie perfect (spre exemplu, rata lunar poate una variabil, în funcµie de rata de schimb EUR-RON), caz în care parametrii din dependenµa liniar trebuie a estimaµi. A³adar, va trebui s µinem cont ³i de eventualele perturbaµii din sistem. Putem presupune astfel c dependenµa lui y de x este de forma y = β 0 + β 1 x + ε, (21.6) cu ε o variabil aleatoare repartizat N (0, σ). Plecând de la {x i, y i } i, µelul nostru este s g sim o dreapt ce se apropie cel mai mult (într-un sens bine precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estim m valorile parametrilor de regresie β 0 ³i β 1. Proced m dup cum urmeaz. Înlocuind datele bidimensionale în (21.6), avem urm torul sistem: unde Deoarece y i = β 0 + β 1 x i + ε i, i = 1, n, (21.7) ε i N (0, σ), i ³i ε i sunt independente stochastic. ε i = y i (β 0 + β 1 x i ), i = 1, n, putem interpreta ε i ca ind erorile de aproximare a valorilor observate (y i ) cu cele prezise de dreapta de regresie (adic de valorile β 0 + β 1 x i ). inând cont c ε i N (0, σ) ³i β 0, β 1 sunt valori deterministe, din (21.7) rezult c : y i N (β 0 + β 1 x i, σ), pentru ecare i,

145 CSA 11 [Dr. Iulian Stoleriu] 144 de unde, probabilitatea ca într-o singur m sur toare a x i s obµinem r spunsul y i este P i = 1 ( σ 2π exp (y i β 0 β 1 x i ) 2 ) 2σ 2. Deoarece {ε i } i sunt independente stochastic, probabilitatea ca în cele n observaµii independente s obµinem vectorul de valori (y 1, y 2,,..., y n ) este (funcµia de verosimilitate): ( ) n 1 n (y i β 0 β 1 x i ) 2 L(β 0, β 1, σ) = P i = exp σ n (2π) n/2 2σ 2. Avem de estimat urm toarele cantit µi: β 0, β 1 ³i σ. Pentru aceasta, vom folosi metoda verosimilit µii maxime. Urm rim s g sim acele valori ale parametrilor β 0, β 1 ³i σ care maximizeaz funcµia de verosimilitate. A³adar, problema de maximizare este urm toarea: max β 0, β 1, σ L(β 0, β 1, σ). Condiµiile de extrem (impuse pentru ln L) sunt: ln L β 0 = ln L β 1 = ln L σ 1 2σ 2 1 2σ 2 n (y i β 0 β 1 x i ) = 0; n x i (y i β 0 β 1 x i ) = 0; = n σ + 1 n σ 2 (y i β 0 β 1 x i ) 2 = 0. Rezolvând primele dou ecuaµii în raport cu β 0 ³i β 1, obµinem estimaµiile: unde, x = 1 n n x i, β 1 = s xy s xx ³i β0 = y β 1 x, (21.8) y = 1 n n y i, s xx = n (x i x) 2, s xy = Astfel, g sim c dreapta de regresie a lui y în raport cu x este aproximat de dreapta: sau, altfel scris, Din ultima condiµie de extrem, g sim c o estimaµie pentru dispersia σ 2 este: ˆσ 2 = 1 n n (x i x)(y i y). y = y β 1 x + s xy s xx x, (21.9) y = y + s xy s xx (x x). (21.10) n (y i β 0 β 1 x i ) 2. (21.11) Îns, estimaµia pentru σ 2 dat prin formula (21.11) este una deplasat. În practic, în locul acestei estimaµii se utilizeaz urm toarea estimaµie nedeplasat : Observaµia [1] Terminologie: σ 2 = 1 n 2 n (y i β 0 β 1 x i ) 2. (21.12) ˆ dreapta de regresie, y = β 0 + β 1 x, este dreapta ce determin dependenµa liniar a lui y de valorile lui x, pentru întreaga populaµie de date (dac acasta exist );

146 CSA 11 [Dr. Iulian Stoleriu] 145 Figura 21.3: Estimarea dreptei de regresie. ˆ aproximarea dreptei de regresie (en., tting line), y = β 0 + β 1 x, este dreapta care se apropie cel mai mult (în sensul metodei celor mai mici p trate) de datele experimentale (de selecµie) {x i, y i } i. Aceast dreapt este o aproximare a dreptei de regresie; ˆ Valorile y i se numesc valori observate, iar valorile ŷ i = β 0 + β 1 x i, i = 1, n se numesc valori prezise (i = 1, n); ˆ valorile ε i = y i ŷ i = y i β 0 β 1 x i se numesc reziduuri. Un reziduu m soar deviaµia unui punct observat de la valoarea prezis de estimarea dreptei de regresie (dreapta de tare); n n ˆ suma p tratelor erorilor, ε 2 i = (y i β 0 β 1 x i ) 2, se noteaz de obicei prin SSE (sum of squared errors); ˆ eroarea medie p tratic sau rezidual este MSE = SSE (mean squared error). Dupa cum se poate observa n 2 din relatia (21.12), MSE = σ 2 este un estimator pentru dispersia erorilor, σ 2. ˆ r d cina p trat a MSE este σ si se nume³te eroarea standard a regresiei; ˆ se poate demonstra c SSE σ 2 = (n 2) σ2 σ 2 χ2 (n 2). cu autorul acestei relaµii se pot g si intervale de încredere pentru valoarea real a lui σ 2. În formula (21.12), (n 2) reprezint num rul gradelor de libertate ale variabilei SSE. [2] Estimaµia dispersiei este o m sur a gradului de împr ³tiere a punctelor (x, y) în jurul dreptei de regresie. Mai subliniem faptul c valorile din formulele (21.8) ³i (21.12) sunt doar estimaµii ale parametrilor necunoscuµi, ³i nu valorile lor exacte. Formula pentru β 1 mai poate scris sub forma: β 1 = r xy s y s x, unde s x = 1 n (x i x) n 1 2, s y = 1 n (y i y) n 1 2, r xy = cov e(x, y). s x s y

147 CSA 11 [Dr. Iulian Stoleriu] 146 [3] Dac deviaµia standard σ ar cunoscut a priori, atunci putem estima parametrii β 0 ³i β 1 în urm torul mod. Estim m ace³ti doi parametri prin acele valori ce realizeaz minimumul sumei p tratelor erorilor SSE. Vom avea astfel problema de minimizare (metoda celor mai mici p trate): Notând cu F (β 0, β 1 ) = min β 0, β 1 n (y i β 0 β 1 x i ) 2. n (y i β 0 β 1 x i ) 2, condiµiile de extrem sunt: F β 0 = 2 F β 1 = 2 n (y i β 0 β 1 x i ) = 0; n x i (y i β 0 β 1 x i ) = 0. Rezolvând acest sistem de ecuaµii algebrice în raport cu β 0 ³i β 1, g sim soluµiile β 0 ³i, respectiv, β 1 de mai sus. Aceasta dovede³te c, în cazul în care erorile sunt identic normal repartizate ³i independente stochastic, metoda verosimilit µii maxime este, în fapt, totuna cu metoda celor mai mici p trate. Intervale de încredere pentru parametrii de regresie Estimaµiile pentru parametrii de regresie β 0 ³i β 1 depind de observaµiile folosite. Pentru a decide dac valorile calculate pe baza datelor experimentale {x i, y i } i pot considerate valorile potrivite pentru întreaga populaµie, se vor utiliza test ri statistice. Mai jos, vom prezenta teste statistice cu privire la testarea valorilor ambilor parametri, β 0 ³i β 1, îns cel mai uzual test este testul pentru vericarea valorii pantei dreptei de regresie, β 1. Se poate dovedi (vezi [15]) c β 0 ³i β 1 sunt estimatori nedeplasaµi pentru β 0 ³i, respectiv, β 1. Adic : Variaµele acestor estimatori sunt: D 2 ( β1 ) Mai mult, estimatorii β 0 si β 1 sunt repartizati normal: β 1 N ( β 1, E( β 1 ) = β 1 si E( β 0 ) = β 0. = σ 2 ³i D 2 ( β0 ) ( ) = s σ 1 2 xx n + x2. (21.13) s xx ) σ sxx si β 0 N β 0, σ 1 n + x2 s xx. inând cont c estimatorii β 0 ³i β 1 sunt nedeplasaµi, de relaµiile (21.13), ³i de estimatorul σ 2 pentru σ 2, se poate demonstra c : β 1 β 1 β 0 β t(n 2) si 0 t(n 2). (21.14) σ2 1 σ s xx n + x2 s xx Aici, am notat prin σ cantitatea: σ = 1 n ( y i n 2 β 0 β ) 2. 1 x i Putem folosi aceste statistici pentru a determina intervale de încredere pentru β 1 ³i β 0. Un interval de încredere pentru β 1 la nivelul de semnicaµie α este: β1 t 1 α 2 ; n 2 σ 2 s xx, β1 + t 1 α 2 ; n 2 σ 2. (21.15) s xx

148 CSA 11 [Dr. Iulian Stoleriu] 147 Un interval de încredere pentru β 0 la nivelul de semnicaµie α este: 1 β0 t 1 α 2 ; n 2 σ n + x2, s xx β0 + t 1 α 2 ; n 2 σ 1 n + x2 s xx. (21.16) Observaµia În general, dispersia σ 2 a erorilor de regresie nu este cunoscut a priori. În cazul în care aceasta este cunoscut, atunci în loc de (21.14) am avea: β 1 β 1 N (0, 1), ³i s xx σ 2 β 0 β 0 N (0, 1). (21.17) σ 1 n + x2 s xx În acest caz, intervalele de încredere pentru β 0 ³i β 1 vor similare cu cele din relaµiile (21.16) ³i (21.15), cu diferenµa c t 1 α 2 ; n 2 este înlocuit prin z 1 α. Oricum, pentru n sucient de mare, valorile t 2 1 α 2 ; n 2 ³i z 1 α sunt foarte 2 apropiate. Test statistic pentru β 1 (panta dreptei de regresie) Prezent m aici testul ce veric dac β 1 ia o valoare dat β 10 sau nu, la un nivel de semnicaµie α. Acest test este mai des folosit decat testul pentru β 0. Dispersia erorilor de regresie este necunoscut. Test m (H 0 ) : β 1 = β 10 versus (H 1 ) : β 1 β 10. Consider m statistica T = β 1 β 1, σ2 s xx care urmeaz repartiµia t(n 2). Etapele testului sunt urm toarele: ˆ Calcul m valoarea critic T 0 = β 1 β 10. σ2 s xx ˆ Calcul m cuantila de ordin 1 α 2 pentru repartiµia t cu (n 2) grade de libertate, t 1 α 2 ; n 2 ; ˆ Dac Dac T 0 < t 1 α 2 ; n 2, atunci accept m ipoteza (H 0 ); T 0 t 1 α 2 ; n 2, atunci accept m ipoteza (H 1 ); Observaµia (1) O ipotez alternativ poate considerat ³i una dintre urm toarele: (H 1 ) s : β 1 < β 10, (H 1 ) d : β 1 > β 10. (2) Testul cel mai popular pentru β 1 este pentru ipoteza nula (H 0 ) : β 1 = 0 (i.e., β 10 = 0). Ipoteza alternativ β 1 0 reprezinta faptul c între x ³i y exist o dependenµ liniar. Cu alte cuvinte, testul (H 0 ) : β 1 = 0 vs. (H 1 ) : β 1 0 veric semnicaµia pantei dreptei de regresie. Dac ipoteza nul este respins, atunci panta dreptei este semnicativ (i.e., semnicativ diferit de zero).

149 CSA 11 [Dr. Iulian Stoleriu] 148 Test statistic pentru β 0 Mai jos prezent m testul ce veric dac β 0 ia o valoare dat β0 sau nu, la un nivel de semnicaµie α. Dispersia erorilor de regresie este necunoscut. Test m (H 0 ) : β 0 = β0 versus (H 1 ) : β 0 β0. Consider m statistica T = β 0 β 0 t(n 2), 1 σ n + x2 s xx care urmeaz repartiµia t(n 2). Etapele testului sunt urm toarele: ˆ Calcul m valoarea critic T 0 = β 0 β0 t(n 2). 1 σ n + x2 s xx ˆ Calcul m cuantila de ordin 1 α 2 pentru repartiµia t cu (n 2) grade de libertate, t 1 α 2 ; n 2 ; ˆ Dac Dac T 0 < t 1 α 2 ; n 2, atunci accept m ipoteza (H 0 ); T 0 t 1 α 2 ; n 2, atunci accept m ipoteza (H 1 ); Observaµia De asemenea, teste unilaterale pot considerate ³i în cazul test rii valorii lui β 0. În cazul în care σ 2 este cunoscut a priori atunci, graµie relaµiilor (21.17), putem utiliza testul Z pentru testarea ipotezelor de mai sus, atât pentru β 0, cât ³i pentru β 1. Predicµie prin regresie. [Pe scurt, predicµia prin regresie este precum ai conduce ma³ina legat la ochi,. ghidat de un copilot care prive³te doar în lunet ] În anumite cazuri, putem folosi regresia în predicµia unor valori ale variabilei dependente. De exemplu, putem prezice temperatura într-un anumit ora³ plecând de la observaµiile temperaturilor din ora³ele învecinate. Regresia poate utilizat pentru predicµie dup cum urmeaz. S presupunem ca datele pe care le deµinem, {(x i, y i )}, n, pot modelate de o dreapt de regresie de forma (21.5). Dat ind o valoarea x p ce nu se a printre valorile x i, dar este o valoare cuprins între valorile extreme ale variabilei independente, x min ³i x max, dorim s prezicem valoarea r spuns, y p = β 0 + β 1 x p + ε p. Dac β 0 ³i β 1 sunt estimaµiile pentru parametrii de regresie β 0, respectiv, β 1, atunci valoarea prezis pentru y p pentru un x p observat va o valoare ŷ p de pe dreapta de regresie, dat de formula: ŷ p = β 0 + β 1 x p. (21.18) Se poate demonstra ca statistica Ŷp asociata acestei valori urmeaza o repartitie normala, Ŷ p N β0 + β 1 x p, σ n + (x p x) 2. s xx O predicµie pentru intervalul de încredere corespunz tor lui y pentru un x p dat, la nivelul de semnicaµie α (x p [x min, x max ]) este: ŷ p t 1 α 2 ; n 2 σ n + (x p x) 2, ŷ p + t 1 α 2 s σ xx n + (x p x) 2. s xx (21.19)

150 CSA 11 [Dr. Iulian Stoleriu] 149 Observaµia (1) De notat faptul c este foarte important ca x p s e o valoare cuprins între x min ³i x max. Dac se folose³te formula (21.18) ³i pentru valori ale lui x în afara range-ului valorilor predictor pentru x, atunci erorile de de aproximarea a lui y cu ŷ p pot foarte mari. De exemplu, dac în Figura 21.4 (a) am folosi doar primele 9 pentru a construi un model de regresie, atunci acesta poate utilizat doar pentru predicµia valorilor variabilei y pentru orice x în acest range, i.e. x [0, 10]. Dac, folosind dreapta de regresie g sit anterior, am încerca o predicµie pentru x = 19, atunci am g si c ŷ(19) 10, pe când valoarea observat este y(19) 6.5, ceea ce determin o eroare foarte mare de aproximare. Mai mult, dac µinem cont ³i de urm toarele valori observate (vezi Figura 21.4(b)), atunci curba de regresie pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei Figura 21.4: Predicµie prin extrapolare. dependente folosind valori ale variabilelor independente ce ies din range se utilizeaz termenul de prognoz (en., forecasting). Aceasta este folosit des în analiza seriilor de timp. (2) Valoarea prezis ŷ p nu este una stabilit cu exactitate, ci este doar o medie a³teptat a valorilor lui y pentru un x p dat. În cazul în care R 2 = 1 (coecientul de determinare), atunci valoarea pentru y va prezis f r eroare, deoarece toate punctele se a pe dreapta de regresie. În general, punctele bidimensionale (x, y) se a împr ³tiate în jurul dreptei de regresie. (3) Valoarea ŷ p este determinat doar pe baza selecµiei date, de aceea, pentru a verica dac aceast valoare poate extrapolat la întreaga populaµie este nevoie de inferenµ statistic (test statistic). Prezent m, în continuare, un test ce compar valoarea ŷ p cu o constant dat. Test m (H 0 ) ŷ p = y 0 versus (H 1 ) ŷ p y 0. Etapele testului sunt urm toarele: ˆ Estim m ŷ p utilizând formula (21.18). ˆ Consider m statistica T = σ ŷ p y n + (x p x) 2 s xx t(n 2); ˆ Calculez valoarea T 0 = ˆ Dac σ ŷ p y n + (x p x) 2 s xx ; T 0 < t 1 α 2 ; n 2, atunci accept m ipoteza (H 0 );

151 CSA 11 [Dr. Iulian Stoleriu] 150 Dac T 0 t 1 α 2 ; n 2, atunci accept m ipoteza (H 1 ); (4) În concluzie, regresia este o unealt dibace pentru predicµie. Unii economi³ti au utilizat-o cu succes si au prezis chiar 10(!) dintre ultimele... 2 recesiuni! Observaµia Pân acum am v zut cum putem estima valoarea lui y folosind pe x. În unele cazuri, putem inversa rolurile lui x ³i y, ³i putem vorbi astfel de regresie a lui x în raport cu y. De exemplu, în Exerciµiul 22.1 am putea estima notele la Probabilit µi în funcµie de notele la Statistic. Formulele obµinute pentru dreapta de regresie a lui x în raport cu y sunt cele g site anterior pentru dreapta de regresie a lui y în raport cu x, în care rolurile lui x ³i y sunt inversate.

152 LSA 11 [Dr. Iulian Stoleriu] Statistic Aplicat (L11) Regresie (exerciµii rezolvate) Fie X ³i Y doi vectori de acela³i tip. Urm toarele funcµii din Matlab sunt utile pentru analiza corelaµiei ³i regresiei: ˆ scatter(x,y) reprezint grac valorile lui Y vs. valorile lui X; ˆ R = corrcoef(x,y) calculeaz coecientul de corelaµie între X ³i Y. Rezultatul este a³at sub forma: >> ans = ρ ρ unde este coecientul de corelaµie dintre X ³i X, respectiv Y ³i Y, iar ρ este coecientul c utat. ˆ cov(x,y) pentru matricea de covarianµ empiric dintre X ³i Y (formula (3.2)); Funcµia cov(x,y,1) este tot matrice de covarianµ, îns în acest caz formula folosit este (??). ˆ b = regress(y,x) a³eaz estimarea coecienµilor pentru care Y = b X. Aici, X este o matrice n k ³i Y un vector coloana n 1. Coloanele vectorului X corespund observaµiilor (i.e., variabilelor independente). Dac X este un vector coloan de aceea³i dimensiune cu Y, atunci b este doar un scalar. Dac X este matrice, atunci putem folosi aceast comand pentru a estima coecienµii de regresie liniar multipl. Spre exemplu, s presupunem c se dore³te estimarea coecienµilor de regresie liniar simpl, i.e., β 0 ³i β 1 pentru care y = β 0 + β 1 x, unde pentru ecare dintre x ³i y avem n observaµii. În acest caz, k = 2. Fie X, respectiv, Y vectorii ce conµin aceste observaµii. Comanda Matlab care estimeaz cei doi coecienµi este B = regress(y', [ones(n,1)'; X]') Comanda furnizeaz aproxim ri pentru parametrii β 0 ³i β 1 ce fac urm toarea aproximare cât mai bun : y 1 1 x 1 y 2 1 x 2. y n β β 1 ˆ p = polyfit(x,y,n) g se³te coecienµii unui polinom p(x) de grad n ale c rui valori p(x i ) se apropie cel mai mult de datele observate y i, în sensul celor mai mici p trate. Matlab va a³a în acest caz un vector linie de lungime n + 1, conµinând coecienµii polinomiali în ordinea descresc toare a puterilor. Spre exemplu, dac p(x) = β n x n + β n 1 x n β 2 x 2 + β 1 x + β 0, atunci Matlab va a³a β n, β n 1,..., β 2, β 1, β 0. ˆ Y = polyval(p,x) a³eaz valorile unui polinom p(x) pentru valorile din vectorul X. Polinomul p(x) este dat prin coecienµii s i, ordonaµi în ordine descresc toare a puterilor. De exemplu, dac p(x) = 3x 2 + 2x + 4 ³i dorim s evalu m acest polinom pentru trei valori, 3, 1 ³i 5, atunci scriem în Matlab:. x n. p = [3 2 4]; polyval(p,[-3 1 5]) obµinând rezultatul: ans =

153 LSA 11 [Dr. Iulian Stoleriu] 152 Exerciµiu Dorim s determin m dac exist vreo corelaµie între notele la examenul de Probabilit µi ³i cele de la Statistic obµinute de studenµii unui an de studiu. În acest sens, au fost observate notele obµinute de 10 studenµi la aceste dou discipline ³i au fost trecute în Tabelul 22.1 de mai jos. Se cere: (a) Stabiliµi dac exist o leg tur puternic între aceste note (r ³i r 2 ); (b) Determinaµi dreapta de regresie a notelor de la Statistic în raport cu notele la Probabilit µi ³i desenaµi-o în acela³i sistem de axe ca ³i notele obµinute (scatter plot). (c) Testaµi dac exist sau nu vreo corelaµie între notele de la Statistic ³i Probabilit µi. Student A B C D E F G H I J Probabilit µi Statistic Tabela 22.1: Notele la Statistic ³i Probabilit µi. Soluµie: (a) Calcul m r cu formula (19.1). Funcµia Matlab pentru coecientul Pearson este corrcoef. În codul Matlab de mai jos l-am calculat pe r folosind aceast funcµie, dar ³i în dou alte modalit µi, folosind formula (19.2) sau scriind desf ³urat expresia lui r. (b) Coecienµii de regresie se pot obµine în 3 moduri, e folosind funcµia Matlab polyfit, care realizeaz tarea datelor cu un polinom, în cazul liniar ind un polinom de forma S(P ) = β 0 + β 1 P. O alt variant de calcul a coecienµilor β 0 ³i β 1 este simpla implementare în Matlab a formulelor pentru ace³tia. A treia variant este folosirea funcµiei regress din Matlab. Reprezentarea grac a datelor poate realizat folosind ori funcµia plot, ori funcµia "scatter", ambele funcµii predenite din Matlab. Gracul este cel din Figura P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32]; mp = mean(p); ms = mean(s); %%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~ CC = corrcoef(p,s); r = CC(1,2) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % C = cov(p,s)/(std(p)*std(s)); r = C(1,2); % r = sum((p-mp).*(s-ms))/sqrt(sum((p-mp).^2)*sum((s-ms).^2)); %%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(p,s,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % b1 = sum((p-mp).*(s-ms))/sum((p-mp).^2); b0 = ms - b1*mp; % B = regress(s',[p;ones(10,1)']'); %%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:100; plot(p,s,'*',x,b(2) + B(1)*x,'r-') % scatter(p,s) % varianta pentru scatter plot %%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru ρ = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2); if (abs(t0) < quant) disp('p si S nu sunt corelate') else disp('p si S sunt corelate') end Rulând codul de mai sus, obµinem: r = B = P si S sunt corelate

154 LSA 11 [Dr. Iulian Stoleriu] 153 Figura 22.1: Notele ³i dreapta de regresie. Exerciµiu Prognoza spune c temperatura într-o anumit zon muntoas descre³te cu cca. 6 C la ecare 1km câ³tigat în în lµime. Pentru o vericare, au fost m surate simultan temperaturile în 10 localit µi diferite din acea zon, acestea ind înregistrate în Tabelul Dac temperatura se presupune a o funcµie liniar (regresie h i T i Tabela 22.2: Tabel cu temperaturi (T i ) la diverse altitudini (h i ). liniar ) de altitudine, se cere: (i) S se estimeze parametrii β 0 ³i β 1 ; (ii) S se testeze (α = 0.05) dac prognoza din enunµ este adevarat (i.e., β 1 = 0.006); (iii) S se g seasc un interval de încredere pentru panta dreptei de regresie, β 1 ; (iv) Cât de bun este aproximarea temperaturii cu o funcµie liniar de altitudine? (v) Estimaµi temperatura la altitudinea h = G siµi, de asemenea, un interval de încredere pentru aceasta temperatur. Soluµie: (i) Estim m parametrii necunoscuµi folosind formulele (21.8) sau folosind funcµia Matlab polyfit (vezi codul de mai jos). (ii) Pentru testarea ipotezei nule (H 0 ) : β 1 = utiliz m testul din Secµiunea 21. (iii) Un interval de încredere pentru β 1 se poate calcula folosind formula (21.15). (iv) Pentru a decide cât de bun este aproximarea, calcul m coecientul de determinare, R 2. Acesta este R 2 = 94.83, ceea ce înseamn c temperatura real este foarte aproape de cea prognozat. (v) Utiliz m formulele (21.18) ³i (21.19), pentru x p = (vezi rezultatele generate de codul de mai jos) Codul Matlab este urm torul: h = [ ]; T = [ ]; mh = mean(h); mt = mean(t); %%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~ CC = corrcoef(h,t); r = CC(1,2) R2 = r^2 %%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(h,t,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

155 LSA 11 [Dr. Iulian Stoleriu] 154 % B = regress(t',[h;ones(10,1)']'); % b1 = sum((h-mh).*(t-mt))/sum((h-mh).^2); b0 = mt - b1*mh; %%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:5600; plot(h,t,'*',x,b(2) + B(1)*x,'r-') %%%~~~~~~ Testul pentru panta dreptei de regresie, (H 0 ) : β 1 = ~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; sigmahat = sqrt(sum((t-b(2) - B(1)*h).^2)/(n-2)); sxx = sum((h-mean(h)).^2); T0 = (B(1)+0.006)*sxx/sigmahat; quant = tinv(1-alpha/2,n-2); if (abs(t0) < quant) disp('ipoteza (H 0 ) se accepta') else disp('ipoteza (H 0 ) se respinge') end %%%~~~~~~~~~~~~~~~ Interval de incredere pentru β 1 ~~~~~~~~~~~~~~~~~~~~~~~ CI = [B(1) - quant*sigmahat/sqrt(sxx), B(1) + quant*sigmahat/sqrt(sxx)] hp = 2544; Tp = B(2) + B(1)*hp CI_T = [Tp - quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx),... Tp + quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx)] Rulând codul de mai sus, obµinem: r = R2 = B = CI = [ , ] [ , ] Tp = CI_T = [ , ] ipoteza nula se accepta Figura 22.2: Diagrama de temperaturi în funcµie de altitudine, ³i dreapta de regresie.

156 LSA 11 [Dr. Iulian Stoleriu] 155 Exerciµiu Fie ³irul de date: x = y = S se studieze existenµa unei dependenµe între x ³i y de forma y = a e b x. Soluµie: Calcul m ln y. Obµinem: ln y = Se observ c r = (coecientul de corelaµie între x ³i ln y), de unde b nuim c e posibil s avem o regresie liniar între variabilele x ³i ln y. Estim m coecienµii de regresie ai lui ln y faµ de x ³i g sim: ˆβ 0 = , ˆβ1 = Aceasta poate realizat în Matlab prin comanda regress(log(y)',[x',ones(7,1)]) A³adar, ln y = x , de unde y = e e x 3 e x/2. În Figura 22.3 am reprezentat grac datele observate ³i aproxim rile lor. Figura 22.3: Aproximarea datelor din Exerciµiul 22.3

157 LSA 11 [Dr. Iulian Stoleriu] 156 Probleme propuse Exerciµiu Se dau urm toarele date: x y (a) Testaµi dac ρ = 0 (coecientul de corelaµie teoretic). (b) Este faptul c x ³i y sunt legate prin relaµia y = x 2 în contradicµie cu rezultatul de la punctul (a) (datele sunt perfect necorelate)? (c) Calculaµi coecientul de corelaµie Spearman. Exerciµiu Suntem interesaµi în determinarea unei leg turi între în lµime ³i m rimea la pantof. Datele din tabelul de mai jos reprezint observaµii asupra în lµimilor (H) ³i a m rimilor la pantof (M) pentru 10 b rbaµi, ale³i la întâmplare. H M (a) Calculaµi coecientul de corelaµie Pearson dintre în lµime ³i m rimea la pantof. Ce procent din valorile lui M sunt determinate de valorile lui H (b) Determinaµi o aproximare pentru dreapta de regresie a lui M faµ de H. (c) Obµineµi o predicµie a m rimii la pantof pentru un b rbat cu în lµimea (d) La nivelul de semnicaµie α = 0.05, testaµi ipoteza c panta dreptei de regresie este 3 4. Exerciµiu Fie ³irul de date: u = v = S se studieze existenµa unei dependenµe între u ³i v de forma v = a u 2 + b. Exerciµiu În tabelul urm tor, se dau câte 5 valori pentru dou variabile x ³i y, unde y este variabila independent. Determinaµi o dreapta de regresie potrivit pentru a calcula (i) valoarea lui x când y = 2.5; (ii) valoarea lui y când x = 50; (iii) Putem prezice valoarea lui y pentru x = 75? x y Exerciµiu Se m soar viteza unei ma³ini, v, în primele 10 secunde dup aceasta a început s accelereze. Aceste date sunt înregistrate în Tabelul Se cere: (a) Desenaµi diagrama scatter plot; (b) Determinaµi dreapta de regresie a lui v faµ de t; (c) Calculaµi coecientul de corelaµie empiric ³i comentaµi asupra validit µii aproxim rii datelor cu dreapta de regresie.

158 LSA 11 [Dr. Iulian Stoleriu] 157 t v Tabela 22.3: Viteza unei ma³ini în primele 10 secunde dup plecarea de pe loc Exerciµiu Opinia general este c rata maxim (R) a b t ilor inimii unei persoane se poate determina dup formula R = β 0 + β 1 V, unde V este vârsta persoanei, calculat în ani. Cercet torii cardiologi arma c ace³ti coecienµi ar : β 0 = 220 ³i β 1 = 1. Pentru o vericare empiric a acestei armaµii, sunt alese la întâmplare 15 persoane de diverse vârste, care sunt supuse unui test pentru determinarea ratei maxime ale bat ilor inimii. Aceste rezultate sunt contabilizate în Tabelul (a) Calculaµi coecientul de corelaµie Pearson dintre vârst ³i rata maxim a bat ilor inimii. Care este semnicaµia acestei valori? (b) Determinaµi dreapta de regresie a lui R faµ de V ³i desenaµi-o în acela³i sistem de axe cu datele din tabel. (c) Testaµi ipoteza (H 0 ) : β 1 = 1, vs. ipoteza alternativ (H 1 ) : β 1 1, la nivelul de semnicaµie α = Vârsta Rata max Tabela 22.4: Tabel cu rata maxim a bat ilor inimii în funcµie de vârst. Exerciµiu Dreapta de regresie a variabilei y faµ de variabila x este y = 2 x 6. Determinaµi condiµiile în care dreapta de regresie a lui x faµ de y este x = 0.5 y + 3. A N Tabela 22.5: Tabel cu absenµe ³i note la Statistic. Exerciµiu Tabelul 22.5 conµine num rul de absenµe (A) la Statistic ³i notele corespunz toare (N) a 15 studenµi. (a) Calculaµi coecientul de corelaµie Pearson. Care este semnicaµia acestei valori referitor la relaµia dintre absenµe ³i note? (b) Determinaµi dreapta de regresie a lui N faµ de A ³i desenaµi-o în acela³i sistem de axe cu datele din tabel. (c) Testaµi, la un nivel de semnicaµie α = 0.05, dac exist dovezi suciente pentru a arma c între num rul de absenµe ³i notele obµinute exist o corelaµie. Exerciµiu În Tabelul 22.6 datele reprezint în lµimile (H) ³i masele corporale (M) a 10 fete dintr-o clas a unui liceu. Suntem interesaµi în prezicerea masei corporale, ³tiind înalµimea unei eleve. H M Tabela 22.6: Înalµimea ³i masa corporal a 10 eleve dintr-o clas. (a) Desenaµi diagrama scatter plot a lui H versus M. Bazându-v pe aceast diagram, consideraµi c metoda regresiei liniare este potrivit în acest caz? (b) Calculaµi estimaµii ale parametrilor (β 0 ³i β 1 ) de regresie liniar ³i reprezentaµi grac dreapta de regresie liniar. (c) Obµineµi o estimare nedeplasat pentru σ 2. (d) Testaµi ipoteza nul (H 0 ) : β 1 = 0.9.

159 LSA 11 [Dr. Iulian Stoleriu] 158 Exerciµiu Un student ia cu împrumut o carte de la bibliotec ³i observ c pagina de interes este rupt pe alocuri. Totu³i, poate citi textul din Figura Se cere s se reconstruiasc pasajul de text (i.e., determinaµi y ³i dreapta de regresie a lui x faµ de y). De asemenea, calculaµi coecientul empiric de corelaµie r ³i comentaµi asupra aproxim rii datelor de seleµie prin dreptele de selecµie. Figura 22.4: Fragment incomplet dintr-un text Exerciµiu Dorim s determin m o relaµie între în lµimea H (în metri) ³i diametrul trunchiului D (în metri) corespunz toare castanilor dintr-o anumit specie asiatic. Pentru a obµine aceast relaµie, determin m mai întâi o regresie liniar între logaritmii variabilelor, adic între Y = ln(h) ³i X = ln(d), bazându-ne pe urm toarele observaµii: X Y (a) Ce procent dintre valorile lui Y pot explicate de valorile lui X? (b) Determinaµi o aproximare pentru dreapta de regresie liniar a lui Y versus X. (c) Care este repartiµia erorilor de aproximare a datelor observate prin dreapta de regresie? (d) Folosind un interval de încredere, estimaµi în lµimea unui copac ce are diametrul trunchiului de 0.7 m

160 CSA 12 [Dr. Iulian Stoleriu] 159 Statistică Aplicată (C12) 23 Regresie liniara simpla (continuare) (C12) Presupunem ca X si Y sunt doua variabile de interes, pentru care se doreste a determina o relatie liniara de forma Y = β 0 + β 1 X. Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile. Fie aceste observatii {(x i, y i )}, n. Pe baza acestor date se poate aproxima dreapta de regresie liniara (daca exista) astfel: Y = β 0 + β 1 X, unde: β1 = s xy s xx ³i β0 = y β 1 x, x = 1 n n x i, y = 1 n n n y i, s xx = (x i x) 2, s xy = (x i x)(y i y). n Validitatea modelului de regresie liniara simpla Pentru a verica daca modelul de regresie liniara este unul valid, se pot folosi mai multe metode, printre care amintim cele mai uzuale: ˆ coecientul de determinare R 2. Acest coecient se calculeaz folosind urm toarea formul : unde SSE = R 2 = 1 SSE SST, (23.1) n (y i β 0 β 1 x i ) 2, SST = n (y i y) 2. Aici, SST reprezint suma total a p tratelor the total sum of squares. În analiza regresional, coecientul R 2 este o statistica folosit în a determina cât de bine pot estimate valorile lui y pe baza modelului de regresie. Valorile lui R 2 sunt între 0 si 1 ³i, pentru a avea un model destul de bun, ar necesar un coecient de determinare aproape de 1. Totu³i, este posibil ca R 2 s aib valori mai mari ca 1 în cazul în care modelul de regresie nu este unul liniar. ˆ grace: y i vs. x i : Din aceasta gura ne putem da seama de oportunitatea modelarii datelor observate folosind un model de regresie liniara simpla. Pentru a putea utiliza un model de regresie liniara simpla, valorile reprezentate ar trebui sa e apropiate de o anumita dreapta (e.g., vezi Figura 22.1). grac ce indica normalitatea reziduurilor ɛ i : Acesta poate realizat in Matlab cu ajutorul comenzii normplot. Acest grac reprezinta probabilitatile de normalitate ale erorilor versus cuantilele de la N (0, 1). Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate de prima bisectoare (e.g., vezi al doilea grac din Figura 24.1). ŷ i vs. y i : Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate de prima bisectoare (e.g., vezi primul grac din Figura 24.1). ɛ i vs. x i : Daca modelul este valid, atunci valorile reprezentate in gura nu ar avea nicio tendinta clara (e.g., vezi ultimul grac din Figura 24.1). ɛ i vs. y i : Daca modelul este valid, atunci valorile reprezentate in gura nu ar avea nicio tendinta clara (e.g., vezi ultimul grac din Figura 24.1).

161 CSA 12 [Dr. Iulian Stoleriu] 160 In gracele anterioare, in loc de reziduurile ɛ i, pot realizate grace pentru reziduurile standardizate, ɛ i = ɛ i s ɛi = σ ɛ i n + (x p x) 2 s xx ˆ test de utilitate a modelului: Se testeaza ipoteza (H 0 ) : β 1 = 0 vs. ipoteza (H 1 ) : β 1 0. Dupa cum am vazut mai sus, acceptarea ipotezei alternative indica faptul ca modelul liniar simplu este valid. In unele programe software specice Statisticii, (e.g., in SPSS) rezultatul testului este reprezentat de o valoare sig pe care softul o aseaza. Aceasta valoare este, in fapt, valoarea critica P v (probabilitatea de a respinge ipoteza nula cand aceasta este adevarata). La un nivel de semnicatie α dorit de utilizator, ipoteza nula va respinsa daca sig < α. Daca ipoteza nula este respinsa, atunci valoarea testata (β 10 ) este semnicativa si poate utilizata in calculele ulterioare. Daca sig > α, atunci valoarea β 10 este nesemnicativa si acceptam ipoteza ca, in realitate, β 1 = 0, ceea ce indica faptul ca modelul de regresie liniara simpla nu este potrivit pentru datele observate.. Ce este de facut daca modelul de regresie liniara simpla nu este unul valid? ˆ Este posibil ca Y sa nu depinda liniar de X. Acest fapt poate observat de la inceput, din diagrama scatter plot ce reprezinta y i vs. x i. Pentru modele neliniare, se poate incerca o transformare a variabilelor X si Y astfel incat modelul liniar pentru variabilele transformate sa e unul aplicabil (nu merge intotdeauna). Spre exemplu, vezi Exercitiul 22.3, in care am determinat o regresie liniara intre variabilele ln(y ) si X. ˆ Se poate intampla ca reziduurie ɛ i sa prezinte o dependinta clara de x i (fapt ce poate observat dintr-o reprezentare ɛ i vs. x i ), asadar aplicabilitatea modelului de regresie liniara este inoportuna. Faptul ca ɛ i nu au toate o aceeasi dispersie σ 2 se numeste heteroscedasticitate (proprietate opusa homoscedasticitatii). ˆ Daca reziduurile nu sunt normale (se observa din diagrama normplot( ɛ i ), eventual, se poate apela la un test de normalitate), modelul liniar de regresie nu este oportun. ˆ Exista posibilitatea ca datele observate {(x i, y i )}, n sa contina valori aberante (outliers). Este important de a intelege aceste valori si, in caz ca nu sunt semnicative, pot sterse din setul de date care este supus analizei de regresie. ˆ In multe cazuri, o singura variabila predictor (X) nu poate explica de una singura variabila Y, cazuri in care se apeleaza la o regresie multipla (se iau in considerare si alte variabile predictor). Regresie liniara multipla Regresia multipla ia in considerare cel putin doi predictori pentru a determina valorile unei variabile de interes Y. In continuare, vom considera cazul unui numar de k predictori independenti, notati X 1, X 2,..., X k. Pentru o variabila de interes Y se doreste a determina o relatie liniara (un plan) de forma Y = β 0 + β 1 X 1 + β 2 X β k X k + ɛ, (23.2) unde β j (j = 1, n) sunt niste constante reale, ɛ N (0, σ) (eroarea). Pentru un j xat, coecientul β j reprezinta variatia in variabila Y rezultata in urma variatiei predictorului X j cu o unitate, in timp ce ceilalti predictori sunt mentinuti la valori xate. Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile. Fie aceste observatii {(x 1i, x 2i,..., x ki, y i )}, n, unde x ji denota observatia de rang i pentru variabila X j, pentru ecare

162 CSA 12 [Dr. Iulian Stoleriu] 161 j = 1, k si i = 1, n. Pe baza acestor date se poate aproxima suprafata de regresie liniara (daca exista, prin metoda celor mai mici patrate sau prin metoda verosimilitatii maxime) astfel: unde β j (j = 1, n) sunt estimatori pentru parametrii reali β j. Similar cu cazul regresiei liniare simple, vom avea: Y = β 0 + β 1 X 1 + β 2 X β k X k, (23.3) ˆ Suprafata y = β 0 + β 1 x 1 + β 2 x β k x k este aproximarea suprafetei de regresie, en., tting surface), este suprafata care se apropie cel mai mult (în sensul metodei celor mai mici p trate) de datele experimentale. Aceast suprafata este o aproximare a suprafetei de regresie; ˆ valorile y i se numesc valori observate, iar valorile ŷ i = β 0 + β 1 x 1i + β 2 x 2i β k x ki, i = 1, n, se numesc valori prezise (i = 1, n); ˆ valorile ε i = y i ŷ i se numesc reziduuri. Un reziduu m soar deviaµia unui punct observat de la valoarea prezis de estimarea dreptei de regresie (dreapta de tare). Se presupune ca aceste reziduuri sunt independente intre ele si sunt repartizate N (0, σ); ˆ suma p tratelor erorilor, n ε 2 i = n (y i β 0 β 1 x 1i β 2 x 2i... β k x ki ) 2, se noteaz de obicei prin SSE (sum of squared errors); ˆ eroarea medie p tratic sau rezidual este MSE = SSE n k 1 ˆ statistica MSE = σ 2 este un estimator pentru dispersia erorilor, σ 2. (mean squared error). ˆ r d cina p trat a MSE este σ si se nume³te eroarea standard a regresiei; ˆ se poate demonstra c SSE σ 2 = (n k 1) σ2 σ 2 χ2 (n k 1). cu autorul acestei relaµii se pot g si intervale de încredere pentru valoarea real a lui σ 2. În formula (21.12), (n k 1) reprezint num rul gradelor de libertate ale variabilei SSE. In Figura 23.1 sunt asate rezultatele unui model de regresie multipla prin care se doreste a se explica nota unui student la examenul de Algebra pe baza rezultatelor la trei teste anterioare examenului. Asadar, aici predictorii sunt rezultatele la teste, T 1, T 2, si T 3 si variabila prezisa este nota la examen. Tabelul aseaza estimarile parametrilor β 0, β 1, β 2 si β 3, deviatiile standard corespunzatoare acestor estimatori, statisticile test pentru semnicatiile valorilor obtinute si valorile critice P v = sig pentru ecare parametru. Inspectand valorile pentru sig, observam ca, la nivelul de semnicatie α = 0.05, valoarea asata pentru β 0 (constanta) nu este semnicativa, pe cand celelalte trei valori sunt semnicative.

163 CSA 12 [Dr. Iulian Stoleriu] 162 Figura 23.1: Rezultate obtinute cu Minitab pentru un model de regresie multipla cu 3 predictori. Validitatea modelului de regresie liniara multipla Pentru a verica daca modelul de regresie liniara multipla este unul valid, se pot folosi mai multe metode, printre care amintim cele mai uzuale: ˆ coecientul de determinare R 2. Acest coecient se calculeaz folosind urm toarea formul : unde SSE = R 2 = 1 SSE SST, (23.4) n (y i β 0 β 1 x 1i β 2 x 2i... β k x ki ) 2, SST = n (y i y) 2. Aici, SST reprezint suma total a p tratelor the total sum of squares. Valorile lui R 2 sunt între 0 si 1 ³i, pentru a avea un model destul de bun, ar necesar un coecient de determinare aproape de 1. ˆ coecientul ajustat de determinare, adjr 2. În cazul în care valorile prezise ŷ i sunt obµinute prin metoda celor mai mici p trate, statistica R 2 este o funcµie cresc toare de num rul de variabile independente din model. Astfel, exist posibilitatea de a cre³te ilegitim valoarea lui R 2 prin ad ugarea de noi variabile independente în analiza de regresie, fapt care nu duce neap rat la un model mai bun. Din acest motiv, au fost introdu³i coecienµi suplimentari. Unul dintre ace³tia este coecientul adj R 2, care penalizeaz introducerea de noi variabile independente în model. Acesta are formula adj R 2 = 1 (1 R 2 n 1 ) n p 1 = R2 (1 R 2 p ) n p 1, unde n este volumul datelor ³i p este num rul de variabile independente în modelul liniar (f r a considera constanta). Valoarea lui adj R 2 este cel mult egal cu valoarea lui R 2, atingând un maxim în cazul în care num rul de variabile explicative (independente) este optim. Interpretarea coecientului adj R 2 este diferit de cea a lui R 2. Coecientul ajustat este o m sur a gradului de potrivire a num rului de variabile independente pentru model. ˆ grac ce indica normalitatea reziduurilor ɛ i : Acesta poate realizat in Matlab cu ajutorul comenzii normplot. Acest grac reprezinta probabilitatile de normalitate ale erorilor versus cuantilele de la N (0, 1). Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate de prima bisectoare (e.g., vezi al doilea grac din Figura 24.1). ˆ ŷ i vs. y i : Daca modelul este valid, atunci valorile reprezentate in gura vor cat mai apropiate de prima bisectoare (e.g., vezi primul grac din Figura 24.1).

164 CSA 12 [Dr. Iulian Stoleriu] 163 ˆ ɛ i vs. y i : Daca modelul este valid, atunci valorile reprezentate in gura nu ar avea nicio tendinta clara (e.g., vezi ultimul grac din Figura 24.1). ˆ test de utilitate a modelului: Se testeaza ipoteza (H 0 ) : β 1 = β 2 =... = β k = 0 vs. ipoteza (H 1 ) : macar un coecient β j 0. Acceptarea ipotezei alternative indica faptul ca modelul liniar multiplu este valid. Statistica test ests: unde F = R 2 /k (1 R 2 )/(n k 1) = MSR MSE, MRS = SSR k, SSR = SST SSE. Pentru o valoare observata F 0 f 1 α 2 ;k,n k 1, respingem ipoteza nula. Alte tipuri de regresie ˆ Regresie polinomiala O regresie polinomiala simpla de ordin k este de forma: Y = β 0 + β 1 X + β 2 X β k X k + ɛ. (23.5) Folosind urmatoarele notatii, putem reduce regresia polinomiala la una simpla multipla X 1 = X, X 2 = X 2,..., X k = X k. Interpretarile coecientilor β j in cazul unei regresii polinomiale nu se mai potrivesc cu cele ale coecientilor din cazul regresiei multiple, ind greu de determinat. ˆ Regresie multiple cu interactiuni O regresie multiple cu interactiuni de ordin 2 este de forma: Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + β 4 X β 5 X ɛ. (23.6) Folosind urmatoarele notatii, putem reduce regresia anterioara la una simpla multipla ˆ Regresie logistica X 1 X 2 = X 3, X 2 1 = X 4, X 2 2 = X 5. Fie Y o variabila de tip Bernoulli, adica Y poate lua doar doua valori, sa zicem ca acestea sunt 0 si 1, cu P (Y = 1) = p si P (Y = 0) = q = 1 p. Spre exemplu, variabila Y reprezinta decizia ca o anumita masina sa aiba nevoie de revizie. Valoarea Y = 0 reprezinta NU si Y = 1 reprezinta DA. Astfel, p reprezinta probabilitatea ca masina sa necesite revizie. In general, aceasta probabilitate depinde de mai multi factori, spre exemplu: X 1 = numarul de km parcursi, X 2 = vechimea masinii, X 3 = timpul scurs de la ultima revizie. Pentru simplitate, sa ne limitam doar la acesti trei factori. Insa, este clar, probabilitatea p nu poate depinde liniar de acesti factori, si nici alta forma de regresie studiata pana acum nu poate aplicata. Motivul este simplu: daca am presupune ca p = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ, atunci exista posibilitatea ca membrul din dreapta sa nu apartina intervalului [0, 1]. In consecinta, este nevoie de o noua dependenta a probabilitatii p de acesti predictori. Un exemplu potrivit este cel dat de functia logit, i.e., p(x) = ea+bx. Vom considera urmatorul model de regresie: 1+e a+bx p = eβ0+β1x1+β2x2+β3x3, (23.7) β0+β1x1+β2x2+β3x3 1 + e

165 CSA 12 [Dr. Iulian Stoleriu] 164 numit regresie logistica. Din relatia (23.7), obtinem: p 1 p = eβ0+β1x1+β2x2+β3x3. p Expresia se numeste cota de realizare a evenimentului. De exemplu, daca p = 0.25, atunci cota este 1 p de 1 : 3 ca masina sa aiba nevoie de reparatii (i.e., o sansa din patru in favoarea reparatiilor). Prin logaritmare, gasim ca ( ) p ln = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3. (23.8) 1 p Astfel, modelul poate privit ca un model de regresie liniara multipla. Pe baza observatiilor se determina estimatori pentru parametri, iar pe baza acestor estimatori se estimeaza probabilitatea p.

166 LSA 12 [Dr. Iulian Stoleriu] Statistic Aplicat (L12) Regresie liniara multipla (exerciµii rezolvate) Exerciµiu Dorim sa determinam daca exista vreo legatura liniara (multipla) intre nota obtinuta la teza de Matematica la Bacalaureat B si predictorii M = valoarea medie a mediilor la disciplina Matematica obtinute in anii de liceu si T = media testelor de vericare sustinute ("simulari") inainte de Bacalaureat. In acest sens, consideram o selectie aleatoare de 7 elevi dintr-un anumit oras care au sustinut Bacalaureatul la Matematica. Valorile corespunzatoare pentru M, T, B sunt: E 1 E 2 E 3 E 4 E 5 E 6 E 7 M T B Cerinte: (1) Determinati o estimare a suprafetei (planului) de regresie liniara multipla, B = β 0 + β 1 M + β 2 T. (2) Reprezentati in acelasi sistem de coordonate valorile observate si planul obtinut anterior. (3) Reprezentati grac (a) valorile prezise vs. valorile observate, (b) probabilitatile de normalitate a rezuduurilor si (c) reziduurile vs. valorile prezise la Bac. Comentati gracele obtinute. (4) Testati daca parametrii β 1 si β 2 sunt semnicativi la nivelul de semnicatie α = (5) Comentati utilitatea modelului de regresie liniara multipla, calculand R 2, adjr 2 sau folosind un test de utilitate. (6) Estimati nota la teza de Matematica la Bacalaureat pentru un elev ce are M p = 8.50 si T p = Soluµie: (1) Pentru a estima coecientii de regresie vom folosi comanda regress din Matlab. Mai intai, punem predictorii M si T intr-o matrice X, care mai contine si o coloana cu elementul 1 (coecientul de regresii pentru aceasta coloana va β 0 ). n = 7; k = 2; alpha = 0.05; B = [ ]; T = [ ]; M = [ ]; X = [ones(1,7); M; T]'; b = regress(b',x); % coeficientii de regresie Obtinem estimarea suprafetei (planului) de regresie: B = M T. (2) Folosind comanda plot3, reprezentam datele observate. Comanda mesh este folosita pentru a reprezenta planul de regresie pentru un grid creat de comanda meshgrid. figure(1); plot3(m',t',b','r*'); hold on % reprezinta datele observate x1= linspace(6,10,50); x2 = linspace(6,10,50); [m,t] = meshgrid(x1,x2); % creaza un grid bac = b(1)+b(2)*m+b(3)*t; mesh(m',t',bac') % valorile lui B pentru grid Bpred = b(1)+b(2)*m+b(3)*t; grid on % valorile prezise pt. B in Mi si Ti xlabel('m'); ylabel('t'); zlabel('b');

167 LSA 12 [Dr. Iulian Stoleriu] 166 (3) Reziduurile sunt ɛ i = B i B i. figure(2); z = 5:.1:10; plot(b,bpred,'*r', z,z,'-b') figure(3); rez = B-Bpred; normplot(rez) figure(4); plot(bpred,rez,'*') % valori prezise vs. valori observate % normalitatea reziduurilor % reziduuri vs. yi Se observa ca valorile reprezentate in Figura (a) urmeaza prima bisectoare, deci valorile prezise sunt apropiate de cele observate la Bac. In Figura (b), reziduurile vor normale daca punctele ce le reprezinta sunt apropiate de prima bisectoare. In Figura (c) se observa ca nu exista nicio tendinta in norul de date reprezentat, fapt care sugereaza ca reziduurile sunt valori aleatoare. (4) Codul de mai jos testeaza, pe rand, semnicatia coecientului β 1 si a coecientului β 2. In testare, se foloseste statistica T. Se obtine ca ambii coecienti sunt semnicativi la nivelul de semnicatie α = % ~~~~~~~~~~~~~~~~~~ Test for b1 ~~~~~~~~~~~~~~~~~~~~ SSE = sum((b-bpred).^2); sig = sqrt(sse/(n-k-1)); smm = sum((m-mean(m)).^2); T10 = b(2)/(sig/smm); Tc = tinv(1-alpha/2,n-k-1); if (abs(t10) < Tc); disp('b(2) nesemnificativ') else disp('b(2) semnificativ') end % ~~~~~~~~~~~~~~~~~~ Test for b2 ~~~~~~~~~~~~~~~~~~~~ stt = sum((t-mean(t)).^2); T20 = b(3)/(sig/stt); if (abs(t20) < Tc); disp('b(3) nesemnificativ') else disp('b(3) semnificativ') end (5) Coecientul R 2 ne va sugera cat de bun este modelul iar coecientul adjr 2 ne va da o idee despre numarul optim de variabile predictor. Obtinem: R 2 = si adjr 2 = , adica un model destul de bun, cu un numar optim de variabile predictor. SST = sum((b-mean(b)).^2); R2 = 1 - SSE/SST; adjr2 = 1- SSE*(n-1)/(SST*(n-k-1)); % ~~~~~~~~~~ Test de utilitate a modelului ~~~~~~~~~~ F0 = (R2/k)/((1-R2)/(n-k-1)); Fc = finv(1-alpha/2, k, n-k-1); if (F0 < Fc); disp('modelul nu este util') else

168 LSA 12 [Dr. Iulian Stoleriu] 167 disp('model util') end Testul de utilitate aseaza model util, in sensul ca macar unul dinte coecientii β 1 si β 2 este nenul. (6) dorita este B p = , obtinuta in urma comenzilor de mai jos: Predictia Mp = 8.50; Tp = 7.65; Bp = b(1)+b(2)*mp+b(3)*tp; Figura 24.1: Grace pentru validarea modelului de regresie liniara multipla.. Exerciµiu Tabelul de mai jos conµine calicativele obµinute de doi elevi de clasa I la cele 9 discipline ³colare. Discipline A B C D E F G H I elev I B FB FB B B FB S I FB elev II S I B FB FB B B S B (FB = "foarte bine", B = "bine", S = "sucient", I = "insucient".) Dorim s stabilim o posibil leg tur între cele dou seturi de calicative. Calculaµi un coecient de corelaµie potrivit. Comentaµi rezultatul obµinut. Soluµie: Variabilele pentru care avem valorile din tabel sunt de tip calitativ. Pentru a determina coecientul de corelatie Spearman, determinam mai intai rangurile observatiilor in ecare set. Acestea sunt (ordonam crescator incepand cu I si terminand cu FB. Pentru valori egale, rangul atribuit este media rangurilor valorilor egale): Discipline A B C D E F G H I elev I elev II

169 LSA 12 [Dr. Iulian Stoleriu] 168 n = 9; alpha = 0.05; rang1 = [ ]; rang2 = [ ]; R = corrcoef(rang1,rang2); rs = R(1,2); % rs este coef. Spearman T0 = rs*sqrt((n-2)/(1-rs^2)); Tc = tinv(1-alpha/2,n-2); if (abs(t0) < Tc) disp('coeficientul de corelatie nu este semnificativ') % rhos = 0 else disp('coeficientul de corelatie este semnificativ') % rhos <> 0 end Rezultatele sunt: rs = coeficientul de corelatie nu este semnificativ Probleme propuse Exerciµiu Rezultatele din tabelul anterior reprezint : Heste num rul de ore pe s pt mân petrecute în faµa televizorului, A este vârsta persoanei ³i E este num rul de ani petrecuµi în ³coal, pentru un mu r de 12 persoane alese aleator. E A H (a) Folosind un model de regresie liniar simpl, aproximaµi dreapta de regresie a lui H în funµie de E. (b) Testaµi ipoteza c panta dreptei de regresie de mai sus este 2. (α = 0.04) (c) Folosind un model de regresie multipl, aproximaµi suprafaµa de regresie a lui H în funcµie de E ³i A. Exerciµiu Suntem interesaµi de a determina în ce m sur tensiunea arterial ( T) este inuenµat de indicele de mas corporal (I) ³i de num rul de ore de tness pe s pt mân (N). Pentru a stabili aceast leg tur, au fost selectaµi aleator 10 b rbaµi de 50 de ani. Datele colectate sunt cele din tabelul de mai jos: T I N (a) Determinaµi o formul de calcul pentru tensiune folosind un model de regresie liniar multipl. (b) Calculaµi coecientul de corelaµie Pearson dintre variabilele I ³i N ³i testaµi semnicaµia acestuia. (c) Construiµi un model de regresie multipl de forma T = β 0 + β 1 I + β 2 N + β 3 I N, comentând utilitatea acestuia. (d) Pe baza valorilor R 2 ³i adjr 2, decideµi care dintre cele dou modele explic cel mai bine tensiunea T. Estimaµi pentru ecare model tensiunea arterial a unui b rbat de 50 de ani ce are indicele de mas corporal 27 ³i face dou ore de tness pe s pt mân.

170 CSA 13 [Dr. Iulian Stoleriu] 169 Statistică Aplicată (C13) 25 ANOVA (C13) Prin ANOVA (en. ANalysis Of VAriance) se intelege o colectie de proceduri statistice construite pentru analiza simultana a parametrilor a cel putin doua populatii statistice, analiza care are la baza selectii independente extrase din populatiile studiate. De regula, se testeaza ipoteza ca mediile teoretice ale acestor populatii sunt egale, cu alternativa ca macar o pereche de medii difera semnicativ. In ANOVA, caracteristicile (variabilele) studiate se numesc factori iar populatiile sunt nivelurile factorilor. Analiza variatiilor poate facuta: ˆ pentru un singur factor, caz in care vorbim de one-way ANOVA, ˆ pentru doi factori, caz in care vorbim de two-way ANOVA, ˆ pentru n 3 factori, caz in care vorbim de n-way ANOVA. Exemple de experimente care pot studiate cu ANOVA: ˆ un experiment care testeaza daca rezultatele la Bacalaureat sunt semnicativ diferite pentru diverse tipuri de licee din tara. Aici avem un singur factor, si anume numarul de promovati, si mai multe nivele: licee cu prol Mate-Info, licee cu prol economic, licee pedagogice, licee industriale etc. Se va aplica one-way ANOVA pentru a verica daca rezultatele medii la Bacalaureat sunt comparabile. In caz ca nu sunt, se pot identica diferentele semnicative. ˆ un experiment care studiaza daca gradul de satisfactie personala a populatiei unei tari depinde de varsta sau de gen. Aici putem aplica two-way ANOVA. Avem doi factori: varsta si genul, primul factor avand diverse nivele, e.g. tineri, varsta medie, batrani, iar al doilea factor are doua nivele: barbati si femei. Un test two-way ANOVA va determina daca gradul de satisfactie depinde de varsta sau de gen. Mai mult, se poate determina daca exista vreo pereche de niveluri varsta-gen care, in combinatie, sa dea rezultate semnicativ diferite de alte combinatii varsta-gen. In acest caz, vom spune ca cei doi factori interactioneaza intre ei. ˆ un experiment care sa determine efectele a 7 tipuri de combustibil asupra ecientei unui motor. Un test one-way ANOVA poate aplicat pentru a verica daca cele 7 tipuri de combustibil dau acelasi rezultat in ce priveste ecienta motorului. In caz negativ, se poate depista care tipuri de combustibil dau rezultate semnicativ diferite. One-way ANOVA Acest pachet de programe compara mediile a doua sau mai multe populatii de interes. Notam cu m numarul populatiilor considerate in experiment. Nivelele factorilor (i.e., populatiile) se mai numesc si tratamente. Spre exemplu, se doreste a se testa egalitatea valorilor medii pentru notele obtinute de elevi la disciplinele "Limba Romana", 'Istorie" si "Matematica". Aici, factorul este nota obtinuta la o disciplina la Bacalaureat, nivelele (tratamentele) sunt cele 3 discipline.

171 CSA 13 [Dr. Iulian Stoleriu] 170 Notam cu µ i media teoretica a populatiei i (i = 1, m), adica media reala atunci cand tratamentul i este aplicat. Ipoteza nula este ca toate tratamentele au aceeasi medie teoretica, i.e.: vs. ipoteza alternativa In continuare, vom utiliza urmatoarele notatii: (H 0 ) : µ 1 = µ 2 =... = µ m (H 1 ) : cel putin doua valori difera. ˆ n i, numarul de observatii pentru tratamentul de rang i, i = 1, m. Fie N = n 1 + n n m ; ˆ x ij, observatia de rang j pentru tratamentul i, i = 1, m, j = 1, n i ; ˆ X ij, variabila aleatoare corespunzatoare valorii x ij, i = 1, m, j = 1, n i ; ˆ x i = 1 n i n i j=1 ˆ s 2 i = 1 n i 1 x ij mediile; X i = 1 n i X ij, i = 1, m, mediile de selectie, pentru ecare tratament; n i n i j=1 pentru ecare tratament; ˆ X = 1 m 1 n i X ij = 1 m n i m j=1 [x ij x i ] 2 dispersiile; S 2 i = 1 n i 1 j=1 x este media generala n i j=1 m X i, media generala de selectie j=1 (en.; grand mean value). [X ij X i ] 2, i = 1, m, dispersiile de selectie, (en.; grand mean) De obicei, datele statistice care urmeaza a procesate cu ANOVA sunt prezentate sub forma unui tabel (vezi Tabelul 25.1). Treatment Data (x ij ) Sample mean (x i ) Sample std. (s i ) ; 8.46; 7.69; 7.83; 9.84; 7.15; 6.86; ; 7.82; 8.12; 9.40; 9.10; 7.85; 5.28; ; 6.17; 6.49; 5.79; 7.19; 6.38; 5.82; Ipoteze de lucru: Tabela 25.1: Date statistice pentru one-way ANOVA ˆ selectiile pentru ecare tratament sunt aleatoare. De obicei, se obtin selectii aleatoare simple pentru ecare tratament in parte. ˆ datele observate sunt aproximativ normal distribuite. Aceasta ipoteza poate vericata usor folosind o reprezentare graca (e.g., normplot in Matlab), in urmatorul mod. Dintre toate datele observate pentru tratametul X i scadem media valorilor observate pentru acest tratament, x i, pentru ecare i = 1, m. Valorile obtinute (numite si reziduuri) le concatenam si le reprezentam grac vs. cuantilele de la repartitia normala standard (folosind normplot). Daca valorile reprezentate sunt apropiate de prima bisectoare, atunci putem admite ipoteza de normalitate (vezi Figura 25.1). Dupa cum se observa, nu testam normalitatea ecarei selectii in parte, deoarece volumele selectiilor considerate pentru ANOVA sunt tipic mici si nu ar relevante. Concatenand reziduurile pentru toate tratamentele, obtinem un volum acceptabil.

172 CSA 13 [Dr. Iulian Stoleriu] 171 ˆ erorile de aproximare satisfac ipoteza de homoscedasticitate, i.e. deviatiile lor sunt toate egale. Se reprezenta grac (cu functia scatter) valorile observate pentru perechi de variabile. In Figura 25.2 avem doua astfel de reprezentari: una care prezinta proprietatea de homoscedasticitate, cealalta nu. Practic, putem admite aceasta ipoteza daca cea mai mare deviatie standard de selectie nu este de doua ori mai mare decat cea mai mica deviatie standard de selectie. Spre exemplu, in Tabelul 25.1, cea mai mare deviatie standard este care este mai mica decat de doua ori valoarea minima, , deci putem admite ipoteza de homoscedasticitate. Alternativ, exista teste statistice specice acestui test. Figura 25.1: normplot pentru vericarea normalitatii reziduurilor. Figura 25.2: Grace pentru vericarea homoscedasticitatii. In analiza ANOVA se considera urmatoarele sume de patrate: m n i ( 2 SSTr = X i X) suma patratelor pentru tratamente; are df = m 1 grade de libertate. j=1 SSE = m n i ( 2 Xij X i ) m = (n i 1)Si 2 suma patratelor erorilor; df = N m. j=1

173 CSA 13 [Dr. Iulian Stoleriu] 172 SST = m n i ( 2 X ij X) suma totala a patratelor; df = N 1. j=1 Se pot arata urmatoarele: MSTr = SSTr SSE SST, MSE =, MST = m 1 N m N 1. ( ) SSE SSE σ 2 χ2 (N m); E σ 2 = N m; ( ) SSTr σ 2 χ 2 SSTr (m 1); E σ 2 = m 1; SSE σ 2 Din ultimele relatii, putem deduce ca ( ) ( ) SSTr SSE E = E m 1 N m si SSTr σ 2 SST = SSTr + SSE. sunt independente. = σ 2 = E (MSTr) = E (MSE) = σ 2. Astfel, daca ipoteza nula este adevarata, atunci exista doi estimatori nedeplasati pentru σ 2, si anume: MSE si MSTr. Consideram statistica test F = MSTr MSE. Daca ipoteza nula ar adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1. Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F 0 valoara acestei statistici pentru datele observate, cu ν 1 = m 1, ν 2 = N m si cu f α; ν1 ν 2 cuantila de ordin α pentru repartitia Fisher cu (ν 1, ν 2 ) grade de libertate. Pentru a testa ipoteza nula (H 0 ) procedam astfel: Daca { F 0 < f 1 α; ν1, ν 2 atunci admitem ipoteza nula (H 0 ); F 0 > f 1 α; ν1, ν 2 atunci respingem ipoteza nula (H 0 ). De regula, orice soft statistic ce are implementat ANOVA va da rezultatul nal sub forma unui tabel, in general de forma Tabelului 25.2 (care apare in Matlab). Sourse of variation df SS MS F Prob>F Columns m 1 SSTr MSTr = SSTr MSTr m 1 P v MSE Error N m SSE MSE = SSE N m Total N 1 SST Tabela 25.2: Tabel cu rezultate pentru one-way ANOVA In acest tabel, valoarea P v este probabilitatea de a respinge ipoteza nula cand ea este adevarata. Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem un rezultat cel putin la fel de extrem ca si cel deja observat. Aceasta explica si notatia Prob>F, transpusa matematic prin P v = P (S > F), unde S F(ν 1, ν 2 ) si F = MSTr MSE. Dac P v < α, atunci ipoteza nul (H 0 ) va respins. Altfel, o accept m.

174 CSA 13 [Dr. Iulian Stoleriu] 173 Observaµia In cazul particular in care toate selectiile considerate au acelasi volum, i.e., n i = n, i = 1, m, atunci N = mn si N m = m(n 1) etc. In cazul in care ipoteza nula (H 0 ) este respinsa, se poate realiza un test de vericare, care sa testeze care dintre cele Cm 2 perechi de medii sunt diferite. Un test care realizeaza aceasta este testul Tukey. Aceste test detemina intervale de incredere pentru diferentele mediilor teoretice µ i µ j, pentru orice i < j. Acestea sunt: [x i x j Q 1 α; m, n m MSE m, unde Q α; m, n m sunt cuantilele repartitiei range standardizat, Q = max {Z k } min k=1, n k=1, n W ν x i x j + Q 1 α; m, n m MSE m {Z k }, unde {Z k } k=1, n N (0, 1) independente, W χ 2 (ν). Daca valoara 0 nu apartine intervalului de incredere pentru µ i µ j, atunci decidem ca µ i si µ j difera semnicativ. Daca 0 se aa in intervalul de incredere, atunci admitem ca µ i = µ j la nivelul de incredere α. ], Observaµia Ipoteza nula din testul one-way ANOVA mai poate scrisa dupa cum urmeaza. Fiecare variabila X ij este, de fapt, valoarea medie a tratamentului de rang i, la care se adauga o eroare normala de medie zero. Pentru ecare tratament in parte, erorile sunt considerate a independente. Scriem: X ij = µ i + ɛ ij, i = 1, m, j = 1, n i, cu ɛ ij N (0, σ), independente. Vectorul ɛ i = (ɛ i1, ɛ i2,..., ɛ ini ) se numeste zgomot alb (en., white noise). µ = 1 m µ i, α i = µ i µ (i = 1, m). m Vom numi α i deplasarea de la media reala µ datorata tratamentului de rang i. Atunci, putem scrie: X ij = µ + α i + ɛ ij, i = 1, m,, j = 1, n i. Ipoteza nula poate scrisa astfel: (H 0 ) : α 1 = α 2 =... = α m = 0 vs. ipoteza alternativa (H 1 ) : macar un α i este nenul. Two-way ANOVA Two-way ANOVA este o colectie de proceduri statistice ce testeaza valorile unei variabile raspuns ce depinde de doi factori (populatii). Prezentarea de mai jos urmeaza ideile din [6]. Un exemplu este urmatorul: se doreste testarea gradului de fericire a adultilor in functie de varsta si gen. Un numar de adulti de ambele genuri si de diferite varste sunt rugati sa completeze cate un chestionar,

175 CSA 13 [Dr. Iulian Stoleriu] 174 care sa determine gradul de satisfactie personala (fericire) al ecaruia. Aici, variabila raspuns este gradul de fericire, care este evaluata in functie de doi factori. Primul factor este varsta, care poate impartita in mai multe categorii (nivele), e.g., tineri, varsta medie, batrani. Al doilea factor este genul, care are doua niveluri: barbati si femei. In continuare, vom considera ca A si B sunt cei doi factori, iar pentru ecare factor in parte avem m, respectiv n niveluri. Pentru ecare pereche de niveluri corespunzatoare celor doi factori putem avea un numar K ij 1 de observatii. In exemplul de mai sus, K ij reprezinta numarul de subiecti de nivelul de varsta i si de nivelul gen j care au raspuns la chestionare. Cazul K ij = 1, (i, j) Notam prin X ij variabila raspuns cand factorul A este tinut la nivelul i si factorul B la nivelul j, pentru orice i = 1, m,, j = 1, n. Vom nota cu x ij o posibila valoare a acestei variabile. In cazul K ij = 1, valorile observate le putem prezenta ca in tabelul de mai jos: X n 1 x 11 x 12 x x 1n 2 x 21 x 22 x x 2n.. m x m1 x m2 x m3... x mn In total, com avem mn valori, corespunzatoare celor mn celule (i, j). In continuare, vom folosi urmatoarele notatii: ˆ m este numarul de observatii pentru factorul A si n este numarul de observatii pentru factorul B; ˆ X i = 1 n ˆ X j = 1 m ˆ X = 1 mn n X ij, i = 1, m, mediile de selectie pentru ecare nivel al factorului A; j=1 m X ij, j = 1, n, mediile de selectie pentru ecare nivel al factorului B; j=1 m j=1 n X ij = 1 m m X i = 1 n j=1 ˆ De asemenea, vom nota prin x i = 1 n n X j, media generala de selectie j=1 n x ij, j=1 si x valorile corespunzatoare statisticilor de mai sus pentru datele observate. Ipoteze de lucru: ˆ selectiile pentru ecare factor sunt aleatoare; x j = 1 m ˆ datele observate sunt aproximativ normal distribuite. Modelul statistic de lucru este m j=1 x ij (en. grand mean); X ij = µ ij + ɛ ij, i = 1, m, j = 1, n, cu ɛ ij N (0, σ), independente.

176 CSA 13 [Dr. Iulian Stoleriu] 175 Se doreste ca acest model sa determine constantele necunoscute (parametrii). Insa, se observa ca avem mn + 1 parametri (µ ij si σ) si doar mn ecuatii. Pentru a putea rezolvata problema, va trebui sa reducem din necunoscute. O idee ar sa folosim un model aditiv, scriind: µ ij = α i + β j, i = 1, m, j = 1, n. Pentru m 3 si n 2, avem suciente ecuatii pentru a determina parametrii. Exista o problema in ce priveste unicitatea solutiei, deoarece α i + c si β j c (c R) sunt, de asemenea, solutii. Modelul de mai sus poate simplicat si mai mult, considerand in schimb urmatorul model: X ij = µ + α i + β j + ɛ ij, unde m α i = 0, n β j = 0. Mai sus, µ reprezinta media reala generala in cazul in care variabila raspuns nu ar depinde de niciunul dintre cei doi factori, α i reprezinta efectul factorului A la nivelul i si β j reprezinta efectul factorului B la nivelul j. Se poate demonstra ca urmatorii estimatori sunt estimatori nedeplasati pentru parametrii pe care ii estimeaza: µ = X; α i = X i X; βj = X j X. In cazul two-way ANOVA cu K ij = 1, (i, j), vom avea doua ipoteze nule: una referitoare la factorul A, cealalta se refera la factorul B. Ipoteza nula ce face referire la factorul A spune ca diferitele niveluri ale lui A nu au niciun efect asupra variabilei raspuns. Similar pentru ipoteza nula ce face referire la B. Matematic, le scriem astfel: Ipoteze pentru factorul A: (H 0A ) : α 1 = α 2 =... = α m = 0 vs. (H 1A ) : macar un α i este nenul. Ipoteze pentru factorul B: (H 0B ) : β 1 = β 2 =... = β n = 0 vs. (H 1B ) : macar un β j este nenul. Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici: SSA = SSB = SST = m m j=1 m n j=1 n n j=1 SSE = m ( X ij X) 2 suma totala a patratelor; are df = mn 1 grade de libertate. ( X i X) 2 suma totala a patratelor coresp. lui A; are df = m 1 grade de libertate. ( X j X) 2 suma totala a patratelor coresp. lui B; are df = n 1 grade de libertate. n j=1 MST = Se pot arata urmatoarele: ( X ij X i X j + X) 2 suma patratelor erorilor; df = (m 1)(n 1). SST SSA SSB, MSA =, MSB = mn 1 m 1 n 1, MSE = SSE (m 1)(n 1). SSA σ 2 χ2 (m 1); E(MSA) = σ 2 + n m 1 m αi 2 ;

177 CSA 13 [Dr. Iulian Stoleriu] 176 SSB σ 2 χ2 (n 1); E(MSB) = σ 2 + m n 1 SST = SSA + SSB + SSE. n βj 2 ; Daca ipoteza nula (H 0A ) este adevarata, atunci exista doi estimatori nedeplasati pentru σ 2, si anume: MSE si MSA. Consideram statistica test F A = MSA MSE. Daca ipoteza nula ar adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1. Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F 0A valoarea acestei statistici pentru datele observate, cu ν 1 = m 1, ν 2 = (m 1)(n 1) si cu f α; ν1,ν 2 cuantila de ordin α pentru repartitia Fisher cu (ν 1, ν 2 ) grade de libertate. Pentru a testa ipoteza nula (H 0A ) procedam astfel: Daca { F 0A < f 1 α; ν1, ν 2 atunci admitem ipoteza nula (H 0A ); j=1 F 0A > f 1 α; ν1, ν 2 atunci respingem ipoteza nula (H 0A ). Se procedeaza similar pentru testarea ipotezei (H 0B ), considerand statistica F B = MSB MSE. Valoarea critica in acest caz este f α; ν1,ν 2, unde ν 1 = n 1, ν 2 = (m 1)(n 1). De regula, orice soft statistic ce are implementat two-way ANOVA va da rezultatul nal sub forma unui tabel, in general de forma Tabelului 25.3 (care apare in Matlab). Source of variation df SS MS F Prob>F A m 1 SSA MSA = SSA m 1 F A = MSA P MSE va B n 1 SSB MSB = SSB n 1 F B = MSB P MSE vb SSE Error (m 1)(n 1) SSE MSE = (m 1)(n 1) Total mn 1 SST Tabela 25.3: Tabel cu rezultate pentru two-way ANOVA In acest tabel, valoarea P va este probabilitatea de a respinge ipoteza nula (H 0A ) cand ea este adevarata. Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem un rezultat cel putin la fel de extrem ca si cel deja observat. Aceasta explica si notatia Prob>F, transpusa matematic prin P va = P (S > F A ), unde S F(ν 1, ν 2 ) si F A = MSA MSE. Dac P va < α, atunci ipoteza nul (H 0A ) va respins. Altfel, o accept m. Similar se procedeaza pentru factorul B. Dac P vb < α, atunci ipoteza nul (H 0B ) va respins. Altfel, o accept m. Cazul K ij > 1 pentru macar o pereche (i, j) Asadar, in ecare celula (i, j) putem avea mai mult de o singura valoare. valorilor observate in ecare celula (i, j) sunt: Vom considera ca mediile µ ij = µ + α i + β j + γ ij, i = 1, m, j = 1, n.

178 CSA 13 [Dr. Iulian Stoleriu] 177 Aici, α i este efectul factorului A la nivelul i asupra variabilei raspuns; β j este efectul factorului B la nivelul j; γ ij este efectul interactiunii factorului A la nivelul i cu factorul B la nivelul j. Fie µ = 1 mn m j=1 n µ ij ; µ i = 1 n n µ ij ; µ j = 1 m j=1 m µ ij Facem urmatoarele notatii specice: α i = µ i µ; β j = µ j µ; γ ij = µ ij (µ + α i + β j ). ˆ Presupunem ca pentru ecare celula (i, j) avem K ij 1 observatii, cu indicele de sumare k. ˆ Fie κ = m n K ij numarul total de observatii; j=1 ˆ X ijk este valoarea de rang k observata in celula (i, j); ˆ X ij = 1 K ij ˆ X i = 1 n ˆ X j = 1 m ˆ X = 1 m K ij X ijk este valoarea medie a datelor observate in ecare celula (i, j); k=1 n X ij este valoarea medie a datelor observate pentru nivelul i al factorului A; j=1 m X ij este valoarea medie a datelor observate pentru nivelul j al factorului B; m X i = 1 n n X j este valoarea medie a tuturor datelor observate (en., grand mean); j=1 ˆ se va nota cu x ijk, x ij, x i, x j, x valori posibile ale statisticilor de mai sus. Vom considera urmatorul model statistic relativ la X ijk, variabila de rang k pentru celula (i, j): X ijk = µ + α i + β j + γ ij + ɛ ijk, i = 1, m, j = 1, n, k = 1, K ij. In cazul two-way ANOVA cu m car un K ij > 1, vom avea trei ipoteze nule: una referitoare la factorul A, cealalta se refera la factorul B si una referitoare la interactiunea dintre cei doi factori. De regula, prima ipoteza testata este cea referitoare la interactiune. Ipoteza nula corespunzatoare interactiunii spune ca nu exista nicio interactiune intre acesti factori relativ la variabila raspuns. Daca ipoteza nula este admisa, atunci se trece si la vericarea celorlalte doua ipoteze. Altfel, aceste vericari suplimentare nu isi mai au rostul. Ipoteza nula ce face referire la factorul A spune ca diferitele niveluri ale lui A nu au niciun efect asupra variabilei raspuns. Similar pentru ipoteza nula ce face referire la B. Matematic, scriem cele trei ipoteze astfel: Ipoteze pentru interactiune: (H 0AB ) : γ ij = 0, (i, j) vs. (H 1AB ) : macar un γ ij este nenul.

179 CSA 13 [Dr. Iulian Stoleriu] 178 Ipoteze pentru factorul A: (H 0A ) : α 1 = α 2 =... = α m = 0 vs. (H 1A ) : macar un α i este nenul. Ipoteze pentru factorul B: (H 0B ) : β 1 = β 2 =... = β n = 0 vs. (H 1B ) : macar un β j este nenul. Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici: K m n ij ( 2 SST = X ijk X) suma totala a patratelor; are df = mnκ 1 grade de libertate. SSA = SSB = j=1 k=1 m SSE = j=1 k=1 m SSAB = m K n ij ( 2 Xijk X ij ) suma patratelor erorilor; df = mn(κ 1). j=1 k=1 K n ij ( 2 X i X) suma totala a patratelor coresp. lui A; are df = m 1 grade de libertate. K n ij ( 2 X j X) suma totala a patratelor coresp. lui B; are df = n 1 grade de libertate. j=1 k=1 m K n ij ( 2 X ij X i X j + X) suma patratelor erorilor; df = (m 1)(n 1). j=1 k=1 MST = SST mnκ 1, MSE = SSE SSA SSB, MSA =, MSB = mn(κ 1) m 1 n 1, MSAB = SSAB (m 1)(n 1). Se poate demonstra urmatoarea egalitate: Statisticile test si pragurile critice sunt: F AB = MSAB MSE SST = SSE + SSA + SSB + SSAB. pentru ipoteza nula (H 0AB ); f AB = f 1 α; (m 1)(n 1), mn(κ 1) ; F A = MSA MSE pentru ipoteza nula (H 0A ); f A = f 1 α; m 1, mn(κ 1) ; F B = MSB MSE pentru ipoteza nula (H 0B ); f B = f 1 α; n 1, mn(κ 1). Decizia, pentru ecare ipoteza in parte, se ia astfel: Daca F f, respingem ipoteza nula (H 0 ) la nivelul de semnicatie α. Altfel, admitem ipoteza nula (H 0 ). Tabel cu rezultate: Sourse of variation df SS MS F Prob>F A m 1 SSA MSA = SSA m 1 F A = MSA P MSE va B n 1 SSB MSB = SSB n 1 F B = MSB P MSE vb AB (m 1)(n 1) SSAB MSAB = SSAB n 1 F AB = MSAB P MSE vab Error mn(κ 1) SSE MSE = SSE mn(κ 1) Total mnκ 1 SST Tabela 25.4: Tabel cu rezultate pentru two-way ANOVA in cazul K ij > 1, pentru macar un (i, j)

180 CSA 13 [Dr. Iulian Stoleriu] 179 Bazandu-ne pe o valoare P v, putem lua astfel decizia referitor la ipoteza nula (H 0 ): Daca α < P v, atunci admitem ipoteza nula (H 0 ) la nivelul de semnicatie α. Altfel, o respingem. Aici, P v mai poate calculat si astfel: P v = P (S > F ), unde S F(ν 1, ν 2 ) si F = MS* MSE. Dupa cum am precizat mai sus, prima ipoteza testata este cea referitor la interactiuni, (H 0AB ). Daca aceasta este respinsa, atunci nu mai are sens testarea celorlalte doua ipoteze ramase.

181 LSA 13 [Dr. Iulian Stoleriu] Statistic Aplicat (L13) Aplicatie pentru one-way ANOVA Functia Matlab anova1 efectueaza testul pentru egalitatea mediilor. Formatul functiei este: [p,tabel,stats] = anova1(x) unde X reprezinta matricea de date. Coloanele din matricea X reprezinta factorii; pentru ecare factor se specica m valori, unde m este numarul de linii din matrice. Valorile asate sunt: p = valoarea P v a testului, tabel si stats sunt, in ordine, un tabel cu detaliile analizei variatiilor si diverse alte statistici. In cazul in care ipoteza nula (vericata de anova1) este invalidata, atunci putem face testul Tukey pentru a determina care perechi de medii difera. In Matlab, acest test se realizeaza cu comanda multcompare. Aceasta aseaza intervalele de incredere pentru diferentele mediilor oricaror doua perechi de coloane si o reprezentare graca a acestora. Forma functiei cea mai simplicata este: c = multcompare(stats), unde stats este rezultatul de la anova1. Exerciµiu Tabelul de mai jos contine notele la Bacalaureat pentru o selectie aleatoare de 8 elevi dintr-un anumit oras care au sustinut Bacalaureatul la disciplinele "Limba Romana", 'Istorie" si "Matematica". Disciplina E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 Rom Ist Mat Cerinte: (1) Folosind o reprezentare graca, vericati normalitatea datelor. (2) La nivelul de semnicatie α = 0.05, testati ipoteza ca mediile teoretice la cele trei discipline sunt toate egale, in doua moduri:. (a) folosind comanda anova1 din Matlab; (b) folosind formulele si testul de la curs. (3) In cazul in care mediile nu sunt toate egale, determinati perechile de medii care difera semnicativ. Soluµie: Matricea de date N este una de tip 8 3, unde pe ecare coloana am introdus notele pentru ecare disciplina in parte. In plus, D reprezinta etichetele pentru datele din matrice. N = [ ; ; ]'; D = {'Rom','Rom','Rom','Rom','Rom','Rom','Rom','Rom',... 'Ist','Ist','Ist','Ist','Ist','Ist','Ist','Ist',... 'Mat','Mat','Mat','Mat','Mat','Mat','Mat','Mat'}; % (1) ~~~~~~~~~~~~~~ normplot(reziduuri) ~~~~~~~~~~~~~~~~~~~~~~~~~~~ Xp = mean(n); % mediile pe fiecare coloana

182 LSA 13 [Dr. Iulian Stoleriu] 181 rez = N - [Xp;Xp;Xp;Xp;Xp;Xp;Xp;Xp]; % din fiecare nota scadem media disciplinei R = N(:); % valorile matricei intr-o singura coloana figure(3); normplot(r) % verifica normalitatea reziduurilor % (2a) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Pv = anova1(n,d) % tabelul si graficul sunt atasate mai jos % (3) ~~~~~~~~~~~~~~~~~~~ Tukey test ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ c = multcompare(stats) % graficul rezultat este atasat mai jos [nms(c(:,1)), nms(c(:,2)), num2cell(c(:,3:5))] Figura 26.1: Rezultatele produse de anova1 in Matlab. Ipoteza nula este (H 0 ) : µ R = µ I = µ M Din ANOVA Table extragem informatia despre valoarea critica pentru probabilitate, P v = P rob > F. Deoarece P v = < 0.05 = α, respingem ipoteza nula. Asadar, macar doua medii sunt semnicativ diferite. Al doilea grac din Figura 26.1 reprezinta boxplots pentru notele la ecare disciplina in parte. Se observa ca nu apar valori aberante (outliers). Figura urm toare reprezinta intervalele de incredere (la nivelul de semnicatie considerat) pentru mediile teoretile la ecare disciplina. Se observa ca intervalele de incredere pentru mediile la Romana si la Matematica nu se intersecteaza, asadar cele doua medii sunt semnicativ diferite. Celelelate doua perechi de medii sunt egale la nivelul de semnicatie 0.05.

183 LSA 13 [Dr. Iulian Stoleriu] 182 Figura 26.2: Compararea perechilor de medii in Matlab. % (2b) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ n = 8; k = 3; alpha = 0.05; Xp = mean(note); Xpp = mean(mean(note)); SSTr = n*sum((xp - Xpp).^2); Si2 = var(note); SSE = (n-1)*sum(si2); SST = SSTr + SSE; MSTr = SSTr/(k-1); MSE = SSE/(k*(n-1)); F = MSTr/MSE; Fcrit = finv(1-alpha,k-1,k*(n-1)); if (F<Fcrit) disp('medii egale') else disp('medii inegale') end Pv = 1 - fcdf(f,k-1,k*(n-1)) %%% ~~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%% % p = % % % % table = % 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' % 'Groups' [ ] [ 2] [4.9781] [4.1048] [0.0313] % 'Error' [ ] [21] [1.2127] [] [] % 'Total' [ ] [23] [] [] []

184 LSA 13 [Dr. Iulian Stoleriu] 183 % F = Fcrit = % % % % medii inegale % % Pv = % % % % ans = % % 'Rom' 'Ist' [ ] [0.3762] [1.7641] % % 'Rom' 'Mat' [ ] [1.5150] [2.9029] % % 'Ist' 'Mat' [ ] [1.1387] [2.5266] % %%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%% Aplicatie pentru two-way ANOVA Exerciµiu O companie producatoare de automobile are doua fabrici, ecare fabrica producand 3 tipuri de masini la clasa de 1.4cm 3. In vederea testarii consumului de carburant, se face cate o selectie de 3 masini de la ecare fabrica si din ecare tip de masina. Consumul de carburant per 100km pentru masinile selectate este reprezentat mai jos. Am notat cu F fabricile si cu T tipurile de masina F F }{{} T 1 }{{} T 2 Se cere: (a) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului de carburant de fabrica unde este produsa masina; (b) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului de carburant de tipul de masina produs. Soluµie: Dupa cum se observa din matricea de date, avem doi factori: A = T tipul si B = F fabrica. Pentru analiza cei doi factori au fost alese cate 3 masini din ecare tip, de la ecare fabrica, adica avem cate 3 valori pentru ecare pereche (T, F ). Aceasta inseamna ca K ij = K = 3, pentru orice i = 1, 2, j = 1, 3. Vom utiliza functia anova2 din Matlab. }{{} T 3 clear all; m = 2; n = 3; k = 3; X = [ ; ; ;

185 LSA 13 [Dr. Iulian Stoleriu] ; ; ]; [p,tbl,stats] = anova2(x,k) c = multcompare(stats, 'alpha', 0.05) % valoarea implicita este 0.05, dar poate fi schimbata Rezultatele sunt urmatoarele: p = tbl = 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' 'Columns' [ ] [ 2] [ ] [ ] [0.0014] 'Rows' [5.5556e-004] [ 1] [5.5556e-004] [ ] [0.8722] 'Interaction' [ ] [ 2] [ ] [ ] [0.3516] 'Error' [ ] [12] [ ] [] [] 'Total' [ ] [17] [] [] [] stats = source: 'anova2' sigmasq: colmeans: [ ] coln: 6 rowmeans: [ ] rown: 9 inter: 1 pval: df: 12 c = Valorile p reprezinta valorile P v care determina semnicatia ipotezelor nule (H 0A ), (H 0B ) si, respectiv (H 0AB ). Spre exemplu, ipoteza nula (H 0B ) spune ca nu exista diferenta semnicativa intre mediile diverselor nivele ale factorului B = F, cu alte cuvinte, nu exista diferente semnicative intre consumul de carburant mediu la 11km intre cele doua fabrici. Pe de alta parte, ipoteza nula (H 0AB ) spune ca nu exista interactiuni semnicative intre cei doi factori, adica nu exista diferente intre tipurile de masina si fabrici in ce priveste consumul mediu de carburant la 100km. Deoarece p 3 = > 0.05 = α, rezulta ca ipoteza (H 0AB ) este admisa, asadar alegerea tipului de masina nu depinde de fabrica.

186 LSA 13 [Dr. Iulian Stoleriu] 185 Se observa ca p 2 = > 0.05 = α, deci ipoteza (H 0B ) este admisa, insemnand faptul ca nu exista diferente semnicative intre consumurile medii de carburant la 100km intre masinile produse de cele doua fabrici. Se observa ca p 1 = < 0.05 = α, deci ipoteza (H 0A ) este respinsa, insemnand faptul ca exista diferente semnicative intre consumurile medii de carburant la 100km intre cele trei tipuri de masini. Pentru a determina care dintre mediile pe coloane sunt diferite, folosim comanda multcompare din Matlab. Figura 26.3: Compararea multipla a perechilor de medii in Matlab. Din Figura 26.3 observam ca mediile pentru consumul la 100km ale primelor doua tipuri de masina sunt egale, a treia medie ind semnicativ diferita de ele. Matricea c aseaza intervale de incredere si estimatori punctuali pentru diferentele mediilor celor trei perechi de coloane. Dupa cum se observa, primul interval de incredere, ( , ) contine valoarea 0, deci putem concluziona ca aceste doua medii sunt egale la acest nivel de semnicatie. Celelalte doua intervale de incredere, ( , ) si ( , ) nu contin pe 0, deci mediile corespunzatoare sunt semnicativ diferite.

187 LSA 13 [Dr. Iulian Stoleriu] 186 Probleme propuse Exerciµiu Andrei a primit prin fax un raport referitor la încas rile obµinute s pt mâna trecut, obµinute din vânz rile anvelopelor pe care rma sa le are în stoc. Din p cate, faxul s u nu este prea bun ³i, din tot raportul, se pot distinge doar rezultate parµiale ale unui test Anova, unele valori ind ³terse. Source of variation SS df MS F Prob>F Groups f9 7r45 1j4g Error T Y l4i5 1s7 Total (a) Câte tipuri de anvelope are rma sa în stoc?. Formulaµi ipotezele testului. (b) Completaµi valorile ³terse din tabel.. Care este rezultatul testului? Exerciµiu O rm de computere dore³te s compare viteza de lucru pentru patru compilatoare produse de aceast rm. Fiecare dintre cele patru compilatoare a rulat aceleasi 5 programe. Datele din tabelul de mai jos reprezint timpii de compilare (exprimaµi în milisecunde) pentru ecare dintre programe, rulate pe cele patru compilatoare. Program Compilor A B C D E C C C C (a) Testaµi la nivelul de semnicaµie de 5% dac exist diferenµe semnicative între performanµele medii ale celor 4 compilatoare. (b) Difer semnicativ timpii medii de compilare de tipul de program rulat? Justicaµi. (c) Pentru care dintre compilatoare, timpul mediu de compilare difer semnicativ de cel al lui C4? Exerciµiu Patru tratamente pentru o anumit erupµie cutanat au fost administrate la 20 de pacienµi ale³i aleator. Datele din tabelul de mai jos reprezint, pentru ecare tratament în parte, num rul de zile scurse de la prima apariµie a erupµiei pân la vindecare. Tratament Num rul de zile A B C D (a) Determinaµi dac exist diferenµe semnicative între rezultatele medii ale celor 4 tratamente. (b) Precizaµi care dintre cele 4 tratamente difer semnicativ. Exerciµiu Patronul unui anumit call center a cerut informaµii referitoare la timpul petrecut de angajaµii s i în discuµii telefonice cu clienµii. Acest call center este deschis non-stop ³i angajaµii lucreaz în mai multe schimburi. Pentru ecare schimb, a fost ales un e³antion de 10 de angajaµi. Tabelul de mai jos a fost primit prin fax ³i reprezint rezultatul unui test ANOVA. Din p cate, unele informaµii nu s-au transmis corect. Variabila dependent este timpul (în secunde) petrecut de angajaµi cu ecare client. Source of variation SS df MS F Prob>F Groups f9 7r45 1j4g Error T Y l4i5 1s7 Total (a) Câte schimburi exist la call center?. Formulaµi ipotezele testului. (b) Completaµi valorile ³terse din tabel.. Care este rezultatul testului la încrederea de 95%?

188 Anexa 1 [Dr. Iulian Stoleriu] Anexa 1 Scurt introducere în Matlab Matlab este un pachet comercial de programe de înalt performanµ produs de The MathWorks, Inc., dedicat calculului numeric ³i reprezent rilor grace în domeniul ³tiinµelor ³i ingineriei. Elementul de baz cu care opereaz Matlab-ul este matricea (Matlab este acronim de la MATrix LABoratory). Matlab este un software standard în mediile universitare, precum ³i în domeniul cercet rii ³i rezolv rii practice aproblemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici aplicate în diverse domenii etc. Cea mai important caracteristic a Matlab-ului este u³urinµa cu care poate extins. La programele deja existente în Matlab, utilizatorul poate ad uga propriile sale coduri, dezvoltând aplicaµii specice domeniului în care lucreaz. Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµii Matlab (³iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu interpretor propriu, în jurul c ruia sunt construite toolbox-urile. Prezent m mai jos o scurt introducere în Matlab a principalelor funcµii ³i comenzi folosite în aceast lucrare. Pentru o tratare mai detaliat, puteµi consulta un manual de utilizare sau [9]. Mai menµion m aici ³i lucrarea [1], unde puteµi g si diverse modalit µi de implementare în Matlab ale unor noµiuni de Teoria Probabilit µilor ³i Statistic matematic. Folosind comanda demo din Matlab, puteµi urm ri o demonstraµie a principalelor facilit µi din Matlab, cât ³i a pachetelor de funcµii (toolbox) de care aµi putea interesaµi. Dintre acestea, amintim Statistics Toolbox, care este o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor. Conµine: analiza gracelor (GUI), diverse repartiµii probabilistice (beta, binomial, Poisson, χ 2 ), generarea numerelor aleatoare, analiza regresional, descrieri statistice. ˆ Comenzile Matlab pot scrise în ³iere cu extensia.m, ce urmeaz apoi a compilate. Un ³ier-m const dintr-o succesiune de instrucµiuni, cu posibilitatea apel rii altor ³iere-M precum ³i a apel rii recursive. De asemenea, Matlab poate folosit ca pe un mediu computaµional interactiv, caz în care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sau evaluate imediat. De exemplu, introducând la linia de comand >> a = sqrt((sqrt(5)+1)/2) Matlab dene³te o variabil de memorie a, c reia îi atribuie valoarea a = ˆ Variabilele sunt denite cu ajutorul operatorului de atribuire, =, ³i pot utilizate f r a declara de ce tip sunt. Valoarea unei variabile poate : o constant, un ³ir de caractere, poate reie³i din calculul unei expresii sau al unei funcµii. ˆ Pentru a g si informaµii imediate despre vreo funcµie predenit, comanda help va vine în ajutor. De exemplu,

189 Anexa 1 [Dr. Iulian Stoleriu] 188 >> help length a³eaz urm toarele: LENGTH Length of vector. LENGTH(X) returns the length of vector X. It is equivalent to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones. See also numel. ˆ Comanda help poate utilizat doar dac se cunoa³te exact numele funcµiei. Altfel, folosirea comenzii lookfor este recomandat. De exemplu, comanda >> lookfor length produce: NAMELENGTHMAX Maximum length of MATLAB function or variable name. VARARGIN Variable length input argument list. VARARGOUT Variable length output argument list. LENGTH Length of vector. ˆ Matlab este un mediu computaµional orientat pe lucru cu vectori ³i matrice. O linie de cod de forma >> v = [1,3,5,7,9] % sau v = [ ] dene³te un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate realizat ³i folosind comanda v = 1:2:9 adic a³eaz numerele de la 1 la 9, cu pasul 2. Pentru un vector coloan, folosim punct-virgul între elemente, adic >> v = [1;3;5;7;9] % vector coloana O alt variant de a deni un vector este >> v = linspace(x1,x2,n) adic v este un vector linie cu n componente, la intervale egale între x1 ³i x2. ˆ Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instrucµiuni ³i funcµii. La denirea explicit, trebuie µinut cont de urm toarele: elementele matricei sunt cuprinse între paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaµii libere sau virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda >> A = [1 2 3; 4, 5, 6]

190 Anexa 1 [Dr. Iulian Stoleriu] 189 dene³te matricea A = ˆ Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele de coloan j) sau A(i,:) (elementele de linia i); ˆ Funcµia Matlab ones(m,n) dene³te o matrice m n, având toate componentele egale cu 1. Funcµia zeros(m,n) dene³te o matrice zero m n. Funcµia eye(n) dene³te matricea unitate de ordin n. ˆ Dup cum vom vedea mai jos, Matlab permite denirea unor funcµii foarte complicate prin scrierea unui cod. Dac funcµia ce o avem de denit este una simpl, atunci avem varianta utiliz rii comenzii inline. Spre exemplu, denim funcµia f(x, y) = e 5x sin 3y: >> f = inline('exp(5*x).*sin(3*y)') f = Inline function: f(x,y) = exp(5*x).*sin(3*y) Putem apoi calcula f(7, π) prin >> f(7,pi) ˆ Un program Matlab poate scris sub forma ³ierelor script sau a ³ierelor de tip funcµie. Ambele tipuri de ³iere sunt scrise în format ASCII. Aceste tipuri de ³iere permit crearea unor noi funcµii, care le pot completa pe cele deja existente. Un ³ier script este un ³ier extern care conµine o secvenµ de comenzi Matlab. Prin apelarea numelui ³ierului, se execut secvenµa Matlab conµinut în acesta. Dup execuµia complet a unui ³ier script, variabilele cu care acesta a operat r mân în zona de memorie a aplicaµiei. Fi³ierele script sunt folosite pentru rezolvarea unor probleme care cer comenzi succesive atât de lungi, încât ar putea deveni greoaie pentru lucrul în mod interactiv, adic în modul linie de comand. Pentru a introduce date în Matlab, putem copia datele direct într-un ³ier Matlab, prin denirea unui vector sau a unei matrice de date. De exemplu, urm toarele date au fost introduse prin "copy-paste" în matricea data: >> data = [ % atribuirea valorilor matricei data % prima linie a datelor copiate % ultima linie a datelor copiate ]; % inchidem paranteza ce defineste matricea de date Datele din Matlab pot salvate astfel:

191 Anexa 1 [Dr. Iulian Stoleriu] 190 >> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele >> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat Datele pot reînc rcate folosind comanda load Timpi_de_reactie Timpi_de_reactie % incarca datele din fisier % afiseaza datele incarcate Fi³ierele funcµie Matlab creaz cadrul propice extinderii funcµiilor sale, prin posibilitatea cre rii de noi ³iere. Astfel, dac prima linie a ³ierului.m conµine cuvântul function, atunci ³ierul respectiv este declarat ca ind ³ier funcµie. Variabilele denite ³i manipulate în interiorul ³ierului funcµie sunt localizate la nivelul acesteia. Prin urmare, la terminarea execuµiei unei funcµii, în memoria calculatorului nu r mân decât variabilele de ie³ire ale acesteia. Forma general a primei linii a unui ³ier este: function[param_iesire] = nume_functie(param_intrare) unde: ˆ function este este cuvântul care declar ³ierul ca ³ier funcµie; ˆ nume_functie este numele funcµiei, care este totuna cu numele sub care se salveaz ³ierul; ˆ param_iesire sunt parametrii de ie³ire; ˆ param_intrare sunt parametrii de intrare. Comenzile ³i funcµiile care sunt utilizate de nou funcµie sunt înregistrate într-un ³ier cu extensia.m. Exemplu Fisierul medie.m calculeaz media aritmetic a sumei p tratelor componentelor unui vector X (alternativ, aceast lucru poate realizat prin comanda mean(x.^2)): function m2 = medie(x) n = length(x); m2 = sum(x.^2)/n; Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµii Matlab (³iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Statistics Toolbox reprezint o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor ³i conµine: generarea de numere aleatoare; distribuµii, analiza grac interactiv (GUI), analiza regresional, descrieri statistice, teste statistice. În Tabelul 27.1 am adunat câteva comenzi utile în Matlab.

192 Anexa 1 [Dr. Iulian Stoleriu] 191 % % permite adaugarea de comentarii in cod help rand % help specic pentru funcµia rand lookfor normal % cauta intrarile în Matlab pentru normal X=[ ] % vector linie cu 7 elemente X=[3; 1; 6.5 ;0 ;77] % vector coloan cu 5 elemente X = -10:2:10 % vector cu numerele intregi de la 10 la 10, din 2 în 2 length(x) % lungimea vectorului X t=0:0.01:3*pi % dene³te o diviziune a [0, 3π] cu diviziunea 0.01 X.^2 % ridic toate componentele vectorului X la puterea a doua X.*Y % produsul a doi vectori cumsum(x) % suma cumulat a elementelor vectorului X cumprod(x) % produsul cumulativ al elementelor vectorului X min(x) % realizeaz minimum dintre componentele lui X max(x) % realizeaz maximum dintre componentele lu X sort(x) % ordoneaz componentele lui X în ordine crescatoare sort(x, 'descend') % ordoneaz componentele lui X în ordine descrescatoare erf(x) % funcµia eroare exp(x) % calculeaz exponenµial e x log(x) % calculeaz logaritmul natural ln(x) sqrt(x) % calculeaz radicalul ordinului doi dintr-un num r num2str(x) % furnizeaz valoarea numeric a lui x factorial(n) % n! A = ones(m,n) % A e matrice m n, cu toate elementele 1 B = zeros(m,n) % matrice m n zero I = eye(n) % matrice unitate, n n A = [3/ ; ; ] % matrice 3 3 size(a) % dimensiunea matricei A det(a) % determinantul matricei A inv(a) % inversa matricei A A' % transpusa matricei A A(:,7) % coloana a 7-a a matricei A A(1:20,1) % scoate primele 20 de linii ale lui A nchoosek(n,k) % combin ri de n luate câte k 1e5 % numarul 10 5 exp(1) % numarul e bar(x) sau barh(x) % reprezentarea prin bare hist(x) % reprezentarea prin histograme hist3(x,y,z) % reprezentarea prin histograme 3-D plot(x(1:5),'*m') % deseneaz primele 5 componente ale lui X, cu * magenta plot(t,x,'-') % deseneaz gracul lui X versus t, cu linie continua plot3(x,y,z) % deseneaz un grac în 3-D stairs(x) % deseneaz o funcµie scara subplot(m,n,z) % împarte gracul în m n zone & deseneaz în zona z semilogx ³i semilogy % logaritmeaz valorile de pe absci, resp., ordonata hold on % reµine gracul pentru a realiza o nou gura clf % ³terge gura clear all % ³terge toate variabilele denite title('graficul functiei') % adaug titlu gurii find % g se³te indicii elementelor nenule ale unui vector legend % ata³eaz o legend la un grac Tabela 27.1: Funcµii Matlab utile

193 Anexa 2 [Dr. Iulian Stoleriu] Anexa 2 Exemple de repartiµii discrete În dreptul ec rei repartiµii, în parantez, apare numele cu care aceasta care poate apelat în Matlab. (1) Repartiµia uniform discret, U(n) (unid) Scriem c X U(n), dac valorile lui X sunt {1, 2,..., n}, cu probabilit µile P (X = k) = 1, k = 1, 2,..., n. n Media ³i dispersia sunt: E(X) = n+1 2, D2 (X) = n Exemplu: num rul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat U(6). (2) Repartiµia Bernoulli 14, B(1, p) (bino) Scriem X B(1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0 (insucces), cu probabilit µile P (X = 1) = p; P (X = 0) = 1 p. Media ³i dispersia sunt: E(X) = p; D 2 (X) = p(1 p). Exemplu: aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a. B(1, 0.5). (3) Repartiµia binomial, B(n, p): (bino) Scriem X B(n, p) (schema bilei revenite sau schema extragerilor cu repetiµie) (n > 0, p (0, 1)), dac valorile lui X sunt {0, 1,..., n}, cu probabilit µile P (X = k) = C k np k (1 p) n k, k = 0, 1,..., n. Media ³i dispersia sunt: E(X) = np; D 2 (X) = np(1 p). Dac (X k ) k=1,n B(1, p) ³i (X k ) k independente stochastic, atunci X = n X k B(n, p). Exemplu: aruncarea de 15 ori a unei monede ideale poate modelat ca ind o v.a. binomial B(15, 0.5). k=1 (4) Repartiµia hipergeometric, H(n, a, b) (hyge) X H(n, a, b) (schema bilei nerevenite sau schema extragerilor f r repetiµie) (n, a, b > 0) dac P (X = k) = Ck a C n k b Ca+b n, pentru orice k ce satisface max(0, n b) k min(a, n). Media ³i dispersia sunt: EX = n i=0 14 Jacob Bernoulli ( ), matematician elveµian E(X i ) = np; D 2 (X) = np(1 p) a + b n a + b 1.

194 Anexa 2 [Dr. Iulian Stoleriu] 193 Observaµia (i) Dac (X k ) k=0,n B(1, n), cu p = a a+b X = n X i H(n, a, b). În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între D 2 (X) ³i (v.a. dependente stochastic), atunci nu sunt independente stochastic. (ii) Pentru N = a + b n, putem face aproximarea a+b n a+b 1 a+b n a+b = 1 n N, de unde D 2 (X) np(1 p) ( 1 n N n D 2 (X i ), deoarece (X i ) i i=0 ). (28.1) Observ m c repartiµiile binomial ³i hipergeometric au aceea³i medie, îns dispersiile difer prin termenul N n N 1. În cazul în care num rul de bile este mult mai mare decât num rul de extrageri (N n), atunci acest termen devine aproximativ ( 1 n ) N. În plus, dac N este foarte mare, atunci trecând N în (28.1), g sim c ³i dispersiile celor dou repartiµii coincid. Cu alte cuvinte, când num rul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiµie sau nu. Acest fapt îl vom utiliza în Teoria selecµiei, când extragerile se fac dintr-o colectivitate de volum foarte mare. (5) Repartiµia Poisson 15, P(λ) (poiss) Valorile sale reprezint num rul evenimentelor spontane (cu intensitatea λ) realizate într-un anumit interval de timp. Pentru un λ > 0, spunem c X P(λ) (legea evenimentelor rare) dac X ia valori naturale, cu probabilit µile E(X) = λ; D 2 (x) = λ. P (X = k) = e λ λk, k N. k! (6) Repartiµia geometric, Geo(p) (geo) Valorile sale reprezint num rul de insuccese avute pân la obµinerea primului succes, stiind probabilitatea de obµinere a unui succes, p. Spunem c X Geo(p), (p (0, 1)) dac X ia valori în N, cu probabilit µile E(X) = 1 p p ; D2 (X) = 1 p p 2. P (X = k) = p(1 p) k, pentru orice k N, unde p 0. Observaµia Dac X Geo(p), atunci variabila aleatoare Y = X + 1 reprezint a³teptarea pân la primul succes. (7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin) Valorile sale reprezint num rul de insuccese obµinute înainte de a se realiza succesul de rang m. În cazul particular m = 1, obµinem repartiµia geometric. 15 Siméon-Denis Poisson ( ), matematician ³i zician francez, student al lui Laplace

195 Anexa 2 [Dr. Iulian Stoleriu] 194 Pentru m 1, p (0, 1), spunem c X BN (m, p) dac X ia valorile {m, m + 1, m + 2,... }, cu probabilit µile P (X = k) = C m 1 m+k 1 pm (1 p) k, k m, p 0. Media ³i dispersia sunt: E(X) = m(1 p) ; D 2 m(1 p) (X) = p p 2. Exemple de repartiµii continue (1) Repartiµia uniform, U(a, b) (unif) V.a. X U(a, b) (a < b) dac funcµia sa de densitate este E(X) = a + b 2, D2 (X) = (b a)2. 12 f(x; a, b) = { 1 b a, dac x (a, b) 0, altfel. Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), în cazul în care orice valoare are aceea³i ³ans de a aleas, urmeaz o repartiµie U(0, 1). Comanda rand din Matlab realizeaz acest experiment (vezi capitolul urm tor). (2) Repartiµia normal, N (µ, σ) (norm) Spunem c X N (µ, σ), dac X are densitatea: f(x; µ, σ) = 1 σ (x µ) 2 2π e 2σ 2, x R. E(X) = µ ³i D 2 (X) = σ 2. Se mai nume³te ³i repartiµia gaussian. În cazul µ = 0, σ 2 = 1 densitatea de repartiµie devine: f(x) = 1 2π e x2 2, x R. (28.2) În acest caz spunem c X urmeaz repartiµia normal standard, N (0, 1). Gracul densit µii de repartiµie pentru repartiµia normal este clopotul lui Gauss (vezi Figura 28.1). Din grac (pentru σ = 1), se observ c majoritatea valorilor nenule ale repartiµiei normale standard se a în intervalul (µ 3σ, µ + 3σ) = ( 3, 3).

196 Anexa 2 [Dr. Iulian Stoleriu] 195 Dac Z N (0, 1), atunci X = σz + µ N (µ, σ). În mod similar, dac X N (µ, σ), atunci Z = X µ σ N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie este tabelat (valorile ei se g sesc în tabele) ³i are o notaµie special, Θ(x). Ea e denit prin: Θ(x) = 1 2π x e y2 2 dy. (28.3) Funcµia de repartiµie a lui X N (µ, σ) este dat prin F (x) = Θ( x µ σ ), x R. (28.4) Figura 28.1: Clopotul lui Gauss pentru (3) Repartiµia log-normal, logn (µ, σ) (logn) X N (0, σ), (σ = 1, 2, 3) Repartiµia log-normal este foarte util în Matematicile Financiare, reprezentând o repartiµie de preµuri viitoare pentru un activ nanciar. Dac X N (µ, σ), atunci Y = e X este o v.a. nenegativ, având densitatea de repartiµie { 1 f(x; µ, σ) = xσ (ln x µ) 2 2π e 2σ 2, dac x > 0 0, dac x 0 A³adar, Y logn (µ, σ) dac ln Y N (µ, σ). Media ³i dispersia sunt date de E(X) = e µ+σ2 /2, D 2 (X) = e 2µ+σ2 (e σ2 1). (4) Repartiµia exponenµial, exp(λ) (exp) Valorile sale sunt timpi realizaµi între dou valori spontane repartizate P(λ). Spunem c X exp(λ) (λ > 0) dac are densitatea de repartiµie { λe λx, dac x > 0 f(x; λ) = 0, dac x 0 Media ³i dispersia sunt: E(X) = 1 λ ³i D2 (X) = 1 λ 2. Repartiµia exponenµial satisface proprietatea a³a-numitei lips de memorie, i.e., P ({X > x + y} {X > y}) = P ({X > x}), x, y 0. Este unica distribuµie continu cu aceast proprietate. Distribuµia geometric satisface o variant discret a acestei propriet µi. [Vericaµi!]

197 Anexa 2 [Dr. Iulian Stoleriu] 196 (5) Repartiµia Gamma, Γ(a, λ) (gam) O v.a. X Γ(a, λ), a, λ > 0, dac densitatea sa de repartiµie este: { λ a Γ(a) f(x; a, λ) = xa 1 e λx, dac x > 0, 0, dac x 0. unde Γ este funcµia lui Euler, Γ : (0, ) (0, ), Γ(a) = Media ³i dispersia sunt: E(X) = a λ, D2 (X) = a λ 2. Observaµia (i) Γ(1, λ) exp(λ). 0 x a 1 e x dx. (ii) Dac v.a. {X k } k=1,n exp(λ) sunt independente stochastic, atunci suma lor n X k Γ(n, λ). k=1 (6) Repartiµia Weibull 16, W bl(k, λ) (wbl) Aceast repartiµie este asem n toare cu repartiµia exponenµial (aceast obµinându-se în cazul particular k = 1) ³i poate modela repartiµia m rimii particulelor. Când k = 3.4, distribuµia Weibull este asem n - toare cu cea normal. Când k, aceast repartiµie se apropie de funcµia lui Dirac. Vom spune c X W bl(k, λ) (k > 0, λ > 0) dac are densitatea de repartiµie f(x; k, λ) = Media pentru repartiµia X W bl(k, λ) este E(X) = λγ { ( k x ) k 1 λ λ e ( λ) x k, dac x 0 0, dac x < 0. ( k ). (7) Repartiµia χ 2, χ 2 (n) (chi2) O v.a. X χ 2 (n) (se cite³te repartiµia hi-p trat cu n grade de libertate) dac densitatea sa de repartiµie este: 1 f(x; n) = Γ( n 2 )2 n x n 2 1 e x 2, dac x > 0, 2 0, dac x 0. unde Γ este funcµia lui Euler. Gracul acestei repartiµii (pentru diverse valori ale lui n) este reprezentat în Figura Media ³i dispersia sunt: E(χ 2 ) = n, V ar(χ 2 ) = 2n. 16 Ernst Hjalmar Waloddi Weibull ( ), matematician ³i inginer suedez

198 Anexa 2 [Dr. Iulian Stoleriu] 197 (a) Repartiµia χ 2 (n) este, de fapt, repartiµia Γ( n 2, 1 2 ). (b) Dac v.a. independente X k N (0, 1) pentru k = 1, 2,..., n, atunci X1 2 + X Xn 2 χ 2 (n). În particular, dac X N (0, 1), atunci X 2 χ 2 (1). (8) Repartiµia Student (W. S. Gosset 17 ), t(n) (t) Figura 28.2: Repartiµia χ 2 (n) pentru patru valori ale lui n. Spunem c X t(n) (cu n grade de libertate) dac densitatea de repartiµie este: E(X) = 0, D 2 (X) = n n 2. f(x; n) = Γ ( ) n+1 2 ( nπ Γ n ) 2 (9) Repartiµia Fisher 18, F(m, n) (f) ) n+1 (1 + x2 2, x R. n Spunem c X F(m, n) (cu m, n grade de libertate) dac densitatea de repartiµie este: ( m n ) m2 Γ( m+n 2 ) x m f(x) = Γ( m 2 )Γ( n 2 2 ) 1 ( 1 + m n x) m+n 2, x > 0; 0, x 0. E(X) = n n 2, D2 (X) = 2n2 (n + m 2) m(n 2) 2 (n 4). (10) Repartiµia Cauchy 19, C(λ, µ) (f r corespondent în Matlab) Spunem c X C(λ, µ) dac densitatea de repartiµie este: f(x; λ, µ) = NU admite medie, dispersie sau momente!!! λ π[(x µ) 2 + λ 2 ], x R. 17 William Sealy Gosset ( ), statistician britanic, care a publicat sub pseudonimul Student 18 Sir Ronald Aylmer Fisher ( ), statistician, eugenist, biolog ³i genetician britanic 19 Augustin Louis Cauchy ( ), matematician francez

199 Anexa 1 [Dr. Iulian Stoleriu] Anexa 3 Tabele cu cuantile pentru repartitii uzuale α z α Tabela 29.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul aseaza cuantila z α pentru care P (Z z α ) = α, unde Z N (0, 1). De remarcat faptul ca: z 1 α = z α. n \ α n \ α Tabela 29.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul aseaza cuantila t α, n pentru care P (Z t α, n ) = α, unde Z t(n). Daca n este mai mare de 100, se poate utiliza tabelul de la repartitia normala.

200 Fournit les quantiles x p tels que P(X x p )= p pour X χ 2 n Anexa 1 [Dr. Iulian Stoleriu] 199 n / p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995 n 1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88 2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60 3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84 4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86 5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75 6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55 7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28 8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95 9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23, ,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25, ,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26, ,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28, ,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29, ,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31, ,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32, ,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34, ,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35, ,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37, ,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38, ,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40, ,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41, ,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42, ,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44, ,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45, ,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46, ,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48, ,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49, ,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50, ,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52, ,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53, ,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66, ,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79, ,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91, ,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104, ,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116, ,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128, ,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2 Tabela 29.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul aseaza cuantila χ 2 α, n pentru care P (Z χ 2 α, n) = α, unde Z χ 2 (n).

201 Anexa 1 [Dr. Iulian Stoleriu] 200 Tabela 29.4: Valori critice pentru testul seriilor. Aici, α 1 reprezinta nivelul de semnicatie pentru testul unilateral si α 2 pentru testul bilateral.

202 Anexa 1 [Dr. Iulian Stoleriu] 201 Tabela 29.5: Valori critice pentru testul Wald-Wolfowitz, pentru nivelul de semnicatie α = 0.05.

203 Anexa 1 [Dr. Iulian Stoleriu] 202 Tabela 29.6: Valori critice c si c 1 pentru testul semnului rangurilor Wilcoxon, pentru nivelul de semnicatie. Aici, P (S c 1 ) α si P (S c) α 2 cand (H 0) este acceptata.

204 Anexa 1 [Dr. Iulian Stoleriu] 203 Tabela 29.7: Valori critice c si c 1 pentru testul semnului rangurilor Wilcoxon, pentru nivelul de semnicatie. Aici, P (S c 1 ) α si P (S c) α 2 cand (H 0) este acceptata.

205 Anexa 1 [Dr. Iulian Stoleriu] 204 Tabela 29.8: Valori critice pentru testul semnului rangurilor Wilcoxon (caz bilateral).

206 Bibliografie [Dr. Iulian Stoleriu] 205 Tabela 29.9: Valori critice pentru testul semnului rangurilor Wilcoxon (caz unilateral).

Metode iterative pentru probleme neliniare - contractii

Metode iterative pentru probleme neliniare - contractii Metode iterative pentru probleme neliniare - contractii Problemele neliniare sunt in general rezolvate prin metode iterative si analiza convergentei acestor metode este o problema importanta. 1 Contractii

Διαβάστε περισσότερα

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate. Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Fie p, q N. Fie funcţia f : D R p R q. Avem următoarele

Διαβάστε περισσότερα

8 Intervale de încredere

8 Intervale de încredere 8 Intervale de încredere În cursul anterior am determinat diverse estimări ˆ ale parametrului necunoscut al densităţii unei populaţii, folosind o selecţie 1 a acestei populaţii. În practică, valoarea calculată

Διαβάστε περισσότερα

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a. Definiţie Spunem că: i) funcţia f are derivată parţială în punctul a în raport cu variabila i dacă funcţia de o variabilă ( ) are derivată în punctul a în sens obişnuit (ca funcţie reală de o variabilă

Διαβάστε περισσότερα

Curs 4 Serii de numere reale

Curs 4 Serii de numere reale Curs 4 Serii de numere reale Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Criteriul rădăcinii sau Criteriul lui Cauchy Teoremă (Criteriul rădăcinii) Fie x n o serie cu termeni

Διαβάστε περισσότερα

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă. III. Serii absolut convergente. Serii semiconvergente. Definiţie. O serie a n se numeşte: i) absolut convergentă dacă seria modulelor a n este convergentă; ii) semiconvergentă dacă este convergentă iar

Διαβάστε περισσότερα

Universitatea "Al. I. Cuza" Ia³i Facultatea de Geografie ³i Geologie. [Iulian Stoleriu] Geostatistică. - Note de Curs -

Universitatea Al. I. Cuza Ia³i Facultatea de Geografie ³i Geologie. [Iulian Stoleriu] Geostatistică. - Note de Curs - Universitatea "Al. I. Cuza" Ia³i Facultatea de Geografie ³i Geologie [Iulian Stoleriu] Geostatistică - Note de Curs - 1 Ce este Geostatistica? [Geostatistica este ³tiinµa ce ofer mijloace de a cuantica

Διαβάστε περισσότερα

Curs 1 Şiruri de numere reale

Curs 1 Şiruri de numere reale Bibliografie G. Chiorescu, Analiză matematică. Teorie şi probleme. Calcul diferenţial, Editura PIM, Iaşi, 2006. R. Luca-Tudorache, Analiză matematică, Editura Tehnopress, Iaşi, 2005. M. Nicolescu, N. Roşculeţ,

Διαβάστε περισσότερα

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea Serii Laurent Definitie. Se numeste serie Laurent o serie de forma Seria n= (z z 0 ) n regulata (tayloriana) = (z z n= 0 ) + n se numeste partea principala iar seria se numeste partea Sa presupunem ca,

Διαβάστε περισσότερα

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE. 5 Eerciţii reolvate 5 UNCŢII IMPLICITE EXTREME CONDIŢIONATE Eerciţiul 5 Să se determine şi dacă () este o funcţie definită implicit de ecuaţia ( + ) ( + ) + Soluţie ie ( ) ( + ) ( + ) + ( )R Evident este

Διαβάστε περισσότερα

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică Gh. Asachi Curs 14 Funcţii implicite Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Fie F : D R 2 R o funcţie de două variabile şi fie ecuaţia F (x, y) = 0. (1) Problemă În ce condiţii ecuaţia

Διαβάστε περισσότερα

Integrala nedefinită (primitive)

Integrala nedefinită (primitive) nedefinita nedefinită (primitive) nedefinita 2 nedefinita februarie 20 nedefinita.tabelul primitivelor Definiţia Fie f : J R, J R un interval. Funcţia F : J R se numeşte primitivă sau antiderivată a funcţiei

Διαβάστε περισσότερα

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0 SERII NUMERICE Definiţia 3.1. Fie ( ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0 şirul definit prin: s n0 = 0, s n0 +1 = 0 + 0 +1, s n0 +2 = 0 + 0 +1 + 0 +2,.......................................

Διαβάστε περισσότερα

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile Metode de Optimizare Curs V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile Propoziţie 7. (Fritz-John). Fie X o submulţime deschisă a lui R n, f:x R o funcţie de clasă C şi ϕ = (ϕ,ϕ

Διαβάστε περισσότερα

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare 1 Planul în spaţiu Ecuaţia generală Plane paralele Unghi diedru 2 Ecuaţia generală Plane paralele Unghi diedru Fie reperul R(O, i, j, k ) în spaţiu. Numim normala a unui plan, un vector perpendicular pe

Διαβάστε περισσότερα

Iulian STOLERIU. Statistic Aplicat

Iulian STOLERIU. Statistic Aplicat Iulian STOLERIU Statistic Aplicat 1 Statistic Aplicat (Laborator 1) Organizarea ³i reprezentarea datelor statistice Scurt istoric Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare

Διαβάστε περισσότερα

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM Seminar S ANALA ÎN CUENT CONTNUU A SCHEMELO ELECTONCE S. ntroducere Pentru a analiza în curent continuu o schemă electronică,

Διαβάστε περισσότερα

Seminar 5 Analiza stabilității sistemelor liniare

Seminar 5 Analiza stabilității sistemelor liniare Seminar 5 Analiza stabilității sistemelor liniare Noțiuni teoretice Criteriul Hurwitz de analiză a stabilității sistemelor liniare În cazul sistemelor liniare, stabilitatea este o condiție de localizare

Διαβάστε περισσότερα

Sisteme diferenţiale liniare de ordinul 1

Sisteme diferenţiale liniare de ordinul 1 1 Metoda eliminării 2 Cazul valorilor proprii reale Cazul valorilor proprii nereale 3 Catedra de Matematică 2011 Forma generală a unui sistem liniar Considerăm sistemul y 1 (x) = a 11y 1 (x) + a 12 y 2

Διαβάστε περισσότερα

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7 Statisticǎ - curs 3 Cuprins 1 Seria de distribuţie a statisticilor de eşantioane 2 2 Teorema limitǎ centralǎ 5 3 O aplicaţie a teoremei limitǎ centralǎ 7 4 Estimarea punctualǎ a unui parametru; intervalul

Διαβάστε περισσότερα

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor. Fiind date doua multimi si spunem ca am definit o functie (aplicatie) pe cu valori in daca fiecarui element

Διαβάστε περισσότερα

MATRICE. DETERMINAN I.

MATRICE. DETERMINAN I. MATRICE DETERMINAN I ION CICU Abstract Materialul î³i propune o abordare strict la nivelul cerinµelor necesare rezolv rii problemelor care apar în subiectul II al examenului de bacalaureat M2 Pentru ceea

Διαβάστε περισσότερα

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1 Functii definitie proprietati grafic functii elementare A. Definitii proprietatile functiilor. Fiind date doua multimi X si Y spunem ca am definit o functie (aplicatie) pe X cu valori in Y daca fiecarui

Διαβάστε περισσότερα

Subiecte Clasa a VIII-a

Subiecte Clasa a VIII-a Subiecte lasa a VIII-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul

Διαβάστε περισσότερα

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane Subspatii ane Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane Oana Constantinescu Oana Constantinescu Lectia VI Subspatii ane Table of Contents 1 Structura de spatiu an E 3 2 Subspatii

Διαβάστε περισσότερα

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE ABSTRACT. Materialul prezintă o modalitate de a afla distanţa dintre două drepte necoplanare folosind volumul tetraedrului. Lecţia se adresează clasei a VIII-a Data:

Διαβάστε περισσότερα

Asupra unei inegalităţi date la barajul OBMJ 2006

Asupra unei inegalităţi date la barajul OBMJ 2006 Asupra unei inegalităţi date la barajul OBMJ 006 Mircea Lascu şi Cezar Lupu La cel de-al cincilea baraj de Juniori din data de 0 mai 006 a fost dată următoarea inegalitate: Fie x, y, z trei numere reale

Διαβάστε περισσότερα

NOTIUNI DE BAZA IN STATISTICA

NOTIUNI DE BAZA IN STATISTICA NOTIUNI DE BAZA IN STATISTICA INTRODUCERE SI DEFINITII A. PARAMETRI SI STATISTICI Parametru valoare sau caracteristica asociata unei populatii constante fixe notatie - litere grecesti: media populatiei

Διαβάστε περισσότερα

MARCAREA REZISTOARELOR

MARCAREA REZISTOARELOR 1.2. MARCAREA REZISTOARELOR 1.2.1 MARCARE DIRECTĂ PRIN COD ALFANUMERIC. Acest cod este format din una sau mai multe cifre şi o literă. Litera poate fi plasată după grupul de cifre (situaţie în care valoarea

Διαβάστε περισσότερα

Esalonul Redus pe Linii (ERL). Subspatii.

Esalonul Redus pe Linii (ERL). Subspatii. Seminarul 1 Esalonul Redus pe Linii (ERL). Subspatii. 1.1 Breviar teoretic 1.1.1 Esalonul Redus pe Linii (ERL) Definitia 1. O matrice A L R mxn este in forma de Esalon Redus pe Linii (ERL), daca indeplineste

Διαβάστε περισσότερα

Metode de interpolare bazate pe diferenţe divizate

Metode de interpolare bazate pe diferenţe divizate Metode de interpolare bazate pe diferenţe divizate Radu Trîmbiţaş 4 octombrie 2005 1 Forma Newton a polinomului de interpolare Lagrange Algoritmul nostru se bazează pe forma Newton a polinomului de interpolare

Διαβάστε περισσότερα

Aplicaţii ale principiului I al termodinamicii la gazul ideal

Aplicaţii ale principiului I al termodinamicii la gazul ideal Aplicaţii ale principiului I al termodinamicii la gazul ideal Principiul I al termodinamicii exprimă legea conservării şi energiei dintr-o formă în alta şi se exprimă prin relaţia: ΔUQ-L, unde: ΔU-variaţia

Διαβάστε περισσότερα

7 Distribuţia normală

7 Distribuţia normală 7 Distribuţia normală Distribuţia normală este cea mai importantă distribuţie continuă, deoarece în practică multe variabile aleatoare sunt variabile aleatoare normale, sunt aproximativ variabile aleatoare

Διαβάστε περισσότερα

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale. 5p Determinați primul termen al progresiei geometrice ( b n ) n, știind că b 5 = 48 și b 8 = 84 5p Se consideră funcția f : intersecție a graficului funcției f cu aa O R R, f ( ) = 7+ 6 Determinați distanța

Διαβάστε περισσότερα

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor Facultatea de Matematică Calcul Integral şi Elemente de Analiă Complexă, Semestrul I Lector dr. Lucian MATICIUC Seminariile 9 20 Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reiduurilor.

Διαβάστε περισσότερα

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011 1.0.011 STATISTICA Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 16 martie 011 al.isaic-maniu www.amaniu.ase.ro http://www.ase.ro/ase/studenti/inde.asp?itemfisiere&id Observati doua

Διαβάστε περισσότερα

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R În cele ce urmează, vom studia unele proprietăţi ale mulţimilor din R. Astfel, vom caracteriza locul" unui punct în cadrul unei mulţimi (în limba

Διαβάστε περισσότερα

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice 1 Conice pe ecuaţii reduse 2 Conice pe ecuaţii reduse Definiţie Numim conica locul geometric al punctelor din plan pentru care raportul distantelor la un punct fix F şi la o dreaptă fixă (D) este o constantă

Διαβάστε περισσότερα

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE DATE NUMERICE POPULAŢIE DATE ALFANUMERICE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE Cursul I Indicatori statistici Minim, maxim Media Deviaţia standard Mediana Cuartile Centile, decile Tabel de date

Διαβάστε περισσότερα

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005. SUBIECTUL Editia a VI-a 6 februarie 005 CLASA a V-a Fie A = x N 005 x 007 si B = y N y 003 005 3 3 a) Specificati cel mai mic element al multimii A si cel mai mare element al multimii B. b)stabiliti care

Διαβάστε περισσότερα

Curs 2 Şiruri de numere reale

Curs 2 Şiruri de numere reale Curs 2 Şiruri de numere reale Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Convergenţă şi mărginire Teoremă Orice şir convergent este mărginit. Demonstraţie Fie (x n ) n 0 un

Διαβάστε περισσότερα

prin egalizarea histogramei

prin egalizarea histogramei Lucrarea 4 Îmbunătăţirea imaginilor prin egalizarea histogramei BREVIAR TEORETIC Tehnicile de îmbunătăţire a imaginilor bazate pe calculul histogramei modifică histograma astfel încât aceasta să aibă o

Διαβάστε περισσότερα

Criptosisteme cu cheie publică III

Criptosisteme cu cheie publică III Criptosisteme cu cheie publică III Anul II Aprilie 2017 Problema rucsacului ( knapsack problem ) Considerăm un număr natural V > 0 şi o mulţime finită de numere naturale pozitive {v 0, v 1,..., v k 1 }.

Διαβάστε περισσότερα

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor ESTIMAREA PARAMETRILOR STATISTICI Călinici Tudor 1 Obiective educaţionale Înţelegerea procesului de estimare Însuşirea limbajului specific pentru inferenţa statistică Enumerarea estimatorilor fără bias

Διαβάστε περισσότερα

9 Testarea ipotezelor statistice

9 Testarea ipotezelor statistice 9 Testarea ipotezelor statistice Un test statistic constă în obţinerea unei deducţii bazată pe o selecţie din populaţie prin testarea unei anumite ipoteze (rezultată din experienţa anterioară, din observaţii,

Διαβάστε περισσότερα

riptografie şi Securitate

riptografie şi Securitate riptografie şi Securitate - Prelegerea 12 - Scheme de criptare CCA sigure Adela Georgescu, Ruxandra F. Olimid Facultatea de Matematică şi Informatică Universitatea din Bucureşti Cuprins 1. Schemă de criptare

Διαβάστε περισσότερα

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0 Facultatea de Hidrotehnică, Geodezie şi Ingineria Mediului Matematici Superioare, Semestrul I, Lector dr. Lucian MATICIUC SEMINAR 4 Funcţii de mai multe variabile continuare). Să se arate că funcţia z,

Διαβάστε περισσότερα

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite Capitolul 4 Integrale improprii 7-8 În cadrul studiului integrabilităţii iemann a unei funcţii s-au evidenţiat douăcondiţii esenţiale:. funcţia :[ ] este definită peintervalînchis şi mărginit (interval

Διαβάστε περισσότερα

Subiecte Clasa a VII-a

Subiecte Clasa a VII-a lasa a VII Lumina Math Intrebari Subiecte lasa a VII-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate

Διαβάστε περισσότερα

3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003

3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003 CURS STATISTICĂ CURS 1 Bibliografie: 1. P. Blaga, Calculul probabilităţilor şi statistică matematică, vol. 2, Curs şi Culegere de probleme, Litografiat Univ. Babeş-Bolyai, Cluj-Napoca, 1994 2. P. Blaga,

Διαβάστε περισσότερα

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii Clasa a IX-a 1 x 1 a) Demonstrați inegalitatea 1, x (0, 1) x x b) Demonstrați că, dacă a 1, a,, a n (0, 1) astfel încât a 1 +a + +a n = 1, atunci: a +a 3 + +a n a1 +a 3 + +a n a1 +a + +a n 1 + + + < 1

Διαβάστε περισσότερα

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca Conice Lect. dr. Constantin-Cosmin Todea U.T. Cluj-Napoca Definiţie: Se numeşte curbă algebrică plană mulţimea punctelor din plan de ecuaţie implicită de forma (C) : F (x, y) = 0 în care funcţia F este

Διαβάστε περισσότερα

Scoruri standard Curba normală (Gauss) M. Popa

Scoruri standard Curba normală (Gauss) M. Popa Scoruri standard Curba normală (Gauss) M. Popa Scoruri standard cunoaştere evaluare, măsurare evaluare comparare (Gh. Zapan) comparare raportare la un sistem de referință Povestea Scufiței Roşii... 70

Διαβάστε περισσότερα

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă Coordonatori DANA HEUBERGER NICOLAE MUŞUROIA Nicolae Muşuroia Gheorghe Boroica Vasile Pop Dana Heuberger Florin Bojor MATEMATICĂ DE EXCELENŢĂ pentru concursuri, olimpiade şi centre de excelenţă Clasa a

Διαβάστε περισσότερα

I3: PROBABILITǍŢI - notiţe de curs

I3: PROBABILITǍŢI - notiţe de curs I3: PROBABILITǍŢI - notiţe de curs Ştefan Balint, Eva Kaslik, Simina Mariş Cuprins Experienţǎ şi evenimente aleatoare 3 2 Eveniment sigur. Eveniment imposibil 3 3 Evenimente contrare 4 4 Evenimente compatibile.

Διαβάστε περισσότερα

I3: PROBABILITǍŢI - notiţe de curs

I3: PROBABILITǍŢI - notiţe de curs I3: PROBABILITǍŢI - notiţe de curs Ştefan Balint, Eva Kaslik, Simina Mariş Cuprins Experienţǎ şi evenimente aleatoare 3 2 Eveniment sigur. Eveniment imposibil 3 3 Evenimente contrare 4 4 Evenimente compatibile.

Διαβάστε περισσότερα

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE 5.5. A CIRCUITELOR CU TRANZISTOARE BIPOLARE PROBLEMA 1. În circuitul din figura 5.54 se cunosc valorile: μa a. Valoarea intensității curentului de colector I C. b. Valoarea tensiunii bază-emitor U BE.

Διαβάστε περισσότερα

5 Statistica matematică

5 Statistica matematică 5 Statistica matematică Cuvântul statistică afostiniţial folosit pentru a desemna o colecţiededatedesprepopulaţie şi situaţia economică, date vitale pentru conducerea unui stat. Cu timpul, Statistica a

Διαβάστε περισσότερα

III. Reprezentarea informaţiei în sistemele de calcul

III. Reprezentarea informaţiei în sistemele de calcul Metode Numerice Curs 3 III. Reprezentarea informaţiei în sistemele de calcul III.1. Reprezentarea internă a numerelor întregi III. 1.1. Reprezentarea internă a numerelor întregi fără semn (pozitive) Reprezentarea

Διαβάστε περισσότερα

Câmp de probabilitate II

Câmp de probabilitate II 1 Sistem complet de evenimente 2 Schema lui Poisson Schema lui Bernoulli (a bilei revenite) Schema hipergeometrică (a bilei neîntoarsă) 3 4 Sistem complet de evenimente Definiţia 1.1 O familie de evenimente

Διαβάστε περισσότερα

4. Măsurarea tensiunilor şi a curenţilor electrici. Voltmetre electronice analogice

4. Măsurarea tensiunilor şi a curenţilor electrici. Voltmetre electronice analogice 4. Măsurarea tensiunilor şi a curenţilor electrici oltmetre electronice analogice oltmetre de curent continuu Ampl.c.c. x FTJ Protectie Atenuator calibrat Atenuatorul calibrat divizor rezistiv R in const.

Διαβάστε περισσότερα

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36]. Componente şi circuite pasive Fig.3.85. Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36]. Fig.3.86. Rezistenţa serie echivalentă pierderilor în funcţie

Διαβάστε περισσότερα

Variabile statistice. (clasificare, indicatori)

Variabile statistice. (clasificare, indicatori) Variabile statistice (clasificare, indicatori) Definiţii caracteristică sau variabilă statistică proprietate în functie de care se cerceteaza o populatie statistica şi care, în general, poate fi măsurată,

Διαβάστε περισσότερα

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB 1.7. AMLFCATOARE DE UTERE ÎN CLASA A Ş AB 1.7.1 Amplificatoare în clasa A La amplificatoarele din clasa A, forma de undă a tensiunii de ieşire este aceeaşi ca a tensiunii de intrare, deci întreg semnalul

Διαβάστε περισσότερα

Matrice. Determinanti. Sisteme liniare

Matrice. Determinanti. Sisteme liniare Matrice 1 Matrice Adunarea matricelor Înmulţirea cu scalar. Produsul 2 Proprietăţi ale determinanţilor Rangul unei matrice 3 neomogene omogene Metoda lui Gauss (Metoda eliminării) Notiunea de matrice Matrice

Διαβάστε περισσότερα

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori 1. Distribuţiile teoretice (diagramă de distribuţie, distribuţia normală sau gaussiană) 2. Intervalul de încredere pentru caracteristicile cantitative (medii) 1. Distribuţia constituie ansamblul tuturor

Διαβάστε περισσότερα

10. STABILIZATOAE DE TENSIUNE 10.1 STABILIZATOAE DE TENSIUNE CU TANZISTOAE BIPOLAE Stabilizatorul de tensiune cu tranzistor compară în permanenţă valoare tensiunii de ieşire (stabilizate) cu tensiunea

Διαβάστε περισσότερα

1.3 Baza a unui spaţiu vectorial. Dimensiune

1.3 Baza a unui spaţiu vectorial. Dimensiune .3 Baza a unui spaţiu vectorial. Dimensiune Definiţia.3. Se numeşte bază a spaţiului vectorial V o familie de vectori B care îndeplineşte condiţiile de mai jos: a) B este liniar independentă; b) B este

Διαβάστε περισσότερα

a. 11 % b. 12 % c. 13 % d. 14 %

a. 11 % b. 12 % c. 13 % d. 14 % 1. Un motor termic funcţionează după ciclul termodinamic reprezentat în sistemul de coordonate V-T în figura alăturată. Motorul termic utilizează ca substanţă de lucru un mol de gaz ideal având exponentul

Διαβάστε περισσότερα

Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4)

Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4) Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4) În practică eistă nenumărate eperienţe aleatoare care au un câmp de evenimente nenumărabil şi implicit sistemul complet de evenimente aleatoare

Διαβάστε περισσότερα

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Functii Breviar teoretic 8 ianuarie ianuarie 2011 Functii Breviar teoretic 8 ianuarie 011 15 ianuarie 011 I Fie I, interval si f : I 1) a) functia f este (strict) crescatoare pe I daca x, y I, x< y ( f( x) < f( y)), f( x) f( y) b) functia f este (strict)

Διαβάστε περισσότερα

Curs 2 DIODE. CIRCUITE DR

Curs 2 DIODE. CIRCUITE DR Curs 2 OE. CRCUTE R E CUPRN tructură. imbol Relația curent-tensiune Regimuri de funcționare Punct static de funcționare Parametrii diodei Modelul cu cădere de tensiune constantă Analiza circuitelor cu

Διαβάστε περισσότερα

Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2)

Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2) Lucrarea 6 Zgomotul în imagini BREVIAR TEORETIC Zgomotul este un semnal aleator, care afectează informaţia utilă conţinută într-o imagine. El poate apare de-alungul unui lanţ de transmisiune, sau prin

Διαβάστε περισσότερα

Vectori liberi Produs scalar Produs vectorial Produsul mixt. 1 Vectori liberi. 2 Produs scalar. 3 Produs vectorial. 4 Produsul mixt.

Vectori liberi Produs scalar Produs vectorial Produsul mixt. 1 Vectori liberi. 2 Produs scalar. 3 Produs vectorial. 4 Produsul mixt. liberi 1 liberi 2 3 4 Segment orientat liberi Fie S spaţiul geometric tridimensional cu axiomele lui Euclid. Orice pereche de puncte din S, notată (A, B) se numeşte segment orientat. Dacă A B, atunci direcţia

Διαβάστε περισσότερα

Problema a II - a (10 puncte) Diferite circuite electrice

Problema a II - a (10 puncte) Diferite circuite electrice Olimpiada de Fizică - Etapa pe judeţ 15 ianuarie 211 XI Problema a II - a (1 puncte) Diferite circuite electrice A. Un elev utilizează o sursă de tensiune (1), o cutie cu rezistenţe (2), un întrerupător

Διαβάστε περισσότερα

5.4. MULTIPLEXOARE A 0 A 1 A 2

5.4. MULTIPLEXOARE A 0 A 1 A 2 5.4. MULTIPLEXOARE Multiplexoarele (MUX) sunt circuite logice combinaţionale cu m intrări şi o singură ieşire, care permit transferul datelor de la una din intrări spre ieşirea unică. Selecţia intrării

Διαβάστε περισσότερα

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii ADOLF HAIMOVICI, 206 Clasa a IX-a profil științe ale naturii, tehnologic, servicii. Se consideră predicatul binar p(x, y) : 4x + 3y = 206, x, y N și mulțimea A = {(x, y) N N 4x+3y = 206}. a) Determinați

Διαβάστε περισσότερα

Laborator 11. Mulţimi Julia. Temă

Laborator 11. Mulţimi Julia. Temă Laborator 11 Mulţimi Julia. Temă 1. Clasa JuliaGreen. Să considerăm clasa JuliaGreen dată de exemplu la curs pentru metoda locului final şi să schimbăm numărul de iteraţii nriter = 100 în nriter = 101.

Διαβάστε περισσότερα

Cursul Măsuri reale. D.Rusu, Teoria măsurii şi integrala Lebesgue 15

Cursul Măsuri reale. D.Rusu, Teoria măsurii şi integrala Lebesgue 15 MĂSURI RELE Cursul 13 15 Măsuri reale Fie (,, µ) un spaţiu cu măsură completă şi f : R o funcţie -măsurabilă. Cum am văzut în Teorema 11.29, dacă f are integrală pe, atunci funcţia de mulţime ν : R, ν()

Διαβάστε περισσότερα

4. CIRCUITE LOGICE ELEMENTRE 4.. CIRCUITE LOGICE CU COMPONENTE DISCRETE 4.. PORŢI LOGICE ELEMENTRE CU COMPONENTE PSIVE Componente electronice pasive sunt componente care nu au capacitatea de a amplifica

Διαβάστε περισσότερα

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2 .1 Sfera Definitia 1.1 Se numeşte sferă mulţimea tuturor punctelor din spaţiu pentru care distanţa la u punct fi numit centrul sferei este egalăcuunnumăr numit raza sferei. Fie centrul sferei C (a, b,

Διαβάστε περισσότερα

2 Transformări liniare între spaţii finit dimensionale

2 Transformări liniare între spaţii finit dimensionale Transformări 1 Noţiunea de transformare liniară Proprietăţi. Operaţii Nucleul şi imagine Rangul şi defectul unei transformări 2 Matricea unei transformări Relaţia dintre rang şi defect Schimbarea matricei

Διαβάστε περισσότερα

Spatii liniare. Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară. Mulţime infinită liniar independentă

Spatii liniare. Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară. Mulţime infinită liniar independentă Noţiunea de spaţiu liniar 1 Noţiunea de spaţiu liniar Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară 2 Mulţime infinită liniar independentă 3 Schimbarea coordonatelor unui vector la o schimbare

Διαβάστε περισσότερα

3 Distribuţii discrete clasice

3 Distribuţii discrete clasice 3 Distribuţii discrete clasice 3.1 Distribuţia Bernoulli Probabil cel mai simplu tip de variabilă aleatoare discretă, variabila aleatoare Bernoulli modelează efectuareaunui experiment în care poate apare

Διαβάστε περισσότερα

Aparate de măsurat. Măsurări electronice Rezumatul cursului 2. MEE - prof. dr. ing. Ioan D. Oltean 1

Aparate de măsurat. Măsurări electronice Rezumatul cursului 2. MEE - prof. dr. ing. Ioan D. Oltean 1 Aparate de măsurat Măsurări electronice Rezumatul cursului 2 MEE - prof. dr. ing. Ioan D. Oltean 1 1. Aparate cu instrument magnetoelectric 2. Ampermetre şi voltmetre 3. Ohmetre cu instrument magnetoelectric

Διαβάστε περισσότερα

Lucrare. Varianta aprilie I 1 Definiţi noţiunile de număr prim şi număr ireductibil. Soluţie. Vezi Curs 6 Definiţiile 1 şi 2. sau p b.

Lucrare. Varianta aprilie I 1 Definiţi noţiunile de număr prim şi număr ireductibil. Soluţie. Vezi Curs 6 Definiţiile 1 şi 2. sau p b. Lucrare Soluţii 28 aprilie 2015 Varianta 1 I 1 Definiţi noţiunile de număr prim şi număr ireductibil. Soluţie. Vezi Curs 6 Definiţiile 1 şi 2 Definiţie. Numărul întreg p se numeşte număr prim dacă p 0,

Διαβάστε περισσότερα

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:, REZISTENTA MATERIALELOR 1. Ce este modulul de rezistenţă? Exemplificaţi pentru o secţiune dreptunghiulară, respectiv dublu T. RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii

Διαβάστε περισσότερα

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a Capitolul II: Serii de umere reale. Lect. dr. Lucia Maticiuc Facultatea de Hidrotehică, Geodezie şi Igieria Mediului Matematici Superioare, Semestrul I, Lector dr. Lucia MATICIUC SEMINARUL 3. Cap. II Serii

Διαβάστε περισσότερα

Subiecte Clasa a V-a

Subiecte Clasa a V-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul numarului intrebarii

Διαβάστε περισσότερα

2. Sisteme de forţe concurente...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...3

2. Sisteme de forţe concurente...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...3 SEMINAR 2 SISTEME DE FRŢE CNCURENTE CUPRINS 2. Sisteme de forţe concurente...1 Cuprins...1 Introducere...1 2.1. Aspecte teoretice...2 2.2. Aplicaţii rezolvate...3 2. Sisteme de forţe concurente În acest

Διαβάστε περισσότερα

Să se arate că n este număr par. Dan Nedeianu

Să se arate că n este număr par. Dan Nedeianu Primul test de selecție pentru juniori I. Să se determine numerele prime p, q, r cu proprietatea că 1 p + 1 q + 1 r 1. Fie ABCD un patrulater convex cu m( BCD) = 10, m( CBA) = 45, m( CBD) = 15 și m( CAB)

Διαβάστε περισσότερα

Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism. (Y = f(x)).

Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism. (Y = f(x)). Teoremă. (Y = f(x)). Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism Demonstraţie. f este continuă pe X: x 0 X, S Y (f(x 0 ), ε), S X (x 0, ε) aşa ca f(s X (x 0, ε)) = S Y (f(x 0 ), ε) : y

Διαβάστε περισσότερα

z a + c 0 + c 1 (z a)

z a + c 0 + c 1 (z a) 1 Serii Laurent (continuare) Teorema 1.1 Fie D C un domeniu, a D şi f : D \ {a} C o funcţie olomorfă. Punctul a este pol multiplu de ordin p al lui f dacă şi numai dacă dezvoltarea în serie Laurent a funcţiei

Διαβάστε περισσότερα

Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015

Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015 Statistică descriptivă Distribuția normală Estimare Călinici Tudor 2015 Obiective educaționale Enumerarea caracteristicilor distribuției normale Enumerarea principiilor inferenței statistice Calculul intervalului

Διαβάστε περισσότερα

Proiectarea filtrelor prin metoda pierderilor de inserţie

Proiectarea filtrelor prin metoda pierderilor de inserţie FITRE DE MIROUNDE Proiectarea filtrelor prin metoda pierderilor de inserţie P R Puterea disponibila de la sursa Puterea livrata sarcinii P inc P Γ ( ) Γ I lo P R ( ) ( ) M ( ) ( ) M N P R M N ( ) ( ) Tipuri

Διαβάστε περισσότερα

Seminar Algebra. det(a λi 3 ) = 0

Seminar Algebra. det(a λi 3 ) = 0 Rezolvari ale unor probleme propuse "Matematica const în a dovedi ceea ce este evident în cel mai puµin evident mod." George Polya P/Seminar Valori si vectori proprii : Solutie: ( ) a) A = Valorile proprii:

Διαβάστε περισσότερα

CURSUL AL IV-LEA. Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni, pe clase din 5kg în 5kg

CURSUL AL IV-LEA. Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni, pe clase din 5kg în 5kg CURSUL AL IV-LEA 1 Reprezentarea grafică a datelor statistice - Consideraţii generale Sunt două metode de bază în statistică: numerică şi grafică. Folosind metoda numerică putem calcula statistici ca media

Διαβάστε περισσότερα

CURS 11: ALGEBRĂ Spaţii liniare euclidiene. Produs scalar real. Spaţiu euclidian. Produs scalar complex. Spaţiu unitar. Noţiunea de normă.

CURS 11: ALGEBRĂ Spaţii liniare euclidiene. Produs scalar real. Spaţiu euclidian. Produs scalar complex. Spaţiu unitar. Noţiunea de normă. Sala: 2103 Decembrie 2014 Conf. univ. dr.: Dragoş-Pătru Covei CURS 11: ALGEBRĂ Specializarea: C.E., I.E., S.P.E. Nota: Acest curs nu a fost supus unui proces riguros de recenzare pentru a fi oficial publicat.

Διαβάστε περισσότερα

Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1)

Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1) Ecuatii exponentiale Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. Cea mai simpla ecuatie exponentiala este de forma a x = b, () unde a >, a. Afirmatia.

Διαβάστε περισσότερα

Toate subiectele sunt obligatorii. Timpul de lucru efectiv este de 3 ore. Se acordă din oficiu 10 puncte. SUBIECTUL I.

Toate subiectele sunt obligatorii. Timpul de lucru efectiv este de 3 ore. Se acordă din oficiu 10 puncte. SUBIECTUL I. Modelul 4 Se acordă din oficiu puncte.. Fie numărul complex z = i. Calculaţi (z ) 25. 2. Dacă x şi x 2 sunt rădăcinile ecuaţiei x 2 9x+8 =, atunci să se calculeze x2 +x2 2 x x 2. 3. Rezolvaţi în mulţimea

Διαβάστε περισσότερα