Curs 3. Bostatstca: trecere revsta a metodelor statstce clasce Bblo: W.Ewes, G.R. Grat Statstcal methods boformatcs, Sprger, 005 Cap. -3, cap.5
Structura Teste de asocere (depedeță) Teste de cocordață Teste eparametrce
Teste de asocere Problema: Se cosderă că datele sut grupate î categor după două crter Aceasta presupue exsteța uu tabel de frecvețe (umt tabel de cotgeță) î care lle sut asocate cu u crteru ar coloaele sut asocate cu alt crteru Se pue îtrebarea dacă exstă vreo legatură ître cele două crter
Teste de asocere Exemplu N șoarec de laborator (dtre care mascul ș N- femele) au fost radaț I urma rader m (m mascul ș m femele) dtre șoarec au sufert mutaț Mutat Nomutat mascul m -m Total femela m N--m N- Total m N-m N Se pue îtrebarea dacă exstă vreo asocere ître sexul șoarecelu ș rscul de aparțe a ue mutaț
Teste de asocere Dacă u ar exsta asocere ître sex ș aparța ue mutaț atuc varabla aleatoare corespuzătoare umărulu de mascul cu mutaț ar avea dstrbuța hpergeometrcă Remember: Repartța hpergeometrcă Se asocază ue succesu de m expermete depedete (ex: extragere fără revere dtr-o ură cu ble roș ș N- ble albe) de tp Beroull (eșr posble: roșu / alb) Y r de ble roș extrase P( Y C y) y C C m E( Y ) N m( N Var( Y ) N m y N m N m)( N ( N ) )
Teste de asocere Ipotezele: H 0 : u exstă asocere ître sex ș aparța ue mutaț H A : șoarec mascul sut ma predspuș (sau ma puț predspuș) mutațlor decat femelele Testul Fsher: Statstca: umărul de șoarec mascul care au sufert mutațe Daca H 0 este adevarată atuc statstca are repartța hpergeometrcă Se calculează probabltatea ca r. de mascul mutaț să fe ma mare sau cel puț egal cu valoarea îregstrată Daca probabltatea obțută este ma mare decât velul de semfcațe a testulu atuc poteza ulă se acceptă, altfel se respge
Teste de asocere Exemplu (N, ș m sut fxate) Mutat Nomutat Total mascul y6 8 P( Y P( Y y) 6) C C y 6 3 8 C 9 0 C C C m y N m N + C 7 8 C 9 0 C + C 8 8C 9 0 C femela 3 9 Total m9 N0 0.039 Petru velul de semfcațe 0.05 poteza ulă se respge (adcă u se poate afrma că u exstă asocere ître sexul șoarecelu ș predspozța către mutaț)
Testul Fsher Se poate aplca doar î cazul tabelelor x Este mportat ca valorle d tabel să corespudă uor evemete depedete ître ele (ex: evemetul ca u șoarece să fe mutat este depedet de evemetul ca alt șoarece să fe mutat) I cazul uu umăr ma mare de categor (valor posble) petru fecare crteru se aplcă testul ch-patrat
Testarea asocer cu testul ch-patrat Se cosdera cazul a r l (rumăr de valor posble asocate prmulu crteru) c coloae (cumăr de valor posble asocate celu de al dolea crteru) Statstca: j, k E y y y jk j* * k ( Y jk y E E j* jk y suma elemetelor de pe la suma elemetelor de pe coloaa k suma y jk * k ) tuturor elemetelor j Daca poteza ulă este adevarată (u exstă asocere ître grupărle corespuzătoare celor două crter) atuc statstca are repartța ch-patrat cu (r-)(c-) grade de lbertate
Testarea asocer cu testul ch-patrat Exemplu: Se pue problema dacă îtr-o secveță ADN exstă asocere ître ucleotdele cosecutve sau u Tabelul de cotgeță va f costtut d 4 l ș 4 coloae, cele 4 categor corespuzâd celor 4 tpur de ucleotde Lle corespud ucleotde prezete pe pozța ar coloaele corespud ucleotde prezete pe pozța următoare (+) Daca pozțle succesve sut depedete atuc statstca va avea repartța ch-patrat cu (4-)*(4-)9 grade de lbertate Nucleotda de pe pozta Nucleotda de pe pozta + A G C T A Y Y Y 3 Y 4 y * G Y Y Y 3 Y 4 y * C Y 3 Y 3 Y 33 Y 34 y 3* T Y 4 Y 4 Y 43 Y 44 y 4* y * y * y *3 y *4 y
Testarea asocer cu testul ch-patrat Utltate: detfcarea secvețelor codate (exo) ș a celor ecodate (tro) Se cosderă că cele două categor de secvețe ADN au propretăț statstce dferte Idetfcarea amprete statstce se face dfert î fucțe de prezeța/abseța uor asocer ître ucleotde succesve I cazul absețe uor asocer ître ucleotdele succesve acestea sut cosderate depedete ș ampreta este determată de dstrbuța dvduală a fecăru tp de ucleotdă (estmarea probabltățlor specfce dstrbuțe multomale) I cazul prezețe ue asocer trebue extras u model de depedeță (de exemplu depedeța markovaă)
Testarea asocer cu testul ch-patrat Exemplu: verfcarea poteze ca ucleotdele dtr-o secveță sut depedete se porește de la cotorzarea ducleotdelor (dmerlor) se calculează valoarea statstc se compară cu valoarea crtcă corespuzătoare repartțe ch-pătrat cu 9 grade de lbertate ș vel de semfcațe 0.05 (valoarea este: 6.9) Exercțu laborator
Teste de cocordata Au ca scop să verfce dacă populața d care sut extrase datele are o aumtă repartțe Tp problemă: testarea poteze ca repartța ucleotdelor este uformă (petru fecare pozțe, fecare ucleotdă apare cu aceeaș probabltate, 0.5) Exemple: Testul ch-pătrat Testul Kolmogorov-Smrov
Teste de cocordata Testul ch-pătrat H 0 : F X (x)f 0 (x) H A :F X (x)<>f 0 (x) Codț prelmare: Domeul de defțe al lu F este [a,b] Eșatoul este de volum Etape: Dscretzare [a,b] (dacă este cazul): at 0 <t < <t k b; clasa : [t -,t ) Calcul probabltate teoretcă pt. fecare clasă (p F 0 (t )-F 0 (t - )) Calcul frecveță pt. fecare clasă r. de date d eșato ce aparț lu [t -,t ) (frecveța absolută corespuzătoare tervalulu)
Teste de cocordata Testul ch-pătrat Statstca T T > k ( χ ( k p p ) χ ( k ), α) se respge poteza ula Obs. I cazul varablelor dscrete: k repreztă umărul de valor posble (ex: 6 - zar, 4 - ADN) r. de date d eșato care au valoarea p /k (î cazul repartțe uforme)
Teste de cocordata Exemplu: verfcarea poteze că ucleotdele dtr-o secveță au dstrbuța uformă pe setul {A,G,C,T} secveța este aleatoare Etape: Se determă frecvețele de aparțe,, ale ucleotdelor d secveță Se calculează statstca T (slde ateror) petru p 0.5 ș k4 Se calculeaza valoarea crtcă a repartțe ch-patrat cu 3 grade de lbertate corespuzatoare velulu de semfcațe dort (petru 0.05 valoarea este 7.8) Daca T este ma mare decat valoarea crtcă se respge poteza că ucleotdele au o dstrbuțe uformă Exerctu Laborator
Teste eparametrce Sut teste care permt compararea a două populaț ș care u folosesc poteze asupra repartțe populațlor sau parametrlor Se pot aplca î cazul varablelor care u sut eapărat umerce (este sufcet ca valorle să poată f comparate ître ele de exemplu varable ordale) Exemple: Testul semelor Testul ragurlor (Ma-Whtey-Wlcoxo) Testul ragurlor cu sem (Wlcoxo)
Testul semelor Test de comparare a doua populaț împerecheate petru care dfereța medlor de selecțe u are repartța ormală (varata eparametrcă a testulu t) Specfc: î loc să se utlzeze valorle umerce ale observațlor se folosesc doar semele uor dferețe Eșatoaele d cele doua populaț trebue să fe împerecheate (de exemplu valoarea ue mărm îate ș după aplcarea uu tratamet petru acelaș pacet) Ipoteza ulă: H 0 : M M (medle celor două populaț sut egale sau u exstă dfereță ître valorle țale ș cele ulteroare)
Testul semelor Etape: Se calculează dferețele dtre valorle corespuzătoare ș se determă semele acestora dferețe poztve k valor egale dferețe egatve Statstca: Tumărul de dferețe poztve ( ) Daca H 0 e adevarată atuc T are repartța bomală pe {0,..,m-k} cu parametrul p/
Testul semelor Etape: Se calculează P(T< ) folosd tabelul repartțe bomale petru B(m,/) 0 0 ) ( ) ( ) ( m m m C m C T P Daca valoarea este ma mca decat velul de semfcațe se respge H 0
Testul semelor Exemplu: aalza mpactulu uu tratamet Valoare țală x x.. x Valoare fală y y.. y Semul dferețe Sg(x -y ) Sg(x -y ).. Sg(x -y ) Se calculează umărul dferețelor poztve () ș probabltatea P(T<) (slde ateror)
Testul ragurlor (Ma-Whtey) Specfc: se folosește petru compararea a două populaț a căror repartțe este ecuoscută (eșatoaele sut depedete ș au m respectv elemete) H0: cele două populaț au aceeas repartțe Etape: Se costruește eșatoul reut Se ordoează crescător după valoare Se asocază fecăru elemet u rag (de la la m+) Se calculează R suma ragurlor asocate elemetelor d prmul eșato Rsuma ragurlor asocate elemetelor d al dolea eșato
Testul ragurlor (Ma-Whtey) R suma ragurlor asocate elemetelor d prmul eșato R suma ragurlor asocate elemetelor d al dolea eșato ) ( ) ( }, m{ ) / )( ( R m U R m m m U U U U m m R R + + + + + + + +
Testul ragurlor (Ma-Whtey) Dacă poteza ulă este adevarată atuc varabla U are repartța U ș are propretățle: m E( U ) m( m + + ) Var( U ) Dacă m ș sut sufcet de mar (m>0, >0) atuc : T m U N(0,) m( m + + )
Testul ragurlor (Ma-Whtey) Petru a se lua decza se parcurg următoarele etape: Se calculeaza valoarea statstc T Se determa valoarea crtcă corespuzătoare repartțe ormale stadard pt. velul de semfcațe dort (petru 0.05 valoarea este.65) Daca T este î reguea crtcă (petru velul de semfcațe 0.05, aceasta îseamă să fe î afara tervalulu [-.65,.65]) atuc poteza ula se respge
Testul ragurlor cu sem (Wlcoxo) Specfc: testarea medae ue populaț (cu repartțe asmetrcă) H0: MedaaM 0 Etape: Se calculeaza modulele dferețelor x -M 0 Se ordoeaza crescător ș l se asgează ragur (valorlor detce l se asocaza acelaș rag) Statstca: Tsuma ragurlor dferețelor țal poztve Daca H0 e adevarata atuc T are propretatle E(T) (+)/4 Var(T) (+)(+)/4 Daca este mare atuc T are repartța ormală cu parametr de ma sus
Testul ragurlor cu sem (Wlcoxo) Alte aplcaț: Se poate utlza petru compararea a două selecț împerecheate (smlar testulu semelor) De exemplu petru a compara comportarea a do algortm aleator de optmzare î poteza că se rulează amb algortm de ma multe or pord de la aceeas aproxmațe țală
Corelate s regrese Scop: aalza depedețe dtre ua sau ma multe marm predctor s o marme prezsa Depedeța dtre greutate ș îălțme Depedeța dtre dcele de masă corporală ș vârstă Coefcet de corelate: permt aalza cattatvă a gradulu de depedeță ître mărm Regrese: permte determarea tpulu de depedeță ș a parametrlor acestea: Regrese lară smplă / multplă Regrese elară smplă / multplă Regrese logstcă
Coefcet de corelate Coefcet de corelațe (Pearso) Utl petru varable umerce măsură a gradulu de depedeță lară Valor ître - ș ( x x) r ( x x)( y ( y y) y) Coefcet de pe baza ragurlor (Spearma) Se ordoează crescător valorle corespuzătoare fecăre mărm Se calculează dfereța dtre ragur (d) E adecvat pt varable ordale (u eapărat umerce) î cazul î care valorle asocate celor două mărm sut dstcte r S 6 3 d
Regrese lară Regrese lară smplă Date de trare: (x,x,...,x) ș (y,y,...,y) x s y sut valor scalare Ieșre: estmarea parametrlor a s b a modelulu de depedeță lară YaX+b Scopul estmăr: determarea valorlor lu a ș b care mmzează suma pătratelor erorlor a b ( x y ax x)( y ( x x) y)