Curs 7. Alnerea secvențelor: matrc de scor (substtute): PAM s BLOSUM metode eurstce de alnere (FASTA s BLAST) alnere multplă Bblo: Cap 2. dn Bologcal sequence analyss, Durbn et al cap. 6 dn An ntroducton to Bonformțatcs algorthms, N.Jones, P. Pevzner cap. 9 dn An ntroducton to Bonformatcs algorthms, N.Jones, P. Pevzner
Alnerea secventelor - remnder Scopul alner: obțnerea de nformaț prvnd smlartatea dntre secvențe Elemente chee ale procesulu de alnere: Stablrea tpulu de alnere (globală, locală, multplă) Stablrea matrclor de scor (pt nucleotde/amnoacz) care vor f utlzate pentru a evalua caltatea alner Alegerea algortmulu de construre a alner (algortm exact vs. algortm aproxmatv) Stablrea metodelor statstce utlzate pentru a evalua caltatea alner
Matrc de scor O matrce de scor (sau de substtuțe) conțne pentru fecare pereche de elemente (nucleotde sau amnoacz) o valoare care exprmă șansa ca elementele respectve să apară în alnerea unor secvențe corelate dn punct de vedere bologc O matrce de scor are dmensunea: 4x4 - în cazul secvențelor de nucleotde 20x20 în cazul secvențelor de amnoacz Observaț: Matrcle de scor sunt smetrce prn urmare este sufcent să se rețnă doar partea nferor trunghulară Penalzărle pentru gap-ur se poate specfca separat; în general nu depnde de tpul de element care e alnat cu gap-ul făcânduse dferență doar între penalzarea nțer (gap openng) ș cea a contnuăr (gap extenson) une secven țe de gap-ur
Matrc de scor Matrc de scor pentru secvente de amnoacz (20 de amnoacz): Scorul M(,j) asocat une perech de amnoacz se poate calcula în două modur: Pe baza propretățlor fzco chmce ale amnoaczlor dn pereche (polarzare,hdrofobctate,dmensune etc.) Pe baza unu model probablst construt folosnd frecvența de aparțe a perech în secvențe despre care se cunoaște că au evoluat pornnd de la acelaș strămoș (M(,j) reflectă frecvența stuațlor în care amnoacdul înlocuește amnoacdul j în secvențe înrudte). In acest caz scorul se estmează pornnd de la secvențe alnate despre care se cunoaște că sunt corelate; alnerea prelmnară a acestora se bazează pe scorur stablte smplu: +1 pentru potrvr ș -1 pentru nepotrvr ș nserăr/șterger Tpur de matrc scor: PAM (Percent Accepted Mutatons) BLOSUM (BLOck SUbsttuton Matrx)
Matrc de scor Model probablst pentru construrea matrclor de scor Context: fe x[1..k] s y[1..k] doua secvente alnate s doua modele posble: R (random): cele doua secvente sunt ntamplatoare (elementele dn cele doua secvente pot f modelate prn varable aleatoare ndependente => probabltatea de a observa perechea (x[],y[]) este egala cu produsul probabltatlor de a observa separat x[] respectv y[] ) C (correlated): cele doua secvente sunt corelate (probabltatea perech (x[],y[]) nu ma este neaparat produsul probabltatlor Probabltatea de a observa o alnere data (x,y) depnde de modelul consderat: P( x, y p( a) = p( a, b) R) k = p( x ) p( y ) P( x, y C) = = 1 probabltatea ca a sa fe n secventa = probabltatea ca a sa fe alnat cu b k = 1 p( x, y )
Matrc de scor Model probablst pentru construrea matrclor de scor b a b a p a a p y x p C y x P y p x p R y x P k k fe alnat cu sa probabltatea ca ), ( fe n secventa sa probabltatea ca ) ( ), ( ), ( ) ( ) ( ), ( 1 1 = = = = = = Raportul dntre cele două probabltăț furnzează o măsură a șanse de a observa perech de elemente alnate în secven țe smlare în raport cu șansa de a observa aceleaș perech în secvențe aleatoare: ) ( ) ( ), ( ), ( ), ( 1 = = k y p x p y x p R y x P C y x P In statstcă se lucrează cu logartmul acestu raport: Raport de verosmltăț (odds rato) ) ( ) ( ), ( log ) ( ) ( ), ( log ), ( ), ( log 1 1 k k y p x p y x p y p x p y x p R y x P C y x P = = = =
Matrc de scor In aceste poteze log-raportul verosmltatlor (log-odds rato) corespunzator alner dntre x s y este: k log p( x, y ) p( x ) p( y ) = 1 Prn urmare, pentru fecare pereche (x,y ) de elemente alnate se poate asoca un scor de potrvre: M ( x, y ) = log p( x, y ) p( x ) p( y ) Obs: In cazul n care perechea (x,y ) apare alnata ma frecvent în secven țe smlare (bologc înrudte) decât în secven țe întâmplătoare atunc M(x,y ) este poztvă
Matrc de scor La construrea matrclor de scor pe baza log-raportulu de verosmltăț elementul prncpal este reprezentat de estmarea probabltătlor p(x,y ), p(x ), p(y ) Probabltățle ndvduale ale amnoaczlor se pot estma pe baza frecvențelor lor de aparțe în cât ma multe secvențe reale Un exemplu de estmăr (propuse de Dayhoff în 1978) este Ș
Matrc de scor In funcțe de modul de estmare a probabltățlor p(x,y ) (pe baza unor frecvențe calculate pornnd de la secvențe reale) exstă doua clase prncpale de matrc de scor: Matrc de tp PAM ( Pont Percent Accepted Mutatons or Percent Accepted Mutatons ): se pornește de la secvențe alnate foarte smlare (care dferă în ma puțn de 15% dn amnoacz consttuenț astfel de protene foarte smlare sunt întâlnte de exemplu la cmpanzeu ș la om) (propuse n 1978) Matrc de tp BLOSUM (Block Substtuton Matrx): se folosesc local alnate aparțnând unor protene smlare (dn baza date BLOCKS) (propuse în 1992)
Matrc PAM Au fost propuse de către Dayhoff et al (1978) pornnd de la alner ale secvențelor asocate unor protene foarte smlare despre care au presupus că au evoluat una dn cealaltă într-o etapă de evolu țe; pe baza acestor alner se construește o prmă matrce M în care M(a,b) reprezntă scorul substtu țe lu a în b (ș nvers) într-o sngura etapă de evoluțe. Pornnd de la M(a,b) se poate calcula probabltatea (cond țonată) ca elementul a să se transforme în elementul b: P( b a) = M ( a, b) M ( a, c) c Matrcea T care con țne pe lna a, coloana b probabltatea P(b a) poate f nterpretata ca o matrce de tranzte (T(a,b) e probabltatea de trecere ntr-un pas de la a la b)
Matrc PAM Folosnd propretățle matrclor de tranzțe rezultă că puterea m a matrc T va con țne probabltățle de tranzțe în m etape; aceasta este deea construr matrclor PAM(m) Pentru a constru PAM (1) dn T se mpune cond ța ca numărul medu de substtuț să fe 1%, adcă: a, b p( a) p( b) T ( a, b) = 0.01 Acest lucru se poate realza prn scalarea elementelor lu T: U (1) ( a, b) = σt ( a, b), σ = 3/ log(2) U (1) ( a, a) = σt ( a, a) + (1 σ ) U (1) este tot o matrce de tranz țe, astfel că pentru a obțne probabltăț de tranzțe P(b a,m) în m etape este sufcent să se rdce U (1) la puterea m. Folosnd U (m) scorul de substtute va f: PAM m ) ( a, b) = ( U log ) ( a, b) p( b) ( m
Matrc PAM Exemplu: PAM 250 Valorle calculate sunt rotunjte la cel ma apropat ntreg
Matrc BLOSUM BLOSUM = BLocks of Amno Acd SUbsttuton Matrx [Henkoff&Henkoff, 1992] Scorurle se deduc prn observarea frecvențelor substtuțlor în blocur local alnate aparțnând unor protene smlare (dn baza de date BLOCKS (http://blocks.fhcrc.org/ -> http://www.eb.ac.uk/nterpro/)) Valorle dn matrce se calculează folosnd aceea ș tehnca ca ș în cazul matrclor PAM: BLOSUM(,j)=log(f(,j)/(f()f(j)) / lambda (lambda este un factor folost pentru a ob țne valor ușor de prelucrat de exemplu valor întreg) In funcțe de gradul de smlartate dntre secvențele utlzate la calculul elementelor matrc exstă dferte varante de matrc specfcate prn ndc dfer ț
Matrc BLOSUM BLOSUM = BLocks of Amno Acd SUbsttuton Matrx [Henkoff&Henkoff, 1992] Indcele asocat matrc ndcă procentul maxm de amnoacz dentc în protenele în baza cărora se construește matrcea BLOSUM50 s-a construt pornnd de la secvențe de amnoacz ce sunt dentce în maxm 50% dntre pozț Matrcle de ndce mc se folosesc la alnerea secven țelor despre care se presupune că nu sunt foarte smlare, pe când matrcle de ndce mare se folosesc în cazul secven țelor presupuse a f puternc corelate
Matrc BLOSUM Construre BLOSUM(L) Se grupeaza secvențele în clase astfel încât secvențele procentul de elemente dentce între secven țele dn aceeaș clasă este cel puțn L% Se calculează F(a,b) numărul de apar ț ale perech (a,b) pe pozț corespunzătoare în secven țe aparțnând unor clase dferte (între secvențele alnat gradul de potrvre este cel mult L%) Se calculează F( a, b) p ( a, b) =, p( a) = p( a, b) F( c, d) ( c, d ) b
Matrc BLOSUM BLOSUM 62 s(a,b)= sgma*log(p(a,b)/(p(a)*p(b)) cu rotunjre la cel ma apropat ntreg sgma=2/log(2)
Algortm eurstc de alnere Algortm de alnere globală (Needleman-Wunsch) ș locală (Smth- Waterman) sunt coststor în cazul secven țelor lung (ordnul de complextate este O(mn) pentru secvențe având lungmle m respectv n) In cazul căutăr în baze de date secven ța de nterogare are lungmea de ordnul sutelor (eventual mlor) pe cand baza de date corespunde une secvențe cu lungmea de ordnul 10 9-10 10 Pentru căutarea une secven țe într-o bază de secven țe se preferă metode eurstce (sub-optmale) care permt dentfcarea rapdă a secvențelor smlare Metodele eurstce se bazează pe deea dentfcăr unor potrvr scurte dar semnfcatve (de scor mare) ș construrea alner prn extnderea acestor potrvr
Algortm eurstc de alnere Dec deea de bază a metodelor eurstce de alnere este cea a fltrăr: Lungmea potrvrlor exacte căutate depnde de tpul de secvența (ma scurte la secvențe de amnoacz ș ma lung la secvențe de nucleotde) ș de algortmul folost Extnderea potrvrlor exacte se bazează pe calcularea unor scorur ș a unu prag de acceptare care de asemenea depnd de varanta de algortm Dn punct de vedere ntutv potrvrle exacte corespund unor dagonale vzble n matrcea de puncte asocată perech de secvențe
Metode eurstce: matrc de puncte Matrcle de puncte (dot matrx): permt lustrarea smlartăț între două secvențe Algortm eurstc permt dentfcarea dagonalelor corespunzătoare unor potrvr exacte (fără gap-ur) pe care ulteror le combnă (atât tmp cât perderea în scorul de potrvre nu este prea mare). Obs: n mplementarea algortmlor matrcle de puncte nu sunt construte explct
Metode eurstce: matrc de puncte Se dentfcă dagonalele având lungmea ma mare decât un anumt prag Dagonalele contnue (fără întreruper) ndcă potrvr exacte
Metode eurstce: matrc de puncte Se extnd dagonalele ș se încearcă conectarea lor acceptându-se un număr mc de nepotrvr/nserț/șterger Concatenarea dagonalelor exprmă potrvr aproxmatve de-a lungul unor subșrur ma lung
Metode eurstce: algortmul FASTA FASTA = Fast Algnment (Lpman & Pearson,1985) Caracterstc: A fost prmul nstrument de căutare în bazele de secvențe Folosește o stratege de hashng pentru a găs potrvr cu secvențe scurte de cate k smbolur (k=2 pentru secvențe de amnoacz ș k=6 pentru secvențe de nucleotde); o astfel de secvența este numtă k-tuplu Download: www.eb.ac.uk/fasta33/
Metode eurstce: FASTA Etape Etapa1: dentfcă k-tuplurle comune secvențe de nterogare ș baze de date Se construește un tabel de căutare cu ntrăr corespunzătoare fecăru k-tuplu ș pozțle în care acesta se găsește în fecare dntre secvențe (pentru baza de date acest tabel de căutare se construește o sngură dată într-o etapă de preprocesare) Se dentfca k-tuplurle comune celor două secvențe
Metode eurstce: FASTA Etapa 2: Se ordonează k-tuplurle comune dupa -j ( e ndcele de start n secventa 1, j e ndcele de start n secventa 2); n felul acesta k-tuplurle ce fac parte dn aceeas dagonala vor f pe pozt apropate Se concateneaza k-tuplele comune consecutve (consttundu-se dagonale ma lung) Se selecteaza secventele comune (consttute dn k- tuple comune consecutve ce formează dagonale în matrcle de puncte ) având scorul de potrvre cel ma mare (de exemplu se selecteaza prmele 10 astfel de potrvr)
Metode eurstce: FASTA Etapa 3: Se încearcă extnderea potrvrlor exacte prn ntroducerea de gap-ur Unește segmentele de pe dagonale învecnate Problema unr dagonalelor poate f formulată ca o problemă de dentfcare a une că de scor maxm într-un graf în care: Nodurle corespund dagonalelor dentfcate la pasul anteror (etcheta unu nod este scorul asocat dagonale) Muchle unesc nodurle ce corespund dagonalelor ce ar putea f concatenate prn ntroducere de gap-ur (nodul p se concatezează cu nodul q dacă ndc de lne ș coloană a dagonale corespunzătoare lu p sunt fecare dntre e ma mc decât ndc elementelor dn dagonala corespunzătoare lu q) Scorul une much este negatv s propor țonal cu numărul de gap-ur care s-ar ntroduce
Metode eurstce: FASTA Etapa 4. Pornnd de la dagonala de scor maxm dentfcată în Etapa 3 se aplcă un algortm de alnere locala (Smth Waterman) pentru o banda dn matrcea de puncte fxată în jurul dagonale In felul acesta exstă șansa să se găsească o alnere locală de scor mare în vecnătatea dagonale dentfcate la Etapa 3
Metode eurstce: FASTA Etapa 5. Analza statstcă a smlartăț. Se calculează: Statstca E (E-value) Statstca Z (Z-score) Măsoară abaterea față de scorul medu al une căutar Scorul medu corespunde nterogarlor care conduc la secvențe necorelate cu cea de nterogare Potrvrea este consderată cu atât ma semnfcatva cu cât scorul este ma mare Exemple de nterpretare a statstc Z: Z>15 - potrvre foarte semnfcatvă 5<=Z<=15 potrvre destul de semnfcatvă Z<5 potrvre puțn plauzblă
Metode eurstce: BLAST Basc Local Algnment Search Tool [Altschul, Gsh, Lpman, Mller, Myers (1990)] http://www.ncb.nlm.nh.gov/blast/blast.cg Varanta nțală: Identfcă segmente fara gap- ur (cu scor mare de smlartate ) Se bazează pe o analza statstcă a smlartăț dntre segmente care permte dscrmnarea între secvențele cu adevărat smlare ș cele smlare dn întâmplare Folosește o matrce de scor clască (ex: PAM250 sau BLOSUM62)
Metode eurstce: BLAST Etape: Etapa 1: Crează o lstă cu cuvnte dn secvența de nterogare precum ș cuvnte sufcent de smlare cu acestea. Un cuvânt conțne cca 3 smbolur în cazul secvențelor de amnoacz ș 11 în cazul secvențelor de nucleotde. Smlartatea dntre cuvnte se calculează folosnd o matrce de scor ș cuvntele se consderă smlare doar dacă scorul depă șește un prag. Etapa 2: Se caută aceste cuvnte în baza de date; Etapa 3: Se extnd potrvrle de la nvelul cuvntelor până când se dentfcă un segment local maxmal (se caracterzează prn faptul că scorul nu poate f mărt nc prn adăugarea nc prn elmnarea de element). Etapa 4: Potrvrle astfel dentfcate se ordonează descrescător după scor ș pentru fecare se estmează semnfcața statstcă a smlartăț.
Metode eurstce: BLAST Cuvant chee dn nterogare Query: KRHRKVLRDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKIFLENVIRD GVK 18 GAK 16 GIK 16 Cuvnte smlare GGK 14 (nvecnate) Scor de smlartate GLK 13 (T = 13) GNK 12 GRK 11 GEK 11 GDK 11 extndere Query: 22 VLRDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLK 60 +++DN +G + IR L G+K I+ L+ E+ RG++K Sbjct: 226 IIKDNGRGFSGKQIRNLNYGIGLKVIADLV-EKHRGIIK 263 Perechea de scor maxm (Hgh-scorng Par - HSP)
BLAST w = 4 Cuvantul cu care se potrveste exact GGTC Se extnd dagonalele pana cand scorul de potrvre devne ma mc decat 50% dn scorul potrvr ntale sau cand scorul ncepe sa descreasca Rezultat GTAAGGTCC GTTAGGTCC Sursa: slder-ur Serafm Batzoglou (Stanford) C T G A T C C T G G A T T G C G A A C G A A G T A A G G T C C A G T Scor poztv Scor negatv
BLAST Analza statstcă a potrvr Scop: stablește dacă potrvrea este determnată de exstența une smlartăț reale între secvența de nterogare ș cea dn baza de date sau este doar întâmplătoare Instrument: test statstc Ipoteza nula: cele două secvențe sunt ndependente P = ' ( j, k) p j pk Probabltatea ca smbolul k să apară în a doua secvență Probabltatea ca smbolul j sa fe alnat cu smbolul k Probabltatea ca smbolul j să apară în prma secvență
BLAST Statstca testulu. Fe S(j,k) scorul substtur lu j cu k Scorul corespunzător pozțe dn cele două secvențe este suma scorurlor asocate perechlor de elemente până la pozța nclusv. Evoluța scorulu în funcțe de poate f descrsă prntrun proces de tp mers aleator (random walk) Exemplu: GGTGTAGA GACCTAGA Fecare potrvre este recompensată cu 1; fecare nepotrvre este penalzată cu 1 Y3=4 Y1=1 Y2=0
BLAST Statstca testulu. Y reprezntă înălțmea maxmă dntre două puncte de descreștere ( ș +1) un punct este consderat de descreștere dacă atnge un nvel ma mc decât cele atnse până în momentul respectv (pct rosu pe grafc) Statstca testulu este Y max = max{y1,y2, } Y1=1 Y3=4 Y2=0
BLAST Statstca testulu. Daca poteza nulă este adevarată atunc Y max are repartța P( Y y = max S) 1 e Kmne λs ' λs ( j, k ) p j pke = 1 Observat: j, k S(j,k) este scorul potrvr dntre elementele de pe pozțle j respectv k dn cele două secvențe m ș n sunt lungmle secvențelor; K poate f nterpretat ca o măsură a smlartăț componentelor (amnoaczlor); lambda poate f nterpretat ca un factor de scalare asocat matrc de scor K ș lambda se estmează numerc (valorle depnd de matrcea de scor utlzată S) Daca S e BLOSUM62 atunc estmarle pt K ș lambda sunt: K=0.04, lambda=0.254 y y
BLAST Interpretarea valorlor statstce furnzate de catre pachetele software care mplementeaza algortm de tp BLAST: E-value (expectaton value): E=mnK exp(-lambda S) Numarul de potrvr de scor ma mare decât S care s-ar obțne în mod aleator (în poteza ca nu ar exsta nc o corela țe între secvența de nterorgare ș baza de date) Interpretare: Daca E<10-50 secvențele sunt probabl dentce Daca 10-50 <E<0.01 atunc secventele sunt semnfcatv corelate Daca 0.01<E<10 atunc potrvrea este nerelevanta nsa poate sugera o nrudre ndepartata Daca E>10 secventele sunt probabl necorelate Obs: E-valoarea este nfluentata de dmensunea baze de date Pt. a evta acest lucru se foloseste s un alt ndcator: bt score
BLAST Interpretarea valorlor statstce furnzate de catre pachetele software care mplementeaza algortm de tp BLAST: Bt-score: este o varanta normalzata a masur smlartat dntre secvente S =(lambda*s-log K)/log 2 unde S este scorul clasc de smlartate ar lambda s K sunt ca n defnta de la E-valoare Interpretare: cu cat S este ma mare cu atat este ma semnfcatva potrvrea
BLAST Varante de mplementare blastn: Nucleotde-nucleotde blastp: Proten-proten blastx: Translated query vs. proten database tblastn: Proten query vs. translated database tblastx: Translated query vs. translated database (6 frames each) PSI-BLAST determna membr une faml de protene sau construeste o matrce specfca de scor. Megablast: - cauta dupa secvente ma lung, cu putne dferente WU-BLAST: (Wash U BLAST) varanta optmzata
Alnerea multpla Alnerea multplă are ca scop dentfcarea de smlartăț ntre ma multe secvențe ADN sau de amnoacz (protene) Smlartatea dentfcată este cu atât ma semnfcatvă cu cât este adevarată pentru ma multe secvențe: aceasta sugerează prezența unor regun conservate în cadrul ma multor ramur evolutve Identfcarea smlartățlor multple este utlă în proectarea expermentelor pentru testarea ș modfcarea funcțlor unor protene specfce, în predcța funcțe ș structur protenelor ș în dentfcarea de no membr în famlle de protene
Alnerea multpla Alnerea a două secvențe: matrce cu două ln ș L coloane (L=nr de elemente ale alner) Alnerea a K secvențe: matrce cu K ln ș L coloane Exemplu: K=3 (n1=lg. secvențe 1, n2=lg. secvențe 2, n3=lg. secvențe 3) L>=max{n1,n2,n3} x = ATGC, y = AATC, z = ATGC A TGC AAT C ATGC
Alnerea multpla nterpretare geometrca x: 0 1 1 2 3 4 ndcele elementulu curent A T G C y: 0 1 2 3 3 4 A A T C z: 0 0 1 2 3 4 A T GC Alnerea este echvalenta cu urmatorul traseu: (0,0,0)->(1,1,0)->(1,2,1)->(2,3,2)->(3,3,3)->(4,4,4) ce poate f nterpretat ca o solute a probleme turstulu n cazul 3-dmensonal
Alnerea multpla programare dnamca Extndere drectă a relațe de recurență: S,j,k = max s -1,j-1,k-1 + M(x, y j, z k ) s -1,j-1,k + M (x, y j, _ ) s -1,j,k-1 + M(x, _, z k ) s,j-1,k-1 + M (_, y j, z k ) s -1,j,k + M (x, _, _) s,j-1,k + M (_, y j, _) s,j,k-1 + M (_, _, z k ) Matrcea de scor este trdmensonală Complextate: 7*n1*n2*n3 Caz general: O(2 K n K ) (K=nr. secvente; n=lungmea maxmă a secvențelor) Concluze: abordarea bazată pe programare dnamcă nu este aplcablă în cazul multor secvențe
Alnerea multpla programare dnamca Observațe: Fecare alnere multplă nduce alner (nu neapărat optmale) ale tuturor perechlor de cate două secvențe Exemplu: alnerea trplă x: AC-GCGG-C y: AC-GC-GAG z: GCCGC-GAG Induce următoarele alner la nvelul perechlor (perechle de gap-ur corespondente se gnoră): x: ACGCGG-C; x: AC-GCGG-C; y: AC-GCGAG y: ACGC-GAC; z: GCCGC-GAG; z: GCCGCGAG
Alnerea multpla programare dnamca Este adevarată ș afrmața nversă? Pornnd de la alner de perech poate f constrută o alnere multplă? NU întotdeauna! Perechle de alner pot f nconsstente Obs. O stuațe smlară se întâmplă în cazul determnăr celu ma lung subșr comun a K șrur: acesta nu e neapărat un subșr al celu ma lung subșr comun a orcăror două șrur dn set
Alnerea multpla abordare progresva Dn cele C(K,2) perech de secvențe se dentfcă cele ma smlare doua secvențe (alnerea caracterzată prn cel ma mare scor) Cele doua secvențe alnate se reunesc obțnandu-se un set de K-1 secvențe care trebue alnate. Se aplca teratv aceeas stratege Probleme: Ce înseamnă reununea a două secvențe ș cum poate f descrsă? Cum va f reprezentat rezultatul alner? Cum se evaluază alnerea? Răspuns: folosnd conceptul de profl al une alner, alnerea în raport cu un profl ș scorur calculate pe baza proflelor
Alnerea multpla abordare progresva Remember: Profl = tabel cu frecvențele (relatve sau absolute) ale nucleotdelor corespunzătoare fecăre coloane dn matrcea cu secvențele alnate Exemplu: A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A 0 1 0 0 0 0 1 0 0 0.8 0 0 0 0 C 0.6 0 0 0 1 0 0 0.4 1 0 0.6 0.2 0 0 G 0 0 1 0.2 0 0 0 0 0 0.2 0 0 0.4 1 T 0.2 0 0 0 0 1 0 0.6 0 0 0 0 0.2 0-0.2 0 0 0.8 0 0 0 0 0 0 0.4 0.8 0.4 0
Alnerea multpla abordare progresva Exemplu: s1: GATTCA s3: GATATT s2: GTCTGA s4: GTCAGC Etapa 1: se alnază toate perechle (C(4,2)=6) ș se alege alnerea cu scorul maxm s2 GTCTGA s4 GTCAGC (scor = 2) s1 GAT-TCA s2 G-TCTGA (scor = 1) s1 GAT-TCA s3 GATAT-T (scor = 1) s1 GATTCA-- s4 G T-CAGC(scor = 0) s2 G-TCTGA s3 GATAT-T (scor = -1) s3 GAT-ATT s4 G-TCAGC (scor = -1)
Alnerea multpla abordare progresva Exemplu: s1: GATTCA s3: GATATT s2: GTCTGA s4: GTCAGC Etapa 2: se reunesc s2 cu s4 conducând la s2/4: GTCt/aGa/c Etapa 3: se rezolvă subproblema alner secvențelor s1, s3 s s2/4 Dfcultate: a trea secvență este ma degrabă un profl (proflul alner dntre secvențele s2 ș s4): G T C t/a G a/c A 0 0 0 0.5 0 0.5 C 0 0 1 0 0 0.5 G 1 0 0 0 1 0 T 0 1 0 0.5 0 0-0 0 0 0 0 0 Apare astfel necestatea alner une secvențe cu un profl sau a două profle între ele
Alnerea multpla abordare progresva La alnerea dntre o secventa ș un profl sau la alnerea a două profle scorul de potrvre corespunzator une pozt se poate calcula ca mede a scorurlor tuturor perechlor de elemente aflate pe pozta respectva Exemplu: scorul de potrvre ntre elementele dn secventa s1: GATTCA s alnerea s2/4: GTCt/aGa/c se poate calcula astfel: Pentru perechle în care ntervn doar nucleotde (de exemplu A ș G sau T ș C) se folosește drect valoarea corespunzătoare dn matrcea de scor Pentru perechle în care ntervn ma multe nucleotde se calculează meda artmetcă a scorurlor corespunzătoare tuturor perechlor posble. De exemplu pentru perechea (T, a/c) scorul va f (scor(t,a)+scor(t,c))/2
Alnerea multpla abordare progresva O altă varantă de calcul a scorulu, în cazul în care ntervn profle, se bazează pe probabltă țle ce ntervn în fecare dntre profle ș pe utlzarea une măsur entropce pentru scor: Fecare coloane j a alner se asocază : S E ( j) = p ( j)ln p ( j) n A n n unde p n este frecvența corespunzătoare nucleotde/ amnoacdulu n Scorul asocat întreg alner este suma scorurlor coloanelor Suma este întotdeauna negatvă; cu cât valoarea scorulu este ma mare (ma apropată de 0) cu atât este ma bună alnerea
Alnerea multpla abordare progresva Instrument pentru alnere multpla: ClustalW (Thomson, 1994) W se referă la faptul ca dferte părț ale alner sunt ponderate dfert Constă în ma multe etape: 1.) Alnază toate perechle (s,sj) dn setul de secvențe 2.) Construește o matrce de dstante având elementul de pe lna coloana j = 1-match(s,sj)/length(alnere s cu sj) 3.) Construește un arbore de ghdare pornnd de la matrcea de dstante folosnd tehnca Neghbor-Jonng (cursur următoare) 4.) Realzeaza o alnere progresvă folosnd arborele de ghdare (se pornește de la cele ma smlare secvențe) Resurse Web: http://www.eb.ac.uk/clustalw/,