ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Αναζήτηση οµοιοτήτων ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ Σελίδα 1 εδοµένα Ακολουθία επερώτησης (query sequence) Ακολουθίες στη Βάση εδοµένων (subject sequences) Αναζήτηση Μέθοδοι δυναµικού προγραµµατισµού Πρακτικοί µόνο για "µικρά" προβλήµατα Ευριστικοί Αλγόριθµοι Γρήγορη αναζήτηση εν εγγυώνται την βέλτιστη στοίχιση FASTA (Lipman and Pearson, 1985) (Altschul et al, 1990) RGIKW IKWQPRSTW IKMQRHIKW DLFWHLWH IKMQRHIKW Αναζήτηση πρωτεϊνών Αναζήτηση οµοιοτήτων Περισσότερο ευαίσθητη για την εύρεση αποµακρυσµένων οµόλογων ακολουθιών Εκφυλισµός γενετικού κώδικα Συντηρητικές αντικαταστάσεις Αλφάβητο 20 γραµµάτων έναντι 4 για το DNA (στατιστική σηµαντικότητα στοιχίσεων) Πιο γρήγορη Αναζήτηση DNA Αναζήτηση οµοιοτήτων Περισσότερο ευαίσθητη όταν συγκρίνονται κοντινές εξελικτικά ακολουθίες Για µη κωδικοποιούσες ακολουθίες Εύρεση µεταλλάξεων πλαισίου ανάγνωσης (frameshift mutations) Σελίδα 3 Σελίδα 4 FASTA FASTA K-tuples (K-tup) tup): λέξεις µεγέθους k Για κάθε ακολουθία της Β αναγνώριση διαγωνίων ταύτισης βαθµολόγηση µε τη χρήση πίνακα αντικατάστασης και επιλογή των διαγωνίων µε το µεγαλύτερο score Για κάθε ακολουθία της Β Ένωση των διαγωνίων µε score µεγαλύτερο ενός κατωφλίου Χρήση δυναµικού προγραµµατισµού (banded Smith- Waterman) για τη βελτιστοποίηση της στοίχισης Σελίδα 5 Σελίδα 6

K-tuples (K-tup) πρωτεΐνες: 2-tuples DNA: 6-tuples FASTA η τίµη του k επηρεάζει την ευαισθησία και την ταχύτητα της αναζήτησης µεγάλη τιµή k µείωση λέξεων που ταυτίζονται αλλά δεν αντιστοιχούν σε πραγµατικές στοιχίσεις (background word hits) αύξηση ταχύτητας αλλά µείωση ευαισθησίας (sensitivity) neighborhood words Query: NKCKTPQGQRLVN, W=3, T=13 word PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 score Σελίδα 7 Σελίδα 8 Σελίδα 9 Σελίδα 10 words: όλες οι δυνατές λέξεις µεγέθους W πρωτεΐνες: 3 κατάλοιπα DNA: 11 κατάλοιπα δηµιουργία ευρετηρίου µε όλες τις λέξεις στις ακολουθίες της Β για κάθε λέξη της ακολουθίας επερώτησης εύρεση όλων των λέξεων (neighborhood words) που στοιχίζονται µαζί της µε score µεγαλύτερο ενός κατωφλίου (neighborhood score threshold, T) T χρησιµοποιώντας έναν πίνακα αντικατάστασης αναζήτηση των neighborhood words έναντι του προκατασκευασµένου πίνακα µε όλες τις λέξεις των ακολουθιών της Β επέκταση της στοίχισης µεταξύ της ακολουθίας επερώτησης και των ακολουθιών της Β για την αναγνώριση ενός High- scoring Segment Pair (HSP) τερµατισµός της επέκτασης όταν το score γίνει µικρότερο ενός προκαθορισµένου κατωφλίου µεγαλύτερο Τ µείωση των προσπαθειών εύρεσης HSPs αύξηση ταχύτητας αλλά µείωση ευαισθησίας Σελίδα 11 Σελίδα 12

two-hit Παρατηρήσεις Η επέκταση γύρω από τα seed words αποτελεί το 90% του χρόνου εκτέλεσης του. Τα HSP έχουν µεγαλύτερο µήκος και περιέχουν πολλές λέξεις µήκους W. two-hit Επέκταση µόνο όταν υπάρχουν δύο µη επικαλυπτόµενα ζεύγη λέξεων σε απόσταση µικρότερη από ένα κατώφλι µεταξύ τους. overlap > A < A extend! Σελίδα 13 Σελίδα 14 two-hit για να διατηρηθεί η ευαισθησία της αναζήτησης, απαιτείται µικρότερο T (neighborhood score threshold) περισσότερα hits αλλά µόνο ένα µικρό ποσοστό από αυτά σχετίζονται µε δεύτερο hit αύξηση της ταχύτητας Gapped two-hit για τη δηµιουργία ενός HSP επέκταση του HSP µε κενά, αν έχει score µεγαλύτερο ενός κατωφλίου S g Σελίδα 15 Σελίδα 16 Gapped Εφαρµογή φίλτρων Σελίδα 17 Σελίδα 18

Εφαρµογή φίλτρων επαναλήψεις περιοχές χαµηλής πολυπλοκότητας δηµιουργία στατιστικώς σηµαντικών στοιχίσεων, αλλά χωρίς βιολογικό νόηµα Soft filtering φιλτράρισµα µόνο στη φάση αναζήτησης Hard filtering φιλτράρισµα στη φάση αναζήτησης και στη φάση τελικής στοίχισης Έστω η στοίχιση δύο ακολουθιών µε score s. Η στοίχιση είναι τυχαία ή έχει βιολογικό νόηµα; Σελίδα 19 Σελίδα 20 Ολική Στοίχιση εν είναι γνωστή η κατανοµή των scores της στοίχισης τυχαία επιλεγµένων αλληλουχιών. ηµιουργία πολλών τυχαίων ακολουθιών ίδιου µήκους και αµινοξικής σύστασης. Υπολογισµός των scores s της στοίχισής τους. Υπολογισµός του Z-score. Z-score = (s-s)/sd s = µέση τιµή s sd = τυπική απόκλιση Ολική Στοίχιση Αν το Z-score είναι µικρό, η στοίχιση δεν είναι στατιστικώς σηµαντική. Σελίδα 21 Σελίδα 22 Τοπική στοίχιση χωρίς κενά Η βαθµολογία S των τυχαίων στοιχίσεων ακολουθεί την κατανοµή ακραίων τιµών (Extreme value distribution ή Gumbel). Τοπική στοίχιση χωρίς κενά P-value = P(S s) = 1 e -Kmneλs P-value πιθανότητα να προκύψει τυχαία στοίχιση µε βαθµολογία µεγαλύτερη ή ίση του s K, λ παράµετροι κατανοµής εξαρτώνται από σύστηµα βαθµολόγησης συχνότητες υποβάθρου m, n µήκη αλληλουχιών Σελίδα 23 Σελίδα 24

Τοπική στοίχιση χωρίς κενά E(S s) = Kmne -λs E(S s) πλήθος τυχαίων στοιχίσεων µε βαθµολογία µεγαλύτερη ή ίση του s λ S = s lnκ bit ln2 Sbit κανονικοποιηµένο score Συγκρίσιµα αποτελέσµατα που έχουν προκύψει από διαφορετικά συστήµατα βαθµολογίας Τοπική στοίχιση χωρίς κενά E-value = E(S bit s bit ) = mn2 -s bit E-value πλήθος τυχαίων στοιχίσεων µε βαθµολογία µεγαλύτερη ή ίση του s bit "Πραγµατική" στοίχιση: E-value 0 Για ακολουθίες µήκους > 100 κατάλοιπα Τύπος Ακολουθίας E-value Ταυτότητα Καταλοίπων Νουκλεοτιδική < 10-6 > 70% Αµινοξική < 10-4 > 25% Σελίδα 25 Σελίδα 26 Βάσεις εδοµένων του Βάσεις εδοµένων του Πρωτεϊνικές Β nr περιεκτική συλλογή αλληλουχιών χωρίς πλεονασµούς month nr µε τις αλληλουχίες των τελευταίων 30 ηµερών swissprot pdb αλληλουχίες της SWISS-PROT αλληλουχίες η δοµή των οποίων είναι κατατεθειµένη στην Protein Data Bank Νουκλεοτιδικές Β nr περιεκτική συλλογή αλληλουχιών χωρίς πλεονασµούς month nr µε τις αλληλουχίες των τελευταίων 30 ηµερών refseq_mrna αλληλουχίες mrna από το NCBI Reference Sequence Project refseq_genomic γενωµικές αλληλουχίες από το NCBI Reference Sequence Project Σελίδα 27 Σελίδα 28 Παραλλαγές του Παραλλαγές του Πρωτεϊνική ακολουθία blastp ακολουθία επερώτησης: πρωτεϊνική Β : πρωτεϊνική αναγνώριση κοινών περιοχών µεταξύ πρωτεϊνών εύρεση σχετιζόµενων ακολουθιών για φυλογενετική ανάλυση πρόβλεψη λειτουργίας Πρωτεϊνική ακολουθία tblastn ακολουθία επερώτησης: πρωτεϊνική Β : νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) εύρεση µη σχολιασµένων κωδικοποιουσών περιοχών σε Β.. χαρτογράφηση πρωτεϊνών σε γενωµικό DNA Σελίδα 29 Σελίδα 30

Νουκλεοτιδική ακολουθία blastn Παραλλαγές του ακολουθία επερώτησης: νουκλεοτιδική Β : νουκλεοτιδική για ακολουθίες µε µεγάλη οµοιότητα χαρτογράφηση ολιγονουκλεοτιδίων, cdnas και προϊόντων PCR σε ένα γονιδίωµα σχολιασµός γενωµικού DNA MegaBlast 10 ταχύτερο από blastn στοίχιση mrna µε γενωµικό DNA Νουκλεοτιδική ακολουθία blastx Παραλλαγές του ακολουθία επερώτησης: νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) Β : πρωτεϊνική εύρεση γονιδίων που κωδικοποιούν πρωτεΐνες σε γενωµικό DNA χρήσιµο όταν δεν είναι γνωστό το πλαίσιο ανάγνωσης ή υπάρχουν σφάλµατα στο πλαίσιο ανάγνωσης Σελίδα 31 Σελίδα 32 Παραλλαγές του Παραλλαγές του Νουκλεοτιδική ακολουθία tblastx ακολουθία επερώτησης: νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) Β : νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) αναζήτηση γονιδίων που δεν έχουν αναγνωριστεί µε τις συµβατικές µεθόδους υψηλές υπολογιστικές απαιτήσεις (6 6 blastp) PSI- (Position Specific Iterated ) PSSM (Position Specific Scoring Matrix) Πολλαπλή στοίχιση ακολουθιών και υπολογισµός ενός score που σχετίζεται µε τη συχνότητα εύρεσης κάθε καταλοίπου σε µία θέση της στοίχισης. Σελίδα 33 PSI- Παραλλαγές του 1. ιεξαγωγή µιας τυπικής αναζήτησης µε την ακολουθία επερώτησης και ένα πίνακα αντικατάστασης (π.χ. BLOSUM62) 2. Αυτόµατη δηµιουργία ενός PSSM από την πολλαπλή στοίχιση των καλύτερων hits της αρχικής αναζήτησης. 3. Το PSSM αντικαθιστά τον αρχικό πίνακα αντικατάστασης (π.χ. BLOSUM62) για την εκτέλεση µιας δεύτερης αναζήτησης. PSI- Παραλλαγές του 4. Επανάληψη των βηµάτων 2 και 3 και δηµιουργία νέων PSSM. 5. Σύγκλιση του PSI- όταν στην τελευταία επανάληψη δεν βρίσκονται νέες ακολουθίες. Σελίδα 35 Σελίδα 36

PSI- Παραλλαγές του PSI- επιτρέπει την εύρεση περισσότερο αποµακρυσµένων οµόλογων ακολουθιών σε σχέση µε το τυπικό. χρησιµοποιεί δύο τιµές κατωφλίου: threshold E-valueE για την αρχική αναζήτηση (τυπικά ίσο µε 10) inclusion E-valueE για τη συµµετοχή των ακολουθιών στη δηµιουργία του PSSM (τυπικά ίσο µε 0.001) PSI- Παραλλαγές του Αν χρησιµοποιηθούν εσφαλµένες ακολουθίες για τη δηµιουργία του PSSM, το σφάλµα θα ανατροφοδοτείται σε κάθε κύκλο. Το E-value δεν αντικατοπτρίζει την σηµαντικότητα της στοίχισης µε την αρχική ακολουθία. Σελίδα 37 Σελίδα 38 Παραλλαγές του Παραλλαγές του PHI- (Pattern - Hit Initiated ) µοτίβο (pattern) χαρακτηρίζει µια οικογένεια πρωτεϊνών π.χ. [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]- A-x-[LIVMA]-x-[STACV] PHI- εδοµένα εισόδου για την αναζήτηση: ακολουθία επερώτησης µοτίβο (regular expression) που υπάρχει στην ακολουθία επερώτησης Αναζήτηση ακολουθιών που περιέχουν το µοτίβο και έχουν οµοιότητα µε την ακολουθία επερώτησης στη γειτονική περιοχή του µοτίβου Μείωση των hits που δεν έχουν πραγµατική οµολογία µε την ακολουθία επερώτησης Σελίδα 39 Σελίδα 40 Ανταποδοτικό Ανταποδοτικό Best Reciprocal () Hit εύρεση ορθόλογων γονιδίων / πρωτεϊνών αναζήτηση µε την ακολουθία α του οργανισµού Α στις ακολουθίες του οργανισµού Β καλύτερο hit η ακολουθία β αναζήτηση µε την ακολουθία β του οργανισµού Β στις ακολουθίες του οργανισµού Α καλύτερο hit η ακολουθία α Οι ακολουθίες α και β είναι ορθόλογες. Σελίδα 41 Σελίδα 42

Ανταποδοτικό ιεπαφή κρίσιµες παράµετροι είδος φίλτρου: soft filtering vs hard filtering αλγόριθµος τελικής στοίχισης: vs Smith-Waterman τιµές κατωφλίου: E-value ή bit-score, µήκος στοίχισης σφάλµατα πρόσφατος εκτεταµένος γονιδιακός διπλασιασµός γονιδιακή σύντηξη domain rearrangements Σελίδα 43 Σελίδα 44 ιεπαφή ιεπαφή Σελίδα 45 Σελίδα 46 ιεπαφή ιεπαφή Σελίδα 47 Σελίδα 48

ιεπαφή Έλεγχος Αποτελεσµάτων οµοιότητα σε επαρκές µήκος των ακολουθιών υψηλό ποσοστό ταυτόσηµων καταλοίπων εµφάνιση χαρακτηριστικών δοµικών / λειτουργικών µοτίβων ποιότητα δεδοµένων στις βάσεις υποθετικά γονίδια Σελίδα 49 Σελίδα 50 servers FASTA http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml http://www.ebi.ac.uk/tools/sss/fasta/ http://blast.ncbi.nlm.nih.gov/ http://www.ebi.ac.uk/tools/sss/ncbiblast/ Sequence Similarity Searching http://www.ebi.ac.uk/tools/sss/ Σελίδα 51