ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ Σελίδα 1
Αναζήτηση ομοιοτήτων Δεδομένα Ακολουθία επερώτησης (query sequence) Ακολουθίες στη Βάση Δεδομένων (subject sequences) Αναζήτηση Μέθοδοι δυναμικού προγραμματισμού Πρακτικοί μόνο για "μικρά" προβλήματα Ευριστικοί Αλγόριθμοι Γρήγορη αναζήτηση Δεν εγγυώνται την βέλτιστη στοίχιση FASTA (Lipman and Pearson, 1985) BLAST (Altschul et al, 1990) RGIKW IKWQPRSTW IKMQRHIKW DLFWHLWH IKMQRHIKW
Αναζήτηση ομοιοτήτων Αναζήτηση πρωτεϊνών Περισσότερο ευαίσθητη για την εύρεση απομακρυσμένων ομόλογων ακολουθιών Εκφυλισμός γενετικού κώδικα Συντηρητικές αντικαταστάσεις Αλφάβητο 20 γραμμάτων έναντι 4 για το DNA (στατιστική σημαντικότητα στοιχίσεων) Πιο γρήγορη Σελίδα 3
Αναζήτηση ομοιοτήτων Αναζήτηση DNA Περισσότερο ευαίσθητη όταν συγκρίνονται κοντινές εξελικτικά ακολουθίες Για μη κωδικοποιούσες ακολουθίες Εύρεση μεταλλάξεων πλαισίου ανάγνωσης (frameshift mutations) Σελίδα 4
FASTA K-tuples (K-tup): λέξεις μεγέθους k Για κάθε ακολουθία της ΒΔ αναγνώριση διαγωνίων ταύτισης βαθμολόγηση με τη χρήση πίνακα αντικατάστασης και επιλογή των διαγωνίων με το μεγαλύτερο score Σελίδα 5
FASTA Για κάθε ακολουθία της ΒΔ Ένωση των διαγωνίων με score μεγαλύτερο ενός κατωφλίου Χρήση δυναμικού προγραμματισμού (banded Smith- Waterman) για τη βελτιστοποίηση της στοίχισης Σελίδα 6
FASTA K-tuples (K-tup) πρωτεΐνες: 2-tuples DNA: 6-tuples η τίμη του k επηρεάζει την ευαισθησία και την ταχύτητα της αναζήτησης μεγάλη τιμή k μείωση λέξεων που ταυτίζονται αλλά δεν αντιστοιχούν σε πραγματικές στοιχίσεις (background word hits) αύξηση ταχύτητας αλλά μείωση ευαισθησίας (sensitivity) Σελίδα 7
neighborhood words BLAST Query: NKCKTPQGQRLVN, W=3, T=13 word score PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 Σελίδα 8
BLAST Σελίδα 9
BLAST Σελίδα 10
BLAST words: όλες οι δυνατές λέξεις μεγέθους W πρωτεΐνες: 3 κατάλοιπα DNA: 11 κατάλοιπα δημιουργία ευρετηρίου με όλες τις λέξεις στις ακολουθίες της ΒΔ για κάθε λέξη της ακολουθίας επερώτησης εύρεση όλων των λέξεων (neighborhood words) που στοιχίζονται μαζί της με score μεγαλύτερο ενός κατωφλίου (neighborhood score threshold, T) χρησιμοποιώντας έναν πίνακα αντικατάστασης Σελίδα 11
BLAST αναζήτηση των neighborhood words έναντι του προκατασκευασμένου πίνακα με όλες τις λέξεις των ακολουθιών της ΒΔ επέκταση της στοίχισης μεταξύ της ακολουθίας επερώτησης και των ακολουθιών της ΒΔ για την αναγνώριση ενός Highscoring Segment Pair (HSP) τερματισμός της επέκτασης όταν το score γίνει μικρότερο ενός προκαθορισμένου κατωφλίου μεγαλύτερο Τ μείωση των προσπαθειών εύρεσης HSPs αύξηση ταχύτητας αλλά μείωση ευαισθησίας Σελίδα 12
BLAST two-hit BLAST Παρατηρήσεις Η επέκταση γύρω από τα seed words αποτελεί το 90% του χρόνου εκτέλεσης του BLAST. Τα HSP έχουν μεγαλύτερο μήκος και περιέχουν πολλές λέξεις μήκους W. Σελίδα 13
BLAST two-hit BLAST Επέκταση μόνο όταν υπάρχουν δύο μη επικαλυπτόμενα ζεύγη λέξεων σε απόσταση μικρότερη από ένα κατώφλι μεταξύ τους. overlap > A < A extend! Σελίδα 14
BLAST two-hit BLAST για να διατηρηθεί η ευαισθησία της αναζήτησης, απαιτείται μικρότερο T (neighborhood score threshold) περισσότερα hits αλλά μόνο ένα μικρό ποσοστό από αυτά σχετίζονται με δεύτερο hit αύξηση της ταχύτητας Σελίδα 15
BLAST Gapped BLAST two-hit BLAST για τη δημιουργία ενός HSP επέκταση του HSP με κενά, αν έχει score μεγαλύτερο ενός κατωφλίου S g Σελίδα 16
BLAST Gapped BLAST Σελίδα 17
BLAST Εφαρμογή φίλτρων Σελίδα 18
BLAST Εφαρμογή φίλτρων επαναλήψεις περιοχές χαμηλής πολυπλοκότητας δημιουργία στατιστικώς σημαντικών στοιχίσεων, αλλά χωρίς βιολογικό νόημα Soft filtering φιλτράρισμα μόνο στη φάση αναζήτησης Hard filtering φιλτράρισμα στη φάση αναζήτησης και στη φάση τελικής στοίχισης Σελίδα 19
Στατιστική Σημαντικότητα Έστω η στοίχιση δύο ακολουθιών με score s. Η στοίχιση είναι τυχαία ή έχει βιολογικό νόημα; Σελίδα 20
Στατιστική Σημαντικότητα Ολική Στοίχιση Δεν είναι γνωστή η κατανομή των scores της στοίχισης τυχαία επιλεγμένων αλληλουχιών. Δημιουργία πολλών τυχαίων ακολουθιών ίδιου μήκους και αμινοξικής σύστασης. Υπολογισμός των scores s της στοίχισής τους. Υπολογισμός του Z-score. Z-score = (s-s)/sd s = μέση τιμή s sd = τυπική απόκλιση Σελίδα 21
Στατιστική Σημαντικότητα Ολική Στοίχιση Αν το Z-score είναι μικρό, η στοίχιση δεν είναι στατιστικώς σημαντική. Σελίδα 22
Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά Η βαθμολογία S των τυχαίων στοιχίσεων ακολουθεί την κατανομή ακραίων τιμών (Extreme value distribution ή Gumbel). Σελίδα 23
Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά P-value = P(S s) = 1 e -Kmneλs P-value πιθανότητα να προκύψει τυχαία στοίχιση με βαθμολογία μεγαλύτερη ή ίση του s K, λ παράμετροι κατανομής εξαρτώνται από σύστημα βαθμολόγησης συχνότητες υποβάθρου m, n μήκη αλληλουχιών Σελίδα 24
Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά E(S s) = Kmne -λs E(S s) πλήθος τυχαίων στοιχίσεων με βαθμολογία μεγαλύτερη ή ίση του s s ln S bit ln2 Sbit κανονικοποιημένο score Συγκρίσιμα αποτελέσματα που έχουν προκύψει από διαφορετικά συστήματα βαθμολογίας Σελίδα 25
Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά E-value = E(S bit s bit ) = mn2 -s bit E-value πλήθος τυχαίων στοιχίσεων με βαθμολογία μεγαλύτερη ή ίση του s bit "Πραγματική" στοίχιση: E-value 0 Για ακολουθίες μήκους > 100 κατάλοιπα Τύπος Ακολουθίας E-value Ταυτότητα Καταλοίπων Νουκλεοτιδική < 10-6 > 70% Αμινοξική < 10-4 > 25% Σελίδα 26
Πρωτεϊνικές ΒΔ nr Βάσεις Δεδομένων του BLAST περιεκτική συλλογή αλληλουχιών χωρίς πλεονασμούς month nr με τις αλληλουχίες των τελευταίων 30 ημερών swissprot pdb αλληλουχίες της SWISS-PROT αλληλουχίες η δομή των οποίων είναι κατατεθειμένη στην Protein Data Bank Σελίδα 27
Νουκλεοτιδικές ΒΔ nr Βάσεις Δεδομένων του BLAST περιεκτική συλλογή αλληλουχιών χωρίς πλεονασμούς month nr με τις αλληλουχίες των τελευταίων 30 ημερών refseq_mrna αλληλουχίες mrna από το NCBI Reference Sequence Project refseq_genomic γενωμικές αλληλουχίες από το NCBI Reference Sequence Project Σελίδα 28
Παραλλαγές του BLAST Πρωτεϊνική ακολουθία blastp ακολουθία επερώτησης: πρωτεϊνική ΒΔ: πρωτεϊνική αναγνώριση κοινών περιοχών μεταξύ πρωτεϊνών εύρεση σχετιζόμενων ακολουθιών για φυλογενετική ανάλυση πρόβλεψη λειτουργίας Σελίδα 29
Παραλλαγές του BLAST Πρωτεϊνική ακολουθία tblastn ακολουθία επερώτησης: πρωτεϊνική ΒΔ: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) εύρεση μη σχολιασμένων κωδικοποιουσών περιοχών σε Β.Δ. χαρτογράφηση πρωτεϊνών σε γενωμικό DNA Σελίδα 30
Νουκλεοτιδική ακολουθία blastn Παραλλαγές του BLAST ακολουθία επερώτησης: νουκλεοτιδική ΒΔ: νουκλεοτιδική για ακολουθίες με μεγάλη ομοιότητα χαρτογράφηση ολιγονουκλεοτιδίων, cdnas και προϊόντων PCR σε ένα γονιδίωμα σχολιασμός γενωμικού DNA MegaBlast 10 ταχύτερο από blastn στοίχιση mrna με γενωμικό DNA Σελίδα 31
Παραλλαγές του BLAST Νουκλεοτιδική ακολουθία blastx ακολουθία επερώτησης: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) ΒΔ: πρωτεϊνική εύρεση γονιδίων που κωδικοποιούν πρωτεΐνες σε γενωμικό DNA χρήσιμο όταν δεν είναι γνωστό το πλαίσιο ανάγνωσης ή υπάρχουν σφάλματα στο πλαίσιο ανάγνωσης Σελίδα 32
Παραλλαγές του BLAST Νουκλεοτιδική ακολουθία tblastx ακολουθία επερώτησης: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) ΒΔ: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) αναζήτηση γονιδίων που δεν έχουν αναγνωριστεί με τις συμβατικές μεθόδους υψηλές υπολογιστικές απαιτήσεις (6 6 blastp) Σελίδα 33
Παραλλαγές του BLAST PSI-BLAST (Position Specific Iterated BLAST) PSSM (Position Specific Scoring Matrix) Πολλαπλή στοίχιση ακολουθιών και υπολογισμός ενός score που σχετίζεται με τη συχνότητα εύρεσης κάθε καταλοίπου σε μία θέση της στοίχισης.
Παραλλαγές του BLAST PSI-BLAST 1. Διεξαγωγή μιας τυπικής αναζήτησης BLAST με την ακολουθία επερώτησης και ένα πίνακα αντικατάστασης (π.χ. BLOSUM62) 2. Αυτόματη δημιουργία ενός PSSM από την πολλαπλή στοίχιση των καλύτερων hits της αρχικής αναζήτησης. 3. Το PSSM αντικαθιστά τον αρχικό πίνακα αντικατάστασης (π.χ. BLOSUM62) για την εκτέλεση μιας δεύτερης αναζήτησης BLAST. Σελίδα 35
Παραλλαγές του BLAST PSI-BLAST 4. Επανάληψη των βημάτων 2 και 3 και δημιουργία νέων PSSM. 5. Σύγκλιση του PSI-BLAST όταν στην τελευταία επανάληψη δεν βρίσκονται νέες ακολουθίες. Σελίδα 36
Παραλλαγές του BLAST PSI-BLAST PSI-BLAST επιτρέπει την εύρεση περισσότερο απομακρυσμένων ομόλογων ακολουθιών σε σχέση με το τυπικό BLAST. χρησιμοποιεί δύο τιμές κατωφλίου: threshold E-value για την αρχική αναζήτηση BLAST (τυπικά ίσο με 10) inclusion E-value για τη συμμετοχή των ακολουθιών στη δημιουργία του PSSM (τυπικά ίσο με 0.001) Σελίδα 37
Παραλλαγές του BLAST PSI-BLAST Αν χρησιμοποιηθούν εσφαλμένες ακολουθίες για τη δημιουργία του PSSM, το σφάλμα θα ανατροφοδοτείται σε κάθε κύκλο. Το E-value δεν αντικατοπτρίζει την σημαντικότητα της στοίχισης με την αρχική ακολουθία. Σελίδα 38
Παραλλαγές του BLAST PHI- BLAST (Pattern - Hit Initiated BLAST) μοτίβο (pattern) χαρακτηρίζει μια οικογένεια πρωτεϊνών π.χ. [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]- A-x-[LIVMA]-x-[STACV] Σελίδα 39
Παραλλαγές του BLAST PHI- BLAST Δεδομένα εισόδου για την αναζήτηση: ακολουθία επερώτησης μοτίβο (regular expression) που υπάρχει στην ακολουθία επερώτησης Αναζήτηση ακολουθιών που περιέχουν το μοτίβο και έχουν ομοιότητα με την ακολουθία επερώτησης στη γειτονική περιοχή του μοτίβου Μείωση των hits που δεν έχουν πραγματική ομολογία με την ακολουθία επερώτησης Σελίδα 40
Best Reciprocal (BLAST) Hit Ανταποδοτικό BLAST Σελίδα 41
Ανταποδοτικό BLAST εύρεση ορθόλογων γονιδίων / πρωτεϊνών αναζήτηση BLAST με την ακολουθία α του οργανισμού Α στις ακολουθίες του οργανισμού Β καλύτερο hit η ακολουθία β αναζήτηση BLAST με την ακολουθία β του οργανισμού Β στις ακολουθίες του οργανισμού Α καλύτερο hit η ακολουθία α Οι ακολουθίες α και β είναι ορθόλογες. Σελίδα 42
Ανταποδοτικό BLAST κρίσιμες παράμετροι είδος φίλτρου: soft filtering vs hard filtering αλγόριθμος τελικής στοίχισης: BLAST vs Smith-Waterman τιμές κατωφλίου: E-value ή bit-score, μήκος στοίχισης σφάλματα πρόσφατος εκτεταμένος γονιδιακός διπλασιασμός γονιδιακή σύντηξη domain rearrangements Σελίδα 43
Διεπαφή BLAST Σελίδα 44
Διεπαφή BLAST Σελίδα 45
Διεπαφή BLAST Σελίδα 46
Διεπαφή BLAST Σελίδα 47
Διεπαφή BLAST Σελίδα 48
Διεπαφή BLAST Σελίδα 49
Έλεγχος Αποτελεσμάτων οµοιότητα σε επαρκές µήκος των ακολουθιών υψηλό ποσοστό ταυτόσηµων καταλοίπων εµφάνιση χαρακτηριστικών δοµικών / λειτουργικών µοτίβων ποιότητα δεδομένων στις βάσεις υποθετικά γονίδια Σελίδα 50
FASTA servers http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml http://www.ebi.ac.uk/tools/sss/fasta/ BLAST https://blast.ncbi.nlm.nih.gov/blast.cgi http://www.ebi.ac.uk/tools/sss/ncbiblast/ Sequence Similarity Searching http://www.ebi.ac.uk/tools/sss/ Σελίδα 51