ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Σχετικά έγγραφα
ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

LALING/PLALING :

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Μέθοδοι μελέτης εξέλιξης

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

Σηµειώσεις Βιοπληροφορικής

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Συγκριτική Γονιδιωματική

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Μέθοδοι Προσπέλασης για την Επεξεργασία Μεγάλων Βιολογικών Βάσεων Δεδομένων. Ανδρουλάκης Ανδρέας

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Φυλογένεση. 5o εργαστήριο

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Ειδικά Θέματα Βιοπληροφορικής

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Ειδικά Θέματα Βιοπληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Λίγη εξέλιξη: οµολογία

ΜΕΛΕΤΗ ΤΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Δ10. Συμπίεση Δεδομένων

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Στοίχιση ανά ζεύγη Εισαγωγή

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα 1 η : Εισαγωγή. Ηλίας Καππάς Τμήμα Βιολογίας

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

Ασκήσεις 3& 4. Πρωτεϊνική Αρχιτεκτονική. Πλατφόρμες Πρόβλεψης & Προσομοίωσης 2ταγούς Δομής. Μοριακή Απεικόνιση

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

ΜΕΛΕΤΗ ΜΕ ΥΠΟΛΟΓΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΑΝΘΡΩΠΙΝΗΣ ΠΡΩΤΕΪΝΗΣ GEMININB

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

Μοριακή Ανάλυση Φυτών

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Γ. Πειραματισμός Βιομετρία

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

Transcript:

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ Σελίδα 1

Αναζήτηση ομοιοτήτων Δεδομένα Ακολουθία επερώτησης (query sequence) Ακολουθίες στη Βάση Δεδομένων (subject sequences) Αναζήτηση Μέθοδοι δυναμικού προγραμματισμού Πρακτικοί μόνο για "μικρά" προβλήματα Ευριστικοί Αλγόριθμοι Γρήγορη αναζήτηση Δεν εγγυώνται την βέλτιστη στοίχιση FASTA (Lipman and Pearson, 1985) BLAST (Altschul et al, 1990) RGIKW IKWQPRSTW IKMQRHIKW DLFWHLWH IKMQRHIKW

Αναζήτηση ομοιοτήτων Αναζήτηση πρωτεϊνών Περισσότερο ευαίσθητη για την εύρεση απομακρυσμένων ομόλογων ακολουθιών Εκφυλισμός γενετικού κώδικα Συντηρητικές αντικαταστάσεις Αλφάβητο 20 γραμμάτων έναντι 4 για το DNA (στατιστική σημαντικότητα στοιχίσεων) Πιο γρήγορη Σελίδα 3

Αναζήτηση ομοιοτήτων Αναζήτηση DNA Περισσότερο ευαίσθητη όταν συγκρίνονται κοντινές εξελικτικά ακολουθίες Για μη κωδικοποιούσες ακολουθίες Εύρεση μεταλλάξεων πλαισίου ανάγνωσης (frameshift mutations) Σελίδα 4

FASTA K-tuples (K-tup): λέξεις μεγέθους k Για κάθε ακολουθία της ΒΔ αναγνώριση διαγωνίων ταύτισης βαθμολόγηση με τη χρήση πίνακα αντικατάστασης και επιλογή των διαγωνίων με το μεγαλύτερο score Σελίδα 5

FASTA Για κάθε ακολουθία της ΒΔ Ένωση των διαγωνίων με score μεγαλύτερο ενός κατωφλίου Χρήση δυναμικού προγραμματισμού (banded Smith- Waterman) για τη βελτιστοποίηση της στοίχισης Σελίδα 6

FASTA K-tuples (K-tup) πρωτεΐνες: 2-tuples DNA: 6-tuples η τίμη του k επηρεάζει την ευαισθησία και την ταχύτητα της αναζήτησης μεγάλη τιμή k μείωση λέξεων που ταυτίζονται αλλά δεν αντιστοιχούν σε πραγματικές στοιχίσεις (background word hits) αύξηση ταχύτητας αλλά μείωση ευαισθησίας (sensitivity) Σελίδα 7

neighborhood words BLAST Query: NKCKTPQGQRLVN, W=3, T=13 word score PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 Σελίδα 8

BLAST Σελίδα 9

BLAST Σελίδα 10

BLAST words: όλες οι δυνατές λέξεις μεγέθους W πρωτεΐνες: 3 κατάλοιπα DNA: 11 κατάλοιπα δημιουργία ευρετηρίου με όλες τις λέξεις στις ακολουθίες της ΒΔ για κάθε λέξη της ακολουθίας επερώτησης εύρεση όλων των λέξεων (neighborhood words) που στοιχίζονται μαζί της με score μεγαλύτερο ενός κατωφλίου (neighborhood score threshold, T) χρησιμοποιώντας έναν πίνακα αντικατάστασης Σελίδα 11

BLAST αναζήτηση των neighborhood words έναντι του προκατασκευασμένου πίνακα με όλες τις λέξεις των ακολουθιών της ΒΔ επέκταση της στοίχισης μεταξύ της ακολουθίας επερώτησης και των ακολουθιών της ΒΔ για την αναγνώριση ενός Highscoring Segment Pair (HSP) τερματισμός της επέκτασης όταν το score γίνει μικρότερο ενός προκαθορισμένου κατωφλίου μεγαλύτερο Τ μείωση των προσπαθειών εύρεσης HSPs αύξηση ταχύτητας αλλά μείωση ευαισθησίας Σελίδα 12

BLAST two-hit BLAST Παρατηρήσεις Η επέκταση γύρω από τα seed words αποτελεί το 90% του χρόνου εκτέλεσης του BLAST. Τα HSP έχουν μεγαλύτερο μήκος και περιέχουν πολλές λέξεις μήκους W. Σελίδα 13

BLAST two-hit BLAST Επέκταση μόνο όταν υπάρχουν δύο μη επικαλυπτόμενα ζεύγη λέξεων σε απόσταση μικρότερη από ένα κατώφλι μεταξύ τους. overlap > A < A extend! Σελίδα 14

BLAST two-hit BLAST για να διατηρηθεί η ευαισθησία της αναζήτησης, απαιτείται μικρότερο T (neighborhood score threshold) περισσότερα hits αλλά μόνο ένα μικρό ποσοστό από αυτά σχετίζονται με δεύτερο hit αύξηση της ταχύτητας Σελίδα 15

BLAST Gapped BLAST two-hit BLAST για τη δημιουργία ενός HSP επέκταση του HSP με κενά, αν έχει score μεγαλύτερο ενός κατωφλίου S g Σελίδα 16

BLAST Gapped BLAST Σελίδα 17

BLAST Εφαρμογή φίλτρων Σελίδα 18

BLAST Εφαρμογή φίλτρων επαναλήψεις περιοχές χαμηλής πολυπλοκότητας δημιουργία στατιστικώς σημαντικών στοιχίσεων, αλλά χωρίς βιολογικό νόημα Soft filtering φιλτράρισμα μόνο στη φάση αναζήτησης Hard filtering φιλτράρισμα στη φάση αναζήτησης και στη φάση τελικής στοίχισης Σελίδα 19

Στατιστική Σημαντικότητα Έστω η στοίχιση δύο ακολουθιών με score s. Η στοίχιση είναι τυχαία ή έχει βιολογικό νόημα; Σελίδα 20

Στατιστική Σημαντικότητα Ολική Στοίχιση Δεν είναι γνωστή η κατανομή των scores της στοίχισης τυχαία επιλεγμένων αλληλουχιών. Δημιουργία πολλών τυχαίων ακολουθιών ίδιου μήκους και αμινοξικής σύστασης. Υπολογισμός των scores s της στοίχισής τους. Υπολογισμός του Z-score. Z-score = (s-s)/sd s = μέση τιμή s sd = τυπική απόκλιση Σελίδα 21

Στατιστική Σημαντικότητα Ολική Στοίχιση Αν το Z-score είναι μικρό, η στοίχιση δεν είναι στατιστικώς σημαντική. Σελίδα 22

Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά Η βαθμολογία S των τυχαίων στοιχίσεων ακολουθεί την κατανομή ακραίων τιμών (Extreme value distribution ή Gumbel). Σελίδα 23

Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά P-value = P(S s) = 1 e -Kmneλs P-value πιθανότητα να προκύψει τυχαία στοίχιση με βαθμολογία μεγαλύτερη ή ίση του s K, λ παράμετροι κατανομής εξαρτώνται από σύστημα βαθμολόγησης συχνότητες υποβάθρου m, n μήκη αλληλουχιών Σελίδα 24

Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά E(S s) = Kmne -λs E(S s) πλήθος τυχαίων στοιχίσεων με βαθμολογία μεγαλύτερη ή ίση του s s ln S bit ln2 Sbit κανονικοποιημένο score Συγκρίσιμα αποτελέσματα που έχουν προκύψει από διαφορετικά συστήματα βαθμολογίας Σελίδα 25

Στατιστική Σημαντικότητα Τοπική στοίχιση χωρίς κενά E-value = E(S bit s bit ) = mn2 -s bit E-value πλήθος τυχαίων στοιχίσεων με βαθμολογία μεγαλύτερη ή ίση του s bit "Πραγματική" στοίχιση: E-value 0 Για ακολουθίες μήκους > 100 κατάλοιπα Τύπος Ακολουθίας E-value Ταυτότητα Καταλοίπων Νουκλεοτιδική < 10-6 > 70% Αμινοξική < 10-4 > 25% Σελίδα 26

Πρωτεϊνικές ΒΔ nr Βάσεις Δεδομένων του BLAST περιεκτική συλλογή αλληλουχιών χωρίς πλεονασμούς month nr με τις αλληλουχίες των τελευταίων 30 ημερών swissprot pdb αλληλουχίες της SWISS-PROT αλληλουχίες η δομή των οποίων είναι κατατεθειμένη στην Protein Data Bank Σελίδα 27

Νουκλεοτιδικές ΒΔ nr Βάσεις Δεδομένων του BLAST περιεκτική συλλογή αλληλουχιών χωρίς πλεονασμούς month nr με τις αλληλουχίες των τελευταίων 30 ημερών refseq_mrna αλληλουχίες mrna από το NCBI Reference Sequence Project refseq_genomic γενωμικές αλληλουχίες από το NCBI Reference Sequence Project Σελίδα 28

Παραλλαγές του BLAST Πρωτεϊνική ακολουθία blastp ακολουθία επερώτησης: πρωτεϊνική ΒΔ: πρωτεϊνική αναγνώριση κοινών περιοχών μεταξύ πρωτεϊνών εύρεση σχετιζόμενων ακολουθιών για φυλογενετική ανάλυση πρόβλεψη λειτουργίας Σελίδα 29

Παραλλαγές του BLAST Πρωτεϊνική ακολουθία tblastn ακολουθία επερώτησης: πρωτεϊνική ΒΔ: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) εύρεση μη σχολιασμένων κωδικοποιουσών περιοχών σε Β.Δ. χαρτογράφηση πρωτεϊνών σε γενωμικό DNA Σελίδα 30

Νουκλεοτιδική ακολουθία blastn Παραλλαγές του BLAST ακολουθία επερώτησης: νουκλεοτιδική ΒΔ: νουκλεοτιδική για ακολουθίες με μεγάλη ομοιότητα χαρτογράφηση ολιγονουκλεοτιδίων, cdnas και προϊόντων PCR σε ένα γονιδίωμα σχολιασμός γενωμικού DNA MegaBlast 10 ταχύτερο από blastn στοίχιση mrna με γενωμικό DNA Σελίδα 31

Παραλλαγές του BLAST Νουκλεοτιδική ακολουθία blastx ακολουθία επερώτησης: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) ΒΔ: πρωτεϊνική εύρεση γονιδίων που κωδικοποιούν πρωτεΐνες σε γενωμικό DNA χρήσιμο όταν δεν είναι γνωστό το πλαίσιο ανάγνωσης ή υπάρχουν σφάλματα στο πλαίσιο ανάγνωσης Σελίδα 32

Παραλλαγές του BLAST Νουκλεοτιδική ακολουθία tblastx ακολουθία επερώτησης: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) ΒΔ: νουκλεοτιδική (μετάφραση στα 6 πλαίσια ανάγνωσης) αναζήτηση γονιδίων που δεν έχουν αναγνωριστεί με τις συμβατικές μεθόδους υψηλές υπολογιστικές απαιτήσεις (6 6 blastp) Σελίδα 33

Παραλλαγές του BLAST PSI-BLAST (Position Specific Iterated BLAST) PSSM (Position Specific Scoring Matrix) Πολλαπλή στοίχιση ακολουθιών και υπολογισμός ενός score που σχετίζεται με τη συχνότητα εύρεσης κάθε καταλοίπου σε μία θέση της στοίχισης.

Παραλλαγές του BLAST PSI-BLAST 1. Διεξαγωγή μιας τυπικής αναζήτησης BLAST με την ακολουθία επερώτησης και ένα πίνακα αντικατάστασης (π.χ. BLOSUM62) 2. Αυτόματη δημιουργία ενός PSSM από την πολλαπλή στοίχιση των καλύτερων hits της αρχικής αναζήτησης. 3. Το PSSM αντικαθιστά τον αρχικό πίνακα αντικατάστασης (π.χ. BLOSUM62) για την εκτέλεση μιας δεύτερης αναζήτησης BLAST. Σελίδα 35

Παραλλαγές του BLAST PSI-BLAST 4. Επανάληψη των βημάτων 2 και 3 και δημιουργία νέων PSSM. 5. Σύγκλιση του PSI-BLAST όταν στην τελευταία επανάληψη δεν βρίσκονται νέες ακολουθίες. Σελίδα 36

Παραλλαγές του BLAST PSI-BLAST PSI-BLAST επιτρέπει την εύρεση περισσότερο απομακρυσμένων ομόλογων ακολουθιών σε σχέση με το τυπικό BLAST. χρησιμοποιεί δύο τιμές κατωφλίου: threshold E-value για την αρχική αναζήτηση BLAST (τυπικά ίσο με 10) inclusion E-value για τη συμμετοχή των ακολουθιών στη δημιουργία του PSSM (τυπικά ίσο με 0.001) Σελίδα 37

Παραλλαγές του BLAST PSI-BLAST Αν χρησιμοποιηθούν εσφαλμένες ακολουθίες για τη δημιουργία του PSSM, το σφάλμα θα ανατροφοδοτείται σε κάθε κύκλο. Το E-value δεν αντικατοπτρίζει την σημαντικότητα της στοίχισης με την αρχική ακολουθία. Σελίδα 38

Παραλλαγές του BLAST PHI- BLAST (Pattern - Hit Initiated BLAST) μοτίβο (pattern) χαρακτηρίζει μια οικογένεια πρωτεϊνών π.χ. [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]- A-x-[LIVMA]-x-[STACV] Σελίδα 39

Παραλλαγές του BLAST PHI- BLAST Δεδομένα εισόδου για την αναζήτηση: ακολουθία επερώτησης μοτίβο (regular expression) που υπάρχει στην ακολουθία επερώτησης Αναζήτηση ακολουθιών που περιέχουν το μοτίβο και έχουν ομοιότητα με την ακολουθία επερώτησης στη γειτονική περιοχή του μοτίβου Μείωση των hits που δεν έχουν πραγματική ομολογία με την ακολουθία επερώτησης Σελίδα 40

Best Reciprocal (BLAST) Hit Ανταποδοτικό BLAST Σελίδα 41

Ανταποδοτικό BLAST εύρεση ορθόλογων γονιδίων / πρωτεϊνών αναζήτηση BLAST με την ακολουθία α του οργανισμού Α στις ακολουθίες του οργανισμού Β καλύτερο hit η ακολουθία β αναζήτηση BLAST με την ακολουθία β του οργανισμού Β στις ακολουθίες του οργανισμού Α καλύτερο hit η ακολουθία α Οι ακολουθίες α και β είναι ορθόλογες. Σελίδα 42

Ανταποδοτικό BLAST κρίσιμες παράμετροι είδος φίλτρου: soft filtering vs hard filtering αλγόριθμος τελικής στοίχισης: BLAST vs Smith-Waterman τιμές κατωφλίου: E-value ή bit-score, μήκος στοίχισης σφάλματα πρόσφατος εκτεταμένος γονιδιακός διπλασιασμός γονιδιακή σύντηξη domain rearrangements Σελίδα 43

Διεπαφή BLAST Σελίδα 44

Διεπαφή BLAST Σελίδα 45

Διεπαφή BLAST Σελίδα 46

Διεπαφή BLAST Σελίδα 47

Διεπαφή BLAST Σελίδα 48

Διεπαφή BLAST Σελίδα 49

Έλεγχος Αποτελεσμάτων οµοιότητα σε επαρκές µήκος των ακολουθιών υψηλό ποσοστό ταυτόσηµων καταλοίπων εµφάνιση χαρακτηριστικών δοµικών / λειτουργικών µοτίβων ποιότητα δεδομένων στις βάσεις υποθετικά γονίδια Σελίδα 50

FASTA servers http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml http://www.ebi.ac.uk/tools/sss/fasta/ BLAST https://blast.ncbi.nlm.nih.gov/blast.cgi http://www.ebi.ac.uk/tools/sss/ncbiblast/ Sequence Similarity Searching http://www.ebi.ac.uk/tools/sss/ Σελίδα 51