ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ



Σχετικά έγγραφα
ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

LALING/PLALING :

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Μέθοδοι μελέτης εξέλιξης

Σηµειώσεις Βιοπληροφορικής

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Συγκριτική Γονιδιωματική

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Μέθοδοι Προσπέλασης για την Επεξεργασία Μεγάλων Βιολογικών Βάσεων Δεδομένων. Ανδρουλάκης Ανδρέας

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Φυλογένεση. 5o εργαστήριο

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Ειδικά Θέματα Βιοπληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

Ειδικά Θέματα Βιοπληροφορικής

ΜΕΛΕΤΗ ΜΕ ΥΠΟΛΟΓΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΑΝΘΡΩΠΙΝΗΣ ΠΡΩΤΕΪΝΗΣ GEMININB

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα 1 η : Εισαγωγή. Ηλίας Καππάς Τμήμα Βιολογίας

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΜΕΛΕΤΗ ΤΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Μοριακή Ανάλυση Φυτών

Λίγη εξέλιξη: οµολογία

Στοίχιση ανά ζεύγη Εισαγωγή

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

Προγνωστικές μέθοδοι με βάση αλληλουχίες DNA

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

Σύγκριση και κατηγοριοποίηση πρωτεϊνικών δομών

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Δ10. Συμπίεση Δεδομένων

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

ΒΙΟ Αρχές και Μέθοδοι Βιοπληροφορικής Ι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Transcript:

Αναζήτηση οµοιοτήτων ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ Σελίδα 1 εδοµένα Ακολουθία επερώτησης (query sequence) Ακολουθίες στη Βάση εδοµένων (subject sequences) Αναζήτηση Μέθοδοι δυναµικού προγραµµατισµού Πρακτικοί µόνο για "µικρά" προβλήµατα Ευριστικοί Αλγόριθµοι Γρήγορη αναζήτηση εν εγγυώνται την βέλτιστη στοίχιση FASTA (Lipman and Pearson, 1985) (Altschul et al, 1990) RGIKW IKWQPRSTW IKMQRHIKW DLFWHLWH IKMQRHIKW Αναζήτηση πρωτεϊνών Αναζήτηση οµοιοτήτων Περισσότερο ευαίσθητη για την εύρεση αποµακρυσµένων οµόλογων ακολουθιών Εκφυλισµός γενετικού κώδικα Συντηρητικές αντικαταστάσεις Αλφάβητο 20 γραµµάτων έναντι 4 για το DNA (στατιστική σηµαντικότητα στοιχίσεων) Πιο γρήγορη Αναζήτηση DNA Αναζήτηση οµοιοτήτων Περισσότερο ευαίσθητη όταν συγκρίνονται κοντινές εξελικτικά ακολουθίες Για µη κωδικοποιούσες ακολουθίες Εύρεση µεταλλάξεων πλαισίου ανάγνωσης (frameshift mutations) Σελίδα 3 Σελίδα 4 FASTA FASTA K-tuples (K-tup) tup): λέξεις µεγέθους k Για κάθε ακολουθία της Β αναγνώριση διαγωνίων ταύτισης βαθµολόγηση µε τη χρήση πίνακα αντικατάστασης και επιλογή των διαγωνίων µε το µεγαλύτερο score Για κάθε ακολουθία της Β Ένωση των διαγωνίων µε score µεγαλύτερο ενός κατωφλίου Χρήση δυναµικού προγραµµατισµού (banded Smith- Waterman) για τη βελτιστοποίηση της στοίχισης Σελίδα 5 Σελίδα 6

K-tuples (K-tup) πρωτεΐνες: 2-tuples DNA: 6-tuples FASTA η τίµη του k επηρεάζει την ευαισθησία και την ταχύτητα της αναζήτησης µεγάλη τιµή k µείωση λέξεων που ταυτίζονται αλλά δεν αντιστοιχούν σε πραγµατικές στοιχίσεις (background word hits) αύξηση ταχύτητας αλλά µείωση ευαισθησίας (sensitivity) neighborhood words Query: NKCKTPQGQRLVN, W=3, T=13 word PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 score Σελίδα 7 Σελίδα 8 Σελίδα 9 Σελίδα 10 words: όλες οι δυνατές λέξεις µεγέθους W πρωτεΐνες: 3 κατάλοιπα DNA: 11 κατάλοιπα δηµιουργία ευρετηρίου µε όλες τις λέξεις στις ακολουθίες της Β για κάθε λέξη της ακολουθίας επερώτησης εύρεση όλων των λέξεων (neighborhood words) που στοιχίζονται µαζί της µε score µεγαλύτερο ενός κατωφλίου (neighborhood score threshold, T) T χρησιµοποιώντας έναν πίνακα αντικατάστασης αναζήτηση των neighborhood words έναντι του προκατασκευασµένου πίνακα µε όλες τις λέξεις των ακολουθιών της Β επέκταση της στοίχισης µεταξύ της ακολουθίας επερώτησης και των ακολουθιών της Β για την αναγνώριση ενός High- scoring Segment Pair (HSP) τερµατισµός της επέκτασης όταν το score γίνει µικρότερο ενός προκαθορισµένου κατωφλίου µεγαλύτερο Τ µείωση των προσπαθειών εύρεσης HSPs αύξηση ταχύτητας αλλά µείωση ευαισθησίας Σελίδα 11 Σελίδα 12

two-hit Παρατηρήσεις Η επέκταση γύρω από τα seed words αποτελεί το 90% του χρόνου εκτέλεσης του. Τα HSP έχουν µεγαλύτερο µήκος και περιέχουν πολλές λέξεις µήκους W. two-hit Επέκταση µόνο όταν υπάρχουν δύο µη επικαλυπτόµενα ζεύγη λέξεων σε απόσταση µικρότερη από ένα κατώφλι µεταξύ τους. overlap > A < A extend! Σελίδα 13 Σελίδα 14 two-hit για να διατηρηθεί η ευαισθησία της αναζήτησης, απαιτείται µικρότερο T (neighborhood score threshold) περισσότερα hits αλλά µόνο ένα µικρό ποσοστό από αυτά σχετίζονται µε δεύτερο hit αύξηση της ταχύτητας Gapped two-hit για τη δηµιουργία ενός HSP επέκταση του HSP µε κενά, αν έχει score µεγαλύτερο ενός κατωφλίου S g Σελίδα 15 Σελίδα 16 Gapped Εφαρµογή φίλτρων Σελίδα 17 Σελίδα 18

Εφαρµογή φίλτρων επαναλήψεις περιοχές χαµηλής πολυπλοκότητας δηµιουργία στατιστικώς σηµαντικών στοιχίσεων, αλλά χωρίς βιολογικό νόηµα Soft filtering φιλτράρισµα µόνο στη φάση αναζήτησης Hard filtering φιλτράρισµα στη φάση αναζήτησης και στη φάση τελικής στοίχισης Έστω η στοίχιση δύο ακολουθιών µε score s. Η στοίχιση είναι τυχαία ή έχει βιολογικό νόηµα; Σελίδα 19 Σελίδα 20 Ολική Στοίχιση εν είναι γνωστή η κατανοµή των scores της στοίχισης τυχαία επιλεγµένων αλληλουχιών. ηµιουργία πολλών τυχαίων ακολουθιών ίδιου µήκους και αµινοξικής σύστασης. Υπολογισµός των scores s της στοίχισής τους. Υπολογισµός του Z-score. Z-score = (s-s)/sd s = µέση τιµή s sd = τυπική απόκλιση Ολική Στοίχιση Αν το Z-score είναι µικρό, η στοίχιση δεν είναι στατιστικώς σηµαντική. Σελίδα 21 Σελίδα 22 Τοπική στοίχιση χωρίς κενά Η βαθµολογία S των τυχαίων στοιχίσεων ακολουθεί την κατανοµή ακραίων τιµών (Extreme value distribution ή Gumbel). Τοπική στοίχιση χωρίς κενά P-value = P(S s) = 1 e -Kmneλs P-value πιθανότητα να προκύψει τυχαία στοίχιση µε βαθµολογία µεγαλύτερη ή ίση του s K, λ παράµετροι κατανοµής εξαρτώνται από σύστηµα βαθµολόγησης συχνότητες υποβάθρου m, n µήκη αλληλουχιών Σελίδα 23 Σελίδα 24

Τοπική στοίχιση χωρίς κενά E(S s) = Kmne -λs E(S s) πλήθος τυχαίων στοιχίσεων µε βαθµολογία µεγαλύτερη ή ίση του s λ S = s lnκ bit ln2 Sbit κανονικοποιηµένο score Συγκρίσιµα αποτελέσµατα που έχουν προκύψει από διαφορετικά συστήµατα βαθµολογίας Τοπική στοίχιση χωρίς κενά E-value = E(S bit s bit ) = mn2 -s bit E-value πλήθος τυχαίων στοιχίσεων µε βαθµολογία µεγαλύτερη ή ίση του s bit "Πραγµατική" στοίχιση: E-value 0 Για ακολουθίες µήκους > 100 κατάλοιπα Τύπος Ακολουθίας E-value Ταυτότητα Καταλοίπων Νουκλεοτιδική < 10-6 > 70% Αµινοξική < 10-4 > 25% Σελίδα 25 Σελίδα 26 Βάσεις εδοµένων του Βάσεις εδοµένων του Πρωτεϊνικές Β nr περιεκτική συλλογή αλληλουχιών χωρίς πλεονασµούς month nr µε τις αλληλουχίες των τελευταίων 30 ηµερών swissprot pdb αλληλουχίες της SWISS-PROT αλληλουχίες η δοµή των οποίων είναι κατατεθειµένη στην Protein Data Bank Νουκλεοτιδικές Β nr περιεκτική συλλογή αλληλουχιών χωρίς πλεονασµούς month nr µε τις αλληλουχίες των τελευταίων 30 ηµερών refseq_mrna αλληλουχίες mrna από το NCBI Reference Sequence Project refseq_genomic γενωµικές αλληλουχίες από το NCBI Reference Sequence Project Σελίδα 27 Σελίδα 28 Παραλλαγές του Παραλλαγές του Πρωτεϊνική ακολουθία blastp ακολουθία επερώτησης: πρωτεϊνική Β : πρωτεϊνική αναγνώριση κοινών περιοχών µεταξύ πρωτεϊνών εύρεση σχετιζόµενων ακολουθιών για φυλογενετική ανάλυση πρόβλεψη λειτουργίας Πρωτεϊνική ακολουθία tblastn ακολουθία επερώτησης: πρωτεϊνική Β : νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) εύρεση µη σχολιασµένων κωδικοποιουσών περιοχών σε Β.. χαρτογράφηση πρωτεϊνών σε γενωµικό DNA Σελίδα 29 Σελίδα 30

Νουκλεοτιδική ακολουθία blastn Παραλλαγές του ακολουθία επερώτησης: νουκλεοτιδική Β : νουκλεοτιδική για ακολουθίες µε µεγάλη οµοιότητα χαρτογράφηση ολιγονουκλεοτιδίων, cdnas και προϊόντων PCR σε ένα γονιδίωµα σχολιασµός γενωµικού DNA MegaBlast 10 ταχύτερο από blastn στοίχιση mrna µε γενωµικό DNA Νουκλεοτιδική ακολουθία blastx Παραλλαγές του ακολουθία επερώτησης: νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) Β : πρωτεϊνική εύρεση γονιδίων που κωδικοποιούν πρωτεΐνες σε γενωµικό DNA χρήσιµο όταν δεν είναι γνωστό το πλαίσιο ανάγνωσης ή υπάρχουν σφάλµατα στο πλαίσιο ανάγνωσης Σελίδα 31 Σελίδα 32 Παραλλαγές του Παραλλαγές του Νουκλεοτιδική ακολουθία tblastx ακολουθία επερώτησης: νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) Β : νουκλεοτιδική (µετάφραση στα 6 πλαίσια ανάγνωσης) αναζήτηση γονιδίων που δεν έχουν αναγνωριστεί µε τις συµβατικές µεθόδους υψηλές υπολογιστικές απαιτήσεις (6 6 blastp) PSI- (Position Specific Iterated ) PSSM (Position Specific Scoring Matrix) Πολλαπλή στοίχιση ακολουθιών και υπολογισµός ενός score που σχετίζεται µε τη συχνότητα εύρεσης κάθε καταλοίπου σε µία θέση της στοίχισης. Σελίδα 33 PSI- Παραλλαγές του 1. ιεξαγωγή µιας τυπικής αναζήτησης µε την ακολουθία επερώτησης και ένα πίνακα αντικατάστασης (π.χ. BLOSUM62) 2. Αυτόµατη δηµιουργία ενός PSSM από την πολλαπλή στοίχιση των καλύτερων hits της αρχικής αναζήτησης. 3. Το PSSM αντικαθιστά τον αρχικό πίνακα αντικατάστασης (π.χ. BLOSUM62) για την εκτέλεση µιας δεύτερης αναζήτησης. PSI- Παραλλαγές του 4. Επανάληψη των βηµάτων 2 και 3 και δηµιουργία νέων PSSM. 5. Σύγκλιση του PSI- όταν στην τελευταία επανάληψη δεν βρίσκονται νέες ακολουθίες. Σελίδα 35 Σελίδα 36

PSI- Παραλλαγές του PSI- επιτρέπει την εύρεση περισσότερο αποµακρυσµένων οµόλογων ακολουθιών σε σχέση µε το τυπικό. χρησιµοποιεί δύο τιµές κατωφλίου: threshold E-valueE για την αρχική αναζήτηση (τυπικά ίσο µε 10) inclusion E-valueE για τη συµµετοχή των ακολουθιών στη δηµιουργία του PSSM (τυπικά ίσο µε 0.001) PSI- Παραλλαγές του Αν χρησιµοποιηθούν εσφαλµένες ακολουθίες για τη δηµιουργία του PSSM, το σφάλµα θα ανατροφοδοτείται σε κάθε κύκλο. Το E-value δεν αντικατοπτρίζει την σηµαντικότητα της στοίχισης µε την αρχική ακολουθία. Σελίδα 37 Σελίδα 38 Παραλλαγές του Παραλλαγές του PHI- (Pattern - Hit Initiated ) µοτίβο (pattern) χαρακτηρίζει µια οικογένεια πρωτεϊνών π.χ. [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]- A-x-[LIVMA]-x-[STACV] PHI- εδοµένα εισόδου για την αναζήτηση: ακολουθία επερώτησης µοτίβο (regular expression) που υπάρχει στην ακολουθία επερώτησης Αναζήτηση ακολουθιών που περιέχουν το µοτίβο και έχουν οµοιότητα µε την ακολουθία επερώτησης στη γειτονική περιοχή του µοτίβου Μείωση των hits που δεν έχουν πραγµατική οµολογία µε την ακολουθία επερώτησης Σελίδα 39 Σελίδα 40 Ανταποδοτικό Ανταποδοτικό Best Reciprocal () Hit εύρεση ορθόλογων γονιδίων / πρωτεϊνών αναζήτηση µε την ακολουθία α του οργανισµού Α στις ακολουθίες του οργανισµού Β καλύτερο hit η ακολουθία β αναζήτηση µε την ακολουθία β του οργανισµού Β στις ακολουθίες του οργανισµού Α καλύτερο hit η ακολουθία α Οι ακολουθίες α και β είναι ορθόλογες. Σελίδα 41 Σελίδα 42

Ανταποδοτικό ιεπαφή κρίσιµες παράµετροι είδος φίλτρου: soft filtering vs hard filtering αλγόριθµος τελικής στοίχισης: vs Smith-Waterman τιµές κατωφλίου: E-value ή bit-score, µήκος στοίχισης σφάλµατα πρόσφατος εκτεταµένος γονιδιακός διπλασιασµός γονιδιακή σύντηξη domain rearrangements Σελίδα 43 Σελίδα 44 ιεπαφή ιεπαφή Σελίδα 45 Σελίδα 46 ιεπαφή ιεπαφή Σελίδα 47 Σελίδα 48

ιεπαφή Έλεγχος Αποτελεσµάτων οµοιότητα σε επαρκές µήκος των ακολουθιών υψηλό ποσοστό ταυτόσηµων καταλοίπων εµφάνιση χαρακτηριστικών δοµικών / λειτουργικών µοτίβων ποιότητα δεδοµένων στις βάσεις υποθετικά γονίδια Σελίδα 49 Σελίδα 50 servers FASTA http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml http://www.ebi.ac.uk/tools/sss/fasta/ http://blast.ncbi.nlm.nih.gov/ http://www.ebi.ac.uk/tools/sss/ncbiblast/ Sequence Similarity Searching http://www.ebi.ac.uk/tools/sss/ Σελίδα 51