ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Σχετικά έγγραφα
ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

LALING/PLALING :

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Μέθοδοι μελέτης εξέλιξης

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

Συγκριτική Γονιδιωματική

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Ειδικά Θέματα Βιοπληροφορικής

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα 1 η : Εισαγωγή. Ηλίας Καππάς Τμήμα Βιολογίας

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

ΜΕΛΕΤΗ ΤΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Μέθοδοι Προσπέλασης για την Επεξεργασία Μεγάλων Βιολογικών Βάσεων Δεδομένων. Ανδρουλάκης Ανδρέας

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Φυλογένεση. 5o εργαστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Ειδικά Θέματα Βιοπληροφορικής

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

ΚεφάΠαιο 4 ΤεχνοΠογία ίου ανασυνουασμένου DNA

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

Μεθοδολογία Ασκήσεων ΚΕΦ. 2ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Σηµειώσεις Βιοπληροφορικής

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

ΑΣΚΗΣΕΙΣ ΣΤΟ ΔΕΥΤΕΡΟ ΚΕΦΑΛΑΙΟ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 3 η : Πολλαπλή ευθυγράμμιση. Σ. Γκέλης Τμήμα Βιολογίας

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

ΒΙΟ Αρχές και Μέθοδοι Βιοπληροφορικής Ι

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΚΡΙΤΗΡΙΟ ΑΞΙΟΛΟΓΗΣΗΣ ΣΤΗ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΞΕΤΑΣΤΕΑ ΥΛΗ: ΚΕΦΑΛΑΙΑ 1, 2, 4, 5

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Transcript:

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΕΙΣΑΓΩΓΗ Η αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών (database similarity searching) αποτελεί µια από τις συχνότερα χρησιµοποιούµενες υπολογιστικές τεχνικές στη σύγχρονη βιολογία, καθώς επιτρέπει τη σύγκριση µιας ακολουθίας επερώτησης (query sequence) µε όλες τις αλληλουχίες των βάσεων δεδοµένων (subject sequences) µε στόχο την µελέτη της δοµής, της λειτουργίας και της εξέλιξης των γονιδίων και των πρωτεϊνών. Τα περισσότερα προγράµµατα αναζήτησης οµοιοτήτων στηρίζονται σε τεχνικές στοίχισης ακολουθιών. εδοµένης της εκρηκτικής αύξησης των αλληλουχιών, η στοίχιση της ακολουθίας ενδιαφέροντος µε όλες τις ακολουθίες µιας Β.. µε τη χρήση δυναµικού προγραµµατισµού είναι πρακτικά ανέφικτη. Εποµένως είναι απαραίτητη η ανάπτυξη κατάλληλων τεχνικών για την αποδοτική και ευαίσθητη αναζήτηση στις Β.. ύο από τα δηµοφιλέστερα προγράµµατα αυτής της κατηγορίας είναι το BLAST και το FastA. Σχήµα 1. Αλγόριθµος BLAST. Λέξεις µήκους W µε score µεγαλύτερο ή ίσο µε T επεκτείνονται προς τις δύο κατευθύνσεις, όσο το score παραµένει µεγαλύτερο από S, για τη δηµιουργία των Highscoring Segment Pairs. Ο αλγόριθµος BLAST (σχήµα 1), αποτελείται από τρία βασικά βήµατα. Σε πρώτη φάση, δηµιουργείται µία λίστα µε όλες τις µικρές ακολουθίες (λέξεις - words) µε score οµοιότητας µεγαλύτερο ενός κατωφλίου T κατά τη στοίχισή τους µε την ακολουθία επερώτησης µε τη χρήση 1

ενός πίνακα αντικατάστασης. Στη συνέχεια, αναζητούνται οι λέξεις αυτές στις ακολουθίες της Β.. και εκείνες που ταιριάζουν επεκτείνονται σε τοπικές στοιχίσεις χωρίς κενά µεταξύ της ακολουθίας επερώτησης και της ακολουθίας της Β.. Η επέκταση συνεχίζεται όσο το score της ευθυγράµµισης είναι µεγαλύτερο ενός κατωφλίου S. Οι στοιχίσεις µε το µεγαλύτερο score για µια ακολουθία (High-scoring Segment Pairs, HSPs) συνδυάζονται, όπου αυτό είναι εφικτό, σε τοπικές στοιχίσεις. Αν και αρχικά το BLAST αναζητούσε µόνο στοιχίσεις χωρίς κενά (ungapped alignments), νεότερες εκδόσεις του αναζητούν στοιχίσεις µε κενά (gapped alignments). Μία αναζήτηση οµοιοτήτων σε Β.. ακολουθιών µπορεί να δηµιουργήσει εκατοντάδες υποψήφιες στοιχίσεις, κάποιες από τις οποίες ενδέχεται να αφορούν στοιχίσεις µεταξύ µη σχετιζόµενων αλληλουχιών. Το BLAST παρέχει τρεις παραµέτρους για την αξιολόγηση των αποτελεσµάτων: raw scores, bit scores και E-values. Το raw score µιας τοπικής στοίχισης είναι το άθροισµα των scores των HSPs που παράγουν τη στοίχιση. Εξαιτίας διαφορών στους πίνακες αντικατάστασης και τις ποινές για τα κενά, τα raw scores δεν είναι άµεσα συγκρίσιµα. Τα bit scores είναι raw scores που έχουν µετατραπεί από τη λογαριθµική βάση του πίνακα αντικατάστασης στη λογαριθµική βάση του 2. Tο E-value υποδεικνύει τον αριθµό των στοιχίσεων µε score µεγαλύτερο ή ίσο του παρατηρούµενου που αναµένεται να προκύψουν κατά τύχη και αναφέρεται συχνότερα από τις δύο προηγούµενες παραµέτρους στη βιβλιογραφία. Όσο µικρότερο είναι το E-value, τόσο πιο στατιστικά σηµαντική είναι η στοίχιση. Πίνακας 1. Παραλλαγές του BLAST. Πρόγραµµα Υπό εξέταση Βάση Σχόλια ακολουθία εδοµένων BLASTP πρωτεϊνική πρωτεϊνική αναγνώριση κοινών περιοχών µεταξύ πρωτεϊνών / εύρεση σχετιζόµενων ακολουθιών για φυλογενετική ανάλυση BLASTN νουκλεοτιδική νουκλεοτιδική χαρτογράφηση ολιγονουκλεοτιδίων, cdnas και προϊόντων PCR σε ένα γονιδίωµα / σχολιασµός γενοµικού DNA BLASTX νουκλεοτιδική πρωτεϊνική εύρεση γονιδίων που κωδικοποιούν πρωτεϊνες σε γενοµικό DNA / έλεγχος αν ένα cdna αντιστοιχεί σε γνωστή πρωτεΐνη TBLASTN πρωτεϊνική νουκλεοτιδική εύρεση µη σχολιασµένων κωδικοποιουσών περιοχών σε Β.. / χαρτογράφηση πρωτεϊνών σε γενοµικό DNA TBLASTX νουκλεοτιδική νουκλεοτιδική αναζήτηση γονιδίων που δεν έχουν αναγνωριστεί µε τις συµβατικές µεθόδους PSI-BLAST πρωτεϊνική πρωτεϊνική επαναληπτική διαδικασία στοίχισης όπου ένας Position- Specific Scoring Matrix (PSSM) που δηµιουργείται από σηµαντικές ευθυγραµµίσεις στην επανάληψη i χρησιµοποιείται στην επανάληψη i+1 / περισσότερο ευαίσθητο σε ασθενείς αλλά βιολογικά σηµαντικές στοιχίσεις PHI-BLAST πρωτεϊνική πρωτεϊνική χρήση πρωτεϊνικών µοτίβων (π.χ. PROSITE ) για την αύξηση της πιθανότητας εύρεσης βιολογικά σηµαντικών στοιχίσεων 2

Υπάρχουν διάφορες παραλλαγές του BLAST που χρησιµοποιούνται για τη σύγκριση ακολουθιών DNA ή πρωτεϊνών (Πίνακας 1). Αν επιδιώκεται η στοίχιση αµινοξικών και νουκλεοτιδικών ακολουθιών, οι αλληλουχίες DNA µεταφράζονται από το πρόγραµµα και στα 6 πλαίσια ανάγνωσης και στη συνέχεια συγκρίνονται µε τις ακολουθίες πρωτεϊνών. Όλες οι παραλλαγές του BLAST χρησιµοποιούν βάσεις δεδοµένων εγκατεστηµένες σε server machines, γεγονός που εξαλείφει την ανάγκη εγκατάστασης και ενηµέρωσης τοπικών Β.. Για τις συνήθεις αναζητήσεις, η Β.. nr παρέχει µία περιεκτική συλλογή αµινοξικών και νουκλεοτιδικών αλληλουχιών χωρίς πλεονασµούς (redundancy reduced) µε τη συγχώνευση ταυτόσηµων ακολουθιών. Σχήµα 2. Position-Specific Scoring Matrix (PSSM) Μετά την πολλαπλή στοίχιση των ακολουθιών, γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων στην κάθε θέση και εφαρµόζονται κατάλληλοι µετασχηµατισµοί για τη δηµιουργία του PSSM. Το PSI-BLAST (Position-Specific Iterated PSI BLAST) είναι ιδιαίτερα χρήσιµο για την αναγνώριση εξελικτικά αποµακρυσµένων πρωτεϊνών, καθώς και νέων µελών µιας πρωτεϊνικής οικογένειας. Αρχικά το PSI-BLAST εκτελεί µία απλή BLASTp αναζήτηση και δηµιουργεί ένα PSSM από τις ακολουθίες µε E-value καλύτερο (χαµηλότερο) του inclusion threshold (τυπικά ίσο µε 0.005). Ακολουθεί δεύτερη αναζήτηση στη Β.. χρησιµοποιώντας το PSSM της πρώτης αναζήτησης και οι νέες ακολουθίες που βρίσκονται µε E-value καλύτερο του κατωφλίου συµµετέχουν στη δηµιουργία ενός νέου PSSM. Η διαδικασία επαναλαµβάνεται όσο βρίσκονται νέες ακολουθίες µε E-value καλύτερο της τιµής κατωφλίου. ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΑΣΚΗΣΗΣ Α. Μεταβείτε στην ιστοσελίδα του BLAST (http://blast.ncbi.nlm.nih.gov/blast.cgi) και αναζητήστε οµόλογες πρωτεΐνες της Signal recognition particle 54 kda protein (SRP54) του ποντικού (αρχείο P14576_Srp54_mouse.fasta) στον οργανισµό Escherichia coli, χρησιµοποιώντας ως Β.. την swissprot. 1. Ποια από τις παραλλαγές του BLAST θα χρησιµοποιήσετε; 3

2. Αναγνωρίστε τα συντηρηµένα domains στην πρωτεΐνη. 3. Για το καλύτερο αποτέλεσµα του BLAST (blast hit): I. Καταγράψτε το όνοµα και τον κωδικό της πρωτεΐνης, το ποσοστό των ταυτόσηµων καταλοίπων, το ποσοστό των κενών, το µήκος της στοίχισης καθώς και το E-value. II. Ανακτήστε την ακολουθία της πρωτεΐνης αυτής και χρησιµοποιήστε την για µία νέα αναζήτηση BLAST, προκειµένου να εντοπίσετε οµόλογες αλληλουχίες στον οργανισµό Mus musculus. Το καλύτερο αποτέλεσµα της νέας αναζήτησης είναι η αρχική ακολουθία SRP54; 4. Σχολιάστε την εξελικτική σχέση µεταξύ των δύο πρωτεϊνών. Β. Αναζητείστε οµόλογες νουκλεοτιδικές ακολουθίες της SRP54 του ποντικού στον οργανισµό Escherichia coli, χρησιµοποιώντας το mrna από το αρχείο X16319_Srp54_mouse.fasta και τη Β.. nr. Συγκρίνετε τα αποτελέσµατα του blastn και του blastx και σχολιάστε. Γ. Αναζητείστε οµόλογες ακολουθίες της P09331_eta_staphyl.fasta χρησιµοποιώντας το PSI- BLAST (4 κύκλους / επαναλήψεις) και τη Β.. swissprot, θέτοντας το Max target sequences ίσο µε 1000 και το Expect threshold ίσο µε 0.005. 1. Για κάθε επανάληψη ακολουθείστε το σύνδεσµο στο Taxonomy reports και συµπληρώστε τον παρακάτω πίνακα µε το συνολικό αριθµό των οργανισµών, τα hits ανά βασίλειο και το E-value της πρωτεΐνης µε κωδικό P09331. iteration organisms bacteria eukaryota viruses P09331 E-value 1 2 3 4 2. Ανακτήστε από τα αποτελέσµατα της 4ης επανάληψης του PSI-BLAST τη στοίχιση της πρωτεΐνης µε κωδικό P35031 και καταγράψτε το E-value και το ποσοστό των ταυτόσηµων καταλοίπων. Με ποια αµινοξέα της ακολουθίας επερώτησης (Query sequence) στοιχίζονται τα κατάλοιπα του ενεργού κέντρου της P35031 (Sbjct sequence) (H60, D104 και S196); Προχωρήστε σε µία απλή αναζήτηση BLASTp έναντι της Β.. swissprot χρησιµοποιώντας τις προεπιλεγµένες παραµέτρους. Υπάρχει η πρωτεΐνη µε κωδικό P35031 στα αποτελέσµατά σας; Σχολιάστε. 4

ΠΑΡΑΡΤΗΜΑ Σχήµα 3. Παράµετροι BLAST (Ι) Η ακολουθία επερώτησης εισάγεται σε µορφή FASTA, ως κωδικός αριθµός (accession number) ή µε το άνοιγµα ενός αποθηκευµένου αρχείου. Ο χρήστης µπορεί να επιλέξει τη Β.. έναντι της οποίας θα γίνει η αναζήτηση, κάποιον συγκεκριµένο οργανισµό καθώς και το πρόγραµµα BLAST που θα εκτελεστεί. Σχήµα 4. Παράµετροι BLAST (ΙΙ) Επιλογή της τιµής κατωφλίου για το E-value (Expect threshold), του µεγέθους της λέξης (Word size), του πίνακα αντικατάστασης (Matrix) και των ποινών για τα 5

κενά (Gap Costs). Εφαρµογή φίλτρου χαµηλής πολυπλοκότητας (Filter) για την εξαίρεση από την ανάλυση περιοχών µε επαναλήψεις, οι οποίες µπορούν να ευθυγραµµιστούν µε τις ακολουθίες επερώτησης τυχαία, χωρίς να έχουν πραγµατική εξελικτική σχέση µε αυτές. Σχήµα 5. Αποτελέσµατα αναζήτησης συντηρηµένων περιοχών (conserved domains) και γραφική αναπαράσταση των καλύτερων στοιχίσεων. Σχήµα 6. Συνοπτική περιγραφή των αποτελεσµάτων 6

Σχήµα 7. Στοίχιση BLAST. Η αξιολόγηση µιας στοίχισης γίνεται βάσει του ποσοστού των ταυτόσηµων καταλοίπων (identities), των συντηρητικών αντικαταστάσεων (positives) και των κενών (gaps), βάσει της στατιστικής σηµαντικότητας (expect), αλλά και του µήκους των αλληλουχιών που έχουν ευθυγραµµιστεί. 7