ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Σχετικά έγγραφα
ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Στοίχιση Ακολουθιών. Μέθοδοι σύγκρισης ακολουθιών. Είδος στοίχισης. match. gap. mismatch

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

LALING/PLALING :

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Μέθοδοι μελέτης εξέλιξης

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

Συγκριτική Γονιδιωματική

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 3 η : Πολλαπλή ευθυγράμμιση. Σ. Γκέλης Τμήμα Βιολογίας

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών.

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Ειδικά Θέματα Βιοπληροφορικής

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Στοίχιση ανά ζεύγη Εισαγωγή

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Σηµειώσεις Βιοπληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΠΑΡΑΛΛΗΛΗ ΕΠΕΞΕΡΓΑΣΙΑ

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική. Πίνακες Αντικατάστασης & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Κεφάλαιο 4. Σύγκριση Αλληλουχιών. Στοιχίσεις και Ταχείες Αναζητήσεις

ΜΕΛΕΤΗ ΜΕ ΥΠΟΛΟΓΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΑΝΘΡΩΠΙΝΗΣ ΠΡΩΤΕΪΝΗΣ GEMININB

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

A sequence alignment algorithm using the transition quantity

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Αρχιτεκτονική και Υλο οίηση σε Αναδιατασσόµενη Λογική του Αλγορίθµου T-Coffee για συνένωση κοµµατιών DNA

Εφαρμοσμένη Βιοτεχνολογία Σημειώσεις. Νίκος Τσουκιάς Σχολή Χημικών Μηχανικών ΕΜΠ

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 6: Σύγκριση αλληλουχιών Part I

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Αρχές Δοµικής Βιοπληροφορικής Πρωτεϊνών

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Σύγκριση και κατηγοριοποίηση πρωτεϊνικών δομών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Σηµειώσεις Βιοπληροφορικής

Φυλογένεση. 5o εργαστήριο

Ειδικά Θέματα Βιοπληροφορικής

Βιοπληροφορική. Ενότητα 21: Υπολογιστικός Προσδιορισμός Δομής (3/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Υλοποίηση και Βελτιστοποίηση του Αλγορίθμου Smith - Waterman σε Πολυπύρηνους Επεξεργαστές και Πολυνηματικούς Επεξεργαστές Γραφικών

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Transcript:

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων ΕΙΣΑΓΩΓΗ Ένας από τους πρωταρχικούς στόχους της σύγκρισης των ακολουθιών δύο µακροµορίων είναι η εκτίµηση της οµοιότητάς τους και η εξαγωγή συµπερασµάτων σχετικά µε το αν είναι οµόλογες ή όχι. Η οµοιότητα (similarity) είναι µία παρατηρήσιµη ποσότητα που µπορεί να εκφρασθεί ως το ποσοστό των ταυτόσηµων καταλοίπων µεταξύ δύο ακολουθιών ή µε τη χρήση κάποιου άλλου κατάλληλου µέτρου. Η οµολογία (homology) αναφέρεται στο συµπέρασµα που προκύπτει από την ανάλυση των δεδοµένων ότι δύο γονίδια / πρωτεΐνες έχουν κοινή εξελικτική ιστορία, ότι απέκλιναν δηλαδή από µία κοινή προγονική ακολουθία µέσω αντικαταστάσεων (substitutions), ενθέσεων (insertions) και διαγραφών (deletions). Σ αύτη την περίπτωση, ενδέχεται να έχουν κοινή δοµή και λειτουργία. Σχήµα 1. Παράδειγµα στοίχισης ακολουθιών. Για τα ταυτόσηµα κατάλοιπα αναγράφονται τα αντίστοιχα γράµµατα, ενώ οι συντηρητικές αντικαταστάσεις συµβολίζονται µε + και τα κενά µε -. Η ευρύτερα χρησιµοποιούµενη τεχνική σύγκρισης είναι η στοίχιση ή ευθυγράµµιση των ακολουθιών (sequence alignment), η αντιστοίχιση δηλαδή των καταλοίπων των δύο ακολουθιών. Σε κάθε ευθυγράµµιση, οι υπό σύγκριση ακολουθίες τοποθετούνται η µία κάτω από την άλλη, έτσι ώστε ταυτόσηµα κατάλοιπα να βρίσκονται στην ίδια στήλη (matches). Στην ιδανική περίπτωση που η ευθυγράµµιση απεικονίζει την εξελικτική ιστορία δύο γονιδίων ή πρωτεϊνών, τα κατάλοιπα που έχουν στοιχηθεί αλλά δεν είναι ταυτόσηµα (mismatches) αντιπροσωπεύουν τις αντικαταστάσεις. Περιοχές όπου τα κατάλοιπα της µιας ακολουθίας δεν στοιχίζονται µε κατάλοιπα της άλλης ερµηνεύονται ως ενθέσεις στη µία ακολουθία ή διαγραφές στην άλλη. Αυτά τα κενά (gaps) συνήθως αναπαριστάνονται στη στοίχιση ως διαδοχικές παύλες (ή µε κάποιο άλλο χαρακτήρα) ευθυγραµµισµένες µε τα σύµβολα των καταλοίπων (σχήµα 1). Η πρόκληση στην ανά ζεύγη ευθυγράµµιση ακολουθιών είναι η εύρεση της βέλτιστης στοίχισης, η οποία συνήθως καθορίζεται βάσει ενός score που αντανακλά τα ταυτόσηµα κατάλοιπα, τις αντικαταστάσεις και τον αριθµό και το µήκος των εισαγόµενων κενών. Η βέλτιστη στοίχιση ενδέχεται να µην είναι µοναδική: διαφορετικές στοιχίσεις µπορεί να έχουν το ίδιο βέλτιστο score. Επιπλέον, ακόµα και µικρές 1

αλλαγές στο σύστηµα βαθµολόγησης (scoring system) ενδέχεται να αλλάξουν τη βέλτιστη στοίχιση. Σχήµα 2. Ολική (Global) έναντι Τοπικής (Local) Στοίχισης. Η στοίχιση δύο ακολουθιών µπορεί να είναι ολική ή τοπική (σχήµα 2). Η ολική στοίχιση (global alignment) αποτελεί µία προσπάθεια ευθυγράµµισης δύο ακολουθιών µε τη στοίχιση όσο το δυνατόν περισσότερων χαρακτήρων καθ όλο το µήκος τους. Η ολική στοίχιση βασίζεται στο συνολικό score, ακόµα και σε βάρος τµηµάτων των ακολουθιών που έχουν προφανή οµοιότητα. Ωστόσο, πολλές πρωτεΐνες δεν παρουσιάζουν οµοιότητες καθ όλο το µήκος τους αλλά µόνο κατά µήκος αυτοτελών περιοχών (domains), γεγονός που δεν λαµβάνεται υπόψη στην ολική στοίχιση. Στην τοπική στοίχιση (local alignment), επιδιώκεται η ευθυγράµµιση υπακολουθιών µε υψηλό score οµοιότητας, οι οποίες περιβάλλονται από µη σχετιζόµενα κατάλοιπα. Σχήµα 3. Αντιστοιχία πινάκων αντικατάστασης PAM και BLOSUM. Ορισµένα αµινοξέα µπορούν να αντικαταστήσουν κάποια άλλα µε παρόµοιες φυσικοχηµικές ιδιότητες σε συγγενείς πρωτεΐνες, χωρίς να καταστρέψουν τη δοµή και λειτουργία τους (συντηρητικές αντικαταστάσεις / conservative substitutions). Κατά τον υπολογισµό του score οµοιότητας µιας ευθυγράµµισης, θα πρέπει να αποδίδεται µεγαλύτερο score στη στοίχιση ταυτόσηµων αµινοξέων σε σχέση µε τις αντικαταστάσεις, αλλά και στις συντηρητικές έναντι των µη συντηρητικών αντικαταστάσεων. Παράλληλα, ευνοείται η χρήση διαφορετικών τιµών για τη στοίχιση εξελικτικά κοντινών ή αποµακρυσµένων ακολουθιών. Οι προαναφερθέντες παράγοντες οδήγησαν στη δηµιουργία πινάκων αντικατάστασης (substitution matrices) που περιέχουν τα scores 2

για τη στοίχιση όλων των ανά δύο καταλοίπων. ύο από τις δηµοφιλέστερες οικογένειες πινάκων αντικατάστασης είναι οι πίνακες PAM (Percent Accepted Mutation) και BLOSUM (Blocks Amino Acid Substitution Matrix) (σχήµα 3). Η εισαγωγή κενών στην ευθυγράµµιση συνοδεύεται συνήθως από µείωση του score οµοιότητας, προκειµένου τα κενά να εισάγονται µόνο όταν είναι απαραίτητα. Το ευρύτερα χρησιµοποιούµενο µοντέλο ποινών είναι το affine gap penalty, όπου το κόστος για το άνοιγµα ενός κενού σε µία ακολουθία (gap opening penalty) είναι διαφορετικό από το κόστος για την επέκταση ενός κενού που έχει ήδη ανοίξει (gap extension penalty). Συνήθως η gap opening penalty είναι πολύ µεγαλύτερη, γεγονός που αντανακλά την τάση οι ενθέσεις και οι διαγραφές να συµβαίνουν σε διαδοχικά κατάλοιπα. Η επιλογή των παραµέτρων για τις ποινές των κενών είναι εµπειρική και εξαρτάται στενά από τον πίνακα αντικατάστασης που χρησιµοποιείται για τη στοίχιση των ακολουθιών. Έτσι, το εµπειρικά καθορισµένο βέλτιστο ζεύγος για τις παραµέτρους gap opening & extension penalties για έναν πίνακα αντικατάστασης δεν είναι κατ ανάγκη αποτελεσµατικό για έναν άλλο πίνακα. Σχήµα 4. Παράδειγµα στοίχισης ακολουθιών µε τη χρήση διαγράµµατα πινάκων σηµείων (dot plots). Μία από τις απλούστερες τεχνικές στοίχισης δύο ακολουθιών είναι τα διαγράµµατα πινάκων σηµείων (dot plots), στα οποία σχηµατίζονται διαγώνιες γραµµές κατά µήκος των περιοχών οµοιότητας των ακολουθιών (σχήµα 4). Οι αλγόριθµοι δυναµικού προγραµµατισµού βασίζονται στην αρχή "διαίρει και βασίλευε" και εγγυώνται την εύρεση της βέλτιστης στοίχισης των ακολουθιών για το συγκεκριµένο σύστηµα βαθµολόγησης. Ο κλασικός αλγόριθµος δυναµικού προγραµµατισµού για την ολική στοίχιση δύο ακολουθιών είναι ο αλγόριθµος Needleman-Wunsch, ενώ για την τοπική στοίχιση είναι ο αλγόριθµος Smith-Waterman. εδοµένου ότι οι αλγόριθµοι δυναµικού προγραµµατισµού έχουν υψηλές υπολογιστικές απαιτήσεις, έχουν αναπτυχθεί ευριστικές µέθοδοι στοίχισης, οι οποίες βρίσκουν λύσεις σε συντοµότερο χρονικό διάστηµα. Οι δηµοφιλέστερες από αυτές είναι οι αλγόριθµοι BLAST και FASTA που αναζητούν µικρές περιοχές (λέξεις - words) µε υψηλό score οµοιότητας µεταξύ των ακολουθιών και στη συνέχεια τις επεκτείνουν σε τοπικές στοιχίσεις. 3

ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΑΣΚΗΣΗΣ Α. Σύγκριση αποτελεσµάτων διαφορετικών προγραµµάτων στοίχισης ακολουθιών Μεταβείτε στις ιστοσελίδες που ακολουθούν και στοιχίστε τις πρωτεϊνικές αλληλουχίες των αρχείων glutaredoxin3_human.fasta και glutaredoxin3_ecoli.fasta, χρησιµοποιώντας τις προκαθορισµένες παραµέτρους. EMBOSS Needle (http://www.ebi.ac.uk/tools/psa/emboss_needle/) EMBOSS Water (http://www.ebi.ac.uk/tools/psa/emboss_water/) BLAST (http://blast.ncbi.nlm.nih.gov/) (Ακολουθήστε τους συνδέσµους για protein blast και επιλέξτε Align two or more sequences.) Παρατηρήστε τις στοιχίσεις και για κάθε µία από αυτές, καταγράψτε το ποσοστό των ταυτόσηµων καταλοίπων και τον αριθµό των αµινοξέων που έχουν στοιχηθεί. Υπάρχουν διαφορές; Σχολιάστε τα αποτελέσµατα λαµβάνοντας υπόψη το είδος της στοίχισης και τον αλγόριθµο που χρησιµοποιεί κάθε πρόγραµµα. Β. Στοίχιση αµινοξικών και νουκλεοτιδικών ακολουθιών Χρησιµοποιώντας το πρόγραµµα EMBOSS Needle, στοιχίστε τις νουκλεοτιδικές ακολουθίες των αρχείων DHFR_nt_human.fasta και DHFR_nt_ecoli.fasta. Στη συνέχεια στοιχίστε τις αντίστοιχες αµινοξικές ακολουθίες των αρχείων DHFR_aa_human.fasta και DHFR_aa_ecoli.fasta. Καταγράψτε το ποσοστό των ταυτόσηµων καταλοίπων και συγκρίνετε τις δύο στοιχίσεις. Γ. Σύγκριση αποτελεσµάτων στοίχισης ακολουθιών µε διαφορετικές ποινές για τα κενά Χρησιµοποιώντας το πρόγραµµα EMBOSS Needle, στοιχίστε τις αµινοξικές ακολουθίες των αρχείων DHFR_aa_human.fasta και DHFR_aa_ecoli.fasta αλλάζοντας τις ποινές για τα κενά (gap opening penalty και gap extension penalty). Συγκρίνετε τις στοιχίσεις µε την ευθυγράµµιση που προκύπτει από τη δοµική υπέρθεση των πρωτεϊνών (σχήµα 5) και καταγράψτε τον αριθµό των ταυτόσηµων καταλοίπων και τον αριθµό των κενών στον ακόλουθο πίνακα. Σχολιάστε πως επηρεάζεται η στοίχιση από την αλλαγή των ποινών για τα κενά. 4

gap extension penalty gap opening penalty 1 10 20 50 0.0005 0.5 10 D_HUM vgslncivavsqnmgigkngdlpwpplrnefryfqrmtttssvegkqnlvimgkktwfsi ident D_ECO --MISLIAALAVDRVIGMENAM-PFNLPADLAWFKRNTL-------DKPVIMGRHTWESI D_HUM PeknRPLKGRINLVLSRELkEPPQGAhFLSRSLDDALKLTEqpelanKVDMVWIVGGSSV ident D_ECO G---RPLPGRKNIILSSQP-GTDDRV-TWVKSVDEAIAACG------DVPEIMVIGGGRV D_HUM YKEAMNHpghLKLFVTRIMQDFESDTFFPEIDLEKYKLLPeypgvlSDVQEE---KGIKY ident D_ECO YEQFLPK--aQKLYLTHIDAEVEGDTHFPDYEPDDWESVF------SEFHDAdaqNSHSY D_HUM KFEVYEKNd ident D_ECO CFEILERR- Σχήµα 5. Ευθυγράµµιση των ακολουθιών DHFR_aa_human.fasta και DHFR_aa_ecoli.fasta που προκύπτει από τη δοµική υπέρθεση των πρωτεϊνών. 5