ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Σχετικά έγγραφα
Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Στοίχιση Ακολουθιών. Μέθοδοι σύγκρισης ακολουθιών. Είδος στοίχισης. match. gap. mismatch

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

LALING/PLALING :

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Μέθοδοι μελέτης εξέλιξης

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Σηµειώσεις Βιοπληροφορικής

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Στοίχιση ανά ζεύγη Εισαγωγή

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

Ειδικά Θέματα Βιοπληροφορικής

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Συγκριτική Γονιδιωματική

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Κεφάλαιο 4. Σύγκριση Αλληλουχιών. Στοιχίσεις και Ταχείες Αναζητήσεις

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 6: Σύγκριση αλληλουχιών Part I

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών.

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 3 η : Πολλαπλή ευθυγράμμιση. Σ. Γκέλης Τμήμα Βιολογίας

ΜΕΛΕΤΗ ΜΕ ΥΠΟΛΟΓΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΑΝΘΡΩΠΙΝΗΣ ΠΡΩΤΕΪΝΗΣ GEMININB

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Φυλογένεση. 5o εργαστήριο

Λίγη εξέλιξη: οµολογία

A sequence alignment algorithm using the transition quantity

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

Κεφάλαιο 3 Αλγόριθμοι Στοίχισης Αλληλουχιών

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Βιοπληροφορική. Πίνακες Αντικατάστασης & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Επιδίωρθωση Βλαβών στο DNA Πεφάνη Δάφνη Επίκουρη καθηγήτρια, Εργαστήριο Βιολογίας

Ασκήσεις 3& 4. Πρωτεϊνική Αρχιτεκτονική. Πλατφόρμες Πρόβλεψης & Προσομοίωσης 2ταγούς Δομής. Μοριακή Απεικόνιση

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΡΟΒΛΗΜΑ ΔΙΑΓΩΝΙΟΥ. Εξετάζουμε ενδεικτικά ορισμένες περιπτώσεις: 1 ο 2 ο. 3 ο 4 ο

ΠΑΡΑΛΛΗΛΗ ΕΠΕΞΕΡΓΑΣΙΑ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Μέθοδος μέγιστης πιθανοφάνειας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Ειδικά Θέματα Βιοπληροφορικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Outline. 6 Edit Distance

ΕΙΔΙΚΟΤΗΤΑ: ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Αλληλουχίες βιολογικών µακροµορίων Δοµή, λειτουργία, εξέλιξη

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. 2. Δομή νουκλεϊκών οξέων. Φωσφοδιεστερικός δεσμός

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

Διαγώνισμα Βιολογίας Προσανατολισμού Γ Λυκείου

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ - ΕΣΠΕΡΙΝΩΝ

Περιεχόμενα. 1 Η ιστορία της εξελικτικής βιολογίας: Εξέλιξη και Γενετική 2 Η Προέλευση της Μοριακής Βιολογίας 3 Αποδείξεις για την εξέλιξη 89

Transcript:

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ Σελίδα 1

Ομολογία Σελίδα 2

Ομολογία Ομολογία κοινή εξελικτική καταγωγή Ορθόλογα γονίδια ειδογένεση συνήθως, ίδια βιολογική λειτουργία Παράλογα γονίδια γονιδιακός διπλασιασμός εξελικτικό "εργαλείο" ανάπτυξης διαφοροποιημένων λειτουργιών Σελίδα 3

Ομολογία Σελίδα 4

Ομολογία (homology) Ομολογία / Ομοιότητα κοινή εξελικτική καταγωγή Ομοιότητα (similarity) παρατηρήσιμη ποσότητα που μπορεί να εκφρασθεί ως το ποσοστό των ταυτόσημων καταλοίπων μεταξύ δύο ακολουθιών ή με τη χρήση κάποιου άλλου κατάλληλου μέτρου Η υψηλή οµοιότητα σε επίπεδο ακολουθίας αποτελεί ένδειξη κοινής εξελικτικής καταγωγής - ομολογίας. Σελίδα 5

Ομοιότητα Η µελέτη των οµοιοτήτων σε επίπεδο ακολουθίας μπορεί να δώσει πληροφορίες: για την εξελικτική σχέση των ακολουθιών των βιοµακροµορίων που παρατηρούνται στους σύγχρονους οργανισµούς για τις περιοχές των ακολουθιών οι οποίες είναι σηµαντικές για τη δομή και τη λειτουργία τους Σελίδα 6

Μέθοδοι σύγκρισης ακολουθιών Τεχνικές που βασίζονται στη στοίχιση των ακολουθιών Η σύγκριση δύο ακολουθιών μπορεί να γίνει µε τη στοίχισή τους και τον υπολογισµό κάποιου µέτρου οµοιότητας (ή διαφοράς) µε βάση τη δεδοµένη στοίχιση. Τεχνικές που δεν βασίζονται στη στοίχιση των ακολουθιών Σελίδα 7

Στοίχιση Ακολουθιών απόκλιση από κοινό προγονικό µόριο μέσω: αντικαταστάσεων (substitutions), π.χ. G στη θέση του A indels ενθέσεων (insertions), π.χ. εισαγωγή του A μεταξύ των M και V διαγραφών (deletions), π.χ. απαλοιφή του L μεταξύ των I και Y AAVILYMV προγονικό µόριο AGVILYMV AGVILYMAV AGVIYMAV Σελίδα 8

Σε μία "ιδανική" στοίχιση: Στοίχιση Ακολουθιών Η αντιστοίχιση ανόμοιων καταλοίπων (mismatch) αντιπροσωπεύει αντικαταστάσεις. Η εισαγωγή κενών (gap) οφείλεται σε ενθέσεις ή διαγραφές. S-S match S1 HFCGGSLINEQWVVSAGHC HFCG S NE AGHC S2 HFCGASIYNENYA-TAGHC gap mismatch Σελίδα 9

Στοίχιση Ακολουθιών Δεδομένα δύο ακολουθίες ένα σύστημα βαθμολόγησης της στοίχισης: όμοιων καταλοίπων (match score) ανόμοιων καταλοίπων (mismatch score) ενός καταλοίπου με κενό (ποινή για τα κενά, gap penalty) Ζητούμενο εύρεση της βέλτιστης στοίχισης των δύο ακολουθιών που διατηρεί τη σειρά των χαρακτήρων εισάγει τα απαραίτητα κενά μεγιστοποιεί το συνολικό score ομοιότητας Σελίδα 10

Στοίχιση Ακολουθιών επιλογές είδος στοίχισης σύστηµα βαθµολόγησης (scoring system) αλγόριθµος για τον προσδιορισµό της στοίχισης στατιστικές µέθοδοι για την αξιολόγηση της σηµαντικότητας της βαθµολογίας (score) που προέκυψε κατά τη στοίχιση π.χ. είναι η ομοιότητα αρκετά υψηλή ώστε να αποτελεί ένδειξη ομολογίας??? Σελίδα 11

Είδος στοίχισης Σελίδα 12

Είδος στοίχισης Ολική στοίχιση (global alignment) στοίχιση όσο το δυνατόν περισσότερων χαρακτήρων καθ όλο το μήκος των ακολουθιών βασίζεται στο συνολικό score, ακόμα και σε βάρος τμημάτων των ακολουθιών που έχουν προφανή ομοιότητα για κοντινές εξελικτικά ακολουθίες παρόμοιου μήκους Σελίδα 13

Είδος στοίχισης Τοπική στοίχιση (local alignment) αναζήτηση όμοιων τμημάτων των ακολουθιών για ακολουθίες διαφορετικού μήκους με μία ή περισσότερες συντηρημένες περιοχές δομικά αυτοτελείς περιοχές πρωτεϊνών (domains), με χαρακτηριστική ακολουθία και λειτουργία στοίχιση mrna με γενωμικό DNA Σελίδα 14

Σύστημα βαθμολόγησης Σ ένα απλό σύστημα βαθμολόγησης μπορούμε να ορίσουμε σταθερές τιμές για τη στοίχιση όμοιων καταλοίπων (match score) ανόμοιων καταλοίπων (mismatch score) καταλοίπου με κενό (gap penalty) Το τελικό score ομοιότητας της στοίχισης ισούται με το άθροισμα των επιμέρους scores. Σελίδα 15

Σύστημα βαθμολόγησης match score = 1, mismatch score = -1, gap penalty = -2 18 στοιχίσεις όμοιων καταλοίπων 32 στοιχίσεις ανόμοιων καταλοίπων 4 στοιχίσεις καταλοίπων με κενά total score = 18 1 + 32 (-1) + 4 (-2) = -22 Σελίδα 16

Σύστημα βαθμολόγησης συντηρητικές αντικαταστάσεις (conservative substitutions) Η αντικατάσταση ενός αμινοξέος από κάποιο άλλο με παρόμοιες φυσικοχημικές ιδιότητες, είναι λιγότερο πιθανό να αλλοιώσει τη δομή και τη λειτουργία μιας πρωτεΐνης. Lys Arg Σελίδα 17 Ile Leu

Σύστημα βαθμολόγησης πουρίνες: αδενίνη (Α) και γουανίνη (G) πυριμιδίνες: κυτοσίνη (C) και θυμίνη (T) μεταπτώσεις (transitions): αλλαγές από πουρίνη σε πουρίνη ή από πυριμιδίνη σε πυριμιδίνη μεταστροφές (transversions): αλλαγές από πουρίνη σε πυριμιδίνη ή αντίστροφα Οι μεταπτώσεις είναι πιθανότερο να συμβούν σε σχέση με τις μεταστροφές. Σελίδα 18

Σύστημα βαθμολόγησης Πίνακες αντικατάστασης (Substitution matrices) αποδίδουν διαφορετικά scores ομοιότητας για την αντιστοίχιση διαφορετικών αμινοξέων εξάγονται από πολλαπλές στοιχίσεις score ~ log 2 (observed/expected) observed παρατηρηθείσα συχνότητα αντικατάστασης expected αναμενόμενη συχνότητα αντικατάστασης Σελίδα 19

Σύστημα βαθμολόγησης Πίνακες αντικατάστασης (Substitution matrices) συμμετρικοί δεν είναι γνωστό πιο αμινοξύ προϋπήρχε score > 0 ένδειξη ότι η στοίχιση των καταλοίπων αποτελεί πραγματικό εξελικτικό γεγονός score < 0 ένδειξη ότι η στοίχιση των καταλοίπων είναι λιγότερο πιθανό να βρεθεί στην ευθυγράμμιση ομόλογων ακολουθιών Σελίδα 20

Πίνακες αντικατάστασης PAM (Point Accepted Mutation) (Dayhoff) 1PAM: μονάδα εξελικτικής απόκλισης που αντιστοιχεί σε αλλαγή 1% αμινοξέων 250PAM: απόκλιση ~ 80% Ένα αμινοξύ μπορεί να αλλάξει περισσότερες από μία φορές ή / και να επιστρέψει στον αρχικό του τύπο. MATCG MAGCG MATGG Κάθε αμινοξύ αποκλίνει με διαφορετικό ρυθμό. Σελίδα 21

Πίνακες αντικατάστασης PAM (Point Accepted Mutation) (Dayhoff) πίνακας PAM1 υπολογίσθηκε βάσει ολικών στοιχίσεων από 71 οικογένειες πρωτεϊνών με >85% ομοιότητα πίνακας PAM250 υπολογίζεται ως η 250-ιοστή δύναµη του πίνακα PAM1 Με τον ίδιο τρόπο κατασκευάζονται πίνακες PAM με διαφορετικούς δείκτες. Οι πίνακες PAM με μικρότερους δείκτες χρησιμοποιούνται για τη στοίχιση κοντινότερων εξελικτικά ακολουθιών. Σελίδα 22

Πίνακες αντικατάστασης PAM (Point Accepted Mutation) (Dayhoff) R, K θετικά φορτισμένα F αρωματικό Σελίδα 23

Πίνακες αντικατάστασης PAM (Point Accepted Mutation) (Dayhoff) Θεωρεί ότι η πιθανότητα παρατήρησης μιας μετάλλαξης είναι ανεξάρτητη από την περιοχή της πρωτεΐνης προηγούμενες μεταλλάξεις στην ίδια θέση Στηρίζεται μόνο στις ιδιότητες σφαιρικών υδατοδιαλυτών πρωτεϊνών. Σελίδα 24

Πίνακες αντικατάστασης BLOSUM (Blocks Amino Acid Substitution Matrix) (Henikoff) BLOCKS database τοπική πολλαπλή στοίχιση χωρίς κενά, εξελικτικά απομακρυσμένων πρωτεϊνών gapless alignment blocks Σελίδα 25

Πίνακες αντικατάστασης BLOSUM (Blocks Amino Acid Substitution Matrix) (Henikoff) δείκτες πινάκων BLOSUM ποσοστό ομοιότητας των ακολουθιών που χρησιμοποιήθηκαν για την κατασκευή του πίνακα BLOSUM62: ακολουθίες με ομοιότητα >62% έχουν ομαδοποιηθεί Οι πίνακες BLOSUM με μικρότερους δείκτες χρησιμοποιούνται για τη σύγκριση περισσότερο απομακρυσμένων εξελικτικά ακολουθιών. Στηρίζονται σε πραγματικές στοιχίσεις και δεν προκύπτουν αναγωγικά όπως οι πίνακες PAM. Σελίδα 26

Πίνακες αντικατάστασης BLOSUM (Blocks Amino Acid Substitution Matrix) (Henikoff) R, K θετικά φορτισμένα F αρωματικό Σελίδα 27

Πίνακες αντικατάστασης PAM designed to track the evolutionary origins of proteins στοίχιση συγγενών ακολουθιών BLOSUM designed to find the conserved domains of proteins στοίχιση απομακρυσμένων ακολουθιών εύρεση τοπικών ομοιοτήτων Σελίδα 28

Σύστημα βαθμολόγησης Μοντέλα νουκλεοτιδικών υποκαταστάσεων Σελίδα 29

Σύστημα βαθμολόγησης Μοντέλα βαθμολόγησης των κενών κενό μήκους k καταλοίπων Linear gap penalty gap penalty a gp(k) = ak Affine gap penalty gap-opening penalty b (ποινή για το άνοιγμα κενού) gap-extension penalty a (ποινή για την επέκταση κενού) gp(k) = b + ak, ( b > a ) ευνοεί την εισαγωγή λίγων μεγάλων κενών σε σχέση με πολλά μικρότερα κενά Σελίδα 30

Σύστημα βαθμολόγησης Το ολικό score της στοίχισης προκύπτει από το άθροισμα των scores των ζευγών καταλοίπων και των ποινών για τα κενά. Εμπειρική επιλογή τιµών ποινής για την εισαγωγή και την επέκταση κενών Σελίδα 31

Σύστημα βαθμολόγησης Blosum62 gap-opening penalty = b = -10 gap-extension penalty = a = -1 score = S(Κ,K)+S(A,K)+S(H,H)+S(G,G)+S(K,V)+S(K,T)-( b + a 1) = 5 + (-1) + 8 + 6 + (-2) + (-1) - (10+1 2) = 3 Σελίδα 32

Τεχνικές Στοίχισης Ακολουθιών Διαγράμματα Πινάκων Σημείων (Dot Matrix Plots) Αλγόριθμοι Δυναμικού Προγραμματισμού Needleman-Wunsch algorithm (ολική στοίχιση) Smith-Waterman algorithm (τοπική στοίχιση) Ευριστικοί Αλγόριθμοι FASTA BLAST Σελίδα 33

Dot Plots Σελίδα 34

Dot Plots κατασκευή δισδιάστατου ορθογώνιου διαγράµµατος με τις υπό σύγκριση ακολουθίες στη θέση των αξόνων χρωματισμός των κελιών που αντιστοιχούν σε ταυτόσηµα κατάλοιπα των δύο ακολουθιών περιοχές του πίνακα µε χρωµατισµένα κελιά κατά µία διαγώνιο υποδεικνύουν περιοχές ταύτισης των ακολουθιών εφαρμογή τεχνικών φιλτραρίσματος για τη μείωση του θορύβου (μεμονωμένες ή μικρού μήκους στοιχίσεις) χρήση πινάκων αντικαταστάσεως για τη βαθμολόγηση ζευγών καταλοίπων υποκειμενική ερμηνεία των αποτελεσμάτων Σελίδα 35

Dot Plots a-f) T 1 = T 2 g-h) T 1 T 2 Σελίδα 36

Dot Plots A C G T A C G T A X X C X X G X X T X X A X X C X X G X X T X X A C G G G G G T A X C X G X X X X X G X X X X X G X X X X X G X X X X X G X X X X X T X A C G T T G C A A X X C X X G X X T X X T X X G X X C X X A X X E F G N P Q E F G H I K L N P Q X X X X X X Σελίδα 37

Dot Plots άμεση οπτικοποίηση επαναλήψεων παλίνδρομων ακολουθιών περιοχών χαμηλής πολυπλοκότητας ενθέσεων ή διαγραφών μελέτη γονιδιωμάτων δομή RNA Σελίδα 38

Μέθοδοι Δυναμικού Προγραμματισμού Δημιουργία βέλτιστης στοίχισης χρησιμοποιώντας τις βέλτιστες στοιχίσεις μικρότερων ακολουθιών. Ολική Στοίχιση (Needleman-Wunsch) Τοπική Στοίχιση (Smith-Waterman) 2 ακολουθίες x και y πίνακας F(i,j): score της βέλτιστης στοίχισης μεταξύ του αρχικού τμήματος x 1...i της x μέχρι το κατάλοιπο x i και του αρχικού τμήματος y 1...j της y μέχρι το κατάλοιπο y j "γέμισμα" του F(i,j): επαναληπτική διαδικασία με F(0,0) = 0 Σελίδα 39

Ολική Στοίχιση (Needleman-Wunsch) Η πρώτη γραμμή και η πρώτη στήλη του πίνακα συμπληρώνεται βάσει της σχέσης: F i,0 = -i gap, F 0,j = -j gap A T A A G T A 0-1 d -2 d -3 d -4 d -1 d -2 d -3 d για απλότητα d = gap Σελίδα 40

Ολική Στοίχιση (Needleman-Wunsch) Οι τιµές των άλλων κελιών υπολογίζονται κατά γραµµή, ξεκινώντας από την επάνω αριστερά γωνία και προχωρώντας συνεχώς προς τα δεξιά. Όταν φτάνουµε στο τέλος µιας γραµµής ξεκινάµε από το πρώτο κελί της επόµενης. A G T A 0-1 d -2 d -3 d -4 d A T A -1 d -2 d -3 d

Ολική Στοίχιση (Needleman-Wunsch) Παράλληλα με τον υπολογισμό της τιμής ενός κελιού, φυλάσσεται σ ένα πίνακα "ιχνηθέτη" (trace-back) η διεύθυνση του κελιού βάσει του οποίου υπολογίστηκε η τιµή (από το διαγώνιο κελί, το αριστερό ή το κατακόρυφο;) Σελίδα 42

Ολική Στοίχιση (Needleman-Wunsch) match = 1, mismatch = -1, gap = -1 F(i,j) i = 0 1 2 3 4 A G T A j = 0 1 2 3 0-1 -2-3 -4 A -1 1 0-1 -2 T -2 0 0 1 0 A -3-1 -1 0 2 Σελίδα 43

Ολική Στοίχιση (Needleman-Wunsch) Η τιµή στο κάτω δεξιά κελί αποτελεί τη βαθµολογία της καλύτερης δυνατής στοίχισης των δύο ακολουθιών µε βάση το συγκεκριμένο σύστηµα βαθµολόγησης. Ακολουθώντας τη διαδροµή στον πίνακα ιχνηθέτη από το κάτω δεξιά κελί παράγουµε τη συγκεκριµένη στοίχιση. Για κάθε θέση: Αν κινηθούμε διαγώνια, τότε στοιχίζουμε τα δύο κατάλοιπα που αντιστοιχούν σ εκείνη την θέση. Αν κινηθούμε οριζόντια ή κάθετα, βάζουμε κενό στην ακολουθία που δείχνει το βέλος. Σελίδα 44

Ολική Στοίχιση (Needleman-Wunsch) F(i,j) i = 0 1 2 3 4 A G T A στοίχιση A G T A A -- T A j = 0 1 2 3 0-1 -2-3 -4 A -1 1 0-1 -2 T -2 0 0 1 0 A -3-1 -1 0 2 score της στοίχισης score = 2 Σελίδα 45

από διαγώνιο κελί = 0 + 2 = 2 από αριστερό κελί = 1-1 = 0 από κατακόρυφο κελί = 1-1 = 0 max(2, 0, 0) = 2 match = 2 mismatch = 0 gap = -1

Βέλτιστη Στοίχιση Score Βέλτιστης Στοίχισης = 6

Ολική Στοίχιση (Needleman-Wunsch) Στοίχιση των ακολουθιών AGTA και ΑΤΑ με τη χρήση δυναμικού προγραμματισμού, του πίνακα αντικατάστασης Blosum62 και linear gap penalty = -1 Αντί για match και mismatch score, χρησιμοποιούνται τα scores που είναι καταγεγραμμένα στον πίνακα αντικατάστασης. Σελίδα 48

Τοπική Στοίχιση (Smith-Waterman) F(i, 0) = F(0, j) = 0 Στοιχίσεις µε αρνητική βαθµολογία δεν παρουσιάζουν ενδιαφέρον. Μια βέλτιστη τοπική στοίχιση κατασκευάζεται ξεκινώντας από το κελί µε τη µεγαλύτερη τιµή (όπου κι αν βρίσκεται) και τερµατίζεται µόλις συναντήσουμε για πρώτη φορά µηδενική τιµή. Το score της τοπικής στοίχισης ισούται με τη μεγαλύτερη τιμή του πίνακα. Σελίδα 49

Ολική Στοίχιση Τοπική Στοίχιση X 1 X 2 X 3 X 4 0-1 d -2 d -3 d -4 d X 1 X 2 X 3 X 4 0 0 0 0 0 Y 1 Y 2 Y 3-1 d -2 d -3 d Y 1 0 Y 2 0 Y 3 0 d = gap Σελίδα 50

Ολική Στοίχιση F(i-1, j-1) + s(x i, y j ) F(i, j) = max F(i-1, j) gap Τοπική Στοίχιση F(i, j-1) gap F(i-1, j-1) + s(x i, y j ) F(i, j) = max F(i-1, j) gap F(i, j-1) gap 0 Σελίδα 51

Ολική Στοίχιση Τοπική Στοίχιση X 1 X 2 X 3 X 4 0-1 -2-3 -4 Y 1-1 3 0-1 -5 Y 2-2 0 2 6 0 Y 3-3 -5-2 0 4 X 1 X 2 X 3 X 4 0 0 0 0 0 Y 1 0 1 3 0 1 Y 2 0 0 0 7 0 Y 3 0 1 0 0 5 Σελίδα 52

από διαγώνιο κελί = 3 + 2 = 5 max(5, 3, 1, 0) = 5 από αριστερό κελί = 4-1 =3 από κατακόρυφο κελί = 2-1 =1 0 match = 2 mismatch = 0 gap = -1

Βέλτιστη Στοίχιση Score Βέλτιστης Στοίχισης = 11

Μέθοδοι Δυναμικού Προγραμματισμού Οι αλγόριθμοι δυναμικού προγραμματισμού εγγυώνται τη βέλτιστη στοίχιση για τις παραμέτρους που χρησιμοποιούνται. Διαφορετικές παράμετροι διαφορετική στοίχιση Η βέλτιστη στοίχιση δεν είναι απαραίτητα και η βιολογικά σωστή. BLOSUM62 gap opening penalty = -3 gap extension penalty = -0.1 score = 6.3 gap opening penalty = 0 gap extension penalty = -0.1 score = 11.3 Σελίδα 55 1...VLSPADKFLTNV 12 1 VFTELSPAKTV... 11 1 V...LSPADKFLTNV 12 1 VFTELSPA.K..T.V 11

Στοίχιση βάσει της δομικής υπέρθεσης D_HUM vgslncivavsqnmgigkngdlpwpplrnefryfqrmtttssvegkqnlvimgkktwfsi ident D_ECO --MISLIAALAVDRVIGMENAM-PFNLPADLAWFKRNTL-------DKPVIMGRHTWESI D_HUM PeknRPLKGRINLVLSRELkEPPQGAhFLSRSLDDALKLTEqpelanKVDMVWIVGGSSV ident D_ECO G---RPLPGRKNIILSSQP-GTDDRV-TWVKSVDEAIAACG------DVPEIMVIGGGRV D_HUM YKEAMNHpghLKLFVTRIMQDFESDTFFPEIDLEKYKLLPeypgvlSDVQEE---KGIKY ident D_ECO YEQFLPK--aQKLYLTHIDAEVEGDTHFPDYEPDDWESVF------SEFHDAdaqNSHSY D_HUM KFEVYEKNd ident D_ECO CFEILERR- Σελίδα 56

Dot Plots Dotlet Προγράμματα Στοίχισης Ακολουθιών http://myhits.isb-sib.ch/cgi-bin/dotlet JDotter http://virology.uvic.ca/virology-ca-tools/jdotter/ Δυναμικός Προγραμματισμός EMBOSS Needle http://www.ebi.ac.uk/tools/psa/emboss_needle/ EMBOSS Water http://www.ebi.ac.uk/tools/psa/emboss_water/ Σελίδα 57