Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Σχετικά έγγραφα
Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

LALING/PLALING :

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 6: Σύγκριση αλληλουχιών Part I

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν;

Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων. 1/10/2015 Δ.Δ. Λεωνίδας

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. Γουανίνη Κυτοσίνη. 4α. Λειτουργία γενετικού υλικού. Φωσφοδιεστερικός δεσμός

Κεφάλαιο 1. Οι δομικοί λίθοι

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

COOH R 2. H α-αμινοξύ 2

Μέθοδοι μελέτης εξέλιξης


BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

MAΘΗΜΑ 4 ο AMINOΞΕΑ-ΠΕΠΤΙ ΙΑ-ΠΡΩΤΕΪΝΕΣ

Τάξη. Γνωστικό αντικείµενο: Ειδικοί διδακτικοί στόχοι

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

Βιοπληροφορική. Πίνακες Αντικατάστασης & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Τομές Γραφήματος. Γράφημα (μη κατευθυνόμενο) Συνάρτηση βάρους ακμών. Τομή : Διαμέριση του συνόλου των κόμβων σε δύο μη κενά σύνολα

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7


Στοίχιση Ακολουθιών. Μέθοδοι σύγκρισης ακολουθιών. Είδος στοίχισης. match. gap. mismatch

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

4 ο ΚΕΦΑΛΑΙΟ. Γ ε ν ε τ ι κ ή

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Ταιριάσματα. Γράφημα. Ταίριασμα (matching) τέτοιο ώστε κάθε κορυφή να εμφανίζεται σε το πολύ μια ακμή του

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ Β ΚΥΚΛΟΥ

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών.

Δευτεροταγής Δομή Πρωτεϊνών

Στοίχιση ανά ζεύγη Εισαγωγή

2 η ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟΔΟΣ. Ημερομηνία: Τρίτη 30 Μαΐου 2019 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΚΕΦΑΛΑΙΟ 6 ο...2 I. Μεταλλάξεις...2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ...7

ΒΙΟΤΕΧΝΟΛΟΓΙΑ 1 ο ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΒΟΛΟΥ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ηµεροµηνία: Κυριακή 22 Απριλίου 2012 ÏÑÏÓÇÌÏ

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

Σύνθεση πρωτεϊνών και σημειακές μεταλλάξεις Γ. Παπανικολαόυ MD, PhD

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΠΡΟΤΕΙΝΟΜΕΝΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. Β2. Σελ 136 σχ. βιβλίου: «Η κλωνοποίηση όμως... συγγενικό είδος ζώου.

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΚΕΦΑΛΑΙΟ 6 - ΜΕΤΑΛΛΑΞΕΙΣ ΑΣΚΗΣΕΙΣ

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΚΒφόίΙοιο 6 ΜειαΠΠά^εις

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2018

Αλγόριθμοι και Πολυπλοκότητα

Διαγώνισμα Βιολογίας Προσανατολισμού Γ Λυκείου

Συγκριτική Γονιδιωματική

Θεωρία Γραφημάτων 6η Διάλεξη

ΠΕΠΤΙΔΙΑ. Αναπ. Καθ. Γεράσιμος Μαλανδρίνος

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Από το Ελληνικό ρήµα «πρωτεύω» που αποδεικνύει τη σηµασία των πρωτεϊνών στην διατροφή του ανθρώπου

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

Κεφάλαιο 4. Σύγκριση Αλληλουχιών. Στοιχίσεις και Ταχείες Αναζητήσεις

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

Κεφάλαιο 2ο. Αντιγραφή, έκφραση και ρύθμιση της γενετικής πληροφορίας

ÂÓÈÎ ÁÈ ÙÔ K ÙÙ ÚÔ 1 Ô KÂÊ Ï ÈÔ 1.1 E Ë Î ÙÙ ÚˆÓ ÚÔÎ Ú ˆÙÈÎ Î ÙÙ Ú

ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ. . Σύμφωνα με τη θεωρία Brönsted Lowry συζυγές ζεύγος οξέος βάσης είναι το ζεύγος α.

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

ΕΙΣΑΓΩΓΗ Ι. Στοιχεία Μοριακής Βιολογίας Βιολογικά Μακρομόρια ΙΙ. Επισκόπηση του πεδίου της Υπολογιστικής Βιολογίας - Βιοπληροφορικής

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Transcript:

Στοίχιση αλληλουχιών

Σύνοψη Καθολική στοίχιση Μήτρες βαθμολόγησης Τοπική στοίχιση Στοίχιση με ποινές εισαγωγής κενών

Από την LCS στη στοίχιση: αλλαγές στη βαθμολόγηση Το πρόβλημα της Μεγαλύτερης Κοινής Υποαλληλουχίας (LCS) δηλαδή η απλούστερη μορφή στοίχισης αλληλουχιών επιτρέπει μόνο προσθήκες και αφαιρέσεις (όχι ασυμφωνίες). Στο πρόβλημα LCS, βαθμολογήσαμε τις συμφωνίες με 1 και τις προσθαφαιρέσεις (indels) με 0. Ας εξετάσουμε την περίπτωση στην οποία επιβάλλουμε ποινές στις προσθαφαιρέσεις και τις ασυμφωνίες με αρνητικές βαθμολογίες Απλούστερο σχήμα βαθμολόγησης: +1 : μπόνους για ταίριασμα -μ : ποινή για ασυμφωνία -σ : ποινή για προσθαφαίρεση

Απλή βαθμολόγηση Όταν επιβάλλονται ποινές μ και σ στις ασυμφωνίες και τις προσθαφαιρέσεις, αντίστοιχα, και οι ασυμφωνίες επιβραβεύονται με +1, η βαθμολογία που προκύπτει είναι: #ταιριασμάτων μ(#ασυμφωνιών) σ(#προσθαφαιρέσεων)

Το πρόβλημα της Καθολικής Στοίχισης Βρείτε την καλύτερη στοίχιση μεταξύ δύο συμβολοσειρών όταν δίνεται το σχήμα βαθμολόγησης Είσοδος: Οι συμβολοσειρές v και w και το σχήμα βαθμολόγησης Έξοδος: Η στοίχιση με τη μέγιστη βαθμολογία = -σ = 1 για ταίριασμα = -µ για ασυμφωνία s i-1,j-1 +1 αν v i = w j s i,j = max s i-1,j-1 -µ αν v i w j s i-1,j - σ s i,j-1 - σ m : ποινή ασυμφωνίας σ : ποινή προσθαφαίρεσης

Μήτρες βαθμολόγησης Για να γενικεύσουμε τη βαθμολόγηση, θεωρήστε μια μήτρα βαθμολόγησης δ με διαστάσεις (4+1) x (4+1). Στην περίπτωση της στοίχισης αμινοξικών αλληλουχιών, η μήτρα βαθμολόγησης θα είχε μέγεθος (20+1) x (20+1). Η προσθήκη του 1 γίνεται για να συμπεριληφθεί η βαθμολογία για τη σύγκριση ενός χαρακτήρα κενού ( - ). Αυτό θα απλοποιήσει τον αλγόριθμο ως εξής: s i-1,j-1 + δ (v i, w j ) s i,j = max s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j )

Μέτρηση της ομοιότητας Μετράμε το βαθμό ομοιότητας μεταξύ δύο αλληλουχιών Με βάση το ποσοστό (επί τοις εκατό) της ομοιότητας των αλληλουχιών Με βάση τη συντήρηση

Ποσοστό ομοιότητας αλληλουχιών Ο βαθμός στον οποίο δύο νουκλεοτιδικές ή αμινοξικές αλληλουχίες είναι αμετάβλητες A C C T G A G A G A C G T G G C A G ασυμφωνία 70% ομοιότητα προσθαφαίρεση

Κατασκευή μιας μήτρας βαθμολόγησης Οι μήτρες βαθμολόγησης δημιουργούνται με βάση βιολογικά στοιχεία. Μπορούμε να θεωρήσουμε ότι οι στοίχίσεις είναι δύο αλληλουχίες που διαφέρουν λόγω μεταλλάξεων. Μερικές από τις μεταλλάξεις έχουν μικρή επίδραση στη λειτουργία της πρωτεΐνης, επομένως κάποιες ποινές δ(v i, w j ) θα είναι λιγότερο αυστηρές από άλλες.

Μήτρα βαθμολόγησης: παράδειγμα A R N K A 5-2 -1-1 R - 7-1 3 N - - 7 0 K - - - 6 Παρατηρήστε ότι παρότι τα R και K είναι διαφορετικά αμινοξέα, έχουν θετική βαθμολογία. Γιατί; Είναι και τα δύο θετικά φορτισμένα αμινοξέα δεν θα αλλάξουν πολύ τη λειτουργία της πρωτεΐνης.

Συντήρηση Αλλαγές των αμινοξέων που τείνουν να συντηρήσουν τις φυσικοχημικές ιδιότητες του αρχικού καταλοίπου Πολικό σε πολικό ασπαρτάμη γλουταμινικό Μη πολικό σε μη πολικό αλανίνη βαλίνη Κατάλοιπα με παρόμοια συμπεριφορά λευκίνη ισολευκίνη

Μήτρες βαθμολόγησης Μήτρες αντικατάστασης αμινοξέων PAM BLOSUM Μήτρες αντικατάστασης DNA Το DNA είναι λιγότερο συντηρημένο από τις πρωτεϊνικές αλληλουχίες Λιγότερο αποτελεσματικές για τη σύγκριση περιοχών κωδικοποίησης σε επίπεδο νουκλεοτιδίων

PAM Point Accepted Mutation (Dayhoff κ.ά.) 1 PAM = PAM 1 = 1% μέσος όρος αμινοξικών αλλαγών Μετά από 100 PAM εξέλιξης, δεν θα έχουν αλλάξει τα κατάλοιπα σε όλες τις θέσεις Μερικά ενδέχεται να έχουν μεταλλαχθεί αρκετές φορές Μερικά μπορεί να έχουν επιστρέψει στην αρχική τους κατάσταση Μερικά ενδέχεται να μην έχουν αλλάξει καθόλου

PAM X PAM x = PAM 1 x PAM 250 = PAM 1 250 Η PAM 250 είναι μια μήτρα βαθμολόγησης που χρησιμοποιείται ευρέως: Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys... A R N D C Q E G H I L K... Ala A 13 6 9 9 5 8 9 12 6 8 6 7... Arg R 3 17 4 3 2 5 3 2 6 3 2 9 Asn N 4 4 6 7 2 5 6 4 6 3 2 5 Asp D 5 4 8 11 1 7 10 5 6 3 2 5 Cys C 2 1 1 1 52 1 1 2 2 2 1 1 Gln Q 3 5 5 6 1 10 7 3 7 2 3 5... Trp W 0 2 0 0 0 0 0 0 1 0 1 0 Tyr Y 1 1 2 1 3 1 1 1 3 2 2 1 Val V 7 4 4 4 4 4 4 4 5 4 15 10

BLOSUM Blocks Substitution Matrix Βαθμολογίες που προκύπτουν από παρατηρήσεις για τις συχνότητες των αντικαταστάσεων σε μπλοκ τοπικών στοιχίσεων σε (εξελικτικά) σχετιζόμενες πρωτεΐνες Το όνομα της μήτρας υποδεικνύει την εξελικτική απόσταση Η BLOSUM62 δημιουργήθηκε με αλληλουχίες που είχαν ομοιότητα όχι μεγαλύτερη από 62%

Η μήτρα βαθμολόγησης Blosum50

Τοπική και καθολική στοίχιση Το πρόβλημα της Καθολικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη διαδρομή μεταξύ των κορυφών (0,0) και (n,m) στο γράφημα μετασχηματισμού (edit graph). Το πρόβλημα της Τοπικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη από τις διαδρομές μεταξύ των τυχαίων κορυφών (i, j) και (i, j ) στο γράφημα μετασχηματισμού.

Τοπική και καθολική στοίχιση Το πρόβλημα της Καθολικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη διαδρομή μεταξύ των κορυφών (0,0) και (n, m) στο γράφημα μετασχηματισμού. To πρόβλημα της Τοπικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη από τις διαδρομές μεταξύ των τυχαίων κορυφών (i, j) και (i, j ) στο γράφημα μετασχηματισμού. Σε ένα γράφημα μετασχηματισμού όπου οι ακμές έχουν αρνητικές βαθμολογίες, η τοπική στοίχιση μπορεί να έχει υψηλότερη βαθμολογία από την καθολική.

Τοπική και καθολική στοίχιση (συνέχεια) Καθολική στοίχιση --T -CC-C-AGT -TATGT-CAGGGGACACG A-GCATGCAGA-GAC AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG T-CAGAT--C Τοπική στοίχιση καλύτερη στοίχιση για την εύρεση του συντηρημένου τμήματος tcccagttatgtcaggggacacgagcatgcagagac aattgccgccgtcgttttcagcagttatgtcagatc

Τοπική στοίχιση: παράδειγμα καθολική στοίχιση τοπική στοίχιση Υπολογισμός μιας «μίνι» καθολικής στοίχισης για να φτάσουμε στην τοπική

Τοπικές στοιχίσεις: γιατί; Δύο γονίδια σε διαφορετικά είδη μπορεί να εμφανίζουν ομοιότητες σε μικρές συντηρημένες περιοχές και διαφορές στις υπόλοιπες περιοχές. Παράδειγμα: Τα ομοιωτικά γονίδια (homeobox genes) έχουν μια μικρή περιοχή που ονομάζεται ομοιωτική περιοχή (homeodomain), η οποία είναι εξαιρετικά συντηρημένη μεταξύ διαφορετικών ειδών. Μια καθολική στοίχιση δεν θα έβρισκε την ομοιωτική περιοχή, επειδή θα προσπαθούσε να στοιχίσει ΟΛΟΚΛΗΡΗ την αλληλουχία

Το πρόβλημα της Τοπικής Στοίχισης Στόχος: Βρείτε την καλύτερη τοπική στοίχιση μεταξύ δύο συμβολοσειρών Είσοδος: Οι συμβολοσειρές v, w και η μήτρα βαθμολόγησης δ Έξοδος: Οι συμβολοσειρές v και w για τις οποίες η βαθμολογία στοίχισης είναι μέγιστη ανάμεσα σε όλες τις στοιχίσεις όλων των πιθανών υποσυμβολοσειρών

Το «πρόβλημα» με αυτό το πρόβλημα Μεγάλος χρόνος εκτέλεσης O(n 4 ): Στο πλέγμα μεγέθους n x n υπάρχουν ~n 2 κορυφές (i, j) που μπορούν να παίξουν το ρόλο της κορυφής προέλευσης. Για κάθε τέτοια κορυφή, ο υπολογισμός στοιχίσεων από την (i, j) στην (i, j ) απαιτεί χρόνο O(n 2 ). Αυτό μπορεί να αντιμετωπιστεί με «δωρεάν μεταφορές»

Τοπική στοίχιση: παράδειγμα καθολική στοίχιση τοπική στοίχιση Υπολογισμός μιας «μίνι» καθολικής στοίχισης για να φτάσουμε στην τοπική

Τοπική στοίχιση: παράδειγμα

Τοπική στοίχιση: παράδειγμα

Τοπική στοίχιση: παράδειγμα

Τοπική στοίχιση: παράδειγμα

Τοπική στοίχιση: παράδειγμα

Τοπική στοίχιση: χρόνος εκτέλεσης Μεγάλος χρόνος εκτέλεσης O(n 4 ): Στο πλέγμα μεγέθους n x n υπάρχουν ~n 2 κορυφές (i, j) που μπορούν να παίξουν το ρόλο της κορυφής προέλευσης. Για κάθε τέτοια κορυφή, ο υπολογισμός στοιχίσεων από την (i, j) στην (i, j ) απαιτεί χρόνο O(n 2 ). Αυτό μπορεί να αντιμετωπιστεί με «δωρεάν μεταφορές»

Τοπική στοίχιση: «δωρεάν μεταφορές» Ναιιιι, δωρεάν μεταφορά! Κορυφή (0,0) Οι διακεκομμένες ακμές αναπαριστούν τις «δωρεάν μεταφορές» από τον κόμβο (0,0) προς κάθε άλλο κόμβο.

Η σχέση επανάληψης της τοπικής στοίχισης Η μεγαλύτερη τιμή του s i,j για ολόκληρο το γράφημα μετασχηματισμού είναι η βαθμολογία της καλύτερης τοπικής στοίχισης. Η σχέση επανάληψης: 0 s i,j = max s i-1,j-1 + δ (v i, w j ) s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j ) Παρατηρήστε ότι αυτή είναι η μόνη αλλαγή σε σύγκριση με την αρχική σχέση επανάληψης μιας καθολικής στοίχισης

Η σχέση επανάληψης της τοπικής στοίχισης Η μεγαλύτερη τιμή του s i,j για ολόκληρο το γράφημα μετασχηματισμού είναι η βαθμολογία της καλύτερης τοπικής στοίχισης. Η σχέση επανάληψης: 0 s i,j = max s i-1,j-1 + δ (v i, w j ) s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j ) Δύναμη του ΜΗΔΕΝΟΣ: αυτή είναι η μόνη αλλαγή σε σύγκριση με την αρχική σχέση επανάληψης μιας καθολικής στοίχισης επειδή κάθε κορυφή έχει μόνο μία εισερχόμενη ακμή «δωρεάν μεταφοράς»

Βαθμολόγηση προσθαφαιρέσεων: απλοϊκή μέθοδος Επιβάλλεται μια σταθερή ποινή σ σε κάθε προσθαφαίρεση: -σ για 1 προσθαφαίρεση, -2σ για 2 συνεχόμενες προσθαφαιρέσεις -3σ για 3 συνεχόμενες προσθαφαιρέσεις, κλπ. Η μέθοδος μπορεί να επιβάλλει υπερβολικά αυστηρή ποινή για μια σειρά 100 συνεχόμενων προσθαφαιρέσεων

Συγγενικές ποινές κενού Στη φύση, μια σειρά k προσθαφαιρέσεων εμφανίζεται συχνά ως ένα μόνο συμβάν αντί για μια σειρά k συμβάντων που αφορούν μεμονωμένα νουκλεοτίδια: Είναι πιο πιθανό Η κανονική βαθμολόγηση θα έδινε την ίδια βαθμολογία και στις δύο στοιχίσεις Είναι λιγότερο πιθανό

Λαμβάνοντας υπόψη τα κενά Κενά συνεχόμενη ακολουθία (κενών) διαστημάτων σε μία από τις γραμμές Η βαθμολογία για ένα κενό μήκους x είναι: -(ρ + σx) όπου ρ >0 είναι η ποινή για την εισαγωγή του κενού: ποινή ανοίγματος κενού το ρ θα είναι μεγάλο σε σχέση με το σ: ποινή επέκτασης κοινού επειδή δεν θέλουμε να έχουμε πολύ μεγάλη ποινή για την επέκταση του κενού.

Συγγενικές ποινές κοινού Ποινές κενού: -ρ-σ όταν υπάρχει 1 προσθαφαίρεση -ρ-2σ όταν υπάρχουν 2 προσθαφαιρέσεις -ρ-3σ όταν υπάρχουν 3 προσθαφαιρέσεις, κλπ. -ρ- x σ (-άνοιγμα κενού - x επεκτάσεις κενού) Επιβάλλονται σχετικά μειωμένες ποινές (σε σύγκριση με την απλοϊκή βαθμολόγηση) σε ακολουθίες οριζόντιων και κάθετων ακμών

Συγγενικές ποινές κενού και γράφημα μετασχηματισμού Για να εκφράσουμε τις συγγενικές ποινές κενού, πρέπει να προσθέσουμε «μεγάλες» οριζόντιες και κάθετες ακμές στο γράφημα μετασχηματισμού. Κάθε τέτοια ακμή μήκους x πρέπει να έχει συντελεστή στάθμισης - - x *

Προσθήκη ακμών «συγγενικών ποινών» στο γράφημα μετασχηματισμού Υπάρχουν πολλές τέτοιες ακμές! Η προσθήκη τους στο γράφημα αυξάνει το χρόνο εκτέλεσης του αλγορίθμου στοίχισης κατά παράγοντα n (όπου n είναι ο αριθμός των κορυφών) Άρα, η πολυπλοκότητα αυξάνεται από O(n 2 ) σε O(n 3 )

Πλέγμα Μανχάταν με 3 επίπεδα Χαμηλότερο επίπεδο δ Κύριο επίπεδο δ ρ σ δ ρ δ δ Υψηλότερο επίπεδο σ

Συγγενικές ποινές κενού και πλέγμα Μανχάταν με 3 επίπεδα Οι τρεις σχέσεις επανάληψης για τον αλγόριθμο βαθμολόγησης δημιουργούν ένα γράφημα τριών επιπέδων. Το υψηλότερο επίπεδο δημιουργεί/επεκτείνει κενά στην αλληλουχία w. Το χαμηλότερο επίπεδο δημιουργεί/επεκτείνει κενά στην αλληλουχία v. Το μεσαίο (κύριο) επίπεδο επεκτείνει ταιριάσματα και ασυμφωνίες.

Εναλλαγή μεταξύ των 3 επιπέδων Επίπεδα: Το κύριο (μεσαίο) επίπεδο είναι για τις διαγώνιες ακμές Το χαμηλότερο επίπεδο είναι για τις οριζόντιες ακμές Το υψηλότερο επίπεδο είναι για τις κατακόρυφες ακμές Επιβάλλεται ποινή μετάβασης για τη μετακίνηση από το κύριο (μεσαίο) είτε στο υψηλότερο είτε στο χαμηλότερο επίπεδο (- - ) Υπάρχει μια ποινή επέκτασης κενού για κάθε συνέχιση σε οποιοδήποτε επίπεδο εκτός από το κύριο (- )

Το πλέγμα Μανχάταν με 3 επίπεδα

Σχέσεις επανάληψης για συγγενικές ποινές κενού s i,j = s i-1,j - σ max s i-1,j (ρ+σ) s i,j = s i,j-1 - σ max s i,j-1 (ρ+σ) s i,j = s i-1,j-1 + δ (v i, w j ) max s i,j s i,j Συνέχιση κενού στη w (αφαίρεση) Αρχή κενού στη w (αφαίρεση): από το μεσαίο επίπεδο Συνέχιση κενού στη v (προσθήκη) Αρχή κενού στη v (προσθήκη): από το μεσαίο επίπεδο Ταίριασμα ή ασυμφωνία Τέλος αφαίρεσης: από το υψηλότερο επίπεδο Τέλος προσθήκης: από το χαμηλότερο επίπεδο