ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Σχετικά έγγραφα
Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Βιοπληροφορική. Ενότητα 11: Πολλαπλή Στοίχιση Ακολουθιών, 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

LALING/PLALING :

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Ειδικά Θέματα Βιοπληροφορικής

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Μέθοδοι μελέτης εξέλιξης

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Ειδικά Θέματα Βιοπληροφορικής

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Σηµειώσεις Βιοπληροφορικής

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΜΕΛΕΤΗ ΤΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Κεφάλαιο 4 Πολλαπλή Στοίχιση Ακολουθιών

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πολλαπλή στοίχιση Φυλογένεση

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Φυλογένεση. 5o εργαστήριο

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

BMI/CS 776 Lecture #14: Multiple Alignment - MUSCLE. Colin Dewey

Συγκριτική Γονιδιωματική

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ

Κεφάλαιο 5 Αναζήτηση προτύπων σε αλληλουχίες

Προγνωστικές μέθοδοι με βάση αλληλουχίες DNA

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

ΥΠΟΔΕΙΓΜΑΤΙΚΑ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΚΕΦ. 2ο

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)

Γράφημα. Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα: Σύνολο κορυφών (vertex set) Σύνολο ακμών (edge set) 4 5 πλήθος κορυφών πλήθος ακμών

Ειδικά Θέματα Βιοπληροφορικής

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. Γουανίνη Κυτοσίνη. 4α. Λειτουργία γενετικού υλικού. Φωσφοδιεστερικός δεσμός

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Μέθοδος μέγιστης πιθανοφάνειας

Αρχιτεκτονική και Υλο οίηση σε Αναδιατασσόµενη Λογική του Αλγορίθµου T-Coffee για συνένωση κοµµατιών DNA

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

2 η ΕΝΟΤΗΤΑ ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Βιοπληροφορική. Ενότητα 19: Υπολογιστικός Προσδιορισμός Δομής (1/3), 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit!

Supplemental file 3. All 306 mapped IDs collected by IPA program. Supplemental file 6. The functions and main focused genes in each network.

Transcript:

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I Σελίδα 1

Πολλαπλή στοίχιση αποκαλύπτει συντηρημένες περιοχές αντιστοίχιση καταλοίπων με κριτήρια ομοιότητας σε επίπεδο δομής εξέλιξης λειτουργίας ακολουθίας Σελίδα 2

Πολλαπλή στοίχιση Εύρεση απομακρυσμένων ομόλογων πρωτεϊνών Δημιουργία profile που περιγράφει ένα domain Φυλογενετική ανάλυση Εύρεση συντηρημένων περιοχών που αντιστοιχούν σε υποκινητές, καταλυτικά κέντρα κ.α. Μελέτη της επίδρασης SNPs στη δομή και λειτουργία Πρόβλεψη δευτεροταγούς και τριτοταγούς δομής πρωτεϊνών Σχεδιασμός εκκινητών PCR Σελίδα 3

Σελίδα 4

Βαθμολόγηση Πολλαπλής Στοίχισης Ορισμένες θέσεις είναι καλύτερα συντηρημένες από άλλες. Οι ακολουθίες δεν είναι ανεξάρτητες αλλά σχετίζονται με κάποιο φυλογενετικό δέντρο. Τα κατάλοιπα μιας στήλης έχουν προέλθει από ένα "αρχέγονο" κατάλοιπο. Η στοίχιση πρέπει να μεγιστοποιεί την πιθανότητα εύρεσης κοινού προγόνου. Απλοποιήσεις: Αγνοούμε φυλογενετικά δένδρα Στατιστικά ανεξάρτητες οι στήλες της στοίχισης? x y z w v

Βαθμολόγηση Πολλαπλής Στοίχισης στοίχιση m AC-GCGG-C m = AC-GC-GAG GCACC-GAG m j i = κατάλοιπο στη στήλη i στην ακολουθία j π.χ. m 2 4 = G c ia = παρατηρούμενος αριθμός καταλοίπων a στη στήλη i π.χ. c 1A =2, c 1C =0, c 1G =1, c 1T =0, C 1- =0 p ia = πιθανότητα του καταλοίπου a στη στήλη i Σελίδα 6

Βαθμολόγηση Πολλαπλής Στοίχισης Minimum Entropy S(m i ) = - a c ia log 2 p ia S(m i ) το score της i στήλης της στοίχισης m μέτρο της μεταβλητότητας που παρατηρείται στη στήλη i καλή στοίχιση ελαχιστοποιεί την συνολική εντροπία ι S(m i ) Σελίδα 7

Βαθμολόγηση Πολλαπλής Στοίχισης Sum-of-Pairs Score άθροισμα των scores όλων των "επαγόμενων" ανά δύο στοιχίσεων S(m) = ι S(m i ) S(m i ) = k<l s(m ik, m il ) όπου s(m ik, m il ) το score της στοίχισης των καταλοίπων στις ακολουθίες k και l, όπως προκύπτει από ένα πίνακα αντικατάστασης Σελίδα 8

Βαθμολόγηση Πολλαπλής Στοίχισης Sum-of-Pairs Score Seq1: ALLE Seq2: GLLD Seq3: WLGD Blosum50 s(l-l) = 5 s(l-g) = -4 επαγόμενες ανά δύο στοιχίσεις Seq1: ALLE Seq2: GLLD Seq1: ALLE Seq3: WLGD Seq2: GLLD Seq3: WLGD SP = SP(1) + SP(2) + SP(3) + SP(4) SP(2) = s(l-l) + s(l-l) + s(l-l) = 15 SP(3) = s(l-l) + s(l-g) + s(l-g) = -3 Σελίδα 9

Βαθμολόγηση Πολλαπλής Στοίχισης Weighted Sum-of-Pairs Score S(m i ) = k<l w kl s(m ik, m il ) Ακολουθία στήλη A στήλη B στήλη C 1.. N N..N 2.. N N..N 3.. N N..N 4.. N N..C 5.. N C..C Sum-of-pairs score: 60 24 6 Σελίδα 10

Μέθοδοι πολλαπλής στοίχισης Δυναμικός προγραμματισμός (dynamic programming) Σελίδα 11

Carillo and Lipman Σελίδα 12

Στοίχιση Άστρου δεδομένα Σελίδα 13

Στοίχιση Άστρου ζεύγος ακολουθιών προς ενσωμάτωση στοίχιση Σελίδα 14

Στοίχιση Άστρου ζεύγος ακολουθιών προς ενσωμάτωση στοίχιση Μετακίνηση ολόκληρης στήλης όταν εισέρχεται κενό Σελίδα 15

Στοίχιση Άστρου ATTGCC-ATT ATGGCC-ATT ATCCAATTTT ATCT-T-CTT ATTGCCGATT Σελίδα 16

Στοίχιση Άστρου Επιλογή μιας ακολουθίας (x c ) ως το "κέντρο" του άστρου Για κάθε μια από τις x 1,, x k με i c Στοίχιση ΔΠ "Ενσωμάτωση" στοιχίσεων με την αρχή "once a gap, always a gap". Για την επιλογή του "κέντρου" του άστρου Δοκιμή όλων και επιλογή εκείνης της ακολουθίας x c που μεγιστοποιεί: Σελίδα 17

Προοδευτική στοίχιση (progressive alignment) στοίχιση βάσει ενός δέντρου οδηγού 1 2 1 3 Score 1-2 Score 1-3 4 5 από scores σε αποστάσεις scores Score 4-5 πίνακας ομοιότητας Δένδρο οδηγός Πολλαπλή στοίχιση

Προοδευτική στοίχιση ClustalW

ClustalW στατιστικό βάρος βάσει των αποστάσεων των ακολουθιών στο δέντρο-οδηγό w = 0.055/1 + 0.219/2 + 0.061/4 + 0.015/5 + 0.062/6 = 0.194 Σελίδα 20

ClustalW 1 3 1 3 2 5 1 3 2 5 1 3 2 5 4 Σελίδα 21

ClustalW Σελίδα 22

ClustalW Ακολουθία A (βάρος a) K (στοίχιση 1) Ακολουθία B (βάρος b) I (στοίχιση 1) Ακολουθία C (βάρος c) L (στοίχιση 2) Ακολουθία D (βάρος d) V (στοίχιση 2) χωρίς στάθμιση με τη χρήση στατιστικών βαρών μέσος όρος των scores των ανά δύο στοιχίσεων των ακολουθιών της πρώτης ομάδας με εκείνες της δεύτερης Score= {score(k,l ) + score(i,l) + score(k,v) + score(i,v)}/4 Σελίδα 23

ClustalW Ακολουθία A (βάρος a) K (στοίχιση 1) Ακολουθία B (βάρος b) I (στοίχιση 1) Ακολουθία C (βάρος c) L (στοίχιση 2) Ακολουθία D (βάρος d) V (στοίχιση 2) στάθμιση με τη χρήση στατιστικών βαρών μέσος όρος των σταθμισμένων scores των ανά δύο στοιχίσεων των ακολουθιών της πρώτης ομάδας με εκείνες της δεύτερης Score= {a*c*score(k,l ) + b*c*score(i,l) + a*d*score(k,v) + b*d*score(i,v)}/4 Σελίδα 24

ClustalW Ολική στοίχιση όλων των ακολουθιών ανά δύο με δυναμικό προγραμματισμό και μετατροπή των scores ομοιότητας σε εξελικτικές αποστάσεις. Δημιουργία του δέντρου-οδηγού βάσει του πίνακα αποστάσεων με τη μέθοδο Neighbor-joining. χαμηλότερης ακρίβειας από ένα φυλογενετικό δέντρο απόδοση στατιστικών βαρών (weights) στις ακολουθίες Σελίδα 25

ClustalW Προοδευτική στοίχιση βάσει του δέντρου-οδηγού με δυναμικό προγραμματισμό στοίχιση ακολουθίας με ακολουθία ακολουθίας με στοίχιση στοίχισης με στοίχιση στάθμιση με τη χρήση των στατιστικών βαρών από το δέντρο-οδηγό Σελίδα 26

ClustalW + Χρήση διαφορετικού πίνακα αντικατάστασης ανάλογα με την απόσταση των ακολουθιών στο δέντρο-οδηγό + Προσαρμογή των ποινών για τα κενά ομοιότητα και μήκος ακολουθιών προϋπάρχοντα κενά γειτνίαση με κενά υδρόφιλα τμήματα αμινοξέα Εξαρτάται από τη σειρά των στοιχίσεων. "Once a gap, Always a gap" Σελίδα 27

T-Coffee Δημιουργία βιβλιοθήκης ανά δύο στοιχίσεων Ολική στοίχιση Τοπική στοίχιση Δομική στοίχιση Προοδευτική στοίχιση βάσει της πληροφορίας όλων των επιμέρους στοιχίσεων Καλύτερης ποιότητας στοιχίσεις Πιο αργός υπολογισμός Σελίδα 28

Επαναληπτική Στοίχιση (iterative alignment) Σελίδα 29

Μοντέλα Πολλαπλής Στοίχισης Consensus sequences Patterns and regular expressions Position Specifc Scoring Matrices (PSSMs) Generalized Profiles Hidden Markov Models (HMMs) Στοίχιση νέων ακολουθιών Αναζήτηση σε βάσεις δεδομένων Σχολιασμός νέων ακολουθιών Σελίδα 30

Από την Ακολουθία στη Λειτουργία Σελίδα 31

Συναινετική ακολουθία Majority wins Consensus sequences Σελίδα 32

Πλεονεκτήματα Consensus sequences Γρήγορη και εύκολη υλοποίηση Περιορισμοί Δεν έχουν πληροφορία σχετικά με τη μεταβλητότητα κάθε στήλης Εξαρτώνται πολύ από τις αρχικές ακολουθίες (training set) Δυαδικό αποτέλεσμα (ΝΑΙ / ΌΧΙ) Χρησιμότητα Αναζήτηση ιδιαίτερα συντηρημένων "υπογραφών" (signatures), όπως θέσεις περιορισμού (enzyme restriction sites) στο DNA Σελίδα 33

Patterns and regular expressions Μοτίβο Περιγράφει σε μία γραμμή μια ομάδα εναλλακτικών ακολουθιών Στην επιστήμη των υπολογιστών, τα μοτίβα ονομάζονται κανονικές εκφράσεις

Patterns and regular expressions Σύνταξη Prosite "x" οποιοδήποτε κατάλοιπο [ ] : επιτρεπτά κατάλοιπα π.χ. [ALT] = Ala ή Leu ή Thr { } : μη επιτρεπτά κατάλοιπα π.χ. {AM} οποιοδήποτε κατάλοιπο εκτός Ala και Met () : ποσοτικός τελεστής π.χ. x(3) = x-x-x, x(2,4) = x-x ή x-x-x ή x-x-x-x "-" διαχωρίζει γειτονικά στοιχεία "<" στο αμινοτελικό άκρο ">" στο καρβοξυτελικό άκρο

Patterns and regular expressions Σύνταξη Prosite <A-x-[ST](2)-x(0,1)-{V} Ala στο αμινοτελικό άκτο Οποιοδήποτε αμινοξύ Ser ή Thr δύο φορές Κανένα ή ένα οποιοδήποτε αμινοξύ Οποιοδήποτε αμινοξύ εκτός από Val Σελίδα 36

Patterns and regular expressions [AC]-x-V-x(4)-{ED} DEHSDVLPVLDVCSVKHVAEVFQALIYWIKAMNQQTTLDT Σε ποια (-ες) θέση(-εις) της ακολουθίας ταιριάζει; DEHSDVLPVLDVCSVKHVAEVFQALIYWIKAMNQQTTLDT [AC]-x-V-x(4)-{ED} Σελίδα 37

Patterns and regular expressions ZINC_FINGER_C2H2_1 C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H Σελίδα 38

Patterns and regular expressions Τα μοτίβα σχεδιάζονται από επιστήμονες εξάγονται αυτόματα από μη στοιχισμένες ακολουθίες με ειδικά προγράμματα Πλεονεκτήματα Η αναγνώριση μοτίβων είναι γρήγορη και υλοποιείται εύκολα. Τα μοτίβα σχεδιάζονται και κατανοούνται εύκολα. Χρησιμότητα Αναζήτηση μικρού μήκους "υπογραφών" (signatures) Σελίδα 39

Patterns and regular expressions Περιορισμοί Ανεπαρκής μοντελοποίηση κενών Ανεπαρκής πρόβλεψη, τείνουν να αναγνωρίζουν μόνο τις ακολουθίες από τις οποίες κατασκευάστηκαν (training set) Δυαδική απάντηση (ΝΑΙ/ΟΧΙ) Σελίδα 40

ACA Τ ATG TCA A ATC ACA C AGC AGA - ATC ACC G ATC Patterns and regular expressions [AT]-[CG]-[AC]-x(0,1)-A-[TG]-[GC] Είναι το ίδιο πιθανές οι ακολουθίες που προκύπτουν από το μοτίβο; T G C T A G G A C A C A T C Σελίδα 41

Patterns and regular expressions Prosite http://prosite.expasy.org/ 1308 patterns Precision = true hits / (true hits + false positives) Recall = true hits / (true hits + false negatives) Sequence logo Σελίδα 42

Position Specifc Scoring Matrix (PSSM) Πολλαπλή στοίχιση χωρίς κενά Υπολογισμός της συχνότητας εμφάνισης f i,j κάθε καταλοίπου i σε κάθε στήλη της στοίχισης j π.χ. f A,1 =0/5=0, f G,1 = 5/5=0 π.χ. f A,2 =0/5=0, f H,1 = 5/5=0 Ορισμένες συχνότητες αμινοξέων για κάποιες στήλες είναι ίσες με 0. Αποκλείονται αυτά τα αμινοξέα από τις συγκεκριμένες θέσεις. Χρήση pseudocounts Σελίδα 43

Position Specifc Scoring Matrix (PSSM) pseudocounts Πρόσθεση ενός μικρού αριθμού κατά των υπολογισμό όλων των συχνοτήτων π.χ. 1 π.χ. f A,1 = (0+1)/(5+20) = 0 = 0.04 π.χ. f G,1 = (5+1)/(5+20) = 0 = 0.24 Περισσότερο εξειδικευμένες προσεγγίσεις π.χ. Dirichlet mixtures Σελίδα 44

Position Specifc Scoring Matrix (PSSM) Κανονικοποίηση των συχνοτήτων Διαίρεση με την αναμενόμενη συχνότητα εμφάνισης q i των καταλοίπων σε μια τυχαία ακολουθία π.χ. ίδια συχνότητα για όλα τα αμινοξέα q i = 1/20 = 0.05 π.χ. βάσει των συχνοτήτων εμφάνισης στην Uniprot Υπολογισμός του score S ij του καταλοίπου i στη στήλη j S ij log 2 f q ' ij i π.χ. S A,1 = log 2 (0.04/0.05) = -0.32 π.χ. S G,1 = log 2 (0.24/0.05) = 2.26 Σελίδα 45

Position Specifc Scoring Matrix (PSSM) Στάθμιση των ακολουθιών κατά των υπολογισμό των συχνοτήτων μικρό στατιστικό βάρος για πολύ όμοιες ακολουθίες μεγάλο στατιστικό βάρος για λιγότερο όμοιες ακολουθίες Το PSSM εφαρμόζεται ως κυλιόμενο παράθυρο σε μία ακολουθία Σε κάθε θέση υπολογίζεται το score, αθροίζοντας τα επιμέρους scores. Στο τέλος αναφέρεται η θέση με το μεγαλύτερο score. Σελίδα 46

Position Specifc Scoring Matrix (PSSM) T S G H E L V G G V A F P A R C A S T S G H E L V G G V A F P A R C A S T S G H E L V G G V A F P A R C A S T S G H E L V G G V A F P A R C A S

Position Specifc Scoring Matrix (PSSM) S T,1 + S S,2 + S G,3 + S H,4 + S E,5 S L,6 + S V,7 + S G,8 + S G,9 + S V,10 + S A,11 + S F,12 = -1-1-1-1+2-1-1-1+2-1-1-1 = -6 Σελίδα 48

Position Specifc Scoring Matrix (PSSM) S G,1 + S H,2 + S E,3 + S L,4 + S V,5 S G,6 + S G,7 + S V,8 + S A,9 + S F,10 + S P,11 + S A,12 = 6.8+6.8+6.8+2+2+6.8+2+2-1-1+2+3.8 = 39 Σελίδα 49

Position Specifc Scoring Matrix (PSSM) Κατανομή των scores του PSSM σε τυχαίες ακολουθίες Εκτίμηση ενός E-value αριθμός των τυχαίων ακολουθιών με PSSM score ίσο ή μεγαλύτερο του παρατηρηθέντος Σελίδα 50

Position Specifc Scoring Matrix (PSSM) Eξάγονται αυτόματα από μη στοιχισμένες ακολουθίες MEME http://tools.genouest.org/tools/meme/intro.html Πλεονεκτήματα γρήγορη και εύκολη υλοποίηση επιστρέφουν score Περιορισμοί απαγορεύονται τα κενά, δεν μπορούν να μοντελοποιηθούν μεγάλες περιοχές Χρησιμότητα για τη μοντελοποίηση περιοχών υψηλής μεταβλητότητας αλλά σταθερού μήκους Σελίδα 51

Position Specifc Scoring Matrix (PSSM) fingerprints συνδυασμός δύο ή περισσότερων PSSMs για την περιγραφή μιας μεγάλου μήκους περιοχής PRINTS http://www.bioinf.man.ac.uk/dbbrowser/prints/index.php Σελίδα 52

Generalized Profiles Επέκταση των PSSMs με τη χρήση ποινών για διαγραφές και προσθήκες που εξαρτώνται από τη θέση Prosite http://prosite.expasy.org/ MyHits http://myhits.isb-sib.ch/ Ιδιαίτερα ευαίσθητη αναζήτηση απομακρυσμένων ομόλογων ακολουθιών Προγράμματα για τη δημιουργία και τη βαθμονόμηση του profile Υψηλές υπολογιστικές απαιτήσεις Σελίδα 53