Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns Δρ. Μαργαρίτα Θεοδωροπούλου

Από τα πιο σημαντικά προβλήματα στην Υπολογιστική Βιολογία Ιδιαίτερα πλούσια βιβλιογραφία για πάνω από 30 χρόνια Η ομοιότητα δυο ακολουθιών αντανακλά κατά βάση την κοινή εξελικτική προέλευση 2

Ίδιο γονίδιο, διαφορετικός οργανισμός Ίδιος οργανισμός Παρόμοια λειτουργία Προϊόν γονιδιακού διπλασιασμού 4

Σημαντικά ζητήματα στη στοίχιση ακολουθιών Το είδος των στοιχίσεων που μας ενδιαφέρουν Το σύστημα βαθμονόμησης (scoring system) Ο αλγόριθμος που θα χρησιμοποιήσουμε για την εύρεση της καλής ή και της βέλτιστης στοίχισης Ο τρόπος προσδιορισμού της στατιστικής σημαντικότητας μιας στοίχισης 6

Στοίχιση αλληλουχιών κατά ζεύγη. Γιατί; Προσδιορισμός της ομοιότητας μεταξύ δύο ακολουθιών Εύρεση όμοιων ακολουθιών σε μια μεγάλη βάση δεδομένων Ακολουθία με γνωστή λειτουργία ή/και δομή Εύρεση ομοιότητας μέσω στοίχισης κατά ζεύγη Απόδοση λειτουργικού ή/και δομικού ρόλου (ιδιότητες) σε μια άγνωστη πρωτεΐνη 7

Παράδειγμα Έστω 2 ακολουθίες x,y (ίδιου ή διαφορετικού μήκους) x=x 1,x 2,,x n y=y 1,y 2,,y m Μας ενδιαφέρει η εύρεση της μέγιστης κοινής περιοχής τους (πλήρης ταύτιση) Η απλή απαρίθμηση όλων των πιθανών κοινών υπό-περιοχών είναι απαγορευτική Χρειαζόμαστε έναν πιο αποδοτικό αλγόριθμο (δυναμικός προγραμματισμός) 8

Πίνακες ομοιότητας Μπορούμε έτσι να ορίσουμε έναν πίνακα ομοιότητας με διαστάσεις όσο το μέγεθος του αλφαβήτου (4x4 για DNA, 20x20 για πρωτεΐνες), π.χ.: Για τη μη-ταύτιση (mismatch), μπορούμε να ορίσουμε μια πολύ μεγάλη ποινή (- ) έτσι ώστε να απαγορεύουμε πρακτικά την ταύτιση μη όμοιων καταλοίπων 9

Διάφοροι πίνακες αντικατάστασης PAM => Point Accepted Mutations (Dayhoff et al): Ως Αποδεκτή Σημειακή Μεταλλαγή σε μια πρωτεΐνη θεωρείται η αντικατάσταση ενός αμινοξικού καταλοίπου της με ένα κατάλοιπο διαφορετικού τύπου, η οποία έχει γίνει αποδεκτή μέσω της διαδικασίας της Φυσικής Επιλογής. Προέκυψε από πολλαπλή στοίχιση ακολουθιών με γνωστή εξελικτική σχέση και επίπεδο ομοιότητας >85%. PAM1, PAM30, PAM250 κλπ. Προϋποθέτει ένα Μαρκοβιανό μοντέλο εξέλιξης. Σχεδιάστηκε για να εντοπίζει εξελικτικές σχέσεις, στοίχιση συγγενών ακολουθιών. Η χρήση πινάκων με μικρό Ν ενδείκνυται όταν οι εξεταζόμενες ακολουθίες είναι πολύ όμοιες (μικρή εξελικτική απόσταση), ενώ στην περίπτωση περισσότερο απομακρυσμένων ομοιοτήτων χρησιμοποιούμε πίνακες μεγαλύτερου Ν. Στις περιπτώσεις εκείνες κατά τις οποίες δε γνωρίζουμε εκ των προτέρων την ομοιότητα των προς σύγκριση ακολουθιών (π.χ. σε αναζητήσεις έναντι βάσεων δεδομένων) επιλέγουμε ένα ενδιάμεσο πίνακα, όπως τον PAM-250, ο οποίος αντιστοιχεί σε συντήρηση της τάξης του 20-25%. BLOSUM => BLOcks SUbstistution Matrcices (Henikoff and Henikoff): Προέκυψαν από πολλαπλές στοιχίσεις ακολουθιών με γνωστή κάθε φορά εξελικτική σχέση και διαφορετικό επίπεδο ομοιότητας Δεν προϋποθέτουν ένα εξελικτικό μοντέλο αλλά το προσεγγίζουν εμπειρικά BLOSUM50, BLOSUM62, κλπ Στοίχιση απομακρυσμένων αλληλουχιών Εύρεση τοπικών ομοιοτήτων 10

Scoring DNA substitutions A T C G A 1-3 -3-3 T -3 1-3 -3 C -3-3 1-3 G -3-3 -3 1 12

BLOSUM62 Scoring amino acid substitutions A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4-1 -2-2 0-1 -1 0-2 -1-1 -1-1 -2-1 1 0-3 -2 0-2 -1 0-4 R -1 5 0-2 -3 1 0-2 0-3 -2 2-1 -3-2 -1-1 -3-2 -3-1 0-1 -4 N -2 0 6 1-3 0 0 0 1-3 -3 0-2 -3-2 1 0-4 -2-3 3 0-1 -4 D -2-2 1 6-3 0 2-1 -1-3 -4-1 -3-3 -1 0-1 -4-3 -3 4 1-1 -4 C 0-3 -3-3 9-3 -4-3 -3-1 -1-3 -1-2 -3-1 -1-2 -2-1 -3-3 -2-4 Q -1 1 0 0-3 5 2-2 0-3 -2 1 0-3 -1 0-1 -2-1 -2 0 3-1 -4 E -1 0 0 2-4 2 5-2 0-3 -3 1-2 -3-1 0-1 -3-2 -2 1 4-1 -4 G 0-2 0-1 -3-2 -2 6-2 -4-4 -2-3 -3-2 0-2 -2-3 -3-1 -2-1 -4 H -2 0 1-1 -3 0 0-2 8-3 -3-1 -2-1 -2-1 -2-2 2-3 0 0-1 -4 I -1-3 -3-3 -1-3 -3-4 -3 4 2-3 1 0-3 -2-1 -3-1 3-3 -3-1 -4 L -1-2 -3-4 -1-2 -3-4 -3 2 4-2 2 0-3 -2-1 -2-1 1-4 -3-1 -4 K -1 2 0-1 -3 1 1-2 -1-3 -2 5-1 -3-1 0-1 -3-2 -2 0 1-1 -4 M -1-1 -2-3 -1 0-2 -3-2 1 2-1 5 0-2 -1-1 -1-1 1-3 -1-1 -4 F -2-3 -3-3 -2-3 -3-3 -1 0 0-3 0 6-4 -2-2 1 3-1 -3-3 -1-4 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7-1 -1-4 -3-2 -2-1 -2-4 S 1-1 1 0-1 0 0 0-1 -2-2 0-1 -2-1 4 1-3 -2-2 0 0 0-4 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-2 -2 0-1 -1 0-4 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 2-3 -4-3 -2-4 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7-1 -3-2 -1-4 V 0-3 -3-3 -1-2 -2-3 -3 3 1-2 1-1 -2-2 0-3 -1 4-3 -2-1 -4 B -2-1 3 4-3 0 1-1 0-3 -4 0-3 -3-2 0-1 -4-3 -3 4 1-1 -4 Z -1 0 0 1-3 3 4-2 0-3 -3 1-1 -3-1 0-1 -3-2 -2 1 4-1 -4 X 0-1 -1-1 -2-1 -1-1 -1-1 -1-1 -1-1 -2 0 0-2 -1-1 -1-1 -1-4 * -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4 1 13

Dotplot L W R R F H N L G T E L x x W x R x x F x H x N x V G x T x A A C G C C T G T A A A C C T A A A T G C T G T T A A C C T 16

Ευριστικοί Αλγόριθμοι (Heuristic) Χρησιμοποιούν προσεγγίσεις που επιτρέπουν στην αναζήτηση ομολόγων ακολουθίες στις ΒΔ να γίνει πιο γρήγορα (σε σχέση με τους σχολαστικούς αλγόριθμους) Συνεπώς δεν εγγυώνται ότι όλες οι ομόλογες ακολουθίες θα βρεθούν κατά την αναζήτηση, αν και η πιθανότητα να διαφύγουν αλληλουχίες είναι μάλλον μικρή Οι αλγόριθμοι είναι τόσο πιο γρήγοροι από τους σχολαστικού ώστε πλέον τους έχουν υποκαταστήσει πλήρως στις αναζητήσεις στις βάσεις δεδομένων Οι δύο πιο γνωστοί είναι: BLAST https://blast.ncbi.nlm.nih.gov/blast.cgi FASTA http://www.ebi.ac.uk/tools/sss/fasta/ Η θεμελιώδης προσέγγιση που χρησιμοποιούν στηρίζεται σε «λέξεις», δηλαδή μικρού μήκους υπο-ακολουθίες διαδοχικών καταλοίπων. Η υπόθεση είναι ότι δύο ομόλογες αλληλουχίες θα έχουν τουλάχιστον μια «λέξη» κοινή. 27

Ευριστικοί Αλγόριθμοι (Heuristic) Οι «λέξεις» είναι μικρού μήκους ακολουθίες και έτσι η αναζήτηση στις αλληλουχίες μιας βάσης δεδομένων μπορεί να γίνει πολύ γρήγορα. Όμως το αποτέλεσμα περιέχει θόρυβο, δηλαδή πολλές αλληλουχίες οι οποίες συμπτωματικά έχουν κάποια ή κάποιες κοινές λέξεις με την αλληλουχία-στόχο. Για το λόγο αυτό και οι δύο αλγόριθμοι χρησιμοποιούν επιπλέον κριτήρια για να περιορίσουν περαιτέρω τον αριθμό των αλληλουχιών που βρίσκουν με την πρώτη έρευνα. Το μήκος αυτών των λέξεων καθορίζει και την ευαισθησία της αρχικής έρευνας: όσο μεγαλύτερο το μήκος της λέξης, τόσο πιο απίθανο θα είναι να βρεθούν οι ίδιες λέξεις στις βάσεις κατά τύχη. Ταυτόχρονα όμως αυξάνει η πιθανότητα μια αληθώς ομόλογη αλληλουχία να διαφύγει της έρευνας (ιδιαίτερα για αλληλουχίες με μακρινή εξελικτική σχέση). Συνεπώς, συνήθως το μήκος των λέξεων είναι μικρό. 28

Ευριστικοί αλγόριθμοι στοίχισης (Heuristic alignment algorithms) Είναι αναγκαίοι για τη μείωση του απαιτούμενου υπολογιστικού χρόνου, ειδικά σε αναζητήσεις σε βάσεις δεδομένων Απαραίτητα χαρακτηριστικά τους: Να μη διαφέρουν σημαντικά από τις «ακριβείς» (μαθηματικά βέλτιστες) λύσεις των μεθόδων δυναμικού προγραμματισμού. Να μην αποκλείουν βιολογικά πιθανές λύσεις. Βασικές κατηγορίες τέτοιων αλγορίθμων: Μέθοδος «κοπής γωνιών» (banded alignment) Μέθοδος FASTA Μέθοδος BLAST 30

Η βασική ιδέα έγκειται στη δημιουργία ενός ευρετηρίου με τις θέσεις όλων των k-tuples (λέξεις μεγέθους k, τυπικό μήκος για αμινοξικές ακολουθίες 1 ή 2) που υπάρχουν και στις δύο ακολουθίες. Από τη διαφορά των θέσεών τους στις δύο ακολουθίες εντοπίζεται η διαγώνιος στην οποία βρίσκονται, οπότε στο επόμενο βήμα εντοπίζονται οι διαγώνιες με τα περισσότερα k-tuples. Ακολούθως, αυτές οι περιοχές ταύτισης συνενώνονται επιτρέποντας την εισαγωγή κενών με τον υπολογισμό της αντίστοιχης ποινής, και Τελικά πραγματοποιείται η διαδικασία πλήρους δυναμικού προγραμματισμού (με τον επιλεγμένο πίνακα αντικατάστασης), περιορισμένου σε μια ταινία γύρω από τις συγκεκριμένες διαγωνίους. Μέθοδος FASTA 31

Basic Local Alignment Search Tool (BLAST) Το βασικό εργαλείο στοίχισης αλληλουχιών που χρησιμοποιείται σήμερα. Σημαντικό εργαλείο για αναζήτηση σε βάσεις με αλληλουχίες. Κάνει αναζητήσεις σε βάσεις δεδομένων χρησιμοποιώντας νουκλεοτιδικές και αμινοξικές αλληλουχίες επερώτησης 34

Μέθοδος BLAST Η σύγκριση ξεκινά με την κατασκευή ενός καταλόγου όλων των λέξεων που θα ταίριαζαν με κάποια λέξη της άγνωστης ακολουθίας ξεπερνώντας την τιμή κατωφλίου (προκαθορισμένη Τ=13). Αναζητά αυτές τις λέξεις στις ακολουθίες της βάσης δεδομένων και όταν εντοπίζει κάποια ξεκινάει την επέκτασης προς τις δύο κατευθύνσεις, όσο η βαθμολογία συνεχίζει και αυξάνει. Από τις περιοχές μέγιστης βαθμολογίας που εντοπίζονται οι HSPs που αναφέρονται στα αποτελέσματα είναι εκείνες οι περιοχές που η βαθμολογία υπερβαίνει μια δεύτερη τιμή κατωφλίου S. Τελικά, επιλέγονται οι τοπικές ομοιότητες που εμφανίζουν υψηλή στατιστική σημαντικότητα. 35

Μέθοδος BLAST Words: όλες οι δυνατές λέξεις μήκους W Πρωτεΐνες: 3 κατάλοιπα DNA: 11 κατάλοιπα Δημιουργία ευρετηρίου για όλες τις λέξεις στις ακολουθίες της ΒΔ Για κάθε λέξη της ακολουθίας επερώτησης Εύρεση όλων των λέξεων (neighborhood words) που στοιχίζονται μαζί της με score μεγαλύτερο ενός κατωφλιού (neighborhood score threshold, T) χρησιμοποιώντας έναν πίνακα αντικατάστασης Αναζήτηση των neighborhood words έναντι του προκατασκευασμένου πίνακα με όλες τις λέξεις των ακολουθιών της ΒΔ για την αναγνώριση ενός High-scoring Segment Pair (HSP) Τερματισμός της επέκτασης όταν το score γίνει μικρότερο ενός προκαθορισμένου κατωφλιού Μεγαλύτερο Τ Μείωση των προσπαθειών εύρεσης HSPs 38

Στατιστική Σημαντικότητα των στοιχίσεων Αν λάβουμε με οποιοδήποτε τρόπο μια στοίχιση δυο ακολουθιών, θέλουμε να έχουμε έναν τρόπο να την αξιολογήσουμε (να ξέρουμε δηλαδή αν είναι στατιστικά σημαντική) Ιδιαίτερο νόημα έχει αυτό σε μια αναζήτηση σε μεγάλες βάσεις δεδομένων όπου αναμένουμε να δούμε έως και εκατοντάδες «ομόλογες» ακολουθίες Χρειαζόμαστε έναν έλεγχο υποθέσεων. Ηο: οι δυο ακολουθίες είναι ασυσχέτιστες, Ηα: οι δυο ακολουθίες σχετίζονται με κάποιο τρόπο (είναι ομόλογες) Ακόμα και αν βρεθεί στατιστικά σημαντική ομοιότητα, δεν σημαίνει ότι υπάρχει και βιολογική συσχέτιση των ακολουθιών, και το αντίστροφο (εξαρτάται από τις παραμέτρους, gap penalty, substitution matrix, αλγόριθμο στοίχισης κλπ) Τα πιο πολλά αποτελέσματα αναφέρονται στην τοπική στοίχιση 39

Στατιστική Σημαντικότητα των στοιχίσεων Συγκεκριμένα θέλουμε να είμαστε σε θέση να διαχωρίσουμε «τυχαία» ευρήματα από «σημαντικά». Το P-value ενός στατιστικού ελέγχου είναι η πιθανότητα ένα αποτέλεσμα τόσο ακραίο ή και περισσότερο να έχει προκύψει κατά τύχη δεδομένου ότι ισχύει η μηδενική υπόθεση (στην περίπτωσή μας ότι οι δύο ακολουθίες που συγκρίναμε δεν έχουν καμία σχέση μεταξύ τους). Είναι προφανές ότι αναφερόμαστε σε παραμετρικό έλεγχο και χρειάζεται να ξέρουμε την κατανομή που ακολουθεί η τυχαία μεταβλητή που μας ενδιαφέρει, στην προκειμένη περίπτωση το score. 40

Μέθοδος BLAST Η διαδικασία του BLAST, μοιάζει στα αρχικά στάδια με αυτή το FASTA, αλλά είναι ακόμα πιο γρήγορη καθώς πολλές παραμέτρους τις έχει προϋπολογισμένες και αποφεύγει τον να στοιχίσει αλληλουχίες της βάσης δεδομένων που ο αλγόριθμος κρίνει ότι δεν έχουν σημαντική ομοιότητα. Διαφορετικός τρόπος υπολογισμού της στατιστικής σημαντικότητας των ευρημάτων. Ενώ το BLAST υπολογίζει τις παραμέτρους της κατανομής (K, λ) από προσομοιώσεις, που έχει πραγματοποιήσει από πριν και έχει αποθηκευμένες τις παραμέτρους, το FASTA τις υπολογίζει από όλες τις άλλες αλληλουχίες της βάσης δεδομένων και για αυτόν τον λόγο είναι και πιο αργό. 44

Ερμηνεία των αποτελεσμάτων Το % ομοιότητα δεν είναι το καλύτερο κριτήριο για να «ανακηρύξουμε» ομολογία E-value < 0.001 συνήθως θεωρείται επαρκές, αλλά αυτό εξαρτάται πάντα και από το μέγεθος της βάσης στην οποία κάνουμε αναζήτηση E-value > 0.001 δεν είναι απόλυτη η μη ύπαρξη ομολογίας, καθώς μπορεί να υπάρχει σχέση αλλά μακρινή Να ξέρουμε ακριβώς τι είδους αναζητήσεις πραγματοποιούμε κάθε φορά (τα προγράμματα δεν πρόκειται να σκεφτούν για λογαριασμό μας) Να δοκιμάζουμε εναλλακτικές παραμέτρους (πίνακες αντικατάστασης, κλπ) Να έχουμε υπόψη μας ότι μπορεί να γίνει και λάθος (ένα ψευδώς θετικό αποτέλεσμα ή ένας λάθος σχολιασμός) Να έχουμε τα μάτια μας ανοιχτά για πιο ευαίσθητες μεθόδους (PSI-BLAST,HMMER) 48

Πολλαπλή στοίχιση Αναφέρεται στην ταυτόχρονη στοίχιση περισσοτέρων από 2 ακολουθιών Ιδιαίτερα σημαντική καθώς έτσι μπορούμε να εντοπίσουμε οικογένειες σχετιζόμενων ακολουθιών και να μελετήσουμε τα λειτουργικά χαρακτηριστικά τους Βασίζεται στις ίδιες αρχές με την κατά ζεύγη στοίχιση, αλλά υπάρχουν πιο πολλές δυσκολίες Μπορεί να μας δώσει μια εικόνα της φυλογενετικής προέλευσης των ακολουθιών 50

Προοδευτική πολλαπλή στοίχιση Αρχικές κατά ζεύγη στοιχίσεις όλων των ακολουθιών Με βάση αυτές, κατασκευή πίνακα αποστάσεων και ενός δέντρου οδηγού (guide tree) Προοδευτική στοίχιση των πιο όμοιων ακολουθιών μεταξύ τους, μέχρι τέλους 51

Συνέχεια 52

Διαθέσιμες μέθοδοι MSA (http://xylian.igh.cnrs.fr/msa/msa.html) CLUSTALW, CLUSTALX, CLUSTAL OMEGA (http://www.ebi.ac.uk/tools/msa/, https://www.ebi.ac.uk/tools/msa/clustalo/) DIALIGN (http://bibiserv.techfak.uni-bielefeld.de/dialign/) T-COFFEE (http://tcoffee.vital-it.ch/apps/tcoffee/index.html) Kalign (http://www.ebi.ac.uk/tools/msa/kalign/) etc 54

Οπτικοποίηση και επεξεργασία πολλαπλών στοιχίσεων Jalview (http://www.jalview.org/) Strap (http://www.charite.de/bioinf/strap/) Chroma (http://www.lg.ndirect.co.uk/chroma/) Seqpup (http://iubio.bio.indiana.edu/soft/molbio/seqpup/java/seqpup-doc.html) Seaview (http://pbil.univ-lyon1.fr/software/seaview.html) Cinema (http://umber.sbs.man.ac.uk/dbbrowser/cinema2.1/) Boxshade (http://www.ch.embnet.org/software/box_form.html) 55

Jalview 56

Αξιολόγηση των πολλαπλών στοιχίσεων Βασίζεται κυρίως σε δομικές στοιχίσεις ελεγμένες από ειδικούς. Παρ όλα αυτά δεν υπάρχει ακόμα «απολύτως αντικειμενικός» και αποδεκτός τρόπος για αξιολόγηση BaliBase (http://www-igbmc. u-strasbg.fr/bioinfo/balibase/index.html ) OxBench (http://www.compbio.dundee.ac.uk/) Dbali (http://salilab.org/dbali/) APDB (O Sullivan et al, 2003) 57

Motifs, Profiles και Patterns σε πολλαπλές στοιχίσεις PROSITE Syntax: P-A-[FW]-X-[YW]-[LV]-S-C-X(3)-[WYH]-Q-X(1-7)-[EQ]-G-H-Y Regular Expression: PA[FW].[YW][LV]SC.{3}[WYH]Q.{1,7}[EQ]GHY 58

Τα αμινοξέα ή τα νουκλεοτίδια αναπαρίστανται με τον τυπικό κωδικό του ενός γράμματος της IUPAC. Κάθε θέση της πολλαπλής στοίχισης αντιστοιχεί σε μια θέση στο πρότυπο, η οποία διαχωρίζεται από τις υπόλοιπες με μία παύλα (-). Οι θέσεις είναι ανεξάρτητες μεταξύ τους. Patterns - Κανόνες Αν σε κάποια θέση εμφανίζεται μόνο ένας χαρακτήρας, τότε στο πρότυπο χρησιμοποιείται αυτούσιος (π.χ. Α, Τ κ.ο.κ.) Αν σε κάποια θέση εμφανίζονται δύο ή περισσότεροι χαρακτήρες τότε αυτοί εμφανίζονται μέσα σε άγκυστρο, για παράδειγμα [ΑΤ] σημαίνει ότι επιτρέπεται Α ή Τ, ενώ [ACG] σημαίνει ότι επιτρέπεται είτε A, είτε G, είτε C. Αν σε κάποια θέση επιτρέπεται να εμφανιστεί οποιοδήποτε σύμβολο, τότε αυτή η θέση συμβολίζεται με x. Αν σε κάποια θέση επιτρέπεται να εμφανιστεί οποιοδήποτε σύμβολο εκτός από κάποιο/α, τότε τη θέση τη συμβολίζουμε με {}. Για παράδειγμα, για να πούμε «οποιοδήποτε νουκλεοτίδιο εκτός από Α» γράφουμε {Α} το οποίο στην περίπτωση του DNA είναι ισοδύναμο με το [CGT]. Προφανώς, αυτός ο κανόνας είναι περισσότερο χρήσιμος στην περίπτωση των πρωτεϊνών με το μεγάλο αλφάβητο. Επαναλήψεις συμβολίζονται με παρένθεση (). Για παράδειγμα το Α(3) σημαίνει Α-Α-Α, ενώ το x(3) σημαίνει x-x-x (δηλαδή 3 οποιαδήποτε σύμβολα). Επίσης, μέσα στην παρένθεση μπορεί να μπει και ένα εύρος τιμών. Έτσι, το x(2,4) σημαίνει x-x, ή x-x-x, ή x-x-x-x. Η αρχή και το τέλος της αλληλουχίας συμβολίζονται με τα σύμβολα < και > αντίστοιχα. Έτσι, για να πούμε ότι η αλληλουχία αρχίζει με Α και μετά ακολουθεί οποιοδήποτε σύμβολο γράφουμε <A-x Σε κάποιες ειδικές περιπτώσεις το σύμβολο '>' μπορεί να εμφανιστεί μέσα στα άγκιστρα για να χαρακτηρίσει την ύπαρξη καρβοξυτελικού άκρου. Έτσι, το P-R-L-[G>] σημαίνει είτε P-R-LG ή P-R-L>. 59

Regular Expressions Όπως αναφέραμε ήδη, οι κανονικές εκφράσεις (regular expressions) και οι εκφράσεις της PROSITE είναι ισοδύναμες. Οι διαφορές στη σύνταξη είναι οι εξής: Η κάθε θέση αναγράφεται συνεχόμενα χωρίς να μεσολαβεί η παύλα (-). Το σύμβολο για «οποιοδήποτε» χαρακτήρα είναι η τελεία (.) αντί για το x Το σύμβολο για το «οποιοδήποτε χαρακτήρα εκτός από» είναι το ^ μέσα στην αγκύλη, και όχι το άγκiστρο {}. Για παράδειγμα, αν θεωρήσουμε το πρότυπο της PROSITE που δίνεται από την έκφραση: [RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM] τότε η αντίστοιχη κανονική έκφραση θα είναι: [RK]G[^EDRKHPCG][AGSCI][FY][LIVA].[FYM] 60

EGF domain AGRI_CHICK/1-3 PCDSH--PCLHGGTCEDD------GREFTCRCPAGKGGAVCE GLP1_CAEEL/2-0 PCDSD--PCNNG-LCYPFY------GGFQCICNNGYGGSYCE NTC3_MOUSE/25- PCFSR--PCLHGGICNPTH------PGFECTCREGFTGSQCQ NTC3_MOUSE/19- ACESQ--PCQAGGTCTSDG------IGFRCTCAPGFQGHQCE NTC3_MOUSE/32- PCESQ--PCQHGGQCRHSLGRGGG-LTFTCHCVPPFWGLRCE CRB_DROME/14-0 ECDSN--PCSKHGNCNDGI------GTYTCECEPGFEGTHCE NTC4_MOUSE/25- LCQSQ--PCSNGGSCEITTGPP---PGFTCHCPKGFEGPTCS NTC4_MOUSE/17- ACHSG--PCLNGGSCSIRP------EGYSCTCLPSHTGRHCQ FAT_DROME/2-0 VCYSK--PCRNGGSCQRSPDG----SSYFCLCRPGFRGNQCE NOTC_BRARE/3-0 ACMNS--PCRNGGTCSLLTL-----DTFTCRCQPGWSGKTCQ NOTC_BRARE/6-0 PCLPS--PCRSGGTCVQTSD-----TTHTCSCLPGFTGQTCE DLK_HUMAN/4-0 NCASS--PCQNGGTCLQHTQ-----VSYECLCKPEFTGLTCV NTC4_MOUSE/1-3 LCGGSPEPCANGGTCLRLSQ-----GQGICQCAPGFLGETCQ NOTC_BRARE/9-0 DCASA--ACSHGATCHDRV------ASFFCECPHGRTGLLCH NTC4_MOUSE/18- HCVSA--SCLNGGTCVNKP------GTFFCLCATGFQGLHCE DLL1_MOUSE/6-0 DCASS--PCANGGTCRDSV------NDFSCTCPPGYTGKNCS DL_DROME/7-0 LCLIR--PCANGGTCLNLN------NDYQCTCRAGFTGKDCS FBP1_STRPU/2-0 DCDPN--LCQNGAACTDLV------NDYACTCPPGFTGRNCE * * * * C-x-C-x(5)-G-x(2)-C 61

Patterns Απλά στην κατασκευή και διαισθητικά Εύκολα στην υλοποίηση και αναζήτηση Δύσκαμπτα σε πιο πολύπλοκες καταστάσεις Πολλά false positive/false negative Τα μικρά patterns έχουν μεγάλη πιθανότητα τυχαίας εμφάνισης Motifs: small patterns 62

Patterns - Λογισμικό PRATT ( http://web.expasy.org/pratt/ ) MEME ( http://meme-suite.org/tools/meme ) Gibbs Motif Sampler ( http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html ) TEIRESIAS ( https://cm.jefferson.edu/teiresias/ ) 63

Profiles και Position Specific Scoring Matrices (PSSMs) Πολύ πιο ευέλικτα και ευαίσθητα P A-[FW]-X-[YW]-[LV]-S- C- X(3) -[WYH]-Q... G 1 2 3 4 5 6 7 8 9 10 11 12 13 21 P:100% A:100% F:85% X:100% Y:85% L:85% S:100% C:100% X:100% X:100% X:100% W:70% Q:100% G:100% W:15% W:15% V:15% Y:15% H:15% Ένα profile μπορούμε να το μετατρέψουμε σε PSSM 64

Η «αρθρωτή» φύση των πρωτεϊνών SGIRIIVVALYDYEAIHHEDLSFQKGDQMVVLEESGEWWKARSLATRKEGYIPSNYVARV DSLETEEWFFKGISRKDAERQLLAPGNMLGSFMIRDSETTKGSYSLSVRDYDPRQGDTVK HYKIRTLDNGGFYISPRSTFSTLQELVDHYKKGNDGLCQKLSVPCMSSKPQKPWEKDAWE IPRESLKLEKKLGAGQFGEVWMATYNKHTKVAVKTMKPGSMSVEAFLAEANVMKTLQHDK LVKLHAVVTKEPIYIITEFMAKGSLLDFLKSDEGSKQPLPKLIDFSAQIAEGMAFIEQRN YIHRDLRAANILVSASLVCKIADFGLARVIEDNEYTAREGAKFPIKWTAPEAINFGSFTI KSDVWSFGILLMEIVTYGRIPYPGMSNPEVIRALERGYRMPRPENCPEELYNIMMRCWKN RPEERPTFEYIQSVLDDFYTATESQEEIP Πρωτεϊνικές περιοχές (domains) 65

«Τοπική» ομοιότητα vav src42 csw 66

Εύρεση νέων domains BLAST BLAST Boring Interesting 67

Τι γίνεται αν δεν υπάρχει μεγάλη ομοιότητα? Ανάγκη για πιο ευαίσθητες μεθόδους PSSM, PSI-BLAST, HMMs, κλπ 68

PSI-BLAST (Position-specific iterated BLAST) 69

PHI-BLAST (Pattern-hit initiated BLAST) 70

Φυλογενετικές σχέσεις Χρησιμοποιούνται οι ομοιότητες και οι διαφορές των υπό μελέτη οργανισμών Τα χαρακτηριστικά που μελετώνται, ενώ παλιά ήταν μορφολογικάανατομικά, τώρα πλέον είναι όλο και περισσότερο μοριακά Οποιαδήποτε ομάδα οργανισμών προέρχεται από έναν κοινό πρόγονο μέσω της εξέλιξης Υπάρχει διχαλωτό πρότυπο στην εξέλιξη Αλλαγή στα χαρακτηριστικά εμφανίζεται μετά το πέρασμα πολλών γενιών 71

Clade, Taxon, Node Ορολογία στα δέντρα Στις πιο πολλές αναλύσεις, το μήκος των βραχιόνων ανταποκρίνεται στη φυλογενετική απόσταση-απόκλιση 72

Ορθόλογα και Παράλογα Γεγονότα ειδογένεσης Worm Ορθόλογα Fly Γεγονότα διπλασιασμού γονιδίων Human 1 Human 2 Yeast 1 Yeast 2 Παράλογα Παράλογα 73

Φυλογενετικές σχέσεις Όταν έχουμε κάποιες αλληλουχίες και θέλουμε να εκτιμήσουμε τις φυλογενετικές τους σχέσεις, μια αναπαράσταση σε μορφή δέντρου μας δείχνει πόσο κοντά βρίσκεται η μία αλληλουχία στην άλλη, δηλαδή με ποια σειρά οι αλληλουχίες εξελίχθηκαν η μία από την άλλη, και γυρνώντας πίσω στο χρόνο μπορούμε να εντοπίσουμε τελικά τον κοινό τους πρόγονο. Στα δέντρα με ρίζα (rooted) έχουμε ξεκάθαρη κατεύθυνση του χρόνου και μπορούμε να προσδιορίσουμε τον αρχαίο κοινό πρόγονο. Εναλλακτικά υπάρχουν και δέντρα χωρίς ρίζα (unrooted), στα οποία δεν μπορούμε να προσδιορίσουμε την κατεύθυνση κατά την οποία έχει συντελεστεί η εξελικτική διαδικασία. 74