ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων ΕΙΣΑΓΩΓΗ Ένας από τους πρωταρχικούς στόχους της σύγκρισης των ακολουθιών δύο µακροµορίων είναι η εκτίµηση της οµοιότητάς τους και η εξαγωγή συµπερασµάτων σχετικά µε το αν είναι οµόλογες ή όχι. Η οµοιότητα (similarity) είναι µία παρατηρήσιµη ποσότητα που µπορεί να εκφρασθεί ως το ποσοστό των ταυτόσηµων καταλοίπων µεταξύ δύο ακολουθιών ή µε τη χρήση κάποιου άλλου κατάλληλου µέτρου. Η οµολογία (homology) αναφέρεται στο συµπέρασµα που προκύπτει από την ανάλυση των δεδοµένων ότι δύο γονίδια / πρωτεΐνες έχουν κοινή εξελικτική ιστορία, ότι απέκλιναν δηλαδή από µία κοινή προγονική ακολουθία µέσω αντικαταστάσεων (substitutions), ενθέσεων (insertions) και διαγραφών (deletions). Σ αύτη την περίπτωση, ενδέχεται να έχουν κοινή δοµή και λειτουργία. Σχήµα 1. Παράδειγµα στοίχισης ακολουθιών. Για τα ταυτόσηµα κατάλοιπα αναγράφονται τα αντίστοιχα γράµµατα, ενώ οι συντηρητικές αντικαταστάσεις συµβολίζονται µε + και τα κενά µε -. Η ευρύτερα χρησιµοποιούµενη τεχνική σύγκρισης είναι η στοίχιση ή ευθυγράµµιση των ακολουθιών (sequence alignment), η αντιστοίχιση δηλαδή των καταλοίπων των δύο ακολουθιών. Σε κάθε ευθυγράµµιση, οι υπό σύγκριση ακολουθίες τοποθετούνται η µία κάτω από την άλλη, έτσι ώστε ταυτόσηµα κατάλοιπα να βρίσκονται στην ίδια στήλη (matches). Στην ιδανική περίπτωση που η ευθυγράµµιση απεικονίζει την εξελικτική ιστορία δύο γονιδίων ή πρωτεϊνών, τα κατάλοιπα που έχουν στοιχηθεί αλλά δεν είναι ταυτόσηµα (mismatches) αντιπροσωπεύουν τις αντικαταστάσεις. Περιοχές όπου τα κατάλοιπα της µιας ακολουθίας δεν στοιχίζονται µε κατάλοιπα της άλλης ερµηνεύονται ως ενθέσεις στη µία ακολουθία ή διαγραφές στην άλλη. Αυτά τα κενά (gaps) συνήθως αναπαριστάνονται στη στοίχιση ως διαδοχικές παύλες (ή µε κάποιο άλλο χαρακτήρα) ευθυγραµµισµένες µε τα σύµβολα των καταλοίπων (σχήµα 1). Η πρόκληση στην ανά ζεύγη ευθυγράµµιση ακολουθιών είναι η εύρεση της βέλτιστης στοίχισης, η οποία συνήθως καθορίζεται βάσει ενός score που αντανακλά τα ταυτόσηµα κατάλοιπα, τις αντικαταστάσεις και τον αριθµό και το µήκος των εισαγόµενων κενών. Η βέλτιστη στοίχιση ενδέχεται να µην είναι µοναδική: διαφορετικές στοιχίσεις µπορεί να έχουν το ίδιο βέλτιστο score. Επιπλέον, ακόµα και µικρές 1
αλλαγές στο σύστηµα βαθµολόγησης (scoring system) ενδέχεται να αλλάξουν τη βέλτιστη στοίχιση. Σχήµα 2. Ολική (Global) έναντι Τοπικής (Local) Στοίχισης. Η στοίχιση δύο ακολουθιών µπορεί να είναι ολική ή τοπική (σχήµα 2). Η ολική στοίχιση (global alignment) αποτελεί µία προσπάθεια ευθυγράµµισης δύο ακολουθιών µε τη στοίχιση όσο το δυνατόν περισσότερων χαρακτήρων καθ όλο το µήκος τους. Η ολική στοίχιση βασίζεται στο συνολικό score, ακόµα και σε βάρος τµηµάτων των ακολουθιών που έχουν προφανή οµοιότητα. Ωστόσο, πολλές πρωτεΐνες δεν παρουσιάζουν οµοιότητες καθ όλο το µήκος τους αλλά µόνο κατά µήκος αυτοτελών περιοχών (domains), γεγονός που δεν λαµβάνεται υπόψη στην ολική στοίχιση. Στην τοπική στοίχιση (local alignment), επιδιώκεται η ευθυγράµµιση υπακολουθιών µε υψηλό score οµοιότητας, οι οποίες περιβάλλονται από µη σχετιζόµενα κατάλοιπα. Σχήµα 3. Αντιστοιχία πινάκων αντικατάστασης PAM και BLOSUM. Ορισµένα αµινοξέα µπορούν να αντικαταστήσουν κάποια άλλα µε παρόµοιες φυσικοχηµικές ιδιότητες σε συγγενείς πρωτεΐνες, χωρίς να καταστρέψουν τη δοµή και λειτουργία τους (συντηρητικές αντικαταστάσεις / conservative substitutions). Κατά τον υπολογισµό του score οµοιότητας µιας ευθυγράµµισης, θα πρέπει να αποδίδεται µεγαλύτερο score στη στοίχιση ταυτόσηµων αµινοξέων σε σχέση µε τις αντικαταστάσεις, αλλά και στις συντηρητικές έναντι των µη συντηρητικών αντικαταστάσεων. Παράλληλα, ευνοείται η χρήση διαφορετικών τιµών για τη στοίχιση εξελικτικά κοντινών ή αποµακρυσµένων ακολουθιών. Οι προαναφερθέντες παράγοντες οδήγησαν στη δηµιουργία πινάκων αντικατάστασης (substitution matrices) που περιέχουν τα scores 2
για τη στοίχιση όλων των ανά δύο καταλοίπων. ύο από τις δηµοφιλέστερες οικογένειες πινάκων αντικατάστασης είναι οι πίνακες PAM (Percent Accepted Mutation) και BLOSUM (Blocks Amino Acid Substitution Matrix) (σχήµα 3). Η εισαγωγή κενών στην ευθυγράµµιση συνοδεύεται συνήθως από µείωση του score οµοιότητας, προκειµένου τα κενά να εισάγονται µόνο όταν είναι απαραίτητα. Το ευρύτερα χρησιµοποιούµενο µοντέλο ποινών είναι το affine gap penalty, όπου το κόστος για το άνοιγµα ενός κενού σε µία ακολουθία (gap opening penalty) είναι διαφορετικό από το κόστος για την επέκταση ενός κενού που έχει ήδη ανοίξει (gap extension penalty). Συνήθως η gap opening penalty είναι πολύ µεγαλύτερη, γεγονός που αντανακλά την τάση οι ενθέσεις και οι διαγραφές να συµβαίνουν σε διαδοχικά κατάλοιπα. Η επιλογή των παραµέτρων για τις ποινές των κενών είναι εµπειρική και εξαρτάται στενά από τον πίνακα αντικατάστασης που χρησιµοποιείται για τη στοίχιση των ακολουθιών. Έτσι, το εµπειρικά καθορισµένο βέλτιστο ζεύγος για τις παραµέτρους gap opening & extension penalties για έναν πίνακα αντικατάστασης δεν είναι κατ ανάγκη αποτελεσµατικό για έναν άλλο πίνακα. Σχήµα 4. Παράδειγµα στοίχισης ακολουθιών µε τη χρήση διαγράµµατα πινάκων σηµείων (dot plots). Μία από τις απλούστερες τεχνικές στοίχισης δύο ακολουθιών είναι τα διαγράµµατα πινάκων σηµείων (dot plots), στα οποία σχηµατίζονται διαγώνιες γραµµές κατά µήκος των περιοχών οµοιότητας των ακολουθιών (σχήµα 4). Οι αλγόριθµοι δυναµικού προγραµµατισµού βασίζονται στην αρχή "διαίρει και βασίλευε" και εγγυώνται την εύρεση της βέλτιστης στοίχισης των ακολουθιών για το συγκεκριµένο σύστηµα βαθµολόγησης. Ο κλασικός αλγόριθµος δυναµικού προγραµµατισµού για την ολική στοίχιση δύο ακολουθιών είναι ο αλγόριθµος Needleman-Wunsch, ενώ για την τοπική στοίχιση είναι ο αλγόριθµος Smith-Waterman. εδοµένου ότι οι αλγόριθµοι δυναµικού προγραµµατισµού έχουν υψηλές υπολογιστικές απαιτήσεις, έχουν αναπτυχθεί ευριστικές µέθοδοι στοίχισης, οι οποίες βρίσκουν λύσεις σε συντοµότερο χρονικό διάστηµα. Οι δηµοφιλέστερες από αυτές είναι οι αλγόριθµοι BLAST και FASTA που αναζητούν µικρές περιοχές (λέξεις - words) µε υψηλό score οµοιότητας µεταξύ των ακολουθιών και στη συνέχεια τις επεκτείνουν σε τοπικές στοιχίσεις. 3
ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΑΣΚΗΣΗΣ Α. Σύγκριση αποτελεσµάτων διαφορετικών προγραµµάτων στοίχισης ακολουθιών Μεταβείτε στις ιστοσελίδες που ακολουθούν και στοιχίστε τις πρωτεϊνικές αλληλουχίες των αρχείων glutaredoxin3_human.fasta και glutaredoxin3_ecoli.fasta, χρησιµοποιώντας τις προκαθορισµένες παραµέτρους. EMBOSS Needle (http://www.ebi.ac.uk/tools/psa/emboss_needle/) EMBOSS Water (http://www.ebi.ac.uk/tools/psa/emboss_water/) BLAST (http://blast.ncbi.nlm.nih.gov/) (Ακολουθήστε τους συνδέσµους για protein blast και επιλέξτε Align two or more sequences.) Παρατηρήστε τις στοιχίσεις και για κάθε µία από αυτές, καταγράψτε το ποσοστό των ταυτόσηµων καταλοίπων και τον αριθµό των αµινοξέων που έχουν στοιχηθεί. Υπάρχουν διαφορές; Σχολιάστε τα αποτελέσµατα λαµβάνοντας υπόψη το είδος της στοίχισης και τον αλγόριθµο που χρησιµοποιεί κάθε πρόγραµµα. Β. Στοίχιση αµινοξικών και νουκλεοτιδικών ακολουθιών Χρησιµοποιώντας το πρόγραµµα EMBOSS Needle, στοιχίστε τις νουκλεοτιδικές ακολουθίες των αρχείων DHFR_nt_human.fasta και DHFR_nt_ecoli.fasta. Στη συνέχεια στοιχίστε τις αντίστοιχες αµινοξικές ακολουθίες των αρχείων DHFR_aa_human.fasta και DHFR_aa_ecoli.fasta. Καταγράψτε το ποσοστό των ταυτόσηµων καταλοίπων και συγκρίνετε τις δύο στοιχίσεις. Γ. Σύγκριση αποτελεσµάτων στοίχισης ακολουθιών µε διαφορετικές ποινές για τα κενά Χρησιµοποιώντας το πρόγραµµα EMBOSS Needle, στοιχίστε τις αµινοξικές ακολουθίες των αρχείων DHFR_aa_human.fasta και DHFR_aa_ecoli.fasta αλλάζοντας τις ποινές για τα κενά (gap opening penalty και gap extension penalty). Συγκρίνετε τις στοιχίσεις µε την ευθυγράµµιση που προκύπτει από τη δοµική υπέρθεση των πρωτεϊνών (σχήµα 5) και καταγράψτε τον αριθµό των ταυτόσηµων καταλοίπων και τον αριθµό των κενών στον ακόλουθο πίνακα. Σχολιάστε πως επηρεάζεται η στοίχιση από την αλλαγή των ποινών για τα κενά. 4
gap extension penalty gap opening penalty 1 10 20 50 0.0005 0.5 10 D_HUM vgslncivavsqnmgigkngdlpwpplrnefryfqrmtttssvegkqnlvimgkktwfsi ident D_ECO --MISLIAALAVDRVIGMENAM-PFNLPADLAWFKRNTL-------DKPVIMGRHTWESI D_HUM PeknRPLKGRINLVLSRELkEPPQGAhFLSRSLDDALKLTEqpelanKVDMVWIVGGSSV ident D_ECO G---RPLPGRKNIILSSQP-GTDDRV-TWVKSVDEAIAACG------DVPEIMVIGGGRV D_HUM YKEAMNHpghLKLFVTRIMQDFESDTFFPEIDLEKYKLLPeypgvlSDVQEE---KGIKY ident D_ECO YEQFLPK--aQKLYLTHIDAEVEGDTHFPDYEPDDWESVF------SEFHDAdaqNSHSY D_HUM KFEVYEKNd ident D_ECO CFEILERR- Σχήµα 5. Ευθυγράµµιση των ακολουθιών DHFR_aa_human.fasta και DHFR_aa_ecoli.fasta που προκύπτει από τη δοµική υπέρθεση των πρωτεϊνών. 5