Σηµειώσεις Βιοπληροφορικής

Σχετικά έγγραφα
Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

LALING/PLALING :

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μέθοδοι μελέτης εξέλιξης

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Υπολογιστικό Πρόβληµα

ΑΣΥΜΠΤΩΤΙΚΗ ΑΝΑΛΥΣΗ & ΠΡΟΣΘΕΣΗ

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

Αναγνώριση Προτύπων Ι

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ο.Ε.Φ.Ε ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Περί της Ταξινόμησης των Ειδών

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

(Μερος 2 ο ) Εισηγητής: Ν. Πουλακάκης

Επιχειρησιακή Έρευνα

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

Α Ν Α Λ Τ Η Α Λ Γ Ο Ρ Ι Θ Μ Ω Ν Κ Ε Υ Α Λ Α Ι Ο 5. Πως υπολογίζεται ο χρόνος εκτέλεσης ενός αλγορίθμου;

Βιολογία Κατεύθυνσης Γ Λυκείου

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Επιµέλεια Θοδωρής Πιερράτος

Αριθμητική Ανάλυση και Εφαρμογές

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

Ισότητα, Αλγεβρικές και Αναλυτικές Ιδιότητες Πραγματικών Ακολουθιών

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Ασκησεις - Φυλλαδιο 4

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

Κεφάλαιο 1: Το Γενετικό Υλικό 1.

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

Τρίτη, 27 Μαΐου 2008 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Αθήνα, 18/5/2011 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

Αριθμητική Ανάλυση & Εφαρμογές

ΨΗΦΙΑΚΑ ΚΥΚΛΩΜΑΤΑ - ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 3

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Συγκριτική Γονιδιωματική

ΓΩΝΙΕΣ φ, ψ ΚΑΙ ΕΠΙΤΡΕΠΤΕΣ ΔΙΑΜΟΡΦΩΣΕΙΣ ΤΗΣ ΠΟΛΥΠΕΠΤΙΔΙΚΗΣ ΑΛΥΣΙΔΑΣ

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β )

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΤΟ ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ. Με αναφορά τόσο στους προκαρυωτικούς όσο και στους ευκαρυωτικούς οργανισμούς

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Στοιχεία της ανθρώπινης Βιολογίας

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Γ' ΛΥΚΕΙΟΥ ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ÏÅÖÅ

Μεθοδολογίες παρεµβολής σε DTM.

Υπολογιστική Πολυπλοκότητα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Transcript:

Σηµειώσεις Βιοπληροφορικής Εισαγωγή Ακολουθίες Πρωτεϊνών και DNA Μέθοδοι εύρεσης οµοιοτήτων σε ακολουθίες Υπολογιστικές και Βιολογικές Προσεγγίσεις, (Μαθηµατικά) Βέλτιστες Στοιχίσεις, Αλγόριθµοι υναµικού Προγραµµατισµού ΒΑΣΙΛΗΣ ΠΡΟΜΠΟΝΑΣ ΑΘΗΝΑ 2004-2005, ΛΕΥΚΩΣΙΑ 2006

1 Εισαγωγή 1.1 Ακολουθίες Βιολογικών Μακροµορίων Μια βασική αρχή που διέπει τα βιολογικά µακροµόρια (πρωτεΐνες, DNA, RNA) είναι το γεγονός ότι µε την επιλογή ενός κατάλληλου (απλού) µετασχηµατισµού µπορούµε να τα αναπαραστήσουµε µε ακολουθίες ψηφιακής µορφής. Τέτοιες αναπαραστάσεις αποδεικνύεται ότι είναι εξαιρετικά χρήσιµες, αφενός µεν για την αποθήκευσή των ακολουθιών, αφετέρου δε για την ανάλυση δεδοµένων βιολογικών ακολουθιών µε τη βοήθεια ηλεκτρονικών υπολογιστών. Η εγγενής αυτή ψηφιακή φύση των ακολουθιών έχει προφανή επίδραση στα είδη των αλγορίθµων οι οποίοι αναπτύσσονται και εφαρµόζονται για την υπολογιστική τους ανάλυση. Αρκετά συχνά, οι υπολογιστικές τεχνικές οι οποίες χρησιµοποιούνται για την ανάλυση ακολουθιών βιολογικών µακροµορίων έχουν τις ρίζες τους στo τεχνολογικό πεδίο της ανάλυσης σηµάτων. Αυτές οι τεχνικές βρίσκουν εφαρµογές σε πολλούς τοµείς επιστηµονικής και τεχνολογικής έρευνας (π.χ. ανάλυση ήχου ή εικόνας, τηλεπικοινωνίες, γνωσιολογικές επιστήµες). Παρότι τα αµινοξικά ή νουκλεοτιδικά κατάλοιπα τροποποιούνται µε βιοχηµικές διεργασίες στο κυτταρικό περιβάλλον µέσα στο οποίο δρουν τα µακροµόρια αυτά, είναι δυνατόν να αναπαρασταθούν µε ένα πεπερασµένο σύνολο συµβόλων από ένα σχετικά µικρό αλφάβητο (20 και 4 χαρακτήρων αντίστοιχα). Οι αρχές και οι µεθοδολογίες που θα αναφερθούν στη συνέχεια, σε γενικές γραµµές είναι δυνατόν να εφαρµοστούν για ακολουθίες όλων των βασικών ειδών βιολογικών µακροµορίων, πρωτεϊνών, DNA, RNA. Το πλήθος και η ποικιλία των τεχνικών και µεθοδολογιών που έχουν αναπτυχθεί τις τελευταίες δεκαετίες για την "Υπολογιστική Ανάλυση Ακολουθιών Βιοµακροµορίων" καθιστά ακόµη και την απλή αναφορά στο σύνολό τους πρακτικά αδύνατη. Σκοπός του Μαθήµατος "Υπολογιστική Ανάλυση Ακολουθιών Βιοµακροµορίων" είναι η εµβάθυνση στις συχνότερα χρησιµοποιούµενες µεθοδολογίες. Με βάση τις αρχές που θα παρουσιαστούν και σε συνδυασµό

µε εκτεταµένες αναφορές στη διεθνή βιβλιογραφία, θα είναι δυνατή η κατανόηση και η γενίκευση σε άλλες µεθόδους, οι οποίες καθαρά και µόνο από λόγω των χρονικών περιορισµών που επιβάλλονται σε ένα εξαµηνιαίο µάθηµα δεν είναι εφικτό να παρουσιαστούν µε την ίδια λεπτοµέρεια. 1.2 Γονιδιώµατα Ο ορισµός του γονιδιώµατος ενός οργανισµού είναι περισσότερο δύσκολος από ότι φαίνεται σε πρώτη εντύπωση, καθώς η έννοια και ο τρόπος µε τον οποίο αυτή χρησιµοποιείται ποικίλει. Καταρχήν, θα µπορούσαµε να θεωρήσουµε ότι το γονιδίωµα είναι το σύνολο του γενετικού υλικού ενός απλοειδούς κυττάρου ή το µισό του γενετικού υλικού ενός διπλοειδούς κυττάρου. Όσον αφορά τους ευκαρυωτικούς οργανισµούς, πέρα από το πυρηνικό DNA οφείλουµε να προσµετρήσουµε στο γονιδίωµα ενός οργανισµού και το οργανιδιακό DNA, το οποίο εξασφαλίζει τη λειτουργική αυτάρκεια του κυττάρου (Rodakis, 1997). Τα γονιδιώµατα των διαφόρων ζώντων οργανισµών διαθέτουν εξαιρετικά µεγάλη, αλλά προφανή, ποικιλοµορφία. Αυτή η ποικιλοµορφία σχετίζεται µε το µέγεθος, αλλά και τον τρόπο αποθήκευσης της γενετικής πληροφορίας σε µόρια µονόκλωνου ή δίκλωνου DNA ή RNA. Επιπλέον, ορισµένα γονιδιώµατα είναι γραµµικά (π.χ. τα πυρηνικά γονιδιώµατα των ευκαρυωτικών οργανισµών), ενώ άλλα είναι κλειστά κυκλικά µόρια (π.χ. τα µιτοχονδριακά γονιδιώµατα, τα γονιδιώµατα των περισσότερων βακτηρίων). Αυτή βέβαια η εικόνα δεν ανταποκρίνεται στη δοµική πραγµατικότητα και αποτελεί µια υπεραπλούστευση, αφού είναι γνωστή η ύπαρξη αλληλεπιδράσεων µεταξύ µακρινών τµηµάτων της ακολουθίας µεταξύ τους, όπως και η αλληλεπίδραση µε άλλα µακροµόρια (π.χ. πρωτεΐνες) για τη συγκρότηση πολύπλοκων υπερµοριακών δοµών. Τα µικρότερα γονιδιώµατα εµφανίζονται σε µικροοργανισµούς όπως οι βακτηριοφάγοι και οι ιοί, οι οποίοι χρησιµοποιούν για το µεταβολισµό και την αντιγραφή των γονιδιωµάτων τους κάποιο κύτταρο-ξενιστή. Το πρώτο γονιδίωµα που προσδιορίστηκε σε όλη του την έκταση ήταν αυτό του βακτηριοφάγου φχ174, που αποτελείται από 5,386 ζεύγη βάσεων (bp) (Sanger, Air et al., 1977). Συνήθως, µικρά γονιδιώµατα αυτού του τύπου

αποτελούνται από µια συνεχόµενη ακολουθία. Παρόλα αυτά, άλλα σχετικά µικρά γονιδιώµατα, όπως αυτό του υπερθερµοφιλικού αρχαίου Methanocaldococcus jannaschii (1.74 Mbp) ή του βακτηρίου Leptospira interrogans (4.7 Mbp), µπορεί να αποτελούνται από περισσότερα του ενός χρωµοσώµατα. Το γονιδίωµα του M. jannaschii, η ακολουθία του οποίου προσδιορίστηκε το 1996 (Bult, White et al., 1996), αποτελείται από ένα χρωµόσωµα και δύο εξω-χρωµοσωµικά στοιχεία. Ακόµη και µεταξύ των πρωτευόντων υπάρχουν σηµαντικές διαφορές στη χρωµοσωµική οργάνωση των γονιδιωµάτων. Το ανθρώπινο γονιδίωµα (3,310 Mbp) οργανώνεται σε 22 χρωµοσώµατα (συν το φυλετικό χρωµόσωµα), ενώ αντίστοιχα του χιµπατζή σε 23, της γάτας 38 και του σκύλου 78. Εξαιρετικό ενδιαφέρον παρουσιάζει η µεγάλη ποικιλία στα µεγέθη των διαφόρων γονιδιωµάτων, ακόµα και µεταξύ οργανισµών που ανήκουν στην ίδια κατηγορία. Από το ευκαρυωτικό βασίλειο µόνο µερικές κατηγορίες οργανισµών (π.χ. θηλαστικά, ερπετά, πτηνά) έχουν µεγέθη γονιδιωµάτων περιορισµένα σε ένα σχετικά στενό εύρος τιµών (Cavalier-Smith, 1985). Το µέγεθος των προκαρυωτικών γονιδιωµάτων συσχετίζεται πιθανότατα µε την πολυπλοκότητα σε επίπεδο οργανισµού, ενώ, αντίθετα, στο ευκαρυωτικό βασίλειο οργανισµοί οι οποίοι απαιτούν τους ίδιους βασικούς µοριακούς µηχανισµούς (για παράδειγµα τα σπονδυλωτά) µπορεί να εµφανίζουν µεγάλη διαφορά µεγέθους στα γονιδιώµατά τους. Για παράδειγµα, το ψάρι της τάξης plectognathi Fugu rubripes έχει απλοειδές γονιδίωµα µεγέθους 400 Mbp (Database Of Genome Sizes, URL: http://www.cbs.dtu.dk/databases/dogs/), οκτώ περίπου φορές µικρότερο από το γονιδίωµα του ανθρώπου, αλλά 4 µόνο φορές µεγαλύτερο από το γονιδίωµα του κατά πολύ απλούστερου νηµατώδη σκώληκα Caenorhabditis elegans (100 Mbp). Χαρακτηριστικό παράδειγµα µεταξύ των σπονδυλωτών, αποτελεί η περίπτωση των αµφιβίων τα οποία, ενώ έχουν τεράστια γονιδιώµατα (µέχρι και 30 φορές µεγαλύτερα από αυτό του ανθρώπου) είναι, αναµφισβήτητα, λιγότερο πολύπλοκοι οργανισµοί από τον άνθρωπο και στη δοµή και στη συµπεριφορά τους (Lodish, Baltimore et al., 1995).

1.3 Από τα Γονίδια στα Γονιδιώµατα: η "Μετα-γονιδιωµατική" εποχή Η ανακάλυψη της ύπαρξης και των γενικών λειτουργικών χαρακτηριστικών των Βιολογικών µακροµορίων προηγήθηκε χρονικά της ανάπτυξης κατάλληλων µεθοδολογιών για τον προσδιορισµό των ακολουθιών τους µε κατάλληλες πειραµατικές µεθόδους (Sanger, 1949; Edman, 1950). Στις πρώτες δεκαετίες του περασµένου αιώνα, ακόµη και οι θεωρίες για τη γραµµική φύση των ακολουθιών των βιοπολυµερών αποτελούσαν θέµα έντονων επιστηµονικών διαµαχών. Η γνώση της χηµείας των πρωτεϊνών βασίστηκε σε ιδέες και πειραµατικές τεχνικές της Οργανικής Χηµείας που θεµελιώθηκαν στο δεύτερο µισό του 19 ου αιώνα. Η ιδέα ότι οι πρωτεΐνες αποτελούνται από γραµµικές αλυσίδες αµινοξικών καταλοίπων αποδίδεται στους Hermann Emil Fischer και Franz Hofmeister το 1902 (Scheeff and Fink, 2003), αλλά χρειάστηκαν περισσότερο από δύο δεκαετίες ώστε να γίνει ευρύτερα αποδεκτή. Η απόδειξη πραγµατοποιήθηκε πολύ αργότερα από τον Fred Sanger και τους συνεργάτες του (Sanger and Thompson, 1953), όταν έδειξαν πειραµατικά ότι τα αµινοξικά κατάλοιπα που απαρτίζουν την ινσουλίνη είναι διευθετηµένα σε µια συγκεκριµένη ακολουθία. Ο κατακλυσµός δεδοµένων που ακολούθησε τις ραγδαίες τεχνολογικές εξελίξεις οδήγησε στη δηµιουργία εντελώς νέων ερευνητικών πεδίων. Στον επιστηµονικό χώρο αποτελεί, πλέον, πίστη το γεγονός ότι, όπως ακριβώς ο 20 ος αιώνας αποτέλεσε των αιώνα της Φυσικής, ο νέος αιώνας που µόλις ανέτειλε θα είναι αυτός της Βιολογίας. Σε µεγάλο βαθµό, αυτό θα προκύψει µέσα από ταχύτατα αναπτυσσόµενα, πεδία της επιστήµης όπως η Βιοπληροφορική και η Γονιδιωµατική, στα οποία παρατηρείται πολύ έντονη ερευνητική δραστηριότητα και πρακτικές εφαρµογές. 1.4 Το Ερευνητικό Πεδίο της Βιοπληροφορικής Επικεντρώνοντας στο πεδίο της Βιοπληροφορικής, αξίζει να αναφέρουµε ότι οι αρχικές καταβολές της βρίσκονται αρκετά παλιά, πίσω στην εποχή που άρχιζαν να γίνονται οι πρώτες προσπάθειες εξελικτικών και γενετικών

αναλύσεων (φυσικά χωρίς τη χρήση υπολογιστικών συστηµάτων). Από τις αρχές του 20 ου αιώνα καταγράφονται εργασίες ερευνητών, όπως οι R.A. Fisher, J.B.S. Haldane και S. Wright, οι οποίες έθεσαν τις βάσεις για τη σηµερινή αναλυτική προσέγγιση στη Γενετική, την Εξέλιξη και την Οικολογία. Μέχρι τα µέσα του αιώνα, πρωτοπόροι της βιολογικής έρευνας έκαναν γνωστή τη γραµµική φύση των ακολουθιών των πρωτεϊνών (Sanger, 1949) και των γονιδίων (Chargraff, 1950). Ανακαλύψεις όπως η δοµική ανάλυση της µυοσφαιρίνης (Kendrew, 1958) και το µοντέλο της διπλής έλικας του DNA (Watson and Crick, 1953), έδωσαν την τελική ώθηση. Κατά αυτόν τον τρόπο µέχρι τα µέσα της δεκαετίας του 1950, είχε αποκτηθεί η βασική γνώση σχετικά µε τη φύση των γονιδίων και των σηµαντικότερων προϊόντων τους, των πρωτεϊνών. Ήταν θέµα χρόνου, λοιπόν, να ακολουθήσουν σπουδαίες ανακαλύψεις, όπως αυτή του γενετικού κώδικα και των περιοριστικών ενζύµων, ώστε να οριστούν σε µεγάλο βαθµό τα όρια µέσα στα οποία κινείται σήµερα η Μοριακή Βιολογία. 1.5 Ο ρόλος της Βιοπληροφορικής Μέσα στον κυκεώνα που δηµιουργείται µε τις ραγδαίες εξελίξεις στο χώρο της Βιολογίας, όπου ο ρυθµός παραγωγής των πειραµατικών δεδοµένων αυξάνει µε τη χρήση νέων τεχνολογιών, δόθηκε ώθηση στο σχετικά νέο πεδίο ερευνητικής δράσης της Βιοπληροφορικής. Η Βιοπληροφορική αποτελεί το επιστηµονικό πεδίο σύµπραξης της Βιολογίας, της Επιστήµης Υπολογιστών και της Τεχνολογίας Πληροφορικής, της Στατιστικής και των Μαθηµατικών. Απώτερος σκοπός της είναι η δυνατότητα εµβάθυνσης της Βιολογικής γνώσης καθώς και η δηµιουργία µιας συνολικής προοπτικής µέσα από την οποία θα ξεχωρίσουν νέες ολιστικές Βιολογικές αρχές και θα εξερευνήσουν νέους τρόπους για την προσέγγιση βασικών αλλά και εφαρµοσµένων Βιολογικών προβληµάτων. Τρεις είναι οι κύριες προσεγγίσεις που ακολουθούνται στο χώρο της Βιοπληροφορικής: Η ανάπτυξη νέων αλγορίθµων και κριτηρίων για την αποτίµηση των σχέσεων µεταξύ των µελών τεράστιων συνόλων δεδοµένων

Η ανάλυση και η ερµηνεία διαφόρων τύπων δεδοµένων, µεταξύ των οποίων νουκλεϊκές και αµινοξικές ακολουθίες, πρωτεϊνικές δοµές, δεδοµένα γονιδιακής έκφρασης Η ανάπτυξη και εφαρµογή υπολογιστικών εργαλείων που καθιστούν δυνατή την αποδοτική πρόσβαση, διαχείριση και ανάλυση ποικίλων τύπων πληροφοριών Τα Βιολογικά δεδοµένα µεταβάλλονται όχι µόνο ποσοτικά αλλά και ποιοτικά, µε τη διαρκή εµφάνιση νέων τύπων δεδοµένων. Παράλληλα, η φύση αρκετών προβληµάτων στα οποία καλείται η Βιοπληροφορική να δώσει λύσεις προσελκύει ερευνητές µε πολύ διαφορετικό υπόβαθρο, πέρα από τις προφανείς περιπτώσεις Βιολόγων και επιστηµόνων της Πληροφορικής. 1600 1200 800 400 0 1990 1992 1994 1996 1998 2000 2002 Εικόνα 1: Αριθµός βιβλιογραφικών αναφορών που περιέχουν τη λέξη κλειδί Bioinformatics ανά έτος. Το χρονικό διάστηµα εκτείνεται από το 1990, οπότε και εµφανίζεται για πρώτη φορά ο όρος στη βιβλιογραφία µέχρι και τον Οκτώβριο του 2003, οπότε και πραγµατοποιήθηκε η αναζήτηση. Πηγή των δεδοµένων αποτέλεσε η βάση βιβλιογραφικών δεδοµένων Medline. URL: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed. Σηµειώνεται ότι τα αποτελέσµατα της αναζήτησης για το 2003 αντιστοιχούν µόνο στο πρώτο δεκάµηνο. Οι παραπάνω λόγοι καθιστούν τα όρια του πεδίου της Βιοπληροφορικής σχετικά ασαφή. Παρόλα αυτά, η σηµαντική δραστηριότητα που παρατηρείται

στο πεδίο γίνεται εύκολα αντιληπτή ακόµη και µε µια αφελή αναζήτηση του όρου Bioinformatics στο πλήρες κείµενο των εγγραφών της βάσης βιβλιογραφικών δεδοµένων Medline (Εικόνα 1). Αξίζει να τονιστεί το γεγονός ότι, παρότι το πεδίο της Βιοπληροφορικής έχει αρχίσει να αποκτά τη δική του υπόσταση, η επιτυχία κάθε ερευνητικής προσέγγισης εξαρτάται κατά κύριο λόγο από τη συνεργασία ερευνητών, οι οποίοι (συνήθως) έχουν διαφορετικό επιστηµονικό υπόβαθρο. Αυτό σηµαίνει ότι η ενασχόληση µε τον τοµέα αυτό απαιτεί τη απόκτηση ευρείας αντίληψης, τόσο για τη δυνατότητα εισαγωγής νέων Βιολογικών ερωτηµάτων όσο και για την επιλογή της κατάλληλης (υπολογιστικής) µεθοδολογίας για την απάντησή τους. Πρακτικά ζητήµατα, όπως αυτό της συνεργασίας και της συνεννόησης σε µια "κοινή γλώσσα", πρέπει να θεωρούνται σε κάθε περίπτωση προαπαιτούµενα. 1.6 Συµβολισµοί Η περιγραφή των υπολογιστικών µεθοδολογιών (... και όχι µόνο) που θα ακολουθήσει στα επόµενα απαιτεί την ταυτόχρονη χρήση βαθµωτών (µονόµετρων) και διανυσµατικών µεγεθών. Απαιτείται, λοιπόν, η ακολούθηση συγκεκριµένων συµβάσεων ως προς το συµβολισµό, µε σκοπό την απλούστερη αλλά, ταυτόχρονα, ακριβή διατύπωση των αντίστοιχων µαθηµατικών τύπων. Τα διανυσµατικά µεγέθη συµβολίζονται µε έντονους χαρακτήρες, ενώ τα βαθµωτά µε απλούς χαρακτήρες αντίστοιχα. Για παράδειγµα, µε a θα συµβολίζεται ένα διανυσµατικό µέγεθος, ενώ µε a ένα βαθµωτό. Οι αλγεβρικοί πίνακες συµβολίζονται µε ένα παχύ κεφαλαίο γράµµα (π.χ. M ) ή µε το σύµβολο ενός τυχαίου στοιχείου του µε δείκτες τους αύξοντες αριθµούς της αντίστοιχης γραµµής και στήλης (π.χ. M είναι το στοιχείο της i γραµµής και j στήλης του πίνακα M ). i, j Μια αµινοξική ακολουθία παριστάνεται µε ένα πλάγιο χαρακτήρα (π.χ. s), ενώ τα κατάλοιπά της µε δείκτες που υποδηλώνουν τη θέση

τους στην ακολουθία (π.χ. s i, είναι το κατάλοιπο που καταλαµβάνει την i οστή θέση στην ακολουθία s).

2 Μέθοδοι εύρεσης οµοιοτήτων σε ακολουθίες 2.1 Εισαγωγικές Έννοιες Αλγορίθµων Με την έννοια του αλγορίθµου ορίζεται µια καλά προσδιορισµένη διαδικασία (όχι απαραίτητα υπολογιστική) για την επίλυση µιας κλάσης προβληµάτων, η οποία εφαρµοζόµενη σε συγκεκριµένα αρχικά δεδοµένα οδηγεί µετά από πεπερασµένο πλήθος βηµάτων στην επίλυση του προβλήµατος. Οι ιδιότητες που πρέπει να έχει ένας αλγόριθµος είναι: 1. Η ορθότητα, δηλαδή η σωστή επίλυση του προβλήµατος για οποιεσδήποτε τιµές εισόδου 2. Η αποδοτικότητα, που εκφράζει την επίδοση ενός αλγορίθµου σε συγκεκριµένα δεδοµένα εισόδου. ηλαδή, τη χρήση των υπολογιστικών πόρων που απαιτούνται για την εκτέλεσή του (χρόνος επεξεργασίας, µνήµη προσωρινής αποθήκευσης), ως συνάρτηση του µεγέθους Ν των δεδοµένων του προβλήµατος που επιλύει. Για την επίλυση ενός συγκεκριµένου προβλήµατος είναι δυνατόν να υπάρχουν µηδέν (άλυτο πρόβληµα) ή περισσότεροι από ένας ορθοί αλγόριθµοι. Όλοι οι ορθοί αλγόριθµοι έχουν θεωρητικό ενδιαφέρον, όµως, πρακτική εφαρµογή µπορούν να έχουν οι αποδοτικοί αλγόριθµοι. Η αξιολόγηση της αποδοτικότητας ενός αλγορίθµου, προϋποθέτει ότι διαθέτουµε ένα µοντέλο της τεχνολογίας µε την οποία θα υλοποιηθεί. Για τους αλγορίθµους που θα αναπτυχθούν στη συνέχεια υποθέτουµε ένα γενικό σύστηµα ενός επεξεργαστή, που εκτελεί εντολές διαδοχικά (random access model - RAM). Η όλη διαδικασία στηρίζεται σε ένα µαθηµατικό συµβολισµό που εκφράζει την

ασυµπτωτική συµπεριφορά των αλγορίθµων, για µεγάλα µεγέθη Ν των δεδοµένων. Έστω, ότι η συνάρτηση tn ( ) εκφράζει ένα µέτρο του χρόνου που απαιτείται για την εκτέλεση του αλγορίθµου µε δεδοµένα εισόδου µεγέθους Ν. Τότε, εάν υπάρχει συνάρτηση gn ( ) και θετικές σταθερές c, N0 ώστε: τάξεως 0 tn ( ) cg( N) N N λέµε ότι η συνάρτηση tn ( ) είναι 0 gn ( ), ή απλούστερα συµβολικά tn ( ) = OgN ( ( )). Στην ουσία η συνθήκη αυτή εξασφαλίζει ότι η gn ( ) ασυµπτωτικά (για µεγάλες τιµές του Ν) αποτελεί άνω φράγµα της tn ( ), οπότε γνωρίζουµε τη "χείριστη" δυνατή συµπεριφορά του αλγορίθµου. Αντίστοιχα, αν 0 cg( N) t( N) N N0, η gn ( ) αποτελεί ασυµπτωτικά κάτω φράγµα της tn ( ) οπότε γνωρίζουµε τη "βέλτιστη" δυνατή συµπεριφορά του αλγορίθµου (συµβολικά tn ( ) =Ω( gn ( )), η tn ( ) είναι τάξεως ωµέγα της gn ( )). Στην περίπτωση που tn ( ) = OgN ( ( )) και tn ( ) =Ω( gn ( )) συµβολίζουµε tn ( ) =Θ ( gn ( )) (η tn ( ) είναι τάξεως θήτα της gn ( )). Η θεωρία των αλγορίθµων και η µελέτη της αλγοριθµικής πολυπλοκότητας αποτελούν από µόνες τους ένα ερευνητικό πεδίο µε πολύ µεγάλη δραστηριότητα. Μια πολύ καλή πηγή, η οποία περιέχει τόσο εισαγωγικό όσο και περισσότερο προχωρηµένο υλικό στο αντικείµενο αυτό, αποτελεί το σύγγραµµα του Cormen και των συνεργατών του (Cormen, Leiserson et al., 1990). 2.2 Το Βιολογικό Έναυσµα Η ανάπτυξη µεθόδων για τον εντοπισµό οµοιοτήτων σε ακολουθίες Βιολογικών µακροµορίων στηρίζεται καταρχήν στη µοριακή βάση της Εξέλιξης. Η µελέτη των οµοιοτήτων σε επίπεδο ακολουθίας είναι δυνατόν, καταρχήν, να δώσει πληροφορίες:

για την εξελικτική σχέση και τις διαδικασίες που πιθανά οδήγησαν στην "εδραίωση" των ακολουθιών των βιοµακροµορίων που παρατηρούνται στους σύγχρονους οργανισµούς την εξελικτική ιστορία των βιολογικών µακροµορίων και τον προσδιορισµό πιθανών "προγονικών" τους µορίων τις περιοχές των ακολουθιών οι οποίες είναι σηµαντικές για την τελική τους στεροδιάταξη και τις φυσικοχηµικές τους ιδιότητες στις οποίες βασίζεται η επιτέλεση των βιολογικών τους λειτουργιών Στην περιγραφή των µεθοδολογιών που ακολουθούν, θα περιοριστούµε (για χάρη απλότητας και µόνο) σε αµινοξικές ακολουθίες. Παρόλα αυτά, πρέπει να καταστεί σαφές, ότι οι µέθοδοι αυτοί (µε στοιχειώδεις) µετατροπές, εφαρµόζονται και σε ακολουθίες DNA και RNA. Σύµφωνα µε την κοινά αποδεκτή θέση ότι για τις περισσότερες πρωτεΐνες η ακολουθία καθορίζει την τρισδιάστατη δοµή και η δοµή τη λειτουργία της, είναι προφανές ότι η οµοιότητα δύο πρωτεϊνών σε επίπεδο αµινοξικής ακολουθίας µπορεί να δώσει σηµαντικές πληροφορίες για το συσχετισµό των δοµών και της λειτουργίας τους. Στην πραγµατικότητα, η παραπάνω παραδοχή βασίζεται στο εξελικτικό µοντέλο σύµφωνα µε το οποίο πρωτεΐνες που έχουν προέλθει από ένα κοινό προγονικό µόριο εµφανίζουν, σε κάποιο βαθµό, οµοιότητα στην αµινοξική ακολουθία, τη δοµή και τη λειτουργία τους. Η υψηλή οµοιότητα σε επίπεδο αµινοξικής ακολουθίας αποτελεί από µόνη της ισχυρή ένδειξη κοινής εξελικτικής καταγωγής και ταυτόσηµης ή παρόµοιας λειτουργίας. Φυσικά, υπάρχουν και περιπτώσεις κατά τις οποίες πρωτεΐνες µε όχι προφανείς οµοιότητες στην ακολουθία τους έχουν εντυπωσιακά όµοιο δίπλωµα γεγονός που, συχνά, δεν είναι αποτέλεσµα αποκλίνουσας αλλά συγκλίνουσας εξέλιξης.

Η δηµιουργία κατάλληλης µεθοδολογίας για την ανίχνευση των οµοιοτήτων αµινοξικών ακολουθιών αποτέλεσε σηµαντικό πεδίο έρευνας από τις αρχές της δεκαετίας του 1970. Στο αντικείµενο αυτό, έχει αναπτυχθεί κατάλληλο µαθηµατικό υπόβαθρο για την αξιολόγηση των αποτελεσµάτων και, ακόµη και σήµερα, εξακολουθούν να αναζητούνται αλγόριθµοι µε µεγαλύτερη ευαισθησία και περισσότερες δυνατότητες. Οι αναζητήσεις οµοιοτήτων µεταξύ ακολουθιών αποτελούν, ίσως, τη συχνότερα χρησιµοποιούµενη εφαρµογή της Βιοπληροφορικής. Η εφαρµογή αυτών των µεθόδων αποσκοπεί, αφενός µεν, στον εντοπισµό εξελικτικών σχέσεων και τη φυλογενετική ανάλυση, αφετέρου δε στην in silico απόδοση πιθανής λειτουργίας σε µεµονωµένα γονίδια ή προϊόντα τους ακόµη και σε επίπεδο πλήρως προσδιορισµένων γονιδιωµάτων. Αυτή η τελευταία εφαρµογή, καθιστά δυνατή τη συγκριτική ανάλυση γονιδιωµάτων (Συγκριτική Γονιδιωµατική), στοιχεία της οποίας θα παρουσιαστούν σε επόµενη διάλεξη. Στη συνέχεια, λοιπόν, θα παρουσιαστούν συνοπτικά οι βασικότεροι αλγόριθµοι και ιδέες για τη σύγκριση και τη στοίχιση δύο ακολουθιών. Οι σηµαντικές εµπειρικές τροποποιήσεις τους (ευριστικοί αλγόριθµοι) που καθιστούν τους χρονοβόρους αυτούς αλγορίθµους αποδοτικούς για τη µαζική αναζήτηση οµοιοτήτων στις αχανείς βάσεις δεδοµένων ακολουθιών θα παρουσιαστούν σε επόµενη διάλεξη. 2.3 Σύγκριση δύο ακολουθιών στοίχιση ακολουθιών κατά ζεύγη Οι θεµελιώδεις αλλαγές που θεωρούµε ότι εµφανίζονται κατά τη διάρκεια της απόκλισης από το κοινό προγονικό µόριο µπορούν να χαρακτηρισθούν ως αντικαταστάσεις (substitutions), προσθήκες (insertions) και εξαλείψεις (deletions). Οι προσθήκες και οι εξαλείψεις αναφέρονται συχνά (στην αναπτυσσόµενη

Βιοπληροφορική αργκό!) ως indels. Η σύγκριση δύο ακολουθιών είναι δυνατόν να επιτευχθεί µετά τη στοίχισή τους µε βάση κάποια προκαθορισµένα κριτήρια και, στη συνέχεια, µε τον υπολογισµό κάποιου µέτρου οµοιότητας (ή διαφοράς) µε βάση τη δεδοµένη στοίχιση. Ακολουθίες οι οποίες εµφανίζουν µεγάλο ποσοστό οµοιότητας σε όλο το µήκος τους είναι δυνατόν να στοιχιθούν µε βάση πολύ απλά κριτήρια ακόµη και χωρίς τη χρήση ηλεκτρονικού υπολογιστή (Εικόνα 2). Ένα απλό κριτήριο για την επίτευξη µιας στοίχισης η οποία να αντανακλά την ιστορία των µορίων είναι η προσπάθεια ελαχιστοποίησης των εξελικτικών βηµάτων τα οποία έδωσαν τα εξεταζόµενα µόρια µε βάση το άγνωστο αρχέγονο µόριο. S-S S1 HFCGGSLINEQWVVSAGHC HFCG S NE AGHC S2 HFCGASIYNENYA-TAGHC Εικόνα 2: Στοίχιση αντίστοιχων τµηµάτων των ακολουθιών της θρυψίνης του ποντικού (S1) και του αστακού (S2). Στην ενδιάµεση γραµµή εµφανίζονται τα συντηρηµένα αµινοξικά κατάλοιπα. Τονίζονται τα συντηρηµένα κατάλοιπα κυστεΐνης, τα οποία είναι γνωστό ότι στη συγκεκριµένη περίπτωση σχηµατίζουν δισουλφιδικό δεσµό. Ο χαρακτήρας κενού - στην ακολουθία S2 υποδηλώνει την εισαγωγή κενού, η οποία αντιστοιχεί στην προσθήκη ενός αµινοξικού καταλοίπου βαλίνης (V) στην αντίστοιχη θέση της ακολουθίας S1 ή, ισοδύναµα, στην εξάλειψη του καταλοίπου βαλίνης από την ακολουθία S2. Ως κριτήριο για την επίτευξη αυτής της στοίχισης χρησιµοποιήθηκε η µεγιστοποίηση του αριθµού των ταυτόσηµων καταλοίπων µε ταυτόχρονη ελαχιστοποίηση των κενών. Στην ιδανική περίπτωση κατά την οποία µια στοίχιση ακολουθιών απεικονίζει πραγµατικά την εξελικτική ιστορία δύο γονιδίων ή πρωτεϊνών, τα κατάλοιπα που έχουν στοιχιθεί, αλλά δεν είναι ταυτόσηµα, θα αντιπροσώπευαν τις αντικαταστάσεις. Οι περιοχές

όπου οι θέσεις καταλοίπων µιας ακολουθίας δεν αντιστοιχούν µε κατάλοιπα στην άλλη θα ερµηνεύονταν είτε ως προσθήκη στη µία ακολουθία είτε ως εξάλειψη στην άλλη. Αυτά τα κενά παρουσιάζονται συνηθέστερα σε στοιχίσεις ως διαδοχικές παύλες (ή µε κάποιο άλλο ειδικό χαρακτήρα) στοιχισµένες µε τα υπόλοιπα γράµµατα (Εικόνα 2). Στην περίπτωση, όµως, που επιδιώκουµε τη στοίχιση ακολουθιών οι οποίες διαφέρουν σηµαντικά απαιτείται η χρήση εξειδικευµένου λογισµικού. Αυτή η ενότητα περιγράφει συνοπτικά τις ιδέες πάνω στις οποίες µπορεί να θεµελιωθεί ένα σύστηµα υπολογισµού ενός µέτρου της οµοιότητας (ή διαφοράς απόστασης) δύο ακολουθιών, καθώς και µεθόδους µε τις οποίες µπορούν να στοιχιθούν µεταξύ τους. Κατά τη στοίχιση δύο ακολουθιών, εµπειρικά, προσπαθούµε να γράψουµε τις δυο ακολουθίες τη µία κάτω από την άλλη έτσι ώστε τα δοµικά ή λειτουργικά συντηρηµένα τµήµατά τους να βρίσκονται σε αντίστοιχες θέσεις. Για να επιτευχθεί αυτό, πιθανόν να χρειαστεί να εισάγουµε στη µία ή και στις δύο ακολουθίες κάποιο αριθµό κενών (gaps), τα οποία από εξελικτική σκοπιά έχουν το νόηµα της προσθήκης ή εξάλειψης κάποιων νουκλεοτιδικών βάσεων από το αντίστοιχο προγονικό γονίδιο. Τα βασικά θέµατα που τίθενται και θα αναλυθούν στη συνέχεια είναι τα ακόλουθα (Durbin, Eddy et al., 1998): Ποιοι τύποι στοιχίσεων µας ενδιαφέρουν Το σύστηµα βαθµονόµησης (scoring system), το οποίο θα πρέπει να λαµβάνει υπόψη και το ενδεχόµενο εισαγωγής κενών χαρακτήρων Ο αλγόριθµος που θα χρησιµοποιηθεί για τον προσδιορισµό καλών στοιχίσεων ή, στην ιδανική περίπτωση, της βέλτιστης στοίχισης

Τις στατιστικές µεθόδους µε τις οποίες θα αξιολογήσουµε τη σηµαντικότητα της βαθµολογίας (score) που προέκυψε κατά τη στοίχιση Στην Εικόνα 3 παρατίθεται ένα παράδειγµα στοιχίσεων τριών ακολουθιών ως προς µια περιοχή της άλφα αλυσίδας της ανθρώπινης αιµοσφαιρίνης. Χρησιµοποιήσαµε την υλοποίηση µιας παραλλαγής του αλγορίθµου Needleman-Wunsch (Needleman and Wunsch, 1970) που πραγµατοποιεί στοιχίσεις στο συνολικό µήκος των ακολουθιών, µε πίνακα αντικατάστασης τον BLOSUM62 (Henikoff and Henikoff, 1992), ποινή εισαγωγής κενών 10 και επέκτασής τους 0.5. Η γραµµή η οποία παρεµβάλλεται ανάµεσα στις στοιχιζόµενες ακολουθίες περιέχει τους κωδικούς των αµινοξικών καταλοίπων στις θέσεις που προέκυψε ταύτιση και το σύµβολο + στις θέσεις όπου ταιριάστηκαν κατάλοιπα για τα οποία η βαθµολογία (score) στον πίνακα αντικατάστασης είναι θετική (π.χ. Q-K). α) >P01922 HBA_HUMAN >P02023 HBB_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL G+ +VK HGKKV A ++ +AH+D++ + LS+LH KL GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL β) >P01922 HBA_HUMAN GSAQVKGHGKKVADALTNA-----VAHVDDMPNALSALSDLHAHKL + +++ H KV + A V V L L +H K >P02240 LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG γ) >P01922 HBA_HUMAN GSAQVKGHGKKVADALT----NAVAHVDDMPNALSALSD----LHAHKL G G V D+LT H D+ A +AL D AH+ >P91253 GTS7_CAEEL ------GSGYLVGDSLTFVDLLVAQHTADLLAANAALLDEFPQFKAHQE Εικόνα 3: Τρεις στοιχίσεις ακολουθιών µε τον αλγόριθµο Needleman- Wunsch µε ένα τµήµα της άλφα αλυσίδας της ανθρώπινης αιµοσφαιρίνης (SwissProt AC P01922). α) Ξεκάθαρη οµοιότητα µε τη βήτα αλυσίδα της ανθρώπινης αιµοσφαιρίνης (AC P02023).

β) οµικά συµβατή στοίχιση µε την leghemoglobin II (AC P02240) του δικοτυλίδονου Lupinus luteus. γ) Παραπλανητική στοίχιση µε οµόλογη της S-τρανφεράσης της γλουταθειόνης (AC P91253) του νηµατώδη σκώληκα C. elegans. Παρατηρούµε ότι στην περίπτωση που η οµολογία είναι γνωστή (Εικόνα 3α) η οµοιότητα των δύο ακολουθιών είναι εµφανής (18/41 ταυτόσηµα κατάλοιπα, 10/41 συντηρητικές µεταλλάξεις, 0/41 κενά, βαθµολογία 101.0). Στην περίπτωση της leghemoglobin II (Εικόνα 3β), όπου υπάρχει γνωστή αποµακρυσµένη εξελικτική σχέση, η οµοιότητα στο επίπεδο των ακολουθιών είναι ασθενής (10/46 ταυτόσηµα κατάλοιπα, 6/46 συντηρητικές µεταλλάξεις, 5/46 κενά, βαθµολογία 17.0). Παρόλα αυτά, η στοίχιση µίας πρωτεΐνης (Εικόνα 3γ) είναι δυνατόν να δώσει εξίσου καλή (ή και µεγαλύτερη) βαθµολογία κατά τη στοίχιση, χωρίς να υπάρχει απαραίτητα εξελικτική συγγένεια των δύο πρωτεϊνών (14/49 ταυτόσηµα κατάλοιπα, 4/49 συντηρητικές µεταλλάξεις, 14/49 κενά, βαθµολογία 32.0). Ο διαχωρισµός περιπτώσεων, όπως αυτές στην Εικόνα 3 (α, β), δηµιουργεί σηµαντικές δυσκολίες στον εντοπισµό των πρωτεϊνών που έχουν κοινή ιστορία και αποτελεί αντικείµενο εντατικής έρευνας. 2.4 Πίνακες αντικατάστασης Κατά τη στοίχιση δύο ακολουθιών, στο ταίριασµα δύο καταλοίπων τους αντιστοιχίζεται µια βαθµολογία. ιαισθητικά, αυτή η βαθµολογία, στην περίπτωση που τα κατάλοιπα δεν είναι του ίδιου τύπου, εκφράζει ένα µέτρο της συχνότητας παρατήρησης µεταλλάξεων από κατάλοιπο του ενός αµινοξικού τύπου στον άλλο. Ένας έµπειρος βιολόγος µε καλή γνώση των φυσικοχηµικών ιδιοτήτων των αµινοξέων και αρκετή διαίσθηση της τρισδιάστατης

δοµής και λειτουργίας των πρωτεϊνών, θα µπορούσε, σχετικά απλά, να επινοήσει ένα σύνολο 210 τέτοιων τιµών για όλους τους δυνατούς συνδυασµούς ζευγών αµινοξικών καταλοίπων. Αυτές οι τιµές θα µπορούσαν να αναπαρασταθούν µαθηµατικά µε ένα S i, j συµµετρικό πίνακα, µε στοιχεία S µε 1 i, j 20, όπου κάθε γραµµή και κάθε στήλη θα αντιστοιχεί σε έναν από τους αµινοξικούς τύπους, αποτελώντας έτσι έναν εµπειρικό πίνακα αντικατάστασης. Προφανώς, για κάθε γραµµή (ή αντίστοιχα στήλη του πίνακα) η µέγιστη τιµή θα παρατηρείται στο κελί της κύριας διαγωνίου, αφού είναι λογικό να περιµένουµε ότι στη στοίχιση πρέπει να συνεισφέρει περισσότερο το ταίριασµα όµοιων παρά ανόµοιων καταλοίπων. Παρόλα αυτά, ήταν εξαιρετικά χρήσιµη η επινόηση τρόπων δηµιουργίας πινάκων αντικατάστασης µε βάση κάποιο πιθανοθεωρητικό µοντέλο, που θα λαµβάνει υπόψη και τη φύση του βιολογικού προβλήµατος που προσπαθούµε να επιλύσουµε. Όπως έχει δειχθεί (Altschul, 1991), οποιοσδήποτε (ακόµη και εµπειρικός) πίνακας αντικατάστασης είναι δυνατόν να αναπαρασταθεί 1 qij µε τη γενική µορφή S i, j = (ln ), δηλαδή ενός πίνακα λ pp λογαρίθµων σχετικών συχνοτήτων αντικατάστασης. Η παράµετρος i j S i, i qij εκφράζει τη συχνότητα αντικατάστασης του καταλοίπου i από το j (συχνότητα στόχος target frequency), ενώ pi, p j είναι οι συχνότητες εµφάνισης των αντίστοιχων καταλοίπων (συχνότητες υποβάθρου background frequencies). Η παράµετρος λ χρησιµοποιείται για κανονικοποίηση των τιµών. Οι διαφορετικές τιµές του λ επηρεάζουν µόνο τη βαθµολογία που αντιστοιχεί σε µια στοίχιση και όχι την ίδια τη στοίχιση. Μια χρήσιµη παράµετρος, η οποία χαρακτηρίζει το πληροφοριακό περιεχόµενο ενός πίνακα αντικατάστασης είναι η σχετική εντροπία 20 20 H = q S i= 1 j= 1 ij i, j. Η σχετική εντροπία εκφράζει το µέσο ποσό

πληροφορίας που είναι διαθέσιµο για κάθε ζεύγος καταλοίπων που στοιχίζεται, και διαχωρίζει την προκύπτουσα στοίχιση από µια τυχαία στοίχιση που οφείλεται απλά στις συχνότητες υποβάθρου. Υψηλότερη τιµή της σχετικής εντροπίας συνεπάγεται εύκολο διαχωρισµό µεταξύ των συχνοτήτων στόχων και υποβάθρου. 2.4.1 Πίνακες PAM Η Margaret Dayhoff και οι συνεργάτες της δηµιούργησαν τους πίνακες αντικατάστασης της οικογένειας PAM (Dayhoff and Eck, 1968) µε βάση ένα µαρκοβιανό µοντέλο εξέλιξης. Κατά το µοντέλο αυτό, οι παρατηρούµενες αµινοξικές ακολουθίες αποτελούν προϊόν των Αποδεκτών Σηµειακών Μεταλλαγών (Point Accepted Mutations, PAM) στις προγονικές ακολουθίες. Ως Αποδεκτή Σηµειακή Μεταλλαγή σε µια πρωτεΐνη θεωρείται η αντικατάσταση ενός αµινοξικού καταλοίπου της µε ένα κατάλοιπο διαφορετικού τύπου, η οποία έχει γίνει αποδεκτή µέσω της διαδικασίας της Φυσικής Επιλογής. Αυτό το φαινόµενο, συντελείται από δύο ανεξάρτητες µεταξύ τους διεργασίες: Αρχικά, την εµφάνιση µιας σηµειακής µεταλλαγής στην κωδική περιοχή του αντίστοιχου γονιδίου, η οποία οδηγεί σε αλλαγή του αµινοξικού καταλοίπου στη συγκεκριµένη θέση Στη συνέχεια, την αποδοχή της µεταλλαγής και την καθιέρωσή της ως επικρατούσα κατάσταση στο συγκεκριµένο είδος. ιαισθητικά, για να συµβεί αυτό, θα πρέπει το νέο αµινοξικό κατάλοιπο να έχει παρόµοιες φυσικοχηµικές ιδιότητες µε αυτό το οποίο αντικατέστησε, ώστε η νέα πρωτεΐνη να µπορεί να λειτουργεί µε αντίστοιχο τρόπο µε την παλιά

Για την κατασκευή ενός πίνακα αντικατάστασης µε βάση την εξελικτική διαδικασία, οι υπολογισµοί που απαιτούνται περιορίζονται σε αυτόν της συχνότητας µεταλλαγής κάθε αµινοξικού τύπου σε οποιονδήποτε άλλο, καθώς και την προτίµηση των διαφόρων καταλοίπων να παραµένουν αµετάλλακτα. Προφανώς, αυτή η πληροφορία µπορεί απλά να παρασταθεί σε ένα τετραγωνικό πίνακα 20x20. Οι αρχικοί υπολογισµοί (Dayhoff and Eck, 1968) πραγµατοποιήθηκαν εντοπίζοντας τις µεταλλαγές οι οποίες παρατηρήθηκαν σε ολικές στοιχίσεις από 34 οικογένειες πρωτεϊνών, οι οποίες ήταν γνωστό ότι ήταν οµόλογες και είχαν µεγάλο ποσοστό συντήρησης (διέφεραν λιγότερο από 15% σε επίπεδο αµινοξικής ακολουθίας). Αυτές οι ακολουθίες µπορούσαν να στοιχιθούν χωρίς αµφιβολίες και όλοι οι υπολογισµοί πραγµατοποιήθηκαν µε βάση τα φυλογενετικά δέντρα που κατασκευάσθηκαν από τις ολικές στοιχίσεις των αντίστοιχων ακολουθιών. Νεότερες εργασίες της ίδιας οµάδας (Dayhoff, Schwartz et al., 1978) αλλά και αρκετά µεταγενέστερες εργασίες (Gonnet, Cohen et al., 1992; Jones, Taylor et al., 1992), βασισµένες στο ίδιο ή παρόµοια µοντέλα υπολογισµών, κατέληξαν στην κατασκευή περισσότερο ενηµερωµένων πινάκων αντικατάστασης, οι τιµές των οποίων προέκυψαν από δεδοµένα σηµαντικά περισσότερων ακολουθιών.

ACGH DEGH ADIF CEIF E-C A-D E-D A-C AEGH AEIF I-G H-F Εικόνα 4: Φυλογενετικό δένδρο που προκύπτει από τη στοίχιση των ακολουθιών ACGH, DEGH, ADIF και CEIF. Στα κλαδιά του δένδρου απεικονίζονται οι αντικαταστάσεις οι οποίες παρατηρούνται στις ακολουθίες ACGH, DEGH, ADIF και CEIF και οι προγονικές τους ακολουθίες, όπως αυτές προκύπτουν µε βάση τη στοίχισή τους. Με κόκκινους χαρακτήρες τονίζονται οι αµινοξικές αντικαταστάσεις που έχουν συµβεί ώστε από τις υποθετικές προγονικές ακολουθίες (σηµειώνονται µε µπλε χαρακτήρες στους εσωτερικούς κόµβους του δένδρου) να καταλήξουµε στις εξεταζόµενες ακολουθίες (σηµειώνονται µε µαύρους χαρακτήρες στους ακραίους κόµβους του δένδρου). Για παράδειγµα, για τις απλές ακολουθίες ACGH, DEGH, ADIF και CEIF αντιστοιχεί το απλό φυλογενετικό δένδρο της εικόνας (Εικόνα 4). Με βάση ένα δένδρο αυτού του τύπου, µε απλό τρόπο µπορεί να κατασκευαστεί ένας πίνακας απαρίθµησης (Πίνακας 1) των παρατηρούµενων αντικαταστάσεων F X,Y, που εκφράζει τη συχνότητα αντικατάστασης του καταλοίπου Χ από το Υ. Αξίζει να σηµειωθεί ότι κατά το πρότυπο της Dayhoff τα γεγονότα αντικατάστασης Χ->Υ και Υ->Χ είναι ισοπίθανα, εποµένως κάθε αντικατάσταση προσµετράται δύο φορές, µε αποτέλεσµα ο πίνακας να είναι συµµετρικός.

Πίνακας 1: Συµµετρικός πίνακας απαρίθµησης αντικαταστάσεων. A C D E F G H I A 0 1 1 0 0 0 0 0 C 1 0 0 1 0 0 0 0 D 1 0 0 1 0 0 0 0 E 0 1 1 0 0 0 0 0 F 0 0 0 0 0 0 1 0 G 0 0 0 0 0 0 0 1 H 0 0 0 0 1 0 0 0 I 0 0 0 0 0 1 0 0 Στοιχεία του πίνακα είναι οι αριθµοί των διαφόρων τύπων αντικαταστάσεων (Αποδεκτές Σηµειακές Μεταλλαγές) που αντιστοιχούν στα δεδοµένα του δένδρου που παρουσιάζεται στην Εικόνα 4. Ο πίνακας είναι συµµετρικός, γεγονός που οφείλεται στην άγνοιά µας για το ποια από τις 2 δυνατές µεταλλάξεις Χ->Υ ή Υ->Χ έχει πράγµατι συµβεί. Από τα δεδοµένα του πίνακα απαρίθµησης αντικαταστάσεων υπολογίζονται τιµές της σχετικής µεταλλαξιµότητας m Χ για κάθε κατάλοιπο Χ, η οποία εκφράζει την πιθανότητα αντικατάστασης του Χ από οποιοδήποτε κατάλοιπο Υ: m X = Y F N XY, X όπου N X είναι ο συνολικός αριθµός εµφανίσεων του καταλοίπου Χ στο σύνολο των ακολουθιών.

# # This matrix was produced by "pam" Version 1.0.6 [28-Jul-93] # # PAM 250 substitution matrix, scale = ln(2)/3 = 0.231049 # # Expected score = -0.844, Entropy = 0.354 bits # # Lowest score = -8, Highest score = 17 # A R N D C Q E G H I L K M F P S T W Y V B Z X * A 2-2 0 0-2 0 0 1-1 -1-2 -1-1 -3 1 1 1-6 -3 0 0 0 0-8 R -2 6 0-1 -4 1-1 -3 2-2 -3 3 0-4 0 0-1 2-4 -2-1 0-1 -8 N 0 0 2 2-4 1 1 0 2-2 -3 1-2 -3 0 1 0-4 -2-2 2 1 0-8 D 0-1 2 4-5 2 3 1 1-2 -4 0-3 -6-1 0 0-7 -4-2 3 3-1 -8 C -2-4 -4-5 12-5 -5-3 -3-2 -6-5 -5-4 -3 0-2 -8 0-2 -4-5 -3-8 Q 0 1 1 2-5 4 2-1 3-2 -2 1-1 -5 0-1 -1-5 -4-2 1 3-1 -8 E 0-1 1 3-5 2 4 0 1-2 -3 0-2 -5-1 0 0-7 -4-2 3 3-1 -8 G 1-3 0 1-3 -1 0 5-2 -3-4 -2-3 -5 0 1 0-7 -5-1 0 0-1 -8 H -1 2 2 1-3 3 1-2 6-2 -2 0-2 -2 0-1 -1-3 0-2 1 2-1 -8 I -1-2 -2-2 -2-2 -2-3 -2 5 2-2 2 1-2 -1 0-5 -1 4-2 -2-1 -8 L -2-3 -3-4 -6-2 -3-4 -2 2 6-3 4 2-3 -3-2 -2-1 2-3 -3-1 -8 K -1 3 1 0-5 1 0-2 0-2 -3 5 0-5 -1 0 0-3 -4-2 1 0-1 -8 M -1 0-2 -3-5 -1-2 -3-2 2 4 0 6 0-2 -2-1 -4-2 2-2 -2-1 -8 F -3-4 -3-6 -4-5 -5-5 -2 1 2-5 0 9-5 -3-3 0 7-1 -4-5 -2-8 P 1 0 0-1 -3 0-1 0 0-2 -3-1 -2-5 6 1 0-6 -5-1 -1 0-1 -8 S 1 0 1 0 0-1 0 1-1 -1-3 0-2 -3 1 2 1-2 -3-1 0 0 0-8 T 1-1 0 0-2 -1 0 0-1 0-2 0-1 -3 0 1 3-5 -3 0 0-1 0-8 W -6 2-4 -7-8 -5-7 -7-3 -5-2 -3-4 0-6 -2-5 17 0-6 -5-6 -4-8 Y -3-4 -2-4 0-4 -4-5 0-1 -1-4 -2 7-5 -3-3 0 10-2 -3-4 -2-8 V 0-2 -2-2 -2-2 -2-1 -2 4 2-2 2-1 -1-1 0-6 -2 4-2 -2-1 -8 B 0-1 2 3-4 1 3 0 1-2 -3 1-2 -4-1 0 0-5 -3-2 3 2-1 -8 Z 0 0 1 3-5 3 3 0 2-2 -3 0-2 -5 0 0-1 -6-4 -2 2 3-1 -8 X 0-1 0-1 -3-1 -1-1 -1-1 -1-1 -1-2 -1 0 0-4 -2-1 -1-1 -1-8 * -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8 1 Εικόνα 5: Πίνακας αντικατάστασης PAM-250. Εκτός από τα αµινοξικά κατάλοιπα (A, R,, V) αντιστοιχίζονται τιµές και για τα αµφίσηµα Β (N ή D), Ζ (Q ή E) καθώς και για κατάλοιπα αδιευκρίνιστου τύπου Χ. Οι τιµές του πίνακα έχουν σταθµιστεί µε ένα παράγοντα ln2 3, ο οποίος επηρεάζει µόνο την τελική βαθµολογία της στοίχισης και όχι την ίδια τη στοίχιση. Με αυτή τη διαδικασία, κατασκευάστηκε ένας πίνακας οι πιθανότητες του οποίου εξέφραζαν τις αλλαγές που παρατηρούνται όταν 1 στα εκατό κατάλοιπα των ακολουθιών µεταλλασσόταν (1% αποδεκτές σηµειακές µεταλλαγές) και ονοµάστηκε PAM-1 (Εικόνα 5) ή, όπως ισοδύναµα αναφέρεται, αντιστοιχεί σε εξελικτική απόσταση 1 PAM, τα στοιχεία του οποίου υπολογίζονται:

M X, Y λmf Y F X, Y, αν X Y = X, Y X 1 λmy, αν X = Y όπου λ µια σταθερά, η οποία είναι η ίδια για όλους τους αµινοξικούς τύπους. Η στάθµιση των πιθανοτήτων ώστε να αντιστοιχούν σε ποσοστό αποδεκτών σηµειακών µεταλλαγών 1% επιτυγχάνεται µε κατάλληλη επιλογή της τιµής του λ. Η χρήση των πινάκων πιθανοτήτων είναι υπολογιστικά ασύµφορη, καθώς απαιτείται η χρήση κλασµατικών αριθµών, δηµιουργώντας προβλήµατα στην ακρίβεια των δεκαδικών ψηφίων κατά την αναπαράσταση από τον ηλεκτρονικό υπολογιστή. Παράλληλα, όπως είναι γνωστό η πιθανότητα να συµβούν ταυτόχρονα δύο ανεξάρτητα γεγονότα ισούται µε το γινόµενο των πιθανοτήτων τους. Εποµένως, για τον υπολογισµό της πιθανότητας για τη στοίχιση τµηµάτων ακολουθιών (µε την υπόθεση της ανεξαρτησίας των αντικαταστάσεων από θέση σε θέση) απαιτείται ο πολλαπλασιασµός των πιθανοτήτων των αντίστοιχων ζευγών, ο οποίος για ακολουθίες µεγάλου µήκους µπορεί να δηµιουργήσει πρόβληµα υπερχείλισης (overflow). Τα προβλήµατα αυτά λύνονται υπολογίζοντας το λογάριθµο του λόγου S XY, = M XY, N Y, δηµιουργώντας, έτσι, τον τελικό πίνακα αντικαταστάσεων, όπου καταλοίπου Υ. N Y η συχνότητα εµφάνισης του Το είδος του εξελικτικού µοντέλου στο οποίο βασίστηκε η Dayhoff και οι συνεργάτες της υποθέτει ότι οι πρωτεΐνες µε αποµακρυσµένη εξελικτική συγγένεια προκύπτουν από µια αλληλουχία µη σχετιζόµενων µεταλλαγών, το οποίο µαθηµατικά αντιστοιχεί µε µια Ανέλιξη Markov πρώτης τάξεως (first order Markov Chain). Εποµένως, για την κατασκευή ενός πίνακα PAM-N, ο οποίος να

αντιστοιχεί σε µεγαλύτερο ποσοστό αποδεκτών σηµειακών µεταλλαγών Ν, απλά υπολογίζεται η Ν-ιοστή δύναµη του πίνακα PAM-1. Αναφορικά µε τη χρήση των πινάκων της οικογένειας PAM για σύγκριση πρωτεϊνικών ακολουθιών σηµειώνεται ότι η χρήση πινάκων µε µικρό Ν ενδείκνυται όταν οι εξεταζόµενες ακολουθίες είναι πολύ όµοιες (µικρή εξελικτική απόσταση), ενώ στην περίπτωση περισσότερο αποµακρυσµένων οµοιοτήτων χρησιµοποιούµε πίνακες µεγαλύτερου Ν. Στις περιπτώσεις εκείνες κατά τις οποίες δε γνωρίζουµε εκ των προτέρων την οµοιότητα των προς σύγκριση ακολουθιών (π.χ. σε αναζητήσεις έναντι βάσεων δεδοµένων) επιλέγουµε ένα ενδιάµεσο πίνακα, όπως τον PAM-250, ο οποίος αντιστοιχεί σε συντήρηση της τάξης του 20-25%. Το εξελικτικό µοντέλο των αποδεκτών σηµειακών µεταλλαγών για τις πρωτεϊνικές ακολουθίες είναι προφανές ότι περιέχει αρκετές ατέλειες. Για παράδειγµα, οι συχνότητες των µεταλλαγών οι οποίες απαιτούν περισσότερες από µία µεταλλάξεις στο επίπεδο της αλληλουχίας του DNA είναι µεγαλύτερες από αυτές που θα υπολογίζονταν θεωρώντας ένα αντίστοιχο µαρκοβιανό µοντέλο για την εξέλιξη του DNA. Επίσης, το µοντέλο αυτό θεωρεί ότι όλα τα κατάλοιπα σε µια ακολουθία έχουν τις ίδιες πιθανότητες να µεταλλαχθούν, υπόθεση που προφανώς δεν ισχύει, αφού είναι γνωστό ότι κατάλοιπα τα οποία είναι κρίσιµα για τη λειτουργία µιας πρωτεΐνης (π.χ. στο ενεργό κέντρο ενός ενζύµου) δεν επιδέχονται εύκολα µεταλλαγές. Παράλληλα, οι πρωτεϊνικές οικογένειες που χρησιµοποιήθηκαν για τους προαναφερθέντες υπολογισµούς ήταν κατά κύριο λόγο οικογένειες σφαιρικών υδατοδιαλυτών πρωτεϊνών, οπότε οι συχνότητες εµφάνισης δεν αντικατοπτρίζουν ειδικά χαρακτηριστικά των ακολουθιών άλλων κατηγοριών πρωτεϊνών (π.χ. διαµεµβρανικές ή εκκρινόµενες πρωτεΐνες). Παρόλα αυτά, αν και οι επικριτές αυτής της προσέγγισης κατασκεύασαν πίνακες αντικατάστασης βασισµένους σε άλλα κριτήρια (π.χ. φυσικοχηµικές

ιδιότητες αµινοξικών καταλοίπων, (Kubota, Takahashi et al., 1981; Argos, 1987; Feng and Doolittle, 1987; Risler, Delorme et al., 1988) για αρκετά χρόνια, η σειρά πινάκων αντικατάστασης PAM αποτελούσε το µοναδικό και ευρέως αποδεκτό σύστηµα για τη βαθµονόµηση των στοιχίσεων πρωτεϊνικών ακολουθιών. 2.4.2 Πίνακες BLOSUM Ένα χαρακτηριστικό του µοντέλου της Dayhoff είναι ότι οι αποδεκτές σηµειακές µεταλλαγές είναι συχνότερες σε περιοχές όπου οι εξελικτικές πιέσεις είναι µικρότερες, δηλαδή σε περιοχές οι οποίες είναι λιγότερο πιθανό να συντηρηθούν κατά τη διάρκεια µεγάλων εξελικτικών περιόδων. Στην περίπτωση, όµως, που υπάρχουν συστηµατικές διαφορές µεταξύ των ρυθµών µε τους οποίους πραγµατοποιούνται σε συντηρηµένες και µη περιοχές των πρωτεϊνών, η επαγωγική µέθοδος υπολογισµού µε βάση τον PAM-1 προφανώς θα είναι εσφαλµένη. Για την αντιµετώπιση αυτού του προβλήµατος το 1992 οι Henikoff και Henikoff (Henikoff and Henikoff, 1992) εισήγαγαν τη σειρά πινάκων αντικατάστασης BLOSUM. Η λογική στην οποία στηρίχτηκαν ήταν να απαριθµήσουν τα ζεύγη αµινοξικών καταλοίπων τα οποία εµφανίζονταν σε συντηρηµένες περιοχές από ολικές πολλαπλές στοιχίσεις ακολουθιών οι οποίες είχαν αποµακρυσµένη εξελικτική σχέση και µικρή οµοιότητα µεταξύ τους. Αυτές οι περιοχές, οι οποίες σηµειωτέον, δεν περιείχαν κενά, ονοµάστηκαν BLOCKS και η ονοµασία BLOSUM δεν είναι τίποτε άλλο παρά το ακρωνύµιο: BLOcks SUbstistution Matrcices. Για τη στάθµιση της συνεισφοράς των περισσότερο όµοιων ακολουθιών στον υπολογισµό των συχνοτήτων στόχων (target frequencies), οι Henikoff και Henikoff πραγµατοποίησαν

οµαδοποίηση (clustering) των ακολουθιών σε κάθε BLOCK βασισµένοι στο ποσοστό των ταυτόσηµων καταλοίπων. Έτσι, για παράδειγµα, όταν οµαδοποιήθηκαν οι ακολουθίες κάθε BLOCK µε κατώφλι οµοιότητας το 50%, ο πίνακας που προέκυψε ονοµάστηκε BLOSUM50. Αυτή η διαδικασία οδήγησε στη σειρά πινάκων BLOSUM- N, όπου η αύξηση της τιµής Ν οδηγεί σε πίνακες µεγαλύτερης σχετικής εντροπίας οι οποίοι αντιστοιχούν σε πίνακες λιγότερων αποδεκτών σηµειακών µεταλλαγών PAM, δηλαδή σε µικρότερες εξελικτικές αποστάσεις. Παρότι η δηµιουργία των πινάκων BLOSUM δε βασίζεται σε κάποιο εξελικτικό µοντέλο, η διαδικασία της οµαδοποίησης που πραγµατοποιείται εµπεριέχει σε κάποιο βαθµό εξελικτική πληροφορία. Η σειρά αυτή πινάκων αντικατάστασης έχει αποδειχτεί εξαιρετικά χρήσιµη σε αναζητήσεις οµοιότητας έναντι βάσεων δεδοµένων πρωτεϊνικών ακολουθιών, ιδίως στην αναζήτηση αποµακρυσµένων οµοιοτήτων µε υψηλή ευαισθησία. Στην παρούσα διατριβή, σε όλες τις εφαρµογές που απαιτείται η χρήση πίνακα αντικατάστασης χρησιµοποιήθηκε ο BLOSUM62 (Εικόνα 6) ή τροποποιηµένες µορφές του εξαιτίας της αντιστοιχίας του µε µια µέση εξελικτική απόσταση.

# Matrix made by matblas from blosum62.iij # * column uses minimum score # BLOSUM Clustered Scoring Matrix in 1/2 Bit Units # Blocks Database = /data/blocks_5.0/blocks.dat # Cluster Percentage: >= 62 # Entropy = 0.6979, Expected = -0.5209 A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4-1 -2-2 0-1 -1 0-2 -1-1 -1-1 -2-1 1 0-3 -2 0-2 -1 0-4 R -1 5 0-2 -3 1 0-2 0-3 -2 2-1 -3-2 -1-1 -3-2 -3-1 0-1 -4 N -2 0 6 1-3 0 0 0 1-3 -3 0-2 -3-2 1 0-4 -2-3 3 0-1 -4 D -2-2 1 6-3 0 2-1 -1-3 -4-1 -3-3 -1 0-1 -4-3 -3 4 1-1 -4 C 0-3 -3-3 9-3 -4-3 -3-1 -1-3 -1-2 -3-1 -1-2 -2-1 -3-3 -2-4 Q -1 1 0 0-3 5 2-2 0-3 -2 1 0-3 -1 0-1 -2-1 -2 0 3-1 -4 E -1 0 0 2-4 2 5-2 0-3 -3 1-2 -3-1 0-1 -3-2 -2 1 4-1 -4 G 0-2 0-1 -3-2 -2 6-2 -4-4 -2-3 -3-2 0-2 -2-3 -3-1 -2-1 -4 H -2 0 1-1 -3 0 0-2 8-3 -3-1 -2-1 -2-1 -2-2 2-3 0 0-1 -4 I -1-3 -3-3 -1-3 -3-4 -3 4 2-3 1 0-3 -2-1 -3-1 3-3 -3-1 -4 L -1-2 -3-4 -1-2 -3-4 -3 2 4-2 2 0-3 -2-1 -2-1 1-4 -3-1 -4 K -1 2 0-1 -3 1 1-2 -1-3 -2 5-1 -3-1 0-1 -3-2 -2 0 1-1 -4 M -1-1 -2-3 -1 0-2 -3-2 1 2-1 5 0-2 -1-1 -1-1 1-3 -1-1 -4 F -2-3 -3-3 -2-3 -3-3 -1 0 0-3 0 6-4 -2-2 1 3-1 -3-3 -1-4 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7-1 -1-4 -3-2 -2-1 -2-4 S 1-1 1 0-1 0 0 0-1 -2-2 0-1 -2-1 4 1-3 -2-2 0 0 0-4 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-2 -2 0-1 -1 0-4 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 2-3 -4-3 -2-4 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7-1 -3-2 -1-4 V 0-3 -3-3 -1-2 -2-3 -3 3 1-2 1-1 -2-2 0-3 -1 4-3 -2-1 -4 B -2-1 3 4-3 0 1-1 0-3 -4 0-3 -3-2 0-1 -4-3 -3 4 1-1 -4 Z -1 0 0 1-3 3 4-2 0-3 -3 1-1 -3-1 0-1 -3-2 -2 1 4-1 -4 X 0-1 -1-1 -2-1 -1-1 -1-1 -1-1 -1-1 -2 0 0-2 -1-1 -1-1 -1-4 * -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4 1 Εικόνα 6: Πίνακας αντικατάστασης BLOSUM62. 2.4.3 Άλλοι πίνακες αντικατάστασης Στην κατασκευή πινάκων αντικατάστασης έχουν χρησιµοποιηθεί διάφορες εναλλακτικές προσεγγίσεις. Ουσιαστική διαφορά αυτών των προσεγγίσεων είναι ο τρόπος επιλογής του τύπου των στοιχίσεων οι οποίες θα χρησιµοποιηθούν για τον υπολογισµό των συχνοτήτων-στόχων. ηµοφιλείς προσεγγίσεις είναι αυτές που βασίστηκαν στη δηµιουργία στοιχίσεων καθοδηγούµενων από δοµικές πληροφορίες (Overington, Donnelly et al., 1992; Johnson and Overington, 1993), τη συντήρηση υδρόφοβων καταλοίπων (Tomii and Kanehisa, 1996) ή

σε εναλλακτικά εξελικτικά µοντέλα (Koshi and Goldstein, 1995). Επίσης, αναπτύσσονται πίνακες για χρήση σε συγκεκριµένες κατηγορίες πρωτεϊνών (π.χ. διαµεµβρανικές πρωτεΐνες, Ng, Henikoff et al., 2000; Muller, Rahmann et al., 2001) Αξίζει να σηµειωθεί, ότι καµία από τις προσεγγίσεις στην κατασκευή πινάκων αντικατάστασης δεν αντιµετωπίζει µε συστηµατικό τρόπο το πολύ σηµαντικό πρόβληµα της εκτίµησης ιδανικών τιµών ποινής για την εισαγωγή και την επέκταση κενών σε στοιχίσεις. 2.5 Σύγκριση ακολουθιών µε διαγράµµατα Πινάκων Σηµείων (Dot Matrix Plots) Τα διαγράµµατα πινάκων σηµείων (dot matrix plots) αποτελούν µια από τις απλούστερες µεθόδους για τον υπολογισµό και την οπτικοποίηση της οµοιότητας µεταξύ δύο ακολουθιών. Η πρώτη εφαρµογή της µεθόδου αναφέρεται από το 1970 (Gibbs and McIntyre, 1970). Στην απλούστερη µορφή της υλοποιείται µε την κατασκευή ενός δισδιάστατου ορθογώνιου διαγράµµατος, τη θέση των αξόνων του οποίου έχουν οι δύο ακολουθίες που συγκρίνουµε. Ο χώρος του διαγράµµατος, µπορεί να αναπαρασταθεί µε ένα πλέγµα (αντίστοιχο µε µία σκακιέρα) στο οποίο τα τετράγωνα τα οποία αντιστοιχούν σε ταυτόσηµα κατάλοιπα των δύο ακολουθιών χρωµατίζονται, ενώ τα υπόλοιπα παραµένουν κενά (Εικόνα 7). Σε πρακτικές εφαρµογές αρκεί η δηµιουργία ενός κατάλληλου συστήµατος αξόνων και η αναπαράσταση των ταυτίσεων µε σηµεία, οι συντεταγµένες των οποίων αντιστοιχούν στη θέση των καταλοίπων στις συγκρινόµενες ακολουθίες.

Εικόνα 7: Απλή µορφή διαγράµµατος πίνακα σηµείων. Περιοχές του πίνακα µε χρωµατισµένα κελιά κατά µία διαγώνιο υποδεικνύουν περιοχές ταύτισης των ακολουθιών. ιαδροµές κατά τη διαγώνιο των κελιών αντιστοιχούν σε ταίριασµα των αντίστοιχων καταλοίπων, ενώ διαδροµές κατά τις οριζόντιες (κατακόρυφες) ακµές σε εισαγωγή κενών στην κατακόρυφη (οριζόντια) ακολουθία. Στο παράδειγµα, σηµειώνεται µε κόκκινο χρώµα η διαγώνιος η οποία αντιστοιχεί στο διατηρηµένο τµήµα AATC των δύο ακολουθιών. Τα διαγράµµατα αυτού του τύπου βρήκαν ευρεία χρήση, διότι κατασκευάζονται πολύ εύκολα (για µικρές ακολουθίες ακόµη και µε χαρτί και µολύβι), αλλά κυρίως διότι η ερµηνεία τους είναι εξαιρετικά εύκολη. Νεότερες υλοποιήσεις της µεθόδου συµπεριέλαβαν την εισαγωγή έξυπνων τεχνικών φιλτραρίσµατος για την αύξηση του λόγου σήµα-θόρυβος (Pustell and Kafatos, 1982; Pustell and Kafatos, 1984) καθώς και την πιθανότητα ταιριάσµατος µη-

ταυτόσηµων καταλοίπων (Reisner and Bucholtz, 1988) µε τη χρήση πινάκων αντικατάστασης βασισµένων σε φυσικοχηµικά χαρακτηριστικά ή εξελικτικές πληροφορίες. 2.6 Αλγόριθµοι υναµικού Προγραµµατισµού (Dynamic Programming) Οι συγκρίσεις ακολουθιών µε τη µέθοδο των διαγραµµάτων Πινάκων Σηµείων βασίζονται, κατά κύριο λόγο, στην εξαιρετική ικανότητα διάκρισης προτύπων του ανθρώπινου µατιού. Μολαταύτα, η µέθοδος αυτή διακρίνεται από µεγάλο βαθµό υποκειµενικότητας, γεγονός που δε διασφαλίζει την κατασκευή της βέλτιστης δυνατής στοίχισης. Μια εναλλακτική µέθοδος, η οποία θα εξασφάλιζε µε βεβαιότητα την παραγωγή της βέλτιστης δυνατής στοίχισης θα ήταν αυτή της εξαντλητικής αναζήτησης (brute-force search). Στην περίπτωση αυτή πραγµατοποιείται απαρίθµηση όλων των δυνατών στοιχίσεων µεταξύ των δύο ακολουθιών και την επιλογή εκείνης η οποία µεγιστοποιεί το επιλεγµένο κριτήριο βαθµονόµησης. Το πρόβληµα αυτό είναι δυσεπίλυτο υπολογιστικά, αφού, επιτρέποντας την εισαγωγή κενών, για δύο ακολουθίες µε µήκος τάξης µεγέθους χρόνος εκτέλεσης γίνεται ανάλογος του N 2N 2 N (2 N)! 2 = 2 N ( N!) 2π N (Waterman, 1989; Waterman, 1995). Πρακτικά, για δύο ακολουθίες µήκους 300 καταλοίπων απαιτούνται περίπου ο συγκρίσεις, µέγεθος που γίνεται αντιληπτό αν αναφέρουµε ότι το πλήθος των στοιχειωδών σωµατιδίων του σύµπαντος εκτιµάται ότι είναι (µόνο!) 80 10. 88 10 Από το σύνολο των στοιχίσεων αυτών, αρκετά µεγάλο πλήθος δεν έχει βιολογικό νόηµα, όπως για παράδειγµα στην περίπτωση που ένα κενό στοιχίζεται µε κενό. Η υπολογιστική τεχνική του υναµικού

Προγραµµατισµού (Dynamic Programming, Bellman, 1957; Bellman and Dreyfus, 1962), είναι µια τεχνική η οποία εφαρµόζει τη λογική "διαίρει και βασίλευε", προσπαθώντας να εντοπίσει τη βέλτιστη λύση ενός προβλήµατος συνδυάζοντας διαδοχικά τις λύσεις από απλούστερα προβλήµατα. Η εφαρµογή του υναµικού Προγραµµατισµού στο πρόβληµα της στοίχισης ακολουθιών κατά ζεύγη έχει χρόνο εκτέλεσης τάξης 2 N την εύρεση της βέλτιστης δυνατής στοίχισης. εξασφαλίζοντας παράλληλα 2.6.1 Ολικές Στοιχίσεις: Ο Αλγόριθµος Needleman-Wunsch Η διαδικασία της ολικής στοίχισης ακολουθιών αποσκοπεί στη στοίχιση δύο ακολουθιών x = x1... xn, y = y1... ym σε όλο το µήκος τους. Η πρώτη εφαρµογή αλγορίθµων δυναµικού προγραµµατισµού για τη στοίχιση βιολογικών ακολουθιών πραγµατοποιήθηκε από τους Needleman και Wunsch το 1970 (Needleman and Wunsch, 1970), για επίλυση αυτού ακριβώς του προβλήµατος. Η βασική ιδέα έγκειται στην κατασκευή της βέλτιστης στοίχισης χρησιµοποιώντας προηγούµενες βέλτιστες στοιχίσεις µικρότερων τµηµάτων των ακολουθιών. Για την εφαρµογή αυτή τοποθετούµε τις ακολουθίες σε ένα ορθογώνιο δισδιάστατο n x m πίνακα F, σε αντιστοιχία µε τη µέθοδο των διαγραµµάτων Πινάκων Σηµείων. Μια διαφορά είναι ότι στην αρχή του πίνακα εισάγονται µια κενή γραµµή και στήλη, οι οποίες αντιστοιχούν στην ελευθερία εισαγωγής κενών στην αρχή των ακολουθιών. Για τους υπολογισµούς, χρησιµοποιούµε τις τιµές ενός πίνακα αντικατάστασης καταλοίπων τύπου X, Y. S X, Y, για το ταίριασµα των Στο τυχαίο στοιχείο F i, j που καταλαµβάνει τη θέση στη γραµµή i και στη γραµµή j του πίνακα F αποθηκεύεται η αριθµητική τιµή της βαθµολογίας για την καλύτερη δυνατή στοίχιση µεταξύ των αρχικών τµηµάτων x... x, y... y j. Αν οριστεί η αρχική τιµή F 0,0 = 0, είναι 1 i 1

δυνατόν να υπολογιστούν οι τιµές του πίνακα F µε µια επαναληπτική διαδικασία. Οι τιµές υπολογίζονται κατά γραµµή, ξεκινώντας από την επάνω αριστερά γωνία και προχωρώντας συνεχώς προς τα δεξιά, ενώ όταν φτάνουµε στο τέλος µιας γραµµής ξεκινάµε από το πρώτο κελί της επόµενης. Όλο το µυστήριο του αλγορίθµου βρίσκεται στον τρόπο µε τον οποίο υπολογίζουµε την τιµή για το τυχαίο κελί. Οι πιθανές περιπτώσεις ώστε η στοίχιση να εκτείνεται µέχρι τα x,, όπως φαίνεται στην Εικόνα 8, είναι τρεις. F i, j i y i Εικόνα 8: Τρεις δυνατοί τρόποι ώστε να επεκταθεί µια στοίχιση µέχρι τα κατάλοιπα i, j. To x i είναι δυνατόν να στοιχιθεί µε το y i ή µε κενό. Αντίστοιχα και για το y i. Προφανώς, λοιπόν, για τον υπολογισµό της τιµής του κελιού F i, j αρκεί να γνωρίζουµε τις τιµές για τα προηγούµενα γειτονικά κελιά,, : Fi 1, j 1 F i 1, j F i, j 1 αν το κατάλοιπο x στοιχίζεται µε το κατάλοιπο y τότε F = F + S, i, j i 1, j 1 xi yi αν το κατάλοιπο στοιχίζεται µε ένα κενό i i x Fi, j= F i 1, j g αν το κατάλοιπο στοιχίζεται µε ένα κενό i y i, j= i, j 1 g F F, i όπου g η ποινή για την εισαγωγή κενού χαρακτήρα. Συνεπώς, προκειµένου να εντοπίσουµε τη στοίχιση η οποία αντιστοιχεί στη