Διπλωματική Εργασία ΕΝΤΟΠΙΣΜΟΣ ΠΕΠΤΙΔΙΟΥ ΣΗΜΑΤΟΣ ΣΕ ΔΙΑΜΕΜΒΡΑΝΙΚΕΣ ΠΡΩΤΕΪΝΕΣ ΜΕ ΕΦΑΡΜΟΓΗ ΤΟΥ ΣΥΝΕΧΟΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ ΚΥΜΑΤΙΔΙΩΝ



Σχετικά έγγραφα
Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν;

ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Βιολογία Β Λυκείου θέματα

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

MAΘΗΜΑ 4 ο AMINOΞΕΑ-ΠΕΠΤΙ ΙΑ-ΠΡΩΤΕΪΝΕΣ

Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων. 1/10/2015 Δ.Δ. Λεωνίδας

Βιολογία Γενικής Παιδείας Β Λυκείου

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

ΔΟΜΗ ΚΑΙ ΛΕΙΤΟΥΡΓΙΑ ΠΛΑΣΜΑΤΙΚΗΣ ΜΕΜΒΡΑΝΗΣ. Πετρολιάγκης Σταμάτης Τμήμα Γ4

Κεφάλαιο 1. Οι δομικοί λίθοι

ΔΟΜΗ ΚΑΙ ΔΡΑΣΗ ΠΡΩΤΕΙΝΩΝ

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση:

αποτελούν το 96% κ.β Ποικιλία λειτουργιών

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

τα βιβλία των επιτυχιών

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

πρωτεΐνες πολυμερείς ουσίες δομούν λειτουργούν λευκώματα 1.Απλές πρωτεΐνες 2.Σύνθετες πρωτεΐνες πρωτεΐδια μη πρωτεϊνικό μεταλλοπρωτεΐνες

Κυτταρική Βιολογία. Ενότητα 08 : Βιολογικές μεμβράνες, μεμβρανικά διαμερίσματα, μεταφορά πρωτεϊνών Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής ΑΠΘ

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01%

οµή και Αναδίπλωση πρωτεϊνών

ΙΑΤΡΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΘΗΝΩΝ (ΕΚΠΑ) ΚΑΤΑΤΑΚΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΑΚ.ΕΤΟΥΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΧΗΜΕΙΑ

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

«ΠΡΩΤΕΪΝΕΣ: ΧΗΜΙΚΗ ΔΟΜΗ ΚΑΙ ΒΙΟΛΟΓΙΚΟΣ ΡΟΛΟΣ»

Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών

ΠΡΩΤΕΪΝΕΣ. Φατούρος Ιωάννης Αναπληρωτής Καθηγητής

COOH R 2. H α-αμινοξύ 2

Kυτταρική Bιολογία ΒΙΟΛΟΓΙΚΕΣ ΜΕΜΒΡΑΝΕΣ, ΜΕΜΒΡΑΝΙΚΑ ΔΙΑΜΕΡΙΣΜΑΤΑ & ΔΙΑΛΟΓΗ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΗ 4 (6/3/2013)

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ

Kυτταρική Bιολογία ΒΙΟΛΟΓΙΚΕΣ ΜΕΜΒΡΑΝΕΣ, ΜΕΜΒΡΑΝΙΚΑ ΔΙΑΜΕΡΙΣΜΑΤΑ & ΔΙΑΛΟΓΗ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΕΙΣ 4 & 5 (29/2 & 2/3/2016)

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Τάξη. Γνωστικό αντικείµενο: Ειδικοί διδακτικοί στόχοι

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

ΕΡΓΑΣΤΗΡΙΑΚΟ ΚΕΝΤΡΟ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Ν. ΜΑΓΝΗΣΙΑΣ ( Ε.Κ.Φ.Ε ) ΕΡΓΑΣΤΗΡΙΟ ΒΙΟΛΟΓΙΑΣ

και χρειάζεται μέσα στο ρύθμιση εναρμόνιση των διαφόρων ενζυμικών δραστηριοτήτων. ενζύμων κύτταρο τρόπους


Kυτταρική Bιολογία ΒΙΟΛΟΓΙΚΕΣ ΜΕΜΒΡΑΝΕΣ, ΜΕΜΒΡΑΝΙΚΑ ΔΙΑΜΕΡΙΣΜΑΤΑ & ΔΙΑΛΟΓΗ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΕΙΣ 4 & 5 (3/3 & 6/3/2017)

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

Μεταγωγή σήματος και βιολογικές μεμβράνες

ΚΕΦΑΛΑΙΟ 9 ο ΣΤΡΑΤΗΓΙΚΕΣ ΚΑΤΑΛΥΣΗΣ

Κεφάλαιο 22 Πρωτεΐνες

Δομικές κατηγορίες πρωτεϊνών

ΑΣΚΗΣΗ 1 Δύο αμινοξέα Α, και Β, συνιστούν ένα διπεπτίδιο. Το αμινοξύ Α έχει ελεύθερη την καρβοξυλομάδα του. Ποια είναι η δομή του;

Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ. Καρβουντζή Ηλιάνα Βιολόγος

ΓΩΝΙΕΣ φ, ψ ΚΑΙ ΕΠΙΤΡΕΠΤΕΣ ΔΙΑΜΟΡΦΩΣΕΙΣ ΤΗΣ ΠΟΛΥΠΕΠΤΙΔΙΚΗΣ ΑΛΥΣΙΔΑΣ

ΚΕΦΑΛΑΙΟ 11. Βιοενεργητική & Μεταβολισµός: Μιτοχόνδρια, Χλωροπλάστες & Υπεροξειδιοσώµατα

Δομή πρωτεϊνών: Τριτοταγής διαμόρφωση της δομής

Τράπεζα Θεμάτων Βιολογίας Β' Λυκείου Κεφάλαιο 1 ΚΕΦΑΛΑΙΟ 1

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

Περιήγηση στο εσωτερικό του Κυττάρου. Φώτης Καρβέλης

ΠΡΩΤΕΙΝΕΣ ΚΑΙ ΔΙΑΤΡΟΦΗ


ΠΡΩΤΕΙΝΕΣ ΚΑΙ ΔΙΑΤΡΟΦΗ

Βιολογικές Μεμβράνες και Μεταγωγή Σήματος

ΚΕΦΑΛΑΙΟ 1. Οργάνωση της ζωής βιολογικά συστήματα

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΧΗΜΕΙΑ - ΒΙΟΧΗΜΕΙΑ / Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: 1 ΗΜΕΡΟΜΗΝΙΑ: 21 / 09 /2014

Η κυτταρική µετατόπιση των πρωτεϊνών

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ.-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

ΚΕΦΑΛΑΙΟ 29 Σύνθεση πρωτεϊνών

Το ένζυμο Καρβοξυπεπτιδάση Α έχει τα εξής χαρακτηριστικά

Τμήμα Βιολογίας Μάθημα: ΒΙΟΛΟΓΙΑ ΚΥΤΤΑΡΟΥ Γ εξάμηνο Διαλέξεις κάθε Τρίτη μ.μ. και Παρασκευή 11-13

ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΚΕΦΑΛΑΙΟ 2 ΚΥΤΤΑΡΟ: Η ΘΕΜΕΛΙΩΔΗΣ ΜΟΝΑΔΑ ΤΗΣ ΖΩΗΣ ΘΕΜΑ Β 1. Η εικόνα απεικονίζει τμήμα μιας δομής του κυττάρου.

Θέµατα ιάλεξης ΠΡΩΤΕΪΝΕΣ - ΕΝΖΥΜΑ ΠΡΩΤΕΪΝΕΣ. ιαχωρισµός Αµινοξέων

ΙΑΤΡΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΘΗΝΩΝ (ΕΚΠΑ) ΚΑΤΑΤΑΚΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΑΚ.ΕΤΟΥΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΧΗΜΕΙΑ

ΒΙΟΧΗΜΕΙΑ Ι. ΚΕΦΑΛΑΙΟ 2 ο Βιοχημική εξέλιξη

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ. Τα χημικά μόρια που οικοδομούν τους οργανισμούς

ΒΑΣΙΚΕΣ ΔΟΜΕΣ - ΤΟ ΚΥΤΤΑΡΟ

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΚΕΦΑΛΑΙΟ 1. Οργάνωση της ζωής βιολογικά συστήματα

Κωνσταντίνος Π. (Β 2 ) ΚΕΦΑΛΑΙΟ 3: ΜΕΤΑΒΟΛΙΣΜΟΣ

Διδάσκων: Καθηγητής Εμμανουήλ Μ. Παπαμιχαήλ

Επίδραση και άλλων παραγόντων στην Αλλοστερική συμπεριφορά της Αιμοσφαιρίνης

Kυτταρική Bιολογία ΔΟΜΗ ΚΑΙ ΛΕΙΤΟΥΡΓΙΕΣ ΤΩΝ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΗ 3 (7/3/2012) Δρ. Xρήστος Παναγιωτίδης, Τμήμα Φαρμακευτικής Α.Π.Θ.

ΒΙΟΤΕΧΝΟΛΟΓΙΑ 1 ο ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΒΟΛΟΥ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΒΟΤΑΝΙΚΗ ΜΟΡΦΟΛΟΓΙΑ ΚΑΙ ΑΝΑΤΟΜΙΑ ΦΥΤΟΥ

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ

ΒΙΟΛΟΓΙΑ Β ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΤΡΟΦΗ

Φροντιστήριο Μ.Ε "ΕΠΙΛΟΓΗ" Καλαμάτα

Οι πρωτεΐνες συμμετέχουν σε όλες τις κυτταρικές λειτουργίες

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ ΜΑΚΡΟΜΟΡΙΑ

Χρήση Προηγμένων Μεθόδων Επεξεργασίας Σήματος στην Ανάλυση Βιολογικών Σημάτων και Γενετικών Ακολουθιών

Μεταβολισμός πρωτεϊνών και των αμινοξέων

Ηλίας Ηλιόπουλος Εργαστήριο Γενετικής, Τµήµα Γεωπονικής Βιοτεχνολογίας, Γεωπονικό Πανεπιστήµιο Αθηνών

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ

ΔΙΔΑΣΚΑΛΙΑ ΘΕΩΡΗΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΦΥΣΙΟΛΟΓΙΑ Ι ΦΥΣΙΟΛΟΓΙΑ ΚΥΤΤΑΡΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ Β ΚΥΚΛΟΥ

Εργασία για το μάθημα της Βιολογίας. Περίληψη πάνω στο κεφάλαιο 3 του σχολικού βιβλίου

ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση.

Δομές (Διαμορφώσεις) Πρωτεινικών μορίων

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΒΙΟΧΗΜΕΙΑ ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΩΝ ΒΙΟΛΟΓΙΚΩΝ ΜΟΡΙΩΝ. Στοιχείο O C H N Ca P K S Na Mg περιεκτικότητα % ,5 1 0,35 0,25 0,15 0,05

Κεφ. 12 ΛΙΠΙ ΙΑ ΚΑΙ ΚΥΤΤΑΡΙΚΕΣ ΜΕΜΒΡΑΝΕΣ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ 1ο 1. γ 2. γ 3. β 4. α 5. δ

Από το Ελληνικό ρήµα «πρωτεύω» που αποδεικνύει τη σηµασία των πρωτεϊνών στην διατροφή του ανθρώπου

ΒΙΟΛΟΓΙΑ. Παραδόσεις του μαθήματος γενικής παιδείας (Β λυκείου) Επιμέλεια: ΑΡΓΥΡΗΣ ΙΩΑΝΝΗΣ Βιολόγος M.Sc. Καθηγητής 3 ου λυκ.

πρωτεϊνες νουκλεϊκά οξέα Βιολογικά Μακρομόρια υδατάνθρακες λιπίδια

Χαρίλαος Μέγας Ελένη Φωτάκη Ελευθέριος Νεοφύτου

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Διπλωματική Εργασία ΕΝΤΟΠΙΣΜΟΣ ΠΕΠΤΙΔΙΟΥ ΣΗΜΑΤΟΣ ΣΕ ΔΙΑΜΕΜΒΡΑΝΙΚΕΣ ΠΡΩΤΕΪΝΕΣ ΜΕ ΕΦΑΡΜΟΓΗ ΤΟΥ ΣΥΝΕΧΟΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ ΚΥΜΑΤΙΔΙΩΝ Ιωάννα Αβραμίδου Α.Ε.Μ. 5307 Επιβλέποντες: Αναπληρωτής Καθηγητής Λεόντιος Χατζηλεοντιάδης Δρ. Ηλίας Κίτσας Θεσσαλονίκη, Ιούνιος 2009

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ... 3 ΚΕΦΑΛΑΙΟ 2 - ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ... 5 2.1 ΑΜΙΝΟΞΕΑ... 5 2.2 ΠΡΩΤΕΪΝΕΣ... 8 2.3 ΔΙΑΜΕΜΒΡΑΝΙΚΕΣ ΠΡΩΤΕΪΝΕΣ... 13 2.4 ΠΕΠΤΙΔΙΟ ΣΗΜΑΤΟΣ... 21 2.5 ΑΡΙΘΜΗΤΙΚΗ ΚΩΔΙΚΟΠΟΙΗΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΜΙΝΟΞΕΩΝ... 25 2.5.1 ΥΔΡΟΦΟΒΙΚΟΤΗΤΑ... 25 2.5.2 ΣΧΕΤΙΚΗ ΣΥΧΝΟΤΗΤΑ ΕΜΦΑΝΙΣΗΣ... 28 2.5.3 ΔΥΝΑΜΙΚΟ ΑΛΛΗΛΕΠΙΔΡΑΣΗΣ ΙΟΝΤΩΝ ΗΛΕΚΤΡΟΝΙΩΝ... 28 2.6 ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ ΑΜΙΝΟΞΕΩΝ... 29 ΚΕΦΑΛΑΙΟ 3 ΜΕΘΟΔΟΙ ΕΝΤΟΠΙΣΜΟΥ TOY ΠΕΠΤΙΔΙΟΥ ΣΗΜΑΤΟΣ... 33 ΚΕΦΑΛΑΙΟ 4 ΚΥΜΑΤΙΔΙΑ (WAVELETS)... 39 4.1 ΕΙΣΑΓΩΓΗ... 39 4.2 ΣΥΝΕΧΗΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΚΥΜΑΤΙΔΙΩΝ... 39 4.3 ΙΔΙΟΤΗΤΕΣ ΤΩΝ ΚΥΜΑΤΙΔΙΩΝ... 41 4.4 ΚΛΙΜΑΚΩΣΗ... 43 4.5 ΟΙΚΟΓΕΝΕΙΕΣ ΚΥΜΑΤΙΔΙΩΝ... 44 4.6 ΕΦΑΡΜΟΓΕΣ ΚΥΜΑΤΙΔΙΩΝ... 47 ΚΕΦΑΛΑΙΟ 5 ΑΝΑΛΥΣΗ ΤΗΣ ΜΕΘΟΔΟΥ... 48 5.1 ΠΡΟΕΛΕΥΣΗ ΣΥΝΟΛΟΥ ΔΕΔΟΜΕΝΩΝ... 48 5.2 ΘΕΣΗ ΤΟΥ ΠΕΠΤΙΔΙΟΥ ΣΗΜΑΤΟΣ ΣΤΗΝ ΠΡΩΤΕΪΝΙΚΗ ΑΚΟΛΟΥΘΙΑ... 49 5.3 ΕΠΑΛΗΘΕΥΣΗ ΤΟΥ ΚΑΝΟΝΑ (-3,-1)... 51 5.4 ΚΩΔΙΚΟΠΟΙΗΣΗ ΤΩΝ ΑΜΙΝΟΞΕΩΝ... 52 5.5 ΕΠΙΛΟΓΗ ΚΥΜΑΤΙΔΙΟΥ... 54 5.6 ΑΝΑΛΥΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ... 58 5.6.1 Ο ΑΛΓΟΡΙΘΜΟΣ ΤΗΣ ΜΕΘΟΔΟΥ... 58 5.6.2 ΠΑΡΑΛΛΑΓΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΤΗΣ ΜΕΘΟΔΟΥ... 64 ΚΕΦΑΛΑΙΟ 6 ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ... 66 6.1 ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΑΡΑΜΕΤΡΩΝ... 66 6.2 ΜΕΤΡΗΣΗ ΤΗΣ ΕΠΙΔΟΣΗΣ... 68 6.3 ΣΥΓΚΡΙΣΗ ΜΕ ΑΛΛΕΣ ΜΕΘΟΔΟΥΣ ΕΝΤΟΠΙΣΜΟΥ... 72 6.4 ΠΡΟΤΑΣΕΙΣ ΓΙΑ ΜΕΛΛΟΝΤΙΚΗ ΕΠΕΚΤΑΣΗ... 75 REFERENCES...77

ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ Η αυξανόμενη συσσώρευση της πληροφορίας από τη μελέτη του ανθρώπινου γονιδιώματος και η συγκέντρωση ολοένα και περισσότερων πρωτεϊνών στις βάσεις δεδομένων, έχουν καταστήσει επιτακτική την ανάγκη ύπαρξης ταχέων και αποτελεσματικών μεθόδων για τη μελέτη του πεπτιδίου σήματος. Το πεπτίδιο σήματος (signal peptide) είναι μία εγγενής ακολουθία αμινοξέων των νεοσχηματιζόμενων πρωτεϊνών, που λειτουργεί ως αναγνωριστικό σήμα, καθορίζοντας τον τρόπο με τον οποίο οι πρωτεΐνες προσκολλώνται στην κυτταρική μεμβράνη, προκειμένου να επιτελέσουν το βιολογικό τους ρόλο. Έτσι, οποιαδήποτε εσφαλμένη τροποποίηση του πεπτιδίου σήματος εκδηλώνεται ως ασθένεια. Η γνώση, λοιπόν, σχετικά με το πεπτίδιο σήματος είναι ύψιστης σημασίας, καθώς μπορεί να οδηγήσει στην κατανόηση του μηχανισμού εμφάνισης ασθενειών και κατά συνέπεια, στην ανάπτυξη νέων θεραπευτικών στρατηγικών. Ειδικότερα, τα φάρμακα που είτε είναι κατασκευασμένα υπό μορφή πρωτεΐνης, είτε αλληλεπιδρούν με τις ήδη υπάρχουσες πρωτεΐνες του οργανισμού, μπορούν να κατευθυνθούν στο επιθυμητό σημείο δράσης με την προσθήκη του κατάλληλου πεπτιδίου σήματος. Τα τελευταία, λοιπόν, χρόνια ο τεράστιος όγκος βιολογικών δεδομένων σε συνδυασμό με το ότι οι εργαστηριακές μέθοδοι επεξεργασίας τους είναι σχετικά χρονοβόρες και πολυδάπανες, οδήγησαν στην ανάπτυξη ενός δυναμικά εξελισσόμενου κλάδου, της Βιοπληροφορικής. Η Βιοπληροφορική, συνδυάζοντας την επιστήμη της Βιολογίας και της Πληροφορικής, αντιμετωπίζει τα βιολογικά δεδομένα ως ψηφιακή πληροφορία και εφαρμόζει αλγορίθμους για την επεξεργασία τους και την παραγωγή χρήσιμων συμπερασμάτων από αυτά. Η παρούσα διπλωματική εργασία, που πραγματεύεται βασικές έννοιες και στοιχεία από το χώρο της Βιοπληροφορικής, προσεγγίζει την επίλυση του προβλήματος εντοπισμού του πεπτιδίου σήματος μέσω ενός ισχυρού μαθηματικού εργαλείου της ψηφιακής επεξεργασίας σήματος, την ανάλυση κυματιδίων. Η μέθοδος που αναπτύχθηκε αφορά τον εντοπισμό του πεπτιδίου σήματος σε διαμεμβρανικές πρωτεΐνες, δηλαδή σε αυτές που διαπερνούν την κυτταρική μεμβράνη. Τα κεφάλαια που ακολουθούν περιλαμβάνουν τα εξής: Στο δεύτερο κεφάλαιο παρουσιάζονται οι βασικές βιολογικές έννοιες που είναι απαραίτητες για την κατανόηση του αντικειμένου της διπλωματικής εργασίας. Στο τρίτο κεφάλαιο

ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ περιγράφονται οι σημαντικότερες, έως σήμερα, μέθοδοι εντοπισμού του πεπτιδίου σήματος που αναφέρονται στη βιβλιογραφία. Το τέταρτο κεφάλαιο περιλαμβάνει μία εισαγωγή στο μαθηματικό εργαλείο της μεθόδου, το μετασχηματισμό κυματιδίων Τέλος, στο πέμπτο κεφάλαιο, περιγράφεται αναλυτικά η μέθοδος που αναπτύχθηκε, ενώ στο έκτο κεφάλαιο παρατίθενται τα αποτελέσματα και τα συμπεράσματα που προέκυψαν, καθώς επίσης και προτάσεις για πιθανές μελλοντικές επεκτάσεις της. Κλείνοντας, θα ήθελα να ευχαριστήσω τον Αναπληρωτή Καθηγητή του τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών κ. Λεόντιο Χατζηλεοντιάδη, που μου προσέφερε τη δυνατότητα να γνωρίσω το γοητευτικό κόσμο της Βιοπληροφορικής και μου έδωσε τα φώτα του σε καθοριστικές στιγμές για την εξέλιξη της εργασίας. Επίσης, ευχαριστώ το Δρ. Ηλία Κίτσα για τη συνεχή καθοδήγηση και την πλουσιοπάροχη βοήθειά του καθ όλη τη διάρκεια εκπόνησης της διπλωματικής μου εργασίας. 4

ΚΕΦΑΛΑΙΟ 2 - ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.1 ΑΜΙΝΟΞΕΑ Απαραίτητη προϋπόθεση για την κατανόηση της φύσης των πρωτεϊνών είναι η περιγραφή των δομικών τους λίθων, δηλαδή, των αμινοξέων. Τα αμινοξέα είναι μόρια αποτελούμενα από ένα κεντρικό άτομο άνθρακα, που ονομάζεται α-άνθρακας, ενωμένο με μια αμινομάδα ή αμινική ομάδα (-ΝΗ 2 ), μια καρβοξυλομάδα (-COOH) και μια πλευρική ομάδα, η οποία συνδέεται μέσω ομοιοπολικού δεσμού με αυτό. Σχήμα 2.1: Η γενική δομή ενός α-αμινοξέος, με την αμινομάδα στα αριστερά και την καρβοξυλομάδα στα δεξιά [2]. Η πλευρική ομάδα συμβολίζεται συνήθως με το γράμμα R και αναφέρεται μονολεκτικά ως υπόλειμμα (residue). Η πλευρική ομάδα είναι διαφορετική για κάθε αμινοξύ και του προσδίδει μοναδικές χημικές ιδιότητες. Συνεπώς, τα αμινοξέα κατατάσσονται σε κατηγορίες σύμφωνα με το είδος της πλευρικής ομάδας, η οποία τα κάνει να συμπεριφέρονται ως ασθενή οξέα, ως ασθενείς βάσεις, ως υδρόφιλα, αν είναι πολικά, ή ως υδροφοβικά, αν είναι μη πολικά. Συγκεκριμένα: Μη πολικά αμινοξέα, όπως η λευκίνη, συχνά έχουν πλευρικές ομάδες οι οποίες περιέχουν CH2 ή CH3. Πολικά μη φορτισμένα αμινοξέα, όπως η θρεονίνη, έχουν πλευρικές ομάδες οι οποίες περιέχουν οξυγόνο (ή μόνο H).

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Φορτισμένα αμινοξέα, όπως το γλουταμικό οξύ, έχουν πλευρικές ομάδες οι οποίες περιέχουν οξέα ή βάσεις. Αρωματικά αμινοξέα, όπως η φαινυλαλανίνη, έχουν πλευρικές ομάδες που περιέχουν έναν οργανικό δακτύλιο με εναλλασσόμενους απλούς και διπλούς δεσμούς. Αμινοξέα που επιτελούν ειδικές λειτουργίες έχουν ξεχωριστές ιδιότητες, όπως για παράδειγμα η μεθειονίνη, η οποία έχει την τάση να καταλαμβάνει την πρώτη θέση σε μία αλληλουχία αμινοξέων [1]. Τα 20 αμινοξέα που συνθέτουν τις πρωτεΐνες των ζωντανών οργανισμών βρίσκονται συγκεντρωμένα στον παρακάτω πίνακα. Πίνακας 2.1: Τα αμινοξέα κατ αλφαβητική διεθνή ονομασία. Τα φερόμενα με αστερίσκο (*) είναι τα 8 βασικά αμινοξέα. Ελληνική Ελληνική Διεθνής σύντμηση ονομασία ονομασία Διεθνής σύντμηση Αλανίνη Ala Λευκίνη* Leu Αργινίνη Arg Λυσίνη* Lys Ασπαραγίνη Asn Μεθειονίνη* Met Ασπαρτικό οξύ Asp Φαινυλαλανίνη* Phe Κυστεΐνη Cys Προλίνη Pro Γλουταμίνη Gln Σερίνη Ser Γλουταμικό οξύ Glu Θρεονίνη* Thr Γλυκίνη Gly Τρυπτοφάνη* Trp Ιστιδίνη His Τυροσίνη Tyr Ισολευκίνη* Ile Βαλίνη* Val Παρόλο που οι πρωτεΐνες είναι πολύπλοκα και ευέλικτα μόρια, αποτελούν πολυμερή μόνο των παραπάνω 20 αμινοξέων σε συγκεκριμένη σειρά. Το μήκος των πρωτεϊνών κυμαίνεται από μικρές αλυσίδες (ribonuclease A), που αποτελούνται από 124 αμινοξέα, έως και μεγάλες αλυσίδες (apolipoprotein B), που αποτελούνται από 4.563 αμινοξέα. Αν και τα βασικά τους στοιχεία είναι μόνο 20 αμινοξέα, ο θεωρητικός αριθμός των διαφορετικών πρωτεϊνών είναι τεράστιος δεδομένου ότι για μία ακολουθία N αμινοξέων υπάρχουν 20 N συνδυασμοί που οδηγούν σε διαφορετικές πρωτεΐνες. 6

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Τα αμινοξέα που συνθέτουν μία πρωτεΐνη ενώνονται μεταξύ τους με δεσμούς πεπτιδίων, σχηματίζοντας μία αλυσίδα πολυπεπτιδίων (peptide chain). Ειδικότερα, η καρβοξυλομάδα του ενός αμινοξέος αντιδρά με την αμινομάδα του γειτονικού του, απελευθερώνοντας ένα μόριο νερού, καθώς δημιουργείται ο πεπτιδικός δεσμός. Η παραπάνω αντίδραση απεικονίζεται στο σχήμα που ακολουθεί. Σχήμα 2.2: Αντίδραση αμινοξέων προς σχηματισμό πεπτιδικού δεσμού [2]. 7

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.2 ΠΡΩΤΕΪΝΕΣ Οι πρωτεΐνες, όπως και άλλα βιολογικά μακρομόρια (πχ. οι πολυσακχαρίτες, τα λιπίδια και τα νουκλεϊκά οξέα) είναι απαραίτητες για όλους τους ζωντανούς οργανισμούς. Ανάλογα με τη μορφή τους διακρίνονται σε ινώδεις πρωτεΐνες και σε σφαιρικές πρωτεΐνες. Με κριτήριο τη σύνθεσή τους διακρίνονται σε απλές (όταν αποτελούνται μόνο από αμινοξέα) και σε σύνθετες (όταν στο μόριό τους περιλαμβάνονται και μη πρωτεϊνικά τμήματα όπως μέταλλα, σάκχαρα, λίπη κ.λπ.). Επίσης, διακρίνονται με κριτήριο τη λειτουργία τους σε δομικές (όταν αποτελούν τα δομικά υλικά του κυττάρου) και λειτουργικές (όταν συμβάλλουν σε κάποιες λειτουργίες) [2]. Οι θεμελιώδεις λειτουργίες των πρωτεϊνών είναι οι εξής: Ενζυμική κατάλυση: Τα ένζυμα είναι μία κατηγορία πρωτεϊνών, που αποτελούν βιολογικούς καταλύτες, οι οποίοι υποβοηθούν συγκεκριμένες χημικές αντιδράσεις διαδραματίζοντας καθοριστικό ρόλο για την εξέλιξη της ζωής. Άμυνα: Μια μερίδα σφαιρικών πρωτεϊνών χρησιμοποιούν τη μορφή τους για να αναγνωρίσουν ξένα μικρόβια και καρκινικά κύτταρα. Αυτοί οι επιφανειακοί κυτταρικοί υποδοχείς διαμορφώνουν τον πυρήνα του ορμονικού και ανοσοποιητικού συστήματος. Μεταφορά: Ποικίλες σφαιρικές πρωτεΐνες μεταφέρουν συγκεκριμένα μικρά μόρια και ιόντα. Για παράδειγμα, η πρωτεΐνη αιμοσφαιρίνη μεταφέρει οξυγόνο στο αίμα και η μυοσφαιρίνη, μία παρόμοια πρωτεΐνη, μεταφέρει οξυγόνο στους μύες. Στήριξη: Οι ινώδεις πρωτεΐνες παίζουν δομικό ρόλο στο κύτταρο. Χαρακτηριστικά παραδείγματα είναι η κερατίνη, που είναι συστατικό των μαλλιών και των νυχιών και το κολλαγόνο, που αποτελεί το κυρίαρχο συστατικό των συνδετικών ιστών. Κίνηση: Οι μύες συσπώνται μέσω της κίνησης δύο ειδών πρωτεϊνικών μυονηματίων: της ακτίνης και της μυοσίνης. 8

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Ρύθμιση: Κάποιες μικρού μήκους πρωτεΐνες που ονομάζονται ορμόνες λειτουργούν ως διακυτταρικοί αγγελιοφόροι στα ζώα. Γενικά, οι πρωτεΐνες έχουν ποικίλους ρυθμιστικούς ρόλους μέσα στο κύτταρο, ενεργοποιώντας και απενεργοποιώντας, για παράδειγμα, γονίδια κατά τη διάρκεια της ανάπτυξης. Επιπλέον, οι πρωτεΐνες λαμβάνουν πληροφορίες, λειτουργώντας ως επιφανειακοί κυτταρικοί υποδοχείς [1]. Ο βιολογικός ρόλος των πρωτεϊνών καθορίζεται από την τρισδιάστατη δομή τους που είναι συνέπεια της αλληλουχίας των αμινοξέων. Η μελέτη του σχήματος μιας πρωτεΐνης στο χώρο μπορεί να πραγματοποιηθεί με τη χρήση ενέργειας πολύ μικρού μήκους κύματος, με χρήση ακτινών Χ. Η ανάλυση με ακτίνες X είναι μια διαδικασία που δίνει τη δυνατότητα στον αναλυτή να απεικονίσει την τρισδιάστατη εικόνα της θέσης κάθε ατόμου στην πρωτεΐνη. Η πρώτη πρωτεΐνη που μελετήθηκε με αυτή τη μέθοδο ήταν η μυοσφαιρίνη με την αιμοσφαιρίνη να ακολουθεί. Καθώς όλο και περισσότερες πρωτεΐνες προστίθεντο στη λίστα αυτή, έγινε φανερή η ακόλουθη αρχή: σε κάθε πρωτεΐνη, ουσιαστικά όλα τα αμινοξέα στο εσωτερικό της είναι μη πολωμένα αμινοξέα, όπως η λευκίνη, η βαλίνη και η φαινυλαλανίνη. Η τάση του νερού να απωθεί λόγω υδροφοβικότητας τα μη πολωμένα μόρια ουσιαστικά ωθεί τα μη πολωμένα τμήματα της αλυσίδας αμινοξέων στο εσωτερικό της πρωτεΐνης. Το γεγονός αυτό θέτει τα παραπάνω τμήματα πολύ κοντά το ένα στο άλλο, αφήνοντας ελάχιστο κενό μεταξύ τους στο εσωτερικό της πρωτεΐνης. Τα πολωμένα και φορτισμένα αμινοξέα είναι αυτά που απομένουν στην επιφάνεια της πρωτεΐνης, εκτός από ορισμένα που έχουν σημαντικό λειτουργικό ρόλο Αναλυτικά, η δομή των πρωτεϊνών αναφέρεται συνήθως στα πλαίσια τεσσάρων επιπέδων, πρωτοταγής, δευτεροταγής, τριτοταγής και τεταρτοταγής όπως απεικονίζονται στο Σχ. 2.3. Επιπλέον, η πρόοδος στη γνώση της πρωτεϊνικής δομής έχει οδηγήσει σε δύο ακόμη επίπεδα, που διαφοροποιούνται ολοένα και περισσότερο στο χώρο της μοριακής βιολογίας: τα μοτίβα (motifs) και τις περιοχές (domains). 9

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 2.3: Τα επίπεδα πρωτεϊνικής δομής.(α) Η ακολουθία αμινοξέων μιας πρωτεΐνης αναφέρεται ως πρωτοταγής δομή.(β) Δεσμοί μεταξύ γειτονικών αμινοξέων σχηματίζουν φύλλα β-πτυχώσεων και α-έλικες που συνιστούν τη δευτεροταγή δομή.(γ) Οι πρωτεΐνες αναδιπλώνονται σχηματίζοντας μια τρισδιάστατη, την τριτοταγή, δομή. (δ) Η συσσωμάτωση πρωτεϊνών με άλλες πεπτιδικές αλυσίδες δημιουργεί την τεταρτοταγή δομή της πρωτεΐνης. ([1]-Σχήμα 3.7, Σελ. 42). 10

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Πρωτοταγής δομή: Η καθορισμένη ακολουθία αμινοξέων μιας πρωτεΐνης αποτελεί την πρωτοταγή της δομή. Η ακολουθία αυτή προσδιορίζεται από την ακολουθία νουκλεοτιδίων του γονιδίου που κωδικοποιεί την πρωτεΐνη. Δεδομένου ότι οι πλευρικές ομάδες R που διαφοροποιούν τα αμινοξέα δεν επηρεάζουν τον κύριο πεπτιδικό σκελετό των πρωτεϊνών, κάθε πρωτεΐνη μπορεί να αποτελείται από οποιαδήποτε ακολουθία αμινοξέων. Δευτεροταγής δομή: Οι πλευρικές ομάδες των αμινοξέων δεν είναι τα μόνα τμήματα της πρωτεΐνης που σχηματίζουν δεσμούς υδρογόνου. Η αμινομάδα και η καρβοξυλομάδα της κυρίως αλυσίδας σχηματίζουν, επίσης, δεσμούς υδρογόνου σε τέτοιο βαθμό ώστε αλληλεπιδράσεις τους με το νερό θα μπορούσαν να αντισταθμίζουν την τάση των μη πολωμένων πλευρικών ομάδων να παραμείνουν στο εσωτερικό της πρωτεΐνης. Ο λόγος για τον οποίο αυτό δε συμβαίνει στην πράξη αποκαλύπτεται από τη μελέτη της πρωτεϊνικής δομής με ανάλυση ακτινών Χ. Υπάρχουν δύο τύποι δεσμών υδρογόνου: ο πρώτος τύπος αναφέρεται στη σύνδεση ενός αμινοξέος με το άλλο στην ίδια αλυσίδα, εξαιτίας του οποίου η αλυσίδα παίρνει τη μορφή έλικας που ονομάζεται α-έλικα (alpha a-helix) και ο δεύτερος τύπος εμφανίζεται μεταξύ αλυσίδων αμινοξέων, συνδέοντας τα αμινοξέα της μιας αλυσίδας με αυτά της άλλης. Συχνά παρατηρείται συνένωση πολλών παράλληλων αλυσίδων με αποτέλεσμα να σχηματίζονται δομές με τη μορφή φύλλου χαρτιού, οι οποίες ονομάζονται φύλλα β-πτυχώσεων. Η αναδίπλωση των αλυσίδων αμινοξέων με δεσμούς υδρογόνου στις δύο αυτές δομές αποτελεί τη δευτεροταγή δομή της πρωτεΐνης. Μοτίβα: Τα στοιχεία της δευτεροταγούς δομής μπορούν να συνδυαστούν στις πρωτεΐνες με συγκεκριμένους τρόπους που ονομάζονται μοτίβα ή υπερδευτεροταγείς δομές (supersecondary structure). Από τα πλέον συνηθισμένα παραδείγματα μοτίβων είναι τα μοτίβα β-βαρελιού και α έλικας-στροφής-α έλικας που αποτελούν φύλλα β-πτυχώσεων αναδιπλωμένα σε σχήμα κυλίνδρου ή παρουσιάζονται στις πρωτεΐνες κατά τη διασύνδεση της διπλής έλικας του DNA αντίστοιχα. Τριτοταγής δομή: Η τελική αναδιπλωμένη μορφή της πρωτεΐνης που περιλαμβάνει διάφορα μοτίβα, αναδιπλώνοντας τις μη πολωμένες πλευρικές ομάδες στο εσωτερικό της αποτελεί την τριτοταγή δομή της πρωτεΐνης. Οι 11

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ πρωτεΐνες οδηγούνται στην τριτοταγή τους δομή εξαιτίας υδροφοβικών αλληλεπιδράσεων με το νερό. Η τελική αναδίπλωση μίας πρωτεΐνης καθορίζεται από τη χημική φύση των πλευρικών της ομάδων και συνεπώς από την πρωτοταγή της δομή. Είναι χαρακτηριστικό ότι πολλές πρωτεΐνες αναπτύσσονται και επαναδιπλώνονται στη χαρακτηριστική τους δομή αυτενεργώς. Επίσης, στο εσωτερικό των αναδιπλωμένων πρωτεϊνών δεν παρουσιάζονται κενά ή κοιλότητες. Με τον τρόπο αυτό μπορεί να εξηγηθεί και η πληθώρα των μη πολωμένων αμινοξέων (αλανίνη, βαλίνη, λευκίνη, ισολευκίνη). Κάθε αμινοξύ αποτελείται από διαφορετικού μήκους πλευρική ομάδα, επιτρέποντας ακριβή προσαρμογή των μη πολωμένων αλυσίδων στο εσωτερικό της πρωτεΐνης. Είναι προφανές ότι η αλλαγή ενός μη πολωμένου αμινοξέος στο εσωτερικό της πρωτεΐνης σε ένα άλλο διαταράσσει πολύ συχνά την ευστάθεια της πρωτεΐνης και είναι δυνατό να οδηγήσει σε αλλαγή ή απώλεια της λειτουργικότητάς της. Τεταρτοταγής δομή: Κατά τη διασύνδεση δύο η περισσότερων πολυπεπτιδικών αλυσίδων για τη δημιουργία μιας λειτουργικής πρωτεΐνης, οι επιμέρους αλυσίδες αναφέρονται ως υπομονάδες της πρωτεΐνης. Οι υπομονάδες δεν είναι απαραίτητο να είναι ίδιες. Η διάταξη αυτών των υπομονάδων της πρωτεΐνης στο χώρο αποτελεί την τεταρτοταγή της δομή. Τα τμήματα των ακολουθιών αμινοξέων στις περιοχές σύνδεσης των υπομονάδων τους είναι συνήθως μη πολωμένα και έχουν σημαντικό ρόλο στη μετάδοση πληροφοριών σχετικά με την ξεχωριστή λειτουργία των υπομονάδων της πρωτεΐνης. Περιοχές: Σε πολλές πρωτεΐνες παρατηρείται αναδίπλωση σε δομικά ανεξάρτητα λειτουργικά τμήματα που αναφέρονται ως περιοχές. Κατά την αναδίπλωση της πρωτεΐνης, οι περιοχές αναδιπλώνονται στο κατάλληλο σχήμα σχετικά ανεξάρτητα μεταξύ τους. Είναι δυνατό οι περιοχές μιας πρωτεΐνης να έχουν σχετικά διαχωρισμένη λειτουργία. Μια περιοχή ενός ενζύμου ενδέχεται να προσαρτάται σε ένα συνένζυμο και μία άλλη στο υπόστρωμά του. Μια κατηγορία περιοχών με μεγάλο ενδιαφέρον αποτελούν και οι διαμεμβρανικές περιοχές στις διαμεμβρανικές πρωτεΐνες [1]. 12

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.3 ΔΙΑΜΕΜΒΡΑΝΙΚΕΣ ΠΡΩΤΕΪΝΕΣ Προκειμένου να εστιάσει κανείς στο ρόλο των διαμεμβρανικών πρωτεϊνών πρέπει να ξεκινήσει από το τμήμα του κυττάρου στο οποίο αυτές εντοπίζονται, δηλαδή την πλασματική μεμβράνη. Η θέση της στο κύτταρο, καθώς επίσης και τα βασικά συστατικά από οποία αποτελείται, παρουσιάζονται στο παρακάτω σχήμα. Σχήμα 2.4: Η πλασματική μεμβράνη ενός ευκαρυωτικού κυττάρου (κύτταρο με καλά οργανωμένο πυρήνα ) [2]. 13

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Η πλασματική μεμβράνη έχει ως κύρια αποστολή την οργάνωση και τη διατήρηση του κυττάρου ως μία ξεχωριστή οντότητα.. Περιβάλλει κάθε κύτταρο και αποτελεί το σημείο συνάντησης του ενδοκυτταρικού και του εξωκυτταρικού κόσμου. Αποτελείται από λιπίδια, πρωτεΐνες και υδατάνθρακες. Οι σπουδαιότεροι ρόλοι της είναι οι εξής: Λειτουργεί ως φράγμα ανάμεσα στα κύτταρα και τα υποκυτταρικά οργανίδια, επιτρέποντας τα να σχηματίσουν και να διατηρήσουν το εσωτερικό τους περιβάλλον, το οποίο διαφέρει από το εξωτερικό μέσο στο οποίο βρίσκονται. Παρέχει εκλεκτική διαπερατότητα ουσιών στο κύτταρο, συνήθως μέσω των μεμβρανικών πρωτεϊνών. Επιτρέπει τη λήψη και τη μεταγωγή μηνυμάτων στο κύτταρο με τη συμμετοχή πρωτεϊνών ή ειδικών λιπιδίων [3]. Σύμφωνα με το μοντέλο του ρευστού μωσαϊκού, που πρότειναν οι S. J. Singer και Garth Nicolson, η πλασματική μεμβράνη, όπως και κάθε βιολογική μεμβράνη, μπορεί να θεωρηθεί ως ένα υγρό στο οποίο τα λιπίδια και οι πρωτεΐνες έχουν την ικανότητα περιορισμένης μετακίνησης. Η βασική δομή μιας πλασματικής μεμβράνης είναι ουσιαστικά ένα διπλό στρώμα, που αποτελείται από μόρια φωσφολιπιδίων και ονομάζεται λιπιδιακή διπλοστοιβάδα. Τα φωσφολιπίδια, που είναι μία κατηγορία λιπιδίων, έχουν μία υδρόφιλη κεφαλή και δύο υδρόφοβες ουρές. Όταν έρθουν σε επαφή με το νερό, διατάσσονται στο χώρο σχηματίζοντας τη μορφή μίας διπλοστοιβάδας (ενός στρώματος δύο επιπέδων), με τις ουρές τους να κατευθύνονται στο εσωτερικό της. Η σταθερή αυτή δομή, δεν περιέχει σχεδόν καθόλου νερό στο εσωτερικό της και αποκλείει την επαφή με σάκχαρα ή άλατα τα οποία είναι υδατοδιαλυτά [2]. Οι πρωτεΐνες αποτελούν το κυριότερο στοιχείο της πλασματικής μεμβράνης, διότι ανάλογα με το είδος της πρωτεΐνης εκφράζεται η βιολογική δράση των μεμβρανικών συστημάτων [3]. Σύμφωνα με τη συμμετοχή τους σε βασικές κυτταρικές λειτουργίες, οι μεμβρανικές πρωτεΐνες χωρίζονται σε ορισμένες χαρακτηριστικές κατηγορίες, οι οποίες παρουσιάζονται στο Σχήμα 2.5 και περιγράφονται στη συνέχεια. 14

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 2.5: Λειτουργίες των μεμβρανικών πρωτεϊνών. Οι μεμβρανικές πρωτεΐνες λειτουργούν ως μεταφορείς, ένζυμα, επιφανειακοί κυτταρικοί υποδοχείς και δείκτες ταυτότητας, καθώς και διευκολύνουν την προσκόλληση κυττάρων και τη συγκράτηση του κυτταρικού σκελετού. ([1]-Σχήμα 6.7, Σελ. 109). Μεταφορείς: Οι μεμβράνες είναι ιδιαίτερα επιλεκτικές, επιτρέποντας την είσοδο και αποχώρηση από το κύτταρο μόνο συγκεκριμένων ουσιών, είτε μέσω καναλιών είτε μέσω φορέων. Ένζυμα:: Τα κύτταρα πραγματοποιούν πολλές χημικές αντιδράσεις στο εσωτερικό της πλασματικής μεμβράνης, χρησιμοποιώντας ένζυμα που βρίσκονται προσκολλημένα στη μεμβράνη. Επιφανειακοί κυτταρικοί υποδοχείς (Cell surface receptors): Οι μεμβράνες είναι εξαιρετικά ευαίσθητες σε χημικά μηνύματα τα οποία ανιχνεύουν με πρωτεΐνες υποδοχείς στην επιφάνειά τους, οι οποίες λειτουργούν ως κεραίες. 15

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Επιφανειακοί κυτταρικοί δείκτες ταυτότητας (Cell surface identity markers): Οι μεμβράνες μεταφέρουν επιφανειακούς κυτταρικούς δείκτες ως στοιχεία αναγνώρισης προς άλλα κύτταρα. Στην πλειοψηφία τους τα κύτταρα όλων των τύπων μεταφέρουν τους δικούς τους δείκτες, που αποτελούνται από συγκεκριμένους συνδυασμούς πρωτεϊνών στην επιφάνεια του κυττάρου, οι οποίοι χαρακτηρίζουν τον κάθε κυτταρικό τύπο. Πρωτεΐνες προσκόλλησης κυττάρων (Cell adhesion protein): Τα κύτταρα χρησιμοποιούν συγκεκριμένες πρωτεΐνες για να προσκολλώνται το ένα στο άλλο. Η προσκόλληση συμβαίνει άλλοτε προσωρινά και άλλοτε μόνιμα. Πρωτεΐνες σύνδεσης στον κυτταρικό σκελετό (Attachments to the cytoskeleton): Οι επιφανειακές πρωτεΐνες που αλληλεπιδρούν με άλλα κύτταρα συνδέονται πολλές φορές με το εσωτερικό του κυττάρου μέσω πρωτεϊνών σύνδεσης [1]. Οι μεμβρανικές πρωτεΐνες, σύμφωνα με τη θέση τους στην πλασματική μεμβράνη, διακρίνονται σε εσωτερικές και περιφερειακές. Οι εσωτερικές πρωτεΐνες, που ονομάζονται και διαμεμβρανικές διασχίζουν ολόκληρη τη λιπιδιακή διπλοστοιβάδα. Οι περιφερειακές πρωτεΐνες βρίσκονται και στις δύο πλευρές της πλασματικής μεμβράνης και μπορούν να απομονωθούν εύκολα από αυτή [3]. Όσον αφορά τις διαμεμβρανικές πρωτεΐνες, αυτές εμφανίζονται σε δύο τύπους: α- ελίκων: πρωτεΐνες που παρουσιάζονται στις εσωτερικές μεμβράνες των βακτηριακών κυττάρων ή στην πλασματική μεμβράνη των ευκαρυωτών. Αποτελούν την πλειοψηφία των διαμεμβρανικών πρωτεϊνών. β-πτυχώσεων: πρωτεΐνες οι οποίες βρίσκονται μόνο στο κυτταρικό τοίχωμα των θετικών κατά Γκραμ βακτηρίων [4] και στις εξωτερικές μεμβράνες των αρνητικών κατά Γκραμ βακτηρίων [4], των μιτοχονδρίων και των χλωροπλαστών. Έχουν απλή ανοδική-καθοδική τοπολογία, γεγονός το οποίο αντανακλά την κοινή τους εξελικτική καταγωγή και τον παρόμοιο μηχανισμό αναδίπλωσής τους [2]. 16

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 2.6: Σχηματική αναπαράσταση των τύπων των διαμεμβρανικών πρωτεϊνών.1)μονός α- έλικας (μονοτοπική πρωτεΐνη)2)πολλαπλοί α-έλικες (πολυτοπική πρωτεΐνη )3)β-πτυχώσεις. Η πλασματική μεμβράνη παριστάνεται χρωματικά με ανοιχτό καφέ [2]. Τα κύτταρα περιλαμβάνουν μια ποικιλία διαφορετικών διαμεμβρανικών πρωτεϊνών, οι οποίες διαφοροποιούνται με βάση τον τρόπο που διαπερνούν τη λιπιδιακή διπλοστοιβάδα, ανάλογα με τη λειτουργία τους. Άγκυρες (Anchors): Ένα απλό μη πολωμένο τμήμα είναι ικανό να συνδέσει μια πρωτεΐνη στη μεμβράνη. Πολλές πρωτεΐνες, που λειτουργούν ως υποδοχείς εξωκυτταρικών σημάτων, αποτελούν άγκυρες απλής διέλευσης (single pass) που διέρχονται μέσα από τη μεμβράνη μόνο μία φορά. Το τμήμα της πρωτεΐνης που εκτείνεται έξω από την επιφάνεια του κυττάρου συνδέεται με συγκεκριμένες ορμόνες ή άλλα μόρια και κατά τη σύζευξή τους υποκινούνται μεταβολές στο άλλο άκρο της πρωτεΐνης στο εσωτερικό του κυττάρου. Με τον τρόπο αυτό, πληροφορίες από το εξωτερικό του κυττάρου μπορούν να μετατραπούν σε δράσεις στο εσωτερικό του (Σχ. 2.7). 17

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 2.7: Πρωτεΐνες αγκύρωσης. Η σπεκτρίνη εκτείνεται με τη μορφή βρόχου συνδεδεμένη στην κυττοπλασμική πλευρά μιας μεμβράνης ερυθρού κυττάρου. Η σύνδεση επιτυγχάνεται μέσω ειδικών πρωτεϊνών όπως συνδετικά συμπλέγματα και αγκυρίνες. Το δίκτυο αυτό παρέχει ανθεκτικότητα σε ομάδες κυττάρων όπως τα ερυθροκύτταρα. ([1]-Σχήμα 6.9, Σελ. 111). Δίαυλοι (Channels): υπάρχουν πρωτεΐνες οι οποίες έχουν πολλαπλά ελικοειδή τμήματα που διαπερνούν την μεμβράνη από τη μία άκρη ως την άλλη και αντίστροφα σχηματίζοντας ένα δίαυλο ανάμεσα στο εξωτερικό του κυττάρου και στο κυτταρόπλασμα. Υπάρχουν επίσης πρωτεΐνες που δε δημιουργούν κανάλια αλλά λειτουργούν ως μεταφορείς μορίων διαμέσου της κυτταρικής μεμβράνης. Όλα τα υδατοδιαλυτά μόρια που εισέρχονται ή αποβάλλονται από το κύτταρο, είτε μεταβιβάζονται από τους μεταφορείς, είτε διέρχονται μέσα από κανάλια, όπως απεικονίζεται στο Σχ. 2.8. 18

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 2.8: Μια πρωτεΐνη δίαυλος. Η πρωτεΐνη μεσολαβεί στη διαδικασία φωτοσύνθεσης του βακτηρίου Halobacterium blobium. Η πρωτεΐνη διασχίζει τη μεμβράνη επτά φορές με ακολουθίες υδροφοβικών αμινοξέων που βρίσκονται στο υδροφοβικό εσωτερικό της λιπιδιακής διπλοστιβάδας. Τα τμήματα της πρωτεΐνης σχηματίζουν έναν δίαυλο διαμέσου της μεμβράνης μέσω του οποίου πρωτόνια αντλούνται μέσω των χρωμοφόρων αμφιβληστροειδούς (πράσινο). ([1]-Σχήμα 6.10, Σελ. 111). Πόροι (Pores): ορισμένες διαμεμβρανικές πρωτεΐνες έχουν εκτεταμένες μη πολωμένες περιοχές με δευτεροταγείς δομές β-πτυχώσεων αποκτώντας μια μορφή ανάλογη των τοιχωμάτων ενός ξύλινου βαρελιού. Το χαρακτηριστικό αυτό περιγράφει την κατηγορία των πρωτεϊνών που ονομάζονται πορίνες και συναντώνται στην εξωτερική μεμβράνη ορισμένων βακτηρίων (Σχ. 2.9) [1]. 19

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 2.9: Μια πρωτεΐνη πόρος. Η βακτηριακή διαμεμβρανική πρωτεΐνη πορίνη σχηματίζει στην εξωτερική μεμβράνη των βακτηρίων μεγάλες σήραγγες που ονομάζονται πόροι. Οι πόροι επιτρέπουν στο νερό και σε άλλες ουσίες τη διέλευση από τη μεμβράνη. ([1]-Σχήμα 6.11, Σελ. 111). Οι διαμεμβρανικές πρωτεΐνες, πέρα από την ιδιαίτερη σημασία των λειτουργιών που επιτελούν στο κύτταρο, αξίζει να μελετηθούν και για τρεις επιπλέον λόγους: 1. Αποτελούν τουλάχιστον το 25% των πρωτεϊνών ενός ολοκληρωμένου γονιδιώματος (συνολικό γενετικό υλικό κυττάρου ή ατόμου). 2. Παίζουν καθοριστικό ρόλο στο διαβήτη, στην υπέρταση, στην κατάθλιψη, στην αρθρίτιδα, στον καρκίνο και σε άλλες ασθένειες. 3. Είναι στόχοι για περισσότερα από το 75% των φαρμακευτικών παρασκευασμάτων που χρησιμοποιούνται σήμερα [5]. 20

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.4 ΠΕΠΤΙΔΙΟ ΣΗΜΑΤΟΣ Η σύνθεση των πρωτεϊνών γίνεται στα ελεύθερα ή στα ριβοσώματα που είναι συνδεδεμένα στη μεμβράνη του αδρού ενδοπλασματικού δικτύου (ΑΕΔ). Ως αδρό ενδοπλασματικό δίκτυο αναφέρεται το δίκτυο των ενδοκυτταρικών μεμβρανών του ευκαρυωτικού κυττάρου. Μετά τη σύνθεσή τους, οι πρωτεΐνες, αφού αποκτήσουν τη σωστή διαμόρφωσή τους, πρέπει να μετακινηθούν στις τελικές θέσεις όπου και θα εκφράσουν τη λειτουργική τους δράση. Κατά τη διάρκεια της σύνθεσής τους ή μετά την ολοκλήρωση αυτής της διαδικασίας, ένας πολύ μεγάλος αριθμός πρωτεϊνών πρέπει να διασχίσει τις μεμβρανικές λιπιδιακές διπλοστοιβάδες που περιβάλλουν τα διάφορα οργανίδια. Στη διάρκεια της εξέλιξης έχουν αναπτυχθεί εξειδικευμένοι μηχανισμοί μεταφοράς των πρωτεϊνών δια μέσου των μεμβρανών μέσω μίας διαδικασίας η οποία ονομάζεται μετατόπιση (translocation) [3]. Η σύνθεση των πρωτεϊνών αρχίζει ενώ το ριβόσωμα δεν έχει ακόμη συνδεθεί με τη μεμβράνη του ΑΕΔ. Τα ριβοσώματα παρόλο που έχουν την ίδια μορφολογία, συνθέτουν διαφορετικές κατηγορίες πρωτεϊνών. Αυτό οφείλεται στην Υπόθεση Σήματος (signal hypothesis), που θεμελιώθηκε στην αρχή της δεκαετίας του 80 [6]. Σύμφωνα με την υπόθεση αυτή, όλες οι νεοσχηματιζόμενες εκκριτικές, μεμβρανικές και οι περισσότερες λυοσωμικές πρωτεΐνες περιλαμβάνουν μια ειδική ακολουθία αμινοξέων, που ονομάζεται πεπτίδιο σήματος (signal peptide) ή ακολουθία σήματος. Το πεπτίδιο σήματος, που προκύπτει από το ελεύθερο ριβόσωμα, αναγνωρίζεται από ένα ειδικό πρωτεϊνικό σύμπλοκο, το σωματίδιο αναγνώρισης σήματος (ΣΑΣ - signal recognition patricle). Μόλις το ΣΑΣ αναγνωρίσει το πεπτίδιο σήματος συνδέεται με αυτό, ενώ ταυτόχρονα αναστέλλεται η επιμήκυνση της πολυπεπτιδικής αλυσίδας. Η πρωτεϊνική σύνθεση σταματά μέχρις ότου, μετά από μια μικρή περιπλάνηση, το ΣΑΣ, που είναι συνδεδεμένο στο πεπτίδιο σήματος, εντοπίσει στη μεμβράνη του ΑΕΔ μια ειδική πρωτεΐνη με την οποία συνδέεται. Η πρωτεΐνη ονομάζεται πρωτεΐνη σύνδεσης ή υποδοχέας ΣΑΣ. Το ριβόσωμα, από τη στιγμή αυτή, συνδέεται πλέον στη μεμβράνη του ΑΕΔ με τη βοήθεια ειδικών πρωτεϊνών. Μετά τη σύνδεση του ριβοσώματος στη μεμβράνη του ενδοπλασματικού δικτύου, το ΣΑΣ αποχωρίζεται από το πεπτίδιο σήματος, δημιουργείται ένα κανάλι στη μεμβράνη του ενδοπλασματικού δικτύου, η πρωτεϊνική σύνθεση ξαναρχίζει και η νεοσχηματιζόμενη πρωτεΐνη μπαίνει στον αγωγό του ενδοπλασματικού δικτύου 21

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ εφόσον πρόκειται για εκκριτική ή λυοσωμική πρωτεΐνη. Εφόσον η πρωτεΐνη προορίζεται για μεμβρανική, τότε ενσωματώνεται στη μεμβράνη του ενδοπλασματικού δικτύου, όπου γίνεται και η ολοκλήρωσή της [6]. Σχήμα 2.10: Σύνθεση πρωτεΐνης στο ΑΕΔ [7]. Τα πεπτίδια σήματος (ή σηματοδοτικά πεπτίδια) αποτελούνται από 16-30 αμινοξέα. Τα πεπτίδια σήματος δεν έχουν ομοιότητα στην πρωτοταγή τους δομή, ακόμη και μεταξύ στενά συγγενικών πρωτεϊνών. Η σύγκριση όλων των γνωστών πεπτιδίων σήματος [6] έδειξε ότι δεν υπάρχουν περιοχές που να παρουσιάζουν απόλυτη ομοιότητα. Πιστεύεται ότι η λειτουργική δραστηριότητά τους οφείλεται στη δευτεροταγή δομή τους, στην κατανομή των υδρόφοβων αμινοξέων και στο φορτίο το οποίο έχουν. Το κάθε πεπτίδιο σήματος χωρίζεται σε τρεις περιοχές. Ν-περιοχή: Βρίσκεται προς το αμινοτελικό άκρο του πεπτιδίου σήματος και αποτελείται από 1-7 αμινοξέα. Τα αμινοξέα αυτά σχηματίζουν μία πολική περιοχή, η οποία συνήθως περιέχει 1-3 θετικά φορτισμένα αμινοξέα, όπως η λυσίνη. Η-περιοχή: Είναι υδρόφοβη και τα αμινοξέα που περιλαμβάνει σχηματίζουν α-έλικα. Είναι πλούσια στα αμινοξέα: Leu, Ala, Met, Val, Ile, Phe και Thr. To μήκος της (10 ± 3 αμινοξέα) τη διακρίνει από τις διαμεβρανικές αλληλουχίες διαφόρων πρωτεϊνών, που έχουν μήκος 24 ± 2 αμινοξέα. 22

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ C-περιοχή: Αποτελεί τη θέση θραύσης (cleavage site) του πεπτιδίου σήματος και περιλαμβάνει αμινοξέα με μικρές πλευρικές ομάδες. Στη θέση θραύσης δρα η πεπτιδάση σήματος, μία μεμβρανική πρωτεΐνη που βρίσκεται προς τον αγωγό του ΑΕΔ, και αποκόπτει το πεπτίδιο σήματος από την πολυπεπτιδική αλυσίδα. Η θέση θραύσης παρουσιάζει τη μεγαλύτερη εξελικτική σταθερότητα απ όλες τις περιοχές του πεπτιδίου σήματος [6]. Σχετικά με τη θέση θραύσης, υπάρχει ένας ιδιαίτερα δημοφιλής κανόνας, ο κανόνας (-3,-1), ο οποίος την καθορίζει με τον εξής τρόπο: το αμινοξύ στη θέση -1, δηλαδή αμέσως πριν τη θέση θραύσης, πρέπει να είναι ένα από τα: Ala, Ser, Gly, Cys, Thr ή Gln. To αμινοξύ στη θέση -3 πρέπει να μην είναι αρωματικό (Phe, His, Tyr, Trp), φορτισμένο (Asp, Glu, Lys, Arg) ή μεγάλο και πολικό (Asn, Gln). Επιπλέον, το αμινοξύ Pro δεν πρέπει να υπάρχει στις θέσεις -3 ως +1. Βέβαια, στο συγκεκριμένο κανόνα υπάρχουν πάντα και εξαιρέσεις [8]. Ένας επιπλέον ρόλος των πεπτιδίων σήματος που αναφέρεται στη βιβλιογραφία, είναι πως καθορίζουν την τοπολογία των διαμεμβρανικών πρωτεϊνών. Στην παράγραφο 2.3 (σχήμα 2.6), αναφέρθηκε ότι οι διαμεμβρανικές πρωτεΐνες διακρίνονται σε δύο τύπους, τις μονοτοπικές και πολυτοπικές, ανάλογα με το πόσες φορές διαπερνούν την πλασματική μεμβράνη. Πιο αναλυτικά μπορούν να καταταγούν σε τέσσερις κατηγορίες (τρεις μονοτοπικές και μία πολυτοπική). Σχήμα 2.11: Τοπολογίες διαμεμβρανικών πρωτεϊνών [9]. 23

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Οι πρωτεΐνες της κατηγορίας Ι έχουν ένα αποκοπτόμενο πεπτίδιο σήματος (πεπτίδιο που αποκόπτεται μετά τη σύνδεση της πρωτεΐνης στη μεμβράνη, δηλαδή έχει στη C-περιοχή την αλληλουχία των αμινοξέων που αποτελεί τη θέση θραύσης) και μία ακολουθία παύσης (περιοχή με 18-25 υδροφοβικά αμινοξέα ακολουθούμενα από μία συστοιχία θετικά φορτισμένων αμινοξέων), η οποία κλειδώνει την πολυπεπτιδική αλυσίδα στη λιπιδιακή διπλοστοιβάδα. Ο τελικός τους προσανατολισμός, μετά την αποκοπή του πεπτιδίου σήματος, είναι αυτός που φαίνεται στο Σχήμα 2.11. Οι πρωτεΐνες της κατηγορίας ΙΙ έχουν ένα μη αποκοπτόμενο πεπτίδιο σήματος και, συνεπώς, καταλήγουν όπως στο Σχήμα 2.11. Μόνο ένας μικρός αριθμός πρωτεϊνών της κατηγορίας ΙΙΙ, με ένα υδροφοβικό αμινοτελικό άκρο και με προσανατολισμό όπως στο Σχήμα 2.11, είναι γνωστές. Αυτές οι πρωτεΐνες έχουν ανεστραμμένη πολικότητα φορτίου στην υδροφοβική τους περιοχή σε σχέση με τα συνηθισμένα πεπτίδια σήματος. Τέλος, οι πρωτεΐνες της κατηγορίας IV, έχουν πολλαπλές υδροφοβικές περιοχές που εκτείνονται στη μεμβράνη [9]. Με βάση τα παραπάνω, είναι φανερό πως τα πεπτίδια σήματος παίζουν καθοριστικό ρόλο για τις πρωτεΐνες. Λαμβάνοντας υπόψη τον τεράστιο όγκο των πρωτεϊνικών ακολουθιών που δεν έχουν ακόμη αναλυθεί, η πρόβλεψη της λειτουργίας και της θέσης μίας πρωτεΐνης με υπολογιστικά μέσα είναι διαρκώς αυξανόμενης σημασίας, καθώς η εργαστηριακή επεξεργασία είναι χρονοβόρα και δαπανηρή. Μάλιστα, για τη φαρμακευτική βιομηχανία, η ταχεία και ακριβής πρόβλεψη των πεπτιδίων σήματος και της θέσης θραύσης τους, μέσω υπολογιστικών μεθόδων, θα ήταν ιδιαίτερα επωφελής. Χαρακτηριστικά, προσθέτοντας μία ακολουθία σήματος στην επιθυμητή πρωτεΐνη, η οποία θα διευκόλυνε την έκκρισή της από το κύτταρο, θα ήταν δυνατό να συγκεντρωθεί μεγαλύτερη ποσότητά της [10]. 24

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.5 ΑΡΙΘΜΗΤΙΚΗ ΚΩΔΙΚΟΠΟΙΗΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΜΙΝΟΞΕΩΝ Για την εφαρμογή υπολογιστικών εργαλείων πάνω σε βιολογικά δεδομένα με σκοπό την εξαγωγή γνώσης από αυτά, είναι απαραίτητη η μετατροπή τους σε αριθμητικά δεδομένα. Προκειμένου να εφαρμοστούν οποιεσδήποτε μέθοδοι επεξεργασίας σήματος πάνω στις πρωτεΐνες, ώστε να προκύψουν συμπεράσματα σχετικά με τη δομή και τη λειτουργία τους, πρέπει να προηγηθεί κάποιας μορφής αριθμητική αναπαράσταση της ακολουθίας των αμινοξέων από τα οποία αποτελούνται. Αυτή η κωδικοποίηση, λοιπόν, είναι και το πρώτο πέρασμα από τη βιολογία στην πληροφορική, όπως ορίζει η επιστήμη της βιοπληροφορικής. Στη συνέχεια, παρουσιάζονται οι κυριότερες προσεγγίσεις κωδικοποίησης που έχουν προταθεί μέχρι σήμερα στη βιβλιογραφία. 2.5.1 ΥΔΡΟΦΟΒΙΚΟΤΗΤΑ Η υδροφοβικότητα αντιπροσωπεύει την τάση των μορίων ή των ατόμων να απωθούνται από το νερό όταν έρχονται σε επαφή με αυτό. Με ανάλογο τρόπο και τα αμινοξέα, σύμφωνα με την πολικότητα των πλευρικών τους ομάδων μπορεί να εμφανίσουν υδροφοβική (μη πολικά αμινοξέα) ή υδροφιλική (πολικά αμινοξέα) συμπεριφορά. Η κατανομή των υδροφοβικών και υδροφιλικών αμινοξέων μίας πρωτεΐνης καθορίζει την τριτοταγή δομή της, αφού αποτελεί την κινητήριο δύναμη για την αναδίπλωσή της. Προκειμένου, δηλαδή, οι μη πολικές πλευρικές ομάδες να αποφύγουν την επαφή με το νερό, συμπιέζονται στο εσωτερικό της πρωτεΐνης, διαμορφώνοντας τη δομή της και προσφέροντας της σταθερότητα. Το μέτρο της υδροφοβικότητας του κάθε αμινοξέος εκφράζεται αριθμητικά σύμφωνα με κάποιες κλίμακες, οι σημαντικότερες εκ των οποίων περιγράφονται στη συνέχεια. Ακόμη, στον Πίνακα 2.2 παρατίθενται συνοπτικά οι αριθμητικές τιμές που αντιστοιχούν σύμφωνα με τις παραπάνω κλίμακες σε κάθε αμινοξύ. Κλίμακα Kyte-Doolittle (KD): χρησιμοποιείται ως επί το πλείστον κατά τον εντοπισμό υδροφοβικών τμημάτων σε πρωτεΐνες, τόσο για τμήματα πρωτεϊνών στην επιφάνεια της κυτταρικής μεμβράνης, όσο και για διαμεμβρανικά τμήματα [11]. Θετικές τιμές αντιστοιχούν σε υδροφοβικές πρωτεϊνικές περιοχές. 25

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Κλίμακα Engelman: αναφέρεται και ως κλίμακα GES. Πρόκειται για μια ακόμη κλίμακα πρωτεϊνικής κωδικοποίησης που χρησιμοποιείται για την πρόβλεψη της υδροφοβικότητας των πρωτεϊνών [12], με ιδιαίτερη έμφαση στα διαμεμβρανικά τμήματα των ακολουθιών αμινοξέων. Κλίμακα Hopp-Woods: αναπτύχθηκε από τους Hopp και Woods για τον εντοπισμό πιθανών περιοχών αντιγόνων στις πρωτεΐνες. Πρόκειται, κατά βάση, για ένα δείκτη υδροφιλικότητας όπου στα μη πολωμένα αμινοξέα αποδίδονται αρνητικές αριθμητικές τιμές [13]. Κλίμακα Cornette: αναπτύχθηκε ως βέλτιστη κλίμακα υδροφοβικότητας βασισμένη σε 28 δημοσιευμένες κλίμακες, κατάλληλη για την πρόβλεψη α-ελίκων στις πρωτεϊνικές ακολουθίες [14]. Πίνακας 2.2: Οι αριθμητικές τιμές υδροφοβικότητας των 20 αμινοξέων για τις πιο διαδεδομένες και χρησιμοποιούμενες κλίμακες. ΑΜΙΝΟΞΥ ΚΛΙΜΑΚΑ ΥΔΡΟΦΟΒΙΚΟΤΗΤΑΣ Kyte-Doolittle Engelmann Hopp- Cornette (KD) Woods Λευκίνη (L) 3.80 2.80-1.80 5.70 Ισολευκίνη (Ι) 4.50 3.10-1.80 4.80 Ασπαραγίνη (Ν) -3.50-4.80 0.20-0.50 Γλυκίνη (G) -0.40 1.00 0.00 0.00 Βαλίνη (V) 4.20 2.60-1.50 4.70 Γλουταμικό οξύ (Ε) -3.50-8.20 3.00-1.80 Προλίνη (P) -1.60-0.20 0.00-2.20 Ιστιδίνη (H) -3.20-3.00-0.50 0.50 Λυσίνη (Κ) -3.90-8.80 3.00-3.10 Αλανίνη (A) 1.80 1.60-0.50 0.20 Τυροσίνη (Y) -1.30-0.70-2.30 3.20 Τρυπτοφάνη (W) -0.90 1.90-3.40 1.00 Γλουταμίνη (Q) -3.50-4.10 0.20-2.80 Μεθειονίνη (M) 1.90 3.40-1.30 4.20 Σερίνη (S) -0.80 0.60 0.30-0.50 Κυστεΐνη (C) 2.50 2.00-1.00 4.10 Θρεονίνη (T) -0.70 1.20-0.40-1.90 Φαινυλαλανίνη (F) 2.80 3.70-2.50 4.40 Αργινίνη (R) -4.50-12.3 3.00 1.40 Ασπαρτικό οξύ (D) -3.50-9.20 3.00-3.10 26

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Με τις παραπάνω κλίμακες, κάθε ακολουθία αμινοξέων μπορεί να παρασταθεί απευθείας από μία ακολουθία αριθμών. Εναλλακτικά, η υδροφοβικότητα μιας ακολουθίας αμινοξέων μπορεί να υπολογιστεί εφαρμόζοντας σε αυτήν ένα κυλιόμενο παράθυρο σταθερού και περιττού μήκους. Η μέση τιμή υδροφοβικότητας που υπολογίζεται για όλο το παράθυρο, αντιστοιχεί στο αμινοξύ που βρίσκεται στην κεντρική του θέση. Σχήμα 2.12: Παράσταση υδροφοβικότητας ακολουθίας αμινοξέων. Οι υδροφοβικές περιοχές της ακολουθίας έχουν υψηλότερες τιμές σύμφωνα με το γράφημα κάτω από την ακολουθία. Το κόκκινο χρώμα αντιστοιχεί σε περιοχές με υψηλή υδροφοβικότητα, ενώ το μπλε σε περιοχές με χαμηλή υδροφοβικότητα. Τέλος, μία διαφορετική προσέγγιση κωδικοποίησης μίας ακολουθίας αμινοξέων μπορεί να γίνει ως προς το συνδυασμό των αμινοξέων ανά δύο. Εισάγοντας την έννοια της συμβατότητας μεταξύ τους, μπορούμε να πούμε ότι τα αμινοξέα με διαφορετική υδροφοβική συμπεριφορά τείνουν να απωθούν το ένα το άλλο. Έτσι, σύμφωνα με τη συγκεκριμένη κωδικοποίηση, ανά δύο γειτονικά αμινοξέα αντιστοιχεί μία αριθμητική τιμή, η οποία εκφράζει τη συμβατότητά τους ως προς την υδροφοβική συμπεριφορά και ορίζεται από τον παρακάτω πίνακα [15]. Πίνακας 2.3: Πίνακας συμβατότητας μεταξύ των 20 αμινοξέων με κριτήριο την υδροφοβική συμπεριφορά [15]. 27

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.5.2 ΣΧΕΤΙΚΗ ΣΥΧΝΟΤΗΤΑ ΕΜΦΑΝΙΣΗΣ Πολλές από τις ιδιότητες των πρωτεϊνών αποτυπώνονται στη συχνότητα εμφάνισης των αμινοξέων από τα οποία αυτές σχηματίζονται. Με βάση αυτή την παρατήρηση έχουν προταθεί μετασχηματισμοί ακολουθιών αμινοξέων σε αριθμητικές ακολουθίες βασισμένοι στη συχνότητα εμφάνισης των αμινοξέων μέσα στην πρωτεϊνική ακολουθία ή σε μία κατηγορία πρωτεϊνικών ακολουθιών που χαρακτηρίζονται από μία ή περισσότερες κοινές ιδιότητες ή λειτουργίες [16]. Μετασχηματισμοί αυτής της μορφής προϋποθέτουν την ύπαρξη ενός συνόλου πρωτεϊνών εκπαίδευσης (training) από το οποίο προκύπτει η απεικόνιση των χαρακτήρων σε αριθμητικές τιμές με βάση τους κανόνες που διέπουν τον εκάστοτε μετασχηματισμό [17, 18]. 2.5.3 ΔΥΝΑΜΙΚΟ ΑΛΛΗΛΕΠΙΔΡΑΣΗΣ ΙΟΝΤΩΝ ΗΛΕΚΤΡΟΝΙΩΝ Η ενέργεια των ηλεκτρονίων κάθε αμινοξέος μπορεί να χρησιμοποιηθεί για την αριθμητική απεικόνισή του σε μια ακολουθία αμινοξέων. Κάθε αμινοξύ αναπαρίσταται με μια σταθερά, η οποία προκύπτει ως η συνολική ενέργεια όλων των ηλεκτρονίων σθένους αυτού. Η κλίμακα αυτή είναι γνωστή ως Κλίμακα Δυναμικού Αλληλεπίδρασης Ιόντων Ηλεκτρονίων (Electron Ion Interaction Potential EIIP) [19] και παρατίθεται στον Πίνακα 2.4. Πίνακας 2.4:Οι αριθμητικές τιμές του Δυναμικού Αλληλεπίδρασης Ιόντων Ηλεκτρονίων για κάθε αμινοξύ. ΑΜΙΝΟΞΥ EIIP ΑΜΙΝΟΞΥ EIIP ΑΜΙΝΟΞΥ EIIP Λευκίνη (L) 0.0000 Ιστιδίνη (H) 0.0242 Σερίνη (S) 0.0829 Ισολευκίνη (Ι) 0.0000 Λυσίνη (Κ) 0.0371 Κυστεΐνη (C) 0.0829 Ασπαραγίνη (Ν) 0.0036 Αλανίνη (A) 0.0373 Θρεονίνη (T) 0.0941 Γλυκίνη (G) 0.0050 Τυροσίνη (Y) 0.0516 Φαινυλαλανίνη (F) 0.0946 Βαλίνη (V) 0.0057 Τρυπτοφάνη (W) 0.0548 Αργινίνη (R) 0.0959 Γλουταμικό οξύ (Ε) 0.0058 Γλουταμίνη (Q) 0.0761 Ασπαρτικό οξύ (D) 0.1263 Προλίνη (P) 0.0198 Μεθειονίνη (M) 0.0823 28

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.6 ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ ΑΜΙΝΟΞΕΩΝ Η φαρμακευτική βιομηχανία κατά την τελευταία δεκαετία αποτελεί έναν από τους μεγαλύτερους χρήστες των βάσεων δεδομένων που περιγράφουν τη δομή των πρωτεϊνών και έναν εξίσου σημαντικό παράγοντα στην προσπάθεια να καθοριστούν νέες πρωτεϊνικές δομές [20]. Οι σωστά οργανωμένες βάσεις είναι απαραίτητες προκειμένου να γίνει διαχείριση του τεράστιου όγκου των βιολογικών δεδομένων, τα οποία αντλεί και επεξεργάζεται η επιστήμη της βιοπληροφορικής μέσω των υπολογιστικών της εργαλείων, με σκοπό την εξαγωγή χρήσιμων συμπερασμάτων. Υπάρχει ένας μεγάλος αριθμός διαθέσιμων βάσεων δεδομένων πρωτεϊνικών ακολουθιών με διαφορετικούς στόχους και στοιχεία που περιέχουν. Μια σημαντική διαφοροποίηση υπάρχει ανάμεσα σε βάσεις δεδομένων γενικού περιεχομένου, οι οποίες καλύπτουν πρωτεΐνες από όλα τα είδη των ζωντανών οργανισμών, και σε εξειδικευμένες βάσεις δεδομένων που περιέχουν πληροφορίες σχετικά με οικογένειες ή ομάδες πρωτεϊνών ή με πρωτεΐνες ενός συγκεκριμένου οργανισμού. Επιπλέον, η πρώτη κατηγορία βάσεων δεδομένων διακρίνεται σε βάσεις δεδομένων συντηρούμενες μη αυτόματα από ειδικούς και σε αποθήκες ακολουθιών. Ιδιαίτερα κατά τη διάρκεια της αποκωδικοποίησης του γονιδιώματος, οι πρώτες βρέθηκαν αντιμέτωπες με μία μεγάλη πρόκληση. Η Swiss-Prot αποτελεί μια βάση πληροφοριών πρωτεϊνών που δημιουργήθηκε το 1986 και συντηρείται μέσω της συνεργασίας του Ελβετικού Ινστιτούτου Βιοπληροφορικής (Swiss Institute of Bioformatics - SIB) και του Ευρωπαϊκού Ινστιτούτου Βιοπληροφορικής (European Bioinformatics Institute - EBI) [21]. Στοχεύει στην παροχή υψηλού επιπέδου σχολιασμού (annotation), στην ελαχιστοποίηση της πλεονάζουσας πληροφορίας και στο υψηλό επίπεδο συμβατότητας με άλλες βάσεις δεδομένων. Οι παραπάνω στόχοι επιτυγχάνονται ως εξής: Επίπεδο σχολιασμού: Στην Swiss-Prot για κάθε εγγραφή υπάρχουν δύο κατηγορίες δεδομένων: τα κύρια δεδομένα και η σχολιασμοί. 29

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Τα κύρια δεδομένα περιλαμβάνουν τα εξής: Ακολουθία της πρωτεΐνης. Βιβλιογραφικές αναφορές. Πληροφορίες ταξινόμησης (περιγραφή της βιολογικής πηγής της πρωτεΐνης). Οι σχολιασμοί περιλαμβάνουν τα εξής: Λειτουργίες της πρωτεΐνης. Μετα-μεταφραστικές τροποποιήσεις (πχ. ακετυλιώση, φωσφορυλίωση κλπ.). Χαρακτηριστικές περιοχές και τοποθεσία τους στην πρωτεϊνική ακολουθία. Δευτεροταγή δομή. Τεταρτοταγή δομή. Ομοιότητες με άλλες πρωτεΐνες. Ασθένειες που συσχετίζονται με διάφορες ατέλειες της πρωτεΐνης. Διαφοροποιήσεις και παραλλαγές της ακολουθίας. Σε μια εγγραφή της Swiss-Prot οι σχολιασμοί βρίσκονται κυρίως στις γραμμές CC (comment line) και KW (keyword line) και στον πίνακα των χαρακτηριστικών FT (feature table). Ελαχιστοποίηση της πλεονάζουσας πληροφορίας: Σε πολλές βάσεις ακολουθιών, για μια συγκεκριμένη πρωτεϊνική ακολουθία, υπάρχουν περισσότερες από μία εγγραφές που προέρχονται από διαφορετικές βιβλιογραφικές αναφορές. Στην Swiss-Prot έχει γίνει προσπάθεια να συγχωνευθούν όλα αυτά τα δεδομένα ώστε να ελαχιστοποιηθεί η περίσσεια της πληροφορίας. Συμβατότητα με άλλες βάσεις δεδομένων: Η συμβατότητα μεταξύ των βάσεων βιομοριακών δεδομένων αποτελεί ιδιαίτερα σημαντικό παράγοντα για τους χρήστες τους. Έτσι και η Swiss-Prot, παρέχει ένα σύστημα διασύνδεσης μεταξύ των τριών κυρίαρχων τύπων βάσεων δεδομένων που περιέχουν ακολουθίες (ακολουθίες νουκλεϊκών οξέων, ακολουθίες πρωτεϊνών και τριτοταγείς δομές πρωτεϊνών) και των βάσεων δεδομένων με πιο εξειδικευμένο περιεχόμενο. Συγκεκριμένα, δείκτες που παραπέμπουν σε μία εγγραφή-πληροφορία της Swiss- Prot συνοδεύουν την αντίστοιχη εγγραφή-πληροφορία που είναι καταχωρημένη σε μία άλλη βάση δεδομένων [21]. 30

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Ένας επιπλέον στόχος της Swiss-Prot είναι η διεξοδική τεκμηρίωση των παρεχόμενων πληροφοριών. Κάθε εγγραφή της αναλύεται και ταυτοποιείται προσεκτικά από βιολόγους, ώστε να διασφαλίζεται ένα υψηλό επίπεδο εγκυρότητας και να διατηρηθεί η ποιότητα των παρεχόμενων πληροφοριών. Η βάση TrEMBL δημιουργήθηκε το 1996 συμπληρωματικά στη Swiss-Prot ως ανταπόκριση στην ανάγκη για όσο το δυνατό ταχύτερη διάθεση νέων ακολουθιών [21]. Αυτό δεν ήταν δυνατό να γίνει απευθείας στην ίδια τη Swiss-Prot για λόγους εγκυρότητας και ποιότητας των περιεχομένων της. Η TrEMBL αρχικά αποτελούνταν από εγγραφές που προέρχονταν από ταυτοποίηση μέσω υπολογιστή από την ερμηνεία όλων των ακολουθιών κωδικοποίησης στις βάσεις δεδομένων DDBJ, EMBL-Bank, GenBank εκτός από αυτές που περιλαμβάνονταν στη Swiss-Prot [22]. Στη συνέχεια διευρύνθηκε, ώστε να περιλαμβάνει και πρωτεϊνικές ακολουθίες που προέρχονται από τη βιβλιογραφία ή αποστέλλονται προς τη Swiss-Prot. Μία άλλη καθολικού περιεχομένου βάση δεδομένων πρωτεϊνών είναι η PIR (Protein Information Resource) [23]. Η PIR αποτελεί μια κοινή προσπάθεια του Ιατρικού Κέντρου του Πανεπιστημίου του Georgetown και του Εθνικού Ιδρύματος Βιοϊατρικής Τεχνολογίας (National Biomedical Research Foundation) στην Ουάσινγκτον των Η.Π.Α. Ιδρύθηκε το 1984 και προέκυψε από την εργασία Atlas of Protein Sequence and Structure της Δρ. Margaret Dayhoff, που δημοσιεύτηκε στο διάστημα 1965-1978 και αποτέλεσε την πρώτη ευρεία συλλογή πρωτεϊνικών ακολουθιών. Το 1974 όρισε την έννοια της οικογένειας και υπερ-οικογένειας (superfamily) πρωτεϊνών, με βάση την ομοιότητα των ακολουθιών, ως τρόπο οργάνωσης και κατηγοριοποίησης των πρωτεϊνών. Αυτό χρησιμοποιήθηκε από την PIR δίνοντας τη δυνατότητα ταυτοποίησης λειτουργικών και μορφολογικών χαρακτηριστικών των πρωτεϊνικών ακολουθιών μέσω υπολογιστή, αυξάνοντας τον αριθμό των καταγεγραμμένων πρωτεϊνών στην PIR. Ενώ η Swiss-Prot και η PIR αποτελούν παραδείγματα βάσεων δεδομένων συντηρούμενων μη αυτόματα από ειδικούς, η ΤrEMBL και ένα από τα πλέον αντιπροσωπευτικά αντίστοιχα παραδείγματα από τις Η.Π.Α., η GenPept (GeneBank Gene Products Data Bank), αποτελούν βάσεις αποθήκευσης ακολουθιών. Η GenPept που συντηρείται από το Αμερικανικό Εθνικό Κέντρο Πληροφοριών Βιοτεχνολογίας 31

ΚΕΦΑΛΑΙΟ 2 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ (National Center of Biotechnology Information - NCBI) περιλαμβάνει ακολουθίες περιορισμένης ταυτοποίησης ως προς τα τμήματα τους, οι οποίες εξάγονται από άλλες μεγαλύτερες βάσεις ακολουθιών. Οι βάσεις δεδομένων Swiss-Prot, TrEMBL και PIR συνυπήρχαν μόνο ως ανεξάρτητες πηγές μέχρι το 2002, οπότε οι φορείς που τις συντηρούσαν δημιούργησαν τη βάση δεδομένων Uniprot, η οποία συνδυάζει τις πληροφορίες των τριών επιμέρους βάσεων δεδομένων και περιορίζει στο ελάχιστο την πλεονάζουσα διαθέσιμη πληροφορία. Εκτός από τις καθολικού περιεχομένου βάσεις δεδομένων πρωτεϊνών, υπάρχει ένας μεγάλος αριθμός εξειδικευμένων βάσεων δεδομένων. Ορισμένες από αυτές είναι επικεντρωμένες σε μια συγκεκριμένη μορφή πρωτεϊνών, ενώ άλλες στοχεύουν στη συγχώνευση ήδη υπαρχουσών πηγών πληροφοριών πρωτεϊνών για την πλήρη εκμετάλλευση των δυνατοτήτων τους. Ένα χαρακτηριστικό παράδειγμα της πρώτης κατηγορίας είναι η PDB (Protein Data Bank). Η αύξηση του όγκου δεδομένων της συνοδεύτηκε από αύξηση τόσο ως προς το περιεχόμενό της όσο και ως προς τη δομική πολυπλοκότητα των περιεχομένων της. Η ιδιαιτερότητα της PDB έγκειται στο γεγονός ότι η γνώση της τρισδιάστατης δομής των πρωτεϊνών που περιλαμβάνει διασφαλίζει τον ορθό και ακριβή χαρακτηρισμό των διαφόρων τμημάτων τους. Ως υποκατηγορία της PDB, έχουν αναπτυχθεί αρκετές επιμέρους βάσεις δεδομένων πρωτεϊνών με συγκεκριμένα χαρακτηριστικά, με αντιπροσωπευτικό παράδειγμα την PDBTM, η οποία περιλαμβάνει το σύνολο των διαμεμβρανικών πρωτεϊνών που περιέχονται στην PDB, ανεξαρτήτως ζωντανού οργανισμού στον οποίο ανήκουν. Ένας άλλος διαχωρισμός των βάσεων δεδομένων πρωτεϊνών που υπάρχουν διαθέσιμες στο διαδίκτυο σήμερα πραγματοποιεί διάκριση ανάμεσα σε τρεις βασικές κατηγορίες, οι οποίες είναι: α) βάσεις δεδομένων πρωτεϊνικών ακολουθιών, β) βάσεις δεδομένων πρωτεϊνικών δομών και γ) βάσεις δεδομένων πρωτεϊνικών οικογενειών. Χαρακτηριστικό παράδειγμα της πρώτης κατηγορίας είναι η Swiss-Prot με εκτενείς σχολιασμούς για κάθε εγγραφή, ενώ για τη δεύτερη κατηγορία η PDB, η οποία περιέχει πληροφορίες για την τρισδιάστατη δομή των πρωτεϊνών. Στην τρίτη κατηγορία ανήκουν οι βάσεις δεδομένων που είναι οργανωμένες σύμφωνα με οικογένειες πρωτεϊνών. 32

ΚΕΦΑΛΑΙΟ 3 ΜΕΘΟΔΟΙ ΕΝΤΟΠΙΣΜΟΥ TOY ΠΕΠΤΙΔΙΟΥ ΣΗΜΑΤΟΣ Από τη στιγμή που διαπιστώθηκε η σημασία του εντοπισμού του πεπτιδίου σήματος στις πρωτεϊνικές ακολουθίες, έχουν αναπτυχθεί διάφορες μέθοδοι που υλοποιούν αυτή τη διαδικασία. Άλλοτε με μικρότερη και άλλοτε με μεγαλύτερη ακρίβεια, όλες οι μέθοδοι επεξεργάζονται με υπολογιστικά εργαλεία την πρωτοταγή δομή της πρωτεΐνης, δηλαδή την ακολουθία των αμινοξέων, με στόχο να προβλέψουν την ύπαρξη ή μη του πεπτιδίου σήματος, καθώς επίσης και το μήκος του, δηλαδή τη θέση θραύσης (βλ. 2.4) μέσα στην πρωτεϊνική ακολουθία Οι σημαντικότερες από τις μεθόδους αυτές, με χρονολογική σειρά δημοσίευσης, περιγράφονται στη συνέχεια. Η πρώτη αξιόλογη μέθοδος εντοπισμού του πεπτιδίου σήματος, στην οποία βασίστηκαν και αρκετές μεταγενέστερες μέθοδοι (πχ. SigCleave και SPScan), προτάθηκε από τον Σουηδό Gunnar von Heijne το 1986 [24], ο οποίος είναι και ο εμπνευστής του κανόνα (-3,-1) (βλ. 2.4 [8]). Η μέθοδος αυτή στηρίζεται στους πίνακες βαρών (weight matrices), οι οποίοι είναι διαδεδομένοι όσον αφορά τον εντοπισμό σημάτων σε ακολουθίες νουκλεϊκών οξέων. Οι δύο πίνακες της μεθόδου, ένας για ευκαρυωτικές και ένας για προκαρυωτικές πρωτεΐνες, εξάγονται από σύνολα πρωτεϊνών για τις οποίες είναι γνωστή η θέση θραύσης του πεπτιδίου σήματος. Το κάθε στοιχείο των πινάκων υπολογίζεται ως εξής: W(a,i) = ln (N(a,i)/N(a)), όπου με a συμβολίζεται ο αριθμός που αντιστοιχεί σε κάθε διαφορετικό αμινοξύ και με i η θέση του μέσα στην πρωτεϊνική ακολουθία., με τις θέσεις -1 και +1 να περιλαμβάνουν τη θέση θραύσης, παρέχοντας με τον τρόπο αυτό τη δυνατότητα στοίχισης των ακολουθιών ως προς τη θέση θραύσης τους. N(a,i) είναι το πλήθος των αμινοξέων τύπου a που παρατηρήθηκαν στη θέση i σε όλο το σύνολο δεδομένων και N(a) είναι η συχνότητα εμφάνισης του αμινοξέος τύπου a γενικά στο σύνολο των πρωτεϊνών. Η πιο πιθανή θέση θραύσης για κάθε πρωτεϊνική ακολουθία είναι αυτή που συγκεντρώνει το μεγαλύτερο σκορ S(i)= W(a i-p, i-p) + W(a i-p+1, i-p+1) + + W(a i+q, i+q), όπου p,q είναι τα όρια του παραθύρου άθροισης γύρω από τη θέση i.

ΚΕΦΑΛΑΙΟ 3 ΜΕΘΟΔΟΙ ΕΝΤΟΠΙΣΜΟΥ ΤΟΥ ΠΕΠΤΙΔΙΟΥ ΣΗΜΑΤΟΣ SignalP: Η μέθοδος SignalP είναι σήμερα μία από τις πιο πετυχημένες μεθόδους πρόβλεψης πεπτιδίου σήματος. Περιλαμβάνει δύο υλοποιήσεις, μία με Νευρωνικά Δίκτυα και μία με Hidden Markov Models. Νευρωνικά Δίκτυα: Προτάθηκε το 1997 από τους Henrik Nielsen, Jacob Engelbrecht, Søren Brunak και Gunnar von Heijne [25]. Η μέθοδος συνδυάζει δύο διαφορετικά νευρωνικά δίκτυα, ένα που έχει εκπαιδευτεί για να προβλέπει αν κάθε αμινοξύ της ακολουθίας ανήκει ή όχι σε πεπτίδιο σήματος (S-score) και ένα που έχει εκπαιδευτεί για να αναγνωρίζει τη θέση θραύσης (C-score). Τα S-score και C-score υπολογίζονται για κάθε αμινοξύ ξεχωριστά και εκφράζουν τις πιθανότητες το αμινοξύ να ανήκει σε ακολουθία σήματος ή να είναι το πρώτο αμινοξύ μετά τη θέση θραύσης, αντίστοιχα. Η ακρίβεια της αναγνώρισης της θέσης θραύσης ενισχύεται απορρίπτοντας της κορυφές του C-score που απέχουν από την περιοχή που τελειώνει το πεπτίδιο σήματος σύμφωνα με το S-score. Αυτό αριθμητικά γίνεται με το Y-score, που προκύπτει από το γεωμετρικό μέσο του C-score και της παραγώγου του S- score. Η απόφαση για το αν υπάρχει ή όχι πεπτίδιο σήματος στην ακολουθία, λαμβάνεται, επίσης, από το συνδυασμό των παραπάνω σκορ. Τα νευρωνικά δίκτυα χρησιμοποιούν την τεχνική back-propagation με μία τροποποιημένη συνάρτηση σφάλματος. Hidden Markov Models: Γενικά, ένα Hidden Markov Model περιλαμβάνει ένα σύνολο καταστάσεων και τις πιθανότητες μετάβασης από τη μία κατάσταση στην άλλη. Στην περίπτωση της μεθόδου εντοπισμού του πεπτιδίου σήματος, που πρότειναν το 1998 οι Henrik Nielsen και Anders Krogh [26], η κάθε κατάσταση αντιπροσωπεύει μία θέση στην πρωτεϊνική ακολουθία και συνοδεύεται από την κατανομή της πιθανότητας ύπαρξης του κάθε αμινοξέος στη θέση αυτή. Η κάθε χαρακτηριστική περιοχή του πεπτιδίου σήματος (-n, -h και -c) αποτελεί ένα ξεχωριστό υπομοντέλο του συνολικού μοντέλου, το οποίο παρουσιάζεται στο παρακάτω σχήμα: 34