ηµιουργία ϐάσης δεδοµένων για χαρακτηριστικά µοριακής αναγνώρισης (Molecular Recognition Features, MoRFs) σε µεµβρανικές πρωτεΐνες.

Σχετικά έγγραφα

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Δομικές κατηγορίες πρωτεϊνών

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν;

ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων. 1/10/2015 Δ.Δ. Λεωνίδας

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

ΦΑΡΜΑΚΩΝ WORKSHOP ΣΧΕ ΙΑΣΜΟΥ

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

MAΘΗΜΑ 4 ο AMINOΞΕΑ-ΠΕΠΤΙ ΙΑ-ΠΡΩΤΕΪΝΕΣ

Ασκήσεις 3& 4. Πρωτεϊνική Αρχιτεκτονική. Πλατφόρμες Πρόβλεψης & Προσομοίωσης 2ταγούς Δομής. Μοριακή Απεικόνιση

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

Εγγενώς μη Δομημένες Πρωτεΐνες

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Ασφάλεια σε χώρους αναψυχής: Ένα σύστημα από έξυπνα αντικείμενα

Διαλέξεις Χημείας Αγγελική Μαγκλάρα, PhD Εργαστήριο Κλινικής Χημείας Ιατρική Σχολή Πανεπιστημίου Ιωαννίνων

Συγκριτική Γονιδιωματική

The effect of curcumin on the stability of Aβ. dimers

Η κυτταρική µετατόπιση των πρωτεϊνών

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro

και χρειάζεται μέσα στο ρύθμιση εναρμόνιση των διαφόρων ενζυμικών δραστηριοτήτων. ενζύμων κύτταρο τρόπους

Δευτεροταγής Δομή Πρωτεϊνών

Κεφάλαιο 1. Οι δομικοί λίθοι

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΓΩΝΙΕΣ φ, ψ ΚΑΙ ΕΠΙΤΡΕΠΤΕΣ ΔΙΑΜΟΡΦΩΣΕΙΣ ΤΗΣ ΠΟΛΥΠΕΠΤΙΔΙΚΗΣ ΑΛΥΣΙΔΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΕΙΣΑΓΩΓΗ Ι. Στοιχεία Μοριακής Βιολογίας Βιολογικά Μακρομόρια ΙΙ. Επισκόπηση του πεδίου της Υπολογιστικής Βιολογίας - Βιοπληροφορικής

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Ανάπτυξη Υπολογιστικών Εργαλείων για την Προσομο ίωση Μοριακής Δυναμικής Πρωτεϊνών σε Υδατικό Διάλυμα

Kυτταρική Bιολογία ΒΙΟΛΟΓΙΚΕΣ ΜΕΜΒΡΑΝΕΣ, ΜΕΜΒΡΑΝΙΚΑ ΔΙΑΜΕΡΙΣΜΑΤΑ & ΔΙΑΛΟΓΗ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΕΙΣ 4 & 5 (29/2 & 2/3/2016)

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

ΒΙΟΤΕΧΝΟΛΟΓΙΑ 1 ο ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΒΟΛΟΥ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

Βιοπληροφορική. Ενότητα 17: Δομή Πρωτεϊνών, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΔΟΜΗ ΚΑΙ ΔΡΑΣΗ ΠΡΩΤΕΙΝΩΝ

Βιοπληροφορική. Ενότητα 19: Υπολογιστικός Προσδιορισμός Δομής (1/3), 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Εισαγωγή στις πρωτεΐνες Δομή πρωτεϊνών Ταξινόμηση βάσει δομής Βάσεις με δομές πρωτεϊνών Ευθυγράμμιση δομών Πρόβλεψη 2D δομής Πρόβλεψη 3D δομής

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Οι πρωτεΐνες συμμετέχουν σε όλες τις κυτταρικές λειτουργίες

Βιολογία. Γ ΚΥΚΛΟΣ ΠΡΟΣΟΜΟΙΩΤΙΚΩΝ ΔΙΑΓΩΝΙΣΜΑΤΩΝ ΣΥΓΧΡΟΝΟ Προτεινόμενα Θέματα Γ ΓΕΛ. Ιανουάριος προσανατολισμού ΘΕΜΑ Α

4 ο ΚΕΦΑΛΑΙΟ. Γ ε ν ε τ ι κ ή

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

Βιοφυσική. ΦΥΣ 415 Διδάσκων Σ. Σκούρτης (χειμερινό εξάμηνο ) 3 η Διάλεξη

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Βιοπληροφορική. Ενότητα 21: Υπολογιστικός Προσδιορισμός Δομής (3/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

COOH R 2. H α-αμινοξύ 2

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

Υπερδευτεροταγής Δομή Πρωτεϊνών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

Kυτταρική Bιολογία ΒΙΟΛΟΓΙΚΕΣ ΜΕΜΒΡΑΝΕΣ, ΜΕΜΒΡΑΝΙΚΑ ΔΙΑΜΕΡΙΣΜΑΤΑ & ΔΙΑΛΟΓΗ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΕΙΣ 4 & 5 (3/3 & 6/3/2017)

Malgorzata Korycka-Machala, Marcin Nowosielski, Aneta Kuron, Sebastian Rykowski, Agnieszka Olejniczak, Marcin Hoffmann and Jaroslaw Dziadek

Kυτταρική Bιολογία ΒΙΟΛΟΓΙΚΕΣ ΜΕΜΒΡΑΝΕΣ, ΜΕΜΒΡΑΝΙΚΑ ΔΙΑΜΕΡΙΣΜΑΤΑ & ΔΙΑΛΟΓΗ ΠΡΩΤΕΪΝΩΝ ΔIAΛEΞΗ 4 (6/3/2013)

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Καραπέτσας Θανάσης. Διπλωματική Εργασία:

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

Τάξη. Γνωστικό αντικείµενο: Ειδικοί διδακτικοί στόχοι

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

ΘΕΩΡΙΑ ΔΕΣΜΟΥ ΣΘΕΝΟΥΣ ΘΕΩΡΙΑ ΜΟΡΙΑΚΩΝ ΤΡΟΧΙΑΚΩΝ

Splice site recognition between different organisms

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιολογία Γενικής Παιδείας Β Λυκείου

Μάθηµα: Κίνηση πρωτεινών

Πρωτεινική αναδίπλωση

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

ΚΕΦΑΛΑΙΟ 11. Βιοενεργητική & Μεταβολισµός: Μιτοχόνδρια, Χλωροπλάστες & Υπεροξειδιοσώµατα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Μελέτη και Ανάπτυξη ενός Εργαλείου Υποβοήθησης στη Σχεδίαση µίας Βάσης εδοµένων Τύπου Graph από Τελικούς Χρήστες

Δευτεροταγής Δομή Πρωτεϊνών

Transcript:

Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών Σχολή Θετικών Επιστηµών Τµήµα Βιολογίας Μεταπτυχιακό Πρόγραµµα Σπουδών Βιοπληροφορική ηµιουργία ϐάσης δεδοµένων για χαρακτηριστικά µοριακής αναγνώρισης (Molecular Recognition Features, MoRFs) σε µεµβρανικές πρωτεΐνες. Φοίβος Γύπας Αθήνα, Σεπτέµβριος 2013

Τριµελής εξεταστική επιτροπή Καθηγητής Σταύρος Ι. Χαµόδρακας Τµήµα Βιολογίας, Εθνικό και (Επιβλέπων) Καποδιστριακό Πανεπιστήµιο Α- ϑηνών Επίκουρος Καθηγητής Παντελής Γ. Μπάγκος Τµήµα Πληροφορικής µε Εφαρ- µογές στη Βιοϊατρική, Πανεπιστήµιο Θεσσαλίας Λέκτορας Βασιλική Α. Οικονοµίδου Τµήµα Βιολογίας, Εθνικό και Καποδιστριακό Πανεπιστήµιο Α- ϑηνών 3

4

Περίληψη Τα Χαρακτηριστικά Μοριακής Αναγνώρισης (Molecular Recognition Features, MoRFs) [1] είναι µικρά (10-70 αµινοξικά κατάλοιπα), εγγενώς µη δοµηµένα τµήµατα σε πρωτεΐνες, που αποκτούν χαρακτηριστική δοµή µετά από την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. Εµπλέκονται σε αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών και έχουν σηµαντικό ϱόλο στην διαδικασία της µοριακής αναγνώρισης. Σκοπός της εργασίας ήταν η συλλογή, οργάνωση και αποθήκευση όλων των µεµβρανικών πρωτεϊνών που περιέχουν MoRFs. Επικεντρωθήκαµε στις µεµβρανικές πρωτεΐνες, καθώς αποτελούν το ένα τρίτο των πλήρως αλληλουχηµένων πρωτεωµάτων και είναι υπεύθυνες για ποικιλία κυτταρικών λειτουργιών. Αρχικά τα δεδο- µένα συλλέχθηκαν από τις ϐάσεις δεδοµένων Protein Data Bank (PDB) και Uniprot ενώ η διαχείριση τους έγινε µε προγράµµατα που γράφτηκαν στη γλώσσα προγραµµατισµού Perl. Εγινε ταξινόµηση των MoRFs µε ϐάση τη δευτεροταγή δοµή που αποκτούν κατά την αλληλεπίδραση µε άλλα πρωτεϊνικά µόρια. Εντοπίσαµε χαρακτηριστικά µοριακής αναγνώρισης (MoRFs) τόσο σε διαµεµβρανικές όσο και σε περιφερειακές µεµβρανικές πρωτεΐνες [2]. Επιπρόσθετα, προσδιορίσθηκε η ϑέση των MoRFs στις διαµεµβρανικές πρωτεΐνες, σε σχέση µε την τοπολογία της πρωτεΐνης. Ολη η πληροφορία αποθηκεύτηκε σε µία δηµόσια διαθέσιµη ϐάση δεδοµένων ϐασισµένη στο σύστηµα διαχείρισης ϐάσεων δεδοµένων mysql, µε ένα ϕιλικό προς το χρήστη περιβάλλον. Ακόµη, ένα Jmol applet (µικροεφαρµογή) έχει ενσω- µατωθεί µε σκοπό την οπτικοποίηση των δοµών. Η mpmorfsdb [3] στοχεύει στην παροχή πληροφοριών για αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών σε µεµβρανικές πρωτεΐνες, στις οποίες εµπλέκονται εγγενώς µη δοµηµένες περιοχές. Οι πρωτεΐνες αυτές παίζουν σηµαντικό ϱόλο σε κρίσιµες ϐιολογικές λειτουργίες ενώ περίπου το 50%, είναι πιθανοί κόµβοι σε δίκτυα αλληλεπιδράσεων πρωτεϊνών και σχετίζονται µε ασθένειες. Η ϐάση ϑα ανανεώνεται ανά τακτά χρονικά διαστήµατα µέσω µιας αυτοµατοποιηµένης διαδικασίας. Σύνδεσµος : http://bioinformatics.biol.uoa.gr/mpmorfsdb/ i

ii

Abstract Molecular Recognition Features (MoRFs) [1] are short (10-70 residues), intrinsically disordered regions in proteins that undergo a disorder-toorder transition upon binding to their partners. MoRFs are implicated in protein-protein interactions, which serve as the initial step in molecular recognition. The aim of this work was to collect, organize and store all membrane proteins that contain MoRFs. We focused in membrane proteins, as they constitute one third of fully sequenced proteomes and are responsible for a wide variety of cellular functions. Data were initially collected from Protein Data Bank (PDB) and Uniprot and were managed with Perl scripts. MoRFs were classified according to their secondary structure, after interacting with their partners. We identified MoRFs both in transmembrane and peripheral proteins [2]. The position of transmembrane protein MoRFs was determined relative to a protein s topology. All information was stored in a publicly available mysql database with a user-friendly web interface. A Jmol applet is integrated for visualization of the structures. The utility of the database [3] is the provision of information related to disordered based proteinprotein interactions in membrane proteins. Such proteins play key roles in crucial biological functions and ca. 50% of them are putative hubs in protein interaction networks. Consequently, these proteins may be correlated with various human diseases. The database will be updated on a regular basis by an automated procedure. Link to the database: http://bioinformatics.biol.uoa.gr/mpmorfsdb/ iii

iv

Ευχαριστίες Η παρούσα ιπλωµατική Εργασία εκπονήθηκε στον Τοµέα Βιολογίας Κυττάρου και Βιοφυσικής στα πλαίσια του µεταπτυχιακού διπλώµατος ειδίκευσης Βιοπληροφορική, του τµήµατος Βιολογίας του Εθνικού και Καποδιστριακού Πανεπιστηµίου Αθηνών, υπό την επίβλεψη του Καθηγητή κ. Σταύρου Χαµόδρακα. Σε αυτό το σηµείο αισθάνοµαι την ανάγκη και την ηθική υποχρέωση να ευχαριστήσω ορισµένους ανθρώπους, των οποίων η συµβολή, η ϐοήθεια και η καθοδήγηση ήταν πολύτιµη κατά τη διάρκεια συγγραφής και εκπόνησης της παρούσας ιπλωµατικής Εργασίας. Καταρχήν, οφείλω ένα µεγάλο ευχαριστώ στον Καθηγητή κ. Σταύρο Χα- µόδρακα, ο οποίος επέβλεψε την παρούσα ιπλωµατική Εργασία, για την εµπιστοσύνη του να µου αναθέσει το ϑέµα αυτό. Θα ήθελα να τον ευχαριστήσω γιατί µέσα από τη διδασκαλία του και την προσωπική επαφή µαζί του µε δίδαξε τον τρόπο µε τον οποίο πρέπει να γίνεται η έρευνα και µου έδωσε σηµαντικά εφόδια για να αντιλαµβάνοµαι και να επεξεργάζοµαι τα διάφορα ερωτήµατα που εγείρονται κατά την διάρκεια µιας επιστηµονικής µελέτης. Σε κάθε στάδιο της εργασίας αυτής, ήταν διαρκώς δίπλα µου µε πολύτιµες συµβουλές, αφιερώνοντάς µου πολύτιµο προσωπικό του χρόνο. Τέλος, τον ευχαριστώ για την τιµή να µε συµπεριλάβει στην ερευνητική οµάδα του Εργαστηρίου του, δίνοντάς µου την ευκαιρία να γνωρίσω και να συνεργαστώ µε αξιόλογους ανθρώπους. Θα ήθελα να ευχαριστήσω ακόµη τα υπόλοιπα µέλη της τριµελούς ε- πιτροπής, τον Επίκουρο Καθηγητή Παντελή Γ. Μπάγκο και την Λέκτορα Βασιλική Α. Οικονοµίδου για την πολύτιµη ϐοήθεια τους, τις χρήσιµες συµβουλές τους και το χρόνο που µου αφιέρωσαν. v

Ευχαριστώ ακόµη τους ρ. Νικόλαο Παπανδρέου, ρ. Ζωή Λίτου και Υπ. ιδάκτορα Μαργαρίτα Θεωδοροπούλου καθώς και όλα τα µέλη του εργαστηρίου που ήταν πάντα πρόθυµοι να µε ϐοηθήσουν σε οτιδήποτε χρειάστηκα. Ιδιαίτερες ευχαριστίες ϑα ήθελα να δώσω στον Υπ. ιδάκτορα Γεώργιο Τσαούση για την πολύτιµη ϐοήθεια του, σε όλη τη διάρκεια της διπλωµατικής µου εργασίας. Ηταν σαν να έχω έναν δεύτερο επιβλέποντα που µε στήριξε και µε ϐοήθησε να κατανοήσω πολλές ϐιολογικές έννοιες και να εµβαθύνω πάνω σε ϑέµατα ϐιοπληροφορικής. Ευχαριστώ ακόµη τους ϕίλους και συµφοιτητές µου για τα δύο αυτά χρόνια τα οποία περάσαµε παρέα. Τέλος ϑα ήθελα να ευχαριστήσω πάνω από όλα την οικογένειά µου, για την ηθική και οικονοµική στήριξη σε όλη τη διάρκεια της ϕοίτησής µου και της Ϲωής µου. vi

ηµοσιεύσεις και Συνέδρια ηµοσιεύσεις σε Επιστηµονικά Περιοδικά µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, and Stavros J. Hamodrakas mpmorfsdb: A database of Molecular Recognition Features in Membrane Proteins Bioinformatics first published online July 26, 2013 doi:10.1093/bioinformatics/btt427 [3] Ανακοινώσεις σε ιεθνή Συνέδρια µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas mpmorfsdb: A database of molecular recognition features (MoRFs) in membrane proteins. Joint 21st Annual International Conference on Intelligent Systems for Molecular Biology and 12th Annual European Conference on Computational Biology (ISMB/ECCB) 2013, 21-23 Jul 2013. vii

viii

Περιεχόµενα Περίληψη Abstract Ευχαριστίες ηµοσιεύσεις και Συνέδρια Κατάλογος Σχηµάτων Κατάλογος Πινάκων ι iii v vii xi xv 1 Εισαγωγή 1 1.1 Εγγενώς µη οµηµένες Πρωτεΐνες............... 1 1.1.1 Χαρακτηριστικά..................... 2 1.1.2 Βάσεις εδοµένων.................... 4 1.1.3 Αλγόριθµοι Πρόγνωσης................. 7 1.2 Χαρακτηριστικά Μοριακής Αναγνώρισης........... 8 1.2.1 Χαρακτηριστικά..................... 9 1.2.2 Βάσεις εδοµένων.................... 12 1.2.3 Αλγόριθµοι Πρόγνωσης................. 12 1.3 Μεµβρανικές Πρωτεΐνες.................... 14 1.3.1 ιαµεµβρανικές Πρωτεΐνες............... 14 1.3.2 Περιφερειακές Μεµβρανικές Πρωτεΐνες......... 16 1.3.3 Αγκυροβοληµένες στη Μεµβράνη Πρωτεΐνες...... 16 2 Σκοπός 19 3 Μεθοδολογία 21 3.1 Συγκέντρωση και επεξεργασία δεδοµένων........... 21 3.1.1 Βάσεις εδοµένων.................... 21 ix

3.1.2 Συγκέντρωση δοµών από PDB............. 22 3.1.3 Επεξεργασία PDB αρχείων............... 22 3.1.4 Επεξεργασία Uniprot αρχείων............. 23 3.1.5 Εύρεση τύπου µεµβρανικής πρωτεΐνης......... 25 3.1.6 Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης............................ 26 3.1.7 Εύρεση πρωτεΐνης µε την οποία αλληλεπιδρά το χα- ϱακτηριστικό µοριακής αναγνώρισης.......... 27 3.2 Κατασκευή ϐάσης δεδοµένων................. 28 4 Αποτελέσµατα 33 4.1 mpmorfsdb.......................... 33 4.1.1 Αρχική σελίδα mpmorfsdb.............. 33 4.1.2 Browse mpmorfsdb.................. 33 4.1.3 Search mpmorfsdb.................. 34 4.1.4 Entry mpmorfsdb................... 37 4.1.5 Blast Search mpmorfsdb............... 39 4.1.6 Download mpmorfsdb................ 42 4.2 Στατιστικά............................ 45 5 Συµπεράσµατα - Μελλοντική Εργασία 49 6 Βιβλιογραφία 51 Α ηµοσιεύσεις και Συνέδρια 63 x

Κατάλογος Σχηµάτων 1.1 Η δοµή της a-synuclein. PDB ID: 1XQ8. Με κόκκινο χρώµα έχει σηµανθεί η εγγενώς µη δοµηµένη περιοχή της πρωτεΐνης (αµινοξικά κατάλοιπα 96-160)................. 2 1.2 Ονόµατα τα οποία έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες στη διάρκεια των χρόνων............... 3 1.3 PDB και εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές.... 6 1.4 Ολικό ϕορτίο (πάνω), ποσοστό προλίνης (µέση) και ποσοστό αρωµατικών (κάτω) σε χαρακτηριστικά µοριακής αναγνώρισης (κόκκινο χρώµα) και PDB_25 (µπλε χρώµα) [1]...... 9 1.5 Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής. Πάνω αριστε- ϱά α-morf (PDB ID: 1BXL), πάνω δεξιά β-morf (PDB ID: 2ZPY), κάτω αριστερά irregular-morf (PDB ID: 1A6A), κάτω δεξιά complex-morf (PDB ID: 1YBO)............. 10 1.6 ιαχωρισµός πρωτεϊνών που περιέχουν χαρακτηριστικά µο- ϱιακής αναγνώρισης από σφαιρικές πρωτεΐνες. Στον οριζόντιο άξονα είναι το µέγεθος της επιφάνειας αλληλεπίδρασης (Interface area), ενώ στον κάθετο άξονα είναι το µέγεθος της επιφάνειας (Surface area).................... 11 1.7 Κατηγορίες µεµβρανικών πρωτεΐνών. ιαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα. Περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή ο- µοιοπολικούς δεσµούς µε τα λιπίδια.............. 15 xi

1.8 Τέσσερις διαφορετικοί τρόποι µε τους οποίους πρωτεϊνικά µόρια µπορούν να συνδεθούν σε µια µεµβράνη. Με πράσινο είναι οι περιοχές που διαπερνούν ή ϐυθίζονται στη µεµβράνη και κόκκινο οι περιοχές έξω από τη µεµβράνη. Οι α-έλικες απεικονίζονται ως κύλινδροι και οι ϐ-κλώνοι ως ϐέλη. Από αριστερά προς τα δεξιά είναι : (a) µια πρωτεΐνη της οποίας η πολυπεπτιδική αλυσίδα διαπερνά τη µεµβράνη µια ϕορά ως α-έλικα, (b) µια πρωτεΐνη η οποία σχηµατίζει αρκετές διαµεµ- ϐρανικές α-έλικες που συνδέονται µε υδρόφιλους ϐρόχους, (c) µια πρωτεΐνη µε αρκετούς ϐ-κλώνους που σχηµατίζουν ένα κανάλι διαµέσου της µεµβράνης και (d) µια πρωτεΐνη η οποία είναι αγκυροβοληµένη στη µεµβράνη µέσω µιας α- έλικας παράλληλη προς το επίπεδο της µεµβράνης...... 17 3.1 Μέρος του Advanced Search της PDB. Στο πάνω τµήµα το Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων. Στο κάτω τµήµα το Number of Entities πρέπει να αποτελείται α- πό τουλάχιστον 2 οντότητες. Με αυτές τις επιλογές γίνεται κατέβασµα των συµπλόκων που πιθανόν να περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από την PDB........ 22 3.2 Το πεδίο SEQRES ενός PDB αρχείου............. 23 3.3 Το πεδίο DBREF ενός PDB αρχείου.............. 24 3.4 Τµήµα Uniprot (flat file) αρχείου. Φαίνονται τα πεδία ID και Accession της πρωτεΐνης.................... 24 3.5 Τµήµα αρχείου το οποίο είναι διαθέσιµο από το EBI και κάνει αντιστοίχιση PDB κωδικών σε Uniprot Accessions...... 25 3.6 Αρχείο που δηµιουργείται από τον κώδικά µας. Η πληρο- ϕορία η οποία περιέχει είναι (από αριστερά προς τα δεξιά) ο κωδικός PDB, η αλυσίδα PDB, που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στη δοµή, το Uniprot Accession και που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην πρωτεΐνη.... 25 3.7 Το πεδίο CC (SUBCELLULAR LOCATION) µιας Uniprot εγγραφής.............................. 26 3.8 Πιθανό πρωτεϊνικό σύµπλοκο το οποίο αποτελείται από τρεις αλυσίδες. Την A, τη B και τη C. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου.......... 28 xii

3.9 Σχεσιακό σχήµα της ϐάσης δεδοµένων mpmorfsdb.... 29 4.1 Αρχική σελίδα της ϐάσης δεδοµένων mpmorfsdb...... 34 4.2 Το εργαλείο Browse της ϐάσης δεδοµένων mpmorfsdb... 35 4.3 Φίλτρα που εφαρµόζονται στο Browse της mpmorfsdb... 35 4.4 Φίλτρο ανάλογα µε τον τύπο των µεµβρανικών πρωτεϊνών στο Browse της mpmorfsdb................... 35 4.5 Φίλτρο ανάλογα µε τον τύπο των χαρακτηριστικών µοριακής αναγνώρισης πρωτεϊνών στο Browse της mpmorfsdb.... 36 4.6 Ολες οι πρωτεΐνες που περιέχουν complex-morfs στην mp- MoRFsDB............................ 36 4.7 Παράδειγµα χρήσης του Search στην mpmorfsdb. Η ανα- Ϲήτηση µπορεί να γίνει αρκετά σύνθετη όπως ϕαίνεται..... 36 4.8 Παράδειγµα εγγραφής στη ϐάση δεδοµένων mpmorfsdb. Uniprot Accession: P01730................... 39 4.9 Η σελίδα του Blast Search της mpmorfsdb όπου ο χρήστης µπορεί να εισάξει µια αλληλουχία σε FASTA format και να α- ναζητήσει οµόλογες έναντι της mpmorfsdb. Επιπλέον δίνεται η δυνατότητα να επιλέξει συγκεκριµένο κατώφλι για το e-value των αποτελεσµάτων που ϑα εµφανιστούν........ 40 4.10 Ο πίνακας µε τα αποτελέσµατα των στοιχίσεων όπου δίνονται πληροφορίες για τις πρωτεΐνες καθώς και στατιστικά στοιχεία για την στοίχιση......................... 41 4.11 Αναλυτικές πληροφορίες µιας στοίχισης µέσω του εργαλείου BLAST............................. 42 4.12 Παράδειγµα Text αρχείου της ϐάσης δεδοµένων mpmorfsdb................................. 43 4.13 Παράδειγµα XML αρχείου της ϐάσης δεδοµένων mpmorfsdb................................. 44 4.14 Με κόκκινο χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (µέχρι 30 αµινοξικά κατάλοιπα). Με µπλε χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µεγάλου µήκους (πάνω από 30 αµινοξικά κατάλοιπα)...... 46 xiii

xiv

Κατάλογος Πινάκων 1.1 Αλγόριθµοι Πρόγνωσης Εγγενώς Μη οµηµένων Πρωτεϊνών. 8 1.2 Οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot για χαρακτηριστικά µοριακής αναγνώρισης [1].. 12 4.1 ιαχωρισµός µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης............................... 45 4.2 ιαχωρισµός χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής............... 46 4.3 Ποσοστά υποδοχέων στις µεµβρανικές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης......... 46 4.4 ιαχωρισµός µεµβρανικών πρωτεϊνών (οργανισµός Homo sapiens) που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης................ 47 xv

xvi

Κεφάλαιο 1 Εισαγωγή Την τελευταία δεκαετία νέοι τοµείς σχετικοί µε τον τοµέα της Βιολογίας έχουν αρχίσει να εµφανίζονται στο προσκήνιο. Τα αποτελέσµατα που προκύπτουν καθηµερινά από πειράµατα αλληλούχισης επόµενης γενιάς αυξάνουν εκθετικά τον όγκο της πληροφορίας που γίνεται δηµόσια δια- ϑέσιµη. Αυτός ο όγκος της πληροφορίας δεν µπορεί να διαχειριστεί από επιστήµονες ενός µόνο κλάδου. Ετσι γίνεται αναγκαία η συνύπαρξη και συνεργασία επιστηµόνων από διαφορετικούς τοµείς, όπως Βιολογίας, Μα- ϑηµατικών, Στατιστικής, Πληροφορικής και Μηχανικής. Προς αυτή την κατεύθυνση και σε συνδυασµό µε τη ϱαγδαία ανάπτυξη της τεχνολογίας, ο κλάδος της Βιοπληροφορικής εξελίσσεται ταχύτατα. Οι τοµείς στους οποίους ϐρίσκει εφαρµογή η Βιοπληροφορική είναι πολλοί, ενώ η έννοια του όρου περιλαµβάνει ποικίλες εφαρµογές. Ιδαίτερα χρήσιµη έχει αποδειχτεί στον τοµέα της µελέτης και ανάλυσης πρωτεϊνών. 1.1 Εγγενώς µη οµηµένες Πρωτεΐνες Τα τελευταία χρόνια υπήρξε ένα αυξανόµενο ενδιαφέρον για την µελέτη των εγγενώς µη δοµηµένων πρωτεϊνών. Οι εγγενώς µη δοµηµένες ή µη κανονικές πρωτεΐνες (Intrinsically Disordered Proteins - IDPs) [4] είναι πρωτεΐνες οι οποίες στο ϕυσικό περιβάλλον δε διαθέτουν συγκεκριµένη σταθερή στερεοδοµή, αλλά είναι λειτουργικές. Μία πρωτεΐνη µπορεί να είναι πλήρως ή µερικώς µη δοµηµένη, περιέχοντας µεγάλες ή µικρές εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές (Intrinsically Disordered Regions (IDRs) ή Intrinsically Disordered Protein Regions (IDPRs)) [4] [5]. Στους 1

ευκαρυωτικούς οργανισµούς το 20-30% των πρωτεϊνών περιέχουν εγγενώς µη δοµηµένα τµήµατα, ενώ περισσότερες από το 50% των πρωτεϊνών πε- ϱιέχουν µεγάλα εγγενώς µη δοµηµένα τµήµατα [6]. Μικρότερα ποσοστά έχουν σηµειωθεί στα Ευβακτήρια και τα Αρχαία [7]. Ενα χαρακτηριστικό παράδειγµα εγγενώς µη δοµηµένης πρωτεΐνης είναι η α-συνουκλεΐνη η οποία ϕαίνεται στο σχήµα 1.1. Η α-συνουκλεΐνη είναι µια πρωτεΐνη της οποίας η λειτουργία δεν είναι σίγουρα γνωστή. Πιθανόν να συµµετέχει στην ϱύθµιση για απελευθέωση και µεταφορά ντοπαµίνης. Η συγκεκριµένη πρωτεΐνη αποτελείται από 160 αµινοξικά κατάλοιπα και περιέχει µια µεγάλη περιοχή η οποία είναι µη δοµηµένη [8] και πιο συγκεκριµένα στα κατάλοιπα 96-160. Σχήµα 1.1: Η δοµή της a-synuclein. PDB ID: 1XQ8. Με κόκκινο χρώµα έχει σηµανθεί η εγγενώς µη δοµηµένη περιοχή της πρωτεΐνης (αµινοξικά κατάλοιπα 96-160). 1.1.1 Χαρακτηριστικά Στη διάρκεια των χρόνων ποικιλία ονοµάτων έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες. Κάποια είναι πιο λογικά, ενώ κάποια πιο ευφάνταστα [4]. Στο σχήµα 1.2 ϕαίνονται κάποια από αυτά, όπως proteinclouds, natively-unfolded, vulnerable, mobile, malleable, natively-disordered, 2

dancing-proteins, flexible, intrinsically-unstructured, chameleon, nativelydenatured, intrinsically-unfolded, floppy, rheomorphic, partially-folded, pliable. Ο όρος όµως ο οποίος έχει επικρατήσει και χρησιµοποιείται στη διεθνή ϐιβλιογραφία είναι Intrinsically Disordered Proteins οι οποίες εν συντοµία λέγονται IDPs. Σχήµα 1.2: Ονόµατα τα οποία έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες στη διάρκεια των χρόνων. Οι εγγενώς µη δοµηµένες πρωτεΐνες διαφέρουν στην αµινοξική σύσταση από τις σφαιρικές πρωτεΐνες. Πιο συγκεκριµένα υπάρχει έλλειψη στα αµινοξικά κατάλοιπα που ϐοηθούν την αναδίπλωση των πρωτεϊνών, όπως Ile, Leu, Val, Trp, Tyr, Phe, Cys, και Asn, ενώ είναι εµπλουτισµένες στα αµινοξικά κατάλοιπα που δε ϐοηθούν στην αναδίπλωση όπως Ala, Arg, Gly, Gln, Ser, Glu, Lys, και Pro [9] [10] [11] [12] [13]. Πολλές εγγενώς µη δοµηµένες πρωτεΐνες, εµπλέκονται σε αλληλεπιδράσεις µε άλλα αλληλεπιδρώντα µόρια. Πολύ συχνά λειτουργούν σαν κύριοι κόµβοι (hubs) σε δίκτυα αλληλεπιδράσεων πρωτεϊνών - πρωτεϊνών [14] [15] [16] [17] [18] [19] [20] [21]. Η ανάλυση δικτύων αλληλεπιδράσεων εγγενώς µη δοµηµένων πρωτεϊνών έχει αποκαλύψει πολλούς πιθανούς ϱόλους. Μια δοµηµένη πρωτεϊνική πε- ϱιοχή (που λειτουργεί σαν κόµβος) µπορεί να αλληλεπιδρά µε περισσότερα από ένα µόρια. Επισπρόσθετα πολλές εγγενώς µη δοµηµένες πρωτεΐνες µπορούν να αλληλεπιδράσουν µε τις ίδιες σφαιρικές πρωτεΐνες/κόµβους [14] [15]. 3

Λόγω των σηµαντικών ϱόλων που διαδραµατίζουν οι εγγενώς µη δοµη- µένες πρωτεΐνες και της σηµαντικής τους ϑέσης σε δίκτυα αλληλεπιδράσεων πρωτεϊνών - πρωτεϊνών, πολλές εγγενώς µη δοµηµένες πρωτεΐνες εµπλέκονται σε πολλές ανθρώπινες ασθένειες [22] [23]. Παρουσία εγγενώς µη δοµηµένων πρωτεϊνών, εµφανίζεται σε πρωτεΐνες που έχουν συσχετιστεί µε καρκίνο, καρδιαγγειακά νοσήµατα, νευροεκφυλιστικές ασθένειες, αµυλοειδώσεις καθώς και σε πρωτεΐνες από παθογόνα µικρόβια και ιούς [24] [22] [25] [26] [27] [28] [29] [30] [31]. Οι εγγενώς µη δοµηµένες πρωτεΐνες χωρίζονται σε έξι µεγάλες κατηγο- ϱίες (assemblers, chaperones, display sites, effectors, entropic chains, scavengers) [32] [33] και 28 ξεχωριστές λειτουργίες τους έχουν ανατεθεί, περιλαµβάνοντας τη µοριακή αναγνώριση µέσω σύνδεσης µε άλλες πρωτεΐνες ή νουκλεϊκά οξέα [34] [35]. Πολλές εγγενώς µη δοµηµένες πρωτεΐνες εµπλέκονται σε λειτουργίες ϱύθµισης, αναγνώρισης, σηµατοδότησης και ελέγχου µονοπατιών, όπου αλληλεπιδράσεις υψηλής ειδικότητας και χαµηλής συγγένειας είναι απαραίτητες για αλληλεπιδράσεις µε πολλά µακροµόρια. 1.1.2 Βάσεις εδοµένων DISPROT Η πιο γνωστή ϐάση που περιέχει εγγενώς µη δοµηµένες πρωτεΐνες είναι η DISPROT [36]. Η συγκεκριµένη ϐάση δεδοµένων αναπτύχθηκε στο Center of Computational Biology and Bioinformatics του Indiana University και στο Center of Information Science and Technology του Temple University από τις οµάδες των Dunker AK και Uversky VN. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στην ιστοσελίδα http://www.disprot.org. Η DISPROT αναπτύχθηκε µε σκοπό τη συλλογή και οργάνωση γνώσης σχετικά µε τον πειραµατικό χαρακτηρισµό και τη λειτουργική συσχέτιση των εγγενώς µη δοµηµένων πρωτεϊνών. Η συλλογή των δεδοµένων έχει γίνει ϐιβλιογραφικά. IDEAL 4

Μια ακόµη σηµαντική ϐάση είναι η IDEAL (Intrinsically Disordered proteins with Extensive Annotations and Literature). Η συγκεκριµένη ϐάση έχει αναπτυχθεί στο πανεπιστήµιο της Nagoya στην Ιαπωνία. Η ιστοσελίδα της ϐάσης είναι http://www.ideal.force.cs.is.nagoya-u.ac.jp/ideal/. Η IDEAL παρέχει µια συλλογή από πειραµατικά ελεγµένων εγγενώς µη δο- µηµένων πρωτεϊνών και εγγενώς µη δοµηµένων πρωτεϊνικών τµηµάτων. Η IDEAL περιέχει σχολιασµό πρωτεϊνών µε µη αυτοµατοποιηµένο τρόπο, ενώ παρέχεται πληροφορία σχετικά µε τις περιοχές, τις δοµές και λειτουργικές ϑέσεις των εγγενώς µη δοµηµένων πρωτεϊνών, όπως περιοχές δέσµευσης πρωτεϊνών και ϑέσεις µεταµεταφραστικών τροποποιήσεων µαζί µε αναφο- ϱές και αναθέσεις αυτοτελώς δοµικών µονάδων. ComSin Μια ενδιαφέρουσα προσπάθεια είναι η ComSin (Database of protein structures in bound (Complex) and unbound (Single) states in relation to their intrinsic disorder) [37]. Η συγκεκριµένη ϐάση αναπτύχθηκε στο Institute of Protein Research, της ϱωσικής ακαδηµίας επιστηµών στη Μόσχα από την οµάδα της Galzitskaya OV. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στην ιστοσελίδα http://bioinfo.protres.ru/comsin/. Η συγκεκρι- µένη ϐάση περιλαµβάνει δοµές από την PDB τόσο σε κατάσταση δέσµευσης, όσο και σε κατάσταση αποδέσµευσης. Με αυτό τον τρόπο µπορεί να γίνει µελέτη πρωτεϊνών πριν και µετά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. MobiDB Η MobiDB (a database of protein disorder and mobility annotations) [38] είναι µια ϐάση δεδοµένων που αναπτύχθηκε στο πανεπιστήµιο της Padova στην Ιταλία. Η MobiDB συγκεντρώνει πληροφορίες σχετικά µε εγγενώς µη δοµηµένες πρωτεΐνες από ϐάσεις δεδοµένων και από αλγόριθ- µους πρόγνωσης. Στη συνέχεια τις συνδυάζει, µε απώτερο σκοπό την ταξινόµηση των εγγενώς µη δοµηµένων περιοχών σε ευέλικτες και συντηρηµένες. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στη διεύθυνση http://mobidb.bio.unipd.it. D 2 P 2 5

Η D 2 P 2 (Database of Disordered Protein Predictions) [39] είναι µια ϐάση δεδοµένων η οποία συγκεντρώνει αποτελέσµατα από αλγόριθµους πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες και τα συγκρίνει µεταξύ τους. Η συγκεκριµένη ϐάση αναπτύχθηκε από την οµάδα των Dunker AK και Uversky VN. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στη διεύθυνση http://d2p2.pro PDB και εγγενώς µη δοµηµένες πρωτεΐνες Το ενδιαφέρον για τις εγγενώς µη δοµηµένες πρωτεΐνες έχει αυξηθεί τα τελευταία χρόνια κάτι το οποίο ϕαίνεται και από το γεγονός ότι η PDB [40] έχει ενσωµατώσει ένα πεδίο στην ιστοσελίδα της, που αναφέρει αν οι δοµές περιλαµβάνουν εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές όπως ϕαίνεται και στο σχήµα 1.3. Το συγκεκριµένο πεδίο κάνει χρήση του αλγόριθµου πρόγνωσης JRonn [41]. Σχήµα 1.3: PDB και εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές 6

1.1.3 Αλγόριθµοι Πρόγνωσης Στη διάρκεια των χρόνων πολλοί αλγόριθµοι πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες έχουν αναπτυχθεί. Οι πρώτοι αλγόριθµοι πρόγνωσης που αναπτύχθηκαν ϐασίζονταν στις ϕυσικοχηµικές ιδιότητες των αµινοξέων. Με την πάροδο των χρόνων οι αλγόριθµοι πρόγνωσης χρησιµοποιούν πιο σύγχρονες τεχνικές µηχανικής µάθησης όπως τεχνητά νευρωνικά δίκτυα, support vector machines ή συνδυασµό αυτών. Τα τελευταία χρόνια έχουν αναπτυχθεί και χρησιµοποιούνται κατά κύριο λόγο συναινετικοί αλγόριθµοι οι οποίοι επιτυγχάνουν υψηλότερα ποσοστά επιτυχίας. Μία χρονολογική ταξινόµηση των αλγορίθµων πρόγνωσης εγγενώς µη δο- µηµένων πρωτεϊνών, µε µια µικρή περιγραφή των χαρακτηριστικών τους ακολουθεί στον πίνακα 1.1. Ονοµα Χαρακτηριστικά Ετος Αναφορά PONDR Πολλοί Predictors 1997 [42] GlobPlot Σχετική τάση καταλοίπου να είναι 2003 [43] σε κανονική ή µη κανονική κατάσταση. DisEMBL Προβλέπει 3 είδη µη κανονικής δο- 2003 [44] µής. DISOPRED Νευρωνικά δίκτυα (χρήση ολόκλη- 2003 [45] ϱης της ακολουθίας). DISOPRED2 SVMs (χρήση ολόκληρης της ακολουθίας). 2004 [46] DRIP-RED Kohonen s SOM 2004 [47] IUPred ιαµοριακές αλληλεπιδράσεις (για 2005 [48] σχηµατισµό δοµής) RONN Λειτουργικές στοιχίσεις 2005 [41] DISpro 1D-RNN 2005 [49] FoldIndex Λόγος ϕορτίου/υδροφοβικότητας 2005 [50] FoldUnfold Χρήση εντροπίας 2006 [51] Spritz Συνδυασµός δύο binary classifiers 2006 [52] DisPSSMP Βασίζεται σε Radial Basis Function 2006 [53] Networks µε είσοδο PSSM ipda Πιο συνοπτικό PSSM 2007 [54] PrDOS Συνδυασµός δύο predictors. Ο 2007 [55] ένας στοίχιση οµόλογων NORSet Feed Forward Neural Network 2007 [56] 7

POODLE-S 7 SVMs 2007 [57] POODLE-L SVM σε δύο επίπεδα 2007 [58] Bayes Πιθανότητα ακολουθίας 2008 [59] IUP Recursive Maximum Constant 2008 [60] Tree OnD-CRFs Conditional Random Fields 2008 [61] DISOclust Χρήση συντηρηµένων περιοχών 2008 [62] metaprdos Χρήση 7 διαφορετικών Predictors: 2008 [55] PrDOS, DISOPRED2, Dis- EMBL, DISPROT, DISpro, IUPred, POODLE-S MD Metapredictor: NORSnet, Ucon, 2009 [63] PROFBval, DISOPRED2, IUPred, FoldIndex CDF-ALL Metapredictor: VLXT, VSL2, VL3, 2008 [64] TopIDP, IUPred, FoldIndex PRONDR-FIT Metapredictor. Consensus ANN 2010 [65] Πίνακας 1.1: Αλγόριθµοι Πρόγνωσης Εγγενώς Μη οµηµένων Πρωτεϊνών 1.2 Χαρακτηριστικά Μοριακής Αναγνώρισης Τα Χαρακτηριστικά Μοριακής Αναγνώρισης (Molecular Recognition Features, MoRFs ή Molecular Recognition Elements, MoREs) [1] είναι µικρά (10-70 κατάλοιπα), εγγενώς µη δοµηµένα τµήµατα σε πρωτεΐνες που α- ποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες [66]. Τα χαρακτηριστικά µοριακής αναγνώρισης εµπλέκονται σε αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών και διαδραµατίζουν σηµαντικό ϱόλο στη διαδικασία της µοριακής αναγνώρισης. 8

1.2.1 Χαρακτηριστικά Αµινοξική Σύσταση Τα χαρακτηριστικά µοριακής αναγνώρισης είναι εγγενώς µη δοµηµένες περιοχές σε µια πρωτεΐνη πριν από την αλληλεπίδρασή τους µε κάποια πρωτεΐνη, ενώ αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε αυτή. Η αµινοξική τους σύσταση [1] είναι παρόµοια µε αυτή των εγγενώς µη δοµηµένων πρωτεϊνών. Υπάρχει έλλειψη στα αµινοξικά κατάλοιπα που ϐοηθούν την αναδίπλωση των πρωτεϊνών, δηλαδή TRP, ILE, TYR, VAL, LEU ενώ είναι εµπλουτισµένες στα αµινοξικά κατάλοιπα που δε ϐοηθούν στην αναδίπλωση των πρωτεϊνών όπως ARG, GLY, SER, PRO. [11] [9] [10]. Αντίθετα το ολικό ϕορτίο, τα ποσοστά προλίνης και τα ποσοστά αρωµατικών καταλοίπων εµφανίζουν παρόµοια χαρακτηριστικά µε τις σφαιρικές πρωτεΐνες όπως ϕαίνεται και στο σχήµα 1.4 σύµφωνα µε την εργασία των Mohan και συνεργατών [1]. 21.9 26.4 0 5 10 15 20 25 30 4.0% 5.9% 0% 2.5% 5% 7.5% 10% 8.4% 9.4% 0% 2.5% 5% 7.5% 10% Σχήµα 1.4: Ολικό ϕορτίο (πάνω), ποσοστό προλίνης (µέση) και ποσοστό αρωµατικών (κάτω) σε χαρακτηριστικά µοριακής αναγνώρισης (κόκκινο χρώµα) και PDB_25 (µπλε χρώµα) [1]. Κατηγορίες Τα χαρακτηριστικά µοριακής αναγνώρισης µπορούν να διαχωριστούν σε τέσσερις µεγάλες κατηγορίες (σχήµα 1.5) [1] µε ϐάση τη δευτεροταγή δο- µή που αποκτούν κατά την αλληλεπίδραση µε άλλες πρωτεΐνες. Ετσι στην 9

περίπτωση που σχηµατίζουν α-έλικες ταξινοµούνται ως α-morfs, στην πεϱίπτωση που σχηµατίζουν ϐ-ϕύλλα ταξινοµούνται ως β -MoRFs, στην πεϱίπτωση που δε σχηµατίζουν κάποια συγκεκριµένη δοµή ταξινοµούνται ως irregular-morfs, ενώ αν γίνεται συνδυασµός των παραπάνω ταξινοµούνται ως complex-morfs. Σηµαντικό είναι να σηµειωθεί ότι για να ϑεωρηθεί ένα χαρακτηριστικό µοριακής αναγνώρισης complex δε ϑα πρέπει τα ποσοστά των στοιχείων δευτεροταγούς δοµής που το σχηµατίζουν να διαφέρουν περισσότερο από 1% µεταξύ τους. ηλαδή η διαφορά για παράδειγµα στοιχείων που σχηµατίζουν ϐ-ϕύλλα από στοιχεία που σχηµατίζουν µη κανονική δοµή (irregular) να είναι µικρότερη του 1%, µε χαρακτηριστικό παράδειγµα το complex-morf του σχήµατος 1.5 όπου τα ποσοστά µεταξύ ϐ και irregular είναι περίπου ίσα. Σχήµα 1.5: Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής. Πάνω αριστερά α-morf (PDB ID: 1BXL), πάνω δεξιά β -MoRF (PDB ID: 2ZPY), κάτω αριστερά irregularmorf (PDB ID: 1A6A), κάτω δεξιά complex-morf (PDB ID: 1YBO). 10

ιαχωρισµός από σφαιρικές πρωτεΐνες Οι πρωτεΐνες οι οποίες περιλαµβάνουν εγγενώς µη δοµηµένα τµήµατα (όπως χαρακτηριστικά µοριακής αναγνώρισης για παράδειγµα) έχουν πιο εκτεταµένη δοµή σε σχέση µε τις σφαιρικές πρωτεΐνες. Ενα καλό κριτήριο διαχωρισµού (σχήµα 1.6) είναι µέσω της σύγκρισης του µεγέθους της επιφάνειας (Surface area) και του µεγέθους της επιφάνειας αλληλεπίδρασης(interface area). Οπως ϕαίνεται επιτυγχάνεται καλός διαχωρισµός µεταξύ πρωτεΐνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από σφαιρικές πρωτεϊνες. Σχήµα 1.6: ιαχωρισµός πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από σφαιρικές πρωτεΐνες. Στον οριζόντιο άξονα είναι το µέγεθος της επιφάνειας αλληλεπίδρασης (Interface area), ενώ στον κάθετο άξονα είναι το µέγεθος της επιφάνειας (Surface area). Λειτουργίες Οι λειτουργίες των χαρακτηριστικών µοριακής αναγνώρισης είναι πολλές και σηµαντικές [1]. Οι πιο σηµαντικές είναι η σηµατοδότηση, η σύνδεση και η µοριακή αναγνώριση. Στον πίνακα 1.2 απεικονίζονται οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot (keywords) για χαρακτηριστικά µοριακής αναγνώρισης. Αυτές είναι Signal, Glycoprotein, Transmembrane, Alternative splicing, Hydrolase, DNA binding, Transcription regulation, Serine protease inhibitor. Παρατηρείται ότι χα- ϱακτηριστικά µοριακής αναγνώρισης εντοπίζονται συχνά και στις διαµεµ- ϐρανικές πρωτεΐνες. Αυτός ήταν ένας σηµαντικός λόγος για την περαιτέρω µελέτη των χαρακτηριστικών µοριακής αναγνώρισης σε σχέση µε τις µεµ- ϐρανικές πρωτεΐνες [2]. 11

Λειτουργία Συχνότητα Signal 57 Glycoprotein 41 Transmembrane 37 Alternative splicing 35 Hydrolase 25 DNA binding 24 Transcription regulation 23 Serine protease inhibitor 21 Πίνακας 1.2: Οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot για χαρακτηριστικά µοριακής αναγνώρισης [1]. 1.2.2 Βάσεις εδοµένων Μέχρι την υλοποίηση της παρούσας εργασίας καµία ϐάση δεδοµένων δεν υπήρχε η οποία να περιλαµβάνει χαρακτηριστικά µοριακής αναγνώρισης. Η µόνη προσπάθεια που έγινε στο παρελθόν είναι η συγκέντρωση συνόλων είτε για ανάλυση [1], είτε για χρήση σε αλγόριθµους πρόγνωσης [67] [68]. Η πρώτη ολοκληρωµένη, δηµόσια διαθέσιµη ϐάση δεδοµένων είναι η mpmorfsdb [3]. 1.2.3 Αλγόριθµοι Πρόγνωσης εν υπάρχουν αρκετοί αλγόριθµοι πρόγνωσης για χαρακτηριστικά µο- ϱιακής αναγνώρισης. Και για τους υπάρχοντες τα ποσοστά επιτυχίας δεν είναι ιδιαίτερα ικανοποιητικά. Παρακάτω παρουσιάζονται όλοι οι σχετικοί αλγόριθµοι πρόγνωσης. a-morf-predi/a-morf-predii Η πρώτη προσπάθεια για τον εντοπισµό χαρακτηριστικών µοριακής α- ναγνώρισης είναι οι αλγόριθµοι a-morf-predi και a-morf-predii [67]. οι οποίοι ϐασίζονται σε τεχνητά νευρωνικά δίκτυα. Βασίζονται στην πα- ϱατήρηση ότι οι αλγόριθµοι πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες παρουσιάζαν χαµηλότερα ποσοστά επιτυχίας στα σηµεία τα οποία εντοπίζονταν χαρακτηριστικά µοριακής αναγνώρισης. Οι συγκεκριµένοι 12

αλγόριθµοι περιορίζονται στον εντοπισµό χαρακτηριστικών µοριακής αναγνώρισης που σχηµατίζουν α-έλικες κατά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. εν υπάρχει κάποια διαδικτυακή διεπαφή και στην πραγµατικότητα οι συγκεκριµένοι αλγόριθµοι δε χρησιµοποιούνται πλέον. ANCHOR Ενας αλγόριθµος που χρησιµοποιείται για να εντοπίσει περιοχές σύνδεσης σε εγγενώς µη δοµηµένες πρωτεΐνες είναι ο ANCHOR [69] [70]. Ο AN- CHOR δέχεται ως είσοδο αµινοξική ακολουθία και κάνει πρόγνωση περιοχών πρόσδεσης σε πρωτεΐνες που είναι εγγενώς µη δοµηµένες σε αποµόνωση, αλλά αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. Για το λόγο αυτό ο ANCHOR χρησιµοποιείται για πρόγνωση χαρακτηριστικών µοριακής αναγνώρισης. Ο σύνδεσµος του προγράµ- µατος είναι διαθέσιµος στη διεύθυνση http://anchor.enzim.hu. MoRFPred Ο γνωστότερος αλγόριθµος για πρόγνωση και χαρακτηρισµό χαρακτηριστικών µοριακής αναγνώρισης είναι ο MoRFPred [68]. Ο MoRFPred αναγνωρίζει όλους τους τύπους των χαρακτηριστικών µοριακής αναγνώρισης (α-morfs, β-morfs, irregular-morfs, complex-morfs). Ο αλγόριθµος ϐασίζεται σε Support Vector Machines (SVMs), ενώ ο σύνδεσµος του προγράµµατος είναι διαθέσιµος στη διεύθυνση http://biomine-ws.ece.ualberta.ca/morfpred/index.html. MFPSSMPred Ενας αλγόριθµος που παρουσιάστηκε πρόσφατα είναι ο MFPSSMPred [71]. Ο αλγόριθµος ϐασίζεται σε Position Specific Scoring Matrices (PSSM) και Support Vector Machines (SVMs). εν είναι διαθέσιµος διαδικτυακά αλλά σύµφωνα µε τους συγγραφείς αποδίδει καλύτερα αν συγκριθεί µε τους παραπάνω αλγόριθµους πρόγνωσης. 13

1.3 Μεµβρανικές Πρωτεΐνες Οι µεµβρανικές πρωτεΐνες επιτελούν µια σειρά από πολύ σηµαντικές λειτουργίες, απαραίτητες για την Ϲωή του κυττάρου. Αυτές ποικίλουν, από την αναγνώριση και σύνδεση κυττάρων µεταξύ τους ή και µε άλλους σχηµατισµούς, τη λειτουργία τους ως µοριακοί υποδοχείς, τη µεταφορά ουσιών διαµέσου των µεµβρανών, έως και την εξειδικευµένη ενζυµική δραστηριότητα. Η γνώση της δοµής µιας πρωτεΐνης σε ατοµική διακριτικότητα, είναι ένα αποφασιστικό ϐήµα στην προσπάθεια κατανόησης της ϐιολογικής της λειτουργίας. Υψηλής διακριτικότητας τρισδιάστατες δοµές είναι διαθέσιµες για µια µεγάλη ποικιλία σφαιρικών υδατοδιαλυτών πρωτεϊνών, σε αντίθεση µε τον αριθµό των µοναδικών τρισδιάστατων δοµών για µεµ- ϐρανικές πρωτεΐνες ο οποίος είναι αναλογικά πολύ µικρός. Κύριος λόγος είναι η δυσκολία κρυστάλλωσης των συγκεκριµένων πρωτεϊνών λόγω του υδρόφοβου χαρακτήρα τους. Ετσι η υπολογιστική µελέτη των µεµβρανικών πρωτεϊνών µπορεί να δώσει περισσότερες πληροφορίες σχετικά µε τη δοµή και τη λειτουργία τους. Οι µεµβρανικές πρωτεΐνες (σχήµα 1.7) είναι δυνατόν να ταξινοµηθούν σε δυο µεγάλες οµάδες, τις διαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα, και τις περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε α- σθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια (αγκυροβοληµένες στη µεµβράνη πρωτεΐνες). 1.3.1 ιαµεµβρανικές Πρωτεΐνες Οι διαµεµβρανικές πρωτεΐνες διαθέτουν ειδικά χαρακτηριστικά γνωρίσµατα στην αµινοξική σύστασή τους κατά µήκος της ακολουθίας, µέσω των οποίων επιτυγχάνεται αλλά και εξηγείται η ενσωµάτωσή τους στη λιπιδική διπλοστοιβάδα. Αποφασιστικής σηµασίας για την µελέτη της δοµής µιας διαµεµβρανικής πρωτεΐνης είναι η εύρεση της τοπολογίας της στη µεµβράνη, δηλαδή ο αριθµός των διαµεµβρανικών τµηµάτων, η ϑέση τους στην ακολουθία της πρωτεΐνης και ο προσανατολισµός τους στο επίπεδο της µεµβράνης. Οι διαµεµβρανικές πρωτεΐνες µπορούν να διαχωριστούν σε δύο µεγάλες κατηγορίες ανάλογα µε το πόσες ϕορές διαπερνούν τη 14

Σχήµα 1.7: Κατηγορίες µεµβρανικών πρωτεΐνών. ιαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα. Περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια. µεµβράνη. Τις πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη και τις πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη. Πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη Οι διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη περιλαµβάνουν συνήθως ένα υδρόφοβο τµήµα λίγων αµινιξέων που είναι ϐυθισµένο µε µορφή α-έλικας (σχήµα 1.8 - a) στην υδρόφοβη περιοχή των λιπιδίων. Πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµ- ϐράνη Οι διαµεµβρανικές πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη αποτελούν πρωτεΐνες των οποίων τα διαµεµβρανικά τµήµατα έχουν την δοµή α-έλικας η οποία συντίθεται από υδρόφοβα αµινοξικά κατάλοιπα που διαπερνούν το υδρόφοβο περιβάλλον της λιπιδικής διπλοστοιβάδας (σχήµα 1.8 - b). Ειδική, πιο σπάνια και λιγότερο µελετηµένη περίπτωση αποτελούν οι πρωτεΐνες της εξωτερικής µεµβράνης 15

των αρνητικών κατά Gram ϐακτηρίων καθώς (πιθανότατα) και των µιτοχονδρίων και των χλωροπλαστών, στις οποίες τα διαµεµβρανικά τµήµατα είναι αντιπαράλληλοι κλώνοι µιας ϐ-πτυχωτής επιφάνειας (διαµεµβρανικά ϐ-ϐαρέλια) (σχήµα 1.8 - c). 1.3.2 Περιφερειακές Μεµβρανικές Πρωτεΐνες Οι περιφερειακές µεµβρανικές πρωτεΐνες προσκολλώνται µε ασθενείς αλληλεπιδράσεις σε άλλες διαµεµβρανικές πρωτεΐνες µε τρόπο που δε δια- ϕέρει από τον γενικότερο τρόπο πρωτεϊνικών αλληλεπιδράσεων που συναντάµε στις σφαιρικές υδατοδιαλυτές πρωτεΐνες [72]. Οι περιφερειακές πρωτεΐνες µπορούν να ϐρίσκονται είτε στην ενδοκυττάρια είτε στην εξωκυττάρια πλευρά της µεµβράνης. 1.3.3 Αγκυροβοληµένες στη Μεµβράνη Πρωτεΐνες Οι αγκυροβοληµένες µε οµοιοπολικό τρόπο στα λιπίδια πρωτεΐνες, επιτυγχάνουν την πρόσδεση µε τη λιπιδική διπλοστοιβάδα µέσω αναγνώρισης από ειδικά ένζυµα µια συγκεκριµένης αλληλουχίας στην αµινοξική τους ακολουθία. Εντοπίζονται εξωκυττάρια ή ενδοκυττάρια. 16

Σχήµα 1.8: Τέσσερις διαφορετικοί τρόποι µε τους οποίους πρωτεϊνικά µόρια µπορούν να συνδεθούν σε µια µεµβράνη. Με πράσινο είναι οι πε- ϱιοχές που διαπερνούν ή ϐυθίζονται στη µεµβράνη και κόκκινο οι περιοχές έξω από τη µεµβράνη. Οι α-έλικες απεικονίζονται ως κύλινδροι και οι ϐ-κλώνοι ως ϐέλη. Από αριστερά προς τα δεξιά είναι : (a) µια πρωτεΐνη της οποίας η πολυπεπτιδική αλυσίδα διαπερνά τη µεµβράνη µια ϕορά ως α-έλικα, (b) µια πρωτεΐνη η οποία σχηµατίζει αρκετές διαµεµβρανικές α-έλικες που συνδέονται µε υδρόφιλους ϐρόχους, (c) µια πρωτεΐνη µε αρκετούς ϐ-κλώνους που σχηµατίζουν ένα κανάλι διαµέσου της µεµβράνης και (d) µια πρωτεΐνη η οποία είναι αγκυροβοληµένη στη µεµβράνη µέσω µιας α-έλικας παράλληλη προς το επίπεδο της µεµβράνης. 17

18

Κεφάλαιο 2 Σκοπός Οπως αναφέρθηκε και στην Εισαγωγή πολλές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης έχουν άµεση σχέση µε τη µεµ- ϐράνη. Σε προηγούµενη µελέτη [2] έγινε ανάλυση των χαρακτηριστικών µοριακής αναγνώρισης σε µεµβρανικές πρωτεΐνες. Σκοπός της συγκεκριµένης διπλωµατικής εργασίας είναι η συγκέντρωση χαρακτηριστικών µοριακής αναγνώρισης που εντοπίζονται σε µεµβρανικές πρωτεΐνες µε αυτοµατοποιηµένο τρόπο. Τα χαρακτηριστικά µοριακής α- ναγνώρισης τα οποία συγκεντρώνονται, οργανώνονται και καταχωρούνται σε µία ϐάση δεδοµένων η οποία έχει σχεδιαστεί. Για τη συγκέντρωση των δεδοµένων γίνεται χρήση της γλώσσας προγραµµατισµού Perl [73] (bioperl). Για την καλύτερη διαχείριση της πληροφορίας σχεδιάστηκε ϐάση δεδοµένων µε το σύστηµα διαχείρισης ϐάσεων δεδοµένων mysql [74], ενώ για την καλύτερη οπτικοποίηση των αποτελεσµάτων χρησιµοποιήθηκαν οι γλώσσες προγραµµατισµού HTML [75], PHP [76], Javascript [77], Java [78] και CSS [79], καθώς και ένα πρόγραµµα οπτικοποίησης µοριακών γραφικών το Jmol [80]. 19

20

Κεφάλαιο 3 Μεθοδολογία Η µεθοδολογία συγκέντρωσης και ανάλυσης των δεδοµένων ϐασίζεται στην εργασία των Mohan και συνεργατών [1] και επεκτείνεται µε ϐάση τη µεθοδολογία που περιγράφεται από τους Kotta-Loizou και συνεργάτες [2]. Για την ευκολότερη, καλύτερη και αποδοτικότερη συγκέντρωση των δεδοµένων έγινε χρήση λειτουργικών συστηµάτων που ϐασίζονται σε Unix [81], όπως Linux [82] ή Mac [83]. 3.1 Συγκέντρωση και επεξεργασία δεδοµένων 3.1.1 Βάσεις εδοµένων ύο είναι οι ϐάσεις δεδοµένων από τις οποίες συγκεντρώθηκαν δεδοµένα και τα οποία στη συνέχεια επεξεργάζονται. Η πρώτη ϐάση δεδοµένων είναι η PDB (Protein Data Bank) [40]. Η συγκεκριµένη ϐάση δεδοµένων περιέχει δοµικά δεδοµένα ϐιολογικών µακροµορίων τα οποία έχουν προκύψει στην πλειονότητά τους είτε από πειράµατα κρυσταλλογραφίας είτε πειράµατα πυρηνικού µαγνητικού συντονισµού (NMR - Nuclear Magnetic Resonance). Η δεύτερη ϐάση δεδοµένων είναι η Uniprot [84]. Η συγκεκριµένη ϐάση δεδοµένων περιέχει αναλυτικά χαρακτηρισµένες πρωτεϊνικές ακολουθίες, µε πολλές συνδέσεις προς τρίτες ϐάσεις δεδοµένων. 21

3.1.2 Συγκέντρωση δοµών από PDB Οπως έχουµε αναφέρει και στην Εισαγωγή τα χαρακτηριστικά µοριακής αναγνώρισης έχουν µήκος από 10 έως 70 κατάλοιπα. Ο εντοπισµός τους στηρίζεται στην ιδέα ότι αυτές οι µικρές περιοχές ϑα πρέπει να έχουν ένα µόριο (πρωτεΐνη στην προκειµένη περίπτωση) µε το οποίο αλληλεπιδρούν. Η πρωτεΐνη µε την οποία ϑα αλληλεπιδρά πρέπει να έχει µέγεθος πάνω α- πό 100 αµινοξικά κατάλοιπα ώστε να ϐοηθάει το χαρακτηριστικό µοριακής αναγνώρισης να µεταβεί από µη κανονική δοµή σε κάποιο στοιχείο δευτε- ϱοταγούς δοµής. Για το σκοπό αυτό επιλέγεται το Advanced Search της PDB όπως ϕαίνεται στο σχήµα 3.1. Το Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων, ενώ το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες. Ετσι συγκεντώθηκαν 5309 PDB αρχεία. Σχήµα 3.1: Μέρος του Advanced Search της PDB. Στο πάνω τµήµα το Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων. Στο κάτω τµήµα το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες. Με αυτές τις επιλογές γίνεται κατέβασµα των συµπλόκων που πιθανόν να περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από την PDB. 3.1.3 Επεξεργασία PDB αρχείων Σε αυτό το στάδιο γίνεται επεξεργασία των PDB αρχείων που έχουν συγκεντρωθεί. Σε πρώτη ϕάση γίνεται έλεγχος του πεδίου SEQRES (σχήµα 3.2). Για να κρατήσουµε κάποιο σύµπλοκο ϑα πρέπει να υπάρχουν του- 22

λάχιστον δύο αλυσίδες, εκ των οποίων η µία να έχει µήκος 10-70 κατάλοιπα και η δεύτερη τουλάχιστον 100 κατάλοιπα. Πολλές ϕορές είναι πιθανό τα PDB αρχεία να περιέχουν σφάλµατα στην αµινοξική τους ακολουθία. Για το λόγο αυτό, γίνεται έλεγχος ώστε τα χαρακτηριστικά µοριακής αναγνώρισης να µην περιέχουν κάποιο λάθος. Χαρακτηριστικό παράδειγµα είναι να µην έχει προσδιοριστεί κάποιο α- µινοξύ και να εµφανίζεται κάποιο σύµβολο στη ϑέση του (όπως Χ). Ενα άλλο παράδειγµα είναι κάποιο µη κανονικό αµινοξύ να εµφανίζεται στην αµινοξική ακολουθία, όπως Selenocysteine (Sec) ή Pyrrolysine (Pyl). SEQRES 17 E 281 LEU PRO GLY ASN LYS TYR GLY ALA TYR ASN GLY THR SER SEQRES 18 E 281 MET ALA SER PRO HIS VAL ALA GLY ALA ALA ALA LEU ILE SEQRES 19 E 281 LEU SER LYS HIS PRO ASN TRP THR ASN THR GLN VAL ARG SEQRES 20 E 281 SER SER LEU GLU ASN THR THR THR LYS LEU GLY ASP SER SEQRES 21 E 281 PHE TYR TYR GLY LYS GLY LEU ILE ASN VAL GLN ALA ALA SEQRES 22 E 281 ALA GLN HIS HIS HIS HIS HIS HIS SEQRES 1 I 64 MET LYS THR GLU TRP PRO GLU LEU VAL GLY LYS SER VAL SEQRES 2 I 64 GLU GLU ALA LYS LYS VAL ILE LEU GLN ASP LYS PRO ALA SEQRES 3 I 64 ALA GLN ILE ILE VAL LEU PRO VAL GLY THR ILE VAL THR SEQRES 4 I 64 MET GLU TYR ALA ILE ASP ARG VAL ARG LEU PHE VAL ASP SEQRES 5 I 64 ARG LEU ASP ASN ILE ALA GLN VAL PRO ARG VAL GLY Σχήµα 3.2: Το πεδίο SEQRES ενός PDB αρχείου Σε δεύτερη ϕάση γίνεται έλεγχος του πεδίου DBREF (σχήµα 3.3). Το συγκεκριµένο πεδίο είναι πολύ σηµαντικό καθώς σε αυτό γίνεται αντιστοίχιση των εγγραφών της PDB µε τις πρωτεΐνες στη Uniprot. Καθώς η mp- MoRFsDB είναι µια ϐάση δεδοµένων µε επίκεντρο την πρωτεΐνη, γίνεται άµεσα αντιληπτό ο λόγος για τον οποίο είναι σηµαντική αντιστοίχιση στη Uniprot. Εποµένως κρατάµε τα PDB IDs, την αλυσίδα, από που ξεκινάει και που τελειώνει η αλυσίδα, το Uniprot Accession και που ξεκινάει και που τελειώνει η αλληλουχία πάνω στην πρωτεΐνη. Ετσι καταλήγουµε σε 785 µοναδικά Uniprot Accessions. 3.1.4 Επεξεργασία Uniprot αρχείων Ενα πρόβληµα µε τις εγγραφές της Uniprot είναι ότι το ID που έχουν µπορεί να αλλάξει για ποικίλους λόγους. Για το λόγο αυτό όταν γίνεται αναφορά στη Uniprot πρέπει να χρησιµοποιείται το Uniprot Accession. 23

DBREF 1Y19 A 638 651 UNP O70161 PI51C_MOUSE 638 651 DBREF 1Y19 C 638 651 UNP O70161 PI51C_MOUSE 638 651 DBREF 1Y19 E 638 651 UNP O70161 PI51C_MOUSE 638 651 DBREF 1Y19 G 638 651 UNP O70161 PI51C_MOUSE 638 651 DBREF 1Y19 I 638 651 UNP O70161 PI51C_MOUSE 638 651 DBREF 1Y19 K 638 651 UNP O70161 PI51C_MOUSE 638 651 DBREF 1Y19 B 209 410 UNP P26039 TLN1_MOUSE 209 410 DBREF 1Y19 D 209 410 UNP P26039 TLN1_MOUSE 209 410 DBREF 1Y19 F 209 410 UNP P26039 TLN1_MOUSE 209 410 DBREF 1Y19 H 209 410 UNP P26039 TLN1_MOUSE 209 410 DBREF 1Y19 J 209 410 UNP P26039 TLN1_MOUSE 209 410 DBREF 1Y19 L 209 410 UNP P26039 TLN1_MOUSE 209 410 Σχήµα 3.3: Το πεδίο DBREF ενός PDB αρχείου Η εκάστοτε εγγραφή στη Uniprot µπορεί να περιέχει παραπάνω από ένα Uniprot Accessions (σχήµα 3.4). Κάθε ϕορά που γίνεται ανανέωση σε κάποια εγγραφή ένας νέος κωδικός Uniprot της ανατίθεται, ενώ οι παλιοί κωδικοί κρατούνται και αυτοί σαν λίστα. Σε µία αυτοµατοποιηµένη διαδικασία συγκέντρωσης δεδοµένων όπως αυτή, είναι απαραίτητη η αναφορά στις Uniprot εγγραφές µε τον τελευταίο Uniprot κωδικό. Για το σκοπό αυτό γίνεται χρήση ενός αρχείου που παρέχεται από το EBI και αντιστοιχεί PDB αρχεία στο τελευταίο Uniprot Accession. Το συγκεκριµένο αρχείο είναι διαθέσιµο στο σύνδεσµο ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/text/pdb_chain_uniprot.lst Συνδυάζοντας τα δεδοµένα από το αρχείο της παραπάνω διεύθυνσης (σχήµα 3.5) και από το αρχείο που έχει προκύψει από τους κώδικές µας (σχήµα 3.6) καταλήγουµε σε ένα αρχείο που περιέχει όλα τα πιθανά χαρακτηριστικά µοριακής αναγνώρισης µε αντιστοίχιση στο πιο πρόσφατο Uniprot Accession. ID 1A02_HUMAN Reviewed; 365 AA. AC P01892; O19619; P06338; P10313; P30444; P30445; P30446; P30514; AC Q29680; Q29837; Q29899; Q95352; Q95380; Q9TPX8; Q9TPX9; Q9TPY0; AC Q9TQH5; Q9TQI3; Σχήµα 3.4: Τµήµα Uniprot (flat file) αρχείου. Φαίνονται τα πεδία ID και Accession της πρωτεΐνης. 24

PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END 1aqd F P01892 1 15 1 15 1aqd G P01903 1 192 1 192 1aqd H P04229 1 198 1 198 Σχήµα 3.5: Τµήµα αρχείου το οποίο είναι διαθέσιµο από το EBI και κάνει αντιστοίχιση PDB κωδικών σε Uniprot Accessions. 1AFQ A 1 13 UNP P00766 1 13 1AL2 4 2 69 UNP P03299 1 68 1AQD C 1 15 UNP P01892 127 141 1AQD F 1 15 UNP P01892 127 141 Σχήµα 3.6: Αρχείο που δηµιουργείται από τον κώδικά µας. Η πληροφορία η οποία περιέχει είναι (από αριστερά προς τα δεξιά) ο κωδικός PDB, η αλυσίδα PDB, που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στη δοµή, το Uniprot Accession και που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην πρωτεΐνη. 3.1.5 Εύρεση τύπου µεµβρανικής πρωτεΐνης Στη συνέχεια κρατάµε τις πρωτεΐνες οι οποίες είναι µεµβρανικές και γίνεται διαχωρισµός σε κατηγορίες. Τα Uniprot αρχεία τα οποία έχουν συγκεντρωθεί από το προηγούµενο στάδιο κατεβαίνουν τοπικά για περαιτέρω επεξεργασία. Για να ϑεωρηθεί µια πρωτεΐνη ότι είναι µεµβρανική ϑα πρέπει στο πεδίο CC να αναφέρει "SUBCELLULAR LOCATION" και πιο συγκεκριµένα "Membrane", όπως ϕαίνεται στο σχήµα 3.7. Για να γίνει διαχωρισµός σε κατηγορίες γίνεται µελέτη του τί αναφέρεται στο συγκεκριµένο πεδίο. Πιο συγκεκριµένα αν αναφέρει µία από τις ακόλουθες λέξεις κλειδιά : Single-pass, Single span, Singlespan, Singlepass, Single pass, Singlepass τότε ϑεωρείται διαµεµβρανική η οποία διαπερνά µια ϕορά τη µεµβράνη, αν αναφέρει µία από τις ακόλουθες λέξεις κλειδιά : Multi-pass membrane protein, Multi-pass, Multi span, Multispan, Multi-pass, Multi pass, Multipass, Polytopic membrane protein τότε ϑεωρείται διαµεµβρανική η οποία διαπερνά πάνω από µια ϕορά τη µεµβράνη, αν αναφέρει Peripheral membrane protein τότε ϑεωρείται πε- ϱιφερειακή µεµβρανική πρωτεΐνη, ενώ αν αναφέρει Lipid-anchor τότε ϑεωρείται αγκυροβοληµένη στη µεµβράνη πρωτεΐνη. 25

Ενα πρόβληµα το οποίο συναντάται συχνά στις εγγραφές της Unirprot είναι αυτό των ισοµορφών. Πολλές ϕορές µπορεί να υπάρχουν παραπάνω από ένα πεδία που αναφέρουν "SUBCELLULAR LOCATION" µε το ένα να χαρακτηρίζει την πρωτεΐνη ως "Single-pass" και το άλλο ως "Multi-pass" για παράδειγµα. Οσες εγγραφές παρουσίασαν το συγκεκριµένο πρόβληµα ελέγχθηκαν και χαρακτηρίστηκαν χειροκίνητα. CC CC -!- SUBCELLULAR LOCATION: Membrane; Single-pass type I membrane protein. Σχήµα 3.7: Το πεδίο CC (SUBCELLULAR LOCATION) µιας Uniprot εγγραφής. 3.1.6 Κατηγοριοποίηση χαρακτηριστικών µοριακής α- ναγνώρισης Σε επόµενο στάδιο γίνεται χρήση του προγράµµατος DSSP [85] µε σκοπό τον προσδιορισµό της δευτεροταγούς δοµής των χαρακτηριστικών µοριακής αναγνώρισης. Το DSSP είναι ένα πρόγραµµα το οποίο κάνει ανάθεση στοιχείων δευτεροταγούς δοµής στην αµινοξική ακολουθία. Η έξοδος του προγράµµατος DSSP είναι G (3 10 helix), H (α helix), I (π helix), B (Beta Bridge), E (Beta Bulges), T (Turn), S (Bend), L (Other). Τα χαρακτηριστικά µοριακής αναγνώρισης χωρίζονται σε τέσσερις κατηγορίες όπως έχει ανα- ϕερθεί στην εισαγωγή (α-morfs, β-morfs, irregular-morfs, complex- MoRFs). Ετσι τα H, G, I ϑεωρούνται α-χαρακτηριστικά, τα B, E ϑεωρούνται ϐ-χαρακτηριστικά και τα T, S, L ϑεωρούνται χαρακτηριστικά χωρίς κανονική δοµή. Για τον προσδιορισµό της κατηγορίας των χαρακτηριστικών µοριακής αναγνώρισης αθροίζονται οι τιµές που έχει ϐγάλει το DSSP. Αν υπερτε- ϱούν τα α-χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία α-morf, αν υπερτερούν τα ϐ-χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία β- MoRF, αν υπερτερούν τα µη κανονικά χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία irregular-morf ενώ αν δεν υπερτερεί κάποιο χαρακτηριστικό τότε ανήκει στην κατηγορία complex-morf. 26

3.1.7 Εύρεση πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης Για την εύρεση και τον προσδιορισµό της πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης γίνεται και πάλι χρήση του προγράµµατος DSSP και χρησιµοποιείται η τιµή του ASA (Accessible Surface Area) που ϐγάζει ως έξοδο το πρόγραµµα. Η ASA (Accessible Surface Area) ή SASA (Solvent-Accessible Surface Area) είναι η προσβάσιµη από το διαλύτη επιφάνεια [86]. Η ASA υπολογίζεται συνηθέστερα µε τον αλγόριθµο της κυλιόµενης σφαίρας νερού [87]. Για το συγκεκριµένο µέρος της εργασίας γίνεται χρήση των PDB αρχείων τα οποία αντιστοιχούν στους κωδικούς Uniprot που έχουν προκύψει από τα προηγούµενα ϐηµάτα. Ετσι υπάρχει ένα σύνολο από PDB αρχεία τα οποία περιέχουν χαρακτηριστικά µοριακής αναγνώρισης και πιθανές πρωτεΐνες µε τις οποίες αλληλεπιδρούν. Γίνεται διαχωρισµός των PDB αρχείων (πεδίο ATOM) ανάλογα µε την αλυσίδα. Για την αλυσίδα η οποία αντιστοιχεί στο πιθανό χαρακτηριστικό µοριακής αναγνώρισης γίνεται υπολογισµός της ASA. Η ίδια τιµή υπολογίζεται για τις αλυσίδες µε τις οποίες πιθανόν να αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης. Στη συνέχεια ενώνονται τα αρχεία των χαρακτηριστικών µοριακής αναγνώρισης µε τις πιθανές πρωτεΐνες µε τις οποίες πιθανόν να αλληλεπιδρά (µία µία κάθε ϕορά) και υπολογίζεται και πάλι η ASA. Αν η τιµή της ASA του χαρακτηριστικού µοριακής αναγνώρισης αθροιζόµενη µη την τιµή της ASA της πρωτεΐνης µε την οποία αλληλεπιδρά είναι ίση µε την τιµή της ASA του συµπλόκου τότε δεν υπάρχει αλληλεπίδραση. Στην περίπτωση που η τιµή είναι διαφορετική τότε υπάρχει αλληλεπίδραση. Εστω ένα σύµπλοκο το οποίο ϕαίνεται στο σχήµα 3.8. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου. Το κατώφλι το οποίο χρησιµοποιήθηκε στην προκειµένη περίπτωση είναι τα 400 Å 2. 27

Σχήµα 3.8: Πιθανό πρωτεϊνικό σύµπλοκο το οποίο αποτελείται από τρεις αλυσίδες. Την A, τη B και τη C. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου. 3.2 Κατασκευή ϐάσης δεδοµένων Η ϐάση δεδοµένων mpmorfsdb σχεδιάστηκε για την καταχώρηση, οργάνωση και οπτικοποίηση της παραπάνω πληροφορίας. Για το σκοπό αυτό χρησιµοποιήθηκε η γλώσσα προγραµµατισµού mysql. Το σχεσιακό σχήµα της ϐάσης ϕαίνεται στο σχήµα 3.9. Το κύριος πίνακας της ϐάσης είναι αυτός της πρωτεΐνης (Protein). Η πρωτεΐνη µπορεί να περιέχει ένα ή περισσότερα χαρακτηριστικά µο- ϱιακής αναγνώρισης. Για το λόγο αυτό σχετίζεται µε τον πίνακα που περιέχει τα χαρακτηριστικά µοριακής αναγνώρισης (MoRF) µε µια σχέση 1... Ν. Με παρόµοιο τρόπο ο πίνακας Protein σχετίζεται µε τον πίνακα Cross References. Ο πίνακας Cross References περιλαµβάνει συνδέσµους προς χρήσιµες ϐάσεις δεδοµένων µε πληροφορία σχετική µε την εκάστοτε πρωτεΐνη. Επειδή περισσότεροι από ένας σύνδεσµοι µπορεί να υπάρχουν για µία πρωτεΐνη η σχέση µεταξύ των δύο πινάκων και σε αυτή την περίπτωση είναι 1... Ν. 28

Ο πίνακας MoRF,δηλαδή ο πίνακας των χαρακτηριστικών µοριακής αναγνώρισης, σχετίζεται µε τον πίνακα Partner. Ο πίνακας Partner περιλαµβάνει τις πρωτεΐνες που αλληλεπιδρούν µε το χαρακτηριστικό µοριακής αναγνώρισης. Ενα χαρακτηριστικό µοριακής αναγνώρισης µπορεί να αλληλεπιδρά µε περισσότερες από µία πρωτεΐνες. Για το λόγο αυτό η σχέση µεταξύ των δύο πινάκων είναι 1... Ν. Παρόµοια ο πίνακας MoRF σχετίζεται µε τον πίνακα Literature. Ο πίνακας Literature περιλαµβάνει όλες τις δηµοσιεύσεις που είναι διαθέσιµες στην Pubmed και σχετίζονται µε το ε- κάστοτε PDB αρχείο. Και σε αυτή την περίπτωση η σχέση των δύο πινάκων είναι 1... Ν. Σχήµα 3.9: Σχεσιακό σχήµα της ϐάσης δεδοµένων mpmorfsdb Ο πίνακας (Protein) σχετίζεται µε τους πίνακες MoRF και Cross References και περιλαµβάνει την ακόλουθη πληροφορία. Accession, το οποίο είναι το Uniprot Accession και χρησιµοποιέιται ως πρωτεύων κλειδί στη ϐάση. 29

Protein Description, το οποίο είναι το όνοµα της πρωτεΐνης. Gene Name, το οποίο είναι το όνοµα του γονιδίου. Organism, το οποίο είναι ο οργανισµός. NCBI Taxonomy, το οποίο είναι η ταξινοµική µε ϐάση το NCBI. Sequence, το οποίο είναι η αµινοξική ακολουθία της πρωτεΐνης. Sequence Length, το οποίο είναι το µήκος της αµινοξικής ακολου- ϑίας της πρωτεΐνης. Type, το οποίο είναι ο τύπος της µεµβρανικής πρωτεΐνης Subcellular Location, περιέχει πληροφορίες σχετικές µε την υποκυτταρική ϑέση. Topology, περιέχει πληροφορίες σχετικές µε την τοπολογία των δια- µεµβρανικών πρωτεϊνών. Ο πίνακας (MoRF) σχετίζεται µε τους πίνακες Partner και Literature και περιλαµβάνει την ακόλουθη πληροφορία. PDB ID, το οποίο είναι ο κωδικός της PDB στο οποίο υπάρχει το χαρακτηριστικό µοριακής αναγνώρισης. PDB Chain, το οποίο είναι η αλυσίδα του χαρακτηριστικού µοριακής αναγνώρισης στο PDB αρχείο. Τα PDB ID, PDB Chain είναι τα πρωτεύοντα κλειδιά του πίνακα MoRF. Uniprot Start, είναι η ϑέση που ξεκινάει το χαρακτηριστικό µοριακής αναγνώρισης σε σχέση µε την πρωτεϊνική ακολουθία (της Uniprot). Uniprot End, είναι η ϑέση που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης σε σχέση µε την πρωτεϊνική ακολουθία (της Uniprot). Type, το οποίο είναι η κατηγορία στην οποία ανήκει το χαρακτηριστικό µοριακής αναγνώρισης. Uniprot Accession, το οποίο είναι το Uniprot Accession της πρωτεΐνης στην οποία ανήκει το χαρακτηριστικό µοριακής αναγνώρισης. Ο πίνακας (Partner) σχετίζεται µε τον πίνακα MoRF και περιλαµβάνει την ακόλουθη πληροφορία. 30

PDB ID, το οποίο είναι ο PDB κωδικός της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης. PDB Chain, το οποίο είναι η αλυσίδα στο αρχείο PDB της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης. Accession, είναι ο Uniprot κωδικός της πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης. MoRF ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια του χαρακτηριστικού µοριακής αναγνώρισης. Partner ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης. Complex ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια του συµπλόκου. MoRF PDB ID, το οποίο είναι ο κωδικός της PDB στο οποίο υπάρχει το χαρακτηριστικό µοριακής αναγνώρισης. MoRF PDB Chain, το οποίο είναι η αλυσίδα του χαρακτηριστικού µοριακής αναγνώρισης στο PDB αρχείο. Τα PDB ID, PDB Chain, MoRF PDB ID, MoRF PDB Chain χρησιµοποιούνται ως πρωτεύοντα κλειδιά στον πίνακα. Ο πίνακας (Literature) σχετίζεται µε τον πίνακα MoRF και περιλαµβάνει την ακόλουθη πληροφορία. Literature ID, το οποίο είναι το πρωτεύων κλειδί του πίνακα. Pubmed ID, το οποίο είναι ο κωδικός της δηµοσίευσης στην Pubmed. Text, το οποίο είναι η δηµοσίευση στην Pubmed. PDB ID, το οποίο είναι ο κωδικός PDB στον οποίο αναφέρεται η δηµοσίευση. Ο πίνακας (Cross References) σχετίζεται µε τον πίνακα Protein και πε- ϱιλαµβάνει την ακόλουθη πληροφορία. Cross References ID, το οποίο είναι το πρωτεύων κλειδί του πίνακα. 31

DB, το οποίο είναι το όνοµα της ϐάση δεδοµένων στην οποία ανα- ϕέρεται η πρωτεΐνη. Reference, το οποίο είναι ο κωδικός της ϐάση δεδοµένων στην οποία αναφέρεται η πρωτεΐνη. Protein Accession, είναι το Uniprot Accession της πρωτεΐνης. 32

Κεφάλαιο 4 Αποτελέσµατα 4.1 mpmorfsdb Η ϐάση δεδοµένων mpmorfsdb [3] είναι δηµόσια διαθέσιµη στην ιστοσελίδα : http://bioinformatics.biol.uoa.gr/mpmorfsdb/ 4.1.1 Αρχική σελίδα mpmorfsdb Η αρχική σελίδα της ϐάσης ϕαίνεται στην εικόνα 4.1. Μέσω αυτής ο χρήστης µπορεί να πλοηγηθεί στα εργαλεία τα οποία είναι διαθέσιµα. Πατώντας το κουµπί "Browse" ο χρήστης µπορεί να δει όλες τις εγγρα- ϕές της ϐάσης δεδοµένων, ενώ µπορεί να εφαρµόσει και ορισµένα ϕίλτρα. Πατώντας το κουµπί "Search" δίνεται η δυνατότητα στο χρήστη να κάνει σύνθετες αναζητήσεις έναντι της ϐάσης δεδοµένων. Μέσω της επιλογής "Blast Search" είναι δυνατή η εύρεση οµόλογων αλληλουχιών. Μέσω του "Download" δίνεται η δυνατότητα στο χρήστη να κατεβάσει τοπικά τη ϐάση δεδοµένων για περαιτέρω επεξεργασία. Ο χρήστης µπορεί να κατεβάσει τη ϐάση σε XML (σχήµα 4.13) και σε Text format (σχήµα 4.12). 4.1.2 Browse mpmorfsdb Πατώντας το κουµπί "Browse" ο χρήστης µπορεί να δει όλες τις εγγραφές της ϐάσης δεδοµένων όπως ϕαίνεται στο σχήµα 4.2 33

Σχήµα 4.1: Αρχική σελίδα της ϐάσης δεδοµένων mpmorfsdb Φίλτρα µπορούν να εφαρµοστούν, είτε ϐάσει του τύπου της µεµβρανικής πρωτεΐνης, είτε ϐάσει της κατηγοριοποίησης των χαρακτηριστικών µοριακής αναγνώρισης ανάλογα µε τη δευτεροταγή τους δοµή. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.3 Αν ο χρήστης επιλέξει "Type of membrane protein" τότε του δίνεται η επιλογή να διαλέξει ανάµεσα σε περιφερειακές µεµβρανικές πρωτεΐνες και σε διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ή περισσότερες ϕορές τη µεµβράνη. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.4. Αντίστοιχα αν ο χρήστης επιλέξει "Secondary structure of MoRF" του δίνεται η επιλογή να διαλέξει ανάµεσα σε α-morfs, β-morfs, irregular-morfs και complex-morfs. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.5. Το αποτέλεσµα αν επιλέγαµε complex- MoRFs ϕαίνεται στο σχήµα 4.6. 4.1.3 Search mpmorfsdb Μέσω του "Search" δίνεται η δυνατότητα στο χρήστη να κάνει σύνθετες αναζητήσεις έναντι της ϐάσης δεδοµένων. Οι δυνατότητες επιλογής είναι 34

Σχήµα 4.2: Το εργαλείο Browse της ϐάσης δεδοµένων mpmorfsdb Σχήµα 4.3: Φίλτρα που εφαρµόζονται στο Browse της mpmorfsdb Σχήµα 4.4: Φίλτρο ανάλογα µε τον τύπο των µεµβρανικών πρωτεϊνών στο Browse της mpmorfsdb αρκετές όπως ϕαίνεται και στο σχήµα 4.7. Ο χρήστης µπορεί να επιλέξει ανάλογα µε τον τύπο της πρωτεΐνης. Του δίνεται η επιλογή να διαλέξει ανάµεσα σε περιφερειακές µεµβρανικές πρωτεΐνες και σε διαµεµβρανικές 35

Σχήµα 4.5: Φίλτρο ανάλογα µε τον τύπο των χαρακτηριστικών µοριακής αναγνώρισης πρωτεϊνών στο Browse της mpmorfsdb Σχήµα 4.6: Ολες οι πρωτεΐνες που περιέχουν complex-morfs στην mp- MoRFsDB πρωτεΐνες που διαπερνούν µία ή περισσότερες ϕορές τη µεµβράνη. Ακόµη του δίνεται η επιλογή να διαλέξει ανάµεσα σε πρωτεΐνες οι οποίες περιέχουν α-morfs, β-morfs, irregular-morfs ή complex-morfs. Επιπρόσθετα η αναζήτηση µπορεί να γίνεται µε ϐάση το µήκος των χαρακτηριστικών µοριακής αναγνώρισης, το όνοµα της πρωτεΐνης, το όνοµα του γονιδίου, τον οργανισµό στον οποίο ανήκει, το Uniprot Accession, τον κωδικό PDB ή συνδυασµό των παραπάνω. Σχήµα 4.7: Παράδειγµα χρήσης του Search στην mpmorfsdb. Η ανα- Ϲήτηση µπορεί να γίνει αρκετά σύνθετη όπως ϕαίνεται. 36

4.1.4 Entry mpmorfsdb Το παράδειγµα µιας εγγραφής ϕαίνεται στο σχήµα 4.8. Αυτή είναι η κύρια σελίδα στην οποία εµφανίζονται οι εγγραφές στη ϐάση δεδοµένων mpmorfsdb. Στο πάνω αριστερά σηµείο εµφανίζονται πληροφορίες σχετικά µε την πρωτεΐνη. Οι συγκεκριµένες πληροφορίες προέρχονται από τη ϐάση δεδοµένων Uniprot [84]. Πιο συγκεκριµένα οι πληροφορίες οι οποίες είναι διαθέσιµες είναι το όνοµα της πρωτεΐνης (Protein Name), το όνοµα του γονιδίου (Gene Name), ο οργανισµός (Organism), η ταξινοµική µε ϐάση το NCBI (NCBI Taxonomy), η πρωτεϊνική ακολουθία (Sequence), το µήκος της πρωτεϊνικής ακολουθίας (Sequence Length) και το Uniprot Accession. Ακόµα προσδιορίζεται ο τύπος της µεµβρανικής πρωτεΐνης καθώς και ο αριθµός των χαρακτηριστικών µοριακής αναγνώρισης που περιέχει η συγκεκριµένη εγγραφή. Στο πάνω δεξιά µέρος της εκάστοτε εγγραφής έχει ενσωµατωθεί µία Jmol [80] µικροεφαρµογή (applet), για την καλύτερη οπτικοποίηση των δοµών. Τα χαρακτηριστικά µοριακής αναγνώρισης σηµαίνονται µε κόκκινο χρώµα, ενώ οι πρωτεΐνες µε τις οποίες αλληλεπιδρούν µε πράσινο χρώµα. Παρέχονται σύνδεσµοι προς ϐάσεις δεδοµένων οι οποίες περιέχουν χρήσι- µες πληροφορίες σχετικές µε την πρωτεΐνη. Πιο συγκεκριµένα παρέχονται σύνδεσµοι προς τις ϐάσεις : PhosphoSite [88] η οποία περιλαµβάνει πειραµατικά δεδοµένα για ϑέσεις ϕωσφορυλίωσης πρωτεΐνών που προέρχονται από άνθρωπο και ποντίκι Pfam [89] η οποία περιέχει πρωτεϊνικές οικογένειες PROSITE [90] η οποία περιλαµβάνει µία µεγάλη συλλογή µε υπογραφές µε ϐιολογικό νόηµα, οι οποίες περιγράφονται ως patterns ή profiles, InterPro [91] η οποία ενσωµατώνει πολύπλευρη πληροφόρηση σχετικά µε πρωτεϊνικές οικογένειες, αυτοτελείς δοµικές µονάδες (domains) και λειτουργικές ϑέσεις (functional sites) SUPFAM [92] η οποία περιλαµβάνει τις σχέσεις υπεροικογένειας µεταξύ οικογενειών αυτοτελών δοµικών µονάδων µε γνωστή ή άγνωστη 37

3D δοµή. IntAct [93] η οποία περιέχει πειραµατικά δεδοµένα από πρωτεϊνικές αλληλεπιδράσεις τα οποία προέρχονται είτε από τη ϐιβλιογραφία, είτε από τις άµεσες καταθέσεις των δεδοµένων. DIP [94] η οποία συγκεντρώνει πειραµατικά επιβεβαιωµένες αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών. MINT [95] η οποία περιέχει λειτουργικές αλληλεπιδράσεις µεταξύ πρωτεϊνών. STRING [96] η οποία περιέχει τόσο πειραµατικά επιβεβαιωµένες, όσο και αποτελέσµατα από αλγόριθµους πρόγνωσης πληροφορίες σχετικά µε αλληλεπιδράσεις πρωτεϊνών. OMIM [97] η οποία περιέχει ανθρώπινα γονίδια και τα συσχετίζει µε γενετικές διαταραχές. Drugbank [98] η οποία περιέχει πληροφορίες γύρω από ϕάρµακα και στόχους ϕαρµάκων. Οι πρωτεΐνες οι οποίες περιλαµβάνονται στη ϐάση δεδοµένων mpmorfsdb περιέχουν όλες τουλάχιστον ένα χαρακτηριστικό µοριακής αναγνώρισης. Τα χαρακτηριστικά µοριακής αναγνώρισης καθώς και οι πρωτεΐνες µε τις οποίες αλληλεπιδρούν εµφανίζονται στη σελίδα της εκάστοτε εγγραφής. Πιο συγκεκριµένα είναι διαθέσιµα ο κωδικός της PDB (PDB ID) µαζί µε την αλυσίδα (chain), από που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην αλληλουχία, ο τύπος του χαρακτηριστικού µο- ϱιακής αναγνώρισης καθώς και ο PDB κωδικός, η αλυσίδα και ο κωδικός της πρωτεΐνης (Uniprot Accession) µε την οποία αλληλεπιδρά. ύο ακόµα σηµαντικά στοιχεία είναι διαθέσιµα στην κάθε εγγραφή. Το πρώτο είναι ότι στις διαµεµβρανικές πρωτεΐνες έχει προσδιοριστεί η τοπολογία της πρωτεΐνης µε χρήση πειραµατικά επιβεβαιωµένων δεδοµένων τα οποία έχουν εξορυχθεί από τη ϐάση δεδοµένων ExTopoDB [99] καθώς και αποτελέσµατα από αλγόριθµους πρόγνωσης και πιο συγκεκριµένα από τα SignalP [100], TOPCONS [101] και Phobius [102]. Ετσι δηµιουργείται ένα αρχείο τοπολογίας (όπως ϕαίνεται στο κάτω µέρος του σχήµατος 4.8) το οποίο δείχνει το/τα διαµεµβρανικά τµήµατα τα οποία συµβολίζονται µε 38

"M", τα εξοκυττάρια τα οποία συµβολίζονται µε "o" τα ενδοκυττάρια τα οποία συµβολίζονται µε "i" και το signal peptide το οποίο συµβολίζεται µε "s", όπου αυτό υπάρχει. Συνδυαστικά µε την τοπολογία έχει προσδιοριστεί η ϑέση του χαρακτηριστικού ή των χαρακτηριστικών µοριακής αναγνώρισης πάνω στην πρωτεΐνη και τα οποία συµβολίζονται µε "#". Το δεύτερο στοιχείο είναι ότι υπάρχουν ϐιβλιογραφικές αναφορές για τις δοµές της εκάστοτε εγγραφής. Σχήµα 4.8: Παράδειγµα εγγραφής στη ϐάση δεδοµένων mpmorfsdb. Uniprot Accession: P01730. 4.1.5 Blast Search mpmorfsdb Με τη χρήση του εργαλείου Blast [103] δίνεται η δυνατότητα στο χρήστη να εισάγει µια πρωτεϊνική ακολουθία και να αναζητήσει στη ϐάση mp- 39

MoRFsDB οµόλογες πρωτεΐνες. Είσοδος στο Blast είναι η αµινοξική α- κολουθία σε FASTA format όπως ϕαίνεται και στο σχήµα 4.9. Υπάρχει ακόµα η δυνατότητα ο χρήστης να επιλέξει το κατώφλι (e-value) το οποίο επιθυµεί να χρησιµοποιήσει. Σχήµα 4.9: Η σελίδα του Blast Search της mpmorfsdb όπου ο χρήστης µπορεί να εισάξει µια αλληλουχία σε FASTA format και να αναζητήσει οµόλογες έναντι της mpmorfsdb. Επιπλέον δίνεται η δυνατότητα να ε- πιλέξει συγκεκριµένο κατώφλι για το e-value των αποτελεσµάτων που ϑα εµφανιστούν. Η αναζήτηση καταλήγει σε έναν πίνακα µε τις πρωτεΐνες που είχαν ση- µαντική στοίχιση µε την πρωτεΐνη που υποβλήθηκε όπως ϕαίνεται και στο σχήµα 4.10. Η λίστα η οποία εµφανίζεται περιέχει τις πρωτεΐνες µε τις οποίες στοιχίστηκε η πρωτεΐνη καθώς και κάποιες παραπάνω πληροφορίες για αυτή. Πατώντας το κουµπί Show/Hide εµφανίζονται περισσότερες πληροφο- ϱίες για την κάθε στοίχιση που έχει πραγµατοποιηθεί όπως ϕαίνεται στο σχήµα 4.11 40

Σχήµα 4.10: Ο πίνακας µε τα αποτελέσµατα των στοιχίσεων όπου δίνονται πληροφορίες για τις πρωτεΐνες καθώς και στατιστικά στοιχεία για την στοίχιση. 41

Σχήµα 4.11: Αναλυτικές πληροφορίες µιας στοίχισης µέσω του εργαλείου BLAST 4.1.6 Download mpmorfsdb Η ϐάση δεδοµένων mpmorfsdb µπορεί να κατέβει τοπικά για περαιτέρω επεξεργασία. Οι µορφές των αρχείων τις οποίες µπορεί να κατεβάσει ο χρήστης είναι δύο. Text ή XML. Τα αρχεία κατεβαίνουν είτε όλα µαζί από τη σελίδα "Download" ή µπορεί ο χρήστης να τα κατεβάσει ένα ένα από την εκάστοτε εγγραφή. 42

Protein Name: Proteinase-activated receptor 3 Gene Name: F2rl2 Organism: Mus musculus Taxonomy: 10090 Sequence: MKILILVAAGLLFLPVTVCQSGINVSDNSAKPTLTIKSFNGGPQNTFEEFPLSDIE GWTGATTTIKAECPEDSISTLHVNNATIGYLRSSLSTQVIPAIYILLFVVGVPANI VTLWKLSLRTKSISLVIFHTNLAIADLLFCVTLPFKIAYHLNGNNWVFGEVTCRIT TVVFYGNMYCAILILTCMGINRYLATAHPFTYQKLPKRSFSMLMCGMVWVMVFLYM LPFVILKQEYHLVHSEITTCHDVVDACESPSSFRFYYFVSLAFFGFLIPFVIIIFC YTTLIHKLKSKDRIWLGYIKAVLLILVIFTICFAPTNIILVIHHANYYYHNTDSLY FMYLIALCLGSLNSCLDPFLYFVMSKVVDQLNP Sequence Length: 369 aa Uniprot Accession: O08675 Type: Multi Spanning Total MoRFs: 1 PhosphoSite: O08675 Pfam: PF00001 PROSITE: PS00237 PS50262 InterPro: IPR000276 IPR017452 IPR003943 IPR003912 SUPFAM: IntAct: DIP: MINT: MINT-261941 STRING: OMIM: DrugBank: MoRF PDB:Chain: 2PUX:C Start: 44 End: 56 Type: irregular Partner: 2PUX:B (P19221) References: 17606903 // Σχήµα 4.12: MoRFsDB Παράδειγµα Text αρχείου της ϐάσης δεδοµένων mp- 43

<Protein> <ProteinName>Proteinase-activated receptor 3</ProteinName> <GeneName>F2rl2</GeneName> <Organism>Mus musculus</organism> <Taxonomy>10090</Taxonomy> <Sequence> MKILILVAAGLLFLPVTVCQSGINVSDNSAKPTLTIKSFNGGPQNTFEEFPLSDIE GWTGATTTIKAECPEDSISTLHVNNATIGYLRSSLSTQVIPAIYILLFVVGVPANI VTLWKLSLRTKSISLVIFHTNLAIADLLFCVTLPFKIAYHLNGNNWVFGEVTCRIT TVVFYGNMYCAILILTCMGINRYLATAHPFTYQKLPKRSFSMLMCGMVWVMVFLYM LPFVILKQEYHLVHSEITTCHDVVDACESPSSFRFYYFVSLAFFGFLIPFVIIIFC YTTLIHKLKSKDRIWLGYIKAVLLILVIFTICFAPTNIILVIHHANYYYHNTDSLY FMYLIALCLGSLNSCLDPFLYFVMSKVVDQLNP </Sequence> <SequenceLength>369 aa</sequencelength> <Accession>O08675</Accession> <Type>Multi Spanning</Type> <TotalMoRFs>1</TotalMoRFs> <PhosphoSite>O08675</PhosphoSite> <Pfam>PF00001</Pfam> <PROSITE>PS00237</PROSITE> <PROSITE>PS50262</PROSITE> <InterPro>IPR000276</InterPro> <InterPro>IPR017452</InterPro> <InterPro>IPR003943</InterPro> <InterPro>IPR003912</InterPro> <MoRF> <PdbID>2PUX</PdbID> <PdbChain>C</PdbChain> <Start>44</Start> <End>56</End> <Type>irregular</Type> <Partner> <PdbID>2PUX</PdbID> <PdbChain>B</PdbChain> <Accession>P19221</Accession> </Partner> </MoRF> <Reference>17606903</Reference> </Protein> Σχήµα 4.13: MoRFsDB Παράδειγµα XML αρχείου της ϐάσης δεδοµένων mp- 44

4.2 Στατιστικά Η ϐάση δεδοµενων mpmorfsdb περιλαµβάνει συνολικά 173 µεµβρανικές πρωτεΐνες, οι οποίες περιέχουν 244 χαρακτηριστικά µοριακής α- ναγνώρισης. Η πλειονότητα των µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης είναι είτε περιφερειακές µεµβρανικές πρωτεΐνες, είτε διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη. Πιο συγκεκριµένα 71 είναι περιφερειακές µεµβρανικές πρωτεΐνες, 70 είναι διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη και 32 είναι διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη (πίνακας 4.1). Τύπος µεµβρανικής πρωτεΐνης Περιφερειακή µεµβρανική ιαµεµβρανική που διαπερνά µία ϕορά τη µεµβράνη ιαµεµβρανική που διαπερνά περισσότερες α- πό µία ϕορές τη µεµβράνη Αριθµός 71 70 32 Πίνακας 4.1: ιαχωρισµός µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. ιαχωρισµός µπορεί να γίνει και µε ϐάση τα στοιχεία δευτεροταγούς δο- µής των χαρακτηριστικών µοριακής αναγνώρισης. Στην πλειοψηφία τους δηµιουργούν είτε α-έλικες, οπότε ϑεωρούνται α-morfs είτε δε σχηµατίζουν κάποια συγκεκριµένη δοµή, οπότε ϑεωρούνται irregular-morfs. Πιο συγκεκριµένα το 33.47% των χαρακτηριστικών µοριακής αναγνώρισης κατηγοριοποιούνται ως α-morfs, το 3.83% κατηγοριοποιούνται ως β-morfs, το 60.48% κατηγοριοποιούνται ως irregular-morfs και το 2.22% κατηγο- ϱιοποιούνται ως complex-morfs (πίνακας 4.2). Από τις 173 πρωτεΐνες οι 29 είναι ιϊκές. Χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (δηλαδή µέχρι 30 αµινοξικά κατάλοιπα) εµφανίζονται σε 114 από τις 173 µεµβρανικές πρωτεΐνες, ενώ µεγάλου µήκους (δηλαδή πάνω από 30 αµινοξικά κατάλοιπα) εµφανίζονται σε 72 από τις 173 µεµβρανικές πρωτεΐνες (εικόνα 4.14). 45

Χαρακτηριστικά µοριακής αναγνώρισης Ποσοστά α-morf 33.47% β-morf 3.83% irregular-morf 60.48% complex-morf 2.22% Πίνακας 4.2: ιαχωρισµός χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής 72 114 0 20 40 60 80 100 120 140 160 180 Σχήµα 4.14: Με κόκκινο χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (µέχρι 30 αµινοξικά κατάλοιπα). Με µπλε χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτη- ϱιστικά µοριακής αναγνώρισης µεγάλου µήκους (πάνω από 30 αµινοξικά κατάλοιπα). Από τις 70 διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη οι 17 έχουν ϱόλο υποδοχέα (receptors), ενώ από τις 32 διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη οι 7 είναι υποδοχείς (receptors), ενώ από τις 71 περιφερειακές µεµβρανικές πρωτεΐνες οι 3 είναι υποδοχείς (receptors) (πίνακας 4.3). Τύπος µεµβρανικής πρωτεΐνης Περιφερειακή µεµβρανική ιαµεµβρανική που διαπερνά µία ϕο- ϱά τη µεµβράνη ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη Αριθµός Ποσοστό 3/71 4.23% 17/70 24.29% 7/32 21.86% Πίνακας 4.3: Ποσοστά υποδοχέων στις µεµβρανικές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης. Από τις 32 διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη οι 13 λειτουργούν ως κανάλια ιόντων. Οι περισσότερες από 46

αυτές (9/13) είναι κανάλια καλίου. Από τις 173 πρωτεΐνες οι 75 προέρχονται από τον άνθρωπο. Από αυτές οι 23 είναι περιφερειακές µεµβρανικές πρωτεΐνες, οι 41 είναι διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη και οι 15 είναι διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη (πίνακας 4.4). Και οι 75 έχουν σύνδεσµο προς τη ϐάση δεδοµένων OMIM [97]. Τύπος µεµβρανικής πρωτεΐνης Περιφερειακή µεµβρανική ιαµεµβρανική που διαπερνά µία ϕορά τη µεµβράνη ιαµεµβρανική που διαπερνά περισσότερες α- πό µία ϕορές τη µεµβράνη Αριθµός 23 41 15 Πίνακας 4.4: ιαχωρισµός µεµβρανικών πρωτεϊνών (οργανισµός Homo sapiens) που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. Αν µελετήσουµε τις πρωτεΐνες της ϐάσης mpmorfsdb ως προς τις λειτουργίες τους, ϑα παρατηρήσουµε ότι εµπλέκονται κυρίως στην πρόσδεση (binding) πρωτεϊνών και µικρών µορίων κάτι το οποίο είναι αναµενόµενο. Κάποιες άλλες σηµαντικές λειτουργίες ακολουθούν. Αυτές είναι καταλυτική δραστικότητα (catalytic activity), ϱύθµιση λειτουργίας καναλιών (channel regulator activity), ενζυµική δραστικότητα (enzyme regulator activity), δράση υποδοχέα (receptor activity), µετατροπή σήµατος (signal transducer activity), δοµικός ϱόλος (structural molecule activity), ϱόλο µεταφορέα (transporter activity). 47

48

Κεφάλαιο 5 Συµπεράσµατα - Μελλοντική Εργασία Η παρούσα εργασία κάλυψε ένα µικρό κενό στον ϱαγδαία αναπτυσσόµενο τοµέα των εγγενώς µη δοµηµένων πρωτεϊνών. Η δηµιουργία της ϐάσης δεδοµένων mpmorfsdb [3] ϑα ϐοηθήσει στην περαιτέρω µελέτη των µεµβρανικών πρωτεϊνών που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης και ϑα ϐοηθήσει στην περαιτέρω µελέτη των εγγενώς µη δοµηµένων πρωτεϊνών [104]. Παρόλη τη χρησιµότητα της ϐάσης, η mpmorfsdb είναι µια πολύ ε- ξειδικευµένη ϐάση δεδοµένων. Αυτό το οποίο ϑα µπορούσε να γίνει στο µέλλον είναι η δηµιουργία µιας ϐάσης δεδοµένων που να περιλαµβάνει γενικά πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης. Τέλος τα δεδοµένα της ϐάσης mpmorfsdb µπορούν να αξιοποιηθούν σε αλγόριθµους πρόγνωσης για τον προσδιορισµό χαρακτηριστικών µοριακής αναγνώρισης σε άγνωστες πρωτεΐνες. 49

50

Κεφάλαιο 6 Βιβλιογραφία [1] Α. Mohan, C. J. Oldfield, P. Radivojac, V. Vacic, M. S. Cortese, A. K. Dunker, and V. N. Uversky Journal of molecular biology. [2] I. Kotta-Loizou, G. N. Tsaousis, and S. J. Hamodrakas, Analysis of Molecular Recognition Features (MoRFs) in membrane proteins., Biochimica et biophysica acta, vol. null, pp. 798 807, Apr. 2013. [3] F. Gypas, G. N. Tsaousis, and S. J. Hamodrakas, mpmorfsdb: A database of Molecular Recognition Features in Membrane Proteins, Bioinformatics, July 2013. [4] V. N. Uversky, Intrinsically disordered proteins from A to Z., The international journal of biochemistry & cell biology, vol. 43, pp. 1090 103, Aug. 2011. [5] P. Romero, Z. Obradovic, C. R. Kissinger, J. E. Villafranca, E. Garner, S. Guilliot, and A. K. Dunker, Thousands of proteins likely to have long disordered regions., Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, pp. 437 48, Jan. 1998. [6] C. J. Oldfield, Y. Cheng, M. S. Cortese, P. Romero, V. N. Uversky, and A. K. Dunker, Coupled folding and binding with alpha-helixforming molecular recognition elements., Biochemistry, vol. 44, pp. 12454 70, Sept. 2005. [7] A. K. Dunker, Z. Obradovic, P. Romero, E. C. Garner, and C. J. Brown, Intrinsic protein disorder in complete genomes., Genome 51

informatics. Workshop on Genome Informatics, vol. 11, pp. 161 71, Jan. 2000. [8] D. F. Clayton and J. M. George, The synucleins: a family of proteins involved in synaptic function, plasticity, neurodegeneration and disease, Trends in Neurosciences, vol. 21, pp. 249 254, June 1998. [9] A. K. Dunker, J. D. Lawson, C. J. Brown, R. M. Williams, P. Romero, J. S. Oh, C. J. Oldfield, A. M. Campen, C. M. Ratliff, K. W. Hipps, J. Ausio, M. S. Nissen, R. Reeves, C. Kang, C. R. Kissinger, R. W. Bailey, M. D. Griswold, W. Chiu, E. C. Garner, and Z. Obradovic, Intrinsically disordered protein., Journal of molecular graphics & modelling, vol. 19, pp. 26 59, Jan. 2001. [10] R. M. Williams, Z. Obradovi, V. Mathura, W. Braun, E. C. Garner, J. Young, S. Takayama, C. J. Brown, and A. K. Dunker, The protein non-folding problem: amino acid determinants of intrinsic order and disorder., Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, pp. 89 100, Jan. 2001. [11] P. Romero, Z. Obradovic, X. Li, E. C. Garner, C. J. Brown, and A. K. Dunker, Sequence complexity of disordered protein., Proteins, vol. 42, pp. 38 48, Jan. 2001. [12] P. Radivojac, L. M. Iakoucheva, C. J. Oldfield, Z. Obradovic, V. N. Uversky, and A. K. Dunker, Intrinsic disorder and functional proteomics., Biophysical journal, vol. 92, pp. 1439 56, Mar. 2007. [13] V. Vacic, V. N. Uversky, A. K. Dunker, and S. Lonardi, Composition Profiler: a tool for discovery and visualization of amino acid composition differences., BMC bioinformatics, vol. 8, p. 211, Jan. 2007. [14] A. K. Dunker, M. S. Cortese, P. Romero, L. M. Iakoucheva, and V. N. Uversky, Flexible nets. The roles of intrinsic disorder in protein interaction networks., The FEBS journal, vol. 272, pp. 5129 48, Oct. 2005. [15] V. N. Uversky, C. J. Oldfield, and A. K. Dunker, Showing your ID: intrinsic disorder as an ID for recognition, regulation and cell signaling., Journal of molecular recognition : JMR, vol. 18, no. 5, pp. 343 84. 52

[16] A. Patil and H. Nakamura, Disordered domains and high surface charge confer hubs with the ability to interact with multiple proteins in interaction networks., FEBS letters, vol. 580, pp. 2041 5, Apr. 2006. [17] D. Ekman, S. Light, A. K. Björklund, and A. Elofsson, What properties characterize the hub proteins of the protein-protein interaction network of Saccharomyces cerevisiae?, Genome biology, vol. 7, p. R45, Jan. 2006. [18] C. Haynes, C. J. Oldfield, F. Ji, N. Klitgord, M. E. Cusick, P. Radivojac, V. N. Uversky, M. Vidal, and L. M. Iakoucheva, Intrinsic disorder is a common feature of hub proteins from four eukaryotic interactomes., PLoS computational biology, vol. 2, p. e100, Aug. 2006. [19] Z. Dosztányi, J. Chen, A. K. Dunker, I. Simon, and P. Tompa, Disorder and sequence repeats in hub proteins and their implications for network evolution., Journal of proteome research, vol. 5, pp. 2985 95, Nov. 2006. [20] G. P. Singh, M. Ganapathi, and D. Dash, Role of intrinsic disorder in transient interactions of hub proteins., Proteins, vol. 66, pp. 761 5, Mar. 2007. [21] G. P. Singh and D. Dash, Intrinsic disorder in yeast transcriptional regulatory network., Proteins, vol. 68, pp. 602 5, Aug. 2007. [22] V. N. Uversky, C. J. Oldfield, and A. K. Dunker, Intrinsically disordered proteins in human diseases: introducing the D2 concept., Annual review of biophysics, vol. 37, pp. 215 46, Jan. 2008. [23] U. Midic, C. J. Oldfield, A. K. Dunker, Z. Obradovic, and V. N. Uversky, Protein disorder in the human diseasome: unfoldomics of human genetic diseases., BMC genomics, vol. 10 Suppl 1, p. S12, Jan. 2009. [24] V. N. Uversky, A. Roman, C. J. Oldfield, and A. K. Dunker, Protein intrinsic disorder and human papillomaviruses: increased amount of disorder in E6 and E7 oncoproteins from high risk HPVs., Journal of proteome research, vol. 5, pp. 1829 42, Aug. 2006. 53

[25] L. M. Iakoucheva, C. J. Brown, J. D. Lawson, Z. Obradović, and A. K. Dunker, Intrinsic disorder in cell-signaling and cancerassociated proteins., Journal of molecular biology, vol. 323, pp. 573 84, Oct. 2002. [26] Y. Cheng, T. LeGall, C. J. Oldfield, A. K. Dunker, and V. N. Uversky, Abundance of intrinsic disorder in protein associated with cardiovascular disease., Biochemistry, vol. 45, pp. 10448 60, Sept. 2006. [27] V. N. Uversky, Intrinsic disorder in proteins associated with neurodegenerative diseases., Frontiers in bioscience : a journal and virtual library, vol. 14, pp. 5188 238, Jan. 2009. [28] A. Mohan, W. J. Sullivan, P. Radivojac, A. K. Dunker, and V. N. Uversky, Intrinsic disorder in pathogenic and non-pathogenic microbes: discovering and analyzing the unfoldomes of earlybranching eukaryotes., Molecular biosystems, vol. 4, pp. 328 40, Apr. 2008. [29] B. Xue, R. W. Williams, C. J. Oldfield, G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, Viral disorder or disordered viruses: do viral proteins possess unique features?, Protein and peptide letters, vol. 17, pp. 932 51, Aug. 2010. [30] G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, A comparative analysis of viral matrix proteins using disorder predictors., Virology journal, vol. 5, p. 126, Jan. 2008. [31] G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, Protein intrinsic disorder and influenza virulence: the 1918 H1N1 and H5N1 viruses., Virology journal, vol. 6, p. 69, Jan. 2009. [32] P. Tompa, Intrinsically unstructured proteins., Trends in biochemical sciences, vol. 27, pp. 527 33, Oct. 2002. [33] P. Tompa and P. Csermely, The role of structural disorder in the function of RNA and protein chaperones., FASEB journal : official publication of the Federation of American Societies for Experimental Biology, vol. 18, pp. 1169 75, Aug. 2004. [34] A. K. Dunker, C. J. Brown, and Z. Obradovic, Identification and functions of usefully disordered proteins., Advances in protein chemistry, vol. 62, pp. 25 49, Jan. 2002. 54

[35] A. K. Dunker, C. J. Brown, J. D. Lawson, L. M. Iakoucheva, and Z. Obradović, Intrinsic disorder and protein function., Biochemistry, vol. 41, pp. 6573 82, May 2002. [36] M. Sickmeier, J. A. Hamilton, T. LeGall, V. Vacic, M. S. Cortese, A. Tantos, B. Szabo, P. Tompa, J. Chen, V. N. Uversky, Z. Obradovic, and A. K. Dunker, DisProt: the Database of Disordered Proteins., Nucleic acids research, vol. 35, pp. D786 93, Jan. 2007. [37] M. Y. Lobanov, B. A. Shoemaker, S. O. Garbuzynskiy, J. H. Fong, A. R. Panchenko, and O. V. Galzitskaya, ComSin: database of protein structures in bound (complex) and unbound (single) states in relation to their intrinsic disorder., Nucleic acids research, vol. 38, pp. D283 7, Jan. 2010. [38] T. Di Domenico, I. Walsh, A. J. M. Martin, and S. C. E. Tosatto, MobiDB: a comprehensive database of intrinsic protein disorder annotations., Bioinformatics (Oxford, England), vol. 28, pp. 2080 1, Aug. 2012. [39] M. E. Oates, P. Romero, T. Ishida, M. Ghalwash, M. J. Mizianty, B. Xue, Z. Dosztányi, V. N. Uversky, Z. Obradovic, L. Kurgan, A. K. Dunker, and J. Gough, D 2 P 2 : database of disordered protein predictions., Nucleic acids research, vol. 41, pp. D508 16, Nov. 2013. [40] H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov, and P. E. Bourne, The Protein Data Bank., Nucleic acids research, vol. 28, pp. 235 42, Jan. 2000. [41] Z. R. Yang, R. Thomson, P. McNeil, and R. M. Esnouf, RONN: the bio-basis function neural network technique applied to the detection of natively disordered regions in proteins., Bioinformatics (Oxford, England), vol. 21, pp. 3369 76, Aug. 2005. [42] Romero, Obradovic, and K. Dunker, Sequence Data Analysis for Long Disordered Regions Prediction in the Calcineurin Family., Genome informatics. Workshop on Genome Informatics, vol. 8, pp. 110 124, Jan. 1997. [43] R. Linding, R. B. Russell, V. Neduva, and T. J. Gibson, GlobPlot: Exploring protein sequences for globularity and disorder., Nucleic 55

acids research, vol. 31, pp. 3701 8, July 2003. [44] R. Linding, L. J. Jensen, F. Diella, P. Bork, T. J. Gibson, and R. B. Russell, Protein disorder prediction: implications for structural proteomics., Structure (London, England : 1993), vol. 11, pp. 1453 9, Nov. 2003. [45] D. T. Jones and J. J. Ward, Prediction of disordered regions in proteins from position specific score matrices., Proteins, vol. 53 Suppl 6, pp. 573 8, Jan. 2003. [46] J. J. Ward, J. S. Sodhi, L. J. McGuffin, B. F. Buxton, and D. T. Jones, Prediction and functional analysis of native disorder in proteins from the three kingdoms of life., Journal of molecular biology, vol. 337, pp. 635 45, Mar. 2004. [47] J. Hecker, J. Y. Yang, and J. Cheng, Protein disorder prediction at multiple levels of sensitivity and specificity., BMC genomics, vol. 9 Suppl 1, p. S9, Jan. 2008. [48] Z. Dosztányi, V. Csizmok, P. Tompa, and I. Simon, IUPred: web server for the prediction of intrinsically unstructured regions of proteins based on estimated energy content., Bioinformatics (Oxford, England), vol. 21, pp. 3433 4, Aug. 2005. [49] J. Cheng, M. J. Sweredoski, and P. Baldi, Accurate Prediction of Protein Disordered Regions by Mining Protein Structure Data, Data Mining and Knowledge Discovery, vol. 11, pp. 213 222, July 2005. [50] J. Prilusky, C. E. Felder, T. Zeev-Ben-Mordehai, E. H. Rydberg, O. Man, J. S. Beckmann, I. Silman, and J. L. Sussman, FoldIndex: a simple tool to predict whether a given protein sequence is intrinsically unfolded., Bioinformatics (Oxford, England), vol. 21, pp. 3435 8, Aug. 2005. [51] O. V. Galzitskaya, S. O. Garbuzynskiy, and M. Y. Lobanov, FoldUnfold: web server for the prediction of disordered regions in protein chain., Bioinformatics (Oxford, England), vol. 22, pp. 2948 9, Dec. 2006. [52] A. Vullo, O. Bortolami, G. Pollastri, and S. C. E. Tosatto, Spritz: a server for the prediction of intrinsically disordered regions in pro- 56

tein sequences using kernel machines., Nucleic acids research, vol. 34, pp. W164 8, July 2006. [53] C.-T. Su, C.-Y. Chen, and Y.-Y. Ou, Protein disorder prediction by condensed PSSM considering propensity for order or disorder., BMC bioinformatics, vol. 7, p. 319, Jan. 2006. [54] C.-T. Su, C.-Y. Chen, and C.-M. Hsu, ipda: integrated protein disorder analyzer., Nucleic acids research, vol. 35, pp. W465 72, July 2007. [55] T. Ishida and K. Kinoshita, PrDOS: prediction of disordered protein regions from amino acid sequence., Nucleic acids research, vol. 35, pp. W460 4, July 2007. [56] A. Schlessinger, J. Liu, and B. Rost, Natively unstructured loops differ from other loops., PLoS computational biology, vol. 3, p. e140, July 2007. [57] K. Shimizu, S. Hirose, and T. Noguchi, POODLE-S: web application for predicting protein disorder by using physicochemical features and reduced amino acid set of a position-specific scoring matrix., Bioinformatics (Oxford, England), vol. 23, pp. 2337 8, Sept. 2007. [58] S. Hirose, K. Shimizu, S. Kanai, Y. Kuroda, and T. Noguchi, POODLE-L: a two-level SVM prediction system for reliably predicting long disordered regions., Bioinformatics (Oxford, England), vol. 23, pp. 2046 53, Aug. 2007. [59] A. Bulashevska and R. Eils, Using Bayesian multinomial classifier to predict whether a given protein sequence is intrinsically disordered., Journal of theoretical biology, vol. 254, pp. 799 803, Oct. 2008. [60] J. Y. Yang and M. Q. Yang, Predicting protein disorder by analyzing amino acid sequence., BMC genomics, vol. 9 Suppl 2, p. S8, Jan. 2008. [61] L. Wang and U. H. Sauer, OnD-CRF: predicting order and disorder in proteins using [corrected] conditional random fields., Bioinformatics (Oxford, England), vol. 24, pp. 1401 2, June 2008. 57

[62] L. J. McGuffin, Intrinsic disorder prediction from the analysis of multiple protein fold recognition models., Bioinformatics (Oxford, England), vol. 24, pp. 1798 804, Aug. 2008. [63] A. Schlessinger, M. Punta, G. Yachdav, L. Kajan, and B. Rost, Improved disorder prediction by combination of orthogonal approaches., PloS one, vol. 4, p. e4433, Jan. 2009. [64] B. Xue, C. J. Oldfield, A. K. Dunker, and V. N. Uversky, CDF it all: consensus prediction of intrinsically disordered proteins based on various cumulative distribution functions., FEBS letters, vol. 583, pp. 1469 74, May 2009. [65] B. Xue, R. L. Dunbrack, R. W. Williams, A. K. Dunker, and V. N. Uversky, PONDR-FIT: a meta-predictor of intrinsically disordered amino acids., Biochimica et biophysica acta, vol. 1804, pp. 996 1010, Apr. 2010. [66] V. Vacic, C. J. Oldfield, A. Mohan, P. Radivojac, M. S. Cortese, V. N. Uversky, and A. K. Dunker, Characterization of molecular recognition features, MoRFs, and their binding partners., Journal of proteome research, vol. 6, pp. 2351 66, June 2007. [67] Y. Cheng, C. J. Oldfield, J. Meng, P. Romero, V. N. Uversky, and A. K. Dunker, Mining alpha-helix-forming molecular recognition features with cross species sequence alignments., Biochemistry, vol. 46, pp. 13468 77, Nov. 2007. [68] F. M. Disfani, W.-L. Hsu, M. J. Mizianty, C. J. Oldfield, B. Xue, A. K. Dunker, V. N. Uversky, and L. Kurgan, MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins., Bioinformatics (Oxford, England), vol. 28, pp. i75 i83, June 2012. [69] Z. Dosztányi, B. Mészáros, and I. Simon, ANCHOR: web server for predicting protein binding regions in disordered proteins., Bioinformatics (Oxford, England), vol. 25, pp. 2745 6, Oct. 2009. [70] B. Mészáros, I. Simon, and Z. Dosztányi, Prediction of protein binding regions in disordered proteins., PLoS computational biology, vol. 5, p. e1000376, May 2009. [71] C. Fang, Y. Hayato, and T. Noguchi, Sequence-Based Prediction of Molecular Recognition Features in Disordered Proteins - Vol- 58

ume 2, No. 2, June 2013 - Journal of Medical and Bioengineering (JOMB), 2013. [72] D. Marsh, L. I. Horváth, M. J. Swamy, S. Mantripragada, and J. H. Kleinschmidt, Interaction of membrane-spanning proteins with peripheral and lipid-anchored membrane proteins: perspectives from protein-lipid interactions (Review)., Molecular membrane biology, vol. 19, no. 4, pp. 247 55. [73] L. Wall, T. Christiansen, and R. L. Schwartz, Programming Perl, 1996. [74] D. Axmark and M. Widenius, MySQL Introduction, Linux Journal, 1999. [75] T. Berners-lee, The World Wide Web: Past, Present and Future, Journal of Digital Information, 1996. [76] R. Lerdorf, A. Gutmans, and Z. Suraski, History of PHP and related projects, 1995. [77] M. Chang, E. Smith, R. Reitmaier, M. Bebenita, A. Galy, C. Wimmer, B. Eich, and M. Franz, Trace Compilation for the Next Generation Web Applications, [78] K. Arnold, J. Gosling, and D. Holmes, The Java Programming Language, 4th Edition. Addison-Wesley Professional, 2005. [79] H. W. Lie and B. Bos, Cascading Style Sheets: Designing for the Web. 2005. [80] R. M. Hanson, Jmol { a paradigm shift in crystallographic visualization, Journal of Applied Crystallography, vol. 43, pp. 1250 1260, Sept. 2010. [81] D. M. Ritchie, The UNIX Timesharing SystemA Retrospective, [82] L. Torvalds and D. Diamond, Just for Fun: The Story of an Accidental Revolutionary. HarperBusiness, 2002. [83] A. Singh, Mac OS X Internals: A Systems Approach. Addison- Wesley Professional, 2006. [84] UniprotConsortium, Reorganizing the protein space at the Universal Protein Resource (UniProt)., Nucleic acids research, vol. 40, pp. D71 5, Jan. 2012. 59

[85] W. Kabsch and C. Sander, Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features., Biopolymers, vol. 22, pp. 2577 637, Dec. 1983. [86] B. Lee and F. Richards, The interpretation of protein structures: Estimation of static accessibility, Journal of Molecular Biology, vol. 55, pp. 379 IN4, Feb. 1971. [87] A. Shrake and J. Rupley, Environment and exposure to solvent of protein atoms. Lysozyme and insulin, Journal of Molecular Biology, vol. 79, pp. 351 371, Sept. 1973. [88] P. V. Hornbeck, I. Chabra, J. M. Kornhauser, E. Skrzypek, and B. Zhang, PhosphoSite: A bioinformatics resource dedicated to physiological protein phosphorylation., Proteomics, vol. 4, pp. 1551 61, June 2004. [89] M. Punta, P. C. Coggill, R. Y. Eberhardt, J. Mistry, J. Tate, C. Boursnell, N. Pang, K. Forslund, G. Ceric, J. Clements, A. Heger, L. Holm, E. L. L. Sonnhammer, S. R. Eddy, A. Bateman, and R. D. Finn, The Pfam protein families database., Nucleic acids research, vol. 40, pp. D290 301, Jan. 2012. [90] N. Hulo, A. Bairoch, V. Bulliard, L. Cerutti, E. De Castro, P. S. Langendĳk-Genevaux, M. Pagni, and C. J. A. Sigrist, The PROSITE database., Nucleic acids research, vol. 34, pp. D227 30, Jan. 2006. [91] S. Hunter, P. Jones, A. Mitchell, R. Apweiler, T. K. Attwood, A. Bateman, T. Bernard, D. Binns, P. Bork, S. Burge, E. de Castro, P. Coggill, M. Corbett, U. Das, L. Daugherty, L. Duquenne, R. D. Finn, M. Fraser, J. Gough, D. Haft, N. Hulo, D. Kahn, E. Kelly, I. Letunic, D. Lonsdale, R. Lopez, M. Madera, J. Maslen, C. McAnulla, J. McDowall, C. McMenamin, H. Mi, P. Mutowo-Muellenet, N. Mulder, D. Natale, C. Orengo, S. Pesseat, M. Punta, A. F. Quinn, C. Rivoire, A. Sangrador-Vegas, J. D. Selengut, C. J. A. Sigrist, M. Scheremetjew, J. Tate, M. Thimmajanarthanan, P. D. Thomas, C. H. Wu, C. Yeats, and S.-Y. Yong, InterPro in 2011: new developments in the family and domain prediction database., Nucleic acids research, vol. 40, pp. D306 12, Jan. 2012. [92] S. B. Pandit, R. Bhadra, V. S. Gowri, S. Balaji, B. Anand, and N. Srinivasan, SUPFAM: a database of sequence superfamilies of 60

protein domains., BMC bioinformatics, vol. 5, p. 28, Mar. 2004. [93] S. Kerrien, B. Aranda, L. Breuza, A. Bridge, F. Broackes-Carter, C. Chen, M. Duesbury, M. Dumousseau, M. Feuermann, U. Hinz, C. Jandrasits, R. C. Jimenez, J. Khadake, U. Mahadevan, P. Masson, I. Pedruzzi, E. Pfeiffenberger, P. Porras, A. Raghunath, B. Roechert, S. Orchard, and H. Hermjakob, The IntAct molecular interaction database in 2012., Nucleic acids research, vol. 40, pp. D841 6, Jan. 2012. [94] I. Xenarios, D. W. Rice, L. Salwinski, M. K. Baron, E. M. Marcotte, and D. Eisenberg, DIP: the database of interacting proteins., Nucleic acids research, vol. 28, pp. 289 91, Jan. 2000. [95] A. Zanzoni, L. Montecchi-Palazzi, M. Quondam, G. Ausiello, M. Helmer-Citterich, and G. Cesareni, MINT: a Molecular INTeraction database., FEBS letters, vol. 513, pp. 135 40, Feb. 2002. [96] D. Szklarczyk, A. Franceschini, M. Kuhn, M. Simonovic, A. Roth, P. Minguez, T. Doerks, M. Stark, J. Muller, P. Bork, L. J. Jensen, and C. von Mering, The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored., Nucleic acids research, vol. 39, pp. D561 8, Jan. 2011. [97] A. Hamosh, A. F. Scott, J. S. Amberger, C. A. Bocchini, and V. A. McKusick, Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders., Nucleic acids research, vol. 33, pp. D514 7, Jan. 2005. [98] D. S. Wishart, C. Knox, A. C. Guo, D. Cheng, S. Shrivastava, D. Tzur, B. Gautam, and M. Hassanali, DrugBank: a knowledgebase for drugs, drug actions and drug targets., Nucleic acids research, vol. 36, pp. D901 6, Jan. 2008. [99] G. N. Tsaousis, K. D. Tsirigos, X. D. Andrianou, T. D. Liakopoulos, P. G. Bagos, and S. J. Hamodrakas, ExTopoDB: a database of experimentally derived topological models of transmembrane proteins., Bioinformatics (Oxford, England), vol. 26, pp. 2490 2, Oct. 2010. [100] T. N. Petersen, S. r. Brunak, G. von Heĳne, and H. Nielsen, SignalP 4.0: discriminating signal peptides from transmembrane regions., Nature methods, vol. 8, pp. 785 6, Jan. 2011. 61

[101] A. Bernsel, H. Viklund, A. Hennerdal, and A. Elofsson, TOP- CONS: consensus prediction of membrane protein topology, Nucleic Acids Research, vol. 37, pp. W465 W468, May 2009. [102] L. Käll, A. Krogh, and E. L. L. Sonnhammer, A combined transmembrane topology and signal peptide prediction method., Journal of molecular biology, vol. 338, pp. 1027 36, May 2004. [103] D. W. Mount, Using the Basic Local Alignment Search Tool (BLAST)., CSH protocols, vol. 2007, p. pdb.top17, Jan. 2007. [104] K. A. Dill and J. L. MacCallum, The protein-folding problem, 50 years on., Science (New York, N.Y.), vol. 338, pp. 1042 6, Dec. 2012. 62

Παράρτηµα Α ηµοσιεύσεις και Συνέδρια ηµοσιεύσεις σε Επιστηµονικά Περιοδικά µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, and Stavros J. Hamodrakas mpmorfsdb: A database of Molecular Recognition Features in Membrane Proteins Bioinformatics first published online July 26, 2013 doi:10.1093/bioinformatics/btt427 [3] Ανακοινώσεις σε ιεθνή Συνέδρια µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas mpmorfsdb: A database of molecular recognition features (MoRFs) in membrane proteins. Joint 21st Annual International Conference on Intelligent Systems for Molecular Biology and 12th Annual European Conference on Computational Biology (ISMB/ECCB) 2013, 21-23 Jul 2013. 63

mpmorfsdb: A database of Molecular Recognition Features in membrane proteins Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas Department of Cell Biology and Biophysics, Faculty of Biology, University of Athens, Athens, 157 01 Greece Intrinsically Disordered Proteins - IDPs Database Intrinsically Disordered Proteins (IDPs) [1] possess no rigit 3D structure under physiological conditions, yet they are functionally active. IDPs are separated in fully disordered proteins and partially disordered proteins. Partially disordered proteins contain Intrinsically Disordered Regions (IDRs). Molecular Recognition Features - MoRFs Molecular Recognition Features (MoRFs) [2] are small regions (between 10 and 70 residues) in proteins that undergo a disorder-to-order transition upon binding to their partners. Proteins containing MoRFs play an important role in molecular recognition. When they are bound to their partners, MoRFs can take various shapes according to their secondary structure. They can form alpha helices (αmorfs), beta strands (β-morfs), irregular structures (i-morfs) or combination of previous forms (complex-morfs). Figure 1. Categories of MoRFs based on secondary structure. PDB IDs from left to right: 1BXL, 2ZPY, 1A6A, 1YBO Figure 3. In the main page of mpmorfsdb, a user may find links to the following tools: Search, Browse, Blast Search and Download. Through the Browse page the user has the ability to browse all the entries. Moreover, there is an option for browsing by membrane protein type (transmembrane or peripheral) or by the secondary structure of MoRFs (α-morfs, β-morfs, i-morfs and complex-morfs). Figure 4. Through Search, the user may submit advanced queries, whereas through Blast Search, we provide an interface for running Blast searches against the database. Membrane Proteins Membrane proteins constitute approximately 30% of fully sequenced proteomes and are responsible for a wide variety of cellular functions, including cell signaling and binding. Figure 5. Entries related to the previous advanced query are retrieved. Figure 2. Categories of membrane proteins. Membrane proteins are separated in three main categories: I Transmembrane proteins that span the lipid bilayer. I Peripheral membrane proteins that are non-covalently associated with transmembrane proteins and/or lipids. I Lipid-Anchored proteins that are covalently anchored to lipids. Transmembrane proteins are separated in two categories: I Single-Spanning proteins that span the lipid bilayer once. I Multi-Spanning proteins that span the lipid bilayer more than once. Motivation The aim of this work was to collect, organize and store all membrane proteins that contain MoRFs [3]. Methodology 1. An initial dataset was constructed from the Protein Data Bank (PDB), following the methodology proposed by Mohan et al [2]. 2. We retrieved protein complexes containing at least 2 entities with one chain varying from 10 to 70 residues and a second one having length over 100 residues. 3. We further removed proteins where the MoRF s sequence contained errors or not valid amino acid residues. 4. Membrane proteins were selected using Uniprot s annotation. 5. We used the secondary structure assignment and the Accessible Surface Area (ASA) values inferred by DSSP in order to categorize MoRFs and to evaluate whether a MoRF can interact with its possible partner, respectively. 6. The position of transmembrane protein MoRFs in relation to the protein s topology was determined. 7. Finally, we organized all data in a publicly available mysql database, with a user-friendly web interface based on HTML, CSS, PHP and Javascript. Figure 6. Each entry contains information about the respective membrane protein and related MoRFs. A Jmol applet is integrated for visualization of the structures and cross-references to many publicly available databases are included. In addition, another important feature of mpmorfsdb is that it provides the exact location of MoRFs along the sequence of membrane proteins. More interestingly, in transmembrane proteins, mpmorfsdb provides protein topology information and the location of MoRFs in respect to the transmembrane topology of the proteins. This way, users can observe whether transmembrane protein MoRFs are located in extracellular or cytoplasmic loop regions as well as their distance from the transmembrane segments. Statistics The database includes 173 membrane proteins containing 244 MoRFs. Membrane proteins are devided to 102 transmembrane proteins and 71 peripheral. References 1. Uversky VN. Intrinsically disordered proteins from A to Z. Int J Biochem Cell Biol. 2011 Aug;43(8):1090-103. doi: 10.1016/j.biocel.2011.04.001. Epub 2011 Apr 8. Review. PubMed PMID: 21501695. 2. Mohan A, Oldfield CJ, Radivojac P, Vacic V, Cortese MS, Dunker AK, Uversky VN. Analysis of molecular recognition features (MoRFs). J Mol Biol. 2006 Oct 6;362(5):1043-59. Epub 2006 Aug 4. PubMed PMID: 16935303. 3. Kotta-Loizou I, Tsaousis GN, Hamodrakas SJ. Analysis of Molecular Recognition Features (MoRFs) in membrane proteins. Biochim Biophys Acta. 2013 Apr;1834(4):798-807. doi: 10.1016/j.bbapap.2013.01.006. Epub 2013 Jan 15. PubMed PMID: 23328413. 4. Disfani FM, Hsu WL, Mizianty MJ, Oldfield CJ, Xue B, Dunker AK, Uversky VN, Kurgan L. MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins. Bioinformatics. 2012 Jun 15;28(12):i75-83. doi: 10.1093/bioinformatics/bts209. PubMed PMID: 22689782; PubMed Central PMCID: PMC3371841. Funding The present work was funded by SYNERGASIA 2009 co-funded by the European Regional Development Fund and National resources (Project Code 09SYN-13-999, G.S.R.T. of the Greek Ministry of Education and Religious Affairs, Culture and Sports). Figure 7. Left: Classification of proteins according to membrane protein type. Right: Classification of MoRFs according to secondary structure. Link to mpmorfsdb http://bioinformatics.biol.uoa.gr/mpmorfsdb/ ISMB/ECCB 2013-21st Annual International Conference on Intelligent Systems for Molecular Biology - 12th European Conference on Computational Biology, July 21-23, 2013, Berlin, Germany