ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ



Σχετικά έγγραφα
Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση:

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ

Βιολογία Γενικής Παιδείας Β Λυκείου

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

Βιολογία Β Λυκείου θέματα

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01%

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

Ανάπτυξη ιαδικτυακής Εφαρµογής µε σκοπό τη Βέλτιστη Ταυτοποίηση Πεπτιδίων και Πρωτεϊνών από εδοµένα Πρωτεωµικής Ανάλυσης. Πανεπιστήµιο Πατρών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΚΕΦΑΛΑΙΟ 2 ΚΥΤΤΑΡΟ: Η ΘΕΜΕΛΙΩΔΗΣ ΜΟΝΑΔΑ ΤΗΣ ΖΩΗΣ ΘΕΜΑ Β 1. Η εικόνα απεικονίζει τμήμα μιας δομής του κυττάρου.

CO 2 H 2 O O 2 C 6 H 12 O 6 ATP ADP DNA NADPH - TAC AAA CAT CCC GGG TTT ATT

Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν;

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ. Καρβουντζή Ηλιάνα Βιολόγος

Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

Κεφάλαιο 1. Οι δομικοί λίθοι

ΚΕΦΑΛΑΙΟ 1. Οργάνωση της ζωής βιολογικά συστήματα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

ΒΙΟΧΗΜΕΙΑ ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΩΝ ΒΙΟΛΟΓΙΚΩΝ ΜΟΡΙΩΝ. Στοιχείο O C H N Ca P K S Na Mg περιεκτικότητα % ,5 1 0,35 0,25 0,15 0,05

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

ΒΙΟΧΗΜΕΙΑ Ι. ΚΕΦΑΛΑΙΟ 2 ο Βιοχημική εξέλιξη

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό

Β. ΚΑΜΙΝΕΛΛΗΣ ΒΙΟΛΟΓΙΑ. Είναι η επιστήμη που μελετά τους ζωντανούς οργανισμούς. (Αποτελούνται από ένα ή περισσότερα κύτταρα).

Κεφάλαιο 1: Το Γενετικό Υλικό 1.

ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ

και χρειάζεται μέσα στο ρύθμιση εναρμόνιση των διαφόρων ενζυμικών δραστηριοτήτων. ενζύμων κύτταρο τρόπους

ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση.

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

ΠΤΡΗΝΑ ΣΟΤ ΚΤΣΣΑΡΟΤ: ΔΟΜΗ, ΛΕΙΣΟΤΡΓΙΑ, ΔΙΑΚΙΝΗΗ ΤΣΑΣΙΚΩΝ ΔΙΑΜΕΟΤ ΣΗ ΠΤΡΗΝΙΚΗ ΜΕΜΒΡΑΝΗ

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

ΒΑΣΙΚΕΣ ΔΟΜΕΣ - ΤΟ ΚΥΤΤΑΡΟ

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ.-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

Κωνσταντίνος Π. (Β 2 ) ΚΕΦΑΛΑΙΟ 3: ΜΕΤΑΒΟΛΙΣΜΟΣ

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

ΒΙΟΛΟΓΙΑ Β ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

PROJECT:ΒΙΟΛΟΓΙΑ ΤΟ ΖΩΝΤΑΝΟ ΚΥΤΤΑΡΟ

ΟΛΛΙΝΤΖΑ ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ

Βιολογία Κατεύθυνσης Γ Λυκείου

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ. Τα χημικά μόρια που οικοδομούν τους οργανισμούς

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ

ΙΑΤΡΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΘΗΝΩΝ (ΕΚΠΑ) ΚΑΤΑΤΑΚΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΑΚ.ΕΤΟΥΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εργασία Βιολογίας. Β. Γιώργος. Εισαγωγή 3.1 ΕΝΕΡΓΕΙΑ ΚΑΙ ΟΡΓΑΝΙΣΜΟΙ. Μεταφορά ενέργειας στα κύτταρα

ΒΙΟΛΟΓΙΑ. Παραδόσεις του μαθήματος γενικής παιδείας (Β λυκείου) Επιμέλεια: ΑΡΓΥΡΗΣ ΙΩΑΝΝΗΣ Βιολόγος M.Sc. Καθηγητής 3 ου λυκ.

ΜΕΤΑΒΟΛΙΣΜΟΣ Καταβολισμός Αναβολισμός

Ερευνητική εργασία Β τετραμήνου των μαθητών: Μελαμπιανάκη Ειρήνη Νίμεσχαϊμ Κάτριν Πολόβινα Σοφία Σαμιόγλου Νικολέτα Στυλιανάκη Κωνσταντίνα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΕΡΓΑΣΙΑ ΒΙΟΛΟΓΙΑΣ 3.1 ΕΝΕΡΓΕΙΑ ΚΑΙ ΟΡΓΑΝΙΣΜΟΙ

Τράπεζα Θεμάτων Βιολογίας Β' Λυκείου Κεφάλαιο 1 ΚΕΦΑΛΑΙΟ 1

ΕΡΓΑΣΙΑ ΒΙΟΛΟΓΙΑΣ. 3.1 Ενέργεια και οργανισμοί

(αδρές αποικίες) Θέρμανση (λείες αποικίες) ζωντανά ποντίκια ζωντανά ποντίκια νεκρά ποντίκια

3.1 ΕΝΕΡΓΕΙΑ ΚΑΙ ΟΡΓΑΝΙΣΜΟΙ

Χαρίλαος Μέγας Ελένη Φωτάκη Ελευθέριος Νεοφύτου

1. Να οξειδωθούν και να παράγουν ενέργεια. (ΚΑΤΑΒΟΛΙΣΜΟΣ)

BΑΣΙΚΕΣ ΑΡΧΕΣ ΒΙΟΧΗΜΕΙΑΣ ΕΝΕΡΓΕΙΑ ΚΑΙ ΜΕΤΑΒΟΛΙΣΜΟΣ ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΩΝ ΚΥΤΤΑΡΩΝ

τα βιβλία των επιτυχιών

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

Η ζητούμενη σειρά έχει ως εξής: αδενίνη < νουκλεοτίδιο < νουκλεόσωμα < γονίδιο < χρωματίδα < χρωμόσωμα < γονιδίωμα.

ΚΥΤΤΑΡΙΚΗ ΘΕΩΡΙΑ ΣΥΓΧΡΟΝΗ ΕΚΔΟΧΗ

Γονιδιωματική. G. Patrinos

αποτελούν το 96% κ.β Ποικιλία λειτουργιών

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Οι δευτερογενείς µεταβολίτες

3.1 Ενέργεια και οργανισμοί..σελίδα Ένζυμα βιολογικοί καταλύτες...σελίδα Φωτοσύνθεση..σελίδα Κυτταρική αναπνοή.

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ ΜΑΚΡΟΜΟΡΙΑ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α

ΤΑ ΜΟΡΙΑ ΤΗΣ ΖΩΗΣ. Τι γνωρίζετε για τους υδατάνθρακες;

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ

Οι αζωτούχες βάσεις των νουκλεοτιδίων είναι:

ΠΡΩΤΕΪΝΕΣ. Φατούρος Ιωάννης Αναπληρωτής Καθηγητής

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ)

ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ... 8 ΠΡΟΒΛΗΜΑΤΑ...

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα:

Μεταβολισμός πρωτεϊνών και των αμινοξέων

πρωτεΐνες πολυμερείς ουσίες δομούν λειτουργούν λευκώματα 1.Απλές πρωτεΐνες 2.Σύνθετες πρωτεΐνες πρωτεΐδια μη πρωτεϊνικό μεταλλοπρωτεΐνες

3.1 Ενέργεια και οργανισμοί

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

Κεφαλαίο 3 ο. Μεταβολισμός. Ενέργεια και οργανισμοί

ΚΕΦΑΛΑΙΟ 1. Οργάνωση της ζωής βιολογικά συστήματα

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΣΤΗΝ ΙΑΤΡΙΚΗ

ΒΙΟΛΟΓΙΑ Β ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΠΕΡΙΛΗΨΗ ΚΕΦΑΛΑΙΟΥ 3

ΒΙΟΤΕΧΝΟΛΟΓΙΑ 1 ο ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΒΟΛΟΥ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΧΗΜΕΙΑ ΒΙΟΧΗΜΕΙΑ / Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 01/12/2013

Εργασία Βιολογίας 3.1 ΕΝΕΡΓΕΙΑ ΚΑΙ ΟΡΓΑΝΙΣΜΟΙ ΜΕΤΑΒΟΛΙΣΜΟΣ

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

Transcript:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΣΧΟΛΗ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ Ανάπτυξη υπολογιστικής μεθοδολογίας εξόρυξης, ανάλυσης και παρουσίασης δεδομένων Πρωτεωμικής καρκινικών δειγμάτων. ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ ΒΙΟΪΑΤΡΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Αναστασία Κ. Αλεξανδρίδου Αθήνα, Ιούλιος 2011

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΣΧΟΛΗ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ Ανάπτυξη υπολογιστικής μεθοδολογίας εξόρυξης, ανάλυσης και παρουσίασης δεδομένων Πρωτεωμικής καρκινικών δειγμάτων. ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Αναστασία Κ. Αλεξανδρίδου Συμβουλευτική Επιτροπή : Κωνσταντίνα Σ. Νικήτα Νικόλαος Κ. Ουζούνογλου Δημήτριος-Διονύσιος Κουτσούρης Εγκρίθηκε από την επταμελή εξεταστική επιτροπή την... Κ. Νικήτα Καθηγήτρια ΕΜΠ... Γ. Ματσόπουλος Καθηγητής ΕΜΠ... Ν. Ουζούνογλου Καθηγητής ΕΜΠ... Δ. Φωτιάδης Καθηγητής Πανεπιστημίου Ιωαννίνων... Γ. Στάμου Λέκτορας ΕΜΠ... Δ. Κουτσούρης Καθηγητής ΕΜΠ... Ηλ. Μαγκλογιάννης Επίκ. καθηγητής Πανεπιστημίου Στερεάς Ελλάδος Αθήνα, Ιούλιος 2011

... Αναστασία Κ. Αλεξανδρίδου Διδάκτωρ Βιοϊατρικής Τεχνολογίας Απαγορεύεται ρητά η χρήση, η αντιγραφή, η αποθήκευση και η διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής για εμπορικό, κερδοσκοπικό, πολεμικό σκοπό ή σκοπό που στρέφεται εναντίον των ανθρωπίνων δικαιωμάτων και αξιοπρέπειας. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης. Σε αυτή την περίπτωση, η αναφορά της πηγής προέλευσης θα ήταν απλά ικανοποίηση για τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευθεί ότι αντιπροσωπεύουν τις επίσημες θέσεις του Εθνικού Μετσόβιου Πολυτεχνείου.

Περίληψη Η ταυτοποίηση των άγνωστων πεπτιδικών ακολουθιών και των πρωτεϊνών είναι ιδιαίτερα σημαντική στο πεδίο της Πρωτεωμικής. Η μοναδικότητα των μετρούμενων μοριακών βαρών και των πεπτιδικών ακολουθιών αποκτά έναν σημαντικό ρόλο για την ταυτοποίηση των πρωτεϊνών αλλά και για την έρευνα των πρωτεϊνικών/πεπτιδικών βιοδεικτών. Τα πεπτίδια, είτε ως πρωτεϊνικά θραύσματα είτε ως φυσικές οντότητες, χαρακτηρίζονται από την ακολουθία τους και από τα λειτουργικά τους χαρακτηριστικά. Ο σκοπός αυτής της Διδακτορικής Διατριβής είναι η ανάπτυξη μιας μεθοδολογίας εξόρυξης δεδομένων για μοναδικά tags και πεπτιδικά/πρωτεϊνικά χαρακτηριστικά του ανθρώπινου πρωτεώματος καθώς επίσης η ανάλυση και η εφαρμογή αυτών των βιολογικών δεδομένων σε πρωτεϊνες που σχετίζονται με τον καρκίνο. Δημιουργήθηκε μια αποθήκη αρχείων η οποία περιέχει μοριακά βάρη με ακρίβεια 0.01 Da που συνδέονται με τις αντίστοιχες πεπτιδικές ακολουθίες ανθρώπινων πρωτεϊνών της Swiss-Prot βάσης. Αυτές οι πρωτεϊνες διασπάστηκαν εξαντλητικά παρέχοντας ανεξαρτησία στις πεπτιδικές ακολουθίες από άλλες μεθόδους που βασίζονται στην ενζυματική διάσπαση. Από αυτήν την αποθήκη δεδομένων, διαχωρίστηκαν τα μοριακά βάρη που είναι μοναδικά και φτάνουν μέχρι τα 10 kda καθώς και οι μοναδικές πεπτιδικές ακολουθίες (μέχρι 10 kda). Στα πλαίσια της αξιοποίησης των δεδομένων εξόρυξης για την ταυτοποίηση των πρωτεϊνών, αναπτύχθηκε μια ευρέως διαθέσιμη διαδικτυακή εφαρμογή. Έτσι, γίνεται η αντιστοίχιση των μοριακών βαρών υψηλής ανάλυσης με πεπτίδια και πρωτεϊνες, ανεξάρτητα από την μέθοδο διάσπασης των πρωτεϊνών με ένζυμα που έχει χρησιμοποιηθεί στο πειραματικό στάδιο με τον φασματογράφο μάζας. Επίσης υπάρχουν πολλαπλά φίλτρα που μπορούν να εφαρμοστούν για την ακρίβεια μέτρησης της μάζας, για το εύρος ισοηλεκτρικού σημείου των πρωτεϊνών και για το ταίριασμα προτύπων στις πεπτιδικές ακολουθίες. Αυτή η προσέγγιση της ταυτοποίησης των πρωτεϊνών μπορεί να χρησιμοποιηθεί συμπληρωματικά με άλλες ήδη υπάρχουσες εφαρμογές και μπορεί να δώσει ιδέες για την ανακάλυψη νέων πεπτιδίων. Μια ακόμη ευρέως διαθέσιμη διαδικτυακή εφαρμογή αναπτύχθηκε για να προσφέρει την πληροφορία της μοναδικότητας των μοριακών βαρών και των πεπτιδικών ακολουθιών στο ανθρώπινο πρωτέωμα. Όταν μια ακολουθία βρίσκεται 1

μοναδική τοτε μπορεί να γίνει αναζήτηση σε όλη την Swiss-Prot βάση για την μοναδικότητα και στους άλλους οργανισμούς. Η εφαρμογή μπορεί επίσης να αναζητήσει μοναδικά πρωτεϊνικά θραύσματα που προκύπτουν από την εζυματική διάσπαση των πρωτεϊνών και να προσφέρει την πληροφορία για όλα τα μοναδικά μοριακά βάρη και τις μοναδικές πεπτιδικές ακολουθίες που περιέχονται σε μια πρωτεϊνη. Έτσι, με το UniMaP, οι ερευνητές μπορούν να αναζητήσουν μοναδικά tags σε επίπεδο ακολουθίας και μοριακού βάρους που περιέχονται στις πρωτεϊνες. Πολλές φορές χρειάζεται η μαζική διαχείριση των πεπτιδίων από λίστες για την ταυτοποίηση των πρωτεϊνών, για την ανακάλυψη βιοδεικτών, για την παρακολούθηση της δραστηριότητας των βιομορίων, για την μελέτη της απόκρισης του ανοσοποιητικού μηχανισμού ή άλλες λειτουργίες. Για το σκοπό αυτό, αναπτύχθηκε ένας web server ο οποίος διαχειρίζεται τις πεπτιδικές λίστες, αναλύοντας τα χαρακτηριστικά των πεπτιδίων και ομαδοποιώντας τα πεπτίδια σύμφωνα μα αυτά τα χαρακτηριστικά, ενώ οπτικοποιείται η ομαδοποίηση με την χρήση ενός java applet. Το PepServe είναι ένα χρήσιμο εργαλείο για την κατανόηση της κατανομής των πεπτιδικών χαρακτηριστικών για ένα σύνολο πεπτιδίων. Τέλος, αναλύθηκαν σύνολα πρωτεϊνών που σχετίζονται με διάφορες περιπτώσεις καρκίνων, για πεπτιδικά χαρακτηριστικά και για την μοναδικότητα αυτών των πεπτιδίων που αντιστοιχούν στα χαρακτηριστικά των πρωτεϊνών. Αυτή η ανάλυση έχει σκοπό την εύρεση πιθανών προτιμήσεων σε χαρακτηριστικά και την εύρεση μοναδικών tags των πρωτεϊνών που σχετίζονται με καρκίνους. Τα μοναδικά tags μπορούν να χρησιμοποιηθούν στην ανακάλυψη βιοδεικτών και την ανάπτυξη νεων φαρμάκων για την πιο αποτελεσματική διάγνωση και θεραπεία. Λέξεις κλειδιά: ταυτοποίηση πρωτεϊνών, φασματογράφος μάζας, μοναδικό μοριακό βάρος, μοναδική πεπτιδική ακολουθία, διαδικτυακή εφαρμογή, ομαδοποίηση πεπτιδίων, java applet, αποθήκη αρχείων, SQL database, Perl διαδικασίες, δυναμικές html σελίδες, PHP. 2

Abstract The identification of unknown amino acid sequences of peptides as well as protein identification is of great importance in proteomics. The uniqueness of a measured molecular mass or peptide sequence plays a very important role in the fields of protein identification and peptide/protein-biomarker investigation. Peptides, either as protein fragments or as naturally occurring entities are characterized by their sequence and function features. The purpose of the present Ph.D. thesis is to develop a datamining method for unique tags and peptide/protein characteristics in the human proteome and to analyze and apply the derived biological data in cancer-related proteins. A file repository has been created, containing indexed information that relates molecular masses with an accuracy of 0.01 Da to the corresponding peptides existing in human proteins. These proteins have been deposited in a completely digested protein database (Swiss-Prot) providing independence from any specific enzyme/digestion method. From this repository, the unique molecular masses, ranging from 1 to 10 kda, and the unique peptide sequences from all the possible sequence fragments (up to 10 kda) have been mined. A publicly available web application has been developed which facilitates a high resolution mapping of measured molecular masses to peptides and proteins, irrespectively of the enzyme/digestion method used. Furthermore, multi-filtering may be applied in terms of measured mass tolerance, molecular mass and isoelectric point range as well as pattern matching to refine the results. This approach serves complementary to the existing solutions for protein identification and gives insights in novel peptides discovery and protein identification at the cases where the identification scores from the other approaches may be below significance threshold. Peptide Finder has been proven useful in proteomics procedures with experimental data from MALDI-TOF. In addition, another publicly available web application has been developed that offers information concerning the uniqueness of molecular masses and peptide sequences in the human proteome. When a sequence is found to be unique in humans, the application is able to search across all species querying whether this sequence is unique, not only in humans but also in other species found in the Swiss-Prot Database. The application is also able to search for unique protein fragments derived 3

computationally from enzymatic digestion driven by certain enzymes. Furthermore, the application can list all the unique masses and peptides of a given protein. Through this application, researchers are able to find unique tags, either on a molecular mass level or on a sequence level. Many times the researchers need to massively manage peptide lists concerning protein identification, biomarker discovery, bioactivity, immune response or other functionalities. A web server has beed developed that manages peptide lists in terms of feature analysis as well as interactive clustering and visualization of the given peptides. PepServe is a useful tool towards understanding peptide feature distribution among a group of peptides. Finally, cancer-related proteins have been analyzed producing peptide features and peptide feature s sequence uniqueness resulting in some feature preferences and peptide unique tags. These unique tags can be used in biomarker discovery, and novel drug development for an efficient diagnosis and treatment. Keywords: protein identification, mass spectrometry, unique molecular mass, unique peptide sequence, web application, peptide clustering, java applet, file repository, SQL database, Perl procedure, dynamic html pages, PHP. 4

Πίνακας Περιεχομένων 1 Εισαγωγή...15 2 Βιοπληροφορική...19 2.1 Μοριακή Βιολογία...20 2.1.1 Ζωντανό Κύτταρο...20 2.1.2 Μοριακές Δομικές Μονάδες...23 2.1.3 Η Ζωή του Κυττάρου...27 2.2 Βάσεις και Συστήματα Διαχείρισης Βιολογικών Δεδομένων...30 2.2.1 Βιολογικές Βάσεις Δεδομένων...31 2.2.2 Ολοκληρωμένα Συστήματα Ανάκτησης Πληροφοριών...33 2.3 Υπολογιστική Νοημοσύνη...35 2.3.1 Εξόρυξη Δεδομένων...36 2.4 Περιορισμοί και Προβλήματα...41 3 Πρωτεωμική...43 3.1 Expressed Sequence Tags (ESTs)...44 3.2 Οligonucleotide Microarrays...44 3.3 Τα Εργαλεία της Πρωτεωμικής...45 3.4 Εφαρμογές της Πρωτεωμικής...47 3.5 Πρωτεωμική Ανάλυση...48 3.6 Φασματογράφος Μάζας...51 3.6.1 Σύστημα MALDI...52 3.6.2 Μέτρα Απόδοσης Φασματογραφίας Μάζας...56 3.6.3 Αξιολόγηση του MALDI...57 3.7 Ταυτοποίηση Πρωτεΐνης με Peptide Mass Fingerprinting...57 3.7.1 Εργαλεία για Peptide Mass Fingerprinting...59 3.7.2 Αξιολόγηση Αποτελεσμάτων...60 3.8 Ανάλυση Πεπτιδικής Ακολουθίας με Tandem Mass Spectrometry...61 4 Ανάπτυξη Μεθόδων για την Υλοποίηση Εφαρμογών Πρωτεωμικής...67 4.1 Επεξεργασία Πρωτεϊνικών Ακολουθιών...69 4.2 Σχεδιασμός και Υλοποίηση της OREA Βάσης...76 4.3 Σχεδιασμός και Υλοποίηση της Αποθήκης Αρχείων HTML...77 4.4 Σχεδιασμός και Υλοποίηση Συμπληρωματικής Βάσης UniMap και Αποθήκης Αρχείου TXT...79 5 Ανάπτυξη Εφαρμογής Peptide Finder για τη Ταυτοποίηση Πεπτιδίων και Πρωτεϊνών...83 5.1 Ανάπτυξη Εφαρμογής Διαδικτύου...83 5.2 Περιγραφή της εφαρμογής...85 5.3 Ενημέρωση της εφαρμογής...97 5.4 Σύγκριση και Αξιολόγηση...99 6 Ανάπτυξη Εφαρμογής UniMaP για την Ταυτοποίηση Μοναδικών Πεπτιδικών Μοριακών Βαρών και Μοναδικών Πεπτιδικών Ακολουθιών 109 5

6.1 Ανάπτυξη Εφαρμογής Διαδικτύου...110 6.2 Περιγραφή της Εφαρμογής...112 6.3 Μοναδικότητα σε Signal και Bioactive Πεπτίδια...120 6.4 Η Ενημέρωση της Εφαρμογής...121 6.5 Σύγκριση και Αξιολόγηση...122 7 Ανάπτυξη Εφαρμογής PepServe για την Ανάλυση Πεπτιδικών Χαρακτηριστικών και την Ομαδοποίηση και Απεικόνιση των Πεπτιδίων 125 7.1 Ανάπτυξη Εφαρμογής Διαδικτύου...126 7.2 Περιγραφή της εφαρμογής...132 7.3 Παραδείγματα της Εφαρμογής...139 7.4 Σύγκριση και Αξιολόγηση...141 8 Ανάλυση Μοναδικών Πεπτιδικών Χαρακτηριστικών...143 8.1 Ιδιότητες Μοριακών Βαρών...143 8.2 Ιδιότητες Πεπτιδικών Ακολουθιών...146 9 Ανάλυση Καρκινικών Δειγμάτων...157 9.1 Καρκίνος...157 9.2 Γενετικές Βλάβες...158 9.3 Το Πρωτεωμικό προφίλ του μελανώματος...160 9.4 Το Πρωτεωμικό προφίλ του οστεοσαρκώματος...162 9.4.1 Κυτταρική Σειρά Saos2...163 9.4.2 Κυτταρική Σειρά U2OS...165 9.5 Καρκινικοί Βιοδείκτες...167 9.6 Σύγκριση και Αξιολόγηση των Καρκινικών Δειγμάτων...172 10 Συμπεράσματα και Μελλοντικές Επεκτάσεις...175 10.1 Συμπεράσματα...177 10.2 Μελλοντικές Επεκτάσεις...179 6

Λίστα Σχημάτων Σχήμα 2.1: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών....23 Σχήμα 2.2: Γραφική αναπαράσταση της ολοκλήρωσης που υλοποιεί το σύστημα Entrez....34 Σχήμα 3.1: Βιοχημικό περιεχόμενο Γενωμικής και Πρωτεωμικής....43 Σχήμα 3.2: Τα στάδια της Πρωτεωμικής Ανάλυσης....49 Σχήμα 3.3: Δομικά μέρη του Φασματογράφου Μάζας....52 Σχήμα 3.4: Σχηματική αναπαράσταση του MALDI-TOF. (Α)Διαδικασία ιονισμού. (Β)Γραμμική λειτουργία. (C)Λειτουργία με τον ανακλαστήρα...55 Σχήμα 3.5: Σχηματική αναπαράσταση της τεχνικής του peptide mass fingerprinting [13]...58 Σχήμα 3.6: Σχηματική αναπαράσταση του πεπτιδίου με ακολουθία AVAGCAGAR. Από το μοριακό βάρος κάθε αμινοξέος προκύπτει πληροφορία για την ακολουθία του πεπτιδίου [Liebler, 2002]...61 Σχήμα 3.7: Το πεπτίδιο κόβεται μεταξύ του carbonyl oxygen και του amide nitrogen και προκύπτουν y και b ιόντα. Η τμηματοποίηση μπορεί να γίνει και σε άλλα σημεία του πεπτιδίου με τον σχηματισμό a, z και c, x ιόντων, ωστόσο η εμφάνισή τους είναι σπάνια καθώς απαιτείται περισσότερη ενέργεια [Liebler, 2002]....62 Σχήμα 3.8: Πιθανά τμήματα των b και y ιόντων. Το πεπτίδιο κόβεται στην κυστεϊνη και στη γλυκίνη και δημιουργούνται b 4 και y 5 ιόντα [Liebler, 2002]....62 Σχήμα 3.9: MS-MS φάσμα του διπλά φορτισμένου ιόντος AVAGCAGAR, όπου φαίνονται τα b και y ιόντα [Liebler, 2002]...63 Σχήμα 3.10: Σχηματική αναπαράσταση της MS-MS ανάλυσης των τμημάτων των ιόντων (MS/MS Fragment Ion Analysis) [13]....65 Σχήμα 3.11: Σχηματική αναπαράσταση του Sequest αλγορίθμου για την συσχέτιση των MS-MS φασμάτων με πεπτιδικές ακολουθίες από την Βάση Δεδομένων [Liebler, 2002]....65 Σχήμα 4.1: Διάγραμμα υλοποίησης των εφαρμογών...68 Σχήμα 4.2: Καταχώρηση πρωτεϊνης στη Swiss-Prot σε flat-file format...72 Σχήμα 4.3: Fasta format της πρωτεΐνης με AC Q8NEY8. Είναι μια περιφιλίνη (Periphilin-1) πρωτεΐνη που ανήκει στον οργανισμό HUMAN (Homo Sapiens) και προέρχεται από το γονίδιο με την ονομασία PPHLN1 (gene name-gn). Το αρχικό σύμβολο sp αντιπροσωπεύει την Βάση Swiss-Prot. Είναι εύκολα προσβάσιμη από την ιστοσελίδα της UniProt (http://www.uniprot.org/uniprot/q8ney8.fasta)....73 Σχήμα 4.4: Διάγραμμα όπου απεικονίζεται η διαδικασία της επεξεργασίας των πρωτεϊνικών ακολουθιών της Swiss-Prot. Τα δεδομένα εξόδου αυτής της διαδικασίας αποτελούν δεδομένα εισόδου για την υλοποίηση της νέας Βάσης Δεδομένων και των αρχείων αποθήκευσης html...75 Σχήμα 4.5: Διάγραμμα όπου απεικονίζεται η σχεδίαση της Βάσης Δεδομένων. Τα δεδομένα εξόδου της επεξεργασίας των πρωτεϊνικών ακολουθιών καταχωρούνται στην OREA Βάση....77 Σχήμα 4.6: Τα περιεχόμενα ενός html αρχείου στο οποίο καταχωρούνται οι πεπτιδικές ακολουθίες που έχουν μοριακό βάρος 580.29. Το αρχείο περιέχει και το AC των πρωτεϊνών από τις οποίες προέκυψαν τα πεπτίδια....78 7

Σχήμα 4.7: Διάγραμμα όπου απεικονίζεται η σχεδίαση της αποθήκης των αρχείων HTML. Τα αρχεία περιέχουν τις πεπτιδικές ακολουθίες και το AC των πρωτεϊνών από τις οποίες προέρχονται, ανάλογα με το μοριακό βάρος των πεπτιδίων...78 Σχήμα 4.8: Χαρακτηριστικά πρωτεϊνικών θραυσμάτων σε σχέση με την μοναδικότητά τους...80 Σχήμα 4.9: Απεικόνιση της Βάσης Δεδομένων που χρησιμοποιεί η εφαρμογή UniMaP. Το περιεχόμενο της Βάσης αυτής αποτελεί υποσύνολο της OREA Βάσης καθώς περιέχει τα μοριακά βάρη που έχουν συχνότητα ίση με ένα....81 Σχήμα 4.10: Διάγραμμα επεξεργασία των δεδομένων της OREA βάσης και των αρχείων αποθήκευσης για την παραγωγή των μοναδικών μοριακών βαρών και την αποθήκευσή τους σε μια νέα βάση και την παραγωγή των μοναδικών μικρότερων πεπτιδικών ακολουθιών....82 Σχήμα 5.1: Διάγραμμα όπου απεικονίζεται η σχεδίαση της διαδικτυακής εφαρμογής PeptideFinder. Η εφαρμογή δέχεται μοριακά βάρη τα οποία αναζητούνται στην OREA Βάση και από το κατάλληλο αρχείο html στην αποθήκη αρχείων προκύπτουν δυναμικές ιστοσελίδες μετά από επεξεργασία με Perl προγράμματα. Η ακολουθία μιας πρωτεΐνης μπορεί να αποκτηθεί από την Swiss-Prot με το AC της που είναι καταχωρημένο στην αποθήκη αρχείων HTML....84 Σχήμα 5.2: Το περιβάλλον της εφαρμογής PeptideFinder. Ο χρήστης ορίζει τον οργανισμό στον οποίο θα αναζητηθεί το μοριακό βάρος που εισάγεται με ακρίβεια.01dalton. Μπορεί να οριστούν και άλλες παράμετροι που βοηθούν στη βελτίωση της αξιοπιστίας των αποτελεσμάτων....86 Σχήμα 5.3: Τα αποτελέσματα του PeptideFinder για το μοριακό βάρος 7918.88 με εύρος λάθους 0.02dalton...88 Σχήμα 5.4: Ορισμένα από τα πεπτίδια που έχουν μοριακό βάρος 7918.88 και στην ακολουθία τους υπάρχουν τρεις συνεχόμενες αλανίνες (ΑΑΑ). Το πρώτο πεπτίδιο που φαίνεται ανήκει στην πρωτεΐνη Q9Y2J4 με μοριακό βάρος 85698.54dalton και ισοηλεκτρικό σημείο 7.3. Το πεπτίδιο αυτό βρέθηκε μια φορά στην πρωτεΐνη, επομένως έχει συχνότητα 1...88 Σχήμα 5.5: Ορισμένα από τα 25 πεπτίδια που βρήκε το top_peptides.pl μετά από επεξεργασία του αρχείου html της αποθήκης αρχείων. Τα πεπτίδια αυτά βρέθηκαν μόνο σε μια πρωτεΐνη το καθένα γι αυτό και έχουν όλα score 1/25=0.04, δηλαδή 4%....89 Σχήμα 5.6: Πρωτεΐνες που έχουν πεπτίδια με μοριακό βάρος 7918.88 και περιέχουν στην ακολουθία τους το ΑΑΑ. Για κάθε πρωτεΐνη δίνεται το μοριακό βάρος και το ισοηλεκτρικό της σημείο....90 Σχήμα 5.7: Η πρωτεΐνη Q9Y2J4 του ανθρώπου. Το πεπτίδιο που εμφανίζεται στο Σχήμα 4.3 και έχει μοριακό βάρος 7918.88 φαίνεται μαρκαρισμένο με κίτρινο χρώμα....90 Σχήμα 5.8: Αναζήτηση πεπτιδίων σύμφωνα με ένα εύρος μοριακών βαρών...91 Σχήμα 5.9: Αναζήτηση πρωτεΐνης από ένα σύνολο μοριακών βαρών. Έχει επιλεγεί να γίνει αναζήτηση στις πρωτεΐνες του ανθρώπου που έχουν μοριακό βάρος μεταξύ 1 και 100kDa. Το μοριακό βάρος των πεπτιδίων έχει εύρος λάθους 0.02dalton, ενώ η αποδεκτή πεπτιδική ακολουθία έχει αργινίνη (R) ή λυσίνη (K) στο τέλος....92 Σχήμα 5.10: Τα αποτελέσματα του protein identifier με UPF από τα 27 μοριακά βάρη που εισήχθησαν. Εδώ φαίνονται οι πρώτες 3 πρωτεΐνες από τις 50 και η πρώτη με AC ίσο με P10909 έχει το μεγαλύτερο score (31.1) και τα περισσότερα matches (11). Χρησιμοποιώντας τον σύνδεσμο με το AC της πρωτεΐνης, βρίσκεται ότι αυτή η πρωτεΐνη είναι η κλαστερίνη....94 8

Σχήμα 5.11: Αναζήτηση πρωτεΐνης από ένα σύνολο μοριακών βαρών ενός parent πεπτιδίου. Έχει επιλεγεί να γίνει αναζήτηση στις πρωτεΐνες του ανθρώπου που έχουν μοριακό βάρος μεταξύ 1 και 100kDa. Το μοριακό βάρος του πεπτιδίου έχει εύρος λάθους 0.02dalton και των επι μέρους μοριακών βαρών έχει εύρος λάθους 0.8dalton, ενώ η αποδεκτή πεπτιδική ακολουθία έχει αργινίνη (R) ή λυσίνη (K) στο τέλος και όχι στην αρχή....96 Σχήμα 5.12: Τα αποτελέσματα του protein identifier με MS/MS από τα 10 μοριακά βάρη που εισήχθησαν. Εδώ φαίνονται οι πρώτες 4 μοναδικές πρωτεΐνες που βρέθηκεν και η πρώτη με AC ίσο με Q14590 έχει τα περισσότερα matches (3). Χρησιμοποιώντας τον σύνδεσμο με το AC της πρωτεΐνης, βρίσκεται ότι η πρωτεΐνη αυτή είναι μια Zinc finger protein 235...96 Σχήμα 5.13: Η αύξηση των γνωστών πρωτεϊνικών ακολουθιών από το 1986 μέχρι σήμερα....98 Σχήμα 5.14: Διάγραμμα ροής για την ενημέρωση της OREA Βάσης και της αποθήκης αρχείων html. H Swiss-Prot αποθηκεύεται τοπικά και επεξεργάζεται έτσι ώστε να απομονωθούν οι πρωτείνες από συγκεκριμένο οργανισμό (human). Στη συνέχεια με την βοήθεια Perl προγραμμάτων διαγράφονται πρωτείνες, αποθηκεύονται καινούργιες και ενημερώνονται οι υπόλοιπες...99 Σχήμα 5.15: Ταυτοποίηση πρωτεΐνης από τη Mascot σύμφωνα με τα μοριακά βάρη των πεπτιδίων που έχουν μετρηθεί από την ανάλυση φασματογράφου μάζας....101 Σχήμα 5.16: Μέση τιμή μάζας και μονοϊσοτοπική σε μια ισοτοπική κατανομή. Η πρώτη κορυφή αντιστοιχεί στον 12 C, η αμέσως επόμενη σε ένα 13 C, η επόμενη σε δυο 13 C κ.κ. Οι κορυφές απέχουν 1 dalton....102 Σχήμα 5.17: Τα αποτελέσματα του PeptideFinder με την αναζήτηση των 88 μοριακών βαρών με εύρος λάθους 0.02, έκφραση ακολουθίας [RK]$ και εύρος μοριακού βάρους των πρωτεϊνών από 40 μέχρι 50kDa. Η πρώτη προτεινόμενη πρωτεΐνη είναι η α-1 αντιτρυψίνη με 24 matches και score 75.9%...107 Σχήμα 6.1: Διάγραμμα όπου απεικονίζεται η σχεδίαση της διαδικτυακής εφαρμογής UniMaP. Η εφαρμογή δέχεται μοριακά βάρη τα οποία αναζητούνται στην UniMaP Βάση και πεπτιδικές ακολουθίες οι οποίες αναζητούνατι από την αποθήκη αρχείου txt. Προκύπτουν δυναμικές ιστοσελίδες μετά από επεξεργασία με Perl προγράμματα. Η ακολουθία μιας πρωτεΐνης μπορεί να αποκτηθεί από την Swiss-Prot με το AC της που είναι καταχωρημένο στην αποθήκη αρχείου txt και στην UniMaP Βάση...111 Σχήμα 6.2: Αναζήτηση με μια λίστα από πέντε μοριακά βάρη. Έχει επιλεγέι ο οργανισμός human και εκτιμώμενο λάθος 0.02 dalton....112 Σχήμα 6.3: Το μοριακό βάρος 2799.88 είναι μοναδικό και αντιστοιχεί στην πρωτεϊνη κινάση Q13387...113 Σχήμα 6.4: Το σύνολο των μοριακών βαρών που υπάρχουν σε μια πρωτείνη η οποία ταυτοποιήθηκε με ένα ή περισσότερα μοναδικά μοριακά βάρη. Εδώ εμφανίζονται τα μοριακά βάρη που εισήγαγε ο χρήστης με συνυπολογισμό του εύρους λάθους και δεν είναι όλα μοναδικά. Επίσης ο χρήστης μπορεί να εμφανίσει την πρωτεινική ακολουθία στην οποία φαίνεται υπαγραμμισμένη η αντίστοιχη πεπτιδική ακολουθία...114 Σχήμα 6.5: Αναζήτηση πεπτιδικών ακολουθιών στον οργανισμού του ανθρώπου οι οποίες να είναι μοναδικές. Εδώ εισάγονται τρεις πεπτιδικές ακολουθίες....115 Σχήμα 6.6: Η εφαρμογή δέχθηκε τρεις πεπτιδικές ακολουθίες STELLA, SARTW και ARTARTS. Από αυτές μόνο μια ακολουθία, η STELLA είναι core μοναδική. Για τις άλλες δυο ακολουθίες ο χρήστης μπορεί να το διερευνήσει επιλέγοντας τον σύνδεσμο Check for other sequences containing or included...115 9

Σχήμα 6.7: Πίνακας με τους οργανισμούς που περιέχουν μοναδικά την ορισμένη πεπτιδική ακολουθία. Στο παράδειγμα, η πεπτιδική ακολουθία STELLA βρέθηκε στον ανθρώπινο οργανισμό (HUMAN) να είναι μια core μοναδική ακοθουθία στην πρωτείνη Q4KMX7 και ταυτόχρονα είναι μοναδική σε άλλους 15 οργανισμούς....116 Σχήμα 6.8: Πεπτιδικές ακολουθίες της πρωτεϊνης Q4KMX7 που προκύπτουν με την χρήση ενζύμων. Οι ακολουθίες αυτές είναι μοναδικές καθώς περιέχουν το core μοναδικό πεπτίδιο STELLA....117 Σχήμα 6.9: Αποτελέσματα αναζήτησης για τις ακολουθίες που δεν είναι core μοναδικές. α) Η ακολουθία SARTW που εισήγαγε ο χρήστης δεν είναι core μοναδική ούτε μοναδική γιατί περιέχεται σε άλλες core μοναδικές ακολουθίες. β) Η ακολουθία ARTARTS δεν είναι core μοναδική όμως περιέχει μια άλλη core μοναδική ακολουθία, την ARTART επομένως είναι και αυτή μοναδική...118 Σχήμα 6.10:Αναζήτηση μοναδικών χαρακτηριστικών μοριακού βάρους και μικρότερης πεπτιδικής ακολουθίας χρησιμοποιώντας ως είσοδο το AC της πρωτεΐνης...119 Σχήμα 6.11: Διάγραμμα ροής της πληροφορίας στην UniMaP εφαρμογή. Υπάρχουν τρείς τρόποι αναζήτησης: Mode 1) εισάγεται πλήθος μοριακών βαρών Mode 2) εισάγεται πλήθος πεπτιδικών ακολουθιών Mode 3) Εισάγεται AC πρωτείνης...120 Σχήμα 7.1 Το αρχείο graphml για τρια πεπτίδια τρείς κόμβους (nodes). Έχει την μορφή ενός xml αρχείου όπου δηλώνονται οι τιμές, οι κόμβοι και οι ακμές (edges) με τις τιμές των βαρών (weights)....130 Σχήμα 7.2:Διάγραμμα ροής της πληροφορίας για το PepServe....132 Σχήμα 7.3: Αναζήτηση με λίστα πρωτεινών. Οι πρωτείνες που έχουν βρεθεί θα διασπαστουν υπολογιστικά με τα ένζυμα που επιλέγει ο χρήστης...133 Σχήμα 7.4: Το PepServe δημιουργεί μια λίστα με πεπτιδικές ακολουθίες. Ένα παράδειγμα είναι η YEDK ακολουθία η οποία έχει μοριακό βάρος 553.24dalton, περιέχεται στις τρεις αφλατοξινες που εισήγαγε ο χρήστης και για κάθε πρωτείνη εμφανίζονται τα χαρακτηριστικά της πεπτιδικής ακολουθίας με τα αντίστοιχα σχόλια....134 Σχήμα 7.5: Τα χαρακτηριστικά που επιλέγει ο χρήστης για να ομαδοποιήσει τις πεπτιδικές ακολουθίες...136 Σχήμα 7.6: Η ομαδοποίηση των πεπτιδικών ακολουθιών με επιλογή δυο χαρακτηριστικών, του DNA binding και calcium binding. Τα πεπτίδια έχουν προκύψει από την διάσπαση τριών πρωτεινών που ανήκουν σε διαφορετικές οικογένειες με τρυψίνη (P14921: ETS family, P22676: Calbindin family and P62166: Recoverin family)...136 Σχήμα 7.7: Με διπλό κλίκ πάνω στον κόμβο που αντιστοιχεί στο πεπτίδιο NSDGK εκτελείται το group.pl το οποίο εμφανίζει τα χαρακτηριστικά του πεπτιδίου και όλα τα υπόλοιπα πεπτίδια που ανήκουν στην ίδια ομάδα....137 Σχήμα 7.8: Για την πρωτείνη O43488 εμφανίζεται η fasta μορφή της και στη συνέχεια ο χρήστης επιλέγει την περιοχή ενδιαφέροντος, τα πεπτίδια που βρίσκονται μεταξύ της θέσης 50 και 100...138 Σχήμα 7.9: Τα αποτελέσματα της αναζήτησης για την πρωτείνη O43488. Εμφανίζονται τα πεπτίδια και τα χαρακτηριστικά που υπάρχουν μεταξύ των θέσεων 50 και 100....139 Σχήμα 7.10: Η ομαδοποίηση των immune πεπτιδίων ως αντιγόνα διαφοροποίησης του καρκίνου του προστάτη και του μελανώματος σύμφωνα με δυο επιλεγμένα χαρακτηριστικά, disulfide bond και beta strand....141 10

Σχήμα 8.1: Η κατανομή των μοριακών βαρών που εμφανίζονται μια φορά στο ανθρώπινο πρωτέωμα. Για παράδειγμα υπάρχουν 126 μοναδικά μοριακά βάρη που είναι 800-900 dalton....144 Σχήμα 8.2: Το πλήθος των πρωτεϊνών που έχουν συγκεκριμένο πλήθος μοναδικών μοριακών βαρών....144 Σχήμα 8.3: Η κατανομή των IR (εύρος απομόνωσης) στα μοναδικά μοριακά βάρη.145 Σχήμα 8.4: Κατανομή του μήκους των πεπτιδικών ακολουθιών. Το πιο συνηθισμένο μήκος των core μοναδικών ακολουθιών είναι 5, 6 και 7 αμινοξέα. Υπάρχει μια μικρή κορυφή για τα πεπτίδια με μήκος 31-37....146 Σχήμα 8.5: Η κατανομή του σημείου έναρξης (starting point) των πρώτων core πεπτιδίων που εμφανίζονται σε μια πρωτεϊνη....147 Σχήμα 8.6: Η κατανομή του μήκους των ανθρώπινων πρωτεϊνικών ακολουθιών. Η πρωτείνη με το μικρότερο μήκος είναι η Q9NRI7 (Putative pancreatic polypeptide 2) με μήκος 21 αμινοξέα και η πρωτείνη με το μεγαλύτερο μήκος είναι η τιτίνη με μήκος 34,350 αμινοξέα...147 Σχήμα 8.7: Η κατανομή του iop. Το iop στη θέση μηδέν έχει συχνότητα 16,209 και αυτό ισχύει καθώς 16,209 είναι τα core πεπτίδια που έχουν sp=0 δηλαδή ξεκινάνε από την αρχή της πρωτεϊνικής ακολουθίας. Υπάρχει μια κορυφή στη θέση 0.5 και συμμετρικά υπάρχουν μικρότερες κορυφές στις θέσεις 0.3333, 0.6667, 0.25 και 0.75....148 Σχήμα 8.8: Η συνάρτηση πιθανότητας διασποράς (PDF) της f(x) γίνεται με δειγματοληψία με την τεχνική της απόρριψης. Τα ζεύγη των τυχαίων αριθμών (x*,r2) κατανέμονται στην περιοχή του τετραγώνου και δεκτά γίνονται μονο τα ζεύγη ανήκουν στην f(x)...149 Σχήμα 8.9: Η κατανομή του μήκους των πρωτεϊνών με την μέθοδο Monte Carlo. Η κατανομή αυτή είναι πολύ κοντά στην κατανομή των πραγματικών πρωτεϊνών που φαίνεταις το Σχήμα 8.6....149 Σχήμα 8.10: Η συχνότητα εμφάνισης των χαρακτηριστικών Domain και Topological Domain στις πρωτείνες που έχουν κορυφές στην τιμή του iop σε σχέση με το συνολικό πλήθος αυτών των χαρακτηριστικών στο ανθρώπινο πρωτέωμα. Το χαρακτηριστικό Domain εμφανίζεται στο πρωτέωμα σε 7649 πρωτείνες και το Topological Domain εμφανίζεται σε 3626 πρωτεινες...150 Σχήμα 8.11: Η σύνθεση των core πεπτιδίων με μήκος 6 αμινοξέα και 30-40 αμινοξέα σε σχέση με την σύνθεση όλου του ανθρώπινου πρωτεώματος...150 Πίνακας 8.2: Το ποσοστό επικάλυψης των πρωτεϊνικών ακολουθιών με core πεπτίδια....151 Σχήμα 8.12: Η κατανομή του πλήθους των core μοναδικών πεπτιδικών ακολουθιών ως προς το πλήθος των πρωτεϊνών....153 Σχήμα 9.1: Για να προκληθεί η καρκινογένεση απαιτούνται συνεχείς και σταδιακές γενετικές βλάβες....159 Σχήμα 9.2: Τα χαρακτηριστικά των πρωτεϊνών που εκφράζονται στα κύτταρα του μελανώματος. Ορισμένα από τα χαρακτηριστικά ανήκουν σε μοναδικές πεπτιδικές ακολουθίες...161 Σχήμα 9.3: Τα χαρακτηριστικά των πρωτεϊνών που εκφράζονται στα κύτταρα του οστεοσαρκώματος Saos2. Ορισμένα από τα χαρακτηριστικά ανήκουν σε μοναδικές πεπτιδικές ακολουθίες...165 Σχήμα 9.4: Τα χαρακτηριστικά των πρωτεϊνών που εκφράζονται στα κύτταρα του οστεοσαρκώματος U2OS. Ορισμένα από τα χαρακτηριστικά ανήκουν σε μοναδικές πεπτιδικές ακολουθίες...166 Σχήμα 9.5: Τα χαρακτηριστικά των κυτταρικών σειρών Saos2 και U2OS...167 11

Σχήμα 9.6: Τα χαρακτηριστικά που εμφανίζονται στην λίστα των καρκινικών βιοδεικτών...171 Σχήμα 9.7: Η συχνότητα εμφάνισης των χαρακτηριστικών που υπάρχουν στις πρωτεινικές λίστες του μελανώματος, των κυτταρικών σειρών του οστεοσαρκώματος, των βιοδεικτών και της λίστας των πρωτεϊνών του ανθρώπινου οργανισμού....173 Σχήμα 9.8: Η συχνότητα εμφάνισης των μοναδικών πεπτιδικών ακολουθιών που αντιστοιχούν στα χαρακτηριστικά των πρωτεϊνών. Γίνεται σύγκριση των βιοδεικτών, των πρωτεϊνών που σχετίζονται με το μελάνωμα και των κυτταρικών σειρών οστεοσαρκώματος...174 12

Λίστα Πινάκων Πίνακας 2.1: Τα πρωτεολυτικά ένζυμα....51 Πίνακας 5.2: Τα μοριακά βάρη που χρησιμοποιήθηκαν στην εφαρμογή από τον MALDI-TOF για την κλαστερίνη και την α-1 αντιτρυψίνη...106 Πίνακας 6.1: Τα bioactive πεπτίδια που βρέθηκαν να έχουν μοναδικές ακολουθίες στο ανθρώπινο πρωτέωμα με την εφαρμογή UniMaP. Ορισμένες ακολουθίες είναι μοναδικές και σε άλλους οργανισμούς....121 Πίνακας 7.1: Τα χαρακτηριστικά των πεπτιδίων όπως διατηρούνται στα flat files της Uniprot....128 Πίνακας 7.2: Η ενζυματική διάσπασης της πρωτείνης P27487 με τρυψίνη, δημιουργεί 59 πεπτίδια τα οποία ομαδοποιούνται σε 4 ομάδες....140 Πίνακας 8.1: Το πλήθος των πρωτεϊνών που περιέχουν μοναδικά μοριακά βάρη πεπτιδίων που μπορούν να εμφανιστούν ως φυσικές οντότητες από την ενζυματική διάσπαση με ενα σύνολο από ένζυμα με συγκεκριμένα σημεία κοπής των πρωτεϊνικών ακολουθιών (cleave sites). Για παράδειγμα 713 πεπτίδια τελειώνουν με το αμινοξύ Κ και επομένως αυτά τα πεπτίδια μπορούν να προκύψουν από την διάσπαση με την τρυψίνη, την lys-c, την lys-c/p, την χυμοτρυψίνη και την τρυψίνη/p....145 Πίνακας 8.2: Το ποσοστό επικάλυψης των πρωτεϊνικών ακολουθιών με core πεπτίδια....151 Πίνακας 8.3: Οι πρωτείνες που έχουν μονο ένα core μοναδικό πεπτίδιο...154 Πίνακας 8.4: Οι πρωτείνες που δεν έχουν κανένα core μοναδικό πεπτίδιο στην ακολουθία τους...155 Πίνακας 9.1: Οι πρωτεϊνες που σχετίζονται με το μελάνωμα και μπορούν να ταυτοποιηθούν με μοναδικά μοριακά βάρη...161 Πίνακας 9.2: Οι πρωτεϊνες από το σύνολο των πρωτεϊνών που σχετίζονται με το οστεοσάρκωμα Saos2. Έχουν βρεθεί 8 πρωτεϊνες που περιέχουν μοναδικά μοριακά βάρη. Υπάρχουν τρείς πρωτεϊνες που είναι κοινές με την περίπτωση του μελανώματος (P06748, P14314 και Q15293)...164 Πίνακας 9.3: Οι πρωτεϊνες που σχετίζονται με το οστεοσάρκωμα U2OS και περιέχουν μοναδικά μοριακά βάρη. Οι πρωτεϊνες αυτές είναι κοινές με την περίπτωση του οστεοσαρκώματος Saos2....166 Πίνακας:9.4: Οι πρωτεϊνες από την λίστα των βιοδεικτών του Polanski & Anderson οι οποίες περιέχουν μοναδικά μοριακά βάρη. Με την σκίαση διαχωρίζονται οι πρωτεϊνες που τα μοναδικά μοριακά βάρη που περιέχουν προκύπτουν από την ενζυματική διάσπαση με τρυψίνη....171 13

14

1 Εισαγωγή Οι νέες τεχνολογίες που έχουν αναπτυχθεί τα τελευταία χρόνια συντελούν στην μεγάλη συλλογή δεδομένων. Το επόμενο βήμα αυτής της προσπάθειας είναι η ανάλυσή τους και η ανακάλυψη γνώσης μέσα από τα δεδομένα αυτά. Η αποδοτική διαχείρισή τους είναι δύσκολη με τις παραδοσιακές τεχνικές και αυτό γιατί τα δεδομένα είναι μεγάλα σε πλήθος ενώ παρουσιάζουν ορισμένες ιδιαιτερότητες όπως η παρουσία θορύβου. Η Βιολογία είναι μια από τις επιστήμες που χρειάζεται τις τεχνικές της Πληροφορικής. Μέσα στα πλαίσια της Βιολογίας είναι η μελέτη των βιολογικών μορίων τα οποία είναι απαραίτητα για την ύπαρξη των ζωντανών οργανισμών και με τις βελτιωμένες νέες τεχνολογίες που υπάρχουν, έχει γίνει εφικτή η διεξαγωγή μεγάλης κλίμακας πειραμάτων και ερευνητικών προγραμμάτων. Ένα σημαντικό παράδειγμα είναι το πρόγραμμα αποκρυπτογράφησης του ανθρώπινου γονιδιώματος (Human Genome Project - HGP), το οποίο ξεκίνησε το 1990 με πρωτοβουλία του Τμήματος Ενέργειας (Department of Energy) και του Εθνικού Ινστιτούτου Υγείας (National Institutes of Health NIH) των Η.Π.Α και ολοκληρώθηκε με επιτυχία το 2003 [20,21]. Μάλιστα η μεγάλη συσσώρευση των βιολογικών δεδομένων είναι φανερή από την εκθετική αύξηση του μεγέθους δύο γνωστών και μεγάλων βάσεων βιολογικών δεδομένων, της EMBL και της GenBank [NCBI 2004, EMBL 2004]. Η ανάγκη διαχείρισης και ανάλυσης των δεδομένων αυτών έχουν οδηγήσει στην εμφάνιση μιας νέας και πολλά υποσχόμενης επιστημονικής περιοχής, της Βιοπληροφορικής. Αυτή η εργασία έχει σκοπό την ανακάλυψη γνώσης μεσα από τα βιολογικά δεδομένα πρωτεϊνικών και πεπτιδικών ακολουθιών στον ανθρώπινο οργανισμό. Χρησιμοποιήθηκε μια μεθοδολογία όπου από τις πρωτεϊνικές ακολουθίες παράγονται πεπτιδικές και στην συνέχεια οι ακολουθίες αυτές ομαδοποιούνται ανάλογα με το μοριακό βάρος τους. Με αυτήν την μεθοδολογία εξάγονται μοναδικά πεπτιδικά χαρακτηριστικά. Για την αξιοποίηση αυτών των δεδομένων έχουν δημιουργηθεί τρεις διαδικτυακές εφαρμογές που λειτουργούν ως ελεύθερα διαθέσιμα εργαλεία 15

Βιοπληροφορικής. Με αυτές τις εφαρμογές γίνεται ταυτοποίηση των πεπτιδίων και των πρωτεϊνών από δεδομένα φασματογραφικής ανάλυσης ανεξαρτήτως της επεξεργασίας που έχουν υποστεί τα πρωτογενή δείγματα, παρουσιάζονται τα μοναδικά πεπτιδικά χαρακτηριστικά με την δυνατότητα επιλογής της ενζυματικής διάσπασης των πρωτεϊνικών ακολουθιών και σύγκρισης με άλλους οργανισμούς καθώς επίσης την διαδραστική ομαδοποίηση των πεπτιδίων σύμφωνα με τα χαρακτηριστικά τους. Δομή του Κειμένου Το παρόν κείμενο είναι χωρισμένο σε εννέα κεφάλαια. Το πρώτο από αυτά είναι η Εισαγωγή. Το δεύτερο κεφάλαιο, με τίτλο Βιοπληροφορική, παρέχει μια περιγραφή για το επιστημονικό πεδίο της Βιοπληροφορικής και μελετώνται οι βιολογικές Βάσεις Δεδομένων. Παρέχονται κάποιες βασικές γνώσεις για την κατανόηση της Μοριακής Βιολογίας και περιγράφεται η διαδικασία ανακάλυψης γνώσης σε βάσεις δεδομένων. Το τρίτο κεφάλαιο, με τίτλο Πρωτεωμική, παρέχει πληροφορίες για τα εργαλεία και τις εφαρμογές που έχουν αναπτυχθεί στο πεδίο της επιστήμης αυτής. Περιγράφεται αναλυτικά το εργαλείο Φασματογράφου Μάζας για την ανάλυση των πρωτεϊνών και εξηγείται η διαδικασία ταυτοποίησής τους με Peptide Mass Fingerprinting, καθώς και η διαδικασία ανάλυσης πεπτιδικών ακολουθιών με Tandem Mass Spectometry. Στο τέταρτο κεφάλαιο, με τίτλο Ανάπτυξη Μεθόδων και για την Υλοποίηση Εφαρμογών Πρωτεωμικής, παρουσιάζεται η διαδικασία που έχει ακολουθηθεί για την οργάνωση των βιολογικών δεδομένων και την εξαγωγή βιολογικής πληροφορίας Το πέμπτο κεφάλαιο, με τίτλο Ανάπτυξη Εφαρμογής PeptideFinder για την Ταυτοποίηση Πεπτιδίων και Πρωτεϊνών, παρουσιάζει αναλυτικά την εφαρμογή που έχει υλοποιηθεί για την ταυτοποίηση των πρωτεϊνών και των πεπτιδίων παρέχοντας παραδείγματα και σχολιάζεται η διαδικασία αναβάθμισής της. Το έκτο κεφάλαιο, με τίτλο Ανάπτυξη Εφαρμογής UniMaP για Ταυτοποίηση Μοναδικών Πεπτιδικών Μοριακών Βαρών και Μοναδικών Πεπτιδικών Ακολουθιών, παρουσιάζει αναλυτικά την εφαρμογή που έχει υλοποιηθεί για να παρέχει την πληροφορία των μοναδικών πεπτιδικών χαρακτηριστικών στο ανθρώπινο πρωτέωμα. Παρουσιάζονται επίσης παραδείγματα και σχολιάζεται η διαδικασία αναβάθμισής της. 16

Το εβδομο κεφάλαιο, με τίτλο Ανάπτυξη Εφαρμογής Pepserve για την Ανάλυση Πεπτιδικών Χαρακτηριστικών και την Ομαδοποίηση και την Απεικόνιση των Πεπτιδίων, παρουσιάζει αναλυτικά την εφαρμογή που έχει υλοποιηθεί για την ομαδοποίηση των πεπτιδίων σύμφωνα με τα χαρακτηριστικά τους, παρέχοντας παραδείγματα. Στο όγδοο κεφάλαιο, με τίτλο Ανάλυση Μοναδικών Πεπτιδικων Χαρακτηριστικών παρουσιάζονται οι ιδιότητες των μοναδικών μοριακών βαρών και μοναδικών ακολουθιών των πεπτιδίων. Το ένατο κεφάλαιο, με τίτλο Ανάλυση Καρκινικών Δειγμάτων παρουσιάζει ορισμένες βασικές γνώσεις για την δημιουργία του καρκίνου και αναλύονται ορισμένες δημοσιευμένες πρωτεϊνες που σχετίζονται με περιπτώσεις καρκίνων. Τέλος, το δέκατο κεφάλαιο, με τίτλο Συμπεράσματα και Μελλοντικές Επεκτάσεις, συνοψίζει το περιεχόμενο της εργασίας και προτείνει τις μελλοντικές επεκτάσεις. Η εκπόνηση της εργασίας έγινε στο πλαίσιο της συνεργασίας του Εργαστηρίου Βιοϊατρικών Προσομοιώσεων και Απεικονιστικής Τεχνολογίας της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών και του Εργαστηρίου Βιοτεχνολογίας του Ιδρύματος Ιατροβιολογικών Ερευνών της Ακαδημίας Αθηνών (ΙΙΒΕΑΑ). Σε αυτό το σημείο, θα ήθελα να ευχαριστήσω θερμά την επιβλέπουσα καθηγήτριά μου κ. Κωνσταντίνα Νικήτα για την εμπιστοσύνη που μου έδειξε, αναθέτοντάς μου την εκπόνηση της συγκεκριμένης εργασίας και για το ευχάριστο κλίμα συνεργασίας που φρόντισε να επικρατήσει κατά τη διάρκεια της εκπόνησης. Επίσης, αισθάνομαι την υποχρέωση να ευχαριστήσω τον Δρ. Γιώργο Σπύρου από τη Μονάδα Βιοϊατρικής Πληροφορικής του ΙΙΒΕΑΑ για την άριστη συνεργασία μας και τον Δρ. Γιώργο Τσάγκαρη από το Εργαστήριο Βιοτεχνολογίας του ΙΙΒΕΑΑ για τα εποικοδομητικά του σχόλια και τις πολύτιμες συμβουλές του. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου και τους φίλους μου για την υπομονή και την υποστήριξή τους καθ όλη τη διάρκεια εκπόνησης της διδακτορικής διατριβής. 17

18

2 Βιοπληροφορική Στις μέρες μας η Βιολογία έχει μετασχηματισθεί σε επιστήμη με πληροφορία πρωτοφανούς όγκου και πολυπλοκότητας. Πρωταγωνιστής στην προσπάθεια αξιοποίησης των βιολογικών δεδομένων αναδείχθηκε η επιστήμη της Βιοπληροφορικής. Ανάμεσα στους κύριους σκοπούς της επιστήμης αυτής είναι η οργάνωση των δεδομένων με τέτοιο τρόπο ώστε να επιτρέπει την πρόσβαση στους ερευνητές αλλά και να διευκολύνει την υποβολή νέων δεδομένων. Μάλιστα η ανάγκη για ανάπτυξη εργαλείων που βοηθούν στην ανάλυση των δεδομένων έχει επιτύχει την ερμηνεία των δεδομένων αυτών με βιολογικά αποδεκτό τρόπο [Θηραίου et al, 2006]. Η επιστήμη της Πληροφορικής εφαρμόζεται στην Βιολογία με σκοπό την βελτίωση της βιολογικής έρευνας. Έτσι αναπτύσσονται Βάσεις Δεδομένων και αλγόριθμοι για την συλλογή πληροφοριών, την διαχείρισή, την ανάλυση και την αποθήκευσή τους. Γίνεται χρήση υπολογιστικών εργαλείων για την αποθήκευση, πρόσβαση και ανάλυση νουκλεοτιδικών και αμινοξικών ακολουθιών, πρωτεϊνικών δομών και κάθε είδους σχετική βιολογική πληροφορία (δημοσιεύσεις, φυλογενετικά δέντρα, μεταβολικά μονοπάτια). Ως αποτέλεσμα, ελαχιστοποιείται ο χρόνος της βιολογικής έρευνας καθώς επίσης γίνονται πραγματοποιήσιμες νέες αναζητήσεις στο χώρο της βιολογικής πληροφορίας [Πατζαρτζής, 2005]. Γενικά η Βιοπληροφορική εμπλέκεται και με άλλες επιστήμες, όπως είναι η Βιοτεχνολογία, η Γενετική, η Κυτταρική Βιολογία και η Επιδημιολογία, ενώ χρησιμοποιείται από φαρμακευτικές εταιρίες, νοσοκομεία και πανεπιστήμια. Τα περισσότερα από τα διάφορα εργαλεία και προγράμματα της Βιοπληροφορικής είναι προσβάσιμα από το διαδίκτυο. Εκτός από την αποτελεσματική διαχείριση του όγκου της βιολογικής πληροφορίας, η Βιοπληροφορική συνεισφέρει και στην κατανόηση αυτής της πληροφορίας παρέχοντας μεθοδολογίες και εργαλεία λογισμικού. Έτσι επιτυγχάνεται για παράδειγμα ο χαρακτηρισμός του πρωτεϊνικού περιεχομένου και η ταυτοποίηση των πρωτεϊνών που αλληλεπιδρούν μεταξύ τους. Επομένως η Βιοπληροφορική χρησιμοποιεί ορισμένες από τις δυνατότητες που της προσφέρει η Πληροφορική για να οργανώσει το πλήθος των βιολογικών δεδομένων. Έχουν αναπτυχθεί σχεσιακές Βάσεις Δεδομένων, web-based εφαρμογές 19

και κατάλληλα αρχιτεκτονικά δίκτυα. Επίσης έχει γίνει ανάλυση και σύγκριση αλληλουχιών χαρακτήρων κειμένου, έχει εφαρμοστεί η μηχανική μάθηση και τεχνικές κατηγοριοποίησης, ομαδοποίησης και μοντελοποίησης δεδομένων, καθώς και μοριακές προσομοιώσεις. Ωστόσο η υπολογιστική ισχύ που απαιτείται για την υλοποίηση παρόμοιων εφαρμογών είναι αρκετά υψηλή και γίνονται προσπάθειες για την κατασκευή υπερυπολογιστικών συστημάτων και προσπάθειες για πιο αποδοτική χρήση των υπαρχόντων υπολογιστικών πόρων [Θηραίου et al, 2006]. 2.1 Μοριακή Βιολογία Η Βιολογία είναι η επιστήμη που μελετά το φαινόμενο της ζωής. Κατά τις τελευταίες δεκαετίες έχει γίνει φανερό από ερευνητικές μελέτες το μοριακό επίπεδο ενός κυττάρου και ότι το γενετικό υλικό είναι το DNA και αντιπροσωπεύει την καρδιά του ζωντανού οργανισμού [Αλεπόρου-Μαρίνου et al, 2000]. Όλοι οι οργανισμοί βασίζουν την δραστηριότητά τους σε οικογένειες μορίων. Για παράδειγμα οι πρωτεΐνες επιτελούν την περισσότερη βιοχημική εργασία που απαιτεί η ζωή. Μάλιστα υπάρχουν σύνολα πρωτεϊνών που μοιάζουν πολύ μεταξύ τους, έχουν παρόμοια λειτουργία και εμφανίζονται σε εξαιρετικά διαφορετικούς οργανισμούς [Hunter 1993, Hunter 2004]. Τα νουκλεϊκά οξέα (nucleic acids) έχουν το ρόλο της διατήρησης και μεταβίβασης της πληροφορίας που συνθέτει τη ζωή. Οι πρωτεΐνες και τα νουκλεϊκά οξέα καλούνται βιολογικά μακρομόρια (macromolecules) και καταβάλλεται σημαντική προσπάθεια για τη μελέτη της δομής και της λειτουργίας των βιολογικών μακρομορίων με σκοπό την κατανόηση του φαινομένου της ζωής. Ο κλάδος της Βιολογίας που ασχολείται με αυτή τη μελέτη ονομάζεται Μοριακή Βιολογία (Molecular Biology). 2.1.1 Ζωντανό Κύτταρο Η θεμελιώδης δομική και λειτουργική μονάδα κάθε ζωντανού οργανισμού είναι το κύτταρο (cell). Κάθε κύτταρο είναι ένα σύνθετο σύστημα που αποτελείται από πολλές διαφορετικές δομικές μονάδες που περικλείονται από την πλασματική μεμβράνη (plasma membrane). Η πλασματική μεμβράνη είναι μια σύνθετη δομή που οριοθετεί το κύτταρο από το περιβάλλον του και ρυθμίζει τη ροή των ουσιών, της ενέργειας και των πληροφοριών από και προς το κύτταρο [Hunter, 2004]. Κάθε κύτταρο έχει ένα σχηματισμό που βρίσκεται συνήθως στο κέντρο του, τον πυρήνα (nucleus), ο οποίος περιβάλλεται από μεμβράνη και περικλείει το γενετικό υλικό. Το ενδιάμεσο μέρος 20

του κυττάρου που παρεμβάλλεται μεταξύ της πλασματικής μεμβράνης και του πυρήνα αποτελεί το κυτταρόπλασμα. Το κύτταρο έχει πολύπλοκη εσωτερική οργάνωση. Υπάρχει ένα πλήθος διαφορετικών δομών στο κυτταρόπλασμα που καθένα είναι ικανό για μια συγκεκριμένη λειτουργία σύμφωνα με οδηγίες του πυρήνα του κυττάρου. Παρακάτω παρουσιάζονται πιο αναλυτικά τα βασικά μέρη του κυττάρου. Πλασματική Μεμβράνη Είναι η εξωτερική μεμβράνη που διαχωρίζει το κύτταρο από το περιβάλλον του. Αποτελείται από μια διπλοστοιβάδα φωσφολιπιδίων όπου ενδιάμεσά τους βρίσκονται και άλλες χημικές δομές όπως πρωτεΐνες και λιπίδια. Η μεμβράνη είναι διαπερατή εκλεκτικά για διάφορες ουσίες και αποτελεί τον δέκτη μηνυμάτων του κυττάρου από το περιβάλλον του καθώς υποδέχεται και ερμηνεύει εξωτερικά ερεθίσματα. Πυρήνας Ο πυρήνας αποτελεί το κέντρο ελέγχου του κυττάρου. Είναι μια σφαιρική δομή που περιβάλλεται από την πυρηνική μεμβράνη ή πυρηνικό φάκελο. Στον πυρήνα φυλάσσεται το γενετικό υλικό του κυττάρου και κατα επέκταση του οργανισμού. Κυτταρόπλασμα Στο κυτταρόπλασμα υπάρχει μια πληθώρα από οργανίδια που ευθύνονται για την σωστή λειτουργία του κυττάρου. Υπάρχει το ενδοπλασματικό δίκτυο το οποίο αποτελείται από μεμβράνες που συνδέονται με μεμβράνες άλλων οργανιδίων του κυττάρου, έτσι επιτρέπει τη μεταφορά ουσιών μεταξύ των διαφόρων τμημάτων του κύτταροπλάσματος. Παρουσιάζεται δύο μορφές ενδοπλασματικού δικτύου, το αδρό και το λείο ενδοπλασματικό δίκτυο. Το αδρό ενδοπλασματικό δίκτυο φέρει στην εξωτερική επιφάνεια των μεμβρανών του μικρούς σχηματισμούς, τα ριβοσώματα. Οι σχηματισμοί αυτοί αποτελούνται από rrna και πρωτεΐνες, δεν έχουν μεμβράνη και συμβάλουν στην πρωτεϊνοσύνθεση. Στη συνέχεια οι πρωτεΐνες που συντίθενται εισέρχονται στο εσωτερικό του δικτύου όπου ενδέχεται να υποστούν τροποποιήσεις (π.χ. προσθήκη σακχάρων). Τα ριβοσώματα βρίσκονται επίσης ελεύθερα στο κυτταρόπλασμα, καθώς επίσης και στα μιτοχόνδρια. Το λείο ενδοπλασματικό δίκτυο, αν και αποτελεί συνέχεια του αδρού, διαφέρει από 21

αυτό, γιατί δε φέρει ριβοσώματα. Η λειτουργία του σχετίζεται με τη σύνθεση λιπιδίων και την εξουδετέρωση τοξικών ουσιών. Οι πρωτεΐνες που παράγονται στο αδρό ενδοπλασματικό δίκτυο συγκεντρώνονται και τροποποιούνται στο σύμπλεγμα Golgi το οποίο αποτελείται από ομάδες παράλληλων πεπλατυσμένων σάκων από μεμβράνη. Για την πέψη μεγαλομοριακών ουσιών ενδοκυτταρικής ή εξωκυτταρικής προέλευσης, αλλά και μικροοργανισμών, που πιθανόν έχουν εισβάλει στο κύτταρο, υπάρχουν τα λυσοσώματα. Αυτά τα σφαιρικά οργανίδια περιέχουν υδρολυτικά ένζυμα και περιβάλλονται από απλή στοιχειώδη μεμβράνη. Η ενέργεια του κυττάρου προέρχεται από τις χημικές ουσίες που επεξεργάζονται τα μιτοχόνδρια μέσα στο κυτταρόπλασμα. Κύτταρα όπως είναι τα μυϊκά έχουν αυξημένη ζήτηση για ενέργεια και επομένως περιέχουν πολλά μιτοχόνδρια. Τα οργανίδια αυτά περιβάλλονται από διπλή στοιχειώδη μεμβράνη όπου η εξωτερική είναι λεία, ενώ η εσωτερική παρουσιάζει αναδιπλώσεις προς το εσωτερικό του μιτοχονδρίου. Στις αναδιπλώσεις αυτές εντοπίζονται διάφορα ένζυμα. Στο μιτοχόνδριο υπάρχουν DNA, ένζυμα και ριβοσώματα, επομένως διαθέτουν τον απαραίτητο εξοπλισμό που τους εξασφαλίζει μια σχετική γενετική αυτοδυναμία και μπορούν να παράγουν ορισμένες πρωτεΐνες και να διπλασιάζονται ανεξάρτητα από το διπλασιασμό του κυττάρου. Τέλος, με τις σύγχρονες τεχνικές ηλεκτρονικής μικροσκοπίας έχει αποκαλυφθεί ότι το κυτταρόπλασμα των κυττάρων διασχίζεται από ένα πολύμορφο πλέγμα ινιδίων, τα οποία συγκροτούν τον κυτταρικό σκελετό. Με αυτόν τον σχηματισμό, τα κύτταρα υποστηρίζονται μηχανικά και μπορούν να διατηρούν το σχήμα τους. Ένα κύτταρο για να λειτουργήσει χρειάζεται ενέργεια. Μπορεί να διασπάσει σύνθετες ενώσεις σε απλούστερες και να κερδίσει ενέργεια λόγω της εξώθερμης αντίδρασης (καταβολισμός) αλλά και να καταναλώσει ενέργεια χρησιμοποιώντας απλές χημικές ενώσεις για να δημιουργήσει σύνθετες με ενδόθερμη αντίδραση (αναβολισμός). Ο συνδυασμός αυτών των λειτουργιών δίνει τον μεταβολισμό του κυττάρου. Απαραίτητο στοιχείο σε αυτές τις ενεργειακές συναλλαγές του κυττάρου είναι το ATP (τριφωσφορική αδενοσίνη). Καθώς οι δεσμοί των φωσφορικών ομάδων είναι δεσμοί υψηλής ενέργειας, όταν σπάσουν απελευθερώνουν την ενέργεια που είχαν. Επομένως όταν σπάσει το ATP θα προκύψει το ADP (διφωσφορική αδενοσίνη) 22

και θα απελευθερωθεί ενέργεια. Για την ύπαρξη ATP στο κύτταρο μια καταβολική οδός είναι η διάσπαση οργανικών ενώσεων, όπως η οξείδωση της γλυκόζης. 2.1.2 Μοριακές Δομικές Μονάδες Όλα τα μόρια που σχετίζονται με το φαινόμενο της ζωής καλούνται βιομόρια (biomolecules). Τα βιομόρια μπορούν να διακριθούν σε μικρά μόρια (small molecules), και μακρομόρια (macromolecules). Σημαντικά βιομόρια παρουσιάστηκαν στην περιγραφή του κυτταροπλάσματος. Όπως αναφέρθηκε, οι πρωτεΐνες, και τα νουκλεϊκά οξέα είναι μακρομόρια [Hunter, 2004]. Πρωτεΐνες και Αμινοξέα Οι δομικές μονάδες των πρωτεϊνών είναι τα αμινοξέα. Είναι 20 στο σύνολό τους και τοποθετούνται το ένα δίπλα στο άλλο γραμμικά, σχηματίζοντας μια πολυπεπτιδική αλυσίδα (poly-peptide chain). Η αλληλουχία των αμινοξέων αποτελεί την πρωτοταγή δομή (primary structure) της πρωτεΐνης και μπορεί να αναπαρασταθεί ως συμβολοσειρά από το συνδυασμό 20 διαφορετικών συμβόλων (Πίνακας 2.1). Η πολυπεπτιδική αλυσίδα αναδιπλώνεται στον χώρο σχηματίζοντας τη δευτεροτοταγή δομή (secondary structure) της πρωτεΐνης. Ως αποτέλεσμα του διπλώματος, τα μέρη του πρωτεϊνικού μορίου πλησιάζουν μεταξύ τους και οι διάφορες ελκτικές ή απωστικές δυνάμεις (δεσμοί υδρογόνου, υδρόφοβες και υδρόφιλες δυνάμεις) μεταξύ αυτών των μερών αναγκάζουν το μόριο να αποκτήσει μια σχετικά σταθερή τρισδιάστατη δομή. Αυτή είναι η τριτοταγής δομή (tertiary structure). Ουσιαστικά η σειρά με την οποία τα αμινοξέα βρίσκονται μέσα στην πολυπεπτιδική αλυσίδα, καθορίζει την τρισδιάστατη δομή της αλυσίδας. Η τεταρτοτοταγής δομή (quaternary structure) είναι η τελική τρισδιάστατη μορφή που παίρνει η πρωτεΐνη, όταν αποτελείται από περισσότερες της μίας πολυπεπτιδικές αλυσίδες. Στο Σχήμα 2.1 παρουσιάζονται τα τέσσερα επίπεδα της πρωτεϊνικής δομής. Πρωτοταγής δομή Δευτεροταγής δομή Τριτοταγής δομή Τεταρτοταγής δομή Σχήμα 2.1: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών. 23

Οι πρωτεΐνες διακρίνονται σε Δομικές πρωτεΐνες, οι οποίες μπορούν να θεωρηθούν ως οι βασικές δομικές μονάδες του οργανισμού. Ένα παράδειγμα είναι το κολλαγόνο, το οποίο αποτελεί τη σημαντικότερη δομική πρωτεΐνη του συνδετικού ιστού και των οστών. Ένζυμα, τα οποία καταλύουν ένα πλήθος βιοχημικών αντιδράσεων του μεταβολισμού του κυττάρου. Είναι ειδικά συνήθως μόνο για μια αντίδραση όπως ένα κλειδί σε μια κλειδαριά. Τα ένζυμα έχουν ένα τμήμα που ονομάζεται ενεργό κέντρο (active site) το οποίο προσδένεται στο υπόστρωμα (substrate) που είναι το μόριο που πρόκειται να αντιδράσει. Η δράση των ενζύμων εξαρτάται από την τρισδιάστατη δομή τους και αν αυτή αλλάξει τότε το ένζυμο χάνει την λειτουργία του. Για αυτόν τον λόγο η δράση εξαρτάται από εξωτερικούς παράγοντες όπως η θερμοκρασία και το ph. Οι πρωτεΐνες της μεμβράνης (transmembrane) είναι βασικές στη συντήρηση του κυτταρικού περιβάλλοντος, ρυθμίζοντας για παράδειγμα τον όγκο του κυττάρου. Όνομα Σύμβολο Μοριακό Βάρος Χημική Σύσταση Δομή Αλανίνη Alanine A 71.03712 CH3-CH(NH2)- COOH Αργινίνη Arginine R 156.10112 HN=C(NH2)-NH- (CH2)3-CH(NH2)- COOH Ασπαραγίνη Asparagine N 114.04293 H2N-CO-CH2- CH(NH2)-COOH Ασπαρτικό οξύ Aspartic acid D 115.02695 HOOC-CH2- CH(NH2)-COOH Κυστεϊνη Cysteine C 103.00919 HS-CH2-CH(NH2)- COOH Γλουταμίνη Glutamine Q 128.05858 H2N-CO-(CH2)2- CH(NH2)-COOH 24

Όνομα Σύμβολο Μοριακό Βάρος Χημική Σύσταση Δομή Γλουταμικό οξύ Glutamic acid E 129.0426 HOOC-(CH2)2- CH(NH2)-COOH Γλυσίνη Glycine G 57.02147 NH2-CH2-COOH Ιστιντίνη Histidine H 137.05891 N=C-NH-C=C- CH2-CH(NH2)- COOH Ισολευκίνη Isoleucine I 113.08407 CH3-CH2- CH(CH3)- CH(NH2)-COOH Λευκίνη Leucine L 113.08407 (CH3)2-CH-CH2- CH(NH2)-COOH Λυσίνη Lysine K 128.09497 H2N-(CH2)4- CH(NH2)-COOH Μεθιονίνη Methionine M 131.04049 CH3-S-(CH2)2- CH(NH2)-COOH Φενιλαλανίνη Phenylalanine F 147.06842 Ph-CH2-CH(NH2)- COOH Προλίνη Proline P 97.05277 NH-(CH2)3-CH- COOH Σερίνη Serine S 87.03203 HO-CH2-CH(NH2)- COOH Θρεονίνη Threonine T 101.04768 CH3-CH(OH)- CH(NH2)-COOH 25

Όνομα Σύμβολο Μοριακό Βάρος Χημική Σύσταση Δομή Τρυπτοφάνη Tryptophan W 186.07932 Ph-NH-CH-C-CH2- CH(NH2)-COOH Τυροσίνη Tyrosine Y 163.06333 HO-p-Ph-CH2- CH(NH2)-COOH Βαλίνη Valine V 99.06842 CH3-CH(CH2)- CH(NH2)-COOH Πίνακας 2.1: Τα 20 αμινοξέα. Συμβολισμός-Μοριακό Βάρος-Σύνθεση-Δομή DNA, RNA και Νουκλεοτίδια Το γενετικό υλικό ενός κυττάρου αποτελεί το γονιδίωμά του και κατανέμεται συνήθως στον πυρήνα του κυττάρου. Το δεοξυριβονουκλεϊκό οξύ (deoxyribonucleic acid), ή συντομότερα DNA ανήκει στην κατηγορία των νουκλεϊκών οξέων και είναι ο βασικός φορέας πληροφορίας σε ένα κύτταρο. Το DNA είναι δίκλωνο και σε ορισμένους οργανισμούς είναι μονόκλωνο. Ένα μονόκλωνο μόριο DNA, αλλιώς πολυνουκλεοτίδιο (polynucleotide) είναι μια αλυσίδα (πολυνουκλεοτιδική αλυσίδα) από νουκλεοτίδια. Για την περιγραφή του μήκους του, χρησιμοποιείται ο αριθμός των νουκλεοτιδίων του νουκλεϊκού οξέος τα οποία είναι ενωμένα με ομοιοπολικό δεσμό και σχηματίζουν αλυσίδα. Τα νουκλεοτίδια αποτελούνται από μια πεντόζη (σάκχαρο με πέντε άτομα άνθρακα), η οποία ενώνεται με μια φωσφορική ομάδα και μια αζωτούχο βάση. Σε μια πολυνουκλεοτιδική αλυσίδα το πρώτο νουκλεοτίδιο έχει πάντα μια ελεύθερη φωσφορική ομάδα συνδεδεμένη στον 5 άνθρακα της πεντόζης του και το τελευταίο νουκλεοτίδιο έχει ελεύθερο το υδροξύλιο του 3 άνθρακα της πεντόζης του. Έτσι αναφέρεται ότι ο προσανατολισμός της αλυσίδας είναι 5 ->3. Η πεντόζη των νουκλεοτιδίων του DNA είναι η δεοξυριβόζη (deoxyribose) και του RNA, ενός δεύτερου σημαντικού νουκλεϊκού οξέος, η ριβόζη (ribose). Το RNA καλείται ριβονουκλείκό οξύ (ribonucleic acid). Η διαφορετικότητα των νουκλεοτιδίων μέσα στα μόρια του DNA και του RNA καθορίζεται από τις πέντε διαφορετικές αζωτούχες βάσεις. Οι αζωτούχες βάσεις είναι η αδενίνη (adenine), η γουανίνη 26