Ανάπτυξη ιαδικτυακής Εφαρµογής µε σκοπό τη Βέλτιστη Ταυτοποίηση Πεπτιδίων και Πρωτεϊνών από εδοµένα Πρωτεωµικής Ανάλυσης. Πανεπιστήµιο Πατρών

Σχετικά έγγραφα
Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση:

Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν;

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

Βιολογία Β Λυκείου θέματα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Βιολογία Γενικής Παιδείας Β Λυκείου

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01%

Κεφάλαιο 1. Οι δομικοί λίθοι

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

αποτελούν το 96% κ.β Ποικιλία λειτουργιών

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

ΒΙΟΧΗΜΕΙΑ ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΩΝ ΒΙΟΛΟΓΙΚΩΝ ΜΟΡΙΩΝ. Στοιχείο O C H N Ca P K S Na Mg περιεκτικότητα % ,5 1 0,35 0,25 0,15 0,05

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ. Καρβουντζή Ηλιάνα Βιολόγος

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΑΠΕΙΚΟΝΙΣΗ ΜΟΡΙΑΚΩΝ ΔΟΜΩΝ

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

ΒΙΟΧΗΜΕΙΑ Ι. ΚΕΦΑΛΑΙΟ 2 ο Βιοχημική εξέλιξη

Οι δευτερογενείς µεταβολίτες

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Γονιδιωματική. G. Patrinos

τα βιβλία των επιτυχιών

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών

Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

Βιολογία Κατεύθυνσης Γ Λυκείου

ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ.-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

ΤΑΞΙΝΟΜΗΣΗ ΠΡΩΤΕΪΝΩΝ ΜΕ ΒΑΣΗ ΤΟ ΒΙΟΛΟΓΙΚΟ ΤΟΥΣ ΡΟΛΟ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 2 ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΒΙΟΛΟΓΙΑ Β ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Τράπεζα Θεμάτων Βιολογίας Β' Λυκείου Κεφάλαιο 1 ΚΕΦΑΛΑΙΟ 1

σύγχρονο προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. & Group µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ

ΒΙΟΛΟΓΙΑ. Παραδόσεις του μαθήματος γενικής παιδείας (Β λυκείου) Επιμέλεια: ΑΡΓΥΡΗΣ ΙΩΑΝΝΗΣ Βιολόγος M.Sc. Καθηγητής 3 ου λυκ.

1.1. Να γράψετε στο τετράδιό σας το γράµµα που αντιστοιχεί στη σωστή απάντηση:

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες;

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

«ΠΡΩΤΕΪΝΕΣ: ΧΗΜΙΚΗ ΔΟΜΗ ΚΑΙ ΒΙΟΛΟΓΙΚΟΣ ΡΟΛΟΣ»

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων. 1/10/2015 Δ.Δ. Λεωνίδας

ΠΡΩΤΕΙΝΕΣ ΚΑΙ ΔΙΑΤΡΟΦΗ

ΘΕΜΑ 1 ο 1.1. Να γράψετε στο τετράδιό σας το γράµµα που αντιστοιχεί στη σωστή απάντηση:

Οι αζωτούχες βάσεις των νουκλεοτιδίων είναι:

ΟΡΓΑΝΙΚΕΣ ΟΥΣΙΕΣ. 1. (α) Ποιο μόριο απεικονίζεται στο σχεδιάγραμμα; (β) Ποια είναι η απλούστερη μορφή του R;

Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ... 8 ΠΡΟΒΛΗΜΑΤΑ...

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

πρωτεΐνες πολυμερείς ουσίες δομούν λειτουργούν λευκώματα 1.Απλές πρωτεΐνες 2.Σύνθετες πρωτεΐνες πρωτεΐδια μη πρωτεϊνικό μεταλλοπρωτεΐνες

Κεφάλαιο 7 - Ένζυμα, οι μηχανισμοί της ζωής

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα:

ΠΡΩΤΕΙΝΕΣ ΚΑΙ ΔΙΑΤΡΟΦΗ

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Β ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ

ΠΡΩΤΕΪΝΕΣ. Φατούρος Ιωάννης Αναπληρωτής Καθηγητής

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

ΔΟΜΗ ΚΑΙ ΑΝΑΛΥΣΗ ΒΙΟΜΟΡΙΩΝ

Χηµεία-Βιοχηµεία Τεχνολογικής Κατεύθυνσης Γ Λυκείου 2001

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ. Τα χημικά μόρια που οικοδομούν τους οργανισμούς

ΒΑΣΙΚΕΣ ΔΟΜΕΣ - ΤΟ ΚΥΤΤΑΡΟ

Κεφάλαιο 4: Ανασυνδυασμένο DNA

θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ

Θέματα Πανελλαδικών

και χρειάζεται μέσα στο ρύθμιση εναρμόνιση των διαφόρων ενζυμικών δραστηριοτήτων. ενζύμων κύτταρο τρόπους

1.1. Να γράψετε στο τετράδιό σας το γράµµα που αντιστοιχεί στη σωστή απάντηση:

1 Απο την πρωτεΐνη στο πρωτεινωµα στις µοριακες µηχανες. Τασος Οικονόµου

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ο.Ε.Φ.Ε ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΕΡΓΑΣΤΗΡΙΑΚΟ ΚΕΝΤΡΟ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Ν. ΜΑΓΝΗΣΙΑΣ ( Ε.Κ.Φ.Ε ) ΕΡΓΑΣΤΗΡΙΟ ΒΙΟΛΟΓΙΑΣ

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ

Κεφάλαιο 1: Το Γενετικό Υλικό 1.

ΑΣΚΗΣΗ 1 Δύο αμινοξέα Α, και Β, συνιστούν ένα διπεπτίδιο. Το αμινοξύ Α έχει ελεύθερη την καρβοξυλομάδα του. Ποια είναι η δομή του;

Transcript:

Πανεπιστήµιο Πατρών Σχολή Επιστηµών Υγείας Τµήµα Ιατρικής Εθνικό Μετσόβιο Πολυτεχνείο Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τµήµα Μηχανολόγων Μηχανικών ιαπανεπιστηµιακό Μεταπτυχιακό Βιοϊατρικής Τεχνολογίας Ανάπτυξη ιαδικτυακής Εφαρµογής µε σκοπό τη Βέλτιστη Ταυτοποίηση Πεπτιδίων και Πρωτεϊνών από εδοµένα Πρωτεωµικής Ανάλυσης Τριµελής Επιτροπή: Επιβλέπουσα Καθηγήτρια κ. Κωνσταντίνα Νικήτα Καθηγητής κ.. Κουτσούρης Καθηγητής κ. Ν. Ουζούνογλου Αλεξανδρίδου Αναστασία Αθήνα 2007

Πρόλογος Ένα από τα αντικείµενα της παρούσας διπλωµατικής εργασίας είναι η παρουσίαση των µεθόδων και των τεχνικών που χρησιµοποιούνται για την αναζήτηση πρωτεϊνικών και πεπτιδικών ακολουθιών σε βιολογικές βάσεις δεδοµένων. ίνεται ιδιαίτερη βαρύτητα στη διαδικασία υπολογισµού της µάζας βιολογικού υλικού µε τη χρήση φασµατογράφων µάζας και παρουσιάζεται η ανάγκη για την αξιόπιστη ταυτοποίηση του υλικού αυτού. Η έρευνα στη Μοριακή Βιολογία τα τελευταία χρόνια έχει οδηγήσει στην εκθετική αύξηση των βιολογικών δεδοµένων. Η ανάγκη για την εύρεση της γνώσης που µπορεί να κρύβεται πίσω από αυτά τα δεδοµένα, σε συνδυασµό µε την αδυναµία αποδοτικής διαχείρισης της πληθώρας των δεδοµένων µε τις παραδοσιακές τεχνικές, κάνουν απαραίτητη τη χρήση των νέων τεχνολογιών. Η εκπόνηση της εργασίας έγινε στη Μονάδα Βιοϊατρικής Πληροφορικής του Ιδρύµατος Ιατροβιολογικών Ερευνών της Ακαδηµίας Αθηνών (ΙΙΒΕΑΑ) σε συνεργασία µε το Εργαστήριο Βιοτεχνολογίας του ΙΙΒΕΑΑ. Σε αυτό το σηµείο, θα ήθελα να ευχαριστήσω θερµά την επιβλέπουσα καθηγήτριά µου κ. Κωνσταντίνα Νικήτα για την εµπιστοσύνη που µου έδειξε, αναθέτοντάς µου την εκπόνηση της συγκεκριµένης εργασίας και για το ευχάριστο κλίµα συνεργασίας που φρόντισε να επικρατήσει κατά τη διάρκεια της εκπόνησης. Επίσης, αισθάνοµαι την υποχρέωση να ευχαριστήσω τον ρ. Γιώργο Σπύρου από τη Μονάδα Βιοϊατρικής Πληροφορικής του ΙΙΒΕΑΑ για την άριστη συνεργασία µας και τους ρ. Κωνσταντίνο Βουγά και ρ. Γιώργο Τσάγκαρη από το Εργαστήριο Βιοτεχνολογίας του ΙΙΒΕΑΑ για τα εποικοδοµητικά τους σχόλια και τις πολύτιµες συµβουλές τους. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά µου και τους φίλους µου για την υποµονή και την υποστήριξή τους καθ όλη τη διάρκεια εκπόνησης της διπλωµατικής εργασίας.

Περιεχόµενα Περιεχόµενα... 2 1 Εισαγωγή... 8 2 Βιοπληροφορική... 10 2.1 Μοριακή Βιολογία... 11 2.1.1 Ζωντανό Κύτταρο... 11 2.1.2 Μοριακές οµικές Μονάδες... 12 2.2 Βάσεις και Συστήµατα ιαχείρισης Βιολογικών εδοµένων... 15 2.2.1 Βιολογικές Βάσεις εδοµένων... 16 2.2.2 Ολοκληρωµένα Συστήµατα Ανάκτησης Πληροφοριών... 19 2.3 Υπολογιστική Νοηµοσύνη... 20 2.3.1 Τα Στάδια Ανακάλυψης Γνώσης... 21 2.4 Περιορισµοί και Προβλήµατα... 22 3 Πρωτεωµική... 24 3.1 Τα Εργαλεία της Πρωτεωµικής... 25 3.2 Εφαρµογές της Πρωτεωµικής... 26 3.3 Πρωτεωµική Ανάλυση... 28 3.4 Φασµατογράφος Μάζας... 31 3.4.1 Σύστηµα MALDI... 32 3.4.2 Μέτρα Απόδοσης Φασµατογραφίας Μάζας... 36 3.4.3 Αξιολόγηση του MALDI... 36 3.5 Ταυτοποίηση Πρωτεΐνης µε Peptide Mass Fingerprinting... 37 3.5.1 Εργαλεία για Peptide Mass Fingerprinting... 38 3.5.2 Αξιολόγηση Αποτελεσµάτων... 39 3.6 Ανάλυση Πεπτιδικής Ακολουθίας µε Tandem Mass Spectrometry... 40 4 Μέθοδοι και Ανάπτυξη... 46 4.1 Επεξεργασία Πρωτεϊνικών Ακολουθιών... 48 4.2 Σχεδιασµός και Υλοποίηση της OREA Βάσης... 54 4.3 Σχεδιασµός και Υλοποίηση της Αποθήκης Αρχείων HTML... 55 2

4.4 Ανάπτυξη Εφαρµογής ιαδικτύου... 56 5 Εφαρµογή PeptideFinder... 60 5.1 Περιγραφή της εφαρµογής... 61 5.2 Ενηµέρωση της εφαρµογής... 69 6 Σύγκριση και Αξιολόγηση... 74 Χρήσιµα Links... 84 Βιβλιογραφία... 86 3

Λίστα Σχηµάτων Σχήµα 2.1: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών.... 12 Σχήµα 2.2: Γραφική αναπαράσταση της ολοκλήρωσης που υλοποιεί το σύστηµα Entrez... 20 Σχήµα 3.1: Βιοχηµικό περιεχόµενο Γενωµικής και Πρωτεωµικής... 24 Σχήµα 3.2: Τα στάδια της Πρωτεωµικής Ανάλυσης... 29 Σχήµα 3.3: οµικά µέρη του Φασµατογράφου Μάζας... 31 Σχήµα 3.4: Σχηµατική αναπαράσταση του MALDI-TOF. (Α) ιαδικασία ιονισµού. (Β)Γραµµική λειτουργία. (C)Λειτουργία µε τον ανακλαστήρα... 35 Σχήµα 3.5: Σχηµατική αναπαράσταση της τεχνικής του peptide mass fingerprinting [13].... 38 Σχήµα 3.6: Σχηµατική αναπαράσταση του πεπτιδίου µε ακολουθία AVAGCAGAR. Από το µοριακό βάρος κάθε αµινοξέος προκύπτει πληροφορία για την ακολουθία του πεπτιδίου [7]... 41 Σχήµα 3.7: Το πεπτίδιο κόβεται µεταξύ του carbonyl oxygen και του amide nitrogen και προκύπτουν y και b ιόντα. Η τµηµατοποίηση µπορεί να γίνει και σε άλλα σηµεία του πεπτιδίου µε τον σχηµατισµό a, z και c, x ιόντων, ωστόσο η εµφάνισή τους είναι σπάνια καθώς απαιτείται περισσότερη ενέργεια [7].... 41 Σχήµα 3.8: Πιθανά τµήµατα των b και y ιόντων. Το πεπτίδιο κόβεται στην κυστεϊνη και στη γλυκίνη και δηµιουργούνται b 4 και y 5 ιόντα [7]... 42 Σχήµα 3.9: MS-MS φάσµα του διπλά φορτισµένου ιόντος AVAGCAGAR, όπου φαίνονται τα b και y ιόντα [7]... 42 Σχήµα 3.10: Σχηµατική αναπαράσταση της MS-MS ανάλυσης των τµηµάτων των ιόντων (MS/MS Fragment Ion Analysis) [13]... 44 Σχήµα 3.11: Σχηµατική αναπαράσταση του Sequest αλγορίθµου για την συσχέτιση των MS-MS φασµάτων µε πεπτιδικές ακολουθίες από την Βάση εδοµένων [7]... 44 Σχήµα 4.1: ιάγραµµα υλοποίησης της εφαρµογής... 47 Σχήµα 4.2: Καταχώριση Πρωτεΐνης στη Swiss-Prot σε flat-file format... 50 Σχήµα 4.3: Fasta format της πρωτεΐνης µε AC Ο02192. Είναι µια HSP83 (Heat Shock Protein 83) πρωτεΐνη που ανήκει στον οργανισµό DROAV (Drosophila auraria). Είναι εύκολα προσβάσιµη από την ιστοσελίδα της expasy (http://au.expasy.org/uniprot/o02192.fas)... 51 4

Σχήµα 4.4: ιάγραµµα όπου απεικονίζεται η διαδικασία της επεξεργασίας των πρωτεϊνικών ακολουθιών της Swiss-Prot. Τα δεδοµένα εξόδου αυτής της διαδικασίας αποτελούν δεδοµένα εισόδου για την υλοποίηση της νέας Βάσης εδοµένων και των αρχείων αποθήκευσης html.... 53 Σχήµα 4.5: ιάγραµµα όπου απεικονίζεται η σχεδίαση της Βάσης εδοµένων. Τα δεδοµένα εξόδου της επεξεργασίας των πρωτεϊνικών ακολουθιών καταχωρούνται στην OREA Βάση.... 54 Σχήµα 4.6: Τα περιεχόµενα ενός html αρχείου στο οποίο καταχωρούνται οι πεπτιδικές ακολουθίες που έχουν µοριακό βάρος 580.29. Το αρχείο περιέχει και το AC των πρωτεϊνών από τις οποίες προέκυψαν τα πεπτίδια.... 55 Σχήµα 4.7: ιάγραµµα όπου απεικονίζεται η σχεδίαση της αποθήκης των αρχείων HTML. Τα αρχεία περιέχουν τις πεπτιδικές ακολουθίες και το AC των πρωτεϊνών από τις οποίες προέρχονται, ανάλογα µε το µοριακό βάρος των πεπτιδίων.... 56 Σχήµα 4.8: ιάγραµµα όπου απεικονίζεται η σχεδίαση της διαδικτυακής εφαρµογής PeptideFinder. Η εφαρµογή δέχεται µοριακά βάρη τα οποία αναζητούνται στην OREA Βάση και από το κατάλληλο αρχείο html στην αποθήκη αρχείων προκύπτουν δυναµικές ιστοσελίδες µετά από επεξεργασία µε Perl προγράµµατα. Η ακολουθία µιας πρωτεΐνης µπορεί να αποκτηθεί από την Swiss-Prot µε το AC της που είναι καταχωρηµένο στην αποθήκη αρχείων HTML.... 57 Σχήµα 5.1: Το περιβάλλον της εφαρµογής PeptideFinder. Ο χρήστης ορίζει τον οργανισµό στον οποίο θα αναζητηθεί το µοριακό βάρος που εισάγεται µε ακρίβεια.01dalton. Μπορεί να οριστούν και άλλες παράµετροι που βοηθούν στη βελτίωση της αξιοπιστίας των αποτελεσµάτων... 61 Σχήµα 5.2: Τα αποτελέσµατα του PeptideFinder για το µοριακό βάρος 7918.88 µε εύρος λάθους 0.02dalton.... 63 Σχήµα 5.3: Ορισµένα από τα πεπτίδια που έχουν µοριακό βάρος 7918.88 και στην ακολουθία τους υπάρχουν τρεις συνεχόµενες αλανίνες (ΑΑΑ). Το πρώτο πεπτίδιο που φαίνεται ανήκει στην πρωτεΐνη Q9Y2J4 µε µοριακό βάρος 85698.54dalton και ισοηλεκτρικό σηµείο 7.3. Το πεπτίδιο αυτό βρέθηκε µια φορά στην πρωτεΐνη, εποµένως έχει συχνότητα 1... 63 Σχήµα 5.4: Ορισµένα από τα 25 πεπτίδια που βρήκε το top_peptides.pl µετά από επεξεργασία του αρχείου html της αποθήκης αρχείων. Τα πεπτίδια αυτά βρέθηκαν µόνο σε µια πρωτεΐνη το καθένα γι αυτό και έχουν όλα score 1/25=0.04, δηλαδή 4%.... 64 5

Σχήµα 5.5: Πρωτεΐνες που έχουν πεπτίδια µε µοριακό βάρος 7918.88 και περιέχουν στην ακολουθία τους το ΑΑΑ. Για κάθε πρωτεΐνη δίνεται το µοριακό βάρος και το ισοηλεκτρικό της σηµείο.... 65 Σχήµα 5.6: Η πρωτεΐνη Q9Y2J4 του ανθρώπου. Το πεπτίδιο που εµφανίζεται στο Σχήµα 5.3 και έχει µοριακό βάρος 7918.88 φαίνεται µαρκαρισµένο µε κίτρινο χρώµα.... 65 Σχήµα 5.7: Αναζήτηση πεπτιδίων σύµφωνα µε ένα εύρος µοριακών βαρών.... 66 Σχήµα 5.8: Αναζήτηση πρωτεΐνης από ένα σύνολο µοριακών βαρών. Έχει επιλεγεί να γίνει αναζήτηση στις πρωτεΐνες του ανθρώπου που έχουν µοριακό βάρος µεταξύ 1 και 100kDa. Το µοριακό βάρος των πεπτιδίων έχει εύρος λάθους 0.02dalton, ενώ η αποδεκτή πεπτιδική ακολουθία έχει αργινίνη (R) ή λυσίνη (K) στο τέλος... 66 Σχήµα 5.9: Τα αποτελέσµατα του protein identifier από τα 27 µοριακά βάρη που εισήχθησαν. Εδώ φαίνονται οι πρώτες 3 πρωτεΐνες από τις 50 και η πρώτη µε AC ίσο µε P10909 έχει το µεγαλύτερο score (31.1) και τα περισσότερα matches (11). Χρησιµοποιώντας τον σύνδεσµο µε το AC της πρωτεΐνης, βρίσκεται ότι αυτή η πρωτεΐνη είναι η κλαστερίνη.... 69 Σχήµα 5.10: Η αύξηση των γνωστών πρωτεϊνικών ακολουθιών από το 1986 µέχρι σήµερα.... 70 Σχήµα 6.1: Ταυτοποίηση πρωτεΐνης από τη Mascot σύµφωνα µε τα µοριακά βάρη των πεπτιδίων που έχουν µετρηθεί από την ανάλυση φασµατογράφου µάζας.... 75 Σχήµα 6.2: Μέση τιµή µάζας και µονοϊσοτοπική σε µια ισοτοπική κατανοµή. Η πρώτη κορυφή αντιστοιχεί στον 12 C, η αµέσως επόµενη σε ένα 13 C, η επόµενη σε δυο 13 C κ.κ. Οι κορυφές απέχουν 1 dalton... 77 Σχήµα 6.3: Τα αποτελέσµατα του PeptideFinder µε την αναζήτηση των 88 µοριακών βαρών µε εύρος λάθους 0.02, έκφραση ακολουθίας [RK]$ και εύρος µοριακού βάρους των πρωτεϊνών από 40 µέχρι 50kDa. Η πρώτη προτεινόµενη πρωτεΐνη είναι η α-1 αντιτρυπσίνη µε 24 matches και score 75.9%.... 82 6

Λίστα Πινάκων Πίνακας 3.1: Τα πρωτεολυτικά ένζυµα... 30 Πίνακας 5.1: Όλες οι εκδόσεις της Swiss-Prot µέχρι τις µέρες µας.... 72 Πίνακας 6.1: Τα µοριακά βάρη που χρησιµοποιήθηκαν στην εφαρµογή από τον MALDI-TOF για την κλαστερίνη και την α-1 αντιτρυπσίνη.... 81 7

1 Εισαγωγή Οι νέες τεχνολογίες που έχουν αναπτυχθεί τα τελευταία χρόνια συντελούν στην µεγάλη συλλογή δεδοµένων. Το επόµενο βήµα αυτής της προσπάθειας είναι η ανάλυσή τους και η ανακάλυψη γνώσης µέσα από τα δεδοµένα αυτά. Η αποδοτική διαχείρισή τους είναι δύσκολη µε τις παραδοσιακές τεχνικές και αυτό γιατί τα δεδοµένα είναι µεγάλα σε πλήθος ενώ παρουσιάζουν ορισµένες ιδιαιτερότητες όπως η παρουσία θορύβου. Η Βιολογία είναι µια από τις επιστήµες που χρειάζεται τις τεχνικές της Πληροφορικής. Μέσα στα πλαίσια της Βιολογίας είναι η µελέτη των βιολογικών µορίων τα οποία είναι απαραίτητα για την ύπαρξη των ζωντανών οργανισµών και µε τις βελτιωµένες νέες τεχνολογίες που υπάρχουν, έχει γίνει εφικτή η διεξαγωγή µεγάλης κλίµακας πειραµάτων και ερευνητικών προγραµµάτων. Ένα σηµαντικό παράδειγµα είναι το πρόγραµµα αποκρυπτογράφησης του ανθρώπινου γονιδιώµατος (Human Genome Project - HGP), το οποίο ξεκίνησε το 1990 µε πρωτοβουλία του Τµήµατος Ενέργειας (Department of Energy) και του Εθνικού Ινστιτούτου Υγείας (National Institutes of Health NIH) των Η.Π.Α και ολοκληρώθηκε µε επιτυχία το 2003 [20,21]. Μάλιστα η µεγάλη συσσώρευση των βιολογικών δεδοµένων είναι φανερή από την εκθετική αύξηση του µεγέθους δύο γνωστών και µεγάλων βάσεων βιολογικών δεδοµένων, της EMBL και της GenBank [22,23]. Η ανάγκη διαχείρισης και ανάλυσης των δεδοµένων αυτών έχουν οδηγήσει στην εµφάνιση µιας νέας και πολλά υποσχόµενης επιστηµονικής περιοχής, της Βιοπληροφορικής. Αυτή η εργασία σκοπό έχει την δηµιουργία µιας διαδικτυακής εφαρµογής που θα λειτουργήσει ως ελεύθερα διαθέσιµο εργαλείο Βιοπληροφορικής µέσω του οποίου θα ταυτοποιούνται πεπτίδια και πρωτεΐνες από δεδοµένα φασµατογραφικής ανάλυσης ανεξαρτήτως της επεξεργασίας που έχουν υποστεί τα πρωτογενή δείγµατα. οµή του Κειµένου Το παρόν κείµενο είναι χωρισµένο σε έξι κεφάλαια. Το πρώτο από αυτά είναι η Εισαγωγή. 8

Το δεύτερο κεφάλαιο, µε τίτλο Βιοπληροφορική, παρέχει µια περιγραφή για το επιστηµονικό πεδίο της Βιοπληροφορικής και µελετώνται οι βιολογικές Βάσεις εδοµένων. Παρέχονται κάποιες βασικές γνώσεις για την κατανόηση της Μοριακής Βιολογίας και περιγράφεται η διαδικασία ανακάλυψης γνώσης σε βάσεις δεδοµένων. Το τρίτο κεφάλαιο, µε τίτλο Πρωτεωµική, παρέχει πληροφορίες για τα εργαλεία και τις εφαρµογές που έχουν αναπτυχθεί στο πεδίο της επιστήµης αυτής. Περιγράφεται αναλυτικά το εργαλείο Φασµατογράφου Μάζας για την ανάλυση των πρωτεϊνών και εξηγείται η διαδικασία ταυτοποίησής τους µε Peptide Mass Fingerprinting, καθώς και η διαδικασία ανάλυσης πεπτιδικών ακολουθιών µε Tandem Mass Spectometry. Το τέταρτο κεφάλαιο, µε τίτλο Μέθοδοι και Ανάπτυξη, παρουσιάζεται η διαδικασία που έχει ακολουθηθεί για την οργάνωση των βιολογικών δεδοµένων και την εξαγωγή βιολογικής πληροφορίας από την εφαρµογή PeptideFinder που έχει αναπτυχθεί στην παρούσα εργασία. Στο πέµπτο κεφάλαιο, µε τίτλο PeptideFinder, παρουσιάζει αναλυτικά την εφαρµογή που έχει υλοποιηθεί παρέχοντας παραδείγµατα και σχολιάζεται η διαδικασία αναβάθµισής της. Τέλος το έκτο κεφάλαιο, µε τίτλο Σύγκριση και Αξιολόγηση, αποτελεί την σύγκριση της εφαρµογής µε άλλες που προϋπάρχουν και αξιολογούνται οι δυνατότητές της. Επίσης παρουσιάζονται συµπεράσµατα και σχόλια σχετικά µε τα πεπραγµένα της εργασίας. 9

2 Βιοπληροφορική Στις µέρες µας η Βιολογία έχει µετασχηµατισθεί σε επιστήµη µε πληροφορία πρωτοφανούς όγκου και πολυπλοκότητας. Πρωταγωνιστής στην προσπάθεια αξιοποίησης των βιολογικών δεδοµένων αναδείχθηκε η επιστήµη της Βιοπληροφορικής. Ανάµεσα στους κύριους σκοπούς της επιστήµης αυτής είναι η οργάνωση των δεδοµένων µε τέτοιο τρόπο ώστε να επιτρέπει την πρόσβαση στους ερευνητές αλλά και να διευκολύνει την υποβολή νέων δεδοµένων. Μάλιστα η ανάγκη για ανάπτυξη εργαλείων που βοηθούν στην ανάλυση των δεδοµένων έχει επιτύχει την ερµηνεία των δεδοµένων αυτών µε βιολογικά αποδεκτό τρόπο [1]. Η επιστήµη της Πληροφορικής εφαρµόζεται στην Βιολογία µε σκοπό την βελτίωση της βιολογικής έρευνας. Έτσι αναπτύσσονται Βάσεις εδοµένων και αλγόριθµοι για την συλλογή πληροφοριών, την διαχείρισή, την ανάλυση και την αποθήκευσή τους. Γίνεται χρήση υπολογιστικών εργαλείων για την αποθήκευση, πρόσβαση και ανάλυση νουκλεοτιδικών και αµινοξικών ακολουθιών, πρωτεϊνικών δοµών και κάθε είδους σχετική βιολογική πληροφορία (δηµοσιεύσεις, φυλογενετικά δέντρα, µεταβολικά µονοπάτια). Ως αποτέλεσµα, ελαχιστοποιείται ο χρόνος της βιολογικής έρευνας καθώς επίσης γίνονται πραγµατοποιήσιµες νέες αναζητήσεις στο χώρο της βιολογικής πληροφορίας [2]. Γενικά η Βιοπληροφορική εµπλέκεται και µε άλλες επιστήµες, όπως είναι η Βιοτεχνολογία, η Γενετική, η Κυτταρική Βιολογία και η Επιδηµιολογία, ενώ χρησιµοποιείται από φαρµακευτικές εταιρίες, νοσοκοµεία και πανεπιστήµια. Τα περισσότερα από τα διάφορα εργαλεία και προγράµµατα της Βιοπληροφορικής είναι προσβάσιµα από το διαδίκτυο [2]. Εκτός από την αποτελεσµατική διαχείριση του όγκου της βιολογικής πληροφορίας, η Βιοπληροφορική συνεισφέρει και στην κατανόηση αυτής της πληροφορίας παρέχοντας µεθοδολογίες και εργαλεία λογισµικού. Έτσι επιτυγχάνεται για παράδειγµα ο χαρακτηρισµός του πρωτεϊνικού περιεχοµένου και η ταυτοποίηση των πρωτεϊνών που αλληλεπιδρούν µεταξύ τους. 10

Εποµένως η Βιοπληροφορική χρησιµοποιεί ορισµένες από τις δυνατότητες που της προσφέρει η Πληροφορική για να οργανώσει το πλήθος των βιολογικών δεδοµένων. Έχουν αναπτυχθεί σχεσιακές Βάσεις εδοµένων, web-based εφαρµογές και κατάλληλα αρχιτεκτονικά δίκτυα. Επίσης έχει γίνει ανάλυση και σύγκριση αλληλουχιών χαρακτήρων κειµένου, έχει εφαρµοστεί η µηχανική µάθηση και τεχνικές κατηγοριοποίησης, οµαδοποίησης και µοντελοποίησης δεδοµένων, καθώς και µοριακές προσοµοιώσεις. Ωστόσο η υπολογιστική ισχύ που απαιτείται για την υλοποίηση παρόµοιων εφαρµογών είναι αρκετά υψηλή και γίνονται προσπάθειες για την κατασκευή υπερυπολογιστικών συστηµάτων και προσπάθειες για πιο αποδοτική χρήση των υπαρχόντων υπολογιστικών πόρων [1]. 2.1 Μοριακή Βιολογία Η Βιολογία είναι η επιστήµη που µελετά το φαινόµενο της ζωής. Κατά τις τελευταίες δεκαετίες έχει γίνει φανερό από ερευνητικές µελέτες το µοριακό επίπεδο ενός κυττάρου και ότι το γενετικό υλικό είναι το DNA και αντιπροσωπεύει την καρδιά του ζωντανού οργανισµού [3]. Όλοι οι οργανισµοί βασίζουν την δραστηριότητά τους σε οικογένειες µορίων. Για παράδειγµα οι πρωτεΐνες επιτελούν την περισσότερη βιοχηµική εργασία που απαιτεί η ζωή. Μάλιστα υπάρχουν σύνολα πρωτεϊνών που µοιάζουν πολύ µεταξύ τους, έχουν παρόµοια λειτουργία και εµφανίζονται σε εξαιρετικά διαφορετικούς οργανισµούς [4,5]. Τα νουκλεϊκά οξέα (nucleic acids) έχουν το ρόλο της διατήρησης και µεταβίβασης της πληροφορίας που συνθέτει τη ζωή. Οι πρωτεΐνες και τα νουκλεϊκά οξέα καλούνται βιολογικά µακροµόρια (macromolecules) και καταβάλλεται σηµαντική προσπάθεια για τη µελέτη της δοµής και της λειτουργίας των βιολογικών µακροµορίων µε σκοπό την κατανόηση του φαινοµένου της ζωής. Ο κλάδος της Βιολογίας που ασχολείται µε αυτή τη µελέτη ονοµάζεται Μοριακή Βιολογία (Molecular Biology). 2.1.1 Ζωντανό Κύτταρο Η θεµελιώδης δοµική και λειτουργική µονάδα κάθε ζωντανού οργανισµού είναι το κύτταρο (cell). Κάθε κύτταρο είναι ένα σύνθετο σύστηµα που αποτελείται από πολλές διαφορετικές δοµικές µονάδες που περικλείονται από την πλασµατική µεµβράνη (plasma membrane). Η πλασµατική µεµβράνη είναι µια σύνθετη δοµή που οριοθετεί το κύτταρο από το περιβάλλον του και ρυθµίζει τη ροή των ουσιών, της ενέργειας και 11

των πληροφοριών από και προς το κύτταρο [3]. Κάθε κύτταρο έχει ένα σχηµατισµό που βρίσκεται συνήθως στο κέντρο του, τον πυρήνα (nucleus), ο οποίος περιβάλλεται από µεµβράνη και περικλείει το γενετικό υλικό. 2.1.2 Μοριακές οµικές Μονάδες Όλα τα µόρια που σχετίζονται µε το φαινόµενο της ζωής καλούνται βιοµόρια (biomolecules). Τα βιοµόρια µπορούν να διακριθούν σε µικρά µόρια (small molecules), και µακροµόρια (macromolecules). Όπως αναφέρθηκε, οι πρωτεΐνες, και τα νουκλεϊκά οξέα είναι µακροµόρια [3]. Πρωτεΐνες και Αµινοξέα Οι δοµικές µονάδες των πρωτεϊνών είναι τα αµινοξέα. Είναι 20 στο σύνολό τους και τοποθετούνται το ένα δίπλα στο άλλο γραµµικά, σχηµατίζοντας µια πολυπεπτιδική αλυσίδα (poly-peptide chain). Η αλληλουχία των αµινοξέων αποτελεί την πρωτοταγή δοµή (primary structure) της πρωτεΐνης και µπορεί να αναπαρασταθεί ως συµβολοσειρά από το συνδυασµό 20 διαφορετικών συµβόλων (Πίνακας 2.1). Η πολυπεπτιδική αλυσίδα αναδιπλώνεται στον χώρο σχηµατίζοντας τη δευτεροτοταγή δοµή (secondary structure) της πρωτεΐνης. Ως αποτέλεσµα του διπλώµατος, τα µέρη του πρωτεϊνικού µορίου πλησιάζουν µεταξύ τους και οι διάφορες ελκτικές ή απωστικές δυνάµεις (δεσµοί υδρογόνου, υδρόφοβες και υδρόφιλες δυνάµεις) µεταξύ αυτών των µερών αναγκάζουν το µόριο να αποκτήσει µια σχετικά σταθερή τρισδιάστατη δοµή. Αυτή είναι η τριτοταγής δοµή (tertiary structure). Ουσιαστικά η σειρά µε την οποία τα αµινοξέα βρίσκονται µέσα στην πολυπεπτιδική αλυσίδα, καθορίζει την τρισδιάστατη δοµή της αλυσίδας. Η τεταρτοτοταγής δοµή (quaternary structure) είναι η τελική τρισδιάστατη µορφή που παίρνει η πρωτεΐνη, όταν αποτελείται από περισσότερες της µίας πολυπεπτιδικές αλυσίδες. Στο Σχήµα 2.1 παρουσιάζονται τα τέσσερα επίπεδα της πρωτεϊνικής δοµής. Πρωτοταγής δοµή ευτεροταγής δοµή Τριτοταγής δοµή Τεταρτοταγής δοµή Σχήµα 2.1: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών. 12

Οι πρωτεΐνες διακρίνονται σε οµικές πρωτεΐνες, οι οποίες µπορούν να θεωρηθούν ως οι βασικές δοµικές µονάδες του οργανισµού. Ένα παράδειγµα είναι το κολλαγόνο, το οποίο αποτελεί τη σηµαντικότερη δοµική πρωτεΐνη του συνδετικού ιστού και των οστών. Ένζυµα, τα οποία καταλύουν ένα πλήθος βιοχηµικών αντιδράσεων. Αυτές οι αντιδράσεις µαζί µε την πορεία που δηµιουργούν καλούνται µεταβολισµός (metabolism). Οι πρωτεΐνες της µεµβράνης (transmembrane) είναι βασικές στη συντήρηση του κυτταρικού περιβάλλοντος, ρυθµίζοντας για παράδειγµα τον όγκο του κυττάρου. Όνοµα Σύµβολο Μοριακό Βάρος Χηµική Σύσταση οµή Αλανίνη Alanine A 71.03712 CH3-CH(NH2)- COOH Αργινίνη Arginine R 156.10112 HN=C(NH2)-NH- (CH2)3-CH(NH2)- COOH Ασπαραγίνη Asparagine N 114.04293 H2N-CO-CH2- CH(NH2)-COOH Ασπαρτικό οξύ Aspartic acid D 115.02695 HOOC-CH2- CH(NH2)-COOH Κυστεϊνη Cysteine C 103.00919 HS-CH2-CH(NH2)- COOH Γλουταµίνη Glutamine Q 128.05858 H2N-CO-(CH2)2- CH(NH2)-COOH Γλουταµικό οξύ Glutamic acid E 129.0426 HOOC-(CH2)2- CH(NH2)-COOH Γλυσίνη Glycine G 57.02147 NH2-CH2-COOH 13

Όνοµα Σύµβολο Μοριακό Βάρος Χηµική Σύσταση οµή Ιστιντίνη Histidine H 137.05891 N=C-NH-C=C- CH2-CH(NH2)- COOH Ισολευκίνη Isoleucine I 113.08407 CH3-CH2- CH(CH3)- CH(NH2)-COOH Λευκίνη Leucine L 113.08407 (CH3)2-CH-CH2- CH(NH2)-COOH Λυσίνη Lysine K 128.09497 H2N-(CH2)4- CH(NH2)-COOH Μεθιονίνη Methionine M 131.04049 CH3-S-(CH2)2- CH(NH2)-COOH Φενιλαλανίνη Phenylalanine F 147.06842 Ph-CH2-CH(NH2)- COOH Προλίνη Proline P 97.05277 NH-(CH2)3-CH- COOH Σερίνη Serine S 87.03203 HO-CH2-CH(NH2)- COOH Θρεονίνη Threonine T 101.04768 CH3-CH(OH)- CH(NH2)-COOH Τρυπτοφάνη Tryptophan W 186.07932 Ph-NH-CH-C-CH2- CH(NH2)-COOH 14

Τυροσίνη Tyrosine Y 163.06333 HO-p-Ph-CH2- CH(NH2)-COOH Βαλίνη Valine V 99.06842 CH3-CH(CH2)- CH(NH2)-COOH Πίνακας 2.1: Τα 20 αµινοξέα. Συµβολισµός-Μοριακό Βάρος-Σύνθεση- οµή DNA και Νουκλεοτίδια Το γενετικό υλικό ενός κυττάρου αποτελεί το γονιδίωµά του και κατανέµεται συνήθως στον πυρήνα του κυττάρου. Το δεοξυριβονουκλεϊκό οξύ (deoxyribonucleic acid), ή συντοµότερα DNA ανήκει στην κατηγορία των νουκλεϊκών οξέων και είναι ο βασικός φορέας πληροφορίας σε ένα κύτταρο. Το DNA µπορεί να είναι µονόκλωνο ή δίκλωνο. Ένα µονόκλωνο µόριο DNA, αλλιώς πολυνουκλεοτίδιο (polynucleotide) είναι µια αλυσίδα (πολυνουκλεοτιδική αλυσίδα) από νουκλεοτίδια. Για την περιγραφή του µήκους του, χρησιµοποιείται ο αριθµός των νουκλεοτιδίων του νουκλεϊκού οξέος. Τα νουκλεοτίδια αποτελούνται από µια πεντόζη (σάκχαρο µε πέντε άτοµα άνθρακα), η οποία ενώνεται µε µια φωσφορική οµάδα και µια αζωτούχο βάση. Η πεντόζη των νουκλεοτιδίων του DNA είναι η δεοξυριβόζη (deoxyribose) και του RNA, ενός δεύτερου σηµαντικού νουκλεϊκού οξέος, η ριβόζη (ribose). Το RNA καλείται ριβονουκλείκό οξύ (ribonucleic acid). Η διαφορετικότητα των νουκλεοτιδίων µέσα στα µόρια του DNA και του RNA καθορίζεται από τις πέντε διαφορετικές αζωτούχες βάσεις. Οι αζωτούχες βάσεις είναι η αδενίνη (adenine), η γουανίνη (guanine), η κυτοσίνη (cytosine) και η θυµίνη (thymine) που συναντώνται στο DNA και η ουρακίλη (uracil) που βρίσκεται στο RNA, αντί της θυµίνης. Οι παραπάνω βάσεις συµβολίζονται µε τα αρχικά τους γράµµατα A, G, C, T και U αντίστοιχα. 2.2 Βάσεις και Συστήµατα ιαχείρισης Βιολογικών εδοµένων Οι υπολογιστές εξυπηρετούν τέσσερις βασικές και αλληλοεξαρτώµενες λειτουργίες στη βιοπληροφορική. Επικοινωνία, υπολογισµούς, ελέγχους και αποθήκευση της βιολογικής πληροφορίας. Όλες αυτές οι δραστηριότητες περιστρέφονται γύρω από την τεχνολογία των Βάσεων εδοµένων. 15

Οι ηλεκτρονικές Βάσεις εδοµένων διατηρούν τα στοιχεία σε µια σταθερή µορφή που επιτρέπει τη σύγκρισή τους µε άλλα δεδοµένα, την διεκπεραίωση συγκεκριµένων επαναλαµβανόµενων διεργασιών και την δυνατότητα για ενηµέρωση και κοινοποίηση των αποτελεσµάτων στην επιστηµονική και ερευνητική κοινότητα Στις αρχές της δεκαετίας του 80 άρχισαν να συσσωρεύονται πληροφορίες τις οποίες ορισµένα εργαστήρια ανά τον κόσµο θεώρησαν σηµαντικό πλεονέκτηµα τη δηµιουργία µιας κεντρικής τράπεζας δεδοµένων. Το θέµα που προέκυψε είναι ότι τελικά πολλά εργαστήρια θέλησαν να υλοποιήσουν αυτήν την ιδέα µε αποτέλεσµα να υπάρχουν πολλές Βάσεις εδοµένων [2]. Επιπλέον τα τελευταία χρόνια έχει συµβεί µια εκρηκτική αύξηση του πλήθους των διαθέσιµων βιολογικών δεδοµένων. Οι πληροφορίες συσσωρεύονται µε εκθετικούς ρυθµούς. Εποµένως για την οργάνωση της βιολογικής πληροφορίας, την αποδοτική διαχείρισή της και τελικά την κατανόησή της, αντιµετωπίζονται κρίσιµα προβλήµατα όπως ο πλεονασµός των δεδοµένων και η ανάγκη µαζικής προσπέλασης και διαχείρισής τους. Μερικά παραδείγµατα των Βάσεων που έχουν αναπτυχθεί, αποτελούν οι Βάσεις εδοµένων πρωτεϊνικών ακολουθιών και Βάσεις για τις δοµές των µακροµορίων οι οποίες περιέχουν δεδοµένα πρωτεϊνικών ακολουθιών που είναι δυνατή οι επεξεργασία τους προσφέροντας πληροφορίες για την λειτουργία της πρωτεΐνης, καθώς και λεπτοµερή δοµική ανάλυση µε σχηµατικά διαγράµµατα των µορίων. Επίσης υπάρχουν Βάσεις που περιέχουν DNA ακολουθίες, δίδοντας πληροφορίες για τις λίστες ολοκληρωµένων γονιδιωµάτων και χρωµοσωµάτων σε έναν οργανισµό [1]. Επειδή η αναζήτηση λύσης σε ένα πρόβληµα µοριακής βιολογίας µε µεθόδους βιοπληροφορικής περιλαµβάνει αναζητήσεις σε πολλές Βάσεις εδοµένων για το σκοπό αυτό, έχουν αναπτυχθεί ολοκληρωµένα συστήµατα ανάκτησης πληροφοριών, αξιοποιώντας τις διασυνδέσεις µεταξύ των κατατεθειµένων εγγραφών, των διαφόρων βιολογικών Βάσεων εδοµένων. Γίνεται φανερό λοιπόν πόσο σηµαντική είναι η ανάπτυξη, αλλά και η συντήρηση και η χρήση αυτών των Βάσεων. 2.2.1 Βιολογικές Βάσεις εδοµένων Μια βιολογική Βάση εδοµένων είναι ένα µεγάλο οργανωµένο σύστηµα δεδοµένων που συνδέεται συνήθως µε κατάλληλο λογισµικό για την ενηµέρωση αναζήτηση και ανάκτηση στοιχείων των δεδοµένων που έχουν αποθηκευτεί στο σύστηµα. Οι τύποι δεδοµένων που συναντώνται είναι αυτοί που παράγονται από την βιολογική έρευνα, 16

όπως για παράδειγµα, ακολουθίες πρωτεϊνών και νουκλεοτιδίων, γονιδιώµατα, 3D δοµές πρωτεϊνών και δεδοµένα γενετικής ποικιλότητας. Ως επακόλουθο είναι η ύπαρξη διαφόρων Βάσεων εδοµένων οι οποίες περιγράφονται παρακάτω [1]. Βιβλιογραφικές Βάσεις εδοµένων Μια τέτοια Βάση, καλύπτει µε βιβλιογραφικό υλικό τους τοµείς της ιατρικής, της υγειονοµικής περίθαλψης, των προκλινικών επιστηµών, της βιολογίας καθώς και θέµατα βιοϊατρικής τεχνολογίας. Περιέχει βιβλιογραφικές παραποµπές και περιλήψεις άρθρων από βιοϊατρικά περιοδικά. Η πρόσβαση στα περιεχόµενα τέτοιων Βάσεων όπως είναι η MEDLINE του US National Library of Medicine γίνεται ελεύθερα από µηχανές αναζήτησης. Έτσι τα εργαλεία που παρέχουν αποδοτική πρόσβαση στο περιεχόµενο των Βάσεων παίζουν σηµαντικό ρόλο στο πεδίο της εξόρυξης δεδοµένων κειµένου (text mining) της βιοπληροφορικής. Στην περίπτωση της MEDLINE, η πρόσβαση γίνεται από την υπηρεσία PubMed. Ταξινοµικές Βάσεις εδοµένων Γίνονται διάφορες προσπάθειες για την συστηµατική ανάπτυξη ταξινοµικών δεδοµένων, καθώς είναι ένα πεδίο αρκετά αντιφατικό λόγω των διαφορετικών απόψεων και προσεγγίσεων από την επιστηµονική κοινότητα. Ο Taxonomy Browser του NCBI (National Center for Biotechnology Information) έχει ιεραρχική ταξινόµηση, βασίζεται σε δεδοµένα ακολουθίας και στοχεύει στην ταξινόµηση όλων των οργανισµών για τους οποίους υπάρχουν δεδοµένα νουκλεοτιδικών ή πρωτεϊνικών ακολουθιών. Νουκλεοτιδικές Βάσεις εδοµένων Τα δεδοµένα που περιέχονται σε αυτές τις βάσεις προέρχονται από την επιστηµονική κοινότητα και είναι ελεύθερα διαθέσιµα. Τα στοιχεία που εισάγονται όµως είναι ετερογενή, ποικίλλουν όσον αφορά την προέλευση του υλικού, την ποιότητά του και την πληρότητα της ακολουθίας σχετικά µε το βιολογικό στόχο. Οι µεγαλύτερες Βάσεις που είναι ελεύθερα διαθέσιµες η DNA Data Bank της Ιαπωνίας (DDBJ), η GenBank και η EMBL_Bank. Οι Βάσεις αυτές συνεργάζονται και έχουν δηµιουργήσει την International Nucleotide Sequence Database Collaboration. Η συνεργασία αυτή περιλαµβάνει τη δηµιουργία κοινών κανόνων για τον σχολιασµό των δεδοµένων και την καθηµερινή ανταλλαγή των εγγραφών που κατατίθενται ανεξάρτητα σε κάθε Βάση. 17

Γονιδιωµατικές Βάσεις εδοµένων Αν και οι γονιδιωµατικές ακολουθίες αποτελούν καταχωρήσεις σε νουκλεοτιδικές Βάσεις εδοµένων, για πολλά είδη έχουν αναπτυχθεί ειδικές βάσεις που συνδυάζουν τα δεδοµένα γονιδιωµατικών ακολουθιών και το σχολιασµό τους µε άλλα στοιχεία για τα συγκεκριµένα είδη. Οι Βάσεις αυτές παρουσιάζουν µια ποικιλοµορφία όσον αφορά στο είδος και στον τρόπο αποθήκευσης δεδοµένων. Παραδείγµατα τέτοιων Βάσεων είναι ο Genomes Server, το Ensembl και το Entrez Genomes. Βάσεις Πρωτεϊνικών εδοµένων Οι πρωτεϊνικές Βάσεις εδοµένων είναι η περιεκτικότερη πηγή πληροφοριών για τις πρωτεΐνες. Είναι απαραίτητο να γίνει η διάκριση µεταξύ τω καθολικών Βάσεων εδοµένων που αναφέρονται σε πρωτεΐνες από όλα τα είδη και των εξειδικευµένων συλλογών δεδοµένων που αποθηκεύουν τις πληροφορίες για συγκεκριµένες οικογένειες ή οµάδες πρωτεϊνών ή για πρωτεΐνες ενός συγκεκριµένου οργανισµού. Οι πρωτογενείς Βάσεις εδοµένων περιέχουν πληροφορία για την ακολουθία των πρωτεϊνών. Η Swiss-Prot παρέχει ένα υψηλό επίπεδο σχολιασµού, όπως είναι η περιγραφή της λειτουργίας µιας πρωτεΐνης, ένα ελάχιστο επίπεδο πλεονασµού και υψηλό επίπεδο διασύνδεσης µε άλλες Βάσεις εδοµένων. Η TrEMBL αποτελεί συµπλήρωµα της πρώτης καθώς περιλαµβάνει εγγραφές που πρόκειται να ενσωµατωθούν στην Swiss-Prot. Με την συνεργασία της Swiss-Prot, της TrEMBL και της PIR που είναι µια ολοκληρωµένη πηγή δεδοµένων και αναλυτικών εργαλείων, έχει προκύψει η UniProt που είναι η περιεκτικότερη παγκόσµια συλλογή πληροφοριών για πρωτεΐνες. Οι δευτερογενείς βάσεις δεδοµένων είναι το αποτέλεσµα της ανάλυσης των πρωτογενών Βάσεων πρωτεϊνικών ακολουθιών. Παραδείγµατα τέτοιων Βάσεων είναι οι PROSITE, PRINTS και Pfam οι οποίες διαφέρουν στη µέθοδο ανάλυση όπως είναι οι κανονικές εκφράσεις και τα Hidden Markov Models. οµικές Βάσεις εδοµένων Αυτές οι Βάσεις περιέχουν δοµική πληροφορία για µόρια πρωτεϊνών, νουκλεϊνικών οξέων και υδατανθράκων. Γνωστές είναι η Protein Data Bank (PDB) και η Nucleic Acid Database (NDB). Βάσεις εδοµένων Ταξινόµησης Πρωτεϊνικών οµών 18

Οι Βάσεις αυτές αποτελούν ταξινοµίες πρωτεϊνικής δοµής. Με άλλα λόγια, οι πρωτεΐνες που µοιάζουν από άποψη µορφής και τοπολογίας, είναι ταξινοµηµένες ως πιο στενά συνδεδεµένες σε σχέση µε πρωτεΐνες που φαίνονται ουσιαστικά διαφορετικές. Η SCOP (Structural Classification Of Proteins) έχει στο υψηλότερο επίπεδό της γνωστές πρωτεΐνες που οµαδοποιούνται µε βάση τα χαρακτηριστικά δευτεροταγούς δοµής. Εξειδικευµένες Βάσεις εδοµένων Πρόκειται για Βάσεις εδοµένων που περιέχουν στοιχεία από συγκεκριµένους οργανισµούς, συγκεκριµένες κατηγορίες / λειτουργίες ακολουθιών, ή δεδοµένα που παράγονται από συγκεκριµένες τεχνολογίες αλληλούχισης (sequencing technologies). 2.2.2 Ολοκληρωµένα Συστήµατα Ανάκτησης Πληροφοριών Τα συστήµατα αυτά αξιοποιούν τις προϋπάρχουσες λογικές συσχετίσεις µεταξύ των επιµέρους καταχωρήσεων που βρίσκονται στις πολυάριθµες δηµόσιες Βάσεις εδοµένων. Εποµένως οι διαθέσιµες πληροφορίες για µια συγκεκριµένη βιολογική οντότητα µπορούν να βρεθούν χωρίς να χρειάζεται ο χρήστης να επισκεφθεί διαδοχικά και να αναζητεί πληροφορία από διάφορες Βάσεις εδοµένων [1]. Το Entrez αναπτύχθηκε από το NCBI και είναι ένα ολοκληρωµένο σύστηµα αναζήτησης σε ένα αυξανόµενο αριθµό διασυνδεδεµένων Βάσεων εδοµένων µοριακής βιολογίας, που περιλαµβάνει ποικίλα εργαλεία για την αναζήτηση διαφορετικών Βάσεων εδοµένων. Μια αναζήτηση σε όλες τις Βάσεις εδοµένων Entrez εκτελείται µε την εισαγωγή ενός απλού όρου ή µιας φράσης αναζήτησης. Τα αποτελέσµατα που βρίσκονται σε κάθε βάση παρουσιάζονται συνοπτικά, ενώ είναι δυνατή η επισκόπηση των επιµέρους αποτελεσµάτων. Αυτό που καθιστά το Entrez ισχυρό εργαλείο είναι ότι τα περισσότερα από τα αρχεία του είναι συνδεδεµένα µε άλλα αρχεία, τόσο µέσα σε µια δεδοµένη Βάση αλλά και µεταξύ άλλων Βάσεων εδοµένων (Σχήµα 2.2). Το SRS (Sequence Retrieval System) παρέχει πρόσβαση σε µεγάλο πλήθος Βάσεων εδοµένων µε πολύ ισχυρές δυνατότητες διασύνδεσης και αναζήτησης. Στο ΕΒΙ υπάρχουν περισσότερες από 200 διαθέσιµες Βάσεις εδοµένων. Η ισχύς του SRS ως συστήµατος ανάκτησης είναι αποτέλεσµα του πολύ υψηλού βαθµού διασύνδεσης που παρέχεται µεταξύ των Βάσεων εδοµένων στο σύστηµα. Ταυτόχρονα το SRS είναι ένας εξυπηρετητής εφαρµογών (application server) 19

ανάλυσης στοιχείων µε 11 πρωτεϊνικές εφαρµογές και 6 εφαρµογές για νουκλεϊνικά οξέα. Σχήµα 2.2: Γραφική αναπαράσταση της ολοκλήρωσης που υλοποιεί το σύστηµα Entrez. 2.3 Υπολογιστική Νοηµοσύνη Το µέγεθος της βάσης δεδοµένων τις περισσότερες φορές είναι πολύ µεγάλο. Τα δεδοµένα έχουν συγκεντρωθεί για διάφορους λόγους, αλλά συνήθως δεν είναι οργανωµένα µε τρόπο που να εξυπηρετεί τις διαδικασίες της µάθησης. Έτσι η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µια µη τετριµµένη διαδικασία αναγνώρισης έγκυρων, νέων, ενδεχοµένως χρήσιµων και απόλυτα κατανοητών προτύπων στα δεδοµένα [6]. Η αναζήτηση γνώσης σε βάσεις δεδοµένων δεν αποτελεί µια καινούργια έννοια στον χώρο της Τεχνητής Νοηµοσύνης (Artificial Intelligence-AI). Υπήρχαν στατιστικολόγοι που µε την βοήθεια των µαθηµατικών, όπως είναι οι κατανοµές πιθανοτήτων έκαναν ανάλυση των δεδοµένων τους. Ακόµη, µε το δοµηµένο προγραµµατισµό και µε στατιστικά τεστ που εφαρµόζονταν πάνω στα δεδοµένα, ή σε τυπικά δείγµατα των δεδοµένων, έβγαιναν αποτελέσµατα που κυρίως επαλήθευαν τις διάφορες υποθέσεις που γίνονταν για τα δεδοµένα αυτά. Εποµένως, η µέθοδος αυτή 20

χαρακτηρίζεται ως επαληθευτική (confirmative) για δεδοµένα τα οποία είναι λίγα σε αριθµό και έχουν όλα τα πεδία τους συµπληρωµένα. Αυτό σηµαίνει πως τα δεδοµένα δεν περιέχουν θόρυβο δηλαδή οι τιµές τους σε κάθε πεδίο είναι σωστές και ανταποκρίνονται στην πραγµατικότητα. Η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µια σύνθετη διαδικασία για τον προσδιορισµό νέων, έγκυρων, κατανοητών και χρήσιµων σχέσεων σε δεδοµένα [6]. Ένα παράδειγµα είναι η εύρεση συσχετίσεων µεταξύ ασθενειών και διατροφικές συνήθειες που µπορούν να οδηγήσουν σε ιατρικές ανακαλύψεις. Επίσης πρέπει να σηµειωθεί ότι η βάση δεδοµένων είναι σχεδιασµένη για άλλο σκοπό οπότε είναι πιθανό να περιέχει λάθη ή να µην έχει ορισµένα απαραίτητα στοιχεία για την διαδικασία ανακάλυψης γνώσης. 2.3.1 Τα Στάδια Ανακάλυψης Γνώσης Ο τοµέας πάνω στον οποίο θα εφαρµοστεί η ανακάλυψη γνώσης πρέπει να γίνει κατανοητός από την αρχή και να προσδιοριστεί ο στόχος της, δηλαδή τι θα µπορεί να κάνει ο χρήστης των αποτελεσµάτων. Για τον λόγο αυτόν είναι απαραίτητη η συνδροµή ενός ειδικού πάνω στον τοµέα που µελετάται, ώστε το πρόβληµα να καθοριστεί µε αρκετή ακρίβεια. Ακόµη, πρέπει να σηµειωθεί ότι η διαδικασία εύρεσης γνώσης είναι αλληλεπιδραστική και επαναληπτική καθώς τις περισσότερες φορές ορισµένα από τα επιµέρους βήµατα είναι αναγκαίο να επαναληφθούν, αφού ενδέχεται να προκύψουν προβλήµατα που να σχετίζονται µε τις αρχικές επιλογές και τα οποία ήταν αδύνατο να εντοπιστούν αρχικά [6]. Τα στάδια της ανακάλυψης γνώσης (Σχήµα 2.3) είναι: 1. Επιλογή Από τις σχεσιακές βάσεις δεδοµένων εταιριών, νοσοκοµείων κλπ. Επιλέγεται το σύνολο των δεδοµένων στο οποίο θα εφαρµοστεί η αναζήτηση (training data set selection). Τα δεδοµένα αυτά είναι τις περισσότερες φορές οργανωµένα για άλλη χρήση και έτσι οι αλγόριθµοι εύρεσης γνώσης δεν µπορούν να εφαρµοστούν απ ευθείας. Εποµένως τα δεδοµένα πρέπει να οργανωθούν σε απλούστερες δοµές και αυτό γίνεται από τα συστήµατα αποθήκευσης δεδοµένων (data warehouses). 2. Προεπεξεργασία Στο στάδιο αυτό αντιµετωπίζονται οι περιπτώσεις ελλιπών δεδοµένων, όπως άγνωστα πεδία ή πεδία που η τιµή τους δεν ανταποκρίνεται στην πραγµατικότητα. Είναι γνωστό και ως στάδιο καθαρισµού των δεδοµένων (data cleaning). 21

3. Μετασχηµατισµός Τα δεδοµένα µετασχηµατίζονται (transform) σε δοµές που διευκολύνουν την εύρεση γνώσης καθώς οι αλγόριθµοι εύρεσης γνώσης απαιτούν συγκεκριµένες δοµές για να εργαστούν. Για παράδειγµα µπορεί να γίνει µείωση του αριθµού των µεταβλητών που εξετάζονται, οµοιόµορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας κλπ. 4. Εξόρυξη - Επιλογή αλγορίθµου και εφαρµογή του Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδοµένα. Καθορίζεται το είδος της γνώσης που θα αναζητηθεί εποµένως προσδιορίζεται και η κατηγορία του αλγορίθµου που θα χρησιµοποιηθεί. Το στάδιο αυτό της διαδικασίας εύρεσης γνώσης περιγράφεται και µε τον όρο εξόρυξη σε δεδοµένα (data mining) [6]. 5. Ερµηνεία Αξιολόγηση Γίνεται η ερµηνεία και η αξιολόγηση των προτύπων που βρήκε ο αλγόριθµος, πιθανώς µε την βοήθεια των γραφικών απεικονίσεών τους (pattern visualization). Η γνώση που προέκυψε µπορεί να χρησιµοποιηθεί σε ένα σύστηµα γνώσης και ίσως να απαιτείται η επίλυση συγκρούσεων µε προϋπάρχουσα γνώση. Ακόµη τα αποτελέσµατα µπορεί να δίνουν το ερέθισµα για νέα αναζήτηση οπότε θα πρέπει να επαναληφθεί η διαδικασία από την αρχή. Σχήµα 2.3: Τα βασικά στάδια της διαδικασίας ανακάλυψης γνώσης 2.4 Περιορισµοί και Προβλήµατα Λόγω των εξελίξεων που έχουν συντελεστεί τα τελευταία χρόνια στη βιολογική έρευνα, οι πληροφορίες που καταχωρούνται στις βιολογικές Βάσεις εδοµένων έχουν αυξηθεί σηµαντικά. Πολλές Βάσεις έχουν ξεκινήσει προγράµµατα για το συγχρονισµό ή την ολοκλήρωσή τους µε άλλες Βάσεις. Σε άλλες περιπτώσεις εξετάζεται πως µπορεί να υλοποιηθεί µε αποδοτικό τρόπο και µε ελάχιστη ανθρώπινη 22

παρέµβαση ο σχολιασµός των εγγραφών. Επιπλέον, γίνονται προσπάθειες για την εξαγωγή ακόµα περισσότερης πληροφορίας και γνώσης από τα ήδη καταχωρηµένα δεδοµένα. Ωστόσο οι βιολογικές Βάσεις εδοµένων πρέπει να αντιµετωπίσουν άµεσα διάφορα ζητήµατα ποιότητας δεδοµένων που είναι εγγενή σε όλες τις µεγάλες Βάσεις. Για παράδειγµα, θέµατα πλεονασµού, συνωνυµίας και πολυσηµίας παρακωλύουν τις διαδικασίες ολοκλήρωσης, εξόρυξης γνώσης και αυτοµατοποίησης του σχολιασµού [1]. εν πρέπει να παραλειφθεί και η ανάγκη για γρήγορη και άµεση ενηµέρωση των Βάσεων καθώς αυτές ανανεώνονται συνήθως κάθε τετράµηνο ή χρόνο. Λόγω της σύνθετης και διαφορετικής φύσης των δεδοµένων, το πρόβληµα της βελτίωσης της ποιότητας δεν είναι ένα τετριµµένο θέµα. Εάν η ποιότητα δεδοµένων δε διατηρείται ή βελτιώνεται, αυτό θα έχει ως συνέπεια τη διάδοση σφαλµάτων σε διαδικασίες όπως είναι η εξόρυξη πληροφορίας και γνώσης ή η προσπάθεια για επέκταση της λειτουργικότητας µιας Βάσης µε την αξιοποίηση των δυνατών συσχετίσεων µεταξύ των δεδοµένων, δηµιουργώντας έτσι κατ επέκταση περισσότερα προβλήµατα. 23

3 Πρωτεωµική Η Πρωτεωµική (Proteomics) είναι η µελέτη της σύνθεσης, της δοµής, της λειτουργίας και των αλληλεπιδράσεων όλων των πρωτεϊνών µέσα σε ένα κύτταρο [7]. Η έκφραση του γονιδιώµατος του κυττάρου αποτελεί το πρωτέωµα. Τους όρους αυτούς τους εισήγαγε ο Marc Wilkins στις αρχές της δεκαετίας του 90 και αντικατοπτρίζουν τους όρους γενωµική και γονιδίωµα που περιγράφουν την ολοκληρωµένη συλλογή των γονιδίων σε έναν οργανισµό (Σχήµα 3.1). Μέχρι τα µέσα του 90, οι βιολόγοι µελετούσαν µεµονωµένα γονίδια και πρωτεΐνες ή µικρές οµάδες συστατικών που συµµετείχαν σε ειδικά βιοχηµικά µονοπάτια. Με την πάροδο των χρόνων το βιολογικό υπόβαθρο άλλαξε µε αποτέλεσµα να θεωρηθεί η επιστήµη της Βιολογίας σε νέα βάση. Τρεις είναι οι παράγοντες που συνετέλεσαν σε αυτήν την αλλαγή. a. Η ανάπτυξη των gene expressed sequence tags (EST) που είναι ακολουθίες γονιδίων που έχουν εκφραστεί και των Βάσεων εδοµένων πρωτεϊνικών ακολουθιών. b. Η ανάπτυξη φιλικών, διαδικτυακών εργαλείων βιοπληροφορικής τα οποία εξάγουν πληροφορία από τις Βάσεις εδοµένων. Είναι πλέον εφικτή η αναζήτηση σε µεγάλο όγκο πληροφορίας µέσα σε λίγα δευτερόλεπτα από έναν απλό υπολογιστή γραφείου. c. Η ανάπτυξη των oligonucleotide microarrays. Είναι µια τεχνική που επιτρέπει την έκφραση χιλιάδων γονιδίων σε πολύ µικρό χρονικό διάστηµα. Με αυτά λοιπόν τα µέσα, και σε συνδυασµό µε αλγορίθµους οµαδοποίησης, ο σηµερινός βιολόγος µπορεί να κατανοήσει πως λειτουργεί ένα ολόκληρο σύστηµα και όχι µόνο µερικές µεµονωµένες µονάδες, έχει πλέον αντίληψη της πολυπλοκότητας του βιολογικού συστήµατος σαν σύνολο αφού µπορεί να συσχετίσει τις πληροφορίες που διαθέτει. Σχήµα 3.1: Βιοχηµικό περιεχόµενο Γενωµικής και Πρωτεωµικής. 24

Θα µπορούσε κανείς να αναρωτηθεί γιατί να υπάρχει ο τοµέας της Πρωτεωµικής, αφού υπάρχει η Γενωµική που ασχολείται µε τα γονίδια και είναι αυτά που κωδικοποιούν τις πρωτεΐνες. Όµως η δηµιουργία των πρωτεϊνών δεν επηρεάζεται µόνο από τα γονίδια αλλά και από παράγοντες που δεν µπορούν να ελεγχθούν. Παρόλο που το γονίδιο είναι αυτό που θα ξεκινήσει την διαδικασία παραγωγής της πρωτεΐνης, η αποτελεσµατικότητα της διαδικασίας της µετάφρασης, η δοµική σταθερότητα, οι µετα-µεταφραστικές τροποποιήσεις και αλλαγές στο περιβάλλον του κυττάρου είναι κάποιοι από τους παράγοντες για τους οποίους δε µπορεί να εγγυηθεί η µορφή της τελικής πρωτεΐνης. 3.1 Τα Εργαλεία της Πρωτεωµικής Με την τεχνολογία των µικροσυστοιχιών (microarrays) έχει λυθεί το πρόβληµα για την µέτρηση της έκφρασης των γονιδίων, καθώς γίνεται χρήση της ικανότητας του DNA να αντιγράφεται χάρη στην συµπληρωµατικότητα των νουκλεοτιδίων. Όµως αυτήν την ικανότητα δεν την έχουν οι πρωτεΐνες, δεν υπάρχουν συµπληρωµατικά αµινοξέα, και εποµένως δεν υπάρχουν ανάλογα εργαλεία για την πρωτεϊνική ανάλυση. Επιπλέον κάθε πρωτεΐνη ως προϊόν ενός γονιδίου δεν έχει πάντα απαραίτητα την ίδια µοριακή οντότητα στο κύτταρο. Συνεπώς µια πρωτεΐνη µπορεί να υπάρχει σε πολλές µορφές γι αυτό και η ανάγκη για αναζήτηση και διαφοροποίηση µεταξύ πολλαπλών πρωτεϊνών ενός συγκεκριµένου γονιδίου αποτελεί πρόκληση για την Πρωτεωµική. Εποµένως η ανάλυση του πρωτεώµατος απαιτεί διαφορετικά εργαλεία και µεθόδους τα οποία εξετάζονται παρακάτω. Τέσσερα σηµαντικά εργαλεία παρέχουν στους ερευνητές την δυνατότητα για ακριβή αναγνώριση και χαρακτηρισµό της πρωτεΐνης. Το πρώτο εργαλείο αποτελεί η τεχνολογία του πρωτεϊνικού διαχωρισµού που εξυπηρετεί δυο σκοπούς στην Πρωτεωµική. Πρώτον, απλοποιούν τις σύνθετες πρωτεΐνες, αναλύοντας αυτές σε µικρότερες οµάδες πρωτεϊνών. εύτερον, επιτρέπουν την σύγκριση µεταξύ δυο δειγµάτων σε διαφορετικά πρωτεϊνικά επίπεδα. Η 2διάστατη SDS-PAGE (2D-SDS-PAGE) είναι µια πολύ καλή τεχνική για την ανάλυση σύνθετων πρωτεϊνικών δειγµάτων. Άλλες τεχνικές είναι η 1D-SDS-PAGE, η υγρή χρωµατογραφία (high performance liquid chromatography-hplc) και η εστίαση ισοηλεκτρικού σηµείου (isoelectric focusing-ief). Μάλιστα συνδυασµοί αυτών των τεχνικών δίνουν ισχυρά εργαλεία για την ανάλυση σύνθετων πρωτεϊνικών δειγµάτων. 25

Το δεύτερο εργαλείο είναι η φασµατοµετρία µάζας (mass spectrometry-ms). Η τεχνολογία για το εργαλείο αυτό έχει βελτιωθεί σηµαντικά την τελευταία δεκαετία. Έχει αναπτυχθεί υψηλή ευαισθησία, ενώ αναλύονται µε ακρίβεια τα βιοµόρια, ειδικότερα οι πρωτεΐνες και τα πεπτίδια. Τρία ειδών αναλύσεων µπορούν να γίνουν µε την MS, που είναι ιδιαίτερα χρήσιµες στην Πρωτεωµική. Η MS παρέχει έγκυρες µετρήσεις µοριακής µάζας από άθικτες πρωτεΐνες των 100kDa ή παραπάνω. Εποµένως η MS σε αντίθεση µε την ηλεκτροφόριση sodium dodecyl sulfatepolyacrylamide gel (SDS-PAGE) είναι ο καλύτερος τρόπος για την εκτίµηση πρωτεϊνικών µαζών. Επίσης η MS παρέχει έγκυρες µετρήσεις µάζας πεπτιδίων από proteolytic digests. Σε αντίθεση µε τις µετρήσεις µάζας όλης της πρωτεΐνης, οι µετρήσεις για την µάζα των πεπτιδίων µπορεί να γίνει µε υψηλή ευαισθησία και ακρίβεια. Στη συνέχεια τα δεδοµένα από τις µάζες των πεπτιδίων µπορούν να αναζητηθούν απευθείας στις Βάσεις εδοµένων για την ταυτοποίηση των πρωτεϊνών. Ακόµη οι MS αναλύσεις µπορούν να παρέχουν και ανάλυση της ακολουθίας των πεπτιδίων από την proteolytic digest. Όντως η MS θεωρείται στις µέρες µας κορυφή για την ανάλυση της πεπτιδικής ακολουθίας. Το τρίτο εργαλείο είναι οι Βάσεις εδοµένων οι οποίες όπως έχει ήδη αναφερθεί, παρέχουν ένα πλήρη κατάλογο όλων των πρωτεϊνών που έχουν βρεθεί στους διάφορους οργανισµούς. Όταν γίνεται αναζήτηση µε περιορισµένη πληροφορία της ακολουθίας ή µε τα αρχικά δεδοµένα από το φάσµα µάζας, που θα µελετηθεί παρακάτω, τότε µπορούν να ταυτοποιηθούν κοµµάτια της πρωτεΐνης µε τις καταχωρήσεις στη Βάση. Τέλος, το τέταρτο εργαλείο αποτελεί η συλλογή εφαρµογών λογισµικού που µπορούν να ταιριάξουν τα δεδοµένα της MS µε συγκεκριµένες πρωτεϊνικές ακολουθίες στις Βάσεις εδοµένων. Όπως έχει ήδη αναφερθεί είναι δυνατόν να καθοριστεί η ακολουθία των πεπτιδίων. Όµως αυτό απαιτεί µια διεξοδική αναζήτηση ειδικά όταν µελετώνται χιλιάδες πεπτίδια. Έτσι έχουν αναπτυχθεί ειδικοί αλγόριθµοι που επιτρέπουν την αυτόµατη αναζήτηση πολλών MS δεδοµένων. Ο ερευνητής µπορεί να ελέγχει τα αποτελέσµατα και να εκτιµάει την ποιότητα των δεδοµένων σε λιγότερο χρόνο από το να ερµηνεύει κάθε φάσµα µε δικούς του υπολογισµούς. 3.2 Εφαρµογές της Πρωτεωµικής Η τεχνολογία που έχει αναπτυχθεί για την επεξεργασία των πρωτεϊνών είναι όντως εντυπωσιακή και βρίσκει εφαρµογή σε τέσσερεις τοµείς. Την εξόρυξη πληροφορίας, 26

το προφίλ πρωτεϊνικής έκφρασης, την χαρτογράφηση δικτύου πρωτεϊνών και την χαρτογράφηση των πρωτεϊνικών τροποποιήσεων οι οποίες αναλύονται συνοπτικά παρακάτω. Η εξόρυξη πληροφορίας (Mining) αφορά την ταυτοποίηση όλων ή όσο το δυνατόν περισσότερων πρωτεϊνών σε ένα δείγµα. Η ουσία είναι να καταγραφεί άµεσα το πρωτέωµα, από το να γίνεται αναφορά στην σύνθεσή του από δεδοµένα εκφρασµένων γονιδίων (π.χ. από microarrays). Ο ερευνητής αναλύει τις πρωτεΐνες στο µεγαλύτερο δυνατό επίπεδο και στη συνέχεια χρησιµοποιεί MS, σχετικές Βάσεις εδοµένων και εργαλεία για να ταυτοποιήσει αυτό που βρήκε. Το προφίλ πρωτεϊνικής έκφρασης (Protein-expression profiling) είναι η ταυτοποίηση των πρωτεϊνών σε ένα συγκεκριµένο δείγµα σε σχέση µε µια συγκεκριµένη κατάσταση του οργανισµού ή του κυττάρου (π.χ. διαφοροποίηση, ανάπτυξη, κατάσταση ασθένειας) ή σε σχέση µε την έκθεσή του σε χηµικό, φυσικό ερέθισµα. Το προφίλ έκφρασης είναι ειδική περίπτωση εξόρυξης πληροφορίας. Η πιο κοινή εφαρµογή είναι µε διαφορική ανάλυση όπου συγκρίνονται δυο καταστάσεις ενός συστήµατος. Για παράδειγµα φυσιολογικά και παθολογικά κύτταρα ή ιστοί συγκρίνονται για να καθοριστούν ποιες πρωτεΐνες εκφράζονται διαφορετικά στη µια κατάσταση σε σχέση µε την άλλη. Αυτή η πληροφορία έχει ιδιαίτερη σηµασία στη φαρµακοθεραπεία. Η χαρτογράφηση δικτύου πρωτεϊνών (Protein-network mapping) είναι η Πρωτεωµική προσέγγιση για να καθοριστεί πώς οι πρωτεΐνες αλληλεπιδρούν µεταξύ τους σε ζωντανά συστήµατα οργανισµών. Οι περισσότερες πρωτεΐνες λειτουργούν σε σχέση µε άλλες. Αυτές οι αλληλεπιδράσεις αφορούν την µετάδοση σηµάτων και σύνθετα µονοπάτια. Έχει αποκτηθεί γνώση για τις αλληλεπιδράσεις των πρωτεϊνών µε µελέτες που έχουν γίνει in vitro και γίνεται προσπάθεια για να οριστούν οι συντελεστές που επηρεάζουν την πολυπλοκότητα των πρωτεϊνών. Η πολυπλοκότητα σχετίζεται µε την point-to-point µετάδοση σήµατος στο κύτταρο. Έτσι ο σχηµατισµός δικτύου πρωτεϊνών προσφέρει την δυνατότητα για άµεση πρόσβαση στην γνώση για την κατάσταση όλων των συντελεστών που συµµετέχουν σε ένα βιολογικό µονοπάτι. Εποµένως η χαρτογράφηση του δικτύου των πρωτεϊνών αντιπροσωπεύει µια από τις πιο φιλόδοξες και ισχυρές εφαρµογές στο µέλλον για την Πρωτεωµική. Στην χαρτογράφηση των πρωτεϊνικών τροποποιήσεων (Mapping of protein modifications) γίνεται προσπάθεια να οριστεί πώς και που τροποποιούνται οι πρωτεΐνες. Πολλές τροποποιήσεις σχετίζονται µε την δοµή, την λειτουργία και τον 27

σκοπό που έχουν οι πρωτεΐνες. Επιπλέον πολλά περιβαλλοντικά και ενδογενή χηµικά προκαλούν ενεργά ηλεκτρόφιλα (electrophiles) που τροποποιούν τις πρωτεΐνες. Ένα πλήθος από εργαλεία έχουν αναπτυχθεί για να οριστούν οι αλλαγµένες πρωτεΐνες και η φύση των αλλαγών αυτών. Οι πρωτεΐνες αυτές µπορούν να ανιχνευθούν µε αντιβιοτικά (π.χ. για συγκεκριµένα κατάλοιπα φωσφοριλικών αµινοξέωνphosphorylated amino acid residues) όµως το ακριβές σηµείο της ακολουθίας όπου έχει γίνει η αλλαγή, τις περισσότερες φορές είναι άγνωστο. Αυτή η προσέγγιση παρέχει στην επιστηµονική κοινότητα νέους δρόµους για τα ερωτήµατα του πώς η χηµική τροποποίηση του πρωτεώµατος επηρεάζει τη λειτουργία των ζωντανών οργανισµών. 3.3 Πρωτεωµική Ανάλυση Για την πρωτεωµική ανάλυση η βασική προσέγγιση είναι η ταυτοποίηση των πρωτεϊνών. Οι περισσότερες πεπτιδικές ακολουθίες που αποτελούνται από περίπου έξι ή παραπάνω αµινοξέα είναι αρκετά µεγάλες ώστε να είναι µοναδικές στο πρωτέωµα ενός οργανισµού. Έτσι αν από τις ακολουθίες των πεπτιδίων µπορεί να µετρηθεί η µάζα, τότε µπορεί να προσδιοριστεί η πρωτεΐνη από την οποία προέρχεται το πεπτίδιο µε µια απλή αναζήτηση σε Βάσεις εδοµένων πρωτεϊνικών ακολουθιών (Σχήµα 2.2). Φυσικά υπάρχουν εξαπεπτίδια που περιέχονται σε παραπάνω από µια πρωτεΐνες, εποµένως εάν είναι γνωστές οι ακολουθίες και άλλων πεπτιδίων µέσα στην ίδια πρωτεΐνη, τότε τα αποτελέσµατα θα είναι πιο έγκυρα. Εποµένως η πρωτεωµική ανάλυση βασίζεται στην δυνατότητα να µετατρέπεται η πρωτεΐνη σε πεπτίδια, να υπολογίζεται η ακολουθία των πεπτιδίων και στη συνέχεια να ταυτοποιείται η πρωτεΐνη. Για την διαδικασία αυτή, όπως φαίνεται στο Σχήµα 3.2, υπάρχει αρχικά ένα µίγµα πρωτεϊνών (protein mixture). Αυτό το µίγµα αποτελείται από ανεπεξέργαστες πρωτεΐνες, διαφόρων µοριακών βαρών, τροποποιήσεων και διαλυτότητας. Για την απόκτηση πεπτιδικών ακολουθιών αλλά και για την δυνατότητα χρήσης φασµατογράφων µάζας, οι πρωτεΐνες χρειάζεται να κοπούν. Επίσης το µίγµα χρειάζεται να διαχωριστεί όσον αφορά την πολυπλοκότητά του για να υπάρχει έλεγχος στις διάφορες παραµέτρους. Για αυτό το µίγµα µπορεί είτε να κοπεί και να διαχωριστεί, είτε να διαχωριστεί και να κοπεί. Τα πεπτίδια στη συνέχεια µπορούν να αναλυθούν µε δυο είδη φασµατογράφου µάζας, τον MALDI-TOF (Matrix Assisted Laser Desorption Ionization-Time of Flight) που ειδικεύεται στις µετρήσεις της 28

µάζας των πεπτιδίων και τον Electrospray Ionization (ESI) που ειδικεύεται στην εύρεση της πεπτιδικής ακολουθίας. Σχήµα 3.2: Τα στάδια της Πρωτεωµικής Ανάλυσης. Ενδεικτικά, βασιζόµενοι στον αριθµό των ανθρώπινων γονιδίων που είναι γνωστά, υπολογίζεται ότι ένα κανονικό κύτταρο µπορεί να περιέχει περίπου 20.000 διαφορετικές πρωτεΐνες. Εάν θεωρηθεί ότι το µέσο µοριακό βάρος των πρωτεϊνών είναι 50kDa και περιέχουν ένα µέσο αριθµό από λυσίνες και αργινίνες, τότε κάθε πρωτεΐνη δίνει περίπου 30 πεπτίδια, και εποµένως από τις πρωτεΐνες ενός κυττάρου θα προκύψουν 6*10 6 πεπτίδια, αριθµός που αποτελεί πρόκληση για πολλές εφαρµογές. Για την εξαγωγή των πρωτεϊνών από ένα βιολογικό δείγµα ακολουθείται µια διαδικασία µε διάφορες τεχνικές. Για την πρωτεωµική ανάλυση σκοπός είναι η ανάκτηση µίγµατος µε όσο το δυνατόν λιγότερη περιεκτικότητα σε βιοϋλικά πέρα των πρωτεϊνών όπως είναι τα λιπίδια. Αυτό γίνεται µε detergents (π.χ. SDS, CHAPS) που προκαλούν την διάλυση της πρωτεϊνικής µεµβράνης και βοηθούν στον διαχωρισµό της πρωτεΐνης από τα λιπίδια, µε reductants (π.χ. DTT) που µειώνουν τους δισουλφιδικούς δεσµούς της πρωτεΐνης και προλαµβάνουν την οξείδωσή της. Επίσης µε denaturing agents (π.χ. ουρία και οξέα) που διακόπτουν τις αλληλεπιδράσεις µεταξύ των πρωτεϊνών και αλλάζουν την δευτεροταγή και τεταρτοταγή δοµή τους µε αλλαγή στο ph και τέλος µε τα ένζυµα (π.χ. DNAse, RNAse) που αποµακρύνουν τα νουκλεϊκά οξέα, τα καρβοξύλια και τα λιπίδια. Έτσι ανάλογα µε το βιολογικό δείγµα χρησιµοποιείται η κατάλληλη τεχνική ή συνδυασµός 29

τεχνικών για την εξαγωγή των πρωτεϊνών. Οι τεχνικές που έχουν χρησιµοποιηθεί είναι σηµαντικές για την όλη διαδικασία και θα πρέπει να λαµβάνονται υπόψη και για την περαιτέρω ανάλυση. Για τον διαχωρισµό των πρωτεϊνών σε απλούστερο µίγµα ακολουθούνται τρεις προσεγγίσεις. Η 1D και 2D-SDS-PAGE και η ισοηλεκτρική εστίαση (isoelectric focusing-ief). Άλλες τεχνικές είναι HPLC (reverse phase RP), η size exclusion, η ion exchange και η affinity chromatography. Ανεξάρτητα από την µέθοδο που θα ακολουθηθεί, η βασική ιδέα στον διαχωρισµό των ανεπεξέργαστων πρωτεϊνών είναι να χρησιµοποιηθεί η διαφορετικότητα των πρωτεϊνών µε βάση τις φυσικές τους ιδιότητες, και ειδικότερα για το ισοηλεκτρικό τους σηµείο και το µοριακό τους βάρος. Μετά τον διαχωρισµό τα τµήµατα που προκύπτουν οδηγούνται σε proteolytic digestion και σε περαιτέρω διαχωρισµό των πεπτιδίων ή απευθείας σε MS ανάλυση των πεπτιδίων. Κρίνεται απαραίτητο οι µετρήσεις να γίνουν µε βάση τα πεπτίδια και όχι σε ολόκληρες τις πρωτεΐνες για λόγους ακρίβειας. Όσο µεγαλύτερη είναι η µάζα της πρωτεΐνης, τόσο µεγαλύτερο είναι το απόλυτο σφάλµα. Επίσης δεν υπόκεινται όλες οι πρωτεΐνες σε µετρήσεις µάζας, ιδίως οι πολύ µεγάλες και οι υδροφοβικές. Επιπλέον ο εξοπλισµός για την MS ανάλυση είναι προσαρµοσµένος για µετρήσεις των πεπτιδίων µε σηµαντική ακρίβεια και η εύρεση δεδοµένων βοηθάει στον εντοπισµό της πεπτιδικής ακολουθίας. Ένα σηµαντικό στοιχείο που χρησιµοποιούν οι αλγόριθµοι αναζήτησης πρωτεϊνών σε Βάσεις εδοµένων είναι η γνώση ότι συγκεκριµένα πρωτεολυτικά ένζυµα κόβουν την πρωτεΐνη σε συγκεκριµένα σηµεία. Το ιδανικό µήκος των πεπτιδίων για την MS ανάλυση είναι 6-20 αµινοξέα. Πεπτίδια µικρότερα από 6 αµινοξέα ή µεγαλύτερα από 20, δεν δίνουν αρκετή πληροφορία για ταίριασµα της ακολουθίας µε την Βάση. Για τον λόγο αυτόν, ο αναλυτής χρειάζεται καλά ορισµένα και σταθερά ένζυµα µε γνωστές ιδιότητες που κόβουν σε συγκεκριµένα σηµεία την πρωτεΐνη. Μερικά παραδείγµατα τέτοιων ενζύµων που χρησιµοποιούνται ευρέως στην πρωτεωµική φαίνονται στον παρακάτω πίνακα. Ένζυµο Σηµείο Κοπής Τρυπσίνη (Trypsin) /K-, /R-, \P Χυµοτρυπσίνη (Chymotrypsin) /W-, /Y-, /F-, \P Glu C (V8 protease) /E-, /D-, \P Lys C /K-, \P Asp N /D- Πίνακας 2.1: Τα πρωτεολυτικά ένζυµα. 30

Το περισσότερο διαδεδοµένο ένζυµο στην πρωτεωµική ανάλυση είναι η τρυπσίνη η οποία βρίσκεται σε µεγάλες ποσότητες στη φύση, συγκεκριµένα στο πάγκρεας χοίρου ή βοοειδούς. Τα σηµεία στα οποία κόβει την πρωτεΐνη έχουν λυσίνη και αργινίνη εκτός και αν ακολουθεί προλίνη. Συνήθως αυτά τα αµινοξέα βρίσκονται σε θέσεις που επιτρέπουν τη δηµιουργία πεπτιδίων µε κατάλληλο µήκος για την MS ανάλυση. 3.4 Φασµατογράφος Μάζας Ο φασµατογράφος µάζας είναι το όργανο που χρησιµοποιείται για την MS ανάλυση. Μετράει τις µάζες των µορίων που έχουν µετατραπεί σε ιόντα, δηλαδή µορίων που έχουν φορτιστεί θετικά ή αρνητικά. Για την µέτρηση αυτών των µαζών χρησιµοποιείται ως µονάδα µέτρησης το Dalton (Da) όπου 1Da ισούται µε το 1/12 της µάζας του ατόµου του 12 C. Στην πραγµατικότητα ο φασµατογράφος µάζας υπολογίζει τον λόγο µάζας προς φορτίο (mass-to-charge ratio) των ιόντων που προκύπτουν από τα προς ανάλυση µόρια. Ως µονάδα µέτρησης του φορτίου χρησιµοποιείται το θεµελιώδες φορτίο ενός ηλεκτρονίου (e - ) και εποµένως το φορτίο ενός ιόντος ορίζεται από τον ακέραιο αριθµό z ο οποίος δηλώνει πολλαπλάσια του θεµελιώδους φορτίου. Συνεπώς ο λόγος µάζας προς φορτίο δηλώνεται ως m/z και αντιστοιχεί σε daltons προς θεµελιώδες φορτίο. Επειδή σε πολλές περιπτώσεις τα ιόντα που συναντώνται στη MS ανάλυση έχουν z=1, λόγω του ότι ένα µόνο ηλεκτρόνιο εκπέµπεται κατά τον ιονισµό των µορίων, ο λόγος m/z ισούται µε το µοριακό βάρος σε dalton. Το προς εξέταση δείγµα είναι σε στερεά, υγρή ή αέρια µορφή και εισάγεται στο σωλήνα κενού του φασµατογράφου µάζας, όπου ιοντίζεται και παράγονται τα ιόντα αέριας φάσης. Ο σχηµατισµός ιόντων είναι απαραίτητη διαδικασία για την ανίχνευση και ταξινόµηση µάζας. Τα ιόντα ταξινοµούνται στον αναλυτή µάζας ως προς το λόγο m/z και συλλέγονται στον ανιχνευτή όπου η προσπίπτουσα ιοντική ροή µετατρέπεται σε ένα κατάλληλο ηλεκτρικό ρεύµα το οποίο καταγράφεται. Το ρεύµα αυτό είναι συναρτήσει του m/z και η πληροφορία αυτή µετατρέπεται σε φάσµα µάζας (mass spectrum) (Σχήµα 3.3). Σχήµα 3.3: οµικά µέρη του Φασµατογράφου Μάζας. 31

Ακολουθούνται διάφορες µέθοδοι ιοντισµού στην πηγή, όπως ο ιοντισµός ηλεκτρονίων (electron ionization-ei) που χρησιµοποιείται για τον ιοντισµό µικρών µορίων µέχρι 1.2kDa, ο χηµικός ιοντισµός (chemical ionization-ci), ο ιοντισµός µε ψεκασµό (electrospray ionization-esi) και το MALDI (Matrix-Assisted Laser Desorption Ionization). Από τις δυο τελευταίες πηγές προκύπτουν τα δυο είδη εργαλείων που χρησιµοποιούνται σε κυρίαρχη θέση για την MS ανάλυση. Το MALDI-TOF και το ESI-tandem MS λειτουργούν µε διαφορετικό τρόπο όπου προκύπτει διαφορετική αλλά συµπληρωµατική πληροφορία. Υπάρχουν µάλιστα καλά εξοπλισµένα εργαστήρια που διαθέτουν και τα δυο είδη εργαλείων. Οι όροι MALDI και ESI αναφέρονται στην διαδικασία µε την οποία παράγονται τα ιόντα στην πηγή. Ο όρος tandem mass spectrometry αναφέρεται στον αναλυτή µάζας που χρησιµοποιείται στα εργαλεία ESI-MS-MS και διακρίνεται σε τετραπολικό (quadrupole), ion trap, και quadrupole time of flight (Q-TOF) ή σε συνδυασµούς αυτών. 3.4.1 Σύστηµα MALDI Για να γίνει ο ιοντισµός του δείγµατος µε µια πηγή MALDI, θα πρέπει το δείγµα να προετοιµαστεί κατάλληλα. Γίνεται µίξη υδάτινων διαλυµάτων των πρωτεϊνών ή των πεπτιδίων που µελετώνται µε διαλύµατα µορίων όπως είναι το sinapinic acid και το α- cyano-4-hydroxycinnamic acid. Τα µόρια αυτά καλούνται µόρια του πίνακα. Στη συνέχεια τα διαλύµατα εναποτίθενται σε ένα πλακίδιο-πίνακα (matrix) και στεγνώνουνε. Με τον τρόπο αυτόν τα πεπτίδια κρυσταλλώνονται µαζί µε τα µόρια του πίνακα. Ο πίνακας εκτίθεται σε παλµούς laser (337 ή 355nm) µικρής διάρκειας όπου και προκύπτουν τα επιθυµητά ιόντα. Η επιλογή του µορίου του πίνακα παίζει σηµαντικό ρόλο καθώς απορροφάει το µεγαλύτερο µέρος της ακτινοβολίας ελαχιστοποιώντας την αλλοίωση του δείγµατος από την ακτινοβολία (fragmentation), εξατµίζεται όταν δεχτεί την ακτινοβολία αναγκάζοντας γειτονικά µόρια του δείγµατος να µεταβούν και αυτά στην αέρια φάση και συνεισφέρουν στον ιοντισµό των εξατµισµένων µορίων του δείγµατος. Τα πλεονεκτήµατα της µεθόδου αυτής είναι η δυνατότητα για αναλύσεις µορίων µε αυξηµένο άνω όριο µάζας, πάνω από 350kDa, η αποφυγή της κατάτµησης των πεπτιδίων και η δυνατότητα ταχείας ανάλυσης των δειγµάτων αφού σε κάθε 32

πίνακα χωράνε πολλά δείγµατα προς ανάλυση. Κύριο µειονέκτηµα αποτελεί ο χηµικός θόρυβος που εισάγεται λόγω του ιοντισµού συσσωµατωµάτων µορίων του πίνακα. Μια παραλλαγή του MALDI είναι η τεχνική Surface-Enhanced Laser Desorption Ionization (SELDI) η οποία επιτρέπει την επεξεργασία του δείγµατος όσον αφορά την ενίσχυση και την δοµική του αναδιάταξη. Στη συνέχεια, µετά την δηµιουργία των ιόντων, ο αναλυτής διαχωρίζει τα ιόντα που έχουν το ίδιο m/z από τα υπόλοιπα και εστιάζει τις δέσµες ιόντων στον ανιχνευτή. Ένας αντιπροσωπευτικός ανιχνευτής είναι αυτός που βασίζεται στον υπολογισµό του χρόνου πτήσεως (time-of-flight TOF). Τα ιόντα που εγκαταλείπουν τη πηγή επιταχύνονται µε την βοήθεια πεδίου και µέσα στον σωλήνα κενού, ταξιδεύουν προς τον ανιχνευτή µε διάφορες ταχύτητες. Με τη µέθοδο TOF ο αναλυτής διαχωρίζει τα ιόντα σύµφωνα µε το χρόνο που απαιτείται για να διασχίσουν τον σωλήνα και να χτυπήσουν στον ανιχνευτή. Η αρχή λειτουργίας είναι απλή και βασίζεται στη µετατροπή της δυναµικής ενέργειας κάθε ιόντος σε κινητική. Η δυναµική ενέργεια είναι λόγω του πεδίου U = zv, όπου V είναι το ηλεκτρικό δυναµικό που επιταχύνει το ιόν και z είναι το φορτίο του ιόντος και η κινητική ενέργεια είναι E = 1 mu 2 2 όπου m είναι η µάζα του ιόντος και u η ταχύτητά του. Εάν θεωρηθεί ότι η κινητική ενέργεια των ιόντων είναι σταθερή πριν εισέλθουν στο πεδίο τότε θα ισχύει U = E και l u= t όπου l είναι το µήκος του σωλήνα κενού (1-2m) και t ο χρόνος. Εποµένως ισχύει η παρακάτω εξίσωση: m = z 2Vt 2 l όπου ο λόγος m/z είναι ανάλογος µε τον χρόνο πτήσης. Όλα τα υπόλοιπα µεγέθη της εξίσωσης είναι γνωστά και σταθερά, εποµένως ο υπολογισµός του χρόνου από την στιγµή που το ιόν εισέρχεται στο σωλήνα κενού µέχρι την στιγµή που προσπίπτει στον ανιχνευτή προσδιορίζει µονοσήµαντα το m/z του ιόντος αυτού. Ο αναλυτής TOF συνδέεται στενά µε τις πηγές MALDI διότι ο αναλυτής απαιτεί την εισαγωγή ιόντων σε πακέτα γεγονός που επιτυγχάνεται από τις πηγές MALDI µέσω τον υψίσυχνων παλµών laser. Τα κύρια πλεονεκτήµατα του αναλυτή είναι το θεωρητικά άπειρο εύρος µαζών, συνήθως µέχρι 350kDa, η υψηλή ευαισθησία του καθώς όλα τα παραγόµενα ιόντα ανιχνεύονται και η υψηλή ταχύτητά του µε πλήρες φάσµα σε 50µs. 2 33

Το βασικό µειονέκτηµα των αναλυτών αυτών είναι η µειωµένη διακριτική τους ικανότητα (resolution). Αυτό συµβαίνει διότι όσο αυξάνεται η µάζα των πεπτιδίων, τόσο µειώνεται το χρονικό διάστηµα µεταξύ των διαδοχικών αφίξεων στον ανιχνευτή λόγω της τετραγωνικής σχέσης που τα συνδέει και εποµένως µειώνεται η δυνατότητα για τον διαχωρισµό τους. Επίσης υπάρχει ένα προβληµατικό σηµείο στην όλη µέθοδο όσον αφορά την χρονική, χωρική και ενεργειακή κατανοµή των οµάδων ιόντων µε ίση µάζα καθώς αυτά µεταβαίνουν από την πηγή στο σωλήνα. Συγκεκριµένα, δυο ιόντα ίσης µάζας που προέκυψαν σε διαφορετικές χρονικές στιγµές ή σε διαφορετικά σηµεία της πηγής, θα φτάσουν σε διαφορετικές στιγµές στον ανιχνευτή. Το ίδιο συµβαίνει µε δυο ιόντα ίσης µάζας που έχουν την ίδια κινητική ενέργεια αλλά αρχικές ταχύτητες σε διαφορετικές διευθύνσεις. Το πρόβληµα αυτό αντιµετωπίζεται µε την χρήση ανακλαστήρα (Σχήµα 3.4). Ο ανακλαστήρας αποτελείται από ηλεκτρόδια φορτισµένα σε δυναµικό ίδιας πολικότητας µε τα ιόντα και µε τιµή λίγο µεγαλύτερη από το δυναµικό επιτάχυνσης. Το δυναµικό αυτό επιβραδύνει τα ιόντα, τα σταµατά και στη συνέχεια τα επιταχύνει προς την αντίθετη κατεύθυνση όπου συναντούν τον ανιχνευτή. Ο ανακλαστήρας λειτουργεί ως ενεργειακός φακός. υο ιόντα ίσης µάζας αλλά ανοιγµένα στο χώρο και στο χρόνο, παρόλο που έχουν την ίδια αρχική κινητική ενέργεια, φτάνει στον ανακλαστήρα πρώτα το ιόν µε τη µεγαλύτερη ενέργεια, εισχωρεί λίγο περισσότερο και καθυστερεί, δίνοντας την ευκαιρία στο άλλο ιόν να το προλάβει στην πορεία προς τον ανιχνευτή. Επιπλέον ο ανακλαστήρας επιτυγχάνει καλύτερο χωρικό διαχωρισµό των ιόντων µε παραπλήσια m/z καθώς διπλασιάζεται το time-of-flight. Συνεπώς, χάρη στον ανακλαστήρα, αυξάνεται µέχρι και 20 φορές η διακριτική ικανότητα του αναλυτή, όµως µειώνεται το εύρος µαζών και η ευαισθησία, αφού τα ιόντα χάνονται σε συγκρούσεις µε τον ανακλαστήρα. Η χρήση του ανακλαστήρα πέρα από τις µετρήσεις µάζας των ιόντων, επιτρέπει σε ορισµένα εργαλεία και την ανάλυση τµηµάτων των ιόντων. Με την τεχνική post-source decay (PSD), η τάση του ανακλαστήρα ρυθµίζεται κατά την διάρκεια της ανάλυσης για την ανίχνευση των τµηµάτων των πεπτιδικών ιόντων που δηµιουργούνται και επιταχύνονται στο σωλήνα κενού. Τα φάσµατα µε την τεχνική αυτή, εµφανίζουν peptide immonium ions µε γενικό τύπο H2N + = CHR, όπου R είναι το αµινοξύ. Αυτά τα immonium ions εκφράζουν την παρουσία συγκεκριµένων αµινοξέων και χρησιµοποιούνται µε κατάλληλα λογισµικά εργαλεία για τον προσδιορισµό πεπτιδικών ακολουθιών. 34

Σχήµα 3.4: Σχηµατική αναπαράσταση του MALDI-TOF. (Α) ιαδικασία ιονισµού. (Β)Γραµµική λειτουργία. (C)Λειτουργία µε τον ανακλαστήρα. Αφού τα ιόντα έχουν διαχωριστεί σε οµάδες ίδιου m/z, προσπίπτουν στον ανιχνευτή. Τα προσπίπτοντα ιόντα προκαλούν την εκποµπή ηλεκτρονίων από τον ανιχνευτή, εποµένως παράγουν ηλεκτρικό ρεύµα το οποίο στη συνέχεια ενισχύεται µε σκοπό να αντανακλά τις ιοντικές εντάσεις που είναι αντιπροσωπευτικές του αριθµού των ιόντων που προσέπεσαν στον ανιχνευτή. Το ιοντικό ρεύµα που παράγεται είναι της τάξης των 10-9 µε 10-16 Α χωρίς την ενίσχυση. Είναι φανερό ότι η ακρίβεια µέτρησης του ιοντικού ρεύµατος εξαρτάται από τον αριθµό των ιόντων που έχουν προσπέσει στον ανιχνευτή. Για να αυξηθεί ο λόγος σήµατος προς θόρυβο (SNRsignal to noise ratio) για το παραγόµενο φάσµα, το δείγµα σαρώνεται πολλές φορές και υπολογίζεται το µέσο των παραγόµενων φασµάτων (multichannel averaging). Η χρήση σωλήνα κενού είναι απαραίτητη στην όλη διαδικασία για τους εξής λόγους. Εξαλείφεται η πιθανότητα συγκρούσεων µεταξύ των ιόντων, και µεταξύ ιόντων και ουδέτερων µορίων του αέρα. Επίσης αποφεύγεται η εκφόρτιση µέσω του αέρα των υψηλών δυναµικών που χρησιµοποιούνται για την επιτάχυνση και την µεταφορά των ιόντων από την µια περιοχή στην άλλη και επιπλέον ελαχιστοποιείται η πιθανότητα επιµόλυνσης ή ανάµειξης διαδοχικών δειγµάτων. 35

3.4.2 Μέτρα Απόδοσης Φασµατογραφίας Μάζας Κατάλληλα δεδοµένα για την µάζα των πεπτιδίων (MALDI-TOF MS) ή κατάλληλα δεδοµένα που περιγράφουν την τµηµατοποίηση των πεπτιδίων (ESI tandem MS) είναι απαραίτητα για τους σκοπούς της Πρωτεωµικής [7]. Η ευαισθησία (sensitivity), η ανάλυση (resolution) και η ακρίβεια (accuracy) είναι σηµαντικά µέτρα απόδοσης της φασµατογραφίας µάζας και προσδιορίζουν την καταλληλότητα των δεδοµένων. Η ευαισθησία αναφέρεται στην ελάχιστη διαφορά µεταξύ των συγκεντρώσεων του αναλυτή που µπορεί να ξεχωρίσει η τεχνική και ορίζεται το όριο ανίχνευσης (LOD) ως η µικρότερη ποσότητα δείγµατος που µπορεί να εντοπιστεί, που µπορεί δηλαδή να διαχωριστεί από το επίπεδο θορύβου του µηχανήµατος. Αυτή η ποσότητα είναι της τάξης των femtomole, 10 15 mole. Η ανάλυση αναφέρεται στην ικανότητα του φασµατογράφου µάζας να ξεχωρίσει ιόντα διαφορετικών τιµών m/z. Αν και είναι εφικτή και αξιόπιστη µια υψηλή ανάλυση, αυτή κοστίζει αλλά κυρίως δεν είναι απαραίτητη αφού αρκεί ο διαχωρισµός m/z των ιόντων σε 1Da που είναι η µάζα ενός ατόµου του υδρογόνου. Η υψηλότερη ανάλυση είναι χρήσιµη σε ειδικές περιπτώσεις. Ως ακρίβεια µέτρησης µάζας m accuracy ορίζεται η διαφορά µεταξύ της πραγµατικής και της µετρούµενης µάζας ενός ιόντος. Είναι ιδιαίτερα σηµαντική όταν τα δεδοµένα χρησιµοποιούνται για την ταυτοποίηση των πεπτιδίων βάση συγκρίσεων µε πραγµατικές τιµές σε βάσεις δεδοµένων. 3.4.3 Αξιολόγηση του MALDI Για την φασµατοµετρία µάζας το εργαλείο MALDI-TOF κατέχει εξέχουσα θέση. Αποτελεί ένα εύκολο και δυνατό εργαλείο για τους ερευνητές καθώς δεν εµπλέκονται µε τον χειρισµό της HPLC-MS τεχνικής και είναι συµβατό µε ευρέως προσβάσιµα formats σε καθηµερινή βάση για µαζική χρήση [7]. Επίσης είναι συµβατό µε νέα µηχανήµατα που βασίζονται στην ροµποτική και χρησιµοποιούνται για να βοηθήσουν στην υψηλών απαιτήσεων διαδικασία της πρωτεωµικής ανάλυσης. Επιπλέον όσο βελτιώνεται η ακρίβεια και η ανάλυση στους TOF αναλυτές, τόσο αυξάνεται η καταλληλότητα των πρωτεϊνικών δεδοµένων που προκύπτουν. Η ακρίβεια στις µετρήσεις για την µάζα των πεπτιδίων αποτελεί εξαιρετικής σηµασίας για την αξιόπιστη ταυτοποίηση των πρωτεϊνών. Ωστόσο η πληροφορία της µάζας των πεπτιδίων περιορίζει την ταυτοποίηση των πρωτεϊνών. Με την τµηµατοποίηση των πεπτιδικών ιόντων παράγονται 36

πραγµατικά δεδοµένα πεπτιδικών ακολουθιών τα οποία αποτελούν πιο σηµαντική πληροφορία. υστυχώς ο MALDI-TOF δεν παρέχει πληροφορία για την ακολουθία των πεπτιδίων και επιπλέον η αποτελεσµατικότητά του εξαρτάται από την ποιότητα του δείγµατος. Εάν το δείγµα περιέχει σηµαντικά επίπεδα αλάτων, µετάλλων ή οργανικών τροποποιητών όπως γλυκερόλη τότε ο πεπτιδικός ιονισµός στην πηγή MALDI περιορίζεται σηµαντικά. 3.5 Ταυτοποίηση Πρωτεΐνης µε Peptide Mass Fingerprinting Peptide mass fingerprinting είναι µια τεχνική για την ταυτοποίηση των πρωτεϊνών όπου χρησιµοποιείται η MS ανάλυση για την µέτρηση της µάζας των πρωτεολυτικών πεπτιδικών τµηµάτων. Η πρωτεΐνη ταυτοποιείται ταιριάζοντας τις µετρούµενες µάζες των πεπτιδίων µε τις µάζες των πεπτιδίων από πρωτεΐνες που υπάρχουν σε Βάσεις εδοµένων. Οι µετρούµενες µάζες συνήθως προκύπτουν από την χρήση εργαλείων φασµατογράφου µάζας όπως ο MALDI-TOF. Όπως και µε άλλες τεχνικές, η αξιοπιστία των αποτελεσµάτων για την πρωτεϊνική ταυτοποίηση εξαρτάται από την ποιότητα των MS δεδοµένων, την ακρίβεια των Βάσεων εδοµένων και την ισχύ των αλγορίθµων αναζήτησης [7,10]. Σύµφωνα µε την τεχνική αυτήν, το πρωτέωµα ενός οργανισµού χωρίζεται σε πεπτίδια µε την χρήση κατάλληλων ενζύµων, όπως είναι η τρυπσίνη. Τα ένζυµα αυτά επιλέγονται κατάλληλα ώστε να κόβουν την πρωτεΐνη σε προβλεπόµενα σηµεία. Εποµένως από κάθε πρωτεΐνη προκύπτει συγκεκριµένος αριθµός πεπτιδίων µε συγκεκριµένη ακολουθία και µάζα, ενώ κάθε πεπτίδιο σχετίζεται µε την πρωτεΐνη από την οποία προέρχεται. Έστω λοιπόν ότι υπάρχει µια άγνωστη πρωτεΐνη η οποία τµηµατοποιείται στο εργαστήριο µε τρυπσίνη και προκύπτουν πεπτίδια των οποίων η µάζα µπορεί να µετρηθεί. Στη συνέχεια τµηµατοποιούνται υπολογιστικά και όλες οι γνωστές πρωτεΐνες από µια επιλεγµένη Βάση εδοµένων ανάλογα µε το ένζυµο που έχει χρησιµοποιηθεί και για κάθε πεπτίδιο συγκρίνεται η µετρούµενη µάζα του µε την υπολογίσιµη µάζα των πεπτιδίων από την Βάση. Αν υπάρχει ταίριασµα (match), τότε από το πεπτίδιο της Βάσης µπορεί να προσδιοριστεί η πρωτεΐνη από την οποία προήλθε και µε αυτόν τον τρόπο να ταυτοποιηθεί η άγνωστη πρωτεΐνη (Σχήµα 3.5). Όµως ένα πεπτίδιο συνήθως δε συναντάται µόνο σε µια πρωτεΐνη, για το λόγο αυτό τα πολλαπλά ταιριάσµατα από µια πρωτεΐνη είναι απαραίτητα για την ταυτοποίησή της. Επίσης αν στην µετρούµενη µάζα συνεκτιµηθεί και εύρος λάθους τότε ο αριθµός των matches αυξάνεται. Όσο µεγαλύτερο είναι το εύρος λάθους, τόσο περισσότερα 37

matches γίνονται. Ένα αποδεκτό εύρος λάθους µε τα δεδοµένα MS εργαλεία που υπάρχουν είναι 0.05 Da όµως όσο πιο ακριβής είναι η µέτρηση τόσο πιο κατάλληλα είναι τα δεδοµένα για peptide mass fingerprinting [7]. Σχήµα 3.5: Σχηµατική αναπαράσταση της τεχνικής του peptide mass fingerprinting [13]. Ωστόσο υπάρχουν ορισµένοι παράγοντες που πρέπει να λαµβάνονται υπόψη στη φασµατογραφία µάζας. Οι µετρούµενες µάζες συνήθως δεν έχουν την επιθυµητή ακρίβεια παρόλο που οι σύγχρονοι MALDI-TOF είναι εξοπλισµένοι µε ανακλαστήρες. Επιπλέον υπάρχουν πολλά σήµατα στο MS φάσµα τα οποία συχνά προέρχονται από παραπάνω από µια πρωτεΐνη. Αυτό συµβαίνει γιατί τα περισσότερα σηµεία στα 2D gels περιέχουν 2 µε 3 πρωτεΐνες και µια τυπική πρωτεΐνη των 50 kda δίνει 25 µε 40 πεπτίδια ενώ στο δείγµα µπορεί να βρεθούν και άλλα συστατικά όπως ανθρώπινη κερατίνη. Εποµένως το φάσµα που προκύπτει είναι σύνθετο. Πρόσθετα, τα matches που γίνονται από την Βάση ενδέχεται να είναι τυχαία. Η πιθανότητα των false-positives αυξάνεται ανάλογα µε το µέγεθος της πρωτεΐνης καθώς µια µεγάλη πρωτεΐνη δίνει περισσότερα πεπτίδια από µια µικρότερη [7,10]. 3.5.1 Εργαλεία για Peptide Mass Fingerprinting Ο όγκος των δεδοµένων σε µια Βάση είναι µεγάλος και αυτό έχει σαν επακόλουθο την ανάγκη για ισχυρούς και γρήγορους αλγορίθµους που τµηµατοποιούν τις πρωτεΐνες της Βάσης και υπολογίζουν τη µάζα των πεπτιδίων που προκύπτουν. Υπάρχουν διάφορα εργαλεία τα οποία είναι ευρέως διαθέσιµα για την ταυτοποίηση των πρωτεϊνών και χρησιµοποιούν αλγορίθµους για γρήγορα και αξιόπιστα αποτελέσµατα. Ο χρήστης επιλέγει στα εργαλεία αυτά την Βάση εδοµένων που τον ενδιαφέρει, συνήθως επιλέγεται η Swiss-Prot που είναι µια Βάση πρωτεϊνικών 38

ακολουθιών, η OWL και η NCBInr, και παρέχει πληροφορίες στο σύστηµα οι οποίες βοηθούν στον περιορισµό του όγκου δεδοµένων από όπου θα γίνει η αναζήτηση και στον περιορισµό των λανθασµένων matches. ίνεται το είδος του οργανισµού από όπου προέρχεται το δείγµα και το εύρος του µοριακού βάρους της υπό εξέτασης πρωτεΐνης. Στη συνέχεια ο χρήστης ορίζει το ένζυµο που έχει χρησιµοποιηθεί για το κόψιµο της πρωτεΐνης και τον αριθµό των αµινοξέων που υπάρχουν στο πεπτίδιο από πιθανό λάθος κόψιµο. Αυτός ο αριθµός εκφράζει τα λεγόµενα missed cleavages. Ο χρήστης επίσης έχει την δυνατότητα να ορίσει κάποιες τροποποιήσεις (modifications) των πεπτιδίων τις οποίες λαµβάνει υπόψη ο αλγόριθµος ταυτοποίησης, για παράδειγµα reduction and alkylation of cysteine thiols with iodoacetamide or iodoacetate, όπου αλλάζει η µάζα της κυστεϊνης στο πεπτίδιο, ή phosphorylation, sulfation, glycosylation. Τέλος γίνεται η εισαγωγή των µοριακών βαρών των πεπτιδίων και προαιρετικά του εύρους λάθους των µετρούµενων µοριακών βαρών. Μετά την εισαγωγή των απαραίτητων στοιχείων, το σύστηµα φιλτράρει την Βάση και εκτελεί τους απαραίτητους υπολογισµούς στις πρωτεΐνες που αποµένουν. Τα πεπτίδια που ταιριάζουν µε τις µετρούµενες µάζες ταξινοµούνται σύµφωνα µε την µάζα τους και αυτά που ανήκουν στο επιλεγµένο εύρος λάθους αποτελούν τα hits. Στη συνέχεια για κάθε hit υπολογίζεται µια τιµή (score) η οποία χρησιµοποιείται για την αξιολόγηση της πρωτεΐνης που ταυτοποιείται. 3.5.2 Αξιολόγηση Αποτελεσµάτων Μια πρωτεΐνη από τη Βάση εδοµένων ενδέχεται να είναι η άγνωστη πρωτεΐνη του δείγµατος όταν περιέχει τα περισσότερα πεπτίδια τα οποία έχουν µάζα ίση µε την µάζα που έχει µετρηθεί πειραµατικά από τον MALDI-TOF. Όµως το πλήθος των ταιριασµάτων των πεπτιδίων ως µέτρο αξιολόγησης της πρωτεΐνης δεν αρκεί καθώς το φάσµα περιέχει λάθη στις µετρήσεις από µη αναµενόµενους παράγοντες. Για το λόγο αυτό τα matches βαθµολογούνται µε µια τιµή η οποία υπολογίζεται από αλγόριθµους (scoring algorithms). Οι µεγάλες πρωτεΐνες δίνουν περισσότερα πεπτίδια µε αποτέλεσµα να έχουν υψηλότερη πιθανότητα για match. Οµοίως τα µικρά πεπτίδια της Βάσης δίνουν περισσότερα matches για µια αναζητούµενη µάζα του φάσµατος. Για να αποφευχθούν λοιπόν τα λανθασµένα αποτελέσµατα που βασίζονται σε στατιστικές αιτίες, οι αλγόριθµοι εφαρµόζουν µεθόδους πιθανοτήτων για να αξιολογήσουν την 39

ταυτοποίηση των πρωτεϊνών. Παραδείγµατα τέτοιων αλγορίθµων είναι ο MOWSE (MOlecularWeightSEarch) που χρησιµοποιείται από την Mascot και λαµβάνει υπόψη το µέγεθος της πρωτεΐνης και το µήκος των πεπτιδίων ενώ εκτιµάει τις πιθανότητες που οφείλονται σε match από τυχαία γεγονότα [7,8,9]. Άλλα τέτοια συστήµατα είναι το ProFound και το MS-Fit. Η γρήγορη ανάπτυξη Βάσεων εδοµένων πρωτεϊνικών και νουκλεοτιδικών ακολουθιών σε συνδυασµό µε την συνεχή βελτίωση των αλγορίθµων αναζήτησης στη Βάση µαζί µε την εφαρµογή στατιστικών µεθόδων, έχουν αυξήσει σηµαντικά την αξιοπιστία των αποτελεσµάτων για την ταυτοποίηση των πρωτεϊνών. Παρόλα αυτά υπάρχουν ορισµένοι περιορισµοί στην τεχνική του peptide mass fingerprinting. Αρχικά υπάρχει ένας µεγάλος αριθµός από σηµαντικά οµόλογες πρωτεΐνες ειδικά ανάµεσα στους σύνθετους οργανισµούς. Επίσης µε την τεχνική αυτή δε γίνεται λόγος για την πεπτιδική ακολουθία ούτε για τα σηµεία πεπτιδικών τροποποιήσεων τα οποία αποτελούν εξίσου σηµαντική πληροφορία πέρα από τη µάζα των πεπτιδίων. Την πληροφορία αυτήν µπορεί να την παρέχει το εργαλείο ESI-tandem MS. 3.6 Ανάλυση Πεπτιδικής Ακολουθίας µε Tandem Mass Spectrometry Σύµφωνα µε την προηγούµενη τεχνική του peptide mass fingerprinting, δυο πεπτίδια που έχουν την ίδια µάζα, αποτελούν και τα δυο hits για την ταυτοποίηση µιας πρωτεΐνης, ασχέτως αν για παράδειγµα ανήκουν σε διαφορετικούς οργανισµούς. Όµως τα πεπτίδια αυτά δε θα έχουν την ίδια ακολουθία αµινοξέων. Γενικότερα η πληροφορία όλης ή ενός µέρους της ακολουθίας (pattern) ενός πεπτιδίου µπορεί να δώσει πιο αξιόπιστα αποτελέσµατα για τα hits που προκύπτουν από την αναζήτηση στη Βάση εδοµένων [7,11]. Η Tandem MS ανάλυση ασχολείται µε την τµηµατοποίηση των πεπτιδίων, η οποία παράγει ιόντα στο MS-MS φάσµα για τον καθορισµό της πεπτιδικής ακολουθίας. Έστω λοιπόν ένα πεπτίδιο µε ακολουθία AVAGCAGAR, όπου η πρωταρχική δοµή του φαίνεται στο Σχήµα 3.6. Ένα διπεπτίδιο σχηµατίζεται από δυο αµινοξέα τα οποία ενώνονται µε πεπτιδικό δεσµό (peptide bond) µε την ταυτόχρονη απώλεια ενός µορίου νερού. Κάθε αµινοξύ στο πεπτίδιο έχει µια αµινοοµάδα (NH) στη µια άκρη και µια καρβοξυλοµάδα C=O στην άλλη. Από τον Πίνακα 3.1 φαίνεται ότι κάθε αµινοξύ έχει συγκεκριµένο µοριακό βάρος m/z και άρα µάζα. Εποµένως από 40

την πληροφορία της µάζας µπορεί να αποκτηθεί πληροφορία για την ακολουθία του πεπτιδίου (Σχήµα 3.6). Σχήµα 3.6: Σχηµατική αναπαράσταση του πεπτιδίου µε ακολουθία AVAGCAGAR. Από το µοριακό βάρος κάθε αµινοξέος προκύπτει πληροφορία για την ακολουθία του πεπτιδίου [7]. Όταν τα πεπτιδικά ιόντα συγκρούονται µε τα ουδέτερα άτοµα του αέρα σε ένα Q-TOF, η κινητική ενέργεια που απορροφούν προκαλεί την τµηµατοποίηση του πεπτιδίου. Η τµηµατοποίηση συνήθως γίνεται στη ραχοκοκαλιά του πεπτιδίου (Σχήµα 3.7) µεταξύ του carbonyl oxygen και του amide nitrogen (y και b ιόν). Όταν κοπεί σε αυτό το σηµείο το πεπτίδιο, δηµιουργούνται b και y ιόντα από διπλά φορτισµένο ιόν, ή µόνο b ή y ιόντα από µονά φορτισµένο ιόν, και το υπόλοιπο τµήµα χάνεται καθώς γίνεται ουδέτερο. Σχήµα 3.7: Το πεπτίδιο κόβεται µεταξύ του carbonyl oxygen και του amide nitrogen και προκύπτουν y και b ιόντα. Η τµηµατοποίηση µπορεί να γίνει και σε άλλα σηµεία του πεπτιδίου µε τον σχηµατισµό a, z και c, x ιόντων, ωστόσο η εµφάνισή τους είναι σπάνια καθώς απαιτείται περισσότερη ενέργεια [7]. Για να γίνει κατανοητό πώς µπορεί να προκύψει ένα pattern από την τµηµατοποίηση ενός πεπτιδικού ιόντος θα πρέπει να µελετηθεί το φάσµα του. Στο Σχήµα 3.8 φαίνεται το κόψιµο του πεπτιδίου AVAGCAGAR σε y και b ιόντα. 41

Σχήµα 3.8: Πιθανά τµήµατα των b και y ιόντων. Το πεπτίδιο κόβεται στην κυστεϊνη και στη γλυκίνη και δηµιουργούνται b 4 και y 5 ιόντα [7]. Το φάσµα MS-MS του διπλά φορτισµένου ιόντος του AVAGCAGAR φαίνεται στο Σχήµα 3.9. Κοιτώντας το ιόν του πεπτιδίου από τα αριστερά, στην άκρη του αζώτου (N-terminus), τα τµήµατα των b ιόντων εµφανίζονται σε αύξουσα σειρά και τα συµπληρωµατικά τους y ιόντα σε φθίνουσα σειρά. Καθένα τµήµα είναι απλά φορτισµένο. Το πιο σηµαντικό στη σειρά των b και y ιόντων στο MS-MS φάσµα είναι το γεγονός ότι αποτελεί ένδειξη της ακολουθίας του πεπτιδίου. Στο παράδειγµα, το κενό µεταξύ των y 7 και y 6 ιόντων είναι 71 m/z το οποίο αντιστοιχεί στη µάζα της αλανίνης. Συνολικά η σειρά των y ιόντων δίνει την ακολουθία VAGCAGAR. Οµοίως για τα συµπληρωµατικά b ιόντα, το κενό µεταξύ b 7 και b 6 είναι 57 που αντιστοιχεί στη γλυκίνη και συνολικά η σειρά των b ιόντων, από b 8 µέχρι b 1 δίνει την ακολουθία AVAGCAGA. Εποµένως τα y και b ιόντα περιγράφουν την ίδια ακολουθία αµινοξέων µε δυο διαφορετικές κατευθύνσεις και µε αυτόν τον τρόπο το MS-MS φάσµα βρίσκει την ακολουθία του αρχικού πεπτιδίου. Σχήµα 3.9: MS-MS φάσµα του διπλά φορτισµένου ιόντος AVAGCAGAR, όπου φαίνονται τα b και y ιόντα [7]. 42

Ο υπολογισµός των πεπτιδικών ακολουθιών µπορεί να γίνει από το MS-MS φάσµα µε υπολογισµούς από τον ερευνητή και η διαδικασία αυτή καλείται de novo ή µε κατάλληλους αλγορίθµους και εργαλεία που έχουν αναπτυχθεί τα οποία συγκρίνουν τα MS-MS δεδοµένα µε πεπτιδικές ακολουθίες από µια Βάση εδοµένων ώστε να ταυτοποιηθούν οι πρωτεΐνες από τις οποίες προέκυψαν τα πεπτίδια. Η de novo ερµηνεία του φάσµατος για την εξακρίβωση της πεπτιδικής ακολουθίας ακολουθείται από τον BLAST αλγόριθµο αναζήτησης (www.ncbi.nlm.ni h.gov.library.vu.edu.au/blast) ο οποίος ψάχνει την ακολουθία του πεπτιδίου που βρήκε ο ερευνητής από το MS-MS φάσµα σε µια Βάση εδοµένων µε πρωτεϊνικές ακολουθίες για την ταυτοποίηση της άγνωστης πρωτεΐνης. Αυτή η προσέγγιση για την ταυτοποίηση των πρωτεϊνών είναι αποτελεσµατική όταν υπάρχουν λίγα φάσµατα και χρονικά µπορεί να κρατήσει από µισή ώρα µέχρι µερικές µέρες ανάλογα µε το πόσο σύνθετο είναι το φάσµα και πόσο έµπειρος είναι ο ερευνητής. Επίσης ορισµένα φάσµατα δε περιέχουν ολοκληρωµένες τις σειρές των b και y ιόντων και έτσι δε µπορεί να γίνει η ακριβή ερµηνεία του φάσµατος, εποµένως η ταυτοποίηση της πρωτεΐνης βασίζεται σε υποθέσεις για την αµινοξική ακολουθία του πεπτιδίου. Όµως για την ταυτοποίηση µεγάλης κλίµακας πρωτεϊνών η de novo-blast προσέγγιση είναι αργή. Για τον λόγο αυτό χρησιµοποιούνται αλγόριθµοι οι οποίοι εφαρµόζονται απευθείας στα δεδοµένα του MS-MS φάσµατος και τα συσχετίζουν µε πεπτιδικές ακολουθίες από µια Βάση εδοµένων. Εποµένως οι περιορισµοί αυτής της προσέγγισης είναι η ποιότητα των MS-MS δεδοµένων και η ακρίβεια της Βάσης εδοµένων. Ένας τέτοιος αλγόριθµος που ταυτοποιεί τις πρωτεΐνες ταιριάζοντας τα MS-MS δεδοµένα µε τις ακολουθίες από µια Βάση, είναι ο Sequest που τον εισήγαγαν το 1995 οι John Yates και Jimmy Eng. Όταν το MS εργαλείο αναλύει το δείγµα, αποθηκεύεται η πληροφορία για το MS-MS φάσµα (MS-MS scan) µαζί µε την m/z τιµή του ιόντος σε ένα αρχείο δεδοµένων. Στη συνέχεια ο χρήστης χρησιµοποιεί ένα πρόγραµµα (π.χ. Sequest) όπου εισάγει το αρχείο αυτό, το ένζυµο µε το οποίο έγινε πειραµατικά η τµηµατοποίηση της πρωτεΐνης (π.χ. τρυπσίνη) και ορίζει αν τα ιόντα της ανάλυσης ήταν µονά ή διπλά φορτισµένα. Επίσης επιλέγεται και µια Βάση εδοµένων από όπου θα γίνει η αναζήτηση της άγνωστης πρωτεΐνης. Όταν το πρόγραµµα εκτελείται, όλες οι πρωτεΐνες της Βάσης υπόκεινται σε εικονική τµηµατοποίηση από το ένζυµο που ορίστηκε, και σχηµατίζεται µια λίστα µε υποψήφια πεπτίδια για σύγκριση µε τα MS-MS scans. Στη συνέχεια κάθε MS-MS 43

scan αναλύεται. Η m/z τιµή χρησιµοποιείται για να επιλεγούν τα πεπτίδια από την λίστα σύµφωνα µε την µάζα τους και για κάθε πεπτίδιο που επιλέγεται, υπολογίζονται τα θεωρητικά MS-MS φάσµατα. Έτσι το πειραµατικό MS-MS φάσµα συγκρίνεται µε τα θεωρητικά φάσµατα που προέκυψαν από τη Βάση (Σχήµα 3.10 και 3.11). Στη συνέχεια υπολογίζεται µια τιµή συσχέτισης (correlation score) για κάθε ταίριασµα του MS-MS scan µε τα θεωρητικά φάσµατα η οποία αποτελεί µέτρο για την αξιοπιστία των αποτελεσµάτων. Σχήµα 3.10: Σχηµατική αναπαράσταση της MS-MS ανάλυσης των τµηµάτων των ιόντων (MS/MS Fragment Ion Analysis) [13]. Σχήµα 3.11: Σχηµατική αναπαράσταση του Sequest αλγορίθµου για την συσχέτιση των MS-MS φασµάτων µε πεπτιδικές ακολουθίες από την Βάση εδοµένων [7]. Ωστόσο, τα προγράµµατα όπως το Sequest δεν µπορούν να εκτιµήσουν την ποιότητα των matches. Ο αλγόριθµος θα αναζητήσει την καλύτερη πεπτιδική 44

ακολουθία από την Βάση ακόµα και αν το match είναι χαµηλής ποιότητας. Εποµένως ο χρήστης σε συνδυασµό µε την γνώση του και την εµπειρία του θα αποφασίσει ποιο match θα αποδεχθεί και ποιο θα απορρίψει. Μια ένδειξη για την ποιότητα των matches είναι η λίστα των πρωτεϊνών που παρουσιάζεται ως αποτελέσµατα µε φθίνουσα σειρά σύµφωνα µε τον αριθµό των hits. Μια πρωτεΐνη µε πολλά hits υψηλής ποιότητας για διαφορετικές πεπτιδικές ακολουθίες είναι πιο πιθανό να είναι η σωστή σε σχέση µε µια άλλη πρωτεΐνη η οποία έχει ένα µε δυο ασθενή matches. Επίσης για πιο αξιόπιστα αποτελέσµατα ο χρήστης έχει την δυνατότητα να ορίσει ειδικές τροποποιήσεις που έχουν υποστεί τα πεπτίδια (e.g., phosphorylation of serine, threonine, or tyrosine) ώστε ο αλγόριθµος να τις συνυπολογίσει [12]. Η δυναµική των προγραµµάτων που κάνουν ταυτοποίηση των πρωτεϊνών από MS-MS ανάλυση είναι εξαιρετική. Ένα αρχείο δεδοµένων µε περίπου 2000 MS-MS scans µπορεί να αναλυθεί σε λιγότερο από µια ώρα, ανάλογα µε το µέγεθος της Βάσης εδοµένων που έχει επιλεγεί και την υπολογιστική ισχύ της εφαρµογής. Αυτό έρχεται σε αντίθεση µε τις εκατοντάδες ώρες που χρειάζονται µε την προσέγγιση de novo-blast. Άλλοι αλγόριθµοι και εργαλεία για την ταυτοποίηση των πρωτεϊνών από ESI Tandem MS δεδοµένα, είναι το πρόγραµµα MS-Tag το οποίο αρχικά αναπτύχθηκε για την ανάλυση PSD φασµάτων τα οποία προκύπτουν από MALDI-TOF ανάλυση, όµως στη συνέχεια τροποποιήθηκε για MS-MS δεδοµένα. Ένα άλλο σηµαντικό πρόγραµµα είναι το Mascot το οποίο χρησιµοποιεί τον MOWSE αλγόριθµο που βασίζεται σε πιθανότητες. Το πρόγραµµα αυτό είναι ουσιαστικά µια συλλογή από εφαρµογές οι οποίες εκτελούν peptide mass fingerprinting και ανάλυση MS-MS δεδοµένων. Μια ακόµα εφαρµογή είναι η PepFrag η οποία είναι διαθέσιµη διαδικτυακά, στο http://prowl.rockefeller.edu/prowl/pepfragch.html. Τα εργαλεία αυτά θα αναλυθούν σε παρακάτω κεφάλαιο και θα συγκριθούν µε την παρούσα προσέγγιση για την ταυτοποίηση πρωτεϊνών και πεπτιδίων. 45

4 Μέθοδοι και Ανάπτυξη Έχουν δηµιουργηθεί πολλές εφαρµογές για την ταυτοποίηση των πεπτιδίων και των πρωτεϊνών. Στις εφαρµογές αυτές εισάγονται από τον ερευνητή διάφορες παράµετροι που καθορίζουν τις συνθήκες κάτω από τις οποίες έχει γίνει πειραµατικά η µέτρηση της µάζας των πεπτιδίων µιας άγνωστης πρωτεΐνης. Ουσιαστικά στο εργαστήριο µετράται το µοριακό βάρος των πεπτιδίων (MS ανάλυση) ή των τµηµάτων των πεπτιδίων (MS-MS ανάλυση) τα οποία εισάγονται στις εφαρµογές και επιλέγεται η Βάση εδοµένων από την οποία θα γίνει η αναζήτηση και η ταυτοποίηση των πρωτεϊνών. Σε αυτήν την εργασία ακολουθείται µια διαφορετική προσέγγιση από τις ήδη υπάρχουσες εφαρµογές για την πρωτεϊνική ταυτοποίηση. Η εύρεση µιας άγνωστης πρωτεΐνης γίνεται µέσω µιας προεπιλεγµένης πρωτεϊνικής Βάσης εδοµένων, της Swiss-Prot, η οποία έχει ήδη επεξεργαστεί και αναλυθεί σε όλα τα πιθανά πεπτίδια. Τα πεπτίδια αυτά έχουν καταχωρηθεί σε µια Βάση. Με αυτόν τον τρόπο δε γίνεται υπολογιστικά η τµηµατοποίηση των πρωτεϊνών µιας επιλεγµένης από τον χρήστη Βάσης µε ένα ένζυµο όπως είναι η τρυπσίνη, αλλά γίνεται άµεση αναζήτηση των πεπτιδίων στην καινούργια Βάση η οποία περιέχει προεπεξεργασµένα δεδοµένα (precompiled data). Σύµφωνα µε την προσέγγιση αυτή, έχουν επεξεργαστεί όλες οι πρωτεϊνικές ακολουθίες από όλους τους οργανισµούς που υπάρχουν στην Swiss-Prot και τα δεδοµένα που έχουν προκύψει έχουν αποθηκευτεί σε µια καινούργια Βάση που αποτελεί την Βάση εδοµένων της νέας εφαρµογής. Επειδή τα δεδοµένα που είναι επιθυµητό να έχει καταχωρηµένα η καινούργια Βάση είναι πολλά, χρησιµοποιείται συµπληρωµατικά ένα πλήθος από αρχεία τύπου html τα οποία επεξεργάζονται δυναµικά από την εφαρµογή και εµφανίζουν τα αποτελέσµατα στον χρήστη. Η εφαρµογή αυτή καλείται PeptideFinder και έχει υλοποιηθεί στη Μονάδα Βιοιατρικής 46

Πληροφορικής του IBEAA. Η εφαρµογή είναι ελεύθερα προσβάσιµη στο http://www.bioacademy.gr/bioserver/proteomics.htm. Τα στάδια για την υλοποίηση του PeptideFinder φαίνονται στο παρακάτω Σχήµα 4.1. Σχήµα 4.1: ιάγραµµα υλοποίησης της εφαρµογής. Από τη Swiss-Prot Βάση εδοµένων έχουν χρησιµοποιηθεί οι πρωτεϊνικές ακολουθίες από όλους του οργανισµούς ώστε µε κατάλληλη επεξεργασία να προκύψουν πεπτίδια µε γνωστό µοριακό βάρος και ακολουθία. Επίσης έχει υπολογιστεί το µοριακό βάρος και το ισοηλεκτρικό σηµείο (isoelectric point) όλων των πρωτεϊνών που αποθηκεύονται σε µια Βάση εδοµένων η οποία ονοµάστηκε OREA (molecular weight of fragments). Στη Βάση αυτή καταχωρείται και το µοριακό βάρος των πεπτιδίων όπως και το πλήθος των πεπτιδίων που έχουν ένα συγκεκριµένο µοριακό βάρος. Οι ακολουθίες των πεπτιδίων που έχουν προκύψει επειδή αποτελούν ογκώδη πληροφορία αποθηκεύονται σε συµπληρωµατικά αρχεία (repository files) µαζί µε την πληροφορία του κωδικού (accession number-ac) της πρωτεΐνης από την οποία προέκυψαν. Όταν η εφαρµογή χρειάζεται την ακολουθία µιας πρωτεΐνης, αυτή µπορεί να βρεθεί µέσα από την Swiss-Prot σύµφωνα µε το AC της ζητούµενης πρωτεΐνης. Για να προκύψουν τα αποτελέσµατα που επιθυµεί ο χρήστης, η εφαρµογή επικοινωνεί µε την Βάση OREA µε SQL ερωτήµατα και µε τα repository files. Ανάλογα µε τις παραµέτρους που έχουν τεθεί από τον χρήστη γίνεται µια επεξεργασία στα html αρχεία και παρουσιάζονται τα αποτελέσµατα µέσα από δυναµικές ιστοσελίδες. 47

4.1 Επεξεργασία Πρωτεϊνικών Ακολουθιών Οι Βάσεις εδοµένων πρωτεϊνικών ακολουθιών είναι ουσιαστικά µια αποθήκη πρωτεϊνικών αλληλουχιών από ένα πλήθος οργανισµών και αφορά την πρωτογενή δοµή των πρωτεϊνών. Από αυτές τις Βάσεις ή ακόµη και από Βάσεις που περιέχουν νουκλεοτιδικές ακολουθίες από τις οποίες µε κατάλληλη επεξεργασία µπορεί να προκύψουν υπολογιστικά οι πρωτεϊνικές ακολουθίες, γίνεται η αναζήτηση των πεπτιδίων σύµφωνα µε τη µάζα τους για την εύρεση και την ταυτοποίηση άγνωστων πρωτεϊνών οι οποίες συµµετέχουν σε διάφορες πειραµατικές µελέτες. Η µάζα των πεπτιδίων µπορεί να µετρηθεί από διάφορα όργανα όπως είναι το MALDI-TOF, το οποίο µελετήθηκε στο προηγούµενο κεφάλαιο. Όπως έχει αναφερθεί, η ακρίβεια των Βάσεων εδοµένων παίζει σηµαντικό ρόλο στην αξιοπιστία των αποτελεσµάτων για την ταυτοποίηση των πρωτεϊνών. Ορισµένες πρωτογενείς Βάσεις χαρακτηρίζονται ως πλεονάζουσες (redundant) όταν κάθε ακολουθία µπορεί να εµφανίζεται σε παραπάνω από ένα αντίγραφα και εποµένως απαιτείται αυστηρή αξιολόγηση των αποτελεσµάτων για να καταλήξουν µόνο αυτά που έχουν βιολογική αξία. Αντιθέτως οι non-redundant (nr) Βάσεις εδοµένων µπορεί να είναι ελλιπείς ωστόσο η αναζήτηση των ακολουθιών στην περίπτωση αυτή είναι ευκολότερη και πιο αξιόπιστη. Ένα παράδειγµα Βάσης µε µικρό βαθµό πλεονασµού είναι η Swiss-Prot η οποία είναι συνδεδεµένη άµεσα µε τη νουκλεοτιδική Βάση εδοµένων από την οποία προέρχονται οι αντίστοιχες αµινοξικές αλληλουχίες. Η Swiss-Prot δηµιουργήθηκε το 1986 και διανέµεται από το σύστηµα Expasy. Το σύστηµα αυτό είναι ειδικό για πρωτεϊνική ανάλυση ακολουθιών και δοµών. ιαθέτει εργαλεία λογισµικού και περισσότερα από 1000 εργαλεία ταξινοµηµένα σε κατηγορίες. Αναπτύχθηκε από το Ελβετικό Ινστιτούτο Βιοπληροφορικής (Swiss Institute of Bioinformatics-SIB). Η Swiss-Prot δίνει µεγάλη βαρύτητα στο χαρακτηρισµό των αλληλουχιών (annotation), εµπλουτίζεται µε τη δηµοσίευση νέων άρθρων και προσφέρει άµεση σύνδεση σε άλλες τράπεζες δεδοµένων. Η δοµή των καταχωρίσεων της Βάσης µοιάζει µε µια καταχώρηση στην EMBL, είναι δηλαδή εµπλουτισµένη σε µορφή flat-file. Στο Σχήµα 4.2 φαίνεται ένα τέτοιο παράδειγµα καταχώρησης σε flat-file format για µια πρωτεΐνη µε κωδικό (accession number) Ο02192 η οποία αποτελείται από 716 αµινοξέα. Η ακολουθία της πρωτεΐνης φαίνεται στο κάτω µέρος. 48

Πιο αναλυτικά, η γραµµή ID (IDentification) περιλαµβάνει την ονοµασία καταχώρησης (entry name), η γραµµή AC (ACcession) περιλαµβάνει όλους τους κωδικούς πρόσβασης που σχετίζονται µε την καταχώρηση αυτή και είναι βοηθητικό σε περίπτωση που παλιές καταχωρήσεις ενοποιήθηκαν ή διαχωρίστηκαν σε επιµέρους καταχωρήσεις. Η γραµµή DT αφορά την ηµεροµηνία που δηµιουργήθηκε η καταχώρηση για πρώτη φορά, και την ηµεροµηνία της πιο πρόσφατης τροποποίησης, η γραµµή DE έχει την περιγραφή της ακολουθίας που περιλαµβάνεται στην καταχώρηση, χαρακτηρισµός γονιδίου, τη θέση στο γονιδίωµα κλπ. Η γραµµή OS (Organism Species) αφορά τον οργανισµό από τον οποίο προέρχεται η ακολουθία, και η OC (Organism Classification) έχει να κάνει µε την συστηµατική ταξινόµηση του οργανισµού. Στη συνέχεια γίνεται αναφορά στις βιβλιογραφίες όπου RN (Reference Number) είναι ο αύξον/αριθµός των άρθρων που αναφέρονται στην καταχώρηση, RP (Reference Position) είναι το τµήµα της ακολουθίας που αναφέρονται στο άρθρο, RA (Reference Author) οι συγγραφείς του άρθρου, RT (Reference Title) ο τίτλος του άρθρου και RL (Reference Location) όπου αναφέρονται τα στοιχεία έκδοσης του άρθρου (περιοδικό, τεύχος κλπ). Οι γραµµές µε CC περιέχουν σχόλια ενώ οι DR (Database cross-reference) χρησιµοποιούνται ως δείκτες αναφοράς σε πληροφορία που βρέθηκε σε συλλογή δεδοµένων διαφορετική από την Swiss-Prot. Οι KW (KeyWord) παρέχουν λέξεις κλειδιά που οδηγούν σε περαιτέρω πληροφορία αλλά αποτελούν και αναφορά στην πρωτεϊνική ακολουθία και οι γραµµές FT (Feature Table) όπου δίνουν ένα ακριβή και απλό µέσο για τον χαρακτηρισµό της ακολουθίας. Το σύµβολο // είναι χαρακτηριστικό για το τέλος της ακολουθίας. Ένα εργαλείο που διαχειρίζεται εύκολα καταχωρήσεις πρωτεϊνών σε τέτοια µορφή είναι το SwissKnife. Βασίζεται σε αντικειµενοστρεφή βιβλιοθήκη της Perl (Practical Extraction and Report Language) η οποία είναι γλώσσα προγραµµατισµού αρκετά γρήγορη και ευέλικτη για επεξεργασία δεδοµένων κειµένου και εξαγωγή πληροφοριών. Η συµπληρωµατική της Swiss-Prot Βάσης είναι η TrEMBL (Translated EMBL). Αυτή περιλαµβάνει computer annotated µεταφράσεις από κωδικοποιούσες περιοχές στην EMBL. Όταν για µια καταχώριση επιβεβαιώνονται οι χαρακτηρισµοί που αποδίδονται από τον υπολογιστή, η καταχώρηση αυτή µεταφέρεται στην Swiss- Prot. Με λίγα λόγια η TrEMBL επιδιώκει να καλύψει το χρόνο που χάνεται κατά την 49

αξιολόγηση µιας καταχώρησης από την Swiss-Prot και κατά συνέπεια η TrEMBL είναι µια πλεονάζουσα Βάση εδοµένων [2]. ID HSP83_DROAV Reviewed; 716 AA. AC O02192; DT 15-DEC-1998, integrated into UniProtKB/Swiss-Prot. DT 01-JUL-1997, sequence version 1. DT 01-MAY-2007, entry version 44. DE Heat shock protein 83 (HSP 82). GN Name=Hsp83; Synonyms=Hsp82; OS Drosophila auraria (Fruit fly). OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; OC Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; OC Ephydroidea; Drosophilidae; Drosophila. OX NCBI_TaxID=47315; RN [1] RP NUCLEOTIDE SEQUENCE [GENOMIC DNA]. RC STRAIN=3040.11B; RX MEDLINE=98154409; PubMed=9493358 [NCBI, ExPASy, EBI, Israel, Japan]; RA Konstantopoulou I., Scouras Z.G.; RT "The heat-shock gene hsp83 of Drosophila auraria: genomic RT organization, nucleotide sequence, and long antiparallel coupled ORFs RT (LAC ORFs)."; RL J. Mol. Evol. 46:334-343(1998). CC -!- FUNCTION: Molecular chaperone. Has ATPase activity (By CC similarity). CC -!- SUBCELLULAR LOCATION: Cytoplasm. CC -!- SIMILARITY: Belongs to the heat shock protein 90 family. CC ----------------------------------------------------------------------- CC Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms CC Distributed under the Creative Commons Attribution-NoDerivs License CC ----------------------------------------------------------------------- DR EMBL; U75687; AAB58358.1; -; Genomic_DNA.[EMBL/GenBank/DDBJ] [CoDingSequence] DR HSSP; P07900; 1OSF. [HSSP ENTRY / SWISS-3DIMAGE / PDB] DR FlyBase; FBgn0020208; Daur\Hsp83. DR GO; GO:0005813; C:centrosome; ISS:UniProtKB. DR GO; GO:0042623; F:ATPase activity, coupled; ISS:UniProtKB. DR GO; GO:0006457; P:protein folding; ISS:UniProtKB. DR GO; GO:0009408; P:response to heat; ISS:UniProtKB. DR GO; GO:0006986; P:response to unfolded protein; ISS:UniProtKB. DR InterPro; IPR003594; ATP_bd_ATPase. DR InterPro; IPR001404; Hsp90. DR InterPro; Graphical view of domain structure. DR Gene3D; G3DSA:3.30.565.10; ATP_bd_ATPase; 1. DR PANTHER; PTHR11528; Hsp90; 1. DR Pfam; PF02518; HATPase_c; 1. DR Pfam; PF00183; HSP90; 1. DR Pfam; Graphical view of domain structure. DR PRINTS; PR00775; HEATSHOCK90. DR SMART; SM00387; HATPase_c; 1. DR PROSITE; PS00298; HSP90; 1. DR ProDom [Domain structure / List of seq. sharing at least 1 domain] DR BLOCKS; O02192. DR ProtoNet; O02192. DR DIP; O02192. DR ModBase; O02192. DR SWISS-2DPAGE; GET REGION ON 2D PAGE. KW ATP-binding; Chaperone; Nucleotide-binding; Stress response. FT CHAIN 1 716 Heat shock protein 83. FT /FTId=PRO_0000062929. SQ SEQUENCE 716 AA; 81760 MW; 9EC59F027C4DFCD7 CRC64; MPEEAETFAF QAEIAQLMSL IINTFYSNKE IFLRELISNA SDALDKIRYE SLTDPSKLDS GKELYIKLIP NKTAGTLTII DTGIGMTKSD LVNNLGTIAK SGTKAFMEAL QAGADISMIG QFGVGFYSAY LVADKVTVTS KNNDDEQYIW ESSAGGSFTV RADNSEPLGR GTKIVLYIKE DQTDYLEESK IKEIVNKHSQ FIGYPIKLLV EKEREKEVSD DEADDDKKED EKKEMDTDEP KIEDVGEDED ADKKDKDAKK KKTIKEKYTE DEELNKTKPI WTRNPDDISQ EEYGEFYKSL TNDWEDHLAV KHFSVEGQLE FRALLFIPRR TPFDLFENQK KRNNIKLYVR RVFIMDNCED LIPEYLNFIK GVVDSEDLPL NISREMLQQN KVLKVIRKNL VKKTMELIEE LTEDKENYKK FYDQFSKNLK LGVHEDSNNR AKLADFLRFH TSASGDDFCS LSDYVSRMKE NQKHVYFITG ESKDQVSNSA FVERVKARGF EVVYMTEPID EYVIQHLKEY KGKQLVSVTK EGLELPEDDA EKKKREEDKA KFESLCKLMN AILDNKVEKV VVSNRLVDSP CCIVTSQFGW SANMERIMKA QALRDTATMG YMAGKKQLEI NPDHPIVETL RQKADADKND KAVKDLVILL FETSLLSSGF SLDSPQVHAS RIYRMIKLGL GIDEDEPMTT EDAQSAGDAP SLVEDTEDAS HMEEVD //Σχήµα 4.2: Καταχώριση Πρωτεΐνης στη Swiss-Prot σε flat-file format. 50

Με αυτά τα χαρακτηριστικά η Swiss-Prot κρίνεται ως µια αξιόπιστη και ακριβής Βάση εδοµένων η οποία είναι εύκολα προσβάσιµη και τα δεδοµένα της µπορούν πολύ απλά µε τη χρήση του SwissKnife να επεξεργαστούν. Μάλιστα η Swiss-Prot αποτελεί την κύρια επιλογή για αναζήτηση στις διάφορες άλλες εφαρµογές που υπάρχουν για την ταυτοποίηση των πρωτεϊνών [14]. Τα δεδοµένα της Swiss-Prot, εκτός από flat-file format είναι διαθέσιµα και σε fasta format. Ένα παράδειγµα φαίνεται στο Σχήµα 4.3. Το format αυτό περιλαµβάνει έναν τίτλο ο οποίος περιέχει σύντοµες πληροφορίες για την πρωτεΐνη και µια ακολουθία από γράµµατα τα οποία εκφράζουν την αµινοξική ακολουθία της πρωτεΐνης σύµφωνα µε τον Πίνακα 2.1. Η Swiss-Prot Βάση εδοµένων µπορεί να αποκτηθεί εύκολα σε fasta format από το συµπιεσµένο αρχείο uniprot_sprot.fasta.gz που υπάρχει στην ftp://ftp.expasy.org/databases/uniprot/knowledgebase/ >O02192 HSP83_DROAV Heat shock protein 83 - Drosophila auraria (Fruit fly). MPEEAETFAFQAEIAQLMSLIINTFYSNKEIFLRELISNASDALDKIRYESLTDPSKLDS GKELYIKLIPNKTAGTLTIIDTGIGMTKSDLVNNLGTIAKSGTKAFMEALQAGADISMIG QFGVGFYSAYLVADKVTVTSKNNDDEQYIWESSAGGSFTVRADNSEPLGRGTKIVLYIKE DQTDYLEESKIKEIVNKHSQFIGYPIKLLVEKEREKEVSDDEADDDKKEDEKKEMDTDEP KIEDVGEDEDADKKDKDAKKKKTIKEKYTEDEELNKTKPIWTRNPDDISQEEYGEFYKSL TNDWEDHLAVKHFSVEGQLEFRALLFIPRRTPFDLFENQKKRNNIKLYVRRVFIMDNCED LIPEYLNFIKGVVDSEDLPLNISREMLQQNKVLKVIRKNLVKKTMELIEELTEDKENYKK FYDQFSKNLKLGVHEDSNNRAKLADFLRFHTSASGDDFCSLSDYVSRMKENQKHVYFITG ESKDQVSNSAFVERVKARGFEVVYMTEPIDEYVIQHLKEYKGKQLVSVTKEGLELPEDDA EKKKREEDKAKFESLCKLMNAILDNKVEKVVVSNRLVDSPCCIVTSQFGWSANMERIMKA QALRDTATMGYMAGKKQLEINPDHPIVETLRQKADADKNDKAVKDLVILLFETSLLSSGF SLDSPQVHASRIYRMIKLGLGIDEDEPMTTEDAQSAGDAPSLVEDTEDASHMEEVD Σχήµα 4.3: Fasta format της πρωτεΐνης µε AC Ο02192. Είναι µια HSP83 (Heat Shock Protein 83) πρωτεΐνη που ανήκει στον οργανισµό DROAV (Drosophila auraria). Είναι εύκολα προσβάσιµη από την ιστοσελίδα της expasy (http://au.expasy.org/uniprot/o02192.fas). Για την επεξεργασία των πρωτεϊνικών ακολουθιών της Swiss-Prot χρησιµοποιήθηκαν όλες οι πρωτεΐνες από όλους τους οργανισµούς που είναι καταχωρηµένοι στη Βάση. Με κατάλληλο πρόγραµµα που γράφτηκε στη γλώσσα προγραµµατισµού Perl, οι πρωτεΐνες αυτές διαχωρίστηκαν ανάλογα µε τον οργανισµό στον οποίο ανήκουν. Ο τίτλος των πρωτεϊνών στη fasta µορφοποίηση έχει µια συγκεκριµένη δοµή. Όπως φαίνεται στο Σχήµα 4.3 ο τίτλος ξεκινάει µε το σύµβολο > και ακολουθεί το accession number της πρωτεΐνης. Ακολουθούν το σύµβολο µια κωδικοποίηση για το είδος της πρωτεΐνης (π.χ. HSP83) και µετά το σύµβολο _ ακολουθεί µια κωδικοποίηση για το είδος του οργανισµού (π.χ. DROAV). Στη συνέχεια, µετά τον χαρακτήρα του κενού ακολουθεί µια σύντοµη περιγραφή της 51

πρωτεΐνης. Εποµένως αλγοριθµικά είναι εύκολο να αποµονωθεί η λέξη µεταξύ του _ και του κενού χαρακτήρα που εκφράζει τον οργανισµό της εν λόγω πρωτεΐνης. Σε αυτό το σηµείο αξίζει να γίνει µια αναφορά στη γλώσσα προγραµµατισµού Perl. H Perl (Practical Extraction and Report Language) δηµιουργήθηκε και υλοποιήθηκε από τον Larry Wall. Είναι µια γλώσσα που χρησιµοποιεί διερµηνευτή ( interpreted language) µε βέλτιστες επιδόσεις στη διαχείριση των αλφαριθµητικών, στις διεργασίες συστήµατος και στη διαχείριση δεδοµένων εισόδου/εξόδου (I/O). Τα συντακτικά της στοιχεία είναι επηρεασµένα από την C γλώσσα προγραµµατισµού. Με την Perl µπορούν να αναπτυχθούν πολύ εύκολα και γρήγορα προγράµµατα τα οποία είναι αρχεία κειµένου που απλά εκτελούνται. εν χρειάζεται ξεχωριστός µεταφραστής (compiler). Μάλιστα αυτά τα αρχεία µπορεί να περιέχουν σύντοµο κώδικα ο οποίος όµως κάνει πολλές ενέργειες χάρη στους magic operators της Perl. Επίσης µε τα regular expressions είναι εύκολη η διαχείριση των αρχείων και των δεδοµένων, ενώ υπάρχει ευελιξία στην σύνταξη του κώδικα καθώς µια εντολή µπορεί να γραφεί µε πολλούς διαφορετικούς τρόπους. Ένα άλλο σηµαντικό σηµείο είναι ότι η Perl είναι διαθέσιµη δωρεάν και µάλιστα οι δυνατότητές τις επεκτείνονται µε διάφορα πακέτα και modules τα οποία βρίσκονται στο CPAN (Comprehensive Perl Archive Network). Τέλος είναι συµβατή µε όλες τις πλατφόρµες [15,16]. Με αυτά τα χαρακτηριστικά της, η Perl επιλέχθηκε για την επεξεργασία των πρωτεϊνικών ακολουθιών της Swiss-Prot. Η έκδοση που χρησιµοποιήθηκε είναι η Perl 5.8.8. Μάλιστα υπάρχει και το πακέτο της BioPerl το οποίο είναι ιδανικό για την επεξεργασία βιολογικών δεδοµένων. Από τις πρωτεϊνικές ακολουθίες γίνεται ένας διαχωρισµός ανάλογα µε τον οργανισµό (species) έτσι ώστε να υπάρχουν διαφορετικά αρχεία µε πρωτεϊνικές ακολουθίες σε fasta µορφοποίηση, ένα αρχείο για κάθε οργανισµό (Σχήµα 4.4). Εν συνεχεία, για κάθε αρχείο και εποµένως για κάθε οργανισµό βρίσκονται υπολογιστικά όλα τα πιθανά πεπτίδια, ανεξάρτητα από την χρήση κάποιου ένζυµου το οποίο κόβει την πρωτεΐνη σε συγκεκριµένα σηµεία. Για παράδειγµα αν µια πρωτεϊνική ακολουθία είναι η ACEW, τότε προκύπτουν τα πεπτίδια A, AC, ACE, ACEW, C, CE, CEW, E και EW των οποίων το µοριακό βάρος υπολογίζεται σύµφωνα µε τον Πίνακα 1.1. Για παράδειγµα για το πεπτίδιο AC, το µοριακό βάρος υπολογίζεται 71.03712+103.00919 και το αποτέλεσµα καταχωρείται µε ακρίβεια.01da. Ο λόγος που επιλέχθηκε αυτή η ακρίβεια στο δεκαδικό ψηφίο είναι γιατί µια µεγαλύτερη ακρίβεια θα είχε ως αποτέλεσµα µεγαλύτερο όγκο 52

δεδοµένων, ενώ µια µικρότερη ακρίβεια θα είχε επίπτωση στην αξιοπιστία των αποτελεσµάτων όσον αφορά στην ταυτοποίηση των πεπτιδίων και των πρωτεϊνών. Μετά τον υπολογισµό των µοριακών βαρών όλων των πιθανών πεπτιδίων που υπάρχουν στις πρωτεΐνες, καταχωρούνται αυτά που είναι µέχρι 10kDa, δηλαδή πεπτίδια που η ακολουθία τους αποτελείται από περίπου 100 αµινοξέα. ηµιουργείται έτσι µια λίστα η οποία περιέχει µοριακά βάρη που η µικρότερη τιµή είναι το µοριακό βάρος ενός αµινοξέος και η µεγαλύτερη είναι τα 10kDa. Για κάθε µοριακό βάρος που περιέχει η λίστα αντιστοιχεί και µια συχνότητα εµφάνισης, για παράδειγµα βρέθηκαν 3876 πεπτίδια που έχουν µοριακό βάρος 1440.70 στον άνθρωπο. Αυτή η πληροφορία καταχωρείται σε έναν πίνακα για τον άνθρωπο στην OREA Βάση εδοµένων (Σχήµα 4.5). Θα µπορούσε να καταχωρηθεί και η ακολουθία των πεπτιδίων στην OREA Βάση όµως σε αυτήν την περίπτωση θα προέκυπταν πολλές χιλιάδες πίνακες, ένας πίνακας για κάθε µοριακό βάρος, γεγονός που θα έκανε δύσκολη την υλοποίηση της Βάσης και θα µείωνε την ευελιξία της. Έτσι οι πεπτιδικές ακολουθίες µαζί µε τον κωδικό της πρωτεΐνης από την οποία προέρχονται, καταχωρούνται ξεχωριστά σε αρχεία. Σχήµα 4.4: ιάγραµµα όπου απεικονίζεται η διαδικασία της επεξεργασίας των πρωτεϊνικών ακολουθιών της Swiss-Prot. Τα δεδοµένα εξόδου αυτής της διαδικασίας αποτελούν δεδοµένα εισόδου για την υλοποίηση της νέας Βάσης εδοµένων και των αρχείων αποθήκευσης html. Πέρα από τον υπολογισµό των µοριακών βαρών των πεπτιδίων, υπολογίζεται και το µοριακό βάρος και το ισοηλεκτρικό σηµείο (isoelectric point) των πρωτεϊνών. Ισοηλεκτρικό σηµείο ή pi µιας πρωτεΐνης είναι το ph στο οποίο η πρωτεΐνη έχει ίσο 53

αριθµό θετικών και αρνητικών φορτίων [17]. Υπολογιστικά το pi βρίσκεται µε το πακέτο Bio::Tools::pICalculator της BioPerl. 4.2 Σχεδιασµός και Υλοποίηση της OREA Βάσης Μετά την επεξεργασία των πρωτεϊνικών ακολουθιών, προέκυψαν δεδοµένα τα οποία χρειάζονταν να καταχωρηθούν σε µια Βάση εδοµένων. Τα δεδοµένα αυτά έπρεπε να οργανωθούν ανάλογα µε τον οργανισµό από τον οποίο προέρχονταν οι πρωτεΐνες. Έτσι δηµιουργήθηκαν πίνακες, οι οποίοι αντιπροσωπεύουν κάθε οργανισµό. Ένας πίνακας λοιπόν περιέχει πληροφορία για τις πρωτεΐνες του ανθρώπου, και ένας άλλος για τις πρωτεΐνες του ποντικιού (Σχήµα 4.5).Επίσης υπάρχει ένας πίνακας ο οποίος περιέχει συγκεντρωτικά τους οργανισµούς που έχουν αναλυθεί µαζί µε το όνοµα του πίνακα κάθε οργανισµού που λειτουργεί σαν δείκτης για τον κάθε πίνακα οργανισµού. Κάθε εγγραφή σε έναν πίνακα αποτελεί µια γραµµή η οποία γίνεται µοναδικά προσβάσιµη χάρη σε έναν κωδικό (ID). Το ID είναι µοναδικό για κάθε γραµµή του πίνακα, για παράδειγµα στον πίνακα για τον άνθρωπο όπου έχουν βρεθεί 3876 πεπτίδια που έχουν µοριακό βάρος 1440.70, η πληροφορία αυτή αποθηκεύεται µε ID=144070 και συχνότητα 3876 πεπτίδια, ενώ υπάρχει και µια αναφορά σε ένα όνοµα αρχείου τύπου html η οποία λειτουργεί σαν δείκτης σε αρχείο. Ο δείκτης αυτός είναι χρήσιµος για την εύρεση του κατάλληλου αρχείου στην αποθήκη αρχείων html όπου υπάρχει η πληροφορία για την ακολουθία των πεπτιδίων. Σχήµα 4.5: ιάγραµµα όπου απεικονίζεται η σχεδίαση της Βάσης εδοµένων. Τα δεδοµένα εξόδου της επεξεργασίας των πρωτεϊνικών ακολουθιών καταχωρούνται στην OREA Βάση. 54

Επίσης υπάρχει ένας πίνακας µε τα µοριακά βάρη και τα ισοηλεκτρικά σηµεία των πρωτεϊνών για κάθε οργανισµό. Σε αυτόν τον πίνακα δε χρησιµοποιήθηκε ID γιατί το accession number (AC) των πρωτεϊνών χαρακτηρίζει µοναδικά κάθε πρωτεΐνη. Εξάλλου µε το AC της πρωτεΐνης µπορεί να βρεθεί η ακολουθία της από την Swiss-Prot Βάση. Τα εργαλεία για την ανάπτυξη της εφαρµογής είναι η MySQL για την υλοποίηση της Βάσης, ο Apache server για τα Web Services, το XAMPP για την φιλική διαχείριση της Βάσης. Οι εγγραφές εισήχθησαν στους πίνακες µε ένα πακέτο της Perl, το DBI που κάνει εφικτή την επικοινωνία µεταξύ Perl και MySql. Η Perl µπορεί µε το DBI να υποβάλει SQL ερωτήµατα σε µια Βάση και εποµένως µπορούν να καταχωρηθούν δεδοµένα, να διαγραφούν ή να αλλαχθούν. 4.3 Σχεδιασµός και Υλοποίηση της Αποθήκης Αρχείων HTML Κατά την επεξεργασία των πρωτεϊνικών ακολουθιών της Swiss-Prot υπολογίζεται το µοριακό βάρος όλων των πιθανών πεπτιδίων. Οι ακολουθίες αυτών των πεπτιδίων καταχωρούνται σε µια αποθήκη αρχείων. Όλες οι πεπτιδικές ακολουθίες που προκύπτουν από έναν οργανισµό και έχουν ένα συγκεκριµένο µοριακό βάρος αποθηκεύονται σε ένα αρχείο (Σχήµα 4.6). Στο παράδειγµα αυτό φαίνονται τα περιεχόµενα ενός αρχείου στο οποίο καταχωρούνται οι πεπτιδικές ακολουθίες που έχουν µοριακό βάρος 580.29. Οι πεπτιδικές ακολουθίες EKEPP και STPPPT ανήκουν στην πρωτεΐνη µε AC=Q14738. Από το AC της πρωτεΐνης µπορεί να γίνει αναζήτηση στην Swiss-Prot και να βρεθεί η ακολουθία της πρωτεΐνης σε fasta µορφοποίηση αλλά και αναζήτηση στην OREA Βάση για να βρεθεί το µοριακό της βάρος και το ισοηλεκτρικό της σηµείο (Σχήµα 4.7). Σχήµα 4.6: Τα περιεχόµενα ενός html αρχείου στο οποίο καταχωρούνται οι πεπτιδικές ακολουθίες που έχουν µοριακό βάρος 580.29. Το αρχείο περιέχει και το AC των πρωτεϊνών από τις οποίες προέκυψαν τα πεπτίδια. Για κάθε µοριακό βάρος που υπολογίζεται από την επεξεργασία των πρωτεϊνών, αντιστοιχίζεται και ένα αρχείο. Έτσι υπάρχουν χιλιάδες αρχεία, από το 55

µικρότερο µοριακό βάρος µέχρι το µεγαλύτερο που έχει οριστεί για την εφαρµογή, δηλαδή µέχρι τα 10kDa. Σχήµα 4.7: ιάγραµµα όπου απεικονίζεται η σχεδίαση της αποθήκης των αρχείων HTML. Τα αρχεία περιέχουν τις πεπτιδικές ακολουθίες και το AC των πρωτεϊνών από τις οποίες προέρχονται, ανάλογα µε το µοριακό βάρος των πεπτιδίων. 4.4 Ανάπτυξη Εφαρµογής ιαδικτύου Το PeptideFinder είναι µια διαδικτυακή εφαρµογή που βοηθάει τον χρήστη-ερευνητή να βρει ποιες πεπτιδικές ακολουθίες έχουν ένα συγκεκριµένο µοριακό βάρος, το οποίο έχει βρεθεί πειραµατικά στο εργαστήριο από ένα εργαλείο όπως είναι το MALDI-TOF. Επίσης χρησιµοποιείται και για την ταυτοποίηση των πρωτεϊνών από ένα πλήθος µοριακών βαρών που ανήκουν σε πεπτίδια. Πιο αναλυτικά, ο χρήστης εισάγει ένα µοριακό βάρος ή ένα εύρος µοριακών βαρών τα οποία έχουν βρεθεί πειραµατικά από MS ή MS-MS ανάλυση των πρωτεϊνών ενός οργανισµού. Επίσης µπορεί να ορίσει και ορισµένες παραµέτρους, που θα εξεταστούν στο επόµενο κεφάλαιο, για µια πιο σύνθετη αναζήτηση των πεπτιδικών ακολουθιών. Το µοριακό βάρος ή τα µοριακά βάρη που εισάγονται, αναζητούνται µε SQL ερωτήµατα στην OREA Βάση στον κατάλληλο πίνακα ανάλογα µε τον οργανισµό που έχει ορίσει ο χρήστης (Σχήµα 4.8). Η Βάση επιστρέφει το όνοµα του αρχείου html που αντιστοιχεί σε ένα µοριακό βάρος και αυτό τo όνοµα στη συνέχεια λειτουργεί ως δείκτης για την επιλογή του κατάλληλου αρχείου από την αποθήκη αρχείων html. Ακολούθως, αυτό το html αρχείο επεξεργάζεται δυναµικά από τρία διαφορετικά Perl προγράµµατα τα οποία εµφανίζουν τρία καινούργια html αρχεία. Τα 56

καινούργια αυτά αρχεία html δηλαδή δεν προϋπάρχουν, αλλά εµφανίζονται εκείνη την ώρα ( on the fly ) από τα Perl προγράµµατα. Το πρώτο αρχείο περιέχει µια λίστα µε τις ακολουθίες όλων των πεπτιδίων που έχουν το ζητούµενο µοριακό βάρος. Για κάθε πεπτίδιο δίνεται πληροφορία για την πρωτεΐνη στην οποία ανήκει, δηλαδή το AC, το µοριακό βάρος της και το ισοηλεκτρικό της σηµείο. Το δεύτερο αρχείο περιέχει µια λίστα µε την ακολουθία των 50 πιο συχνοεµφανιζόµενων πεπτιδίων που έχουν το ζητούµενο µοριακό βάρος, από όλες τις πρωτεΐνες του εν λόγω οργανισµού που υπάρχουν στην Swiss-Prot. Το τρίτο αρχείο περιέχει µια λίστα µε όλες τις πρωτεΐνες που έχουν πεπτίδια µε το ζητούµενο µοριακό βάρος. Πάλι για την κάθε πρωτεΐνη δίνεται το AC, το µοριακό βάρος και το ισοηλεκτρικό της σηµείο. Σχήµα 4.8: ιάγραµµα όπου απεικονίζεται η σχεδίαση της διαδικτυακής εφαρµογής PeptideFinder. Η εφαρµογή δέχεται µοριακά βάρη τα οποία αναζητούνται στην OREA Βάση και από το κατάλληλο αρχείο html στην αποθήκη αρχείων προκύπτουν δυναµικές ιστοσελίδες µετά από επεξεργασία µε Perl προγράµµατα. Η ακολουθία µιας πρωτεΐνης µπορεί να αποκτηθεί από την Swiss-Prot µε το AC της που είναι καταχωρηµένο στην αποθήκη αρχείων HTML. Για την αναζήτηση και ταυτοποίηση µιας πρωτεΐνης η εφαρµογή χρησιµοποιεί ένα πλήθος µοριακών βαρών που εισάγει ο χρήστης. Στη συνέχεια τα αντίστοιχα html αρχεία από τη αποθήκη, επεξεργάζονται µε ένα κατάλληλο Perl πρόγραµµα το οποίο εµφανίζει δυναµικά µια ιστοσελίδα που περιέχει µια λίστα µε τις πρωτεΐνες που έχουν ταυτοποιηθεί σε φθίνουσα σειρά σύµφωνα µε την αξιοπιστία των αποτελεσµάτων. Η αξιοπιστία ελέγχεται από µια τιµή (score) που αντιστοιχίζεται σε κάθε πρωτεΐνη και δίνεται από τον τύπο mwi όπου mwi είναι το µοριακό βάρος του i πεπτιδίου και mw p mw p είναι το µοριακό βάρος της πρωτεΐνης. Για την υλοποίηση της διαδικτυακής εφαρµογής χρησιµοποιήθηκε PHP και HTML κώδικας που γράφτηκε στον PHP Designer 2005 και χρησιµοποιήθηκε στον 57

Apache server. Η PHP είναι µια γλώσσα που ειδικεύεται για web-scripting και µπορεί να ενσωµατωθεί σε HTML κώδικα. Έτσι µε το χαρακτηριστικό SSI (Server Side Includes) του server και την PHP µπορούν να διαχειριστούν οι µεταβλητές του προγράµµατος οι οποίες παίρνουν τιµές όταν το αρχείο php εκτελείται από τον server. Η PHP λοιπόν µπορεί να υποβάλει SQL ερωτήµατα στην OREA Βάση και να διαχειριστεί τις τιµές που επιστρέφονται µέσω µεταβλητών. Επίσης χρησιµοποιούνται CGI (Common Gateway Interface) Perl scripts τα οποία είναι προγράµµατα γραµµένα σε Perl και εκτελούνται όταν λάβει ο server την αντίστοιχη αίτηση. Στην παρούσα εφαρµογή τα CGI Perl scripts δέχονται σαν είσοδο ορισµένες µεταβλητές από τον server και αφού επεξεργαστούν τα ζητούµενα αρχεία από την αποθήκη αρχείων html, δηµιουργούν καινούργια html αρχεία. Στο επόµενο κεφάλαιο θα περιγραφεί η εφαρµογή PeptideFinder και θα παρουσιαστεί το γραφικό της περιβάλλον. Επίσης θα µελετηθούν οι παράµετροι που µπορεί να χρησιµοποιήσει ο χρήστης και θα δοθούν παραδείγµατα για τα html αρχεία που προκύπτουν από τα CGI Perl scripts. 58

59

5 Εφαρµογή PeptideFinder Το PeptideFinder είναι µια διαδικτυακή εφαρµογή για την εύρεση πεπτιδικών ακολουθιών σύµφωνα µε ένα µοριακό βάρος και για την ταυτοποίηση πρωτεϊνών σύµφωνα µε ένα σύνολο µοριακών βαρών. Η εφαρµογή αυτή διαφέρει από τις άλλες ήδη υπάρχουσες εφαρµογές καθώς το PeptideFinder κάνει την αναζήτηση σε προεπεξεργασµένα (precompiled) δεδοµένα τα οποία είναι όλα τα πιθανά πεπτίδια τα οποία έχουν προκύψει από πρωτεΐνες της Swiss-Prot. Στις άλλες εφαρµογές εφαρµόζονται αλγόριθµοι που κόβουν υπολογιστικά τις πρωτεΐνες της Βάσης σύµφωνα µε το ένζυµο που έχει οριστεί από τον χρήστη και έχει χρησιµοποιηθεί πειραµατικά. Η εφαρµογή PeptideFinder επειδή διαθέτει όλα τα πιθανά πεπτίδια των πρωτεϊνών, λειτουργεί ανεξάρτητα από το ένζυµο που έχει χρησιµοποιηθεί, ενώ τα επεξεργασµένα πεπτίδια προέρχονται από την SwissProt και δεν υπάρχει δυνατότητα από τον χρήστη να επιλέξει κάποια άλλη Βάση εδοµένων. Αυτό δεν αποτελεί αρνητικό στοιχείο της εφαρµογής καθώς η Swiss-Prot είναι µια Βάση µε µικρό βαθµό πλεονασµού, περιέχει πρωτεΐνες από µεγάλο πλήθος οργανισµών και επίσης είναι µια Βάση η οποία επιλέγεται συνήθως στις άλλες εφαρµογές [14]. Τα πεπτίδια που διαθέτει η εφαρµογή έχουν οργανωθεί ανάλογα µε το µοριακό τους βάρος, εποµένως όταν ο ερευνητής βρίσκει πειραµατικά τιµές µοριακών βαρών σε ένα εργαλείο όπως το MALDI-TOF και ενδιαφέρεται να µάθει από ποια πεπτίδια έχουν προκύψει τα εν λόγω µοριακά βάρη, µπορεί να χρησιµοποιήσει την εφαρµογή. Εισάγοντας ένα µοριακό βάρος στο σύστηµα, αυτό αποκρίνεται µε µια λίστα που περιέχει όλες τις πιθανές πεπτιδικές ακολουθίες που δίνουν την αντίστοιχη µάζα. 60

5.1 Περιγραφή της εφαρµογής Οι παράµετροι του PeptideFinder που πρέπει να συµπληρωθούν από τον χρήστη είναι ο οργανισµός ο οποίος µελετάται και το µοριακό βάρος (Σχήµα 5.1). Προς το παρόν δεν είναι διαθέσιµοι όλοι οι οργανισµοί της Swiss-Prot καθώς αυτό αποτελεί µια χρονοβόρα διαδικασία και απαιτεί µεγάλη διαθεσιµότητα σε όγκο δεδοµένων, όµως µε τα µέσα που υπήρχαν διαθέσιµα έχει αναλυθεί σηµαντικός αριθµός πρωτεϊνών. Αφού ο χρήστης επιλέξει τον οργανισµό, εισάγει και το υπό µελέτη µοριακό βάρος, του οποίου η τιµή µπορεί να έχει ακρίβεια.01dalton. Να σηµειωθεί σε αυτό το σηµείο ότι το µοριακό βάρος που εισάγεται αποτελεί µέτρηση πειράµατος το οποίο έχει γίνει σε κάποιο εργαλείο ανάλυσης φασµατογράφου µάζας. Σε αυτά τα εργαλεία µετρούνται οι µάζες των πεπτιδίων σε ένυδρο περιβάλλον εποµένως συνυπολογίζεται και η µάζα του νερού. Για το λόγο αυτό, το µοριακό βάρος που εισάγεται στην εφαρµογή περιέχει και το µοριακό βάρος του νερού (Η:1.0079 Ο:15.9994 Η 2 Ο:18.0152). Εάν ο χρήστης ενδιαφέρεται για ένα µοριακό βάρος το οποίο προέκυψε από πείραµα που δεν περιείχε νερό, τότε για την εφαρµογή αυτή, θα πρέπει να προστεθεί το µοριακό βάρος του νερού, δηλαδή 18.01. Σχήµα 5.1: Το περιβάλλον της εφαρµογής PeptideFinder. Ο χρήστης ορίζει τον οργανισµό στον οποίο θα αναζητηθεί το µοριακό βάρος που εισάγεται µε ακρίβεια.01dalton. Μπορεί να οριστούν και άλλες παράµετροι που βοηθούν στη βελτίωση της αξιοπιστίας των αποτελεσµάτων. Μια παράµετρος είναι το εκτιµώµενο λάθος στην µέτρηση του µοριακού βάρους. Αυτό το λάθος οφείλεται στο εργαλείο που κάνει την MS ανάλυση και σχετίζεται µε την ακρίβεια των µετρήσεων που παρέχει. Το εκτιµώµενο λάθος παίρνει συνήθως τιµές από 0.01 µέχρι 2 dalton. Για το MALDI-TOF είναι περίπου 61

0.01 µε 0.05dalton. Χρησιµοποιώντας αυτήν την παράµετρο αυξάνεται το πλήθος των υποψήφιων πεπτιδίων όµως σε συνδυασµό µε την χρήση άλλων παραµέτρων, βελτιώνεται η αξιοπιστία των αποτελεσµάτων. Στο παράδειγµα που φαίνεται στο Σχήµα 5.1 µελετάται τα µοριακό βάρος 7918.88 µε εύρος λάθους 0.02dalton, δηλαδή µελετώνται όλα τα πεπτίδια που έχουν µοριακό βάρος από 7918.86 µέχρι 7918.90 dalton (Σχήµα 5.2). Άλλες παράµετροι είναι το εύρος µοριακού βάρους και ισοηλεκτρικού σηµείου της πρωτεΐνης. Με άλλα λόγια περιορίζεται το πλήθος των υποψήφιων πεπτιδίων σε αυτά που προέρχονται από πρωτεΐνες οι οποίες έχουν µοριακό βάρος και ισοηλεκτρικό σηµείο µέσα στα επιτρεπτά όρια. Η δυνατότητα για τον περιορισµό του µοριακού βάρους της πρωτεΐνης, αποτελεί εξαιρετικής σηµασίας. Οι πρωτεΐνες που έχουν µεγάλο µοριακό βάρος, έχουν και µεγάλο µήκος ακολουθίας, εποµένως θα προκύπτουν υπολογιστικά πολλά πεπτίδια. Έτσι, περιορίζοντας το µοριακό βάρος της πρωτεΐνης, περιορίζεται το µέγεθός της και συνεπώς η εφαρµογή θα αποκλείσει τα πεπτίδια που είναι εκτός των επιτρεπτών ορίων. Μια επίσης πολύ σηµαντική παράµετρος είναι η δυνατότητα περιορισµού της πεπτιδικής ακολουθίας µε εκφράσεις (regular expressions) που ελέγχονται από την Perl. Ο χρήστης µπορεί να περιορίσει τα πεπτίδια που έχουν ένα µοριακό βάρος, σε αυτά που η ακολουθία τους ταιριάζει µε το regular expression. Στο παράδειγµα του Σχήµατος 5.1 αναζητούνται οι πεπτιδικές ακολουθίες που περιέχουν τρεις αλανίνες στη σειρά (ΑΑΑ). Όµως το σηµαντικό µε τα regular expressions είναι ότι µπορούν µε κατάλληλα σύµβολα να ελέγχουν πως θα αρχίζει ή πως θα τελειώνει µια ακολουθία και να δηµιουργούν πρότυπα ακολουθιών όπως για παράδειγµα ακολουθίες που ξεκινούν µε G, σε κάποιο σηµείο έχουν I ή L και τελειώνουν µε Α (^G.*[IL].*A$), ή ακολουθίες που περιέχουν Α, µετά I ή L, στη συνέχεια F και µετά ακολουθεί ένα αµινοξύ που δεν είναι C ή D (A[IL]F[^CD]). Στο Σχήµα 5.2 φαίνονται τα αποτελέσµατα της εφαρµογής όταν υποβληθεί το αίτηµα του Σχήµατος 5.1. Τα Peptide List, Top peptides και Protein List είναι σύνδεσµοι (links) οι οποίοι παραπέµπουν σε CGI Perl scripts τα οποία εκτελούνται την στιγµή που θα ενεργοποιηθεί ο σύνδεσµος. Ο σύνδεσµος Peptide List θα καλέσει το αρχείο html_maker.pl µε τις κατάλληλες µεταβλητές εισόδου και θα εµφανιστούν τα αποτελέσµατα του Σχήµατος 5.3, ο σύνδεσµος Top peptides θα καλέσει το αρχείο top_peptides.pl µε τις ίδιες µεταβλητές εισόδου και τα 62

αποτελέσµατα φαίνονται στο Σχήµα 5.4. Οµοίως για τον σύνδεσµο Protein List που καλεί το αρχείο protein_list.pl και τα αποτελέσµατα φαίνονται στο Σχήµα 5.5. Σχήµα 5.2: Τα αποτελέσµατα του PeptideFinder για το µοριακό βάρος 7918.88 µε εύρος λάθους 0.02dalton. Το Perl αρχείο html_maker.pl ανοίγει ένα html αρχείο από την αποθήκη αρχείων της εφαρµογής και το επεξεργάζεται, δηµιουργώντας για έξοδο ένα νέο αρχείο html το οποίο είναι µια δυναµική ιστοσελίδα. Η σελίδα αυτή περιέχει µια λίστα µε όλα εκείνα τα πεπτίδια που έχουν το ζητούµενο µοριακό βάρος και ικανοποιούν τις παραµέτρους που έχει εισάγει ο ερευνητής. Επίσης δίνεται πληροφορία για την συχνότητα εµφάνισης κάθε πεπτιδίου στην πρωτεΐνη από την οποία προέρχεται, καθώς και το µοριακό βάρος, το ισοηλεκτρικό της σηµείο και το AC κωδικό της. Μάλιστα η πεπτιδική ακολουθία αποτελεί δεύτερο σύνδεσµο στην δυναµική ιστοσελίδα όπου καλείται το Perl αρχείο highlight.pl. Το αρχείο αυτό χρησιµοποιεί το AC της πρωτεΐνης για να βρει την ακολουθία της σε fasta format από την Swiss-Prot και στη συνέχεια µαρκάρει την πεπτιδική ακολουθία µέσα στην πρωτεϊνική (Σχήµα 5.6). Αυτή η δυνατότητα βοηθάει τον ερευνητή να καταλάβει σε ποιο σηµείο της πρωτεΐνης βρίσκεται το πεπτίδιο και να συγκρίνει τις ακολουθίες. Σχήµα 5.3: Ορισµένα από τα πεπτίδια που έχουν µοριακό βάρος 7918.88 και στην ακολουθία τους υπάρχουν τρεις συνεχόµενες αλανίνες (ΑΑΑ). Το πρώτο πεπτίδιο που φαίνεται ανήκει στην πρωτεΐνη Q9Y2J4 µε µοριακό βάρος 85698.54dalton και ισοηλεκτρικό σηµείο 7.3. Το πεπτίδιο αυτό βρέθηκε µια φορά στην πρωτεΐνη, εποµένως έχει συχνότητα 1. Οµοίως το Perl αρχείο top_peptides.pl µόλις κληθεί να εκτελεστεί, ανοίγει το ίδιο html αρχείο από την αποθήκη αρχείων της εφαρµογής και το επεξεργάζεται, 63

δηµιουργώντας για έξοδο µια καινούργια δυναµική ιστοσελίδα. Η σελίδα αυτή περιέχει τα 50 πρώτα πεπτίδια σύµφωνα µε την τιµή του score. Στο συγκεκριµένο παράδειγµα βρέθηκαν µόνο 25 πεπτίδια που να περιέχουν ΑΑΑ, οπότε εµφανίζονται και τα 25. Για να υπολογιστεί η τιµή του score υπολογίζεται για κάθε ένα πεπτίδιο σε πόσες πρωτεΐνες έχει βρεθεί, έστω Ν και στη συνέχεια ο αριθµός αυτός διαιρείται µε N το σύνολο των αριθµών κάθε πεπτιδίου, δηλαδή N i. Για παράδειγµα, εάν υπάρχει το πεπτίδιο Α 1 σε 5 πρωτεΐνες και το πεπτίδιο Α 2 σε 8 πρωτεΐνες, τότε το score για το πεπτίδιο Α 1 είναι 5 5+ 8, δηλαδή 38.46% και για το πεπτίδιο Α 2 είναι 8 5+ 8, δηλαδή 61.53%. Εποµένως τα πεπτίδια ταξινοµούνται ανάλογα µε το πόσο συχνά εµφανίζονται στην Βάση Swiss-Prot. Ακόµη για κάθε πεπτίδιο δίνεται σε πόσες πρωτεΐνες έχει βρεθεί και ποιες είναι αυτές µε το AC κωδικό τους. Ο κωδικός αυτός αποτελεί σύνδεσµο στο highlight.pl Perl αρχείο όπου εµφανίζεται µια νέα δυναµική ιστοσελίδα που περιέχει την πρωτεΐνη σε fasta format από την Swiss-Prot και την µαρκαρισµένη πεπτιδική ακολουθία. Σχήµα 5.4: Ορισµένα από τα 25 πεπτίδια που βρήκε το top_peptides.pl µετά από επεξεργασία του αρχείου html της αποθήκης αρχείων. Τα πεπτίδια αυτά βρέθηκαν µόνο σε µια πρωτεΐνη το καθένα γι αυτό και έχουν όλα score 1/25=0.04, δηλαδή 4%. Το αρχείο protein_list.pl µόλις κληθεί ανοίγει πάλι το ίδιο αρχείο html από την αποθήκη αρχείων της εφαρµογής και αφού το επεξεργαστεί, εµφανίζει µια δυναµική ιστοσελίδα που περιέχει µια λίστα µε όλους τους κωδικούς AC των πρωτεϊνών µαζί µε το µοριακό βάρος και το ισοηλεκτρικό σηµείο τους. Οι πρωτεΐνες που εµφανίζονται στη λίστα είναι αυτές που έχουν πεπτίδια που ικανοποιούν τις παραµέτρους που έχει ορίσει ο χρήστης. Στο παράδειγµα του Σχήµατος 5.5 φαίνονται οι πρωτεΐνες που έχουν πεπτίδια µε µοριακό βάρος 7918.88 τα οποία περιέχουν στην 64

ακολουθία τους ΑΑΑ. Το AC των πρωτεϊνών αποτελεί σύνδεσµο στο highlight.pl CGI Perl script όπου εµφανίζεται µια δυναµική ιστοσελίδα µε την ακολουθία της πρωτεΐνης σε fasta format. Σχήµα 5.5: Πρωτεΐνες που έχουν πεπτίδια µε µοριακό βάρος 7918.88 και περιέχουν στην ακολουθία τους το ΑΑΑ. Για κάθε πρωτεΐνη δίνεται το µοριακό βάρος και το ισοηλεκτρικό της σηµείο. Στο Σχήµα 5.6 φαίνεται µια ακολουθία πρωτεΐνης όπως εµφανίζεται στην εφαρµογή. Είναι µια δυναµική ιστοσελίδα που προκύπτει από το highlight.pl και εµφανίζει τον τίτλο και την ακολουθία της πρωτεΐνης, όπως είναι αποθηκεµένα στην Swiss-Prot σε fasta format µε την ακολουθία του πεπτιδίου µαρκαρισµένη µε κίτρινο χρώµα. Σχήµα 5.6: Η πρωτεΐνη Q9Y2J4 του ανθρώπου. Το πεπτίδιο που εµφανίζεται στο Σχήµα 4.3 και έχει µοριακό βάρος 7918.88 φαίνεται µαρκαρισµένο µε κίτρινο χρώµα. Μια άλλη επιλογή που έχει ο χρήστης είναι να αναζητήσει τα πεπτίδια σύµφωνα µε ένα εύρος µοριακών βαρών. Οι παράµετροι παραµένουν οι ίδιες µε την διαφορά ότι το εύρος λάθους δεν είναι πλέον διαθέσιµο. Αν στην προηγούµενη περίπτωση ο χρήστης επέλεγε µοριακό βάρος 7918.88 µε εύρος λάθους 0.02, σε αυτήν την περίπτωση µπορεί να επιλέξει να εµφανιστούν τα µοριακά βάρη από 7918.86 µέχρι 7918.90 (Σχήµα 5.7). Μια άλλη σηµαντική δυνατότητα του PeptideFinder είναι η εύρεση πρωτεϊνών από ένα πλήθος µοριακών βαρών τα οποία προκύπτουν από µετρήσεις πρωτεϊνικών δειγµάτων σε φασµατογράφους µάζας. Πειραµατικά από µια MS ανάλυση προκύπτει ένα φάσµα µάζας το οποίο δίνει τα µοριακά βάρη των διαφόρων πεπτιδίων της άγνωστης πρωτεΐνης που εξετάζεται. Σε µια MS-MS ανάλυση εκτός από τα µοριακά 65

βάρη των πεπτιδίων, προκύπτει πληροφορία και για την ακολουθία τους, εποµένως από τα µοριακά βάρη και από έναν περιορισµό στην πεπτιδική ακολουθία µπορεί να βρεθεί η ζητούµενη πρωτεΐνη. Σχήµα 5.7: Αναζήτηση πεπτιδίων σύµφωνα µε ένα εύρος µοριακών βαρών. Για την αναζήτηση της πρωτεΐνης χρησιµοποιούνται οι ίδιες παράµετροι, όπως κα µε την αναζήτηση των πεπτιδίων. Η διαφορά σε αυτήν την περίπτωση είναι ότι µελετώνται πολλά µοριακά βάρη, δηλαδή επεξεργάζονται πολλά αρχεία html από την αποθήκη αρχείων της εφαρµογής, και αναζητούνται οι κοινές τους πρωτεΐνες. Επίσης έχει προστεθεί µια παράµετρος που ορίζει πόσες υποψήφιες πρωτεΐνες θα εµφανιστούν, λειτουργεί δηλαδή σαν threshold. Στο Σχήµα 5.8 φαίνονται οι διάφορες παράµετροι της εφαρµογής. Στο παράδειγµα έχουν εισαχθεί 27 µοριακά βάρη από πεπτίδια που έχουν προκύψει πειραµατικά στο εργαστήριο Βιοτεχνολογίας του IBEAA µε χρήση του MALDI-TOF εργαλείου. Με εύρος λάθους 0.02 για το συγκεκριµένο εργαλείο, αναζητούνται τα πεπτίδια που τελειώνουν µε αργινίνη (R) ή λυσίνη (Κ) και ανήκουν σε πρωτεΐνες που έχουν µοριακό βάρος µεταξύ 1 και 100kDa. Επίσης έχει επιλεγεί ότι θα εµφανιστούν οι 50 πρώτες πρωτεΐνες που καλύπτουν αυτούς τους περιορισµούς. Σχήµα 5.8: Αναζήτηση πρωτεΐνης από ένα σύνολο µοριακών βαρών. Έχει επιλεγεί να γίνει αναζήτηση στις πρωτεΐνες του ανθρώπου που έχουν µοριακό βάρος µεταξύ 1 και 100kDa. Το 66

µοριακό βάρος των πεπτιδίων έχει εύρος λάθους 0.02dalton, ενώ η αποδεκτή πεπτιδική ακολουθία έχει αργινίνη (R) ή λυσίνη (K) στο τέλος. H υποβολή του ερωτήµατος στο παράδειγµα µε τις παραµέτρους αυτές, καλεί ένα CGI Perl script, το protein_identifier.pl, το οποίο δέχεται τις παραµέτρους ως µεταβλητές εισόδου. Για κάθε ένα µοριακό βάρος, ανοίγεται το κατάλληλο αρχείο html από την αποθήκη αρχείων και εξετάζεται ποιες πρωτεΐνες περιέχουν τα περισσότερα πεπτίδια µε τα ζητούµενα µοριακά βάρη. Όταν ο χρήστης εισάγει εκτιµώµενο εύρος λάθους, τότε το εύρος αυτό εφαρµόζεται σε κάθε µοριακό βάρος. Στο συγκεκριµένο παράδειγµα που το εύρος λάθους έχει επιλεγεί 0.02dalton αυτό σηµαίνει ότι για το µοριακό βάρος 1903.82 θα εξεταστεί το αντίστοιχο αρχείο html που περιέχει τα πεπτίδια µε αυτό το µοριακό βάρος, αλλά και τα αρχεία που περιέχουν πεπτίδια µε µοριακό βάρος 1903.80, 1903.81, 1903.83 και 1903.84. ηλαδή για ένα µοριακό βάρος και µε εύρος λάθους 0.02dalton εξετάζονται 5 αρχεία. Στο παράδειγµα αυτό, εισήχθησαν 27 µοριακά βάρη µε εύρος λάθους 0.02, εποµένως θα εξεταστούν 135 αρχεία html. Είναι φανερό πως µε την αύξηση του εύρους λάθους ή/και του συνόλου των µοριακών βαρών που εισάγονται, αυξάνεται ο αριθµός των αρχείων που χρειάζεται να µελετηθούν και εποµένως αυξάνεται η πολυπλοκότητα και ο χρόνος απόκρισης της εφαρµογής. Ωστόσο όσο περισσότερα µοριακά βάρη είναι γνωστά για µια πρωτεΐνη, τόσο πιο πολλά στοιχεία υπάρχουν που χαρακτηρίζουν τη συγκεκριµένη πρωτεΐνη και εποµένως αυξάνονται οι πιθανότητες να βρεθεί ανάµεσα στις άλλες πρωτεΐνες και συνεπώς να επιτευχθεί η ταυτοποίησή της. Στο Σχήµα 5.9 φαίνονται τα αποτελέσµατα της ταυτοποίησης µιας πρωτεΐνης (protein identification) όπως αυτή περιγράφηκε από τις παραµέτρους του Σχήµατος 5.8. Η στήλη number of requested molecular weights matched έχει τον αριθµό των µοριακών βαρών που έχουν ταιριάξει µε την πρωτεΐνη η οποία δηλώνεται µε το AC κωδικό της και δίνεται το µοριακό βάρος και το ισοηλεκτρικό σηµείο της. Όταν ένα µοριακό βάρος ταιριάζει (matches) µε την πρωτεΐνη, σηµαίνει ότι η πρωτεΐνη περιέχει στην ακολουθία της ένα τουλάχιστον πεπτίδιο µε το συγκεκριµένο µοριακό βάρος. Στη στήλη requested molecular weights matched φαίνονται ποια µοριακά βάρη από αυτά που έχουν εισαχθεί, έχουν ταιριάξει µε την πρωτεΐνη και στη στήλη detailed molecular weights matched είναι τα µοριακά βάρη που έχουν ταιριάξει µε την πρωτεΐνη αλλά έχουν προκύψει από το εύρος λάθους που έχει επιλεγεί. Σε περίπτωση που ο χρήστης δεν έχει επιλέξει εύρος λάθους η στήλη αυτή δεν εµφανίζεται. Τα 67

µοριακά βάρη σε αυτήν την στήλη αποτελούν σύνδεσµο µε το highlight.pl το οποίο εµφανίζει µια δυναµική ιστοσελίδα που περιέχει µαρκαρισµένη την ακολουθία του πεπτιδίου που έχει το συγκεκριµένο µοριακό βάρος µέσα στην ακολουθία της πρωτεΐνης όπως φαίνεται και στο Σχήµα 5.6. Επίσης σύνδεσµο αποτελεί και ο κωδικός AC της πρωτεΐνης όπου εκτελείται το ίδιο Perl αρχείο και εµφανίζει στην δυναµική ιστοσελίδα την ακολουθία της πρωτεΐνης έτσι όπως είναι στην Swiss-Prot σε fasta µορφοποίηση. Για κάθε µια πρωτεΐνη υπολογίζεται µια τιµή score η οποία σχετίζεται µε το µήκος της ακολουθίας της. Όσο πιο µεγάλη είναι η τιµή του score, τόσο πιο πιθανό είναι η πρωτεΐνη που ψάχνει ο χρήστης-ερευνητής να είναι η σωστή, να έχει γίνει δηλαδή σωστή ταυτοποίηση. Όταν εισαχθούν Ν µοριακά βάρη για πρωτεϊνική ταυτοποίηση, τότε είναι πιο πιθανό µια πολύ µεγάλη πρωτεΐνη να ταιριάζει µε αυτά τα µοριακά βάρη από µια µικρότερη, καθώς µια µεγάλη πρωτεΐνη έχει περισσότερα πεπτίδια. Επίσης όταν ένα µοριακό βάρος που εισάγεται είναι µικρό, αυτό σηµαίνει ότι το αντίστοιχο πεπτίδιο έχει µικρή ακολουθία και εποµένως µπορεί να βρεθεί σε περισσότερες πρωτεΐνες από ένα µεγαλύτερο πεπτίδιο. Για να περιοριστεί το στατιστικό αυτό λάθος από µια µεγάλη πρωτεΐνη ή ένα µικρό πεπτίδιο, υπολογίζεται το score ως ο λόγος του αθροίσµατος των µοριακών βαρών των πεπτιδίων που ταιριάζουν σε µια πρωτεΐνη, προς το µοριακό βάρος της πρωτεΐνης, δηλαδή mwi. mw p Έτσι όσο µεγαλύτερη είναι η τιµή του score, τόσο πιο αξιόπιστη είναι η υποψήφια πρωτεΐνη, πάντα σε σχέση µε πόσα ταιριάσµατα έχει πετύχει. Ένας ακόµη συνδυαστικός τρόπος για να βελτιωθεί η αξιοπιστία των αποτελεσµάτων, είναι να χρησιµοποιηθεί η παράµετρος για τον περιορισµό του µοριακού βάρους της πρωτεΐνης. Έτσι µε αυτόν τον τρόπο ελέγχεται πάλι το στατιστικό λάθος αφού περιορίζεται το µέγεθος της πρωτεΐνης. 68

Σχήµα 5.9: Τα αποτελέσµατα του protein identifier από τα 27 µοριακά βάρη που εισήχθησαν. Εδώ φαίνονται οι πρώτες 3 πρωτεΐνες από τις 50 και η πρώτη µε AC ίσο µε P10909 έχει το µεγαλύτερο score (31.1) και τα περισσότερα matches (11). Χρησιµοποιώντας τον σύνδεσµο µε το AC της πρωτεΐνης, βρίσκεται ότι αυτή η πρωτεΐνη είναι η κλαστερίνη. 5.2 Ενηµέρωση της εφαρµογής Η εφαρµογή PeptideFinder βασίζεται σε δεδοµένα που είναι precompiled από τα δεδοµένα των πρωτεϊνών της Swiss-Prot. Αυτά τα δεδοµένα είναι αποθηκεµένα στην OREA Βάση εδοµένων της εφαρµογής και στην αποθήκη αρχείων html (repository archive). Όµως η Swiss-Prot αναβαθµίζεται κάθε δυο εβδοµάδες µε νέες πρωτεϊνικές ακολουθίες, µε πρωτεΐνες που έχουν διορθώσεις στις ακολουθίες τους, ακόµα και µε πρωτεΐνες που έχουν διαγραφεί. Εποµένως όλα εκείνα τα πεπτίδια που προέκυψαν από τέτοιες πρωτεΐνες πρέπει να διαγραφούν ή να αλλαχθούν. Εποµένως η αναβάθµιση της εφαρµογής κρίνεται απαραίτητη. Η Swiss-Prot ανανεώνεται κάθε δυο εβδοµάδες µε τα biweekly releases όµως διαθέτει και τα major releases που είναι διαθέσιµα δυο µε τρεις φορές το χρόνο και περιέχουν συγκεντρωτικά όλες τις αλλαγές που έχουν γίνει στις biweekly releases. Το αρνητικό µε τις biweekly releases είναι το γεγονός ότι περιέχουν περιγραφικά µόνο τις αλλαγές που έχουν γίνει στις πρωτεΐνες, δεν περιέχονται δηλαδή όλες οι πρωτεΐνες τις Swiss-Prot σε αντίθεση µε τις major releases που περιέχουν όλες τις πρωτεΐνες µαζί µε όλες τις αλλαγές που έχουν γίνει. Μάλιστα οι major releases είναι διαθέσιµες για download, που αυτό συνεπάγεται και την δυνατότητα για επεξεργασία των πρωτεϊνών. Ένα άλλο χαρακτηριστικό των biweekly releases είναι ότι οι αλλαγές που περιγράφουν είναι πάντα σε σχέση µε την αµέσως προηγούµενη τους biweekly release. Στη σελίδα ftp://ftp.expasy.org/databases/swiss-prot/updates_compressed/ υπάρχουν διαθέσιµα δυο αρχεία που το ένα περιέχει τις νέες πρωτεΐνες και το άλλο αυτές που έχουν αλλαχθεί σε σχέση µε την προηγούµενη release. Υπάρχει και ένα 69

αρχείο µε τις πρωτεΐνες που έχουν διαγραφεί πάλι σε σχέση µε την προηγούµενη release το οποίο περιέχει τους AC κωδικούς των πρωτεϊνών. Το αρχείο αυτό είναι διαθέσιµο στο http://au.expasy.org/txt/delac_sp.txt. Κάθε major release που βγαίνει διατίθεται σε flat file format ή σε fasta format. Επίσης για όλα τα releases υπάρχουν στην σελίδα της Expasy, του Ελβετικού Ινστιτούτου Βιοπληροφορικής (SIB) διάφορα στατιστικά στοιχεία. Στο Σχήµα 5.10 φαίνεται ή αύξηση σε αριθµό των πρωτεϊνικών ακολουθιών που έχουν γίνει γνωστές. Όταν ένα αµινοξύ δεν είναι γνωστό στην ακολουθία χρησιµοποιείται το σύµβολο X, ενώ όταν ένα αµινοξύ είναι aspartate ή asparagine χρησιµοποιείται το σύµβολο Β και όταν είναι glutamate ή glutamine το σύµβολο Ζ. Η παρούσα εφαρµογή προέκυψε από την επεξεργασία των πρωτεϊνικών ακολουθιών που ήταν αποθηκεµένα στην έκδοση 54 της Swiss-Prot η οποία ανήκει στην έκδοση 12 της Uniprot µαζί µε την έκδοση 37 της TrEMBL. Η έκδοση αυτή ήταν διαθέσιµη στις 24 Ιουλίου 2007 και είναι η πιο πρόσφατη διαθέσιµη major release. Περιέχει 276.256 πρωτεΐνες από τις οποίες ενδεικτικά οι 16.890 είναι του Homo Sapiens, του ανθρώπου δηλαδή και οι 13.561 ανήκουν στο Mus Musculus, του ποντικιού [18]. Σχήµα 5.10: Η αύξηση των γνωστών πρωτεϊνικών ακολουθιών από το 1986 µέχρι σήµερα. Με τις αλλαγές που γίνονται στη Swiss-Prot Βάση εδοµένων θα πρέπει να ενηµερώνεται και η Βάση της εφαρµογής PetideFinder καθώς και η αποθήκη αρχείων html. υστυχώς δε µπορούν να χρησιµοποιηθούν τα αρχεία που περιέχουν τις νέες πρωτεΐνες, ούτε αυτά που περιέχουν τις πρωτεΐνες που έχουν διαγραφεί ή αλλαχθεί καθώς οι ενηµερώσεις αυτές σχετίζονται µε την πιο πρόσφατη biweekly release. Το ιδανικό θα ήταν να υπήρχαν αρχεία που θα περιέχουν τις διάφορες αλλαγές από τη µια major release στην επόµενη ώστε αυτά τα αρχεία στη συνέχεια να επεξεργάζονταν µε Perl scripts που θα προσθέτουν ή θα διαγράφουν δεδοµένα στην 70

εφαρµογή. Επειδή δεν υπάρχουν τέτοια αρχεία, συγκρίνεται µια νέα major release µε την προηγούµενη της και δηµιουργούνται τρία αρχεία. Ένα αρχείο περιέχει τις καινούργιες πρωτεΐνες, τα άλλο τις πρωτεΐνες που έχουν διαγραφεί και το τρίτο τις πρωτεΐνες που έχουν αλλαγές στην ακολουθία τους. Έτσι, µε αυτόν τον τρόπο µπορεί στη συνέχεια να ενηµερωθεί η OREA Βάση και η αποθήκη αρχείων. Εποµένως η ενηµέρωση της εφαρµογής γίνεται δυο µε τρεις φορές το χρόνο ανάλογα µε το πότε θα εκδοθεί καινούργια major release. Στον παρακάτω Πίνακα 5.1 φαίνονται όλες οι major releases που έχουν εκδοθεί µέχρι τώρα, µε µερικά στατιστικά στοιχεία. Release Date Number of proteins Number of amino acids 2.0 09/86 3.939 900.163 3.0 11/86 4.160 969.641 4.0 04/87 4.387 1.036.010 5.0 09/87 5.205 1.327.683 6.0 01/88 6.102 1.653.982 7.0 04/88 6.821 1.885.771 8.0 08/88 7.724 2.224.465 9.0 11/88 8.702 2.498.140 10.0 03/89 10.008 2.952.613 11.0 07/89 10.856 3.265.966 12.0 10/89 12.305 3.797.482 13.0 01/90 13.837 4.347.336 14.0 04/90 15.409 4.914.264 15.0 08/90 16.941 5.486.399 16.0 11/90 18.364 5.986.949 17.0 02/91 20.024 6.524.504 18.0 05/91 20.772 6.792.034 19.0 08/91 21.795 7.173.785 20.0 11/91 22.654 7.500.130 21.0 03/92 23.742 7.866.596 22.0 05/92 25.044 8.375.696 23.0 08/92 26.706 9.011.391 24.0 12/92 28.154 9.545.427 25.0 04/93 29.955 10.214.020 26.0 07/93 31.808 10.875.091 27.0 10/93 33.329 11.484.420 28.0 02/94 36.000 12.496.420 29.0 06/94 38.303 13.464.008 30.0 10/94 40.292 14.147.368 31.0 02/95 43.470 15.335.248 32.0 11/95 49.340 17.385.503 33.0 02/96 52.205 18.531.384 34.0 10/96 59.021 21.210.389 35.0 11/97 69.113 25.083.768 36.0 07/98 74.019 26.840.295 37.0 12/98 77.977 28.268.293 38.0 07/99 80.000 29.085.965 39.0 05/00 86.593 31.411.114 40.0 10/01 101.602 37.315.215 41.0 02/03 122.564 44.986.459 42.0 10/03 135.850 50.046.799 43.0 03/04 146.720 54.093.154 71

44.0 07/04 153.871 56.608.159 45.0 10/04 163.235 59.631.787 46.0 02/05 168.297 61.443.278 47.0 05/05 181.577 65.746.672 48.0 09/05 194.317 70.391.852 49.0 02/06 207.132 75.438.310 50.0 05/06 222.289 81.585.146 51.0 10/06 241.242 88.541.632 52.0 03/07 261.513 95.638.062 53.0 05/07 269.293 98.902.758 54.0 07/07 276.256 101.466.206 Πίνακας 5.1: Όλες οι εκδόσεις της Swiss-Prot µέχρι τις µέρες µας. 72

73

6 Σύγκριση και Αξιολόγηση Με την ταυτοποίηση των πρωτεϊνών και των πεπτιδίων έχουν ασχοληθεί πολλά ερευνητικά κέντρα που έχουν υλοποιήσει διαφορετικές προσεγγίσεις. Στις εφαρµογές αυτές όµως υπάρχει µια κοινή λογική. Με κάθε ερώτηµα που τίθεται στην εφαρµογή, εκτελείται ένας αλγόριθµος που δηµιουργεί πεπτίδια από µια επιλεγµένη Βάση εδοµένων. ηλαδή οι πρωτεΐνες µια Βάσης κόβονται σύµφωνα µε τις παραµέτρους που έχει εισάγει ο χρήστης-ερευνητής και τα πεπτίδια που προκύπτουν αξιολογούνται από έναν αλγόριθµο (scoring algorithm). Κάθε πειραµατική µέτρηση της µάζας των πεπτιδίων συγκρίνεται µε την µέτρηση της µάζας των πεπτιδίων που έχουν προκύψει υπολογιστικά από τις πρωτεΐνες µιας Βάσης εδοµένων, σύµφωνα µε τις παραµέτρους που έχουν εισαχθεί. Έτσι το πειραµατικό φάσµα συγκρίνεται µε το θεωρητικό φάσµα που έχει υπολογίσει η κάθε εφαρµογή και το αν θα βρεθούν ταιριάσµατα στα πεπτίδια, εξαρτάται από τις παραµέτρους εισόδου και από τον ορισµό των αλγορίθµων αξιολόγησης. Στην παρούσα εφαρµογή η προσέγγιση που έχει ακολουθηθεί βασίζεται σε µια διαφορετική λογική. Με κάθε ερώτηµα που τίθεται στην εφαρµογή, εκτελείται µια αναζήτηση σε µια Βάση εδοµένων που έχει δηµιουργηθεί εξαρχής και περιέχει όλα τα πιθανά πεπτίδια των πρωτεϊνών ταξινοµηµένα ανάλογα µε το µοριακό τους βάρος. Έτσι ανάλογα µε τις παραµέτρους που έχει εισάγει ο ερευνητής, επιλέγονται τα κατάλληλα πεπτίδια τα οποία αξιολογούνται από έναν αλγόριθµο. Αφού κάθε εφαρµογή ακολουθεί διαφορετική προσέγγιση, είναι λογικό να υπάρχουν διαφορές στις παραµέτρους εισόδου αλλά και στα αποτελέσµατα που εµφανίζονται. Εποµένως είναι σκόπιµο να µελετηθούν οι διαφορές αυτές ανάµεσα στην παρούσα εφαρµογή και στις υπόλοιπες που στηρίζονται σε διαφορετική λογική. Υπάρχουν ξεχωριστές εφαρµογές για ταυτοποίηση πρωτεΐνης και ταυτοποίηση πεπτιδίων. Μερικές εφαρµογές που κάνουν ταυτοποίηση πρωτεΐνης 74

είναι η Aldente της Expasy που χρησιµοποιεί τον µετασχηµατισµό Hough για επανασχεδίαση του φάσµατος µάζας, η Mascot της Matrix Science Ltd. στο Λονδίνο, η PROWL από τα πανεπιστήµια Rockefeller και NY η οποία έχει ένα πλήθος από εργαλεία όπως το ProFound, το PepFrag και το X! Tandem, η Phenyx που κάνει και ταυτοποίηση πεπτιδίων από MS/MS δεδοµένα της GeneBio στην Ελβετία και η MultiIdent και Popitam της Expasy. Για την ταυτοποίηση των πεπτιδίων χρησιµοποιούνται η FindPept, η Phenyx και η OMSSA (Open Mass Spectrometry Search Algorithm) που είναι µια αποτελεσµατική µηχανή αναζήτησης που προσδιορίζει MS-MS φάσµατα πεπτιδίων µε βάση στατιστικών µεθόδων [19]. Για να γίνει µια σύγκριση µε την παρούσα εφαρµογή, θα επιλεχθεί αντιπροσωπευτικά η εφαρµογή της Mascot, η οποία διαθέτει παρόµοιες παραµέτρους για την είσοδο των δεδοµένων µε τις άλλες εφαρµογές και είναι ευρέως διαδεδοµένη στο ευρύ επιστηµονικό κοινό. H Mascot κάνει αναζήτηση πρωτεΐνης σύµφωνα µε τα αποτελέσµατα της τεχνικής Peptide Mass Fingerprint όπου τα πειραµατικά δεδοµένα είναι µια λίστα από τιµές µάζας των πεπτιδίων που προέκυψαν από την διάσπαση µιας πρωτεΐνης µε τη χρήση ενζύµου. Επίσης κάνει αναζήτηση που βασίζεται σε πρωτογενή MS-MS δεδοµένα από ένα ή περισσότερα πεπτίδια [24]. Στο Σχήµα 6.1 φαίνονται οι παράµετροι που πρέπει να συµπληρωθούν για αναζήτηση σύµφωνα µε το µοριακό βάρος και την ακολουθία των πεπτιδίων. Σχήµα 6.1: Ταυτοποίηση πρωτεΐνης από τη Mascot σύµφωνα µε τα µοριακά βάρη των πεπτιδίων που έχουν µετρηθεί από την ανάλυση φασµατογράφου µάζας. Μια παράµετρος που χρησιµοποιεί η Mascot είναι η Βάση εδοµένων στην οποία θα γίνει η αναζήτηση της πρωτεΐνης. Ο ερευνητής δηλαδή ορίζει σε ποια Βάση 75

θα διασπαστούν υπολογιστικά οι πρωτεΐνες για το σχηµατισµό πεπτιδίων. Η επιλογή της παραµέτρου βασίζεται στον οργανισµό που έχει µελετηθεί, καθώς ορισµένες Βάσεις παρουσιάζουν ειδίκευση σε κάποιους οργανισµούς. Αυτή η παράµετρος στην εφαρµογή PeptideFinder δεν υπάρχει καθώς, όπως έχει ήδη εξηγηθεί, έχουν επεξεργαστεί οι πρωτεΐνες της SwissProt και τα πεπτίδια που έχουν προκύψει έχουν αποθηκευτεί στην OREA Βάση και στο repository archive. Αφού ο ερευνητής ορίζει τη Βάση εδοµένων, θα πρέπει να ορίσει και το ένζυµο µε το οποίο θα διασπαστούν υπολογιστικά οι πρωτεΐνες. Συνήθως ορίζεται η τρυπσίνη γιατί αυτό το ένζυµο συµµετέχει στα περισσότερα πειράµατα. Σε περίπτωση που δεν οριστεί κάποιο ένζυµο τότε οι πρωτεΐνες διασπώνται υπολογιστικά σε όλα τα πιθανά πεπτίδια, όπως έχει γίνει και στην εφαρµογή PeptideFinder. Για µια πρωτεΐνη µε Ν αµινοξέα, προκύπτουν προσεγγιστικά Ν/10 πεπτίδια µε τη χρήση της τρυπσίνης, σε σύγκριση µε τα Ν(Ν+1)/2 πιθανά πεπτίδια που προκύπτουν χωρίς τη χρήση κάποιου ενζύµου. Είναι φανερό λοιπόν πόσο αυξάνεται η πολυπλοκότητα του προβλήµατος χωρίς τη χρήση ενζύµου. Μια άλλη παράµετρος είναι η επιλογή του οργανισµού. Μπορεί να επιλεγεί ένας οργανισµός συγκεκριµένα, όπως ο άνθρωπος (Homo sapiens-human), ή πιο γενικά µια κατηγορία οργανισµών όπως είναι τα θηλαστικά (mammals). Αυτή η επιλογή µειώνει τον αριθµό των πρωτεϊνών που θα επεξεργαστούν από τη Βάση σε αυτές που ανήκουν στον οργανισµό που επιλέχθηκε. Η διαφορά µε το PeptideFinder είναι ότι οι οργανισµοί που είναι διαθέσιµοι, είναι συγκεκριµένοι και δεν υπάρχει η δυνατότητα επιλογής µιας πιο γενικής κατηγορίας οργανισµών. Ο χρήστης επίσης ορίζει αν οι πειραµατικές τιµές µάζας είναι µέσης τιµής (average) ή µονοϊσοτοπικές (monoisotopic). Η παρουσία των ισοτόπων κάνει απαραίτητο τον ορισµό αυτόν, όπου η µέση τιµή ισοδυναµεί µε την κεντρική τιµή του φακέλου (envelope) της ισοτοπικής κατανοµής και η µονοϊσοτοπική τιµή είναι η µάζα της πρώτης κορυφής στην κατανοµή (Σχήµα 5.2). Για τις πρωτεΐνες και τα πεπτίδια η διαφορά µεταξύ των δυο τιµών είναι περίπου 0.06%. Αυτή η επιλογή δεν υπάρχει στην παρούσα εφαρµογή, καθώς όλες οι µάζες έχουν τη µονοϊσοτοπική τιµή. Η Mascot όπως και άλλες εφαρµογές υποστηρίζει δυο ειδών τροποποιήσεις στις πρωτεΐνες που µπορούν να γίνουν υπολογιστικά. Οι σταθερές (fixed modifications) και οι µεταβλητές (variable modifications). Με τις σταθερές τροποποιήσεις δεν αλλάζει το µέγεθος των υπολογισµών, απλά χρησιµοποιείται διαφορετική τιµή για τη µάζα των αµινοξέων. Για παράδειγµα αν επιλεγεί 76

Carboxymethyl (C) αυτό σηµαίνει ότι όλοι οι υπολογισµοί θα γίνουν µε 161Da για την µάζα της κυστεϊνης. Για τις µεταβλητές τροποποιήσεις η Mascot ελέγχει όλες τις πιθανές διατάξεις ώστε να βρεί το καλύτερο ταίριασµα. Για παράδειγµα εάν επιλεγεί η Oxidation (M) τότε για ένα πεπτίδιο που έχει 3 µεθυονίνες, η Mascot θα ελέγξει για το ίδιο πεπτίδιο µε 0,1,2 ή 3 οξειδιωµένες µεθυονίνες [14,18]. Εποµένως η χρήση των variable modification πρέπει να γίνεται µόνο όταν κρίνεται απαραίτητο διότι αυξάνει σηµαντικά την υπολογιστική πολυπλοκότητα. Σχήµα 6.2: Μέση τιµή µάζας και µονοϊσοτοπική σε µια ισοτοπική κατανοµή. Η πρώτη κορυφή αντιστοιχεί στον 12 C, η αµέσως επόµενη σε ένα 13 C, η επόµενη σε δυο 13 C κ.κ. Οι κορυφές απέχουν 1 dalton. Η παράµετρος Peptide Tol. (tolerance) δηλώνει ένα εύρος λάθους που έχει γίνει στις πειραµατικές µετρήσεις µάζας πεπτιδίων. Η παράµετρος αυτή δε πρέπει να συγχέεται µε την MS/MS Tol. που είναι το εύρος λάθους για τις µάζες των ιόντων που προκύπτουν από τα πεπτίδια µε MS/MS ανάλυση. Η επιλογή για Peptide Tol. υπάρχει και στο PeptideFinder και λειτουργεί µε τον ίδιο τρόπο, όµως η MS/MS Tol. δε χρησιµοποιείται καθώς στην παρούσα εφαρµογή δεν έχει γίνει ανάλυση των πεπτιδίων σε πιθανά ιόντα. Επίσης η παράµετρος Peptide charge δηλώνει το φορτίο των πεπτιδίων όπου Mr είναι η επιλογή για το ουδέτερο, 1+ (MH+) είναι απλά θετικά φορτισµένο, 2+ είναι διπλά θετικά φορτισµένο κ.κ. Οµοίως ούτε αυτή η παράµετρος χρησιµοποιείται στο PeptideFinder διότι δεν έχουν υπολογιστεί τα ιόντα των πεπτιδίων. Το εργαλείο µε το οποίο έχουν προκύψει τα πειραµατικά αποτελέσµατα αποτελεί και αυτό µια παράµετρο. Ουσιαστικά προσδιορίζεται η µέθοδος µε την οποία πειραµατικά έχουν διασπαστεί οι πρωτεΐνες. Συνήθως επιλέγεται το MALDI- TOF. Στην παρούσα εφαρµογή δεν γίνεται επιλογή του εργαλείου που 77

χρησιµοποιήθηκε καθώς οι πρωτεΐνες έχουν διασπαστεί υπολογιστικά σε όλα τα πιθανά πεπτίδια. Μια άλλη σηµαντική παράµετρος που χρησιµοποιείται σε πολλές εφαρµογές είναι τα missed cleavages. Αυτή η παράµετρος είναι µια τιµή που εκφράζει πόσα αµινοξέα δε χώρισαν σωστά στον πειραµατικό διαχωρισµό της πρωτεΐνης σε πεπτίδια. Η τιµή µηδέν(0) δηλαδή δηλώνει ότι ο διαχωρισµός έγινε σωστά και κάθε πεπτίδιο έχει το σωστό µήκος, ενώ η τιµή ένα(1) δηλώνει ότι κάποιο πεπτίδιο έχει ένα παραπάνω ή ένα λιγότερο αµινοξύ. Οι συνιστάµενες τιµές είναι 1 µε 2 missed cleavages, καθώς µεγαλύτερες τιµές αυξάνουν τον αριθµό των πεπτιδικών µαζών που θα συγκριθούν µε τα πειραµατικά δεδοµένα, αυξάνει τα ταιριάσµατα που βασίζονται σε τυχαία πεπτίδια και έτσι µειώνεται η αξιοπιστία των αποτελεσµάτων. Αυτή η παράµετρος δεν είναι διαθέσιµη στο PeptideFinder γιατί υπάρχουν όλα τα πιθανά πεπτίδια καταχωρηµένα ανάλογα µε το µοριακό τους βάρος. Έτσι ανεξάρτητα από τα missed cleavages, για ένα συγκεκριµένο µοριακό βάρος υπάρχουν τα υποψήφια πεπτίδια τα οποία έχουν διαφορετικό µήκος. Επίσης η παράµετρος αυτή µπορεί να ελεγχθεί από τον προσδιορισµό των πεπτιδικών ακολουθιών του PeptideFinder µε χρήση regular expression όπως [RK].?$ ή το [RK].{0,1}$ που σηµαίνει ότι το πεπτίδιο τελειώνει µε αργινίνη (R) ή λυσίνη (K) και ένα ή κανένα αµινοξύ για ένα missed cleavage και [RK].{0,2}$ για δυο missed cleavage. Σε κάποιες εφαρµογές υπάρχει ο περιορισµός του µοριακού βάρους της πρωτεΐνης. Στη Mascot η παράµετρος αυτή παίρνει την µέγιστη τιµή του µοριακού βάρους µιας πρωτεΐνης. Σε µια αναζήτηση δηλαδή από τις υποψήφιες πρωτεΐνες που θα προκύψουν θα επιλεγούν αυτές που έχουν µικρότερο µοριακό βάρος από αυτό που ορίζει η παράµετρος. Στη παρούσα εφαρµογή υπάρχει η δυνατότητα να επιλεγεί ένα προτιµώµενο εύρος µοριακού βάρους πρωτεΐνης που αυτό σηµαίνει ότι θα εξεταστούν µόνο τα πεπτίδια που προέρχονται από πρωτεΐνη η οποία έχει µοριακό βάρος µέσα στα επιθυµητά όρια. Με αυτόν τον τρόπο, ελέγχοντας το µοριακό βάρος της πρωτεΐνης, ελέγχεται και το µέγεθός της εποµένως µπορεί να περιοριστεί το στατιστικό λάθος. Ως πειραµατικά δεδοµένα εισόδου, οι εφαρµογές δέχονται µια λίστα µε τις µέγιστες τιµές των µοριακών βαρών. Αυτή η λίστα συνήθως εισάγεται µε αρχεία mgf (Mascot generic format), Sequest dta αρχεία, btdx (Bruker Daltonics), mzxml που ορίστηκε από το Ινστιτούτο της Συστεµικής Βιολογίας στο Seattle, τα Finnigan asc 78

αρχεία κ.α. ή τα µοριακά βάρη εισάγονται µε το χέρι από τον χρήστη, µαζί µε τις παραµέτρους της έντασης που φαίνεται στο φάσµα. Οι εφαρµογές δέχονται τα ίδια δεδοµένα εισόδου και παρόµοιες παραµέτρους έτσι ώστε τελικά τα αποτελέσµατά τους είναι συγκρίσιµα. Χρησιµοποιούν µια στρατηγική η οποία αποτελείται από δυο βήµατα. Στο πρώτο βήµα γίνεται µια αναζήτηση στη Βάση εδοµένων µε τις σηµαντικές παραµέτρους ώστε να αποµονωθούν οι υποψήφιες πρωτεΐνες του δείγµατος και στη συνέχεια εφαρµόζεται το δεύτερο βήµα µε τις λιγότερο σηµαντικές παραµέτρους στις πρωτεΐνες που έχουν επιλεγεί από το πρώτο βήµα. Στο δεύτερο βήµα εφαρµόζονται τα missed cleavages και τα πιθανά modifications. Στο PeptideFinder αυτή η ιδέα των δυο βηµάτων είναι παρούσα. Η εφαρµογή κάνει µια αναζήτηση στη Βάση εδοµένων για να ξεχωρίσει τα πιθανά πεπτίδια που έχουν ένα συγκεκριµένο µοριακό βάρος και στη συνέχεια εφαρµόζονται οι υπόλοιπες παράµετροι για την επιλογή των κατάλληλων πεπτιδίων. Όλες οι εφαρµογές αξιολογούν τα αποτελέσµατα που προκύπτουν µε την χρήση ειδικών αλγορίθµων. Αυτοί οι αλγόριθµοι (scoring algorithms) βαθµολογούν τα αποτελέσµατα ανάλογα µε το ποια περιέχουν το χαµηλότερο στατιστικό λάθος, ώστε να περιοριστούν τα αποτελέσµατα που προκύπτουν τυχαία. Οι αλγόριθµοι αυτοί όπως ο MOWSE (MolecularWeightSEarch) της Mascot, ο OLAV της Phenyx, o KSDP της pfind κ.α. χρησιµοποιούν τις φυσικοχηµικές ιδιότητες των πεπτιδίων και των πρωτεϊνών σε συνδυασµό µε στατιστικά µοντέλα, όπου ορίζεται ένα κατώφλι (threshold) πάνω από το οποίο το ταίριασµα είναι σωστό. Οι υπολογισµοί γίνονται µε βάση τα e-values (expectation value) και p-values. Τα e-values εκφράζουν τον αριθµό των ταιριασµάτων που προκύπτουν τυχαία στη Βάση σε σχέση µε το µέγεθός της. Όσο πιο µικρή είναι η τιµή του e-value, τόσο πιο µεγάλο είναι το score, εποµένως αυξάνεται η αξιοπιστία του αποτελέσµατος. Η p-value εκφράζει την πιθανότητα να ακυρωθεί η µηδενική υπόθεση (Η 0 ) και εξαρτάται από το µέγεθος του χώρου αναζήτησης καθώς ένα ταίριασµα είναι περισσότερο πιθανό να είναι τυχαίο σε ένα µεγάλο σύνολο ακολουθιών [8,14]. Για παράδειγµα ο MOWSE χρησιµοποιεί τον τύπο Score= -10*log 10 (p) και η εφαρµογή X!Tandem το Bayesian µοντέλο. Τελικά. τα scores που υπολογίζουν οι διάφοροι αλγόριθµοι για τις πρωτεΐνες δεν είναι µεταξύ τους συγκρίσιµα, όµως η αξιοπιστία τους µπορεί να συγκριθεί. Η εφαρµογή PeptideFinder δε χρησιµοποιεί τις φυσικοχηµικές ιδιότητες των πεπτιδίων και των πρωτεϊνών στην αναζήτησή της, πέρα από το µοριακό βάρος και το ισοηλεκτρικό σηµείο. Για τον λόγο αυτό, έχει υιοθετηθεί ένας αλγόριθµος πιο απλός 79

από τις άλλες εφαρµογές οι οποίες χρησιµοποιούν φορτία ιόντων στις µετρήσεις τους. Ο αλγόριθµος της εφαρµογής, όπως έχει ήδη αναφερθεί, υπολογίζει µια τιµή για κάθε πεπτίδιο και πρωτεΐνη ανάλογα µε το µοριακό τους βάρος που αποτελεί µια ένδειξη για το µέγεθος της ακολουθίας τους. Μια µεγάλη πρωτεΐνη ή ένα µικρό πεπτίδιο θα προκαλεί µεγαλύτερο στατιστικό σφάλµα από µια µικρότερη πρωτεΐνη ή ένα µεγαλύτερο πεπτίδιο. Ένα πεπτίδιο µήκους µεγαλύτερο από 6 αµινοξέα µπορεί να θεωρηθεί αντιπροσωπευτικό για µια πρωτεΐνη [7,14]. Για να αξιολογηθεί το PeptideFinder, χρησιµοποιήθηκαν πειραµατικά δεδοµένα από το εργαλείο MALDI-TOF του Ιδρύµατος Ιατροβιολογικών Ερευνών της Ακαδηµίας Αθηνών. Το εργαλείο επεξεργάστηκε γνωστές πρωτεΐνες και τα αποτελέσµατά τους χρησιµοποιήθηκαν ως δεδοµένα εισόδου στην εφαρµογή. Με την διάσπαση της κλαστερίνης και της α-1 αντιτρυπσίνης του ανθρώπου από την τρυπσίνη, προέκυψαν πεπτίδια των οποίων το µοριακό βάρος µετρήθηκε από το εργαλείο. Στη συνέχεια η λίστα µε τα µοριακά βάρη των πεπτιδίων εισήχθηκε στην εφαρµογή και συµπληρώθηκαν οι κατάλληλες παράµετροι. Όπως έχει ήδη φανεί στο Σχήµα 4.8 χρησιµοποιήθηκε για την κλαστερίνη εύρος λάθους 0.02 και εύρος µοριακού βάρους πρωτεΐνης από 1 µέχρι 100kDa. Επιλέχθηκε ο ανθρώπινος οργανισµός και σαν έκφραση ακολουθίας το [RK]$ που σηµαίνει ότι τα πεπτίδια της υποψήφιας πρωτεΐνης τελειώνουν σε αργινίνη (R) ή λυσίνη (K). Αυτός ο περιορισµός έχει χρησιµοποιηθεί διότι η τρυπσίνη κόβει τις πρωτεΐνες εκεί όπου υπάρχει R ή K. Τα πρώτα 3 αποτελέσµατα από τα 50 που ζητήθηκε να εµφανίσει η εφαρµογή φαίνονται στο Σχήµα 5.9 µε πρώτη υποψήφια πρωτεΐνη την κλαστερίνη µε AC ίσο µε P10909 η οποία έχει το µεγαλύτερο score (31.1) και τα περισσότερα matches (11). Ο χρόνος απόκρισης της εφαρµογής ήταν περίπου 10sec. Στον παρακάτω πίνακα φαίνονται τα µοριακά βάρη που χρησιµοποιήθηκαν στην εφαρµογή από τον MALDI- TOF για την κλαστερίνη και την α-1 αντιτρυπσίνη. Κλαστερίνη Α-1 Αντιτρυπσίνη Α-1 Αντιτρυπσίνη Α-1 Αντιτρυπσίνη Α-1 Αντιτρυπσίνη 906.51 909.49 1219.68 1760.72 2477.18 953.46 921.42 1235.66 1778.73 2502.16 969.43 935.44 1246.58 1792.73 2573.37 1074.57 949.46 1249.59 1802.93 2962.50 1116.58 1007.50 1251.68 1824.91 3147.65 1204.51 1014.60 1262.57 1832.89 3160.70 1221.49 1033.51 1274.66 1840.93 3164.58 1239.52 1036.59 1278.63 1846.91 1244.67 1062.11 1285.65 1854.94 80

1255.50 1062.96 1286.65 1856.94 1269.61 1077.51 1288.68 1870.96 1287.63 1089.55 1290.67 1890.84 1443.73 1091.54 1292.74 1904.87 1457.73 1103.57 1332.75 1943.05 1574.83 1109.59 1354.73 2010.89 1729.83 1116.52 1402.68 2056.93 1761.82 1119.57 1405.68 2070.95 1871.82 1121.56 1418.68 2089.11 1872.98 1123.59 1461.70 2161.11 1887.83 1131.55 1478.72 2175.13 1903.82 1135.58 1490.73 2185.02 1998.96 1193.47 1512.70 2195.47 2024.85 1198.63 1544.78 2199.05 2077.94 1203.68 1640.83 2232.09 2195.44 1205.63 1654.85 2243.51 2232.09 1208.57 1681.93 2274.16 2313.18 1215.62 1734.74 2313.17 Πίνακας 6.1: Τα µοριακά βάρη που χρησιµοποιήθηκαν στην εφαρµογή από τον MALDI-TOF για την κλαστερίνη και την α-1 αντιτρυπσίνη. Όσον αφορά την α-1 αντιτρυπσίνη χρησιµοποιήθηκαν για δεδοµένα εισόδου τα 88 µοριακά βάρη που φαίνονται στον Πίνακα 6.1 µε παραµέτρους πάλι 0.02 εύρος λάθους και έκφραση ακολουθίας [RK]$. Έχει επιλεγεί εύρος µοριακού βάρους των πρωτεϊνών από 40 µέχρι 50 kda και τα αποτελέσµατα φαίνονται στα Σχήµα 6.3. Από τα µοριακά βάρη που ζητήθηκαν από την OREA Βάση, δε βρέθηκαν τα παρακάτω. Κάποια από αυτά τα µοριακά βάρη που δε βρέθηκαν, προέκυψαν από το εύρος λάθους που έχει επιλεγεί. 1062.09 1062.96 1062.10 1062.97 1062.11 1062.98 1062.12 2195.47 1062.13 2195.48 1062.94 2195.49 1062.95 2243.53 Στα αποτελέσµατα η πρωτεΐνη P01009 έχει τα περισσότερα ταιριάσµατα και µεγαλύτερο score. Από τα 88 µοριακά βάρη που εισήχθησαν µε 0.02 εύρος λάθους, αναζητήθηκαν 440 µοριακά βάρη τελικά στη Βάση και από αυτά τα 24 βρέθηκαν στη πρώτη πρωτεΐνη µε score 75.9%. Από τους συνδέσµους στη στήλη Protein βρίσκεται ότι η εν λόγω πρωτεΐνη είναι η α-1 αντιτρυπσίνη και από τους συνδέσµους στη στήλη Detailed Molecular Weights matched, µπορεί να βρεθεί το πεπτίδιο που έχει το συγκεκριµένο µοριακό βάρος και η θέση του µέσα στην ακολουθία της πρωτεΐνης. Ο χρόνος απόκρισης της εφαρµογής σε αυτήν την περίπτωση είναι λιγότερο από ένα λεπτό και αυτό δικαιολογείται από τον µεγάλο αριθµό (440) των µοριακών βαρών 81

που πρέπει να ελέγξει σε σχέση µε την αναζήτηση της κλαστερίνης όπου εισήχθησαν 27 µοριακά βάρη µε εύρος λάθους 0.02daltons, δηλαδή η αναζήτηση έγινε σε αυτήν την περίπτωση σε 135 µοριακά βάρη. Ένα άλλο σηµαντικό σηµείο είναι η επιλογή των ορίων του µοριακού βάρους της πρωτεΐνης. Αν επιλεγόταν µεγαλύτερο εύρος µοριακού βάρους, τότε θα εξετάζονταν και µεγαλύτερες πρωτεΐνες, γεγονός που θα αύξανε την πιθανότητα για τυχαία αποτελέσµατα. Σχήµα 6.3: Τα αποτελέσµατα του PeptideFinder µε την αναζήτηση των 88 µοριακών βαρών µε εύρος λάθους 0.02, έκφραση ακολουθίας [RK]$ και εύρος µοριακού βάρους των πρωτεϊνών από 40 µέχρι 50kDa. Η πρώτη προτεινόµενη πρωτεΐνη είναι η α-1 αντιτρυπσίνη µε 24 matches και score 75.9%. Εποµένως µε την κατάλληλη χρήση των παραµέτρων, το PeprtideFinder είναι µια αξιόλογη εφαρµογή ή οποία έχει στηθεί πάνω σε µια διαφορετική λογική σε σχέση µε τις υπόλοιπες εφαρµογές. Αντί να διασπώνται κάθε φορά υπολογιστικά οι πρωτεΐνες µιας επιλεγµένης Βάσης εδοµένων σε πεπτίδια, οι πρωτεΐνες της Swiss- Prot έχουν ήδη διασπαστεί σε όλα τα πιθανά πεπτίδια τα οποία στη συνέχεια αποθηκεύονται στην OREA Βάση εδοµένων της εφαρµογής και στο repository archive. Το PeptideFinder είναι µια γρήγορη εφαρµογή, µε φιλικό περιβάλλον η οποία µπορεί να χρησιµοποιηθεί από τους ερευνητές σε συνδυασµό µε τις άλλες εφαρµογές που κάνουν ταυτοποίηση πρωτεϊνών. Επίσης για τους ερευνητές υπάρχει διαθέσιµη πληροφορία για την ακολουθία όλων των πιθανών πεπτιδίων που έχουν ένα συγκεκριµένο µοριακό βάρος. Τα πεπτίδια αυτά µπορούν να βρεθούν σε ποια πρωτεΐνη ανήκουν και να συγκριθεί η θέση τους µέσα στην ακολουθία της πρωτεΐνης. Για να είναι πιο ολοκληρωµένη η παρούσα εφαρµογή θα πρέπει να συνεχιστεί η επεξεργασία των πρωτεϊνών της Swiss-Prot και για άλλους συχνά εµφανιζόµενους 82