ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ. Η γλ(άσσα πβ^γβαμματισμί^ Jaya για εφαρμογές Βιοίτληροφορικιίςκαι, Βιοιατρικής



Σχετικά έγγραφα
...ακολουθώντας τη ροή... ένα ημερολόγιο εμψύχωσης

Οι 21 όροι του Λένιν

Δαλιάνη Δήμητρα Λίζας Δημήτρης Μπακομήτρου Ελευθερία Ντουφεξιάδης Βαγγέλης

Τοποθέτηση Δημάρχου Γ. Πατούλη. για τεχνικό πρόγραμμα 2010

ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Σοφία Γιουρούκου, Ψυχολόγος Συνθετική Ψυχοθεραπεύτρια

Ασυντήρητες και επικίνδυνες οικοδομές

Συνοπτική Παρουσίαση. Ελλάδα

ΠΑΡΟΥΣΙΑΣΗ ΚΑΙ ΚΡΙΤΙΚΗ ΒΙΒΑΙΟΥ

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΟΥ

ΑΝΑΚΥΚΛΩΣΗ ΤΗΓΑΝΕΛΑΙΟΥ ΓΙΑΤΙ - ΠΩΣ - ΠΟΤΕ

KATATAΞH APΘPΩN. 6. Αρχές της προσφοράς και προμήθειας, ανθρώπινων ιστών και/ ή κυττάρων

ΕΘΙΜΑ ΤΟΥ ΚΟΣΜΟΥ. Αγγελική Περιστέρη Α 2

Το ρολόι που κρατάς στα χέρια σου κρύβει ένα μυστικό: το μυστικό της κόκκινης ομάδας. Αν είσαι αρκετά τολμηρός, μπορείς κι εσύ να ενημερωθείς για τα

Το Μουσείο των Βαλκανικών Πολέμων στη Γέφυρα και ο Οθωμανός αρχιστράτηγος Χασάν Ταχσίν πασά

Προδημοσιεύτηκαν τα τέσσερις πρώτα προγράμματα του νέου ΕΣΠΑ που αφορούν

Από το ξεκίνημά του ο ΤΙΤΑΝ εκφράζει

Στεκόμαστε αλληλέγγυοι σ όσους, ατομικά ή συλλογικά επανακτούν αυτά που νόμιμα μας κλέβουν οι εξουσιαστές.

ΚΩ ΙΚΑΣ ΕΟΝΤΟΛΟΓΙΑΣ ΤΗΣ ΕΤΑΙΡΕΙΑΣ ΜΕ ΤΗΝ ΕΠΩΝΥΜΙΑ «ΠΑΠΟΥΤΣΑΝΗΣ ΑΝΩΝΥΜΗ ΒΙΟΜΗΧΑΝΙΚΗ ΚΑΙ ΕΜΠΟΡΙΚΗ ΕΤΑΙΡΕΙΑ ΚΑΤΑΝΑΛΩΤΙΚΩΝ ΑΓΑΘΩΝ»

Αρωματικά φυτά της Ελλάδας

ΑΥΓΟΥΣΤΟΣ 2008 ΥΠΟΜΝΗΜΑ ΤΗΣ ΚΕΝΤΡΙΚΗΣ ΕΝΩΣΗΣ ΕΠΙΜΕΛΗΤΗΡΙΩΝ ΕΛΛΑΔΟΣ ΑΡΧΗΓΟ ΤΗΣ ΑΞΙΩΜΑΤΙΚΗΣ ΑΝΤΙΠΟΛΙΤΕΥΣΗΣ ΚΑΙ ΠΡΟΕΔΡΟ ΤΟΥ ΠΑΣΟΚ

Ομιλία του ημάρχου Αμαρουσίου, Προέδρου Ιατρικού Συλλόγου Αθηνών. Γιώργου Πατούλη, στην εκδήλωση μνήμης στον Ιωάννη Πασαλίδη

Επίσηµη Εφηµερίδα της Ευρωπαϊκής Ένωσης. (Νομοθετικές πράξεις) ΑΠΟΦΑΣΕΙΣ

Πρόγραμμα Σπουδών για το "Νέο Σχολείο"

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΝΟΜΟΣ ΗΡΑΚΛΕΙΟΥ ΔΗΜΟΣ ΓΑΖΙΟΥ

Α. ΟΡΓΑΝΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΕΦΑΡΜΟΓΗΣ

ΤΙΜΟΛΟΓΙΟ ΜΕΛΕΤΗΣ ΑΡ. ΜΕΛ.:. ΔΗΜΟΣ: ΚΑΡΥΣΤΟΥ ΕΡΓΟ: ΤΕΧΝΙΚΗ ΜΕΛΕΤΗ ΤΟΥ ΕΡΓΟΥ ΓΙΑ ΤΗΝ ΑΠΟΚΑΤΑΣΤΑΣΗ ΤΟΥ ΧΑΔΑ ΣΤΗ ΘΕΣΗ ΠΕΤΑΛΟ Δ.Δ.

Όταν το μάθημα της πληροφορικής γίνεται ανθρωποκεντρικό μπορεί να αφορά και την εφηβεία.

Πρακτικό εργαλείο. για την ταυτοποίηση πρώτου επιπέδου των θυμάτων παράνομης διακίνησης και εμπορίας. τη σεξουαλική εκμετάλλευση

Η Ψυχοπαθολογία του Πολιτικού Του Φ.Μωρόγιαννη *

ΔΕΛΤΙΟ ΤΥΠΟΥ. Ελλείψεις στο φορολογικό νομοσχέδιο. Σοβαρές ελλείψεις στη νέα μορφή του φορολογικού νομοσχεδίου

Κατερίνα Παναγοπούλου: Δημιουργώντας κοινωνικό κεφάλαιο την εποχή της κρίσης

ΘΕΣΕΙΣ ΠΡΟΤΑΣΕΙΣ ΠΡΟΤΕΡΑΙΟΤΗΤΕΣ

Ο κόσμος μέσα από τα μάτια μιας κουζίνας. 2. Ορεκτικά με θαλασσινά

ΕΝΗΜΕΡΩΤΙΚΟ ΈΓΓΡΑΦΟ Σ.Ε.Ε.Δ.Δ.Ε. ΟΙ ΕΠΙΒΑΡΥΝΣΕΙΣ ΤΟΥ ΝΕΟΥ ΦΟΡΟΛΟΓΙΚΟΥ

ΠΡΟΣΛΗΨΕΙΣ ΚΑΙ ΕΙΚΟΝΕΣ ΤΗΣ ΕΛΛΑΔΑΣ

ΗΛΙΟΠΡΟΣΤΑΣΙΑ ΑΥΤΟΣΚΙΑΣΜΟΣ ΤΟΥ ΚΤΗΡΙΑΚΟΥ ΚΕΛΥΦΟΥΣ

ΠΡΟΣΩ ΟΛΟΤΑΧΩΣ! ΑΝΑΓΕΝΝΗΣΗ ΤΗΣ ΕΛΛΑΔΑΣ

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΔΙΔΑΓΜΕΝΟ ΚΕΙΜΕΝΟ

Ευρετήριο πινάκων. Ασκήσεις και υπομνήματα

ΔΕΛΤΙΟ ΤΥΠΟΥ. Ακολουθεί ολόκληρη η τοποθέτηση - παρέμβαση του Υπουργού Δ.Μ.&Η.Δ.

ΧΙΙΙ Επιτροπή Εκπαιδευτικής Υπηρεσίας

Η ΑΥΤΕΠΑΓΓΕΛΤΗ ΑΝΑΖΗΤΗΣΗ ΔΙΚΑΙΟΛΟΓΗΤΙΚΩΝ ΜΙΑ ΚΡΙΤΙΚΗ ΑΠΟΤΙΜΗΣΗ. ( Διοικητική Ενημέρωση, τ.51, Οκτώβριος Νοέμβριος Δεκέμβριος 2009)

Όμιλος Λογοτεχνίας. Δράκογλου Αναστασία, Κιννά Πασχαλίνα

ενεργοί πολίτες για τη Μήλο οι θέσεις μας Υποψηφιότητα Αντώνη Καβαλιέρου δημοτικές εκλογές

Ρόδος και Αίγυπτος : λίκνα ευεργετισμού. Ματούλα Τομαρά-Σιδέρη

Το«Δέντρο της Ελευθερίας» μέσα από τη Χάρτα του Ρήγα Φεραίου και τα ιστορικά γεγονότα της εποχής του

Επίσηµη Εφηµερίδα αριθ. C 372 της 09/12/1997 σ

ΑΒΒΑΣ ΚΑΣΣΙΑΝΟΣ, ΜΙΑ ΑΓΝΩΣΤΗ ΠΑΤΕΡΙΚΗ ΜΟΡΦΗ ΤΗΣ ΦΙΛΟΚΑΛΙΑΣ ΚΑΙ Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΓΙΑ ΤΗΝ ΚΑΤΑΠΟΛΕΜΗΣΗ ΤΩΝ ΘΑΝΑΣΙΜΩΝ ΠΑΘΩΝ

ΛΑΪΟΝΙΣΜΟΣ ΧΡΙΣΤΙΑΝΙΣΜΟΣ ΜΙΑ ΠΑΡΑΛΛΗΛΗ ΠΟΡΕΙΑ

Πρόγραμμα Κοινωνικών Δεξιοτήτων Δεκεμβρίου

«Φιλολογικό» Φροντιστήριο Επαναληπτικό διαγώνισμα στη Νεοελληνική Γλώσσα. Ενδεικτικές απαντήσεις. Περιθωριοποίηση μαθητών από μαθητές!

Τζων Λοκ ( ) (Άγγλος φιλόσοφος) Ο κύριος εκπρόσωπος της Εμπειριοκρατίας ηγέτης του Αγγλικού Διαφωτισμού.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΔΙΕΘΝΩΝ ΚΑΙ ΕΥΡΩΠΑΪΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΙΣ ΔΙΕΘΝΕΙΣ ΚΑΙ ΕΥΡΩΠΑΪΚΕΣ ΣΠΟΥΔΕΣ

ΑΠΟΚΑΤΑΣΤΑΣΗ ΚΑΙ ΕΠΑΝΑΧΡΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΟΥ ΧΑΝΙΟΥ ΤΟΥ ΙΜΠΡΑΗΜ ΚΩΔΙΚΟΣ ΔΙΑΓΩΝΙΖΟΜΕΝΟΥ: 12234

Δρ.ΠΟΛΥΚΑΡΠΟΣ ΕΥΡΙΠΙΔΟΥ

Ασφάλεια στις εργασίες κοπής μετάλλων

Στις 22 Σεπτεμβρίου 1937, περί την δεκάτην πρωινήν, ο διευθυντής του ξενοδοχείου «Κεντρικόν» στην Κόρινθο χτύπησε την πόρτα του δωματίου όπου την

Το ολοκαύτωμα της Κάσου

ΝΟΕΜΒΡΙΟΣ Άλλος ένας μήνας εμπειριών, γνώσης και παιχνιδιού

ΕΛΑΦΡΙΕΣ ΜΕΤΑΛΛΙΚΕΣ ΚΑΤΑΣΚΕΥΕΣ ΣΥΝΤΑΚΤΗΣ: ΝΑΝΣΥ ΣΑΚΚΑ

«Πολιτική του συστήματος των πόλεων στο Βυζάντιο»

ΣΥΖΗΤΗΣΗ ΝΟΜΟΣΧΕΔΙΟΥ ΥΠ.ΓΕΩΡΓΙΑΣ

ΚΕΦΑΛΑΙΟ 3 ο ΤΟ ΜΕΛΛΟΝ ΤΗΣ ΕΥΡΩΠΑΪΚΗΣ ΕΝΩΣΗΣ. 3.1 Εισαγωγή

ΘΕΜΑΤΑ ΚΑΝΟΝΙΣΜΩΝ ΒΙΒΛΙΟ ΠΕΡΙΠΤΩΣΕΩΝ ΠΕΡΙΕΧΟΜΕΝΑ

Το σύμπαν μέσα στο οποίο αναδύεστε

Εσωτερικοί Κανονισμοί Τοπικής Αυτοδιοίκησης

ΣΥΝΕΝΤΕΥΞΗ ΤΥΠΟΥ. Η ολοκληρωμένη προσέγγιση θα εφαρμοστεί με τα παρακάτω Εργαλεία

Το συνέδριο σας πραγματοποιείται σε μια εξαιρετικά δύσκολη συγκυρία για τον τόπο, την οικονομία της χώρας, την κοινωνία και τον κόσμο της εργασίας.

ΠΑΡΑΡΤΗΜΑ 7 ΔΙΑΔΙΚΑΣΙΕΣ ΠΑΡΟΧΗΣ ΔΙΑΣΥΝΔΕΣΗΣ

Κος ΓΚΑΙΤΛΙΧ: Ευχαριστώ πολύ κυρία Πρόεδρε. Θα επιχειρήσω μέσα σε περίπου 10 με 15 λεπτά να συνοψίσω αυτά που συζητήθηκαν στο δικό μας workshop, το

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ

Η παρακμή του εργατικού κινήματος είναι μια διαδικασία που έχει ήδη διαρκέσει. πολλά χρόνια, τώρα ζούμε τα επεισόδια του τέλους της.

ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΩ ΥΠΕΡ Η ΚΑΤΑ ΤΗΣ ΧΡΗΣΗΣ ΤΩΝ ΣΥΜΒΑΤΙΚΩΝ ΤΖΑΚΙΩΝ ΚΑΙ ΤΗΣ ΚΑΥΣΗΣ ΞΥΛΕΙΑΣ ΓΙΑ ΟΙΚΙΑΚΉ ΘΕΡΜΑΝΣΗ

Βιοπολιτική: Μία Νέα Διάσταση της Έννοιας του Κέρδους

Θεσμικό Πλαίσιο Παιδαγωγικές Δράσεις. Υποστηρικτικό Περιβάλλον στα Προγράμματα Αγωγής Υγείας. Παραδείγματα και Προτάσεις Ορθών Πρακτικών

ΔΗΜΗΤΡΑ ΠΑΠΑΖΩΤΟΥ ΧΡΥΣΑΝΘΗ-ΣΟΦΙΑ ΠΛΑΚΑ ΑΝΤΙΓΟΝΗ ΤΣΑΡΑ

Το έγγραφο αυτό συνιστά βοήθημα τεκμηρίωσης και δεν δεσμεύει τα κοινοτικά όργανα

Αυτός που δεν μπορεί να δει τα μικρά πράγματα είναι τυφλός και για τα μεγαλύτερα. (Κομφούκιος, πχ)

Ενώνουμε δυνάμεις. Δείγματα Γραφής. Δυναμικά μπροστά ΑΝΔΡΕΑΣ Ζ. ΚΥΠΡΙΑΝΟΥ. Βουλευτής

Το παρόν έγγραφο αποτελεί απλώς βοήθημα τεκμηρίωσης και τα θεσμικά όργανα δεν αναλαμβάνουν καμία ευθύνη για το περιεχόμενό του

ΙΕΘΝΗΣ ΣΥΜΒΑΣΗ ΕΡΓΑΣΙΑΣ 183 «για την αναθεώρηση της (αναθεωρηµένης) σύµβασης για την προστασία της µητρότητας,»

ΠΟΛΗ ΚΑΙ ΧΩΡΟΣ ΑΠΟ ΤΟΝ 20 Ο ΣΤΟΝ 21 Ο ΑΙΩΝΑ

ΕΡΓΑΣΙΑ ΣΤΗ ΝΕΟΕΛΛΗΝΙΚΗ ΛΟΓΟΤΕΧΝΙΑ

ΔΙΑΔΟΣΗ ΘΕΡΜΟΤΗΤΑΣ Φυσική Β' Γυμνασίου. Επιμέλεια: Ιωάννης Γιαμνιαδάκης

ΚΩΔΙΚΑΣ ΔΕΟΝΤΟΛΟΓΙΑΣ

ΔΤ Το Ινστιτούτο Προστασίας Καταναλωτών Κρήτης καταγγέλλει στην κοινωνία

Σεπτέμβριος 2011: Εφημερίδα μηνός Αυγούστου, έκδ. 34 η

Kεντρικός συντονισμός πολιτικών, μόνιμοι υφυπουργοί, μείωση ειδικών συμβούλων, κατάργηση αναπληρωτών.

Οι υψηλότερες βαθμολογίες πρόσβασης των μαθητών μας ανά μάθημα

γραμματισμό των νηπίων

ΣΥΓΚΡΙΣΗ ΣΥΜΒΑΤΙΚΗΣ ΚΑΙ ΜΗΧΑΝΟΠΟΙΗΜΕΝΗΣ ΜΕΘΟΔΟΥ ΣΠΟΡΑΣ ΚΑΙ ΜΕΤΑΦΥΤΕΥΣΗΣ ΣΠΟΡΟΦΥΤΩΝ ΛΑΧΑΝΙΚΩΝ

ΣΧΟΛΙΚΟ ΕΤΟΣ

Για να αρχίσει η λειτουργία του κινητήρα, θα πρέπει με εξωτερική παροχή ισχύος να προκαλέσουμε την αρχική περιστροφή του.

Ιστορία του Αραβοϊσλαμικού Πολιτισμού

ΤΙΜΟΛΟΓΙΟ ΤΕΥΧΗ ΔΗΜΟΠΡΑΤΗΣΗΣ ΤΙΜΟΛΟΓΙΟ ΜΕΛΕΤΗΣ

Ο συγγραφέας χρησιμοποιεί συνδυασμό μεθόδων για την ανάπτυξη της έβδομης παραγράφου.

Ατομικό ιστορικό νηπίου

ΠΡΟΒΛΗΜΑΤΑ ΤΗΣ ΔΗΜΟΣΙΑΣ ΖΩΗΣ, ΜΙΑ ΨΥΧΑΝΑΛΥΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

Καλωσόρισμα επισήμων. Κυρίες και κύριοι,

Transcript:

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ Η γλ(άσσα πβ^γβαμματισμί^ Jaya για εφαρμογές Βιοίτληροφορικιίςκαι, Βιοιατρικής

Περιεχόμενα Εισαγωγή...4 Παρελθόν και Ιστορία... 4 Διασυνδετικά στοιχεία και πρότυπα (Interfaces and standards)...5 Η Java σαν ένα πρότυπο (Platform)... 6 Το μέλλον...6 Πρόλογος...8 Κεφάλαιο 1 Εισαγωγή στη Βιοπληροφορική και στη Java Η καταγωγή της Βιοπληροφορικής......14 Η σύγχρονη Βιοιατρική έρευνα......16 cabig. Το πρόγραμμα Cancer Biomedical Informatics Grid...20 Η οργάνωση και αρχιτεκτονική του cabig... 21 Model-View-Controller Framework...24 Web Services and Service-Orientated Architecture...24 CaGrid... 26 CaArray... 29 CaWorkbench...32 Rproteomics... 33 cpath...34 CaTissue Core, catissue Clinical Annotation Engine and caties...34 catissuecore... 35 Σύνοψη...37 Κεφάλαιο 2 Εισαγωγή στο Blast...39 Ο σκοπός του BLAST... 39 Κάνοντας μια ανάλυση BLAST... 41

Αναπτύσσοντας την εφαρμογή SwingBlast...45 Σχεδιάζοντας την εφαρμογή SwingBlast Java...48 Μοντέλο Java Event...50 Προσθέτοντας events σε μια εφαρμογή...51 Σχεδιάζοντας το SwingBlast GUI...53 Κωδικοποιώντας το SwingBlast GUI... 61 Κωδκοποιώντας το SwingBlast Business Logic...65 Καθορίζοντας τον τύπο της ακολουθίας (Nucleotide ή Protein)... 70 Παρουσιάζοντας έγκυρες επιλογές BLAST... 84 Περίληψη κεφαλαίου...106 Πηγές...107

Εισαγωγή Η επιστήμη της βιοπληροφορικής βρίσκεται σ ενα σταυροδρόμι. Εργαζόμαστε σ εναν κλάδο που αλλάζει καθημερινά και μετακινείται από συγκεκριμένες λύσεις που δίνονται από μεμονωμένους ερευνητές που εργάζονται είτε μόνοι τους είτε σε μικρές ομάδες εργασίας, σε μεγάλα, συχνά γεψγραφικά διασκορπισμένα προογράμματα, που καθιστούνται δυνατα λόγω του collaborative computing και open software. To βιβλίο αυτό παρουσιάζει μια σημαντική εξέλιξη, δίνοντας στον αναγνώστη την ευκαιρία να ανακαλύψει πως η χρήση του ανοιχτού και επαναχρησιμοποιούμενου κώδικα Java, μπορεί να δώσει λύσεις σε προβλήματα σχετικά με τη βιοπληροφορική με έναν τρόπο εύρωστο. Εργάζομαι με έναν από τους συγραφείς αυτού του βιβλίου σε καθημερινή βάση σε ένα project cabig (National Cancer Institute s cancer Biomedical Informatics Grid) και μπορώ να μαρτυρήσω πως είναι σε θέση να μοιραστούν με τους αναγνώστες τους τόσο τις εμπειρίες τους στην εξέλιξη και στη χρήση του λογοσμικού της βιοπληροφορικής όσο και το ενδιαφέρον τους για ένα ισχυρό λογισμικό μηχανολογίας καθώς και το ενδιαφέρον τους για τη διαλειτουργηκότητα (interoperability) Παρελθόν και Ιστορία Στη σύντομη ιστορία της η βιοπληροφορική έχει γίνει ένα αυξανόμενα σημαντικό κομμάτι στο πως οι επιστήμονες που εμπλέκονται στη βιολογική έρευνα προχωρούν στη δουλειά τους. Το γεγονός αυτό έχει οδηγήσει σε μια έκρηξη ενδιαφέροντος για το θέμα, καθώς επίσης και μια παρόμοια έκρηξη σε αριθμό εργαλείων και πηγών δεδομένων για τους ερευνήτες τα οποία μπορούν να χρησιμοποιήσουν στη δουλειά τους. Ιστορικά, τα εργαλεία για τη βιοπληροφορική είναι ιδιοσυγκρασιακά (idiosyncratic) και ανεπτυγμένα με έναν επαναληπτικό τρόπο σύμφωνα με τις συνήθειες των τελικών χρηστών (ή αυτών κοντά σ αυτούς) εώς ότου ένα συγκεκριμένο πρόβλημα να λυθεί. Αυτό έχει οδηγήσει στη χρήση κάποιων πληροφοριακών συστημάτων από συγκεκριμένα ιδρύματα και για συγκεκριμένες εφαρμογές. Η τάση αυτή έχει αρχίσει να αλλάζει με ομάδες μέσα στην ερευνητική κοινότητα που αναπτύσσουν κανόνες/σταθερές και μοντέλα δεδομένων σε περιοχές έρευνας που ποικίλουν από gene expression arrays σε pathways και proteomics. Με μια ποικιλία από καινούριες λογισμικές ικανότητες και ένα συνεχώς αυξανόμενο ενδιαφέρον για διαλειτουργικά εργαλεία και κανόνες.

αυτοί που ασχολούνται με τη βιοπληροφορική έχουν ένα διαρκώς αυξανόμενο κουτί εργαλειών από το οποίο αντλούν δεδομένα για την ανάτπυξη μιας βασικής δομής λογισμικού που διέπει τη δουλειά τους. Παρόμοια με το αυξανόμενο ενδιαφέρον στην κοινωνία της βιοιατρικής πληροφορικής για τη χρήση σωστά οριζόμενων μεθοδολογιών μηχανολογικού λογισμικού και τομών σπουδών όπως design patterns και model-driven architecture, το λογισμικό που αναπτύχθηκε εκεί θα διαρκέσει περισσότερο, θα είναι ευκολότερο να διατηρηθεί, θα ενισχύσει τη λειτουργηκότητα και την επαλαμβανόμενη χρήση και θα είναι πιο ισχυρό και αποτελεσματικό ως προς το κόστος. Διασυνδετικά στοιχεία και πρότυπα (Interfaces and standards) Διασυνδετικά στοιχεία καθώς και η χρήση καλά καθορισμένων αρχών ανάπτυξης επιτρέπουν σ αυτούς που ασχολούνται με τη βιοπληροφορικη να λύσουν προβλήματα γρηγορότερα, με λιγότερες γραμμές επαναχρησιμοποιούμενου κώδικα από ότι πριν. Με πρόσβαση και μελέτη των καλά καθορισμένων αρχών της μηχανολογίας λογισμικού και της πληροφορικής οι λύσεις στα προβλήματα της βιοιατρικής πληροφορικής θα είναι επίσης πιο ισχυρά και πιο αισιόδοξα σχεδιασμένα. Με το συνεχώς αυξανόμενο μέγεθος των δεδομένων που χρησιμοποιούνται στη βιομοριακή πληροφορική, που αντλούνται από όλα τα είδη τεχνολογιών και βάσεων δεδομένων από το διαδύκτιο, είναι πολύ σημαντική η χρήση επαρκών και καλά καθορισμένων αλγορίθμων στην ανάλυση δεδομένων. Οι φοιτητές πληροφορικής οι οποίοι θα μπορέσουν να αποκωδικοποιήσουν περίπλοκα και σημαντικά μοντέλα, για τα οποία υπάρχουν αντίστοιχα, έγκυρα και προυπάρχοντα αντικείμενα λογισμικού θα ανταμοιφθούν επαρκώς για τις προσπθειές τους. Η ισορροπία μεταξύ προσπάθειας και όφελους μπορεί να επιτευχθεί με τη δημιουργία σωστά υποστηριζόμενων λογισμικών προτύπων χρησιμοποιώντας καθιερωμένες και δοκιμασμένες μεθόδους.

Η Java σαν ένα πρότυπο (Platform) Το βιβλίο αυτό θα σας διδάξει τρόπος να χρησιμοποήσετε τη γλώσσα προγραμματισμού Java σας ένα πρότυπο για τη δουλειά σας στη βιοιατική πληροφορική και κάνοντας το θα δωθεί η δυνατότητα χρήσης μιας ποικιλίας από αντικείμενα λογισμικού που χρησιμοποιούνται μέσα στην τεράστεια κοινωνία λογισμικού και πληροφορικής. Η Java δεν είναι φυσιά το μοναδικό μοντέλο που είναι κατάλληλο για τη βιοιατρική. Η perl είναι επίσης καθιερωμένη, η C++ και πολλές άλλες. Το μάθημα που θα σας διδαχθεί με τη Java είναι εφαρμόσιμο σε οποιαδήποτε σύστημα και η Java αποδεικνύεται ότι έιναι μια ισχυρή πλατφόρμα για εργασία μέσα στην κοινωνία της πληροφορικής. Στο cabig project που εγώ και ο Harshawardhan αποτελούμε κομμάτι του, η Java είναι μια απο τις βασικές γλώσσες προγραμματισμού που χρησιμοιποιιείται. Συνεπώς υπάρχει μεγάλη υποδομή διαθέσιμη στη μορφή του open-source κώδικα και πηγών ανοιχτού περιεχομένου που είναι διαθέσιμα για τους πολυάσχολούς μελετητές, σοβαρούς φοιτητές ή άλλους ενδιαφερομένους. Το τελευταίο κεφάλαιο στο βιβλίο αυτό δίνει λεπτομέρειες στο πως να συνδέσετε και να κάνετε χρήση αυτών των πηγών για να λύσετε δικά σας προγράμματα πληροφορικής. Το μέλλον Με τις προσπάθειες της παγκόσμιας κοινωνίας των μελετητών της βιοιατρικής πληροφορικής, και με την επικράτηση του διαδυκτίου, έχει γίνει δυνατό για κάθε ενδιαφερόμενο πρόσωπο να μάθει αρκετά για τη βιολογία, μηχανολογία λογισμικού, πληροφορική, και να συνεισφέρει σημαντικά στην αναφαινόμενη επιστήμη της πληροφορικής. Με την ποσότητα των διαθέσιμών ανεπεξέργατων βιολογικών δεδομένων να αυξάνεται καθημεριν, υπάρχει ένας λόγος να πιστεύετε πως μπορείτε να συνεισφέρεται και εσείς επίσης, και το βιβλίο που κρατάτε στα χέρια σας είναι ένας πολύ καλός τρόπος να ξεκινήσετε. Καλό ταξίδι!!

Mark Adams Program Manager NCI Cancer Bimedical Informatics Grid (cabig) Booz Allen Hamilton Rockville, MD

Πρόλογος Στις 5 Απριλίου 2003, το International Human Genome Sequencing Consortium (IHGSC), ένας σύνδεσμος από εργαστήρια παγκοσμίως που είχε προηγουμένως αναλάβει το Human Genome project, επισήμως αναοίνωσε την ολοκλήρωση ενός κολοσσιαίου έργουν που είχαν ξεκινήσει να εκπληρώσουν: την ακολουθία και συγκέντρωση 3 δισεκατομμυρίων βάσεων που αποτελούν το ανθρώπινο γονίδιο. Αυτό ήταν ένα ορόσημο επίτευγμα για την επιστήμη και ιατρική. Σήμερα, η λέξη γονίδιο είναι ένας πασίγνωστος όρος κα μαζί με την βιοιατρική έχουν αλλάξει το πως προσεγγίζουμε τη βιοιατρική έρευνα. Το ανθρώπινο γονιδιακό project έχει οδηγήσει στην αναγνώριση χιλιάδων ασθενιών των γονιδίων και άνοιξαν το δρόμο για την ανάπτυξη καινούριων φρμάκων και θεραπειών. Αναμφισβήτητα, η ακολουθία ανθρώπινων και άλλων γονιδίων είναι η αρχή μιας επανάστασης που ξεδιπλώνεται ακριβώς μπροστά στα μάτια μας. Κινούμαστε προς μια παραδειγματική αλλαγή στην ιατρική, από μια just-in-time θεραπεία που παρέχεται μετά την εκδληλωση των συμτπωμάτων σε μια προβλέψιμη και προσωποιημένη θεραπεία όπου ο προσδιορισμός των γενετικών παραγόντων επηρεάζουν/προδιαθέτουν κάποιον άνθρωπο σε μια ασθένεια γίνεται ακριβώς στη γέννα και η θεραπεία ξεκινά πριν την εκδήλωση της ασθένειας. Υπάρχει επίσης μια σημαντική αλλαγή στο πως η βιοιατρική έρευνα πραγματοποιείται και χρματοδοτείται στα χρόνια που έρχονται, ειδικότερα σε περιοχές έρευνας όπως καρκίνος, καρδιακές παθήσεις όπου υπάρχει ανάγκη για νέες και καλύτερες θεραπείες για τους ασθενείς. Ο καρκίνος έχει ξεπεράσει την καρδιά και είναι η νούμερο 1 θανατηφόρα ασθένεια στην Αγγλία και Αμερική και έχει ανανωριστεί από τον Παγκόσμιο Οργανισμό Υγείας σαν ένα μέγιστο πρόβλημα υγείας παγκοσμίως. Για να ανταποκριθεί σ αυτήν την προόληση, το Εθνικό Ινστιτούτο Καρκίνου της Αμερικής έχει ξεκινήσει από το 2003 το μεγαλύτερο συνεταιριστικό ερευνητικό πρόγραμμα που ονομάζεται cabig. Σύμφωνα με τα λεγάμενα του διοικητή του NCI, Dr Andrew Von Eschenbach, το cabig θα γίνει το παγκόσμιο δίκτυο στην καρκινική έρευνα και θα επιταχύνει τν ανάπτυξή συναρπαστικών ανακαλύψεων σε όλες τις δομές της καρκινικής

έρευνας. Επομένως ο στόχος του είναι να μειώσει τον πόνο και τον αριθμό των θανόντων μέχρι το 2015. Αυτό ενισχύεται από τις προσπάθειες των περίπου 50 καρκινικών κέντρων του NCI, των ερευνητικών εργαστηρίων, των πανεπιστημίων καθώς και των δημόσιων και ιδιωτικών ιδρυμάτων της χώρας. Που βρίσκεται λοιπόν η J2EE σ αυτήν την ισχύουσα εικόνα; Η "επιχείρηση της ιατρικής έρευνας εξαρτάται από τεχνλογίες οι οποίες παρέχουν την κατάλληλη υποδομή ώστε να διασφαλιστεί η ασφάλεια των δεδομένων των ασθενών. Η Java έχει διαπιστωθεί πως έιναι μια δυναμική γλώσσα προγραμματιμού για την ανάπτυξη ασφαλών, αναρριχήσημη και εύρωστη εφαρμογή και συγκεκριμένα ιδιαίτερα κατάλληλη για τη δημιουργία πολλών αλληλοσχετιζόμενων συστατικών στοιχείων της γεωγραφικά διασκορπισμένης μηχανής της βιοιατρικής έρευνας και επιστήμης. Μαζί με την υποστήριξη από open resource standards, η J2EE έχει πολλά πλεονεκτήματα για τη δημιουργία τέτοιων εφαρμογών και είναι η βασική πλατφόρμα για τη εκπλήρωση προσπαθείων που είναι μέρος του cabig προγράμματος. Αλλά γιατί τώρα; Ερχόμαστε αντιμέτωποι με αυτή την ερώτηση σχετικά νωρίς μέσα σ αυτό το βιβλίο. Η απάντηση βρίσκεται στον τρόπο με τον οποίο η βιοιατρική έρευνα αλλάζει την τελευταία δεκαετία περίπου και έτσι δίνει υποσχέσεις και ελπίδες για αλλαγή του τρόπου με τον οποίο παρέχεται φροντίδα στους ασθενείς. Το cabig βασίζεται στις αρχές των "ανοιχτών πηγών, "ανοιχτής πρόσβασής καγανοιχτής ανάπτυξης. Το cabig είναι ίσως το επόμενο ορόσημο στην ιστορία της βιοιατρικής έρευνας. Επομένως ήρθε ο καιρός για μια πιο προσεκτική ματιά στο J2EE, στις τεχνολογίες open source, με τρόπο που να συνδιάζει αρχές σχεδίου, βιοπληροφορική, γονιδιακή, μηχανολογικό λογισμικό και καρκινική έρευνα. Το βιβλίο αυτό είναι μια προσπάθεια να εκπληρωθεί η παραπάνω βασική ανάγκη. Το βασικό στοιχείο που διαφοροποιεί αυτό το βιβλίο είναι το ότι επικεντρώνεται στη δημιουργία και ενοποίηση πρακτικών και χρήσιμων για τη επιστημονική κοινότητα εργαλείων με σκοπό να αντιμετωπίσουν προβλήματα που οι ερευνητές αντιμετωπίζουν σε καθημερινή βάση. Το βιβλίο αναμοχλεύει τεχνολογίες για μοριακή βιολογία, για βιοπληροφορική, κλινική έρυνα, και

10 καρκινική έρευνα που αναπτύχθηκαν από το National Cancer Institute for Bioinformatics, το National Centre for Biotechnology Information καθώς και πολλοί άλλοι ερευνητικοί οργανισμοί. Το βιβλίο ξεκινάει με μια γενική επισκόπηση της κατάστασης της βιοιατρικής έρευνας σήμερα καθώς και τις προκλήσεις που αντιμετωπίζει λόγω του μοντέλου έρευνας που διαιωνίζεται τις τελευταίες δεκαετίες στα πανεπιστήμια και τα ερευνητικά κέντρα ανά τον κόσμο. Επίσης παρέχει μια επισκόπηση των αρχιτεκτονικών τάσεων που αναφαίνονται τελευταία όπως τα Web Services και η Service orientated Architecture. To βιβλίο δεν ασχολείται μόνο με την J2EE αλλά και με τις εφαρμογές της που χρησιμοποιούνται για τη δημιουργία χρήσιμου λογισμικού. Επίσης το βιβλίο δεν κολλάει στις θεωρητικές πλευρές της γλώσσας η την πλατφόρμα. Οι συγγραφείς (όπως επίσης και οι αναγνώστες) αναγνωρίζουν ότι κάποιες πολύ σημαντικές δουλειές πάνω στο θέμα έχουν ήδη γίνει. Αντίθετα, η μοναδικότητα αυτού του βιβλίου εγκείται στο γεγονός ότι μετά την εισαγωγή, κάνει μια προσπάθεια να δείξει πως να δημιουργηθούν λειτουργικές γραφικές user interfaces για κοινά και ευρέως διαδεδομένα εργαλεία της βιοπληροφορικής που οι περισσότεροι ερευνητές γνωρίζουν και τα θεωρουν αναντικατάστατα για κάθε είδους ερευνητική δραστηριότητα. Ο αναγνώστης καθοδηγείται μέσω μιας σοφής και αυξητικής προσέγγισης για την ανάπτυξη λογισμικού με δυο στόχους: να παρουσιάσει μια συστηματική standard software engineering προσέγγιση στην ανάπτυξη εφαρμογών και να δραστηριοποιήσει μια διαδικάσία σχεδιασμού η οποία στοχεύει στην εξερεύνηση τρόπων για να βελτιωθεί η λειτουργηκότητα και η χρησιμότητα της για τους end-users. Οι εφαρμογές που θεωρούνται ραχοκοκαλιά της σύγχρονης genomic και βιοπληροφορικής έρευνας όπως το basic local alignment search tool (blast), to Genscan gene prediction tool και άλλα χρησιμοποιούντα για να επεξηγήσουν αυτή τη διαδικασία. Ο αναγνώστης θα παρατηρήσει ένα σημαντικό αριθμό κωδικών σε αυτό το βιβλίο. Παρά το γεγονός ότι υπάρχουν πολλοί τρόποι να δώσεις λύσεις σε κάποιο συγκεκριμένο πρόβλημα, εμείς έχουμε παρουσιάσει μια μόνο προσέγγιση ενθαρινοντας ταυτόχρονα τους χρήστες να χτίσουν τη δική τους λύση. Για να γίνει αυτό, έχουμε προσπαθήσει να προωθήσουμε την επαναχρηση δοκιμασμένων και τεσταρισμένων κωδικών από ήδη υπάρχουσες βιβλιοθήκες λογισμικούν όπως το Apache, BioJava, cabig και άλλα.

11 Ένα άλλο χαρακτηριστικό που διαφοροποιεί αυτό το βιβλίο και έχει περιγραφθεί πόλύ καλά από έναν απο τους κριτικούς του είναι ότι κάνει μια σταδιακή και εφαρμοσμένη προσέγγιση να συνδιάσει την Java με τη βιοπληροφορική." Αυτή η δήλωση στην πραγματικότητα παρουσιάζει το πλαίσιο της στρατηγηκής μας. Έχουμε επίσης αφιερώσει λίγο χρόνο στην περιγραφή χαρακτηριστικών και στοιχείων κάποιων προγραμμάτων για τα οποία ήδη υπάρχει καλή και εύκολα προσβάσιμη τεκμηρίωση. Η προσέγγιση μας επίσης σκοπεύει να δημιουργήσει αγωγούς εκεί όπου οι δύο εφαρμογές συνδέονται μεταξύ τους με λογικά workflows τα οποία οι ερευνητές χρησιμοποιούν στα εευνητικά τους περιβάλλοντα για να δημιουργήσουν μια βελτιωμένη εφαρμογή που θα έχει περισσότερη χρησιμότητα από άλλες μεμωνομένες εφαρμογές. Το βιβίο αυτό δεν επιδιώκει να γίνει η επιτομή του J2EE. Αντίθετα, έχει σχεδιαστεί να καλύψει κάποια από τα βασικά θέματα τα οποία τα συναντούμε συχνά σ αυτό τον κλάδο. Είναι ευχή οτί μια πιο συγκεντρωμένη προσέγγιση θα οδηγήσει σε καλύτερη και πιο ξεκάθαρη κατανόηση των βασικών δυνατοτήτων αυτής της πλατφόρμας και αυτό θα επιτευχθεί με μια πιο εκτενή αντιμετώπιση αυτού του θέματος που θα καλύπτει όλες τις πλευρές του. Πραγματικά, η απεραντοσύνη και η πολυπλοκότητα του βιοιατρικού χώρου και το μέγεθος που την επηρρεάζουν η επιστήμη, η τεχνολογία, οι τακτκές και η νομοθεσία είναι ορισμένες φορές εφοβιστική. Οι συγγραφείς αναγωνωρίζουν την πρόκληση του να γράφεις και να ασχολείσαι με ένα τόσο δύσκολο θέμα και εύχονται να αντιμετωπίσουν τα προβλήματα των αναγνωστών, να αναγνωρίσουν κενά και να παράξουν εναν πιο περιεκτικό τίτλο δίνοντας όμως ταυτόχρονα χρόνο στις τεχνολογίες που περιγράφονται σ αυτ ο το βιβλίο καθώς και σε άλλες πέρα από τη σκοπιά αυτού του βιβλίου να ωριμάσουν και να κερδίσουν ευρεία αποδοχή από τους χρήστες. Έχοντας λοιπόν υπ'οψιν αυτό το παρελθόν, το βιβλίο αυτό απευθύνεται σε αποφοίτους των Computer Science ή Information Technology, οι οποίοι επιδιώκουν καριέρα στη δημιουργία λογισμικών για την βιοιατρική. Απευθύνεται επίσης σε επαγγελματίες που εμπλέκονται στη δημιουργία, συντήρηση ή και βελτίωση βιοιατρικού λογισμικού και θέλουν να ακολουθούν τις πιο πρόσφατες τάσεις στην ιατρική και πληροφορική. Τέλος το βιβλίο αυτό θα είναι χρήσιμο για τους μοριακούς βιολόγους, κλινικούς και επιστήμονες που θέλουν να

κατανοήσουν πως οι τεχνολογίες λογισμικού μπορούν να χρησιμοποιηθούν για να λυθούν προβλήματα της σύγχρονης έρευνας. Η δουλειά αυτή δε θα ήταν δυνατόν να ολοκληρωθεί χωρίς κάποιους ανθρώπους που μας βοήθησαν να συγκενρώσουμε και να οργανώσουμε τις σκεψεις μας.ευχαριστούμε τους αρκετούς αρχικούς κριτικούς αυτού του βιβλίου που εκπρωσοπουν ιδιωτικές αλλά και δημόσιες εταιρείες και ερευνητικούς οργανισμούς. Αναμεσα σ'αυτους τους κριτικούς βρίσκονται άνθρωποι από το χώρο οι οποίοι συνδέονται στενά με τις τελευταίες εξελίξεις στην πληροφορική και βιοιατρική και οι οποίοι έχουν εφαμόσει επιτυχώς πρωτοβουλίες όπως το cabig. Ευχαριστούμε τον Dr Mark Adams, τον μάνατζερ του cabig, για την ολόψυχη υποστήριξή του για το βιβλίο αυτό από τα αρχικά του στάδια μέχρι την ολοκλήρωσή του καθώς επίσης και για την επιστημονική του ματιά σχετικά με το μέλλοντης βιοιατρικής όπως αυτό αναφέρεταιι στον πρόλογο αυτού του βιβλίου. Ευχαριστούμε ιδιαίτερα τους ανθρώπους στο Springer και ιδιαίτερα τον Joseph Burns, την Marcia Kidston και την ομάδα τους, για τη βοήθεια τους σε όποιες στιγμές ήταν απαραίτητο. Ευχαριστούμε επίσης τις οικογένειες μας, τόσο τους ενήλικες (τις γυναίκες μας) Nathalie Hujol και Snehal Bal, όσο και τους ανηλίκους, την Arnav Bal, η οποία ήταν μόλις 3 ετών την περίοδο που γραφόταν αυτό το βιβλίο, οι οποίοι συνειδητά αλλά και ασυνείδητα μας επετρεψαν να ζήσουμε αυτήν την περιπέτεια και να αφήσουμε την πραγματική ζωή εξω από τον μικροκοσμό μας για το μεγαλύτερο μέρος του 2005-2006. Σε όλους τους αναγνώστες μας, είτε πρόκειται για απλούς χρήστες είτε για δημιουργούς, βιολόγους, κλινικούς, βιοπληροφορικάριους και άλλου επιστήμονες με την ευχή αυτό το βιβλίο να ανταποκριθεί στο σκοπό για τον οποίο δημιουργήθηκε και ότι θα κάνει μια σκιαγράφηση του γρήγορου και ενδιαφέροντος κόσμού της βιοιατρικής έρευνας. Εμείς δίνουμε σημασία στα σχόλια σας και θα συνεχίσουμε να ενσωματώνουμε τις προτάσεις σας και να δουλευοθμε σκληρά να ανταποκριθούμε στις απαιτήσεις σας καθ όλη τη διάρκει της ζωής αυτού του βιβλιού.

Καλό ταξίδι!!! Harshawardhan Bal Johnny Hujoi Απρίλιος 2006

Κεφάλαιο 1 Εισαγωγή στη Βιοττληροφορική και στη Java Η καταγωγή της Βιοττληροφορικής Στις 15 Απριλίου 2003, το IHGSC, ο σύνδεσμος εργαστηρίων από όλο τον κόσμο που έχει από κοινού αναλάβει το HGP project, ανακοίνωσαν επίσημα την ολοκλήρωση του project καθώς και του κολοσιαίου εγχειρήματος που βρίσκετε στον πυρίνα του: την ακολουθία και τη συγκέντρωση περίπου 3 δις. Βάσεων δεδομένων που αποτελόυν το Homo sapiens (ανθρώπινο) genome. To γεγονός αυτό είναι ένα πραγματικό ορόσημο για την επιστήμη και την Ιατρική. Σύμφωνα με τον James D. Watson, τον πρόεδρο του εργαστηρίου Cold Spring Harbor Ή ολοκλήρωσή του Human Genome Project είναι μια μνημειώδης στιγμή για κάθε άνθρωπο στο κόσμο". Σύμφωνα πάλι με τα λόγια του Elbert Branscom, ιδρυτικού στελέσους του Joint Genome Institute, "θα αντιμετωπίζουμε οτιδήποτε πριν από αυτό σαν τη σκοτεινή εποχή της Βιολογίας. Το HGP project είχε διάφορες επιτπώσεις σε κάθε τομέα της επιστήμης και της Ιατρικής. Σαν αποτέλεμα του HGP, οι επιστήμονες έχουν χαρτογραφήσει τα "ιερογλυφικά του DNA του ανθρώπινου Genome με μια ακρίβεια περίπου 99,9% και έχουν υπολογίσει πως η ανθρώπινη ζωή και οι μοριακοί καθώς και κυπαρικοί της μηχανισμοί προγραμματίζονται από 30.000 περίεργα, ξεχωριστά γονίδια. Το HGP έχει γεννήσει την Βιοπληροφορική-έναν καινούριο επιστημονικό τομέα στο σταυροδρόμι της βιολογίας, ιατρικής και πληροφορικής τεχνολογίας, και επίσης έδωσε ένα κίνητρο για τη γρήγορη ανάπτυξη του τομέα του Genomics and Proteomics. Μαζί με την ακολουθία του ανθρώπινου genome, η ακολουθία των genomes των φυτών και των ζώων όπως : Arabidopsis thaliana, caenorhabditis elegans, Danio rerio, kai Drosophila melanagaster, έχουν οδηγήσει στην ανάπτυξη νέων σημαντικών προσεγγίσεων και τεχνολογιών που υπόσχονται να φέρουν επενάσταση στην Ιατρική. Σε διάστημα μόνο λίγων χρόνων έχουμε κάνει ένα μεγάλο βήμα πιο κοντά σε μια παραδειγματική αλλαγή: από την έγκαιρη Ιατρική, στην οποία η θεραπειά παρέχεται μετά την εμφάνηση των συμτπωμάτων σε μια προγνωστική Ιατρική

15 στην οποία η ευαισθησία κάποιου σε μια ασθένεια μπορεί να χαρτογραφηθεί με τη γέννηση του και να θεραπευθεί πρίν από την εκδήλωση της ασθένειας. Επίσης κατευθυνόμαστε προς σε μια καινούρια αντίληψη στην θεραπεία η οποία ονομάζεται "προσωποποιημένη Ιατρική και είναι αντίθετη με την γενικοποιημένη Ιατρική. Στην προσωποποιημένη Ιατρική, οι ασθενείς λαμβάνουν θεραπεία με φάρμακα σχεδιασμένα να ταιριάζουν στα γενετικά χαρακτηριστικά τους, επομένως αυξάνονται οι πιθανότητες αποτελεσματικής ιθεραπείας και μειώνονται οι πιθανότητες παρενεργείων. Γιατί όμως ένα άτομο ανταποκρίνεται θετικά σε μια συγκεκριμένη θεραπεία ενώ κάποιο άλλο οχι? Γιατί κάποιες γυναίκες εμφανίζουν καρκίνο του μαστολυ ενώ άλλες όχι? Γιατί κάποιοι άνθρωποι είναι πιο ευαίσθητοι στις μολυσματικές ασθένειες από κάοποιους άλλους? Αυτές είναι κάποιες από τις ερωτήσεις που οι βιολόγοι προσπαθούν να καταπιαστούν. Οι επόμενες δεκαετίες για καταναλωθούν σε έρευνες που θα οδηγήσουν σε απαντήσεις στα παραπάνω ερωτήματα. Η ανάγκη να αναλύσουν την τεράστεια ποσότητα γενετικών δεδομένων έχει οδηγήσει στην ανάπτυξη δυναμικώντεχνολογιών οι οπόιες θα επιτρέψουν τους μελετητές να μελετήσουν τους κανονισμούς 10.000 γονιδίων την ίδια στιγμή. Για να είναι έτοιμοι να εκτελέσουν αυτές τις αποστολές, οι επιστήμονες και οι κλινικοί πρέπει να είναι άνετοι με τις βιολογικές και υπολογιστικές πλευρές της βιοπληροφορικής καθώς επίσης και με τις βασικές εφαρμογές της ανεύρεσης, εξαγωγής, οργάνωσης, ανάλυσης και παρουσίασης δεδομένων. Καθώς η perl και άλλες γλώσσες προτιμούνται για την καθημερινή αναλυση βιολογικών δεδομένων, δεν είναι κατάλληλες για τη δημιουργία software επιχειρησιακού επιπέδου. Μια γλώσσα σεχεδιασμού και προγραμματισμού όπως η Java είναι καλύτερη για το σκοπό αυτό. Η επειχηριασιακή έκδοση της Java 2, δίνει τη δυνατότητα για την ανάπτυξη διανεμημένων, πολλαπλών εφαρμογών που μπορούν να αναπτυχθούν αποτελεσματικά και να συνδεθούν στο δίκτυο. Η Java 2 μπορεί να τρέξει σε οποιοδήποτε πρόγραμμα και αυτό γιατί ο Κώδικάς Java καταρίζεται από εναν ενδιάμεσο κώδικα που ονομάζεται byte code, ο οποίος ερμηνεύεται και εκτελείται από το Java runtime environment. Εφόσον λοιπόν το Java runtime environment είναι διαθέσιμο σε οποιοδήποτε πρόγραμμα, όταν ο κώδικας δημιουρηθεί με γλώσσα προγραμματισμού Java, μπορεί να τρεξει σε οποιοδήποτε λειτουργικό πρόγραμμα.

Σ αυτό το κεφάλαιο θα διερευνήσουμε καποιές εφαρμογές της βιοπληροφορικής που έχουν γραφτεί με γλωσσά προγραμματισμού Java, έτσι ώστε να δείξουμε την δύναμη των τεχνολογιών της J2EE στη δημιουργία βιοιατρικού λογισμικού. Συγκεκριμένα θα επικεντρωθούμε σε εφαρμογές που έχουν αναπτυχθεί για την έρευνα της ασθένειας του καρκίνου και οι οπόιες έχουν κερδίσει φήμη μέσα στη βιομηχανία και έχουν ενεργά ενσωματωθεί σε καινοτόμες ερευνητικές πρωτοβουλίες όπως αυτή του Εθνικού Κέντρου Καρκίνου και η οποία ονομάζεται Biomedical Informatics Grid. Για το σκοπό, στο κεφάλαιο αυτό, θα κάνουμε μια εισαγωγή στο cabig και θα δούμε πόσα διαφορετικά εργαλεία και εφαρμογές οι οποίες τώρα δημιουργούνται ή τώρα φέρνονται βοηθούν να λυθούν πολλοί ανασχετικοί παράγοντες στην βιοιατρική έρευνα. Η σύγχρονη Βιοιατρική έρευνα Παραδοσιακά η Βιοιατρική ερευνά γινόταν (και ακόμα γίνεται) σε εργαστήρια ανά τον κόσμο τα οποία ήταν σε σχετική απομόνωση από τα άλλα, ακόμα και αν το θέμα της έρευνας μπορεί να είναι το ίδιο. Παρά το γεγονός οτί αυτή η πρακτική έχει οδηγήσει στην συλλογή πλουσίων πληροφοριών και πολλών σημαντικώ βιοιατρικών ανακαλύψεων, έχει όμως επίσης οδηγήσει στην απομόνωση δεδομένων και ευκολιών που παραμένουν κλειδωμένα είτε σε βάσεις δεδομένων είτε προσβάσιμα μόνο από συγκεκριμλενους ανρθώπους. Επιπλέον, εφόσον η πλειοψηφία των εργαστηρίων έχουν αναπτύξει τις δικές τους λειτουργικές διαδικασίες, μεθοδολογίες και λεξιλόγια τα οποία ανταποκρίνονται στα διά τους ερευνητικά προβλήματα, έχει κατα συνέπεια υπαρξεί το φαινόμενο της έλειψης κανόνων στον τρόπο διεξαγωγής και αναφοράς πειραματικών δεδομένων. Αυτή η έλλειψη κανόνων καθώς επίσης και το οτι κάποια δεδομένα δεν είναι προσβασιμα από την ευρύτερη ερευνητική κοινότητα έχει αποδειχθεί ότι είναι ένα σημαντικό εμπόδιο στην βιοιατρική έρευνα και επηρεάζει άμεσα την δυνατότητα σχεδίασης καλυτέρων και πιο αποτελεσματικών θεραπειών. Ειδικοί επιστήμονες από όλο τον κόσμο συμφωνούν στο ότι η καλύτερη χρήση των ερευνητικών δεδομένων με στόχο την επιτάχυνση της βιοιατρικής έρευνας προς όφελος του ασθενή, μπορεί να επιτευχθεί μεσω της ανοιχτής συνεργασίας και του μοιρασματος δεδομένων. Αυτή η προσέγγιση μειώνει την πιθανότητα διπλής προσπάθειας και έχει σαν αποτέλεσμα την καλύτερη χρήση των

17 υπαρχόντων πηγών πληροφοριών. Το γεγονός αυτό είναι ιδιαίτερα σημαντικό στην μετα-ρβηοπιίο περίοδο. Οι σύγχρονες high-throughput τεχνολογίες έχει δώσει στους ερευνητές τη δύναμη να διερευνούν έμβια συστήματα με ανεπανάλητπη ακρίβεια και βάθος. Αυτό έχει με τη σειρά του οδογήσει στην υιοθέτηση μιας systems προσέγγισης στην έρευνα, με μια αυξουσα τάση στη μελετη τρόπων ζωής, εκατοντάδων και χιλιάδων γονιδίων, καθώς και ολόκληρων οργανισμών σε ένα μόνο πείραμα. Η προσέγγιση όμως αυτή έχει οδηγήσει στην αύξηση ακατέργαστων δεδομένων. Υπάρχει σήμερα μια όλο και αυξανόμενη ανάγκη να συνδεθούν αυτά τα ακατέργαστα δεδομένα με επικοδομητικη γνώση η οποία μπορεί να αποφέρει διορατηκότητα στις διαδικασίες ασενειών. Μια άλλη σημαντική αλλαγή είναι η συνειδητοποίηση πως ένας πιο δυναμικός τρόπος διεξαγωγής έρευνας είναι η ενσωμάτωση δεδομένων από διαφορετικούς τομείς από βασιή έρευνα (βασισμένη στα εραστήρια) ως και κλινική (που επικεντρώνεται σε ασθενείς). Αυτός ο νέος τρόπος που ονομάζεται transiational research απαιτεί προσεγγίσεις από φυσικούς, επιστήμονες, επιστήμονες που ασχολούνται με βιοπλροφορική και στατιστική καθώς και πολλούς άλλους που να δουλευουν μαζί με σκοπό συγκεκριμένα αποτελέσματα. Αυτή η μέθοδος λειτουργίας ενώνει τη μοριακή,κυτταρική, βιοχημική, γενετική βιολογία δίνοντας μια κλινική κατανόηση της ασθένειας που οδηγεί σε πρακτικά συμπεράσματα της βαρύτιμης κληνικής σχετικότητας. Για παράδειγμα, η translational research σχετικά με τον καρκίνο του πνεύμονα μπορεί να περιλαμβάνει μια ομάδα οποία αποτελείται από μοριακούς βιολόγους, υπολογστικούς βιολόγους, βιοχημικούς από τη μια, θωρακικους χειρουργούς, ογκολόγους, και νοσοκόμες απο την άλλη για να καταλάβουν τους βασικούς μηχανισμούς της ασθένειας και να βελτιώσουν τα αποτελέσματα για τον ασθενή. Η βασική ιδέα πίσω από αυτή την προσέγγιση είναι η αφομοίωση οσο το δυνατόν περισσότερων επιβεβαιωμένων στοιχείων για να τεσταριστεί και να επιβεβαιωθεί μια υπόθεση παρά η ενεσχόληση με ξεχωριστά και απομονωμένα κομμάτια ακατέργαστων δεδομένων τα οποία δεν οδηγουν σε με εξετάσιμη υπόθεση. Με τις κατάλληλες νόρμες, διαδικασίες, πρακτικές και τεχνολογίες, ο ερευνητής που ακολουθεί ένα υποσχόμενο παράδειγμα όπως ένα γονίδιο ή μια πρωτεΐνη η οποία είναι πολυσύχναστη σε ένα συγκεκριμένο κυτταρικό πλυθυσμο ή σε ένα μοντέλο εργαστηρίου και θεωρείται ότι παίζει σημαντικό ρόλο στην

πρόκληση μιας ασθένειας, μπορεί να επεκτείνει την ερευνά με σημαντικούς τρόπους κάνοντας: 1) Πειράματα τα οποία αποδεικνύουν ότι εμποδίζοντας την overexpression της βιταμίνης ή εμποδίζοντας ένα συγκεκριμένο βήμα ένος βιοχημικού μονοπατιού αναστέλλονται οι επιτττώσεις της ανόμαλης έκφρασης της πρωτεΐνης η του ασυνήθιστου μονοπατιού. 2) Επιβεβαίωση οτι τα αποτελέσματα μπορούν να διπλογραφούν σε δείγματα βιολογίας-τα οποία είναι δείγματα που αντλούνται από ιστούς από συγκεκριμένα ανθρώπινα όργανα, π.χ ττνευμόνια, αποκτόντας την ίδια παθολογία και χαρακτηριστικά, που κατά συνέπεια επεκτείνουν τα στοιχεία σε πραγματικά δείγματα ασθενών. 3) Επιβεβαίωση οτι η πρωτεΐνη δε βρίσκεται σε φυσιολογικούς μη στοχευμένους ιστούς π.χ συκώτι, νεφρό, για να αποφευχθεί η τοξικότητα λόγω του χημικού παράγοντα που τεστάρεται για παρεμβατική θεραπεία. 4) Αναγνώριση ομάδας ασθενών στους οποίους ταιριάζουν τα στοιχεία της μελέτης και διεξαγωγή θεραπευτικών κλινικών δοκιμών για να τεσταριστεί η επέρκεια γνωστών ή πειραματικών συντελεστών για παρεμβατική θεραπεία. Η υπέρ ή η υπό έκφραση ενός βιομορίου (τυπικά μιας πρωτεΐνης ή ενός γονιδίου)- δηλαδή η παρουσία του σε μεγαλύτερες ή μικρότερες ποσότητες- σε συνθήκες ασθένειας, αναφέρεται γενικά ως διαφορική έκφραση. Η διαφορικά εκφραζόμενη πρωτεΐνη που είναι κάθε φορά υπό έρευνα μπορεί να λειτουργήσει σαν υπογραφή ή σαν αποτύπωμα του υπλανθάνοντα μηχανισμού ασθένειας και είναι η απάντηση ενός εμβυου συστήματος στην αλλαγή που προκύπτει από την ασθένεια ή από άλλο εξωτερικό παράγοντα. Εφόσον λοιπόν είναι ένα σημάδι ή ένας "μαρκαδόρος'' με σημαντικές βιολογικές επιτπώσεις, ονομάζεται biomarker. Οι Biomarkers μπορεί να είναι βιομόρια όπως πεπτίδια, νουκλεικά οξέα, μεταβολίτες, υδατάνθρακες, λιπίδεια των οποίων η συγκέντρωση μπορεί να αυξάνεται ή να μειώνεται κάτω από συγκεκριμένες μη ομαλές συνθήκες. Ένα παράδειγμα Biomarker είναι η χολιστερίνη η οποία συνήθως χρησιμοποιείται

19 στην αναγνώριση κινδύνων της καρδιάς. Οι Biomarkers μπορούν να αναλυθούν με δοκιμασμένες βιολογικές μεθόδους και μπορούν να χρησιμοποιηθούν σαν ένδειξη της κατάστασης μιας ασθένειας στη διαγνωστική καθώς επίσης να καθορίσουν στόχους στην θεραπευτική παρέμβαση. Η εφαρμογή των Biomarkers στη διαγνωστική περιλαμβάνει την ικανότητα διάγνωσης και ελέγχου μια ασθένειας, τη διαστρωμάτωση κινδύνων, την πρόγνωση της ασθένειας, την επιλογή των φαρμάκων, την πρόγνωση της ασφάλειας και της αποτελεσματικότητας, και τον έλεγχο θεραπείας. Η θεραπευτική πλευρά είναι εξίσου σημαντική γιατί οι Biomarkers παρέχουν μια αξιόπιστη ανάγνωση της λειτουργίας των φαρμάκων και της αποτελεσματικότητας της θεραπείας και επομένως καθοδηγεί αποφάσεις στην κλινική ανάπτυξη. Φυσικά αυτό είναι μια υπεραπλουστευμένη αναπαράσταση μιας πραγματικής έρευνας. Ο ερευνητής μπορεί να ξοδέψει μήνες ή ακόμα και χρόνια μελετώντας τις πραγματικές αιτίες μιας ασθένειας μέσα στο εργαστήριο του μειώνοντας άλλους πιθανούς παράγοντες-αιτίες, εξετάζοντας σχολαστικά την σχετική βιβλιογραφία και συγκεντρώνοντας δεδομένα από μελέτες που έχουν γίνει από άλλους ερευνητές, "εξορύσοντας τα διαθέσιμα δεδομένα χρησιμοποιώντας στατιστικούς και αναλυτικούς αλγόριθμους και τέλος επαναλαμβάνοντας κάθε ένα από τα παραπάνω βήματα εώς ότου να δημιουργήσει ένα μοντέλο που να ανταποκρίνεται στα δεδομένα που παρατήρησε στις έρευνές του. Για να πετύχει αυτό το στόχο, ο ερευνητής πρέπει να μπορεί να έχει πρόσβαση στα κατάλληλα εργαλεία έτσι ώστε να μελετήσει τη σχετική έρευνα, να επιβεβαιώσει πως τα δεδομένα του μπορούν να συγκριθούν με άλλα που έχουν προκύψει από άλλες έρευνες που έουν γίνει κάτω από διαφορετικές συνθήκες, να εφαρμόσει τους κατάλληλους χειρισμούς χρησιμοποιώντας τα κατάλληλα εργαλεία, να έχει πρόσβαση σε αυτά τα εργαλεία καθώς επίσης να έχει και τα κατάλληλα μέσα ώστε να μπορεί να αναγνωρίσει ιστούς ή πειραματικά μοντέλα. Αυτός ο τύπος έρευνας μπορεί να πραγματοποιηθεί μονο αν τα δεδομένα, τα μέσα, οι εφαρμογές και οι άνθρωποι συνδέονται μεταξύ τους και είναι προσβασιμοι με συγκεκριμένο τρόπο σε ένα δίκτυο. Αυτή είναι η λογική και η υπόσχεση του προγράμματος cabig από το National Cancer Institute.

cabig. To πρόγραμμα Cancer Biomedical Informatics Grid To cabig ξεκίνησε απο το NCI τον Ιούλιο του 2003 σαν ένα πιλοτικό πρόγραμμα με σκοπό να δημιουργηθεί ένα αλληλοεφαρμόσιμο δίκτυο καρκινικών κέντρων έτσι ώστε να αυξηθεί η συνεργασία και η πρόσβαση δεδομένων μεταξύ των βιοιατρκών επιστημόνων και να βελτιωθούν οι ρυθμοί αύξησης της καρκινικής έρευνας, Ο στόχος του cabig είναι να ενσωματώσει τη βιοπληροφορική, (καρκινική πληροφορική, ιστολογική πληροφορική, και παθολογική πληροφορική) και να δημιουργήσει ένα δίκτυο δεδομένων και ανθρώπων οι οποίοι να μπορούν να μοιράζονται δεδομένα και εργαλεία χωρίς να περιορίζονται από γεωγραφικά όρια. Για να καλύψει τους διάφορους παράγοντες της περίπλοκης καρκινικής έρευνας ανα περιοχή, το cabig χωρίστηκε σε τέσσερα μέρη -Clinical trial management systems. Integrative Cancer Research, In Vivo Imaging, Tissue Banks and Pathology Tools. Με απλά λόγια το cabig προσθέτει τον "ηλεκτρονικό παράγοντα στην καρκινική ερευνά, οδηγόντας στην ηλεκτρονική έρευνα (eresearch) η οποία ενσωματώνει δεδομένα και γνώση από τη βασική έρευνα εώς την κλινική έρευνα. Για να γίνει μια αναλογία με τον όρο e-business που αναφέρεται στην εφαρμογή τεχνολογιών του internet, to cabig στοχεύει στο χτίσιμο υποδομής, διαδικασιών και πρακτικών ώστε: να γίνουν τα δεδομένα των ερευνών από διάφορα ερευνητικά κέντρα προσβασιμα και διαθέσιμα στο διαδύκτιο, να γίνονται ασφαλείς συναλλαγές δεδομένων στα διάφορά δίκτυα, να απαντούνται ερωτήσεις και γενικότερα να βελτιωθεί η μηχανή της καρκινικής έρευνας. Κάνοντας τα καρκινικά δεδομένα διαθέσιμα ηλεκτρονικά μέσω του Internet, βελτιώνεται η ταχύτητα πρόσβασης πληροφοριών, προσφέρεται η ευκαιρία να παγκοσμιοποιηθεί η πρόσβαση και η συναλλαγή δεδομένων και διευκολύνεται η πρόσβαση ακόμα και στα πιο πρόσφατα δεδομένα, μπορούν οι ερευνητές να υιοθετήσουν και γρήγορα να ενσωματώσουν τα πρόσφατα δεδομένα στους σχεδιασμούς των πειραμάτων τους και πάνω απ ολα να ανταποκρίπονται γρηγορότερα σε βασικές ανάγκες ασθενών και να παρέχουν υπήρεσίες υψηλής ποιότητας. Ενώ υπάρχουν ομοιότητες ανάμεσα στα δεδομένα βιοιατρικής έρευνας και επιχειρισιακά (business) δεδομένα, θα μπορούσαμε να πούμε ότι διαφέρουν σε πολλά, κυριώς σε ότι αφορά δεδομένα σχετιζόμενα με ιατρικές πληροφορίες ασθενών. Το cabig επομένως πρέπει να δημιουργήσει αυτήν την υποδομή

21 ηλεκτρονικής έρευνας η οποία να είναι αυστηρά σε συμφωνία με τους εφαρμόσιμους κανόνες για την προστασία αυτού που έιναι ευρέως γνωστό ως ατομικά αναγνωρίσιμες πληροφορίες υγείας που μπορούν να συνδεθούν με προσωπικά ιατρικά δεδομένα, τα οποία αν αποκαλυφθούν, υπάρχει ο κίνδυνος της λανθασμένης χρήσης τους. Συγκεκριμένα, ο νόμος του 1996 Health Insurance Portability and Accountability, προστατεύει πληροφορίες σχετικές με την υγεία ασθενών που δημιουργούντα ή συντηρούνται από ανθρώπους που εμπλέκονται σε συγκεκριμένες ηλεκτρονικές συναλλαγές και πλάνα υγείας. Μια λεπτομερής ανάλυση του Health Insurance Portability and Accountability είναι πέρα από τους σκοπούς αυτού του βιβλίου. Αρκεί να ειπωθεί ότι αυτός νόμος δίνει στους ασθενείς δικαιώματα πάνω σε οποιοδήποτε ιατρικό δεδομένο που οι επιστήμονες συλλέγουν στα αρχεία τους και θέτει κανόνες και περιορισμούς σχετικά με το ποιός μπορεί να δεί και να λάβει τις προσωπικές ιατρικές τους πληροφορίες. Η οργάνωση και αρχιτεκτονική του cabig Το cabig έχει γίνει μια μεγάλη επιχείρηση, η οποία αποτελείται από περίπου 70 ξεχωριστά projects, ενώ περισσότεροι από 800 είναι οι συμμετέχοντες από διάφορους ιδιωτικούς και δημόσιους οργανσμούς. Το cabig υποστηρίζει ένα σύμπλεγμα πελατών (ασθενείς, επενδυτές, κλινικούς, ανθρώπους που ασχολούνται με τη βιοπληροφορική), στοιχείων (τόσο κείμενα όσο και εικόνες), υπηρέσιών και αναλυτικών εργαλείών, στο διαδύκτιο όπως επίσης και να διασφαλίσει ότι το πρόγραμμα ανταπκρίνεται στις απαραίτητες προϋποθέσεις απόδοσης και χωριτικότητας. Από το σχεδιασμό τους, τα συστήματα του cabig πρέπει να είναι συμβατά με άλλα συστήματα του διαδυκτίου και να κάνουν τα δεδομένα και τις υπηρεσίες διαθέσιμες ανεξάρτητα από τον τύπου του δικτυακού συστήματος ή τον τύπο της συσκευής που επιχερεί πρόσβαση στις πηγές διαθέτει το cabig. Η ανάγκη για πρόσβαση και διανομή ευαίσθητων κλινικών, φαρμακογενετικών και οικονομικών μέσω του cabig, σημαίνει ότι κατάλληλες τεχνολογίες και πρακτικές πρέπει να τεθούν σε εφαρμογή έτσι ώστε να διασφαλιστεί η μυστικότητα, εμπιστευτικότητα και η ακαιρεότητα των δεδομένων με το να μπλοκάρονται οι μη εγκεκριμένες προσβάσεις. Αυτά είναι μόνο κάποια από τα ζητήματα που κάθιστούν το cabig ένα τόσο περίπλοκο εγχείρημα. Το NCI Centre for Bioinformatics (NCICB), κατέχει ένα σημαντικό ρόλο στη δημιουργία

του cabig και αναπτύσσει με δυναμικούς ρυθμούς εκείνα τα δομικά στοιχεία που χρειάζονται για να ανταποκριθεί σε αυτές τις απαιτήσεις. Πληροφορίες για το δειγματισμό τέτοιων εργαλείων, όπως για παράδειγμα The Common Ontologic Representation Environment (cacore), Software Development Kit (cacore SDK), The Common Security Module (CSM) και πολλών άλλών μπορεί κανείς να τα δεί στον δικτυακό τόπο: http://ncicb.nci.nih.aov/ncicb/infrastructure Πώς μπορεί κάποιος να σχεδιάσει μια ασφαλή και κλιμακώσιμη λύση για μια επιχείρηση τόσο μεγάλη που να καλύπτει όλα τα κομμάτια μιας περίπλοκης και κατανεμημένης σύγχρονης έρευνας και υγιούς περιβάλλοντος, δηλαδή τη βιοϊατρική και κλινική οργάνωση, την υποδομή υπολογιστών, συμπεριλαμβανομένων των αιτήσεων, συστημάτων, διακομιστών, αποθήκευσης και το δίκτυο; Πώς μπορούν να συγκεντρωθούν τα διάφορα δομικά τμήματα ή συστατικά επιχείρησης για να αποδώσουν τις υπηρεσίες και δυνατότητες που απαιτούνται για να εκπληρωθούν οι ανάγκες του βιολογικού κύκλου της ομόσπονδης βιοϊατρικής επιχείρησης; Η παρουσία δεδομένων, υπηρεσιών και εργαλείων με κατανεμημένο τρόπο και η απαίτηση ανταλλαγής δεδσμένων μεταξύ οργανισμών μέσω του διαδικτύου σημαίνει ότι δεν μπορούμε πλέον να αναπτύσσουμε μονολιθικές εφαρμογές με διαπομπές χρήστη που απλά απευθύνονται σε μια βάση δεδομένων υποστήριξης. Αντίθετα η αρχιτεκτονική πρέπει να προσαρμόζει ένα νέο σχέδιο αποτελούμενο από μερικά «στρώματα» ή «βαθμίδες» που μπορεί να βρίσκονται σε διαφορετικές φυσικές μηχανές, να λειτουργούν ανεξάρτητα το ένα από το άλλο και να υπο-εξυπηρετούν συγκεκριμένες λειτουργίες. Ως αποτέλεσμα μπορεί να υπάρχει οποιοσδήποτε αριθμός τέτοιων στρωμάτων και λόγω του λειτουργικού διαχωρισμού που παρέχει η αρχιτεκτονική των στρωμάτων κάθε στρώμα διατηρεί την ξεχωριστή του ταυτότητα και μπορεί να συντηρηθεί αδιαφορώντας για τις λετττομέρειες εφαρμογής άλλων στρωμάτων. Κατά συνέπεια το σχέδιο αυτό παρέχει σε αυτόν που το αναπτύσσει τεράστια ευκολία χρήσης και δυνατότητα συντηρήσεως καθώς ολόκληρες εφαρμογές βαθμίδων μπορούν να διαφοροποιηθούν χωρίς να επηρεαστεί η υπόλοιπη εφαρμογή. Οι χρήστες με τη σειρά τους μπορούν να έχουν πρόσβαση στις απαιτούμενες πηγές με ένα συνεχή και διάφανο τρόπο. Μια τέτοια αρχιτεκτονική ονομάζεται αρχιτεκτονική ν-βαθμίδων. Η αρχιτεκτονική ν- βαθμίδων αποτελείται από μερικές βαθμίδες που πραγματοποιούν τις ακόλουθες λειτουργίες: την παρουσίαση δεδομένων, την άσκηση επιχειρησιακής λογικής και

23 την αποθήκευση δεδομένων. Αυτά αναφέρονται συχνά ως η βαθμίδα παρουσίασης πληροφοριών η επιχειρησιακή βαθμίδα και η βαθμίδα διατήρησης πληροφοριών. Αντίστοιχα το σχήμα 1.1 παρακάτω παρέχει μια γραφική παρουσίαση του μοντέλου αυτού. Σχήμα 1.1. Συστατικά μιας αρχιτεκτονικής ν-βαθμίδων.

Model-View-Controller Framework Μια έννοια που είναι στενά συνδεδεμένη με την αρχιτεκτονική n-tier είναι η σχεδιαστική αρχή που λέγεται Model-View-Controller (MVC). Το MVC συνιστά διαχωρισμό μεταξύ των δεδομένων (Model) του οπτικού στοιχείου (View) και της επικοινωνίαςπου προκύπτει μεταξύ αυτών (Controller). Υπάρχουν πολλά πλεονεκτήματα που προκύπτουν από τη χρήση αυτού του σχεδιασμού. Ο διαχωρισμός των στοιχείων επιτρέπει στους δημιουργούς (developers) να δειγματήσουν μια εφαρμογή και να επικυρώσουν τις απαιτήσεις της γρήγορα. Για παράδειγμα το View μπορεί να 'σχεδιαστεί και να αναπτυχθεί ξεχωριστά χωρίς να επηρρεάζεται ο σχεδιασμός της υπόλοιπης εφαρμογής. Είναι πιθανόν ότι το View θα αλλαχτεί περισσότερες φορές από τα δεδομένα (Model) για να προσαρμόστουν στις προϋποθέσεις των χρηστών που καθοδηγούν (πλοηγούν, navigate) μέσω του User Interface. Επιπλέον, ο τρόπος με τον οποίο εκτελείται το Model, είναι απόλυτα διαυγής στα άλλα μέρη της εφαρμογής. Ο Controller χειρίζεται τις εντολές-δεδομένα που το View λαμβάνει, στη συνέχεια προχωράει στην αναβάθμιση του Model. Ο Controller μπορεί επίσης να ενημερώσει το View να αναβαθμιστεί από μόνο του ή το View μπορεί να γίνει ακροατής (Listener) του Model, στην οποία περίπτωση το View θα αναβαθμίζεται ποιαδήποτε στιγμή το Model ειδοποιεί τον ακροατή του (Listener). Αυτός είναι ο ορισμός του Observer Pattern, όπου το View είναι ο παρατηρητής και το Model το παρατηρήσιμο. Το πιο σημαντικό στο MVC είναι να κρατηθεί ο διαχωρισμός ανάμεσα στο Model και στο View. Web Services and Service-Orientated Architecture H επιχείρηση της Βιοιατρικής χρειάζεται να αλλάξει και από μια μη οργανωμένη συλλογή δεδομένων, εργαλειών και υπηρεσιών να γίνει λειτουργικό, ενοποιημένο μοντέλο που επιτρέπει το σύστημα και τους χρήστες του να αλληλεπιδρούν με διάφορα στοιχεία και να επικαλόυνται διάφορες υπηρεσίες. Με αυτόν τον τρόπο, κάθε μηχανή που βρίσκεται στο διαδύκτιο μπορεί να θεωρηθεί παροχέας μιας συστηματικής, αξιόπιστης και καθορισμένης υπηρεσίας που μπορεί να επιζητηθεί με επαναληπτικό και συγκεκριμένο τρόπο. Το BLAST

Server, που παρέχεται από το National Centre for Biotechnology Information, για παράδειμα παρέχει μια ξεκάθαρη υπηρεσία στο χρήστη - την δυνατότητα να κάνει oμoλoγiες (Homology searches) με δεδομένο νουκλεοτιδίων της αλληλουχίας αμινοξέων. Ο Genscan web server του MIT πανεπιστημίου παρέχει ένα άλλο είδος υπηρεσίας που λέγεται πρόβλεψη γονιδίου (Gene prediction) ή την αναγνώριση ολόκληρων γονιδιακών δομών σε genomic DNA ακολουθίες. Κάποιος μπορεί να φανταστεί πως το World Wide Web, όπως είναι φτιαγμένο από ένα μεγάλο αριθμό τέτοιων υπηρεσιών μπορεί να είναι πρσβάσιμο μέσω σταθερών πρωτοκόλων όπως το HTTP, FTP και άλλα. Κάθε ένα από αυτά τα ξεχωριστά κομμάτια της λειτουργικότητας είναι μια υπηρεσία και σε κάθε περίπτωση ο καταναλωτής (ή χρήστης ή πελάτης) επικοινωνεί και ζητάει υπηρεσίες από έναν παροχέα υπηρεσιών. Ο παροχέας υπηρεσιών με τη σειρά του επικοινωνεί δίνοντας πίσω την υπηρεσία που ζητήθηκε. Αυτές οι δύο συναλλαγές (αίτημα και απάντηση) εκτελούνται χρησιμοποιώντας μηνύματα που και οι δύο πλευρές μπορούν να κατανοήσουν. Η ανταλλαγή μυνημάτων ανάμεσα στις υπηρεσίες μπορεί να γίνει χρησιμοποιώντας το extensible Markup Language (XML). Αυτή είναι η υποκρυτπόμενη ιδέα πίσω αναδυόμενη δικτυακή αρχιτεκτονική που ονομάζεται service-oriented architecture (SOA). Οι ξεχωριστές υπηρεσίες συνδέονται μεταξύ τους χρησιμοποιώντας web services, που καθορίζουν μια ομάδα τεχνολογιών που επιτρέπουν συνδέσεις μεταξύ υπηρεσιών. Οι ξεχωριστές (web) υπηρεσίες είναο αυτό-οριζόμενες, αυτο-περιγραφόμενες εφαρμογές που μπορούν να εκδοθούν,να τοποθετηθούν και να επιζητηθούν μέσα στο διαδύκτιο καθώς επίσης και να ανακαλυφθούν από άλλες εφαρμογές μέσα το διαδύκτιο. Κάθε ένα από αυτά τα χαακτηριστηκά των δικτυακών χαρακτηριστικών καθορίζει ένα απαραίτητα στοιχείο της πλατφόρμας δικτυακών υπηρεσιών: 1) Τον τρόπο επικοινωνίας (πέρασμα μηνύματος και δεδομένων) ανάμεσα στις υπηρεσίες. Αυτό επιτυγχάνεται χρησιμοποιώντας το Simple Object Access Protocol (SOAP) που κοθορίζει έναν ομοιόμορφο τρόπο μεταφοράς HML-κωδικοποιημένων δεδομένων και έναν τρόπο πραγματοποίησης remote procedure calls (RPCs) χρησιμοποιώντας το Hypertext Transfer Protocol (HTTP).

2) Την ικανότητα να τοττοθετούνται δυναμικά άλλες υπηρεσίες χρηιμοποιώντας μια υπηρεσία καταλόγου. Αυτό ονομάζεται Universal Description, Discovery and Integration Service (UDDI). 3) Την ικανότητα να περιγραφεί τί μπορεί να κάνει μια δικτυακή υπηρεσία, που ανήκει και πως να επιζητηθούν. Αυτό μπορεί να επιτευχθεί μέσω της Web Services Definition Language (WSDL). Όπως είναι εμφανές από τα παραπάνω, οι δικτυακές υπηρεσίες πρέπει να χρησιμοποιούν interfaces, βασισμένες σε κοινά πρωτόκολα του διαδικτύου όπως το HTTP και πρέπει να χησιμοποιούν το XML για μηνύματα. Αν και μια μια λεπομερής περιγραφή του SOA είναι πέρα από τους σκοπούς αυτού του βιβλίου, θα δείξουμε όμως πως το cabig αντιμετωπίζει τη διαλειτουργηκότητα και το θέμα της ενοποίησης που περιγράψαμε πιο πάνω. CaGrid Όπως αναφέρθηκε παραπάνω, για να γίνει δυνατή η ανταλαγή δεδομένων και η συνεργασία, οι συμμετέχοντες οργανισμοί χρησιμοποιούν διάφορες τεχνολογίες που το NCICB έχει αναπτύξει τα τελευταία χρόνια. Αυτά περιλαμβάνουν για παράδειγμα το cacore, Cancer Bioinformatics Infrastracture Objects (CaBio) και TO Cancer Data Standards Repository (cadsr). Αυτές oi τεχνολογίες επιτρέπουν ενοποίηση των βιοιατρικών εφαρμογών με μια μεγάη διάταξη απο NCI δεδομένα περιλαμβάνοντας genomic, μοντέλα ζώων και κλινικά δεδομένα. Το NCI έχει επίσης διατυπώσει οδηγίες συμβατότητας να επιβεβαιώσουν ότι οι εφαρμογές που έχουν αναπτυχθεί μέσα στο πρόγραμμα cabig μπορούν να αλληλολειτουργήσουν μεταξύ τους. Οι οδηγίες συμβατότητας του cabig καθιστούν αναγκαία τη χρήση ελεγχόμενων λεξιλογίων και ορισμών, CDE s, σωστά τεκμηριωμένα API και Unified Modeling Language (UML). To cacore, που είναι η βασική πλατφόρμα ανάπτυξης λογισμικού του cabig, επιτρέπει στους χρήστες να δημιουργήσουν συμβατά με το cabig συστήματα χρησιμοποιώντας ένα ενσωματωμένο εργαλείο και δημιουργό κωδικού (code generator). To δικτυωτό πλαίσιο cabigtm ή cagrid βασίζεται στο μοντέλο αρχιτεκτονικής που προσανατολίζεται στην υπηρεσία καθώς και στα ανοικτά πρότυπα όπως την

αρχιτεκτονική ανοικτών δικτυωτών υττηρεσιών (OGSA) ττου δημιουργήθηκε από το παγκόσμιο δικτυωτό φόρουμ (GGF) για δικτυωτό υπολογισμό, Η τελευταία έκδοση του cagrid (cagrid 0.5) δημιουργήθηκε με τη χρήση του πλαισίου Globus Toolkit 3.2 και του OGSA Data Access Integration (OGSA-DAI) έκδοση 5.0 το Globus Toolkit παρέχει τις υπηρεσίες και τις εφαρμογές για μια ασφαλή κατανομή και διαχείριση της ισχύς υπολογιστή, των βάσεων δεδομένων και των αναλυτικών εργαλείων στο διαδίκτυο πέρα από οργανωτικά και γεωγραφικά σύνορα. Το συστατικό OGSA-DAI παρέχει το εξατομικευμένο λογισμικό για την πρόσβαση και την ενσωμάτωση των δεδομένων μέσω υπηρεσιών του διαδικτύου από το μεγάλο αριθμό κατανεμημένων γεωγραφικά πηγών βιοϊατρικών δεδομένων στο πλέγμα συμπεριλαμβανομένων σχεσιακών βάσεων δεδομένων και XML βάσεων δεδομένων. Με τον συνδυασμό αυτών των διαφόρων συστατικών το cagrid δίνει τη δυνατότητα στη μηχανή cabigtm και στους χρήστες της να αναπτύξουν και να εφαρμόσουν υπηρεσίες που παρέχονται στην κοινότητα και API για το κτίσιμο εφαρμογών πελατών. Τώρα που έχουμε τις βασικές ιστορικές πληροφορίες για το cabig και την βιοπληροφορική, ας εξετάσουμε κάποιες λογισμικές εφαρμογές που χρησιμοποιούνται ή αναπτύσσονται μέσα στο πρόγραμμα cabig για την ογκολογική έρευνα για να παρουσιάσουν αυτό που οι επιστήμονες, οι κλινικοί, οι βιοπληροφορικοί και μηχανολόγοι λογισμικού έχουν ολοκληρώσει για να ανταποκριθούν στις ανάγκες αυτού του τομέα. Θα χρησιμοποιήσουμε λοιπόν το σενάριο έρευνας που σχολιάσαμε παραπάνω για να δώσουμε παραδείγματα βιοϊατρικών εφαρμογών λογισμικού (Το σενάριο έρευνας αφορά την διαφορετική έκφραση ενός γονιδίου και των προϊόντων του σε έναν συγκεκριμένο κυτταρικό πλυθησμό, ή σε ένα μοντέλο ασθένειας που οδηγεί στην πιθανή υπόθεση ότι μπορεί να έχει κάποιο ρόλο στην πρόκληση τηςασθένειας). Ο πίνακας 1.1 παρσυσιάζει το σενάριο έρευνας χωρίζοντας το σε ευδιάκριτες υποκατηγορίες και και ομαδοποιεί τις αντίστοιχες κατηγορίες που θα μπορούσαν να εφαρμοστούν στο σενάριο.

Πίνακας 1.1 Περιπτώσεις χρήσης έρευνας και αντίστσιχες κατηγορίες Σενάριο έρευνας Ανάλυση γονιδίων που εκφράζονται διαφορικά σε ένα συγκεκριμένο πληθυσμό κυττάρων ή ένα μοντέλο ασθένειας. Κατηγορία Ανάλυση έκφρασης γονιδίων Ανάλυση πρωτεϊνών που εκφράζονται διαφορικά σε ένα συγκεκριμένο πληθυσμό κυττάρων ή ένα μοντέλο ασθένειας. Ανάλυση οδών στις οποίες συμμετέχουν μόρια που εκφράζονται διαφορικά. Ερώτημα και αναγνώριση δειγμάτων ιστών τα οποία βρίσκονται σε κατανεμημένες πηγές βιοδειγμάτων τα οποία ταιριάζουν με τις κλινικές, παθολογικές και πειραματικές παραμέτρους μιας ασθένειας υπό έρευνα. Πρωτεϊνωμική Ανάλυση οδού Κατάλογος βιοδειγμάτων και συστήματα για σχόλια Ο ττίνακας 1.2 παρέχει σύντομες περιγραφές των εργαλείων που θα εισάγουμε στο παρόν κεφάλαιο για να διευκρινίσουμε μια αντιπροσωπευτική σειρά εφαρμογών βιοπληροφορικής που βασίζεται σε Java. Επίσης στη λίστα υπάρχουν και οι χώροι εργασίας cabig στους οποίους αναπτύσσονται κάθε ένα από τα εργαλεία. Πίνακας 1.2 Εφαρμογές βιοπληροφορικής που βασίζονται σε Java Όνομα Χώρος Περιγραφή εφαρμογής εργασίας cabig CaArray ICR Αποθήκη για διαχείριση, ανάλυση και οτπικοποίηση δεδομένων έκφρασης γονιδίου από πειράματα μικροσυστοιχίας. CaWorkBench ICR Έκφραση γονιδίου, οδός και ανάλυση ακολουθιών, ανάλυση τοπίου που συνδέεται με παράγοντα μεταγραφής, και ανακάλυφπ σχεδίου. RProteoπιίcs ICR Στατιστική ανάλυση, οπτικοποίηση μοντέλου m φασμάτων πρωτεϊνωμικής

catissue Core CaTissue Clinical Annotation Engine (CAE) cancer Text Information Extraction System (CaTIES) Σϋκττημα ενσωμάτωσης και ανάλυσης για ενσωματωμένη αλληλεπίδραση πρωτεΐνηςπρωτεΐνης και πληροφορία μοριακής οδού από πολλαπλές πηγές. Εργαλείο διαχείρισης βιοδείγματος πυρήνα για κατάλογο, εντοπισμό και βασικό σχολιασμό βιοδειγμάτων. Εργαλείο για προσθήκη σχολιασμού παθολογίας σε αποθηκευμένα βιοδείγματα με τη χρήση δεδομένων από συστήματα Ανατομίας Παθολογίας, συστήματα Κλινικής Παθολογίας και μητρώα όγκων. Εργαλείο για απόσπαση δεδομένων παθολογίας όπως ιστολογία όγκου, καθορισμός σταδίου, μοριακοί δείκτες, κ.τ.λ. από αναφορές χειρουργικής παθολογίας με ^εύθερη μορφή. Ας ρίξουμε μια ματιά σε κάθε ένα από τα εργαλεία για να κατανοήσουμε πως υπο-εξυπηρετούν ή απευθύνονται σε ένα μικρό συστατικό ενός μεγαλύτερου ερευνητικού προβλήματος. CaArray Το CaArray είναι μια open-source πηγή πληροφοριών για τη διαχείρηση, ανάλυση και οπτικοποίηση των δεδομένων της έκφρασης γονιδίου (gene expression) από microarray πειράματα. Το CaArray επιτρέπει τους ερευνητές να κάνουν τα microarray δεδομένα τους προσβάσιμα και διαθέσιμα μέσω w/eb portal interface και μέσω API στην ευρύτερη κοινότητα ερευνητών καρκίνου που βρίσκονται σε γεωγραφικά διασκορπισμένα ερευνητικά κέντρα καρκίνου. Το CaArray χρησιμοποιεί μια σειρά NCI τεχνολογιών όπως cacore, cabio, και cadsr. Επιπλέον, το CaArray είναι χτισμένο πάνω σε έναν αριθμό συμβατών προτύπων στο cabig για ανταλλαγή δεδομένων όπως το Minimun Information About a Microarray Experiment (MIAME), to MicroArray and Gene Expressions Makeup Language (MAGE-ML), to MicroArray, και το Gene Expression Object

Model (MAGE-OM) και χρησιμοποιεί ελεγχόμενα λεξιλόγια βασισμένα στο Microarray και Gene Expression Database (MGED). Ο caarray κωδικός και το API είναι δαιθέσιμα για τοπική εγκατάσταση από το NCICB. Το ΜΙΑΜΕ είναι ένα σύνολο από κανόνες που καθορίζει τον ελάχιστο αριθμό δεδομένων που είναι απαραίτητα για να επιτραπεί η σαφής αναπαράσταση των αποτελεσμάτων ενός microarray πειράματος και να επιτρέψει τους ερευνητές να αναπαράγουν τα αποτελέσματα των προγούμενα αναφερμένων πειραμάτων. Οι οδηγίες περιλαμβάνουν στοιχεία των microarray πειραμάτων όπως ο στόχος και η σύντομη περιγραφή των πειρμαάματων, οι συνθήκες κάτω από τις οποίες το πείραμα εκτελέστηκε, το σχέδιο του πειράματος, τις διαδικασίες ποιτικού ελέγχου που χρησιμοποιήθηκαν, το προτόκολο και οι συυνθήκες που χρησιμοποιήθηκαν για υβριδοποίηση, τους μηχανισμούς συγκέντρωσης κ.α. Το MicroArray και το Gene Expression (MAGE) στοχεύει στην παροχή ενός πρωτοκόλλου για την αναπαράσταση microarray δεδομένων τα οποία θα μπορούσαν να διευκολύνουν την ανταλλαγή microarray πληροφοριών μεταξύ διαφορετικών συστημάτων. Αυτό έχει γίνει υπό την αιγίδα του Object. Management Group (OMG) μια διεθνή μή κερδοσκοπική κοινοπραξία που καθορίζει τις νόρμες για τις διανεμημένες υπολογιστικές και αλληλοεφαρμόσιμες επιχειρησιακές εφαρμογές. Αυτό έχει οδηγήσει στην δημιουργία ενός μοντέλου ανταλλαγής δεδομένων (MAGE-OM) και μια φόρμα ανταλλαγής δεδομένων για microarray πειράματα.ο σκοπός του MGED ontology είναι να παράσχει συγκεκριμένη ορολογία για το σχολιασμό των microarray πειραμάτων και να επιτρέψει ξεκάθαρες περιγραφές των τρόπων με τους οποίους τα πειράματα εκτελέστηκαν. Το CaArray είναι διαθέσιμο για μηχανολογική καταφόρτωση (download) στην ιστοσελίδα του NCI (http://caarray.nci.nih.gov) Το Σχήμα 1.2 δείχνει το αποτέλεσμα μιας ερώτησης που τρέχει στη δικτυακή πύλη του CaArray για ένα πείραμα που έγινε από ερευνητές πάνω στην ταξινόμηση περίπλοκων ασθενειών για να αναγνωριστούν στόχοι για παρεμβατικόι θεραπεία.