Π Τ Υ Χ Ι Α Κ Η / Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η / Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ (Establishing interoperability between Bioinformatics ontologies and Linked Data sources in the Semantic Web) ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΒΑΣΙΛΕΙΑΔΗΣ ΝΙΚΟΛΑΟΣ, ΑΝΑΠΛΗΡΩΤΗΣ ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΙΚΗ 2015

2

3

4

5 ΠΕΡΊΛΗΨΗ Π Ε Ρ Ι Λ Η Ψ Η Αντικείμενο της παρούσας εργασίας είναι η εξαγωγή πληροφορίας από οντολογίες που χρησιμοποιούνται ευρέως στο τομέα της Βιοπληροφορικής και η ενίσχυση της διαλειτουργικότητας με άλλες πηγές δεδομένων στον Ιστό. Αυτή η ενίσχυση πρόκειται να επιφέρει πολλά θετικά στοιχεία στο χώρο της Βιοπληροφορικής και της Βιοϊατρικής. Για την υλοποίηση της πτυχιακής απαιτήθηκε η μελέτη τομέων όπως της Βιολογίας και Βιοπληροφορικής, της ανάκτησης πληροφορίας, της εξόρυξης γνώσης και δεδομένων, με απώτερο σκοπό να ενισχυθεί η ενοποίηση και ο συγκερασμός αυτών των βιοϊατρικών δεδομένων, προωθώντας κατ αυτόν τον τρόπο συνολικά την έρευνα στην περιοχή. Για την επίλυση του προβλήματος έγινε χρήση διάφορων τεχνολογιών του Σημασιολογικού Ιστού, με τις σημαντικότερες από αυτές να είναι το προγραμματιστικό πλαίσιο Jena της γλώσσας Java (εργαλείο ανοικτού κώδικα για την εξαγωγή δεδομένων από RDF γράφους) και η γλώσσα SPARQL (για την υποβολή ερωτημάτων στους RDF γράφους). ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ V

6

7 ABSTRACT A B S T R A C T The purpose of this thesis is the extraction of information from ontologies that are widely used in the domain of bioinformatics and the amplification of the interoperability with other data sources from around the Web. This amplification is going to contribute positively in the domains of bioinformatics and biomedicine. The study of fields such as biology and bioinformatics, information retrieval, data mining and knowledge discovery was necessary for the implementation of this thesis. Our motive was the integration and unification of various biomedical data, in an attempt to further propel the research in the aforementioned fields. The solution provided is implemented with the use of various Semantic Web technologies, with the most important being the Jena programming framework of the Java programming language (open source tool used for data extraction from RDF graphs) and the SPARQL language (language for asking queries on RDF graphs). ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ VII

8

9 ΕΥΧΑΡΙΣΤΙΕΣ Ε Υ Χ Α Ρ Ι Σ Τ Ι Ε Σ Πριν την παρουσίαση των αποτελεσμάτων της παρούσας εργασίας, αισθάνομαι την υποχρέωση να ευχαριστήσω τον επιβλέποντα καθηγητή κ. Νικόλαο Βασιλειάδη, στον οποίο εκφράζω την ευγνωμοσύνη μου για την εμπιστοσύνη που μου έδειξε καθ όλη τη διάρκεια υλοποίησης της παρούσας διπλωματικής. Ιδιαίτερες ευχαριστίες εκφράζω στον υποψήφιο διδάκτορα Ιωάννη Καβακιώτη όπως επίσης και στο μεταδιδακτορικό ερευνητή Ευστράτιο Κοντόπουλο για την ανάθεση της εργασίας, την καθοδήγηση και την κατανόησή τους. Επίσης θέλω να ευχαριστήσω θερμά την οικογένεια και τους φίλους μου για τη συνεχή ενθάρρυνση και συμπαράστασή τους. Γεροχρήστος Ιωάννης Οκτώβριος 2015 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ IX

10

11 ΠΕΡΙΕΧΟΜΕΝΑ Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΠΕΡΙΛΗΨΗ... V ABSTRACT... VII ΕΥΧΑΡΙΣΤΙΕΣ... IX ΠΕΡΙΕΧΟΜΕΝΑ... XI ΛΙΣΤΑ ΕΙΚΟΝΩΝ... XV ΛΙΣΤΑ ΠΙΝΑΚΩΝ ΚΩΔΙΚΑ... XVII ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 2: ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ ΔΕΔΟΜΕΝΑ ΚΑΙ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Δεδομένα Βάσεις δεδομένων ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Τι είναι η εξόρυξη δεδομένων; Εξόρυξη δεδομένων και ανακάλυψη γνώσης ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ Διαδίκτυο Παγκόσμιος Ιστός Το μοντέλο πελάτη-εξυπηρετητή Ο ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Ορισμός Οντολογίες Διασυνδεδεμένα Δεδομένα ΣΥΝΟΨΗ ΚΕΦΑΛΑΙΟ 3: ΠΕΡΙΓΡΑΦΗ ΠΟΡΩΝ ΙΣΤΟΥ RDF Εισαγωγή στο RDF Βασικές έννοιες του RDF Μοντέλο Γράφων RDF Σύνταξη του RDF RDF Schema (RDFS) SPARQL Εισαγωγή στη γλώσσα Sparql Χρήση της Δομής SELECT-FROM-WHERE OWL ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ XI

12 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Εισαγωγή στην OWL Απαιτήσεις των γλωσσών οντολογιών Περιορισμοί της εκφραστικής ισχύος του RDF Schema Συμβατότητα των OWL και RDF/RDFS Τρεις υπογλώσσες της OWL Σύνταξη της γλώσσας OWL Κεφαλίδα Στοιχεία κλάσεων Στοιχεία ιδιοτήτων ΣΥΝΟΨΗ ΚΕΦΑΛΑΙΟ 4: ΒΙΟΛΟΓΙΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΕΙΣΑΓΩΓΗ ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ ΣΗΜΑΝΤΙΚΟΙ ΟΡΟΙ Πρωτεΐνη Αμινοξέα DNA RNA Γονιδίωμα ΤΟ ΚΕΝΤΡΙΚΟ ΔΟΓΜΑ ΤΗΣ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ ΑΛΛΗΛΟΥΧΙΕΣ ΓΕΝΕΤΙΚΟΥ ΥΛΙΚΟΥ ΣΤΟΧΟΙ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΕΥΝΗΤΙΚΕΣ ΠΕΡΙΟΧΕΣ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΣΥΝΟΨΗ ΚΕΦΑΛΑΙΟ 5: ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ GENE ONTOLOGY (GO) Εισαγωγή Όροι και οντολογία Go Slim Ontology ΤΟ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΛΑΙΣΙΟ JENA Εισαγωγή στη Jena Η απαίτηση για ένα προγραμματιστικό πλαίσιο Το πλαίσιο Σημασιολογικού Ιστού της Jena Είσοδος και Έξοδος Κατάργηση εκχώρησης μέσων αποθήκευσης και κλείσιμο DBPEDIA Εισαγωγή στη DBpedia Υπόβαθρο Σύνολο δεδομένων Παράδειγμα Περιπτώσεις χρήσης Dbpedia lookup Γενική περιγραφή Παράμετροι ΣΥΝΟΨΗ ΚΕΦΑΛΑΙΟ 6: ΥΛΟΠΟΙΗΣΗ ΔΙΑΤΥΠΩΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΔΕΔΟΜΕΝΑ Αρχικά δεδομένα Μετατροπή των δεδομένων XII ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

13 ΠΕΡΙΕΧΟΜΕΝΑ 6.3 ΠΕΡΙΓΡΑΦΗ ΥΛΟΠΟΙΗΣΗΣ Σκεπτικό Επεξήγηση κώδικα Σύγκριση των περιγραφών της οντολογίας και της DBpedia Αποτελέσματα Φιλτράρισμα αποτελεσμάτων Αποτελέσματα ομοιότητας περιγραφών ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ WEB SITES ΓΛΩΣΣΑΡΙΟ ΟΔΗΓΟΣ ΕΓΚΑΤΑΣΤΑΣΗΣ ΤΗΣ JENA ΚΑΙ ΤΟΥ ADW ΣΤΟ NETBEANS ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ XIII

14

15 ΛΙΣΤΑ ΕΙΚΟΝΩΝ Λ Ι Σ Τ Α Ε Ι Κ Ο Ν Ω Ν ΕΙΚΟΝΑ 1: ΠΑΡΑΔΕΙΓΜΑ ΟΡΓΑΝΩΣΗΣ ΟΝΤΟΛΟΓΙΩΝ ΣΤΗΝ GO ONTOLOGY ΕΙΚΟΝΑ 2: ΠΑΡΑΔΕΙΓΜΑ ΟΡΟΥ ΣΤΗΝ GO SLIM GENERIC ΕΙΚΟΝΑ 3: Η ΑΝΑΠΤΥΞΗ ΤΗΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΙΚΟΝΑ 4: ΜΕΤΑΤΡΟΠΗ ΤΗΣ ΟΝΤΟΛΟΓΙΑΣ ΑΠΟ OBO ΣΕ OWL ΕΙΚΟΝΑ 5: O ΟΡΟΣ REPRODUCTION ΠΡΙΝ ΤΗ ΜΕΤΑΤΡΟΠΗ ΣΕ OWL ΕΙΚΟΝΑ 6: Ο ΟΡΟΣ REPRODUCTION ΜΕΤΑ ΤΗ ΜΕΤΑΤΡΟΠΗ ΣΕ OWL ΕΙΚΟΝΑ 7: ΑΠΟΤΕΛΕΣΜΑΤΑ DBPEDIA ΜΕ ΛΕΞΗ-ΚΛΕΙΔΙ REPRODUCTION ΕΙΚΟΝΑ 8: ONTOLOGY.TXT ΕΙΚΟΝΑ 9: DBPEDIA_RESULTS.TXT ΕΙΚΟΝΑ 10: ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΚΤΕΛΕΣΗΣ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ XV

16

17 ΛΙΣΤΑ ΠΙΝΑΚΩΝ ΚΩΔΙΚΑ Λ Ι Σ Τ Α Π Ι Ν Α Κ Ω Ν Κ Ω Δ Ι Κ Α ΚΩΔΙΚΑΣ 1: ΠΕΔΙΑ ΤΗΣ ΚΛΑΣΗΣ ITEM ΚΩΔΙΚΑΣ 2: ΣΗΜΑΝΤΙΚΕΣ ΚΛΗΣΕΙΣ ΣΤΗ MAIN ΚΩΔΙΚΑΣ 3: PUBLIC VOID CHARACTERS(CHAR[] BUFFER, INT START, INT LENGTH) ΚΩΔΙΚΑΣ 4: PUBLIC VOID STARTELEMENT(STRING URI, STRING LOCALNAME, STRING QNAME, ATTRIBUTES ATTRIBUTES) ΚΩΔΙΚΑΣ 5: PUBLIC VOID ENDELEMENT(STRING URI, STRING LOCALNAME, STRING QNAME) ΚΩΔΙΚΑΣ 6: ΕΡΩΤΗΜΑΤΑ ΠΡΟΣ ΤΗ DBPEDIA ΚΩΔΙΚΑΣ 7: PRIVATE VOID START(URL URL1, URL URL2) ΚΩΔΙΚΑΣ 8: ΒΑΣΙΚΗ ΛΟΓΙΚΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ XVII

18

19 Κ Ε Φ Α Λ Α Ι Ο 1 : Ε Ι Σ Α Γ Ω Γ Η

20

21 ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Αντικείμενο της παρούσας εργασίας είναι η εξαγωγή πληροφορίας από οντολογίες που χρησιμοποιούνται ευρέως στο τομέα της Βιοπληροφορικής και η ενίσχυση της διαλειτουργικότητας με άλλες πηγές δεδομένων στον Ιστό. Αυτή η ενίσχυση πρόκειται να επιφέρει πολλά θετικά στοιχεία στο χώρο της Βιοπληροφορικής και της Βιοϊατρικής. Παρότι ο Ιστός χτίστηκε με σκοπό την κατανάλωση του περιεχομένου του από ανθρώπους, τα τελευταία χρόνια παρατηρείται αυξανόμενη κατανάλωση του περιεχομένου του από μηχανές, οι οποίες απαιτούν δόμηση στα δεδομένα έτσι ώστε να δύνανται να τα κατανοήσουν και να τα επεξεργαστούν. Η τεχνολογία που καλύπτει αυτές τις ανάγκες θα είναι σαφώς καθορισμένη από πρότυπα, ανεξάρτητη από το πεδίο εφαρμογής και θα υπακούει στη διαλειτουργική υποδομή που παρέχεται από τα τυποποιημένα πρωτόκολλα. Το RDF είναι ένα πρότυπο του W3C που περιγράφει πόρους του Παγκόσμιου Ιστού, αποδίδοντας μεταδεδομένα σε οντότητες. H SPARQL (Spaqrl Protocol and RDF Query Language) είναι μια γλώσσα που θέτει ερωτήματα σημασιολογικής φύσεως σε βάσεις δεδομένων που μας επιτρέπει να ανακτούμε και να διαχειριζόμαστε δεδομένα που βρίσκονται αποθηκευμένα σε μορφή RDF. Επιπρόσθετα, μια οντολογία είναι ένας τυπικός και σαφής ορισμός μιας κοινής και συμφωνημένης εννοιολογικής μορφοποίησης που αφορά σε ένα πεδίο ενδιαφέροντος. Η εργασία δομείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 2 δίνεται το θεωρητικό υπόβαθρο της εργασίας. Συγκεκριμένα, δίνονται ορισμοί για τις έννοιες των δεδομένων και των βάσεων δεδομένων, ενώ παράλληλα γίνεται μια εισαγωγή στους τομείς της ανάκτησης πληροφορίας, της εξόρυξης γνώσης και δεδομένων και μια αντιπαραβολή του Παγκόσμιου και του Σημασιολογικού Ιστού, με ιδιαίτερη έμφαση στην απαρίθμηση και ανάλυση των δομικών στοιχείων του δεύτερου. Στο Κεφάλαιο 3 γίνεται μια εισαγωγή στο RDF, όπως επίσης και στις γλώσσες SPARQL και OWL. Ορίζονται οι κεντρικές έννοιες, περιγράφεται το μοντέλο δεδομένων για την αναπαράσταση πόρων του Ιστού και των σχέσεων που τις διέπουν και αναλύεται ο τρόπος υποβολής ερωτημάτων σημασιολογικής φύσεως. Στο Κεφάλαιο 4 γίνεται μια παρουσίαση του τομέα της Βιολογίας και της Βιοπληροφορικής και αναλύονται κάποιες βασικές εισαγωγικές έννοιές τους. Πιο αναλυτικά, γίνεται μια σύντομη ιστορική αναδρομή, αναλύονται κάποιοι βασικοί σημαντικοί όροι της Βιολογίας (πρωτεΐνες, αμινοξέα, DNA, RNA, γονιδίωμα), παρουσιάζεται το κεντρικό δόγμα της μοριακής βιολογίας, παρουσιάζονται οι αλληλουχίες του γενετικού υλικού και περιγράφονται οι βασικοί στόχοι και οι ερευνητικές περιοχές της Βιοπληροφορικής. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 21

22 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Στο κεφάλαιο 5 γίνεται μια παρουσίαση των εργαλείων που χρησιμοποιήθηκαν για την υλοποίηση της εργασίας, όπως είναι η Gene Ontology, το προγραμματιστικό πλαίσιο Jena της Java και η DBpedia Στο κεφάλαιο 6 περιγράφεται σε βάθος η υλοποίηση της εφαρμογής που προσπαθεί να βρει αλληλοσυσχετίσεις ανάμεσα στις οντότητες της Gene Ontology και της DBpedia. Αναλύονται τα προαπαιτούμενα βήματα, επεξηγείται το σκεπτικό και περιγράφονται τα αποτελέσματα και οι διαπιστώσεις που προέκυψαν, αλλά και οι προοπτικές χρήσης και επέκτασης της εργασίας. Στο Παράρτημα I παρουσιάζονται η βιβλιογραφία και οι δικτυακοί τόποι που αναφέρονται στην εργασία. Στο Παράρτημα II παρουσιάζεται το γλωσσάριο ξενικών όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη.. 22 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

23 Κ Ε Φ Α Λ Α Ι Ο 2 : Θ Ε Ω Ρ Η Τ Ι Κ Ο Υ Π Ο Β Α Θ Ρ Ο

24

25 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Στο κεφάλαιο αυτό γίνεται μια βασική εισαγωγή στο θεωρητικό υπόβαθρο που απαιτείται για την κατανόηση της πτυχιακής εργασίας. Πιο συγκεκριμένα,θα δοθούν ορισμοί για τις έννοιες των δεδομένων και των βάσεων δεδομένων, ενώ παράλληλα γίνεται μια εισαγωγή στους τομείς της ανάκτησης πληροφορίας, της εξόρυξης γνώσης και δεδομένων και μια αντιπαραβολή του Παγκόσμιου και του Σημασιολογικού Ιστού, με ιδιαίτερη έμφαση στην απαρίθμηση και ανάλυση των δομικών στοιχείων του δεύτερου. 2.1 ΔΕΔΟΜΕΝΑ ΚΑΙ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Δεδομένα Ο γενικός όρος «δεδομένα» στην Επιστήμη των Υπολογιστών συμπεριλαμβάνει αριθμητικές ή άλλες μορφές συμβόλων που μπορούν να αναπαρασταθούν με ψηφιακό τρόπο κατάλληλο για εισαγωγή, αποθήκευση, χρήση-επεξεργασία από ένα υπολογιστικό ή επικοινωνιακό σύστημα για την παραγωγή χρήσιμης πληροφορίας [1]. Ορισμός: Τα δεδομένα μπορούν να οριστούν ως τρόποι αναπαράστασης εννοιών και γεγονότων που δύνανται να υποστούν διαχείριση και επεξεργασία από τον άνθρωπο, ή από ένα αυτοματοποιημένο υπολογιστικό σύστημα. Αυτοί οι τρόποι αναπαράστασης, σχετίζονται άμεσα με τη φύση της πληροφορίας που μεταφέρεται από τα δεδομένα. Τα δεδομένα, ως αφηρημένη έννοια, μπορεί να θεωρηθούν ως το χαμηλότερο επίπεδο αφαίρεσης από το οποίο παρέχονται πληροφορίες, οι οποίες στη συνέχεια μετασχηματίζονται σε γνώσεις. Συνιστούν επομένως αντικείμενα, τα οποία αναπαρίστανται από τους υπολογιστές με διάφορες μορφές, όπως κείμενο, γραφικά, ήχος, βίντεο, και αποθηκεύονται σε ειδικά αρχεία Βάσεις δεδομένων Το βασικό χαρακτηριστικό των σύγχρονων εφαρμογών είναι η απαίτηση για την αποτελεσματική και αποδοτική διαχείριση της αποθηκευμένης πληροφορίας. [2] Αρχικά, η διαχείριση της πληροφορίας γινόταν από τις ίδιες τις εφαρμογές, χρησιμοποιώντας το σύστημα αρχείων (file system) του λειτουργικού συστήματος, ενώ οι μέθοδοι επεξεργασίας και ανάκτησης των δεδομένων ήταν ενσωματωμένες στον κώδικα της εκάστοτε εφαρμογής. Ο τρόπος αυτός διαχείρισης, αν και δίνει στον προγραμματιστή την ευελιξία να υλοποιήσει τις μεθόδους επεξεργασίας που αυτός επιθυμεί, ωστόσο δημιουργεί προβλήματα καθώς αυξάνεται ο όγκος των δεδομένων ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 25

26 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ και η πολυπλοκότητα της πληροφορίας. Για παράδειγμα, αν στόχος της εφαρμογής είναι η διαχείριση αριθμητικών δεδομένων και υπάρχει η ανάγκη για αποθήκευση και διαχείριση μερικών εκατοντάδων αριθμών, τότε αυτό μπορεί να υλοποιηθεί εύκολα αποθηκεύοντας τους αριθμούς σε ένα αρχείο του λειτουργικού συστήματος και υλοποιώντας τις απαραίτητες λειτουργίες υπολογισμών (π.χ., μέσος όρος, ελάχιστη τιμή, μέγιστη τιμή) στη λογική της εφαρμογής. Ας θεωρήσουμε όμως μια πολυπλοκότερη εφαρμογή που στόχο έχει την οργάνωση μιας ηλεκτρονικής βιβλιοθήκης, όπου απαιτείται η αναζήτηση άρθρων ή βιβλίων με βάση το συγγραφέα, τον τίτλο, την ημερομηνία έκδοσης, ενώ ακόμη απαιτείται η αναζήτηση άρθρων με βάση λέξεις-κλειδιά (keywords) από όλο το κείμενο. Είναι προφανές ότι θα απαιτηθεί αρκετή προσπάθεια από τον προγραμματιστή για την υλοποίηση της εφαρμογής λαμβάνοντας υπ όψη ότι: Αναμένεται το πλήθος των άρθρων ή των βιβλίων να είναι μεγάλος, με αποτέλεσμα να επιβάλλεται η χρήση αποδοτικών μεθόδων αναζήτησης. Η δομή της πληροφορίας είναι περίπλοκη, διότι ένας συγγραφέας μπορεί να έχει συμβάλει στη συγγραφή πολλών άρθρων, ενώ στη συγγραφή ενός άρθρου μπορεί να έχουν συμβάλει πολλοί συγγραφείς. Πρέπει να βρεθεί ένας αποτελεσματικός και αποδοτικός τρόπος αναζήτησης των λέξεων μέσα στο κείμενο. Προφανώς, η εξέταση κάθε κειμένου ξεχωριστά έχει απαγορευτικό κόστος λόγω του μεγάλου αριθμού των κειμένων λαμβάνοντας υπ όψη ότι ένα κείμενο μπορεί να είναι αρκετά εκτενές. Υπάρχει η ανάγκη για εισαγωγή νέων στοιχείων, όπως για παράδειγμα η ενημέρωση των δεδομένων όταν υπάρχει ένα νέο άρθρο που πρέπει να καταχωρηθεί. Αναμένεται ότι πολλοί χρήστες θα χρησιμοποιούν την εφαρμογή ταυτόχρονα, με αποτέλεσμα να απαιτούνται ειδικοί μηχανισμοί προσπέλασης και συγχρονισμού των προσπελάσεων από διαφορετικούς χρήστες. Για τους παραπάνω λόγους κρίθηκε σκόπιμος ο διαχωρισμός των δεδομένων από τις μεθόδους επεξεργασίας τους. Η προσέγγιση αυτή προσφέρει ευελιξία και επιπλέον αποδεσμεύει τον προγραμματιστή από την ανάγκη συγχρονισμού των δεδομένων και την υλοποίηση της λογικής προσπέλασης δεδομένων. Τα δεδομένα στις σύγχρονες εφαρμογές αποθηκεύονται στις βάσεις δεδομένων (databases). Ορισμός: Μια βάση δεδομένων είναι μια λογικά συνεκτική και οργανωμένη συλλογή πληροφοριακών εγγράφων, η οποία έχει κάποια εγγενή σημασία και μπορεί να προσπελασθεί ηλεκτρονικά. Σχεδιάζεται, κτίζεται και αποθηκεύει δεδομένα για κάποιο συγκεκριμένο σκοπό, ενώ προορίζεται για μια συγκεκριμένη ομάδα χρηστών και για προκαθορισμένες εφαρμογές για τις οποίες οι χρήστες αυτοί ενδιαφέρονται. 26 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

27 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.2 ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Η έννοια του όρου ανάκτηση πληροφοριών (information retrieval, IR) είναι ιδιαίτερα ευρεία [3]. Ως πεδίο ακαδημαϊκής μελέτης, η ανάκτηση πληροφοριών μπορεί να οριστεί ως εξής: Ανάκτηση πληροφοριών (ΑΠ) είναι η εύρεση υλικού (συνήθως εγγράφων) αδόμητης φύσης (συνήθως κειμένου) μέσα σε μεγάλες συλλογές (που βρίσκονται συνήθως αποθηκευμένες σε υπολογιστές), το οποίο ικανοποιεί μια ανάγκη πληροφόρησης. Η ανάκτηση πληροφοριών εξελίσσεται με ταχείς ρυθμούς στην επικρατέστερη μορφή προσπέλασης δεδομένων, ξεπερνώντας την παραδοσιακή αναζήτηση σε βάσεις δεδομένων. Παράλληλα καλύπτει και άλλους τύπους προβλημάτων πληροφόρησης και αναζήτησης δεδομένων, πέρα από αυτά που αναφέρονται στον παραπάνω ορισμό. Ο όρος «αδόμητα δεδομένα» περιγράφει δεδομένα τα οποία δεν έχουν ξεκάθαρη, σημασιολογικά εμφανή δομή, εύχρηστη για τον υπολογιστή. Είναι το αντίθετο των δομημένων δεδομένων, των οποίων αντιπροσωπευτικό παράδειγμα είναι οι σχεσιακές βάσεις δεδομένων, όπως αυτές που συνήθως χρησιμοποιούν οι εταιρίες για να παρακολουθούν τα αποτελέσματα των προϊόντων τους και τα στοιχεία του προσωπικού τους. Η ανάκτηση πληροφοριών χρησιμοποιείται και για «ημιδομημένες αναζητήσεις», για παράδειγμα, όταν θέλουμε να βρούμε κάποιο έγγραφο που να περιλαμβάνει τη λέξη Java στον τίτλο του και τη λέξη νημάτωση στο σώμα κειμένου του. Το πεδίο της ΑΠ καλύπτει επίσης θέματα σχετικά με την υποστήριξη των χρηστών στη «φυλλομέτρηση» και το φιλτράρισμα συλλογών εγγράφων, ή στην παραπέρα επεξεργασία ενός συνόλου ανακτημένων εγγράφων. Δεδομένου ενός συνόλου εγγράφων, συσταδοποίηση (clustering) είναι η εργασία της κατάταξης των εγγράφων στις κατάλληλες ομάδες, ανάλογα με το περιεχόμενό τους. Μοιάζει με την τακτοποίηση των βιβλίων σε ένα ράφι, ανάλογα με το θέμα τους. Δεδομένου ενός συνόλου θεμάτων, τις τρέχουσες ανάγκες πληροφόρησης, ή άλλες κατηγορίες (όπως η καταλληλότητα των συγγραμμάτων για διάφορες ηλικιακές ομάδες), ταξινόμηση (classification) είναι η επιλογή των κλάσεων (τάξεων ή κατηγοριών), αν υπάρχουν, στις οποίες ανήκει κάθε ένα από τα έγγραφα ενός συνόλου εγγράφων. Συχνά την προσεγγίζουμε ταξινομώντας πρώτα μερικά έγγραφα χειρωνακτικά, ελπίζοντας ότι στη συνέχεια θα μπορούμε να ταξινομήσουμε τα νέα έγγραφα αυτομάτως. Η πιο συνηθισμένα «αποστολή» της Ανάκτησης Πληροφορίας είναι η ανάπτυξη συστήματος που θα καλύπτει την περιστασιακή ανάκτηση (ad hoc retrieval). Σε αυτήν, στόχος του συστήματος είναι να παρέχει έγγραφα της συλλογής συναφή με κάποια αυθαίρετη ανάγκη πληροφόρησης του χρήστη, η οποία γνωστοποιείται στο σύστημα μέσω ενός ερωτήματος που υποβάλει ο χρήστης μόνο μία φορά. Ανάγκη πληροφόρησης (information need) είναι το θέμα για το οποίο ο χρήστης θέλει ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 27

28 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ πράγματι να μάθει περισσότερα, και διαφέρει από το ερώτημα (query), δηλαδή από αυτό που ο χρήστης μεταβιβάζει στον υπολογιστή στην προσπάθειά του να δείξει στη μηχανή ποια είναι η ανάγκη πληροφόρησής του. Ένα έγγραφο είναι συναφές (relevant) όταν ο χρήστης θεωρεί ότι περιέχει πολύτιμες για αυτόν πληροφορίες, σε σχέση με την προσωπική του ανάγκη πληροφόρησης. Για να αξιολογήσουν την αποτελεσματικότητα (effectiveness) ενός συστήματος Ανάκτησης Πληροφορίας, δηλαδή την ποιότητα των αποτελεσμάτων του, οι χρήστες συνήθως εξετάζουν δύο βασικά στατιστικά στοιχεία για τα αποτελέσματα που επιστρέφει το σύστημα στα ερωτήματά τους: Ακρίβεια (precision): ποιο ποσοστό των επιστρεφόμενων αποτελεσμάτων είναι συναφές προς την ανάγκη πληροφόρησης; Ανάκληση (recall): ποιο ποσοστό των συναφών εγγράφων της συλλογής επιστρέφονται από το σύστημα; Η πλειονότητα του σημερινού περιεχομένου του Ιστού είναι κατάλληλη για ανθρώπινη κατανάλωση. Ακόμα και το διαδικτυακό περιεχόμενο που παράγεται αυτόματα από βάσεις δεδομένων παρουσιάζεται συνήθως χωρίς την αρχική δομική πληροφορία που μπορεί να βρεθεί στις βάσεις. Οι τυπικές χρήσεις του Ιστού από τους ανθρώπους σήμερα περιλαμβάνουν την αναζήτηση και τη χρησιμοποίηση πληροφοριών, την αναζήτηση άλλων ατόμων και την επαφή μαζί τους, την αξιολόγηση των καταλόγων δικτυακών καταστημάτων και την παραγγελία προϊόντων μέσω της συμπλήρωσης φορμών, καθώς και την προβολή υλικού για ενηλίκους. Οι δραστηριότητες αυτές δεν υποστηρίζονται επαρκώς από εργαλεία λογισμικού. Εκτός από την ύπαρξη συνδέσμων που συνδέουν έγγραφα, τα βασικά πολύτιμα και πραγματικά απαραίτητα εργαλεία είναι οι μηχανές αναζήτησης (search engines). Οι μηχανές αναζήτησης που βασίζονται σε λέξεις-κλειδιά, όπως οι Yahoo και Google, είναι τα κύρια εργαλεία χρήσης του σύγχρονου Ιστού. Είναι σαφές πως ο Ιστός δεν θα είχε την τεράστια επιτυχία που έχει χωρίς τη συμβολή των μηχανών αναζήτησης. Ωστόσο, υπάρχουν σοβαρά προβλήματα που σχετίζονται με τη χρήση τους: Υψηλή ανάκληση, χαμηλή ακρίβεια. Ακόμα και αν ανακτηθούν οι βασικές σχετικές σελίδες, θα έχουν μικρή χρησιμότητα αν ανακτηθούν και άλλα λίγο ή καθόλου σχετικά έγγραφα. Η πολύ μεγάλη ποσότητα πληροφοριών μπορεί κάλλιστα να γίνει το ίδιο δυσάρεστη με την υπερβολικά μικρή ποσότητα. Χαμηλή ή καθόλου ανάκληση. Είναι συχνό φαινόμενο να μην παίρνουμε κάποια σχετική απάντηση στο αίτημά μας, ή να μην ανακτώνται σημαντικές και συναφείς σελίδες. Αν και η χαμηλή ανάκληση είναι λιγότερο συχνό πρόβλημα με τις σύγχρονες μηχανές αναζήτησης, είναι ωστόσο υπαρκτή. 28 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

29 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Τα αποτελέσματα είναι ιδιαίτερα ευαίσθητα στο λεξιλόγιο. Συχνά, οι αρχικές λέξεις-κλειδιά που χρησιμοποιούμε δεν επιστρέφουν τα αποτελέσματα που επιθυμούμε σε αυτές τις περιπτώσεις, τα σχετικά έγγραφα κάνουν χρήση διαφορετικής ορολογίας από αυτήν του αρχικού ερωτήματος (query). Αυτό δεν είναι ικανοποιητικό, επειδή τα σημασιολογικά παρόμοια ερωτήματα θα πρέπει να επιστρέφουν παρόμοια αποτελέσματα. Τα αποτελέσματα είναι μεμονωμένες ιστοσελίδες. Αν χρειαζόμαστε πληροφορίες που έχουν διασκορπιστεί σε διάφορα έγγραφα, θα πρέπει να κάνουμε πολλά ερωτήματα για να συλλέξουμε τα σχετικά έγγραφα, να εξάγουμε στη συνέχεια τις επιμέρους πληροφορίες με μη αυτόματο τρόπο και να τις συνθέσουμε. 2.3 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Τι είναι η εξόρυξη δεδομένων; Η εξόρυξη δεδομένων είναι η διαδικασία της αυτόματης ανακάλυψης χρήσιμων πληροφοριών μέσα από μεγάλες δεξαμενές δεδομένων [4]. Οι τεχνικές εξόρυξης δεδομένων εφαρμόζονται για να ερευνήσουν σε βάθος μεγάλες βάσεις δεδομένων με σκοπό να βρεθούν νέα και χρήσιμα πρότυπα, τα οποία σε διαφορετική περίπτωση θα παρέμεναν άγνωστα. Επίσης, παρέχουν δυνατότητες πρόβλεψης του αποτελέσματος μιας μελλοντικής παρατήρησης, όπως για παράδειγμα η πρόβλεψη αν ένας πρόσφατα αφίχθης πελάτης σε ένα εμπορικό κατάστημα θα ξοδέψει περισσότερα από 100 ευρώ. Πρέπει να τονιστεί ότι δεν θεωρείται εξόρυξη δεδομένων κάθε εργασία ανακάλυψης πληροφοριών. Για παράδειγμα, η αναζήτηση ξεχωριστών εγγραφών χρησιμοποιώντας ένα σύστημα διαχείρισης βάσεων δεδομένων ή η εύρεση συγκεκριμένων ιστοσελίδων μέσω ενός ερωτήματος σε μια μηχανή αναζήτησης του Διαδικτύου, είναι εργασίες οι οποίες σχετίζονται με την περιοχής της ανάκτησης πληροφορίας (information retrieval). Παρά το γεγονός ότι αυτού του είδους οι εργασίες είναι σημαντικές και μπορεί να εμπεριέχουν τη χρήση σύγχρονων αλγορίθμων και δομών δεδομένων, βασίζονται σε παραδοσιακές τεχνικές της επιστήμης των υπολογιστών και προφανή χαρακτηριστικά των δεδομένων για τη δημιουργία δομών ευρετηρίου, ώστε να οργανώσουν και να ανακτήσουν τα δεδομένα με αποδοτικό τρόπο. Παρ όλα αυτά, οι τεχνικές εξόρυξης δεδομένων έχουν χρησιμοποιηθεί για να επεκτείνουν τα συστήματα ανάκτησης πληροφοριών Εξόρυξη δεδομένων και ανακάλυψη γνώσης Η εξόρυξη δεδομένων είναι αναπόσπαστο κομμάτι της Ανακάλυψης Γνώσης από τις Βάσεις Δεδομένων (knowledge discovery in database-kdd), η οποία αποτελεί τη συνολική διεργασία της μετατροπής ακατέργαστων δεδομένων σε σημαντικές ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 29

30 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ πληροφορίες [5]. H διεργασία αυτή αποτελείται από μια σειρά βημάτων μετασχηματισμών, από την προεπεξεργασία δεδομένων μέχρι την εκ των υστέρων επεξεργασία των αποτελεσμάτων της εξόρυξης δεδομένων. Σχήμα 1: Τα στάδια της ανακάλυψης γνώσης Τα δεδομένα εισόδου μπορούν να αποθηκευτούν σε μια ποικιλία μορφών (επίπεδα αρχεία, λογιστικά φύλλα, ή σχεσιακοί πίνακες) και να βρίσκονται σε μια κεντρική αποθήκη δεδομένων ή να κατανέμονται σε πολλές θέσεις. Ο σκοπός της προεπεξεργασίας (preprocessing) είναι να μετατρέψει τα ακατέργαστα δεδομένα εισόδου σε μια μορφή κατάλληλη για την ανάλυση που θα επακολουθήσει. Τα βήματα που εμπεριέχονται στην προεπεξεργασία περιλαμβάνουν τη συγχώνευση δεδομένων από πολλαπλές πηγές, το καθαρισμό δεδομένων ώστε να απαλειφθεί ο θόρυβος και τυχόν διπλότυπες παρατηρήσεις, και την επιλογή εγγράφων και χαρακτηριστικών που είναι σχετικά με την παρούσα εργασία εξόρυξης δεδομένων. Εξαιτίας των πολλών μεθόδων με τους οποίους τα δεδομένα μπορούν να συλλεχθούν και να αποθηκευθούν, η προεπεξεργασία των δεδομένων είναι πιθανόν το πιο επίπονο και χρονοβόρο βήμα σε όλη τη διαδικασία της ανακάλυψης γνώσης. 2.4 ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ Διαδίκτυο Το διαδίκτυο (Internet) αποτελεί ένα παγκόσμιο δίκτυο που συνδέει εκατοντάδες παρόχους διαδικτυακών υπηρεσιών και μπορεί να θεωρηθεί ως ένα Δίκτυο Ευρείας Κάλυψης (WAN) αποτελούμενο από πολλά Τοπικά Δίκτυα (LAN) διαφόρων ειδών [2]. Ο όρος Διαδίκτυο αφορά στην ύπαρξη και στη διαδικτύωση των υποδομών, στις οποίες βασίζονται για να λειτουργήσουν εφαρμογές όπως ο Παγκόσμιος Ιστός, το ηλεκτρονικό ταχυδρομείο, το πρωτόκολλο μεταφοράς αρχείων (FTP), κλπ. 30 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

31 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Παγκόσμιος Ιστός Ο Παγκόσμιος Ιστός (World Wide Web) αποτελεί μια εφαρμογή η οποία διασυνδέει και παραδίδει έγγραφα χρησιμοποιώντας πρωτόκολλα του Διαδικτύου και αποτελεί ένα κατανεμημένο σύστημα που βασίζεται στο μοντέλο πελάτη-εξυπηρετητή [2]. Συνδέει έγγραφα που βρίσκονται αποθηκευμένα σε διάφορα υπολογιστικά συστήματα, τα οποία επικοινωνούν μέσω του Διαδικτύου, με κύρια γλώσσα την HTML που εφαρμόζεται για την παρουσίαση αυτών των εγγράφων Το μοντέλο πελάτη-εξυπηρετητή Το μοντέλο πελάτη/εξυπηρετητή είναι ιδιαίτερα δημοφιλές και αποτελεί μία από τις κύριες επιλογές μοντελοποίησης σε αντικείμενα που σχετίζονται τόσο με δίκτυα υπολογιστικών συστημάτων όσο και με άλλα δίκτυα πληροφορίας [2]. Είναι χαρακτηριστικό ότι οι περισσότερες ηλεκτρονικές διαδικτυακές εφαρμογές για επιχειρήσεις σήμερα αναπτύσσονται ακολουθώντας αυτό το μοντέλο. Σχήμα 2: Το μοντέλο πελάτη-εξυπηρετητή Το μοντέλο πελάτη/εξυπηρετητή (client\server) περιγράφει τη σχέση μεταξύ δύο υπολογιστικών συστημάτων στην οποία μια εφαρμογή-πελάτης (client), υποβάλει μια αίτηση για μια υπηρεσία προς μια άλλη εφαρμογή-εξυπηρετητή (server), η οποία και διεκπεραιώνει (εξυπηρετεί) την αίτηση. Το μοντέλο πελάτη/εξυπηρετητή μπορεί βέβαια να χρησιμοποιηθεί από εφαρμογές στο ίδιο υπολογιστικό σύστημα, αλλά βέβαια είναι πιο αποδοτική σε ένα περιβάλλον δικτύου υπολογιστικών συστημάτων. 2.5 Ο ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Ορισμός Ο Σημασιολογικός Ιστός αποτελεί μια επέκταση του υπάρχοντος Παγκοσμίου Ιστού που παρέχει ένα κοινό πλαίσιο που επιτρέπει τον διαμοιρασμό και την ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 31

32 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ επαναχρησιμοποίηση των δεδομένων ανάμεσα σε εφαρμογές, επιχειρήσεις και γενικότερα μέσα στα όρια των κοινοτήτων του Διαδικτύου [6]. Είναι μια συλλογική προσπάθεια στην οποία ηγείται ο οργανισμός W3C (κοινοπραξία του Παγκόσμιου Ιστού) με συμμετοχή μεγάλου αριθμού ερευνητών και βιομηχανικών συνεταίρων. Βασίζεται στο Πλαίσιο Περιγραφής Πόρων (Resource Description Framework - RDF). Χαρακτηριστικό WWW Σημασιολογικός Ιστός Θεμελιώδη Συστατικά Μη δομημένο περιεχόμενο Τυπικές δηλώσεις Βασικό Κοινό Άνθρωποι Εφαρμογές Υπερσύνδεσμοι Δείχνουν τοποθεσία Δείχνουν τοποθεσία και σημασία Λεξιλόγιο Εντολές μορφοποίησης Σημασιολογία και λογική Λογική Μη τυπική Περιγραφική λογική Πίνακας 1: Διαφορές μεταξύ του Παγκόσμιου και του Σημασιολογικού Ιστού Οι κύριοι στόχοι του Σημασιολογικού Ιστού Το όραμα του Σημασιολογικού Ιστού είναι να επεκτείνει αρχές που ήδη ισχύουν για το Διαδίκτυο από τα έγγραφα στα δεδομένα. Τα δεδομένα θα πρέπει να προσεγγίζονται χρησιμοποιώντας τις γενικές αρχιτεκτονικές του Διαδικτύου, παραδείγματος χάρη χρησιμοποιώντας URIs (Universe Resource Identifier Αναγνωριστικά Ενιαίων Πόρων), ένας όρος που αφορά όλους τους τύπους ονομάτων και διευθύνσεων που αναφέρονται στους πόρους (αντικείμενα) του Παγκόσμιου Ιστού). Παράλληλα, τα δεδομένα θα πρέπει να σχετίζονται μεταξύ τους όπως συμβαίνει ήδη με τα έγγραφα (ή τουλάχιστον με μερικά τμήματα των εγγράφων). 32 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

33 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Σχήμα 3: Διαστρωματωμένη προσέγγιση του Σημασιολογικού Ιστού Οι τεχνολογίες του Σημασιολογικού Ιστού μπορούν να χρησιμοποιηθούν σε ποικίλες περιοχές, όπως: στην ενσωμάτωση δεδομένων, κατά την οποία δεδομένα από διάφορες τοποθεσίες - όχι απαραίτητα στην ίδια μορφή - μπορούν να ενσωματωθούν σε μία οντότητα στην ανακάλυψη και ταξινόμηση πόρων, ώστε να παρέχονται πιο ακριβή αποτελέσματα από τις μηχανές αναζήτησης στην καταλογοποίηση του περιεχομένου και του περιεχομένου των σχέσεων που είναι διαθέσιμα σε μια συγκεκριμένη ιστοσελίδα από ευφυείς πράκτορες για τη διευκόλυνση του διαμοιρασμού και της ανταλλαγής γνώσης στην αξιολόγηση περιεχομένου στην περιγραφή συλλογών σελίδων που αντιπροσωπεύουν ένα ενιαίο λογικό «έγγραφο» στην περιγραφή δικαιωμάτων πνευματικής ιδιοκτησίας ιστοσελίδων (π.χ. Creative Commons). Τα πρότυπα που χρησιμοποιούνται σήμερα ευρέως στο Σημασιολογικό Ιστό είναι τα εξής: RDF (Πλαίσιο Περιγραφής Πόρων - Resource Description Framework): Η γλώσσα μοντελοποίησης των δεδομένων στο Σημασιολογικό Ιστό. Όλες οι σημασιολογικές δικτυακές πληροφορίες αποθηκεύονται και παρουσιάζονται με τη βοήθεια του RDF. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 33

34 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ SPARQL (SPARQL Protocol and RDF Query Language): Η γλώσσα ερωτημάτων του Σημασιολογικού Ιστού. Είναι ειδικά σχεδιασμένη για να υποβάλει ερωτήματα σε δεδομένα που βρίσκονται αποθηκευμένα σε διαφορετικά συστήματα OWL (Γλώσσα Οντολογιών Ιστού - Web Ontology Language): H γλώσσα αναπαράστασης γνώσης του Σημασιολογικού Ιστού. Η OWL επιτρέπει στον προγραμματιστή να ορίσει έννοιες σύνθετα έτσι ώστε αυτές οι έννοιες να μπορούν να επαναχρησιμοποιηθούν όσο το δυνατόν περισσότερο και συχνότερα. Με την όρο συνθεσιμότητα εννοείται πως η κάθε έννοια είναι προσεκτικά σχεδιασμένη έτσι ώστε να μπορεί να επιλεχθεί σε διάφορους συνδυασμούς με άλλες έννοιες όπως αυτό ζητείται από διάφορες εφαρμογές Οντολογίες Η οντολογία είναι ένας τυπικός, σαφής προσδιορισμός μιας διαμοιρασμένης εννοιολογικής αναπαράστασης [7]. Οι οντολογίες αποτελούν εργαλεία σημασιολογικής διαλειτουργικότητας που επιτρέπουν την ανταλλαγή νοηματικής πληροφορίας μεταξύ των μηχανών. Ο όρος «εννοιολογική αναπαράσταση» αναφέρεται στο αφηρημένο μοντέλο ενός φαινομένου του πεδίου γνώσης που πρόκειται να περιγραφεί. Η αναπαράσταση αυτή οφείλει να έχει ορισμένες ιδιότητες, οι οποίες είναι οι εξής: «διαμοιραζόμενη», δηλαδή να πληροί τις προδιαγραφές μιας συμφωνίας μεταξύ των μελών που θα χρησιμοποιήσουν από κοινού την οντολογία, «τυπική», δηλαδή να ορίζεται με μια ακριβή μαθηματική περιγραφική μοντελοποίηση και «σαφής» σε ότι αφορά την ακρίβεια του ορισμού των εννοιών που θα συμπεριληφθούν και των μεταξύ τους σχέσεων Μια οντολογία καθορίζει ένα κοινό λεξιλόγιο και μια κοινή κατανόηση για να διασφαλίσει την επικοινωνία μεταξύ πρακτόρων λογισμικού και στην ουσία συνοψίζει μεταδεδομένα που αναπαριστούν σαφώς τη σημασιολογία των δεδομένων με τρόπο κατανοητό από τη μηχανή. Για το σαφή ορισμό μιας οντολογίας απαιτούνται τα εξής: Ορισμός λεξιλογίου (vocabulary) από έννοιες (concepts) που περιγράφουν το πεδίο γνώσης (domain) Ορισμός δομής: σχέσεις εννοιών, ιεραρχίες, συσχετισμοί, Ορισμός ιδιοτήτων των εννοιών (χαρακτηριστικά και αντιστοιχίσεις), Χρήση αξιωμάτων/κανόνων για τους περιορισμούς σε γνωρίσματα-ιδιότητες και για την παραγωγή νέων εννοιών, σχέσεων κτλ 34 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

35 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Διασυνδεδεμένα Δεδομένα Ο όρος διασυνδεδεμένα δεδομένα αναφέρεται στη χρήση του Παγκόσμιου Ιστού για τη διασύνδεση συσχετιζόμενων δεδομένων μεταξύ των οποίων προηγουμένως δεν υπήρχαν δεσμοί διασύνδεσης (links) [8]. Ουσιαστικά, πρόκειται για έναν όρο που συμπεριλαμβάνει το σύνολο των βέλτιστων πρακτικών για την έκδοση δομημένων δεδομένων στον Παγκόσμιο Ιστό και την αποτελεσματική σύνδεση δεδομένων μεταξύ διαφορετικών πηγών. Η βασική υπόθεση για τα διασυνδεδεμένα δεδομένα είναι ότι η αξία τους και η χρησιμότητά τους επαυξάνονται καθώς αυτά διασυνδέονται με άλλα δεδομένα. Ο πατέρας του Διαδικτύου Tim Berners-Lee έχει απαριθμήσει τέσσερις βασικές αρχές για τη δημιουργία διασυνδεδεμένων δεδομένων (Linked Data): 1. χρήση URIs για την αναγνώριση αντικειμένων κάθε αντικείμενο πρέπει να περιγράφεται από το δικό του URI, 2. χρήση HTTP URI ώστε τα αντικείμενα στα οποία να γίνεται αναφορά να είναι «αναζητήσιμα» μέσα από τον Παγκόσμιο Ιστό, τόσο από τους ανθρώπους-χρήστες όσο και από τα λογισμικά πρακτόρων, 3. παροχή χρήσιμης πληροφορίας σχετικής με τα αντικείμενα σε μορφή RDF (δηλαδή δομημένη περιγραφή των μεταδεδομένων) 4. περίληψη συνδέσμων προς άλλα σχετικά URIs ώστε να ενισχυθεί η ανακάλυψη άλλης συσχετισμένης πληροφορίας στον Παγκόσμιο Ιστό Παράλληλα ο Tim Berners-Lee εισήγαγε και την έννοια των ανοικτών διασυνδεδεμένων δεδομένων (Linked Open Data). Τα ανοικτά διασυνδεδεμένα δεδομένα είναι διασυνδεδεμένα υπό ανοικτή άδεια, η οποία δεν εμποδίζει την επαναχρησιμοποίησή τους. Επίσης πρότεινε τη βαθμολόγηση των ανοικτών δεδομένων με το σύστημα των 5 αστεριών. Όσα περισσότερα αστέρια έχει ένα σύνολο πληροφοριών, τόσο πιο ισχυρό και εύκολο στη χρήση θεωρείται. Στον παρακάτω πίνακα επεξηγείται το σύστημα των αστεριών του Tim Berners-Lee. To περιεχόμενο είναι διαθέσιμο στο Διαδίκτυο (υπό οποιαδήποτε μορφή) αλλά με ανοικτή άδεια, έτσι ώστε να θεωρούνται ανοικτά δεδομένα Το περιεχόμενο είναι διαθέσιμο σε δομημένη μορφή που μπορεί να διαβαστεί από τον υπολογιστή (π.χ. σε φόρμα Excel αντί για σαρωμένη εικόνα) Όλα τα παραπάνω και επιπλέον το περιεχόμενο να ανήκει σε μηιδιόκτητη μορφή (non-proprietary format, π.χ. CSV αντί για Excel) Όλα τα παραπάνω και επιπλέον τη χρήση ανοικτών προτύπων της W3C (RDF, SPARQL) Όλα τα παραπάνω και επιπλέον υπερσύνδεσμοι των δεδομένων προς άλλα δεδομένα ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 35

36 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ 2.6 ΣΥΝΟΨΗ Σε αυτό το κεφάλαιο έγινε μια εισαγωγή σε βασικές περιοχές της Πληροφορικής που διαδραματίζουν σημαντικό ρόλο στην υλοποίηση αυτής της εργασίας. Συγκεκριμένα, δόθηκαν ορισμοί και εισαγωγικές έννοιες για τους τομείς των Δεδομένων και Βάσεων Δεδομένων, της Ανάκτησης Πληροφορίας, της Εξόρυξης Γνώσης, του Διαδικτύου και του Παγκόσμιου Ιστού καθώς και του Σημασιολογικού Ιστού. Στο επόμενο κεφάλαιο, θα αναλυθεί σε βάθος το Πλαίσιο Περιγραφής Πόρων (Resource Description Framework - RDF), που διαδραματίζει καταλυτικό ρόλο στο προγραμματιστικό σκέλος της εργασίας. 36 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

37 Κ Ε Φ Α Λ Α Ι Ο 3 : Π Ε Ρ Ι Γ Ρ Α Φ Η Π Ο Ρ Ω Ν Ι Σ Τ Ο Υ

38

39 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ ΠΕΡΙΓΡΑΦΗ ΠΟΡΩΝ ΙΣΤΟΥ Σε αυτό το κεφάλαιο αναλύεται λεπτομερώς το Πλαίσιο Περιγραφής Πόρων (Resource Description Framework - RDF) το οποίο διαδραματίζει πολύ σημαντικό ρόλο τόσο στη μοντελοποίηση πληροφορίας από διαδικτυακούς πόρους, όσο και στην υλοποίηση της παρούσας εργασίας. Παράλληλα γίνεται και μια εισαγωγή στις γλώσσες SPARQL και OWL. Ορίζονται οι κεντρικές έννοιές τους και αναλύεται ο τρόπος υποβολής ερωτημάτων σημασιολογικής φύσεως στο Σημασιολογικό Ιστό. 3.1 RDF Εισαγωγή στο RDF Το Πλαίσιο Περιγραφής Πόρων (Resource Description Framework (RDF)) είναι ένα πρότυπο του W3C για την περιγραφή των πόρων του Παγκόσμιου Ιστού [9]. Η περιγραφή αυτή εστιάζει κυρίως στην απόδοση μετα-πληροφορίας σε οντότητες, όπως είναι η περιγραφή του τίτλου, του ονόματος, της ημερομηνίας δημιουργίας και άλλων χαρακτηριστικών κάποιου πόρου του Διαδικτύου. Η έννοια «πόρος» αναφέρεται σε οποιαδήποτε οντότητα του Παγκόσμιου Ιστού, όπως είναι μια ιστοσελίδα, ένα τμήμα ή ένα σύνολο από ιστοσελίδες, ηλεκτρονικά αρχεία ή ακόμα και αντικείμενα τα οποία δεν είναι άμεσα διαθέσιμα στο Διαδίκτυο, όπως είναι για παράδειγμα ένα βιβλίο. Το RDF είναι ένα μοντέλο γραμμένο σε XML (η XML γλώσσα που χρησιμοποιεί το RDF λέγεται RDF/XML) για την περιγραφή των πόρων, ενώ οι περιγραφές RDF δεν είναι σχεδιασμένες ώστε να παρουσιάζονται και να εμφανίζονται στον Παγκόσμιο Ιστό. Το RDF προορίζεται για περιπτώσεις στις οποίες: οι καταγεγραμμένες πληροφορίες ενδεχομένως να τύχουν επεξεργασίας από κάποια εφαρμογή και όχι να διαβαστούν από κάποιον άνθρωπο, υπάρχει απαίτηση για ένα κοινό πλαίσιο για την περιγραφή πληροφοριών κατά τρόπο που να επιτρέπει την ανταλλαγή τους μεταξύ εφαρμογών, χωρίς να υπάρχει απώλεια του νοήματος, οι πληροφορίες αυτές ενδεχομένως να χρησιμοποιηθούν από εφαρμογές πέρα από αυτές για τις οποίες είχαν αρχικά δημιουργηθεί Βασικές έννοιες του RDF Το RDF είναι ένα μοντέλο δομημένων δεδομένων ανεξάρτητο από το πεδίο εφαρμογής και από τη συγκεκριμένη εφαρμογή. Αναπαρίσταται από έναν κατευθυνόμενο γράφο με ετικέτες και αποτελείται από ένα σύνολο δηλώσεων. Το μοντέλο δεδομένων του RDF χρησιμοποιεί τις ακόλουθες βασικές έννοιες: ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 39

40 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Πόροι (resources): Στο RDF ένας πόρος είναι οτιδήποτε θέλουμε να περιγράψουμε. Ένας πόρος μπορεί να είναι μια ιστοσελίδα, ένα μέρος αυτής ή μια συλλογή από ιστοσελίδες Ιδιότητες (properties): Μια ιδιότητα αποτελεί ένα χαρακτηριστικό ενός πόρου. Για παράδειγμα, η ιδιότητα παροχέας μπορεί να είναι η εταιρία που παρέχει μια συγκεκριμένη υπηρεσία του παγκόσμιου ιστού. Οι ιδιότητες επίσης προσδιορίζονται από URIs. Δηλώσεις (statements): Οι δηλώσεις είναι οι δομές που παρέχονται από το RDF για την αναπαράσταση πληροφοριών για ένα πεδίο. Μια δήλωση έχει τρία μέρη: τον πόρο για τον οποίο γίνεται η δήλωση, την ιδιότητα του πόρου στην οποία αναφέρεται η δήλωση και την τιμή αυτής της ιδιότητας. Δηλαδή, μια δήλωση έχει τη μορφή: Statement: (resource, property, resource). Τα τρία μέρη μιας δήλωσης ονομάζονται αντίστοιχα, υποκείμενο (subject), κατηγόρημα (predicate) και αντικείμενο (object). Το αντικείμενο μιας δήλωσης μπορεί να είναι ένας άλλος πόρος ή ένα κυριολεκτικό (literal), δηλαδή μια ατομική τιμή (π.χ. συμβολοσειρά). Συνεπώς το πρότυπο του RDF καθορίζει και μια σύνταξη η οποία έχει σαν σκοπό οι RDF τριάδες (τριπλέτες) να δομούνται με έναν τρόπο επεξεργασίας από υπολογιστικά συστήματα και εφαρμογές. Στην παρακάτω εικόνα αποτυπώνεται μια τριπλέτα RDF: Σχήμα 4: Αναπαράσταση τριπλέτας σε RDF Μοντέλο Γράφων RDF Το μοντέλο γράφων του RDF [10] περιλαμβάνει τα εξής: Το υποκείμενο και το αντικείμενο αναπαρίστανται ως κόμβοι (nodes). Το κατηγόρημα αναπαρίσταται ως ακμή η οποία κατευθύνεται από το υποκείμενο στο αντικείμενο. 40 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

41 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ Τα αντικείμενα μπορεί να είναι είτε URIrefs είτε σταθερές τιμές (literals) Σταθερές τιμές δε μπορούν να χρησιμοποιηθούν ως υποκείμενα ή αντικείμενα σε RDF δηλώσεις. Οι κόμβοι-υποκείμενα και οι κόμβοι-αντικείμενα που περιλαμβάνουν URIrefs αναπαρίστανται ως ελλείψεις. Οι κόμβοι αντικείμενα που περιλαμβάνουν σταθερές τιμές αναπαρίστανται ως κουτιά. Σχήμα 5: Γράφος RDF Σύνταξη του RDF Τα κύρια στοιχεία των εγγράφων RDF [10] είναι το στοιχείο ρίζας, <rdf:rdf> και το στοιχείο <rdf:description>, το οποίο αναγνωρίζει/ταυτοποιεί έναν πόρο. Έτσι, ένα έγγραφο RDF ουσιαστικά αποτελείται από ένα στοιχείο <rdf:rdf> που περιέχει έναν αριθμό από περιγραφές. Πιο συγκεκριμένα, το στοιχείο <rdf:rdf> περιέχει αναφορές σε χώρους ονομάτων, με πρώτο το χώρο ονομάτων <rdf:rdfxmlns:rdf= Οι υπόλοιποι χώροι είναι εξωτερικοί του RDF και είναι έγγραφα RDF που ορίζουν πόρους που χρησιμοποιούνται στο τρέχων έγγραφο που τους εισάγει. Αυτό επιτρέπει την επαναχρησιμοποίηση πόρων. Επίσης, κάθε περιγραφή είναι ένα στοιχείο <rdf:description>. Κάθε περιγραφή περιέχει το χαρακτηριστικό <rdf:about>, που αναφέρεται στον περιγραφόμενο πόρο και περιέχει στοιχεία που τον περιγράφουν. Στην παρακάτω εικόνα φαίνεται ένα έγγραφο RDF. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 41

42 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Σχήμα 6: Έγγραφο RDF Ας εξετάσουμε προσεκτικά το παραπάνω έγγραφο. Αρχικά παρατηρούμε πως γίνεται χρήση του χώρου ονομάτων rdf:rdfxmlns:rdf= και si= οι οποίοι ορίζονται μέσα στο στοιχείο <rdf:rdf> και καθένας από αυτούς χρησιμοποιείται για την περαιτέρω εφαρμογή των λοιπών στοιχείων, π.χ <si:title>w3schools</si:title>. Η 1 η γραμμή του εγγράφου είναι η δήλωση XML. Η δήλωση αυτή ακολουθείται από το στοιχείο ρίζας του RDF εγγράφου. To namespace xmlns:rdf, καθορίζει ότι τα στοιχεία με πρόθεμα rdf προέρχονται από το namespace Παράλληλα, το namespace xmlns:si, καθορίζει ότι τα στοιχεία με το πρόθεμα si προέρχονται από το namespace Ακόμα, το στοιχείο <rdf:description> περιέχει την περιγραφή του πόρου που ταυτοποιείται από το γνώρισμα του rdf:about. Τέλος, τα στοιχεία <si:title> και <si:author> είναι οι ιδιότητες του πόρου RDF Schema (RDFS) Το RDF μας παρέχει τη δυνατότητα να δημιουργήσουμε απλές προτάσεις για τους πόρους τους οποίους θέλουμε να περιγράψουμε χρησιμοποιώντας ιδιότητες, τιμές και URIref για τον προσδιορισμό των συστατικών που συμμετέχουν σε μια πρόταση [11]. Το RDF όμως δεν παρέχει δυνατότητα να ορίσουμε και να περιγράψουμε ένα επιπλέον λεξιλόγιο το οποίο πιθανόν να επιθυμούμε να χρησιμοποιήσουμε στις εφαρμογές μας. Πιο συγκεκριμένα δεν έχουμε τη δυνατότητα να ορίσουμε τις κλάσεις (έννοιες) οι οποίες εμφανίζονται σε μια εφαρμογή. Επιπρόσθετα, είναι φυσικό να επιθυμούμε την περιγραφή των κλάσεων και των ιδιοτήτων μας δηλώνοντας σχέσεις υπαγωγής ανάμεσά τους. Έτσι, ενώ το μοντέλο δεδομένων RDF παρέχει έναν απλό τρόπο για την περιγραφή των σχέσεων μεταξύ των πόρων με χρήση ονομασμένων ιδιοτήτων και τιμών, ωστόσο δεν παρέχει μηχανισμούς για τον ορισμό των σχέσεων μεταξύ αυτών των ιδιοτήτων και άλλων πόρων. Αυτός είναι ο ρόλος του RDF σχήματος (RDF Schema (RDFS)). Ουσιαστικά το RDFS παρέχει ένα επιπλέον 42 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

43 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ λεξιλόγιο πάνω σε αυτό του RDF το οποίο περιλαμβάνει στοιχεία τα οποία προορίζονται στο να προσδώσουν την επιπρόσθετη αυτή λειτουργικότητα. Το RDFS αποτελεί ένα είδους λεξικό, ορίζει τους όρους που θα χρησιμοποιηθούν στις RDF δηλώσεις και δίνεις συγκεκριμένα νοήματα σε αυτούς. ΤΟ RDFS ορίζει όχι μόνο τις ιδιότητες ενός πόρου (π.χ. τίτλος, συγγραφέας κτλ) αλλά μπορεί να ορίζει και τους τύπους των πόρων που περιγράφονται (άρθρο, ιστοσελίδα, βιβλίο κτλ). Συνεπώς, το RDFS παρέχει ένα βασικό σχήμα ή ένα μέσο ορισμού τύπων (type definition facility). Σχήμα 7: Παράδειγμα RDFS Στο παραπάνω σχήμα, φαίνεται ένα παράδειγμα ενός RDFS εγγράφου. Παρατηρούμε πως η κλάση horse είναι υποκλάση της κλάσης animal. 3.2 SPARQL Εισαγωγή στη γλώσσα Sparql Η γλώσσα ερωτημάτων SPARQL είναι μια υποψήφια σύσταση του οργανισμού W3C για την εκτέλεση ερωτημάτων σε RDF, και γι αυτό το λόγο εξελίσσεται ταχύτατα στην πρότυπη γλώσσα ερωτημάτων για το συγκεκριμένο σκοπό [12]. Η SPARQL βασίζεται στην ταύτιση υποδειγμάτων γράφων (graph patterns). Το απλούστερο υπόδειγμα γράφου είναι το υπόδειγμα της τριάδας, το οποίο μοιάζει με μια τριάδα RDF, αλλά υπάρχει η δυνατότητα χρήσης μεταβλητής αντί όρου RDF στις θέσεις του υποκειμένου, του κατηγορήματος, ή του αντικειμένου. Ο συνδυασμός υποδειγμάτων τριάδων παράγει ένα βασικό υπόδειγμα γράφου, και απαιτείται ακριβής ταύτιση με ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 43

44 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ κάποιο γράφο προκειμένου ένα υπόδειγμα να θεωρηθεί πλήρες. Ένα απλό παράδειγμα είναι το ακόλουθο ερώτημα: PREFIX rdf: < PREFIX rdfs: < SELECT?c WHERE {?c rdf:type rdfs:class. } Το ερώτημα αυτό ανακτά όλα τα υποδείγματα τριάδων, όπου το rdf:type είναι η ιδιότητα και το rdfs:class είναι το αντικείμενο. Με άλλα λόγια, όταν εκτελεστεί το ερώτημα αυτό, θα ανακτηθούν όλες οι κλάσεις. Για την ανάκτηση όλων των στιγμιότυπων μιας συγκεκριμένης κλάσης (π.χ., της κλάσης course), γράφουμε: PREFIX uni: < SELECT?i WHERE {?i rdf:type uni:course. } Η SPARQL δεν υποστηρίζει ρητά τη σημασιολογία της γλώσσας RDFS. Επομένως, το αποτέλεσμα του ερωτήματος εξαρτάται τελικά από το αν το σύστημα που αποκρίνεται στο ερώτημα υποστηρίζει τη σημασιολογία του RDFS. Αν αυτό ισχύει, τότε το αποτέλεσμα του ερωτήματος θα περιλαμβάνει επίσης όλα τα στιγμιότυπα των υποκλάσεων της κλάσης course. Σε διαφορετική περίπτωση, θα ανακτηθούν μόνο τα στιγμιότυπα με ρητό τύπο course Χρήση της Δομής SELECT-FROM-WHERE Όπως συμβαίνει και στην SQL, τα ερωτήματα SPARQL έχουν δομή του τύπου SELECT-FROM-WHERE [12]: SELECT: Καθορίζει την προβολή (projection), δηλαδή τον αριθμό και τη σειρά των ανακτημένων δεδομένων FROM: Χρησιμοποιείται για τον προσδιορισμό της πηγής, στην οποία γίνεται το ερώτημα. Ο όρος αυτός είναι προαιρετικός όταν δεν ορίζεται, μπορούμε απλώς να υποθέσουμε ότι υποβάλουμε ένα ερώτημα στη βάση γνώσης του συγκεκριμένου συστήματος. WHERE: Επιβάλλει περιορισμούς στις δυνατές λύσεις με τη μορφή προτύπων που περιέχουν υποδείγματα γράφων, καθώς και με τη μορφή λογικών περιορισμών. 44 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

45 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ Για παράδειγμα, για να ανακτήσουμε όλους τους τηλεφωνικούς αριθμούς των μελών του προσωπικού, μπορούμε να γράψουμε: SELECT?x?y WHERE {?x uni:phone?y. } Εδώ, τα?x και?y είναι μεταβλητές, και το?x uni:phone?y αναπαριστά ένα υποδείγμα τριάδας πόρου-ιδιότητας-τιμής. Μπορούμε να δημιουργήσουμε πιο πολύπλοκα υποδείγματα γράφων για την ανάκτηση περισσότερο σύνθετων πληροφοριών από τα ερωτήματά μας. Αν θέλουμε να ανακτήσουμε όλους τους διδάσκοντες και τους τηλεφωνικούς αριθμούς τους, μπορούμε να γράψουμε: SELECT?x?y WHERE {?x rdf:type uni:lecturer ; uni:phone?y. } Εδώ, ο όρος?x rdf:type uni:lecturer συγκεντρώνει όλα τα στιγμιότυπα της κλάσης Lecturer, όπως αναφέρθηκε ήδη, και συνδέει το αποτέλεσμα με τη μεταβλητή?x. Το δεύτερο μέρος συγκεντρώνει όλες τις τριάδες με κατηγόρημα phone. Όμως, υπάρχει μια έμμεση συνένωση (implicit join), με την έννοια ότι περιορίζουμε το δεύτερο υπόδειγμα μόνο στις τριάδες εκείνες με υποκείμενο που βρίσκεται στη μεταβλητή?x. Το ερωτηματικό υποδηλώνει ότι το υπόδειγμα τριάδας που ακολουθεί έχει κοινό υποκείμενο με το προηγούμενο υπόδειγμα. 3.3 OWL Εισαγωγή στην OWL H εκφραστικότητα των γλωσσών RDF και RDF Schema που περιγράφηκαν παραπάνω είναι σκόπιμα πολύ περιορισμένη [12]. Το RDF περιορίζεται σε δυαδικά βασικά κατηγορήματα και το RDF Schema σε μια ιεραρχία υποκλάσεων και μια ιεραρχία ιδιοτήτων, με ορισμούς του πεδίου ορισμού και του συνόλου τιμών για τις ιδιότητες αυτές. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 45

46 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Απαιτήσεις των γλωσσών οντολογιών Οι γλώσσες οντολογιών επιτρέπουν στους χρήστες να γράφουν ρητές, τυπικές επίνοιες (conceptualizations) για μοντέλα πεδίων [12]. Οι κύριες απαιτήσεις είναι η καλά ορισμένη σύνταξη, η αποδοτική υποστήριξη συλλογισμών, η τυπική σημασιολογία, η επαρκής εκφραστική ισχύς και η ευκολία στην έκφραση. Η σπουδαιότητα της καλά ορισμένης σύνταξης είναι ξεκάθαρη και γνωστή από το χώρο των γλωσσών προγραμματισμού αποτελεί την αναγκαία συνθήκη για την επεξεργασία πληροφοριών από υπολογιστές. Η τυπική σημασιολογία περιγράφει το νόημα της γνώσης με ακρίβεια. Η φράση «με ακρίβεια» σημαίνει πως η σημασιολογία δεν αναφέρεται σε υποκειμενικές αντιλήψεις, ούτε και επιδέχεται διαφορετικές ερμηνείες από διαφορετικά άτομα (ή και υπολογιστές). Μια χρήση της τυπικής σημασιολογίας είναι να επιτρέπει στους ανθρώπους να κάνουν συλλογισμούς σχετικά με τη γνώση. Για την οντολογική γνώση, μπορούν να γίνουν συλλογισμοί σχετικά με τα εξής: Συμμετοχή σε κλάσεις. Αν το x είναι στιγμιότυπο μιας κλάσης A και η Α είναι υποκλάση της Β, τότε μπορούμε να συμπεράνουμε ότι το x είναι στιγμιότυπο της Β. Ισοδυναμία κλάσεων. Αν η κλάση Α είναι ισοδύναμη με την κλάση Β και η κλάση Β είναι ισοδύναμη με την κλάση C, τότε και η Α είναι επίσης ισοδύναμη με τη C. Συνέπεια. Ας υποθέσουμε πως έχουμε δηλώσει ότι το x είναι στιγμιότυπο της κλάσης Α και ότι η Α είναι υποκλάση της τομής B C. Επίσης, η Α είναι υποκλάση της D, και οι B και D είναι ξένες μεταξύ τους. Τότε θα έχουμε ασυνέπεια, επειδή η Α θα έπρεπε να είναι κενή, αλλά περιέχει το στιγμιότυπο x. Αυτό αποτελεί ένδειξη σφάλματος στην οντολογία. Ταξινόμηση. Αν έχουμε δηλώσει ότι συγκεκριμένα ζεύγη ιδιότητας-τιμής αποτελούν ικανή συνθήκη για τη συμμετοχή σε μια κλάση A, τότε αν ένα μεμονωμένο στοιχείο x ικανοποιεί τέτοιες συνθήκες, μπορούμε να συμπεράνουμε ότι το x πρέπει να είναι στιγμιότυπο της A Περιορισμοί της εκφραστικής ισχύος του RDF Schema Οι γλώσσες RDF και RDFS επιτρέπουν την αναπαράσταση ενός μέρους της οντολογικής γνώσης [12]. Τα κύρια θεμελιώδη στοιχεία μοντελοποίησης των RDF/RDFS αφορούν την οργάνωση των λεξιλογίων σε τυποποιημένες ιεραρχίες: σχέσεις υποκλάσης και υποϊδιότητας, περιορισμούς πεδίου ορισμού και συνόλου τιμών, καθώς και στιγμιότυπα κλάσεων. Παρόλα αυτά, λείπουν αρκετές άλλες δυνατότητες. Αναφέρουμε εδώ μερικές από αυτές: 46 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

47 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ Τοπική εμβέλεια ιδιοτήτων. Το rdfs:range ορίζει το σύνολο τιμών μιας ιδιότητας (π.χ., της ιδιότητας eats για όλες τις κλάσεις). Επομένως, δεν μπορούμε στην RDF Schema να δηλώσουμε περιορισμούς στο σύνολο τιμών, οι οποίοι θα ισχύουν μόνο για μερικές κλάσεις. Για παράδειγμα, δεν μπορούμε να πούμε ότι οι αγελάδες τρώνε μόνο φυτά, ενώ άλλα ζώα μπορεί να τρώνε και κρέας. Μη επικάλυψη κλάσεων. Μερικές φορές, θέλουμε να δηλώσουμε ότι ορισμένες κλάσεις είναι ξένες μεταξύ τους. Π.χ., οι κλάσεις male (άνδρας) και female (γυναίκα) είναι ξένες. Αλλά στην RDF Schema μπορούμε να δηλώσουμε μόνο σχέσεις υποκλάσεων, π.χ., η κλάση female είναι υποκλάση της person (άτομο). Λογικοί συνδυασμοί κλάσεων. Ενίοτε, θέλουμε να δημιουργήσουμε νέες κλάσεις, συνδυάζοντας άλλες κλάσεις με τη χρήση της ένωσης, της τομής, και του συμπληρώματος. Έστω ότι θέλουμε να ορίσουμε ότι η κλάση person είναι η μη συμβιβαστή ένωση (disjoint union) των κλάσεων male και female. Τέτοιοι ορισμοί δεν επιτρέπονται στην RDF Schema. Περιορισμοί πληθικότητας. Μερικές φορές επιθυμούμε να επιβάλλουμε περιορισμούς στο πλήθος των διακριτών τιμών που μπορεί ή πρέπει να πάρει μια ιδιότητα. Έστω ότι θέλαμε να δηλώσουμε ότι ένα άτομο έχει ακριβώς δύο γονείς, ή ότι ένα μάθημα διδάσκεται από τουλάχιστον ένα διδάσκοντα. Και πάλι, τέτοιοι περιορισμοί δεν είναι δυνατό να εκφραστούν σε RDF Schema. Ειδικά χαρακτηριστικά ιδιοτήτων. Μερικές φορές είναι χρήσιμο να δηλώσουμε ότι μια ιδιότητα είναι μεταβατική, μοναδική, ή αντίστροφη μιας άλλης ιδιότητας. Τέτοια παραδείγματα είναι, αντίστοιχα, οι ιδιότητες «greater than» (μεγαλύτερο από), «is mother of» (είναι μητέρα του), και το ζεύγος ιδιοτήτων «eats» και «is eaten by» (τρώει και τρώγεται από). Άρα, χρειαζόμαστε μια γλώσσα οντολογιών που θα είναι πλουσιότερη από το RDF Schema, και η οποία θα παρέχει τις παραπάνω αλλά και επιπλέον δυνατότητες. Μια τέτοια γλώσσα είναι η OWL Συμβατότητα των OWL και RDF/RDFS Υπό ιδανικές συνθήκες, η OWL θα ήταν επέκταση του RDF Schema [12], με την έννοια ότι η OWL θα χρησιμοποιούσε τη σημασία του RDF για τις κλάσεις και τις ιδιότητες (rdfs:class, rdfs:subclassof, κ.λπ.) και θα προσέθετε γλωσσικά θεμελιώδη στοιχεία για να υποστηρίξει τη μεγαλύτερη εκφραστικότητα που απαιτείται. Μια τέτοια επέκταση του RDF Schema θα ήταν συνεπής και με τη διαστρωματωμένη αρχιτεκτονική του Σημασιολογικού Ιστού (δείτε το Σχήμα 3). Δυστυχώς, η απλή επέκταση του RDF Schema θα λειτουργούσε ενάντια στην εκφραστική ισχύ και την αποδοτική συλλογιστική. Το RDF Schema έχει ορισμένα πολύ ισχυρά θεμελιώδη στοιχεία μοντελοποίησης. Δομές όπως οι rdfs:class (η κλάση όλων των κλάσεων) και rdf:property (η κλάση όλων των ιδιοτήτων) είναι πολύ εκφραστικές και θα οδηγούσαν σε ανεξέλεγκτες υπολογιστικές ιδιότητες, αν η επέκταση της λογικής γινόταν με τέτοια εκφραστικά θεμελιώδη στοιχεία. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 47

48 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Τρεις υπογλώσσες της OWL Το πλήρες σύνολο των απαιτήσεων για μια γλώσσα οντολογιών μοιάζει ανέφικτο: αποδοτική υποστήριξη συλλογισμών και ευκολία στην έκφραση για μια γλώσσα τόσο ισχυρή όσο είναι ο συνδυασμός του RDF Schema με μια πλήρη λογική [12]. Πράγματι, οι απαιτήσεις αυτές ώθησαν την Ομάδα Εργασίας Οντολογιών Ιστού του οργανισμού W3C να ορίσει την OWL ως τρεις διαφορετικές υπογλώσσες, καθεμία από τις οποίες έχει προσαρμοστεί να ανταποκρίνεται σε διαφορετικές πτυχές του πλήρους συνόλου των απαιτήσεων. H OWL Lite έχει σχεδιαστεί για την έκφραση ιεραρχιών ταξινόμησης και απλών περιορισμών ιδιοτήτων. Για παράδειγμα, ενώ η OWL Lite υποστηρίζει περιορισμούς πληθικότητας, οι μόνες τιμές που επιτρέπονται είναι 0 ή 1. Είναι πιο εύκολο να σχεδιαστούν εργαλεία και να αντιστοιχιστούν θησαυροί όρων και ταξινομίες στην OWL Lite από ότι στα άλλα εκφραστικότερα επίπεδα Η OWL DL υποστηρίζει τη μέγιστη δυνατή εκφραστικότητα, χωρίς την απώλεια της αποφασισιμότητας. Η OWL DL ονομάζεται έτσι λόγων της αντιστοιχίας της με τις Λογικές Περιγραφής. Η OWL Full προορίζεται για χρήστες που επιθυμούν μέγιστη εκφραστικότητα και την πλήρη εκφραστική ελευθερία του RDF χωρίς όμως εγγυήσεις επιλυσιμότητας. Για παράδειγμα η OWL Full επιτρέπει σε μια κλάση να ορίζεται ως συλλογή ατόμων και συγχρόνως να θεωρείται άτομο η ίδια (πράγμα που οδηγεί σε κυκλικούς ορισμούς εννοιών και επομένως σε μη αποφασισιμότητα). Θεωρείται απίθανο ότι κάποιο σύστημα συλλογισμού θα μπορέσει ποτέ να υποστηρίξει όλα τα χαρακτηριστικά της OWL Full. Η OWL DL και η OWL Full χρησιμοποιούν το ίδιο λεξιλόγιο, αλλά η OWL DL υπάγεται σε κάποιους περιορισμούς, κυριότερος από τους οποίους είναι η απαίτηση για διαχωρισμό των τύπων: μια κλάση δε μπορεί να είναι συγχρόνως άτομο ή ιδιότητα και μια ιδιότητα δε μπορεί να είναι συγχρόνως άτομο ή κλάση. Όσο αφορά τη σχέση με τo RDF, η OWL Full δε μπορεί να θεωρηθεί επέκταση του RDF, ενώ οι OWL Lite και η OWL DL μπορούν να θεωρηθούν επεκτάσεις μιας περιορισμένης όψης του RDF: Κάθε έγγραφο OWL (Lite, DL, Full) είναι έγγραφο RDF και κάθε έγγραφο RDF είναι ένα έγγραφο OWL Full Σύνταξη της γλώσσας OWL Η OWL στηρίζεται στο RDF Schema και το RDF και χρησιμοποιεί τη σύνταξη XML του RDF [12]. Θα καταστεί σύντομα σαφές πως οι RDF/XML δεν παρέχουν ευανάγνωστη σύνταξη. Για αυτό το λόγο, έχουν καθοριστεί και άλλες συντακτικές μορφές για την OWL: 48 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

49 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ Μια σύνταξη βασισμένη στο XML η οποία δεν ακολουθεί τη συμβατικότητα του RDF. Έτσι αυτή η σύνταξη καθίσταται ήδη σημαντικά ευκολότερη στην ανάγνωσή της από ανθρώπους. Μια αφηρημένη σύνταξη που χρησιμοποιείται στο έγγραφο γλωσσικών προδιαγραφών. Αυτή η σύνταξη είναι πιο ευανάγνωστη από τη σύνταξη του XML αλλά και από τη σύνταξη των RDF/XML. Μια γραφική σύνταξη που βασίζεται στη γλώσσα UML (Universal Modeling Language). Δεδομένου ότι η UML χρησιμοποιείται ευρέως, είναι εύκολο να εξοικειωθούν οι πολυάριθμοι χρήστες της με την OWL Κεφαλίδα Τα έγγραφα OWL αποκαλούνται συνήθως οντολογίες OWL και είναι έγγραφα RDF [12]. Το στοιχείο-ρίζα μιας οντολογίας OWL είναι ένα στοιχείο rdf:rdf, το οποίο καθορίζει επίσης έναν αριθμό από χώρους ονομάτων: <rdf:rdf xmlns:owl =" xmlns:rdf =" xmlns:rdfs=" xmlns:xsd =" Μια οντολογία OWL μπορεί να ξεκινάει με μια συλλογή ισχυρισμών (assertions) για λόγους «νοικοκυρέματος». Οι ισχυρισμοί αυτοί ομαδοποιούνται σε ένα στοιχείο owl:ontology, το οποίο περιέχει σχόλια, έλεγχο εκδόσεων, και προσθήκη άλλων οντολογιών. Για παράδειγμα, <owl:ontology rdf:about=""> <rdfs:comment>παράδειγμα οντολογίας OWL</rdfs:comment> <owl:priorversion rdf:resource=" <owl:imports rdf:resource=" <rdfs:label>university Ontology</rdfs:label> </owl:ontology> Ο μοναδικός ισχυρισμός που έχει οποιεσδήποτε συνέπειες για τη λογική έννοια της οντολογίας είναι το owl:imports, το οποίο απαριθμεί άλλες οντολογίες των οποίων το περιεχόμενο είναι μέρος των τρέχοντων εγγράφων οντολογίας. Αξίζει να παρατηρηθεί επίσης ότι ενώ τα namespaces χρησιμοποιούνται για λόγους αποσαφήνισης, οι εισαγόμενες οντολογίες παρέχουν ορισμούς που μπορούν να χρησιμοποιηθούν. Συνήθως γίνεται η εισαγωγή ενός στοιχείου για κάθε ένα ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 49

50 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ χρησιμοποιούμενο namespace, αλλά είναι δυνατό να εισαχθούν και πρόσθετες οντολογίες, όπως για παράδειγμα οντολογίες που παρέχουν ορισμούς χωρίς την εισαγωγή οποιωνδήποτε νέων ονομάτων. Ας σημειωθεί επίσης ότι το owl:imports είναι μια μεταβατική ιδιότητα. Αν η οντολογία Α εισάγει την οντολογία Β και η οντολογία Β εισάγει την οντολογία C, τότε και η οντολογία Α εισάγει επίσης την οντολογία C Στοιχεία κλάσεων Οι κλάσεις ορίζονται με τη χρήση ενός στοιχείου owl:class [12]. Για παράδειγμα, μια κλάση associateprofessor (αναπληρωτής καθηγητής) μπορεί να οριστεί ως εξής: <owl:class rdf:id="associateprofessor"> <rdfs:subclassof rdf:resource="#academicstaffmember"/> </owl:class> Μπορούμε επίσης να δηλώσουμε ότι η κλάση αυτή είναι ξένη ως προς τις κλάσεις assistantprofessor (επίκουρος καθηγητής) και professor (καθηγητής), με χρήση στοιχείων owl:disjointwith. Τα στοιχεία αυτά μπορούν να περιέχονται στον προηγούμενο ορισμό, ή να προστεθούν με αναφορά στο ID, χρησιμοποιώντας το χαρακτηριστικό rdf:about. Ο μηχανισμός αυτός κληρονομείται από τo RDF. <owl:class rdf:about="#associateprofessor"> <owl:disjointwith rdf:resource="#professor"/> <owl:disjointwith rdf:resource="#assistantprofessor"/> </owl:class> Η ισοδυναμία κλάσεων μπορεί να οριστεί μέσω του στοιχείου owl:equivalentclass: <owl:class rdf:id="faculty"> <owl:equivalentclass rdf:resource="#academicstaffmember"/> </owl:class> Τέλος, υπάρχουν δύο προκαθορισμένες κλάσεις, οι owl:thing και owl:nothing. Η πρώτη είναι η πιο γενική κλάση, που περιέχει τα πάντα (τα πάντα είναι και αυτά ένα «πράγμα») και η τελευταία είναι η κενή κλάση. Επομένως, κάθε κλάση είναι υποκλάση της owl:thing και υπερκλάση της owl:nothing Στοιχεία ιδιοτήτων Στην OWL, υπάρχουν δύο είδη ιδιοτήτων [12]: 50 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

51 ΠΕΡΙΓΡΑΦΉ ΠΌΡΩΝ ΙΣΤΟΎ Ιδιότητες αντικειμένου, οι οποίες συσχετίζουν αντικείμενα με άλλα αντικείμενα. Παραδείγματα αποτελούν οι ιδιότητες istaughtby (διδάσκεται από) και supervises(επιβλέπει). Ιδιότητες τύπου δεδομένων, οι οποίες συσχετίζουν αντικείμενα με τιμές ενός τύπου δεδομένων. Παραδείγματα αποτελούν οι ιδιότητες phone, title, και age. Η OWL δεν έχει προκαθορισμένους τύπους δεδομένων, ούτε και παρέχει ειδικές λειτουργίες ορισμού. Αντιθέτως, επιτρέπει τη χρήση των τύπων δεδομένων της γλώσσας XML Schema, αξιοποιώντας έτσι τη διαστρωματωμένη αρχιτεκτονική του Σημασιολογικού Ιστού. Ακολουθεί ένα παράδειγμα ιδιότητας τύπου δεδομένων: <owl:datatypeproperty rdf:id="age"> <rdfs:range rdf:resource=" #nonnegativeinteger"/> </owl:datatypeproperty> Οι τύποι δεδομένων που ορίζονται από το χρήστη θα συλλέγονται συνήθως σε ένα σχήμα XML και θα χρησιμοποιούνται στη συνέχεια σε μια οντολογία OWL. Ένα παράδειγμα μιας ιδιότητας αντικειμένου είναι το εξής: <owl:objectproperty rdf:id="istaughtby"> <rdfs:domain rdf:resource="#course"/> <rdfs:range rdf:resource="#academicstaffmember"/> <rdfs:subpropertyof rdf:resource="#involves"/> </owl:objectproperty> Μπορούν να δηλωθούν περισσότερα από ένα πεδία ορισμού και σύνολα τιμών. Σε αυτή την περίπτωση, παίρνουμε την τομή των πεδίων ορισμού και των συνόλων τιμών, αντίστοιχα. Η OWL επιτρέπει τη συσχέτιση αντίστροφων ιδιοτήτων. Ένα χαρακτηριστικό παράδειγμα είναι το ζεύγος istaughtby και teaches: <owl:objectproperty rdf:id="teaches"> <rdfs:range rdf:resource="#course"/> <rdfs:domain rdf:resource="#academicstaffmember"/> <owl:inverseof rdf:resource="#istaughtby"/> </owl:objectproperty> ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 51

52 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Σχήμα 8: Αντίστροφες Ιδιότητες Στην παραπάνω εικόνα απεικονίζεται η σχέση ανάμεσα σε μια ιδιότητα και την αντίστροφή της. Για την ακρίβεια, το πεδίο ορισμού και το σύνολο τιμών μπορούν να κληρονομηθούν από την αντίστροφη ιδιότητα (εναλλαγή του πεδίου ορισμού με το σύνολο τιμών). Η ισοδυναμία των ιδιοτήτων μπορεί να οριστεί με τη χρήση του στοιχείου owl:equivalentproperty. <owl:objectproperty rdf:id="lecturesin"> <owl:equivalentproperty rdf:resource="#teaches"/> </owl:objectproperty> 3.4 ΣΥΝΟΨΗ Σε αυτό το κεφάλαιο έγινε μια εισαγωγή στο Πλαίσιο Περιγραφής Πόρων καθώς και στις βασικές αρχές που διέπουν το προγραμματιστικό του μοντέλο. Ταυτόχρονα αναλύθηκαν οι γλώσσες SRARQL και OWL, που χρησιμεύουν για την υποβολή ερωτημάτων σημασιολογικής φύσεως και για την αναπαράσταση γνώσης και συσχετίσεων αντίστοιχα. Στο κεφάλαιο που ακολουθεί θα γίνει μια εισαγωγή στους τομείς της Βιολογίας και της Βιοπληροφορικής, που συνδέονται άμεσα με το αντικείμενο της παρούσας εργασίας. 52 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

53 ΒΙΟΛΟΓΊΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΉ Κ Ε Φ Α Λ Α Ι Ο 4 : Β Ι Ο Λ Ο Γ Ι Α Κ Α Ι Β Ι Ο Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 53

54 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ ΒΙΟΛΟΓΙΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σε αυτό το κεφάλαιο θα γίνει μια σύντομη εισαγωγή στους κλάδους της Βιολογίας και της Βιοπληροφορικής και θα αναλυθούν κάποιες βασικές εισαγωγικές έννοιές τους. Πιο αναλυτικά, γίνεται μια σύντομη ιστορική αναδρομή, αναλύονται κάποιοι βασικοί σημαντικοί όροι της Βιολογίας (πρωτεΐνες, αμινοξέα, DNA, RNA, γονιδίωμα), παρουσιάζεται το κεντρικό δόγμα της Μοριακής Βιολογίας, παρουσιάζονται οι αλληλουχίες του γενετικού υλικού και περιγράφονται οι βασικοί στόχοι και οι ερευνητικές περιοχές της Βιοπληροφορικής. 4.1 ΕΙΣΑΓΩΓΗ H Βιοπληροφορική αποτελεί ένα διεπιστημονικό πεδίο που αναπτύσσει μεθόδους και λογισμικό για την κατανόηση βιολογικών δεδομένων. Ως διεπιστημονικός κλάδος, η Βιοπληροφορική συνδυάζει την επιστήμη των υπολογιστών, τη στατιστική, τα μαθηματικά και τη μηχανική ώστε να αναλύσει και να μεταφράσει βιολογικά δεδομένα. Η Βιοπληροφορική αποτελεί πλέον ένα σημαντικό κομμάτι πολλών πεδίων της Βιολογίας. Στην πειραματική Μοριακή Βιολογία, τεχνικές Βιοπληροφορικής όπως η επεξεργασία εικόνας και σήματος επιτρέπουν τη συλλογή χρήσιμων αποτελεσμάτων από μεγάλες συλλογές δεδομένων. Στα πεδία της γενετικής και της γονιδιωματικής, συνεισφέρει στην δημιουργία αλληλουχιών και στη σήμανση γονιδιωμάτων καθώς και γνωστών μεταλλάξεών τους. Παίζει επίσης σημαντικό ρόλο στην εξόρυξη κειμένου άρθρων με βιολογικό περιεχόμενο καθώς και στην ανάπτυξη βιολογικών και γονιδιακών οντολογιών. Βιολογικά εργαλεία στοχεύουν στη σύγκριση γενετικής και γονιδιωματικής πληροφορίας. Σε γενικότερο πλαίσιο, βοηθάει στην ανάλυση και καταλογοποίηση βιολογικών μονοπατιών και δικτύων που αποτελούν σημαντικό κομμάτι του βιολογικού συστήματος. Στη Δομική Βιολογία, βοηθάει στην εξομοίωση και τη μοντελοποίηση του DNA, του RNA, των πρωτεϊνικών δομών καθώς και των μοριακών διαδράσεων. 4.2 ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ Ιστορικά, ο όρος Βιοπληροφορική δεν είχε το νόημα που έχει σήμερα. Οι Paulien Hogeweg και Ben Hesper χρησιμοποίησαν τον όρο το 1970 για να αναφερθούν στη μελέτη των πληροφοριακών διεργασιών στα βιοτικά συστήματα [13]. Αυτός ο ορισμός όμως έθετε την Βιοπληροφορική σε παράλληλη τροχιά με τομείς όπως η βιοφυσική (η μελέτη φυσικών διεργασιών σε βιολογικά συστήματα) ή η βιοχημεία (η μελέτη χημικών διεργασιών σε βιολογικά συστήματα). 54 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

55 ΒΙΟΛΟΓΊΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΉ 4.3 ΣΗΜΑΝΤΙΚΟΙ ΟΡΟΙ Πρωτεΐνη Αποτελεί μία πολύπλοκη, υψηλού μοριακού βάρους οργανική ένωση που αποτελείται από αμινοξέα ενωμένα με πεπτιδικούς δεσμούς [14]. Πολλές πρωτεΐνες είναι ένζυμα ή υπομονάδες ενζύμων που καταλύουν χημικές αντιδράσεις. Παράλληλα κάποιες άλλες πρωτείνες παίζουν δομικό ή μηχανικό ρόλο, όπως αυτές που σχηματίζουν τις αντηρίδες και τις αρθρώσεις του κυτταροσκελετού, που λειτουργούν ως βιολογικά ικριώματα για τη μηχανική ακεραιότητα του κυττάρου. Τέλος κάποιες πρωτεϊνικές λειτουργίες περιλαμβάνουν την ανοσολογική απόκριση. Σχήμα 9: Η πρωτεϊνική δομή Σε ότι αφορά τη πρωτεϊνική λειτουργία, πρέπει να αναφερθεί πως οι πρωτεΐνες εμπλέκονται πρακτικά σε κάθε λειτουργία που εκτελείται από ένα κύτταρο, όπως είναι η ρύθμιση των κυτταρικών λειτουργιών, η μεταγωγή σήματος και ο μεταβολισμός. Η ζωή, χημικά, δεν είναι τίποτα παραπάνω από τη λειτουργία των πρωτεϊνών, παρ όλο που η πληροφορία για τη δημιουργία τους βρίσκεται στο DNA. Τα είδη των πρωτεϊνών είναι τα εξής: Ένζυμα, τα οποία είναι υπεύθυνα για την κατάλυση χιλιάδων χημικών ενώσεων ενός ζωντανού κυττάρου. Η κερατίνη, η ελαστίνη και το κολλαγόνο, οι οποίες αποτελούν σημαντικού τύπους δομικών και υποστηρικτικών πρωτεϊνών Η αιμοσφαιρίνη και άλλες πρωτεΐνες μεταφοράς Η ωολευκωματίνη, η καζεΐνη, και άλλα θρεπτικά μόρια ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 55

56 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Τα αντισώματα, τα οποία είναι μόρια του ανοσοποιητικού συστήματος Πρωτεϊνικές ορμόνες, οι οποίες ρυθμίζουν το μεταβολισμό Πρωτεΐνες που πραγματοποιούν μηχανική δουλειά, όπως η ακτίνη και η μυοσίνη, οι οποίες αποτελούν τις συσταλτικές πρωτεΐνες των μυών Αμινοξέα Αποτελούν τη βασική δομική μονάδα των πρωτεϊνών. Σχηματίζουν μικρές αλυσίδες πολυμερών που ονομάζονται πεπτίδια ή πολυπεπτίδια τα οποία με τη σειρά τους σχηματίζουν δομές που ονομάζονται πρωτείνες. Η διαδικασία αυτής της δημιουργίας είναι γνωστή και ως μετάφραση, η οποία αποτελεί κομμάτι της πρωτεϊνικής σύνθεσης DNA Το δεοξυριβονουκλεϊκό οξύ (DNA) [14] είναι ένα νουκλεϊκό οξύ συνήθως με τη μορφή μιας διπλής έλικας το οποίο περιλαμβάνει της γενετικές οδηγίες εκείνες που είναι υπεύθυνες για το καθορισμό της βιολογικής ανάπτυξης όλων των κυτταρικών μορφών ζωής. Αποτελείται από δύο βάσεις που σχηματίζουν τη διπλή αλυσίδα του DNA. Ένα νουκλεοτίδιο DNA αποτελείται από ένα μόριο ζάχαρης και ένα μόριο φωσφορικού οξέος. Τα γράμματα κωδικοποίησης στο DNA είναι τα Α, Τ, G και C, που αντιπροσωπεύουν τα χημικά αδενίνη (adenine), θυμίνη (thymine), γουανίνη (guanine) και κυτοσίνη (cytosine) αντίστοιχα. Στην αντιστοίχιση βάσεων, η αδενίνη πάντα ενώνεται με τη θυμίνη και η γουανίνη με την κυτοσίνη. 56 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

57 ΒΙΟΛΟΓΊΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΉ Σχήμα 10: Η διπλή έλικα του DNA RNA To ριβονουκλεϊκό οξύ (RNA), όπως το DNA, είναι ένα πολυμερές που αποτελείται από νουκλεοτίδια ενωμένα με φωσφοδιεστερικούς δεσμούς [14]. Τα RNA νουκλεοτίδια περιλαμβάνουν δαχτυλίδια ριβόζης και ουρακίλης σε αντίθεση με το δεοξυριβονουκλεϊκό οξύ (DNA), το οποίο περιέχει δεοξυριβώση και θυμίνη. To RNA μεταγράφεται από το DNA με τη βοήθεια ενός ενζύμου που ονομάζεται RNAπολυμεράση και στη συνέχεια υπόκειται σε περαιτέρω επεξεργασία από άλλα ένζυμα. Το RNA λειτουργεί ως πρότυπο για τη μετάφραση γονιδίων σε πρωτείνες, μεταφέροντας αμινοξέα προς το ριβόσωμα για το σχηματισμό πρωτεϊνών και μεταφράζοντας το αντίγραφο σε πρωτεΐνες Γονιδίωμα Το γενετικό υλικό ενός κυττάρου αποτελεί το γονιδίωμά του [15]. Τα κύτταρα στα οποία το γονιδίωμα υπάρχει σε ένα μόνο αντίγραφο, όπως είναι τα προκαρυωτικά κύτταρα και οι γαμέτες των διπλοειδών οργανισμών, ονομάζονται απλοειδή. Τα κύτταρα στα οποία το γονιδίωμα υπάρχει σε δύο αντίγραφα, όπως είναι τα σωματικά κύτταρα των ανώτερων ευκαρυωτικών οργανισμών, ονομάζονται διπλοειδή. Στα ευκαρυωτικά κύτταρα το γενετικό υλικό κατανέμεται στον πυρήνα, στα μιτοχόνδρια και στους χλωροπλάστες. Συνήθως όμως ο όρος γονιδίωμα αναφέρεται στο γενετικό υλικό που βρίσκεται στον πυρήνα. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 57

58 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Για την περιγραφή του μήκους ή της αλληλουχίας ενός νουκλεϊκού οξέος χρησιμοποιείται ο όρος αριθμός ή αλληλουχία βάσεων αντίστοιχα. Στην πραγματικότητα εννοούμε τον αριθμό ή την ακολουθία των νουκλεοτιδίων του νουκλεϊκού οξέος. Η απλούστευση αυτή γίνεται γιατί το μόνο τμήμα του νουκλεοτιδίου που αλλάζει είναι η αζωτούχος βάση. Έτσι αναφέρεται ότι ένα μόριο DNA έχει μήκος ζεύγη βάσεων, επειδή είναι δίκλωνο, ενώ ένα μόριο mrna έχει μήκος βάσεις επειδή είναι μονόκλωνο. 4.4 ΤΟ ΚΕΝΤΡΙΚΟ ΔΟΓΜΑ ΤΗΣ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Το DNA ενός οργανισμού είναι ο μοριακός «σκληρός δίσκος» που περιέχει αποθηκευμένες ακριβείς οδηγίες, οι οποίες καθορίζουν τη δομή και τη λειτουργία του οργανισμού [15]. Ταυτόχρονα περιέχει την πληροφορία για τον αυτοδιπλασιασμό του, εξασφαλίζοντας έτσι τη μεταβίβαση των γενετικών οδηγιών από ένα κύτταρο στα θυγατρικά του και από έναν οργανισμό στους απογόνους του. Το πρώτο βήμα για την έκφραση της πληροφορίας που υπάρχει στο DNA είναι η μεταφορά της στο RNA με τη διαδικασία της μεταγραφής. Το RNA μεταφέρει με τη σειρά του, μέσω της διαδικασίας της μετάφρασης, την πληροφορία στις πρωτεΐνες που είναι υπεύθυνες για τη δομή και λειτουργία των κυττάρων και κατ' επέκταση και των οργανισμών. Η σχέση αυτή συνοψίζεται στο ακόλουθο σχήμα, όπου τα βέλη δείχνουν την κατεύθυνση της μεταφοράς της γενετικής πληροφορίας: Σχήμα 11: Το κεντρικό δόγμα της μοριακής βιολογίας Το σχήμα αυτό αποτελεί το κεντρικό δόγμα της Μοριακής Βιολογίας όπως ονομάστηκε από τον F. Crick (1958). Η γενετική πληροφορία είναι η καθορισμένη σειρά των βάσεων, όπως η πληροφορία μιας γραπτής φράσης είναι η σειρά των γραμμάτων που την αποτελούν. Η πληροφορία υπάρχει σε τμήματα του DNA με συγκεκριμένη ακολουθία, τα γονίδια. Αυτά, διά μέσου της μεταγραφής και της μετάφρασης, καθορίζουν τη σειρά των αμινοξέων στην πρωτεΐνη. Οι πορείες της μεταγραφής και της μετάφρασης των γονιδίων αποτελούν τη γονιδιακή έκφραση. Έτσι σήμερα το κεντρικό δόγμα περιγράφεται ως εξής: 58 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

59 ΒΙΟΛΟΓΊΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΉ Σχήμα 12: Το κεντρικό δόγμα της μοριακής βιολογίας σήμερα 4.5 ΑΛΛΗΛΟΥΧΙΕΣ ΓΕΝΕΤΙΚΟΥ ΥΛΙΚΟΥ Οι ηλεκτρονικοί υπολογιστές έγιναν απαραίτητα εργαλεία στη Μοριακή Βιολογία όταν αλληλουχίες πρωτεϊνών έγιναν διαθέσιμες προς μελέτη όταν ο Frederick Sanger προσδιόρισε την αλληλουχία της ινσουλίνης στις αρχές της δεκαετίας του 1950 [15]. Η σύγκριση πολλαπλών αλληλουχιών χειροκίνητα σύντομα αποδείχθηκε μη-πρακτική και χρονοβόρα. Ένας πρωτεργάτης στο τομέα της Βιοπληροφορικής ήταν ο Margaret Oakley Dayhoff, στον οποίο έχει αποδοθεί ο τίτλος «μητέρα και πατέρας της Βιοπληροφορικής». Ο Dayhoff κατήρτισε μία από τις πρώτες βάσεις δεδομένων που περιείχαν αλληλουχίες πρωτεϊνών, η οποία αρχικά εκδόθηκε σε βιβλίο. Σημαντική συνεισφορά στον τομέα είχε και ο Elvin A. Kabat, ο οποίος πρωτοστάτησε στην ανάλυση βιολογιών αλληλουχιών το Α Τ G A C G T G G G G A 3 3 T A C T G C A C C C C T 5 Πίνακας 2: Αλληλουχίες γενετικού υλικού χρησιμοποιούνται συχνά στη Βιοπληροφορική και η διαχείρισή τους είναι ευκολότερο με τη χρήση ηλεκτρονικών υπολογιστών παρά χειροκίνητα 4.6 ΣΤΟΧΟΙ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ Για να μελετήσει κανείς τον τρόπο που οι κυτταρικές δραστηριότητες τροποποιούνται στα διάφορα στάδια μιας ασθένειας, τα βιολογικά δεδομένα πρέπει να συνδυαστούν ώστε να σχηματίσουν μια ευκατανόητη εικόνα αυτών των δραστηριοτήτων. Συνεπώς, το πιο σημαντικό έργο πλέον του τομέα της Βιοπληροφορικής είναι η ανάλυση και διερμηνεία διάφορων τύπων δεδομένων. Αυτό περιλαμβάνει αλληλουχίες νουκλεοτιδίων, αμινοξέων και πρωτεϊνικές δομές. Η διαδικασία ανάλυσης και διερμηνείας των δεδομένων αναφέρεται ως Υπολογιστική Βιολογία. Σημαντικοί υποκλάδοι του τομέα της Βιοπληροφορικής και της Υπολογιστικής Βιολογίας περιλαμβάνουν: ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 59

60 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Την ανάπτυξη και υλοποίηση προγραμμάτων που επιτρέπουν την αποδοτική πρόσβαση και διαχείριση πληροφορίας Την ανάπτυξη νέων αλγορίθμων και στατιστικών μέτρων που ελέγχουν για την ύπαρξη αλληλοσυσχετίσεων ανάμεσα σε μέλη μεγάλων σετ δεδομένων. Ένα τέτοιο παράδειγμα αποτελούν οι μέθοδοι για τον εντοπισμό ενός γονιδίου μέσα σε μία αλληλουχία για την πρόβλεψη της πρωτεϊνικής δομής και οι μέθοδοι συσταδοποίησης (clustering) πρωτεϊνικών αλληλουχιών μέσα σε οικογένειες αλληλουχιών που σχετίζονται μεταξύ τους. Ο πιο σημαντικός στόχος της Βιοπληροφορικής είναι η αύξηση της κατανόησης των διάφορων βιολογικών διεργασιών. Αυτό που τη διαχωρίζει όμως από τις υπόλοιπες προσεγγίσεις, είναι το γεγονός πως επικεντρώνεται στην ανάπτυξη και εφαρμογή υπολογιστικά εντατικών τεχνικών για την επίτευξη των στόχων της. Παραδείγματα περιλαμβάνουν: την αναγνώριση προτύπων (pattern recognition), την εξόρυξη δεδομένων (data mining), τους αλγόριθμους μηχανικής μάθησης (machine learning algorithms). Σημαντικές ερευνητικές προσπάθειες στο τομέα της Βιοπληροφορικής περιλαμβάνουν τη στοίχιση ακολουθιών (sequence alignment), την εύρεση γονιδίων (gene finding), τη συναρμολόγηση του γονιδιώματος (genome assembly), το σχεδιασμό φαρμάκων (drug design), την ανακάλυψη φαρμάκων (drug discovery), τη στοίχιση πρωτεϊνικών δομών (protein structure alignment), τη πρόβλεψη πρωτεϊνικών δομών (protein structure prediction), τη πρόβλεψη της γονιδιακής έκφρασης (prediction of gene expression) και τη μοντελοποίηση της εξέλιξης (modeling of evolution). H Βιοπληροφορική πλέον απαιτεί τη δημιουργία και την εξέλιξη βάσεων δεδομένων, αλγορίθμων, υπολογιστικών και στατιστικών τεχνικών, και θεωρία για την επίλυση προβλημάτων που διεγείρονται από τη διαχείριση και ανάλυση βιολογικών δεδομένων. 4.7 ΕΡΕΥΝΗΤΙΚΕΣ ΠΕΡΙΟΧΕΣ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ Στην παρούσα παράγραφο θα παρουσιαστούν οι πιο σημαντικές ερευνητικές περιοχές της Βιοπληροφορικής [16]: 1. Ανάλυση αλληλουχιών: Στο αρχικό στάδιο τα δεδομένα αναλύονται για να καθοριστούν τα γονίδια που κωδικοποιούνται ως πρωτεΐνες. Στη συνέχεια με μια σύγκριση γονιδίων ανάμεσα σε ένα είδος ή ανάμεσα σε διαφορετικά είδη μπορούν να φανούν ομοιότητες σε πρωτεϊνικές λειτουργίες, ή σχέσεις ανάμεσα σε είδη. Η διαδικασία επιτυγχάνεται με την ευθυγράμμιση των αλληλουχιών και έπειτα πραγματοποιείται αυτοματοποιημένη αναζήτηση για γονίδια μέσα σε ένα γονιδίωμα 2. Σήμανση γονιδιώματος: Ονομάζεται η διαδικασία προσάρτησης βιολογικής πληροφορίας σε αλληλουχίες. Αποτελείται από δύο κύρια βήματα. Πρώτα, 60 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

61 ΒΙΟΛΟΓΊΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΉ γίνεται αναγνώριση στοιχείων του γονιδιώματος και στη συνέχεια προσαρτώνται βιολογικά δεδομένα σε αυτά τα στοιχεία. 3. Υπολογιστική Εξελικτική Βιολογία: Ιχνηλατεί την εξέλιξη μεγάλου αριθμού οργανισμών μετρώντας τις αλλαγές στο DNA τους, αντί να χρησιμοποιεί μόνο τη φυσιολογική ταξινόμηση των οργανισμών. Επιπλέον χτίζει πολύπλοκα υπολογιστικά μοντέλα πληθυσμών για την πρόβλεψη του συστήματος σε βάθος χρόνου 4. Υπολογισμός της βιοποικιλότητας: Με τη βοήθεια βάσεων δεδομένων, συλλέγονται τα ονόματα των ειδών, περιγραφές, μεγέθη και κατανομές πληθυσμών, γενετικές πληροφορίες, πληθυσμιακές ανάγκες καθώς και ο τρόπος που κάθε οργανισμός αλληλεπιδρά με άλλα είδη. Στη συνέχεια ειδικά λογισμικά χρησιμοποιούνται για την εύρεση, την οπτικοποίηση και την ανάλυση της πληροφορίας και δημιουργούνται εξομοιώσεις που μοντελοποιούν φαινόμενα όπως η δυναμική των πληθυσμών (population dynamics) ή ο απειλούμενος πληθυσμός (endangered population). 5. Ανάλυση γονιδιακής έκφρασης: Η έκφραση πολλών γονιδίων μπορεί να προκαθορισθεί από τη μέτρηση των επιπέδων mrna με πολλές τεχνικές που περιλαμβάνουν μικροπίνακες (microarrays) κτλ. Αυτές οι τεχνικές είναι εξαιρετικά επιρρεπείς σε θόρυβο, και ως αποτέλεσμα πραγματοποιείται σημαντική έρευνα για την ανάπτυξη εργαλείων για τον αποχωρισμό του θορύβου. 6. Ανάλυση πρωτεϊνικής έκφρασης: Η Βιοπληροφορική ασχολείται ευρέως με την κατανόηση των δεδομένων που προέρχονται από δεδομένα HT MS. Αυτό περιλαμβάνει την αντιστοίχιση μαζικών δεδομένων με αλληλουχίες πρωτεινικών δομών που βρίσκονται αποθηκευμένες σε βιολογικές βάσεις δεδομένων, τη στατιστική ανάλυση πολλών αλλά ατελών δειγμάτων πεπτιδίων από κάθε πρωτεΐνη που εντοπίζεται. 7. Πρόβλεψη δομής: Μία από τις βασικές ιδέες της Βιοπληροφορικής είναι η έννοια της ομολογίας (homology). Στο γενωμικό κλάδο της Βιοπληροφορικής, η ομολογία χρησιμοποιείται για την πρόβλεψη της λειτουργίας ενός γονιδίου: αν η αλληλουχία του γονιδίου Α, του οποίου η λειτουργία είναι γνωστή, είναι ομόλογη με την αλληλουχία του γονιδίου Β, του οποίου η λειτουργία είναι άγνωστη, μπορούμε να συμπεράνουμε πως το γονίδιο Β ενδέχεται να έχει παρόμοια λειτουργία με το γονίδιο Β. Στο δομικό κλάδο της Βιοπληροφορικής, η ομολογία χρησιμοποιείται για να καθορίσει ποια μέρη της πρωτεΐνης είναι σημαντικά για το σχηματισμό δομής και στην αλληλεπίδραση με άλλες πρωτεΐνες. Σε μια τεχνική που ονομάζεται μοντελοποίηση ομολογίας, αυτή η πληροφορία χρησιμοποιείται για την πρόβλεψη της δομής μιας πρωτεΐνης, όταν η δομή μιας ομόλογης πρωτεΐνης είναι ήδη γνωστή. Αυτή παραμένει ακόμα και σήμερα η μόνη αξιόπιστη μέθοδος πρόβλεψης πρωτεϊνικών δομών. 8. Συγκριτική γενωμική: Η συγκριτική γενωμική ασχολείται με την σύγκριση αλληλουχιών γονιδιώματος διαφορετικών οργανισμών, με σκοπό την εύρεση βαθύτερων εξελικτικών σχέσεων μεταξύ τους. Για παράδειγμα έχει βρεθεί ότι ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 61

62 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ η διαφορά στο γονιδίωμα μεταξύ ανθρώπου και ποντικού είναι μόλις μεταξύ του 5% και 15%. Άμεσο όφελος της ανακάλυψης αυτής είναι να χρησιμοποιούνται ποντίκια για ιατρικές έρευνες που αφορούν ανθρώπους. 4.8 ΣΥΝΟΨΗ Σε αυτό το κεφάλαιο έγινε μια εισαγωγή στους τομείς της Βιολογίας και της Βιοπληροφορικής και αναλύθηκαν διεξοδικά κάποιες βασικές εισαγωγικές έννοιές τους. Στο κεφάλαιο που ακολουθεί, θα αναλυθούν τα εργαλεία που χρησιμοποιήθηκαν για την υλοποίηση της παρούσας εργασίας. 62 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

63 ΕΡΓΑΛΕΊΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΉΘΗΚΑΝ Κ Ε Φ Α Λ Α Ι Ο 5 : Ε Ρ ΓΑ Λ Ε Ι Α Π Ο Υ Χ Ρ Η Σ Ι Μ Ο Π Ο Ι Η Θ Η Κ Α Ν ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 63

64 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ Στο κεφάλαιο που ακολουθεί γίνεται μια παρουσίαση των εργαλείων που χρησιμοποιήθηκαν για την υλοποίηση της εργασίας, όπως είναι η Gene Ontology, το προγραμματιστικό πλαίσιο Jena της Java και η DBpedia. 5.1 GENE ONTOLOGY (GO) Εισαγωγή Το Gene Ontology Project ξεκίνησε το 1998 από μια ομάδα ερευνητών που μελετούσε το γονιδίωμα της Drosophila melanogaster, του Mus musculus και του Saccharomyces cerevisiae και αποτελεί μια συλλογική προσπάθεια αντιμετώπισης της ανάγκης για συνεπείς περιγραφές των γονιδιακών προϊόντων που βρίσκονται αποθηκευμένα σε διάφορες βάσεις δεδομένων [17]. To project ως σκοπό έχει: Τη διατήρηση και την ανάπτυξη του λεξιλογίου της για γονίδια και για τις ιδιότητες των γονιδιακών τους προϊόντων Τη σήμανση (annotation) των γονιδίων και των γονιδιακών τους προϊόντων καθώς και την αφομοίωση και διάδοση των δεδομένων της σήμανσης Να προσφέρει εργαλεία για εύκολη πρόσβαση σε όλη την πληροφορία που παρέχεται από το project Η Gene Ontology αποτελεί μέρος μιας ευρύτερης προσπάθειας ταξινόμησης βιοϊατρικών δεδομένων, που ονομάζεται Open Biomedical Ontologies (OBO). Παρόλο που με η ονοματολογία των γονιδίων σκοπεύει και η ίδια στη διατήρηση και ανάπτυξη λεξιλογίου για γονίδια και για τα γονιδιακά τους προϊόντα, η Gene Ontology επεκτείνει αυτή την προσπάθεια χρησιμοποιώντας γλώσσα σήμανσης για να κάνει όλα τα δεδομένα (όχι μόνο τα γονίδια και τα προϊόντα τους αλλά επίσης και όλες τις ιδιότητές τους) αναγνώσιμα από μηχανές και υπολογιστές (machine readable) με έναν τρόπο ο οποίος θα είναι ενοποιημένος για όλα τα είδη των οργανισμών. Εικόνα 1: Παράδειγμα οργάνωσης οντολογιών στην GO Ontology 64 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

65 ΕΡΓΑΛΕΊΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΉΘΗΚΑΝ Όροι και οντολογία Από πρακτικής άποψης, μια οντολογία αποτελεί την αναπαράσταση μιας οντότητας για την οποία γνωρίζουμε κάτι. Όπως αναφέρθηκε και στο παραπάνω κεφάλαιο, οι οντολογίες αποτελούνται από αναπαραστάσεις εννοιών οι οποίες είναι ανιχνεύσιμες ή άμεσα παρατηρήσιμες. Παρ όλα αυτά στον τομέα της Βιολογίας και στις παρεμφερείς επιστήμες, δεν υπάρχει κάποιο καθολικό πρότυπο ορολογίας. Οι διάφορες χρήσεις των όρων μπορεί να είναι συγκεκριμένες για κάποιο είδος ή για κάποιον τομέα έρευνας. Αυτό το γεγονός καθιστά την επικοινωνία και το διαμοιρασμό των δεδομένων πιο δύσκολο. Το project της Gene Ontology παρέχει μια οντολογία όρων οι οποίοι αναπαριστούν ιδιότητες των γονιδιακών προϊόντων. Η οντολογία καλύπτει τρία πεδία: Κυτταρικό συστατικό (cellular component): τα μέλη ενός κυττάρου ή του εξωκυτταρικού περιβάλλοντός του, Μοριακή λειτουργία (molecular function): Οι στοιχειώδεις δραστηριότητες ενός γονιδιακού προϊόντος στο μοριακό επίπεδο, Βιολογικές διεργασίες (biological processes): διεργασίες με προκαθορισμένη αρχή και τέλος που σχετίζονται με τη λειτουργία των ενσωματωμένων ζωντανών υπομονάδων: κύτταρα, ιστοί, όργανα και οργανισμοί Κάθε όρος της GO έχει ένα όνομα, το οποίο μπορεί να είναι μια λέξη ή μια συμβολοσειρά λέξεων ένα μοναδικό αλφαριθμητικό αναγνωστικό ένας ορισμός με παρατιθέμενες πηγές ή ένας χώρος ονομάτων (namespace) που υποδηλώνει τον τομέα στον οποίο ανήκει. Οι όροι μπορούν επίσης να έχουν συνώνυμα αναφορές σε ισοδύναμες έννοιες που βρίσκονται σε διαφορετική βάση δεδομένων και σχόλια που να υποδεικνύουν το νόημα του όρου ή τη χρήση του. Η οντολογία GO έχει τη δομή ενός κατευθυνόμενου ακυκλικού γράφου (directed acyclic graph) και κάθε όρος έχει προκαθορισμένες σχέσεις με έναν ή περισσότερους όρους του ίδιου ή και διαφορετικού τομέα. Το λεξιλόγιο της GO έχει οριστεί για να είναι ανεξάρτητο από το είδος του οργανισμού, και περιλαμβάνει όρους που είναι εφαρμόσιμοι τόσο σε προκαρυωτικούς και ευκαρυωτικούς οργανισμούς, όσο και σε μονοκύτταρους και πολυκύτταρους οργανισμούς. Η GO δεν είναι στατική, καθώς προτείνονται συνεχώς διορθώσεις, προσθήκες και τροποποιήσεις από μέλη της ερευνητικής κοινότητας καθώς και από την ομάδα ατόμων που είναι υπεύθυνη για τη δημιουργία και συντήρηση της GO. Για παράδειγμα, κάποιος χρήστης μπορεί να ζητήσει κάποιος συγκεκριμένος όρος να αναπαριστά ένα μεταβολικό μονοπάτι διαφορετικό από αυτό που αναπαριστά μέχρι στιγμής. Οι υπεύθυνοι για την εκάστοτε οντολογία. Οι προτεινόμενες τροποποιήσεις εξετάζονται από τους υπεύθυνους και πραγματοποιούνται οι μετατροπές που κρίνονται κατάλληλες Go Slim Ontology H GO slim ontology αποτελεί ένα υποσύνολο των όρων της οντολογίας. Η GO slim παρέχει μια ευρεία σύνοψη του περιεχομένου της οντολογίας με μικρότερη ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 65

66 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ λεπτομέρεια από την κανονική οντολογία. H GO slim generic είναι κατάλληλη για τις περισσότερες εφαρμογές και αποτελεί την οντολογία η οποία χρησιμοποιήθηκε στην εργασία. Εικόνα 2: Παράδειγμα όρου στην GO slim generic 5.2 ΤΟ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΛΑΙΣΙΟ JENA Εισαγωγή στη Jena Στην παρούσα ενότητα εξηγούνται αρχικά οι λόγοι για τους οποίους απαιτείται ένα προγραμματιστικό πλαίσιο, και αναλύονται τα στάδια που διέπουν την εξέλιξη της πληροφορίας στο Σημασιολογικό Ιστό. Στη συνέχεια παρουσιάζεται το προγραμματιστικό πλαίσιο Jena. Οι ενότητες που περιγράφονται σε αυτό, περιγράφουν τις κυριότερες δυνατότητες του και αντιστοιχούν στις προϋποθέσεις που οφείλει να πληροί ένα πλαίσιο Σημασιολογικού Ιστού Η απαίτηση για ένα προγραμματιστικό πλαίσιο Όπως έχει γίνει προφανές μέχρι στιγμής, ο Σημασιολογικός Ιστός περιστρέφεται γύρω από τα δεδομένα και τις σχέσεις τους. Κρίνεται απαραίτητη η ύπαρξη ενός πλαισίου επεξεργασίας το οποίο να μπορεί να μεταφράσει τις δομικές έννοιες του Σημασιολογικού Ιστού σε κλάσεις, αντικείμενα, μεθόδους και ιδιότητες, ώστε να εφαρμοστούν χρήσιμες πράξεις πάνω στα δεδομένα και να εξαχθούν χρήσιμα αποτελέσματα. Οι προϋποθέσεις που οφείλει να πληροί ένα τέτοιο πλαίσιο κινούνται σε δύο επίπεδα, αυτό του κύκλου ανάπτυξης της πληροφορίας και σε αυτό της διαχείρισής της. H ανάπτυξη της σημασιολογικής πληροφορίας ακολουθεί τα εξής στάδια [9]: 1. Αποθήκευση: Το πλαίσιο πρέπει να έχει στη διάθεσή του χώρο, τυπικά στη δυναμική μνήμη (RAM) ή σε βάσεις δεδομένων, για την αποθήκευση πληροφοριών Σημασιολογικού Ιστού. 2. Πληθυσμός: Το πλαίσιο γεμίζει τον αποθηκευτικό χώρο με δεδομένα Σημασιολογικού Ιστού που ανακτώνται από αρχεία, διαδικτυακές τοποθεσίες και βάσεις δεδομένων. 66 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

67 ΕΡΓΑΛΕΊΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΉΘΗΚΑΝ 3. Συνδυασμοί: Το πλαίσιο συνδυάζει τις πληροφορίες Σημασιολογικού Ιστού από πολλές πηγές για να δημιουργήσει προσθέσεις, ενώσεις, διαφορές και τομές όπως επίσης και για να ελέγχει για ισοδυναμίες ανάμεσα στις πηγές πληροφορίας. 4. Συμπερασμός: Το πλαίσιο επιτρέπει την εφαρμογή κανόνων συλλογιστικής στα δεδομένα Σημασιολογικού Ιστού, με αποτέλεσμα να προκύπτουν νέες πληροφορίες που βασίζονται σε τεκμήρια. 5. Ανάκριση: Το πλαίσιο ερευνά τα δεδομένα Σημασιολογικού Ιστού μέσω αναζήτησης και ερωτημάτων. Η αναζήτηση πραγματοποιείται μέσω απλής αντιστοίχισης. Τα ερωτήματα χρησιμοποιούν μια επίσημη γλώσσα ερωτημάτων. 6. Εξαγωγή: Το πλαίσιο παρέχει μεθόδους εξαγωγής της σημασιολογικής πληροφορίας σε διάφορες μορφές. 7. Αποδέσμευση Κλείσιμο: Το πλαίσιο αποδεσμεύει τη μνήμη που χρησιμοποιήθηκε και απελευθερώνει όποιους υπολογιστικούς πόρους χρησιμοποιήθηκαν Η ανάπτυξη της σημασιολογικής πληροφορίας φαίνεται συνοπτικά και στο παρακάτω σχήμα: Εικόνα 3: Η ανάπτυξη της σημασιολογικής πληροφορίας ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 67

68 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ H διαχείριση της σημασιολογικής πληροφορίας παρέχει [9] Γεγονότα: Το πλαίσιο υποδεικνύει την εμφάνιση γεγονότων όπως η προσθήκη ισχυρισμών στα δεδομένα ώστε να είναι εφικτός o οδηγούμενος από γεγονότα (event-driven) προγραμματισμός. Συγχρονισμός: Το πλαίσιο διαχειρίζεται πολλά νήματα και χρήστες οι οποίοι ταυτόχρονα Παραμετροποίηση: Το πλαίσιο επιτρέπει τη δημιουργία υποκατάστατων για εξειδικευμένες χρήσεις, όπως η τροποποίηση του μηχανισμού αποθήκευσης δεδομένων Το πλαίσιο Σημασιολογικού Ιστού της Jena Θα δούμε αρχικά κάποια βασικά συστατικά της Jena, η οποία υλοποιείται σε Java. To πλαίσιο Σημασιολογικού Ιστού της Jena διατηρεί μια συνεπή διαχείριση του Σημασιολογικού Δικτύου μέσω της χρήσης κλάσεων και μεταβλητών. Οι κυριότερες κλάσεις που υλοποιεί το πλαίσιο της Jena είναι οι εξής [9]: Resource: Μια κλάση που αναπαριστά ένα στοιχείο που περιέχεται μέσα σε μία δήλωση, όπως σε ένα αντικείμενο, κατηγόρημα ή αντικείμενο. Είναι ανάλογο με έναν πόρο RDF. Υπάρχει επίσης ένας πόρος της Jena ο οποίος θεωρεί μια τριπλέτα ως έναν απλό πόρο. Statement: Μια τριπλέτα του Σημασιολογικού Ιστού που περιέχει ένα υποκείμενο, κατηγόρημα και αντικείμενο. Η κλάση Statement επιτρέπει την ανάκριση των στοιχείων που περιέχονται. Graph: Βασική μέθοδος για τη διατήρηση της πληροφορίας του Σημασιολογικού Ιστού. Ένας γράφος επιτρέπει την υλοποίηση απλών πράξεων όπως η πρόσθεση, η διαγραφή, η εύρεση και η περίκλειση. Τυπικά, μια εφαρμογή δε διαδρά άμεσα με ένα αντικείμενο τύπου Graph. H διεπαφή Graph επιτρέπει τη συγκεκριμενοποίηση διαφορετικών τύπων μηχανισμών αποθήκευσης. Model: Ένα μοντέλο χτίζεται πάνω στο βασικό γράφο και προσφέρει αλληλεπιδράσεις με πληροφορίες Σημασιολογικού Ιστού. Οι εφαρμογές διαβάζουν, γράφουν και κάνουν ερωτήματα σε δεδομένα Σημασιολογικού Ιστού μέσω του μοντέλου της Jena. Το μοντέλο αποτελεί την πραγματική βάση δεδομένων γνώσης. Υπάρχουν πολλοί τύποι από μοντέλα κλάσεων ανάλογα με την ανάγκης της εκάστοτε εφαρμογής για εκφραστικότητα και αιτιολόγηση. Αυτές οι κλάσεις περιλαμβάνουν το Model για τη βασική RDF και την OntModel για την OWL. Μια εφαρμογή μπορεί να διατηρεί πολλά μοντέλα ταυτόχρονα για διάφορος λόγους, π.χ. για επιδόσεις, cache κτλ. Query και ResultSet: Το Query χρησιμοποιεί SPARQL και τα αποτελέσματα επιστρέφονται ως αντικείμενα της ResultSet. Η εφαρμογή στη συνέχεια διατρέχει τα αντικείμενα αυτά με βάση τις μεταβλητές που χρησιμοποιήθηκαν στο ερώτημα. Reasoner: Περιέχει τη διαδικασία αιτιολόγησης, είτε εσωτερικής είτε εξωτερικής. Η εσωτερική αναφέρεται μόνο στις δυνατότητες του πλαισίου, ενώ η εξωτερική 68 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

69 ΕΡΓΑΛΕΊΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΉΘΗΚΑΝ επιτρέπει τη πρόσβαση στη βάση δεδομένων γνώσης και σε άλλους reasoners. Μια εφαρμογή μπορεί να έχει πολλούς reasoners που να ενεργούν σε πολλά μοντέλα. Ακολουθούν μερικές περαιτέρω ιδιαιτερότητες του πλαισίου Jena [9]: Τα URIs αναπαριστώνται ως συμβολοσειρές, και ορισμένες μέθοδοι αναγνωρίζουν QNames. Παραδείγματος χάρη: String germanyuri = Για να δημιουργηθούν αντικείμενα της κλάσης Resource, χρησιμοποιείται η μέθοδος static Resource createresource(string uriref) της υποκλάσης ResearchFactory, που αποτελεί υποκλάση της Resource. H κλάση ModelFactory είναι υπεύθυνη για τη δημιουργία μοντέλων μέσω της εξής κλήσης: Model model = ModelFactory.createDefaultModel() ;. Παρέχονται επίσης επιπλέον μέθοδοι δημιουργίας μοντέλου ώστε να υπάρχει η δυνατότητα δημιουργίας αρχικοποίησης από αρχεία (RDF/XML) η και βάσεις δεδομένων (MySQL). H δημιουργία κατηγορήματος επιτυγχάνεται μέσω της κλήσης: Property name = model.createproperty(geons + name ) ;. Για τη δημιουργία δήλωσης, απαιτείται συνήθως η συνένωση ενός υποκειμένου (Resource), ενός κατηγορήματος (Property) και ενός αντικειμένου (Resource/Literal). Τη δημιουργία μιας δήλωσης ακολουθεί συνήθως η προσθήκη της στο μοντέλο: Resource berlin = model.createresource(geons+"berlin"); Property name = model.createproperty(geons+"name"); Literal b = model.createliteral("berlin"); Statement stmt = model.createstatement(berlin,name,b); model.add(stmt); Είσοδος και Έξοδος Η κλάση Model παρέχει διάφορες μεθόδους ανάγνωσης. Μπορεί να επιτευχθεί μέσω αντικειμένων τύπου InputStream, Reader ή και URL. Αντίστοιχα, παρέχονται και διάφορες μέθοδοι εγγραφής [9]. Ως όρισμα, η μέθοδος εγγραφής write απαιτεί συνήθως ένα αντικείμενο τύπου OutputStream ή Writer. Παραδείγματος χάρη: private void writedata() throws IOException{ FileOutputStream outfoaf= null; outfoaf = new FileOutputStream("Ontologies/foaf.turtle"); modelmem.write(outfoaf, "TURTLE"); outfoaf.close(); } ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 69

70 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Κατάργηση εκχώρησης μέσων αποθήκευσης και κλείσιμο Ο κύκλος ανάπτυξης της πληροφορίας κλείνει με την απελευθέρωση των δεσμευμένων πόρων που χειρίζονται τα δεδομένα [9]. Η ενέργεια αυτή απαιτεί προαιρετικά τον καθαρισμό του προσωρινού χώρου αποθήκευσης και στη συνέχεια το κλείσιμο: private void clearandclosedata(){ modelmem.removeall(); System.out.println("Closing Models"); modelmem.close(); } Η μέθοδος RemoveAll() απομακρύνει όλες τις δηλώσεις του τρέχοντος μοντέλου. Η μέθοδος close() αναλαμβάνει το κλείσιμο των συνδέσεων με βάσεις δεδομένων ή αρχεία. 5.3 DBPEDIA Εισαγωγή στη DBpedia H DBpedia είναι ένα έργο που αποσκοπεί στην εξαγωγή δομημένου περιεχομένου της πληροφορίας που έχει δημιουργηθεί σαν κομμάτι του έργου της Wikipedia [18]. Αυτή η δομημένη πληροφορία στη συνέχεια διατίθεται στον Παγκόσμιο Ιστό. Η DBpedia επιτρέπει στους χρήστες να θέτουν ερωτήματα σημασιολογικής φύσεως στις σχέσεις και στις ιδιότητες που συνδέονται με πόρους της Wikipedia, συμπεριλαμβανομένων και συνδέσμων προς άλλα σχετικά σετ δεδομένων. Η DBpedia έχει περιγραφεί από τον Tim Berners-Lee ως ένα από τα σημαντικότερα κομμάτια της αποκεντροποιημένης προσπάθειας των Συνδεδεμένων Δεδομένων (Linked Data) Υπόβαθρο To έργο ξεκίνησε από το Ελεύθερο Πανεπιστήμιο του Βερολίνου (Free University of Berlin) και του πανεπιστημίου της Λειψίας (University of Leipzig), σε συνεργασία με την εταιρία λογισμικού OpenLink Software και το πρώτο σετ δεδομένων έγινε δημόσια διαθέσιμο το 2007 [18]. Διατίθεται με ελεύθερες άδειες διακίνησης, που επιτρέπουν σε άλλους χρήστες να επαναχρησιμοποιήσουν το εκάστοτε σετ δεδομένων. Τα άρθρα της Wikipedia αποτελούνται κυρίως από ελεύθερο κείμενο, αλλά επίσης περιλαμβάνουν δομημένη πληροφορία ενσωματωμένη στα άρθρα, όπως πίνακες «infobox» (τα κουτάκια με γενικές πληροφορίες που εμφανίζονται στα περισσότερα άρθρα της Wikipedia στο άνω δεξί μέρος της σελίδας), πληροφορίες κατηγοριοποίησης, εικόνες, γεωγραφικά δεδομένα και σύνδεσμοι σε εξωτερικές ιστοσελίδες. Αυτή η δομημένη πληροφορία εξάγεται και στη συνέχεια τοποθετείται σε ένα σετ δεδομένων με ενιαίο τρόπο, πάνω στο οποίο μετέπειτα μπορούν να τεθούν ερωτήματα (queries). 70 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

71 ΕΡΓΑΛΕΊΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΉΘΗΚΑΝ Σύνολο δεδομένων Το Σεπτέμβριου του 2014, εκδόθηκε η έκδοση του Σε σύγκριση με παλιότερες εκδόσεις, μία από τις κυριότερες αλλαγές ήταν οι τρόποι εξαγωγής των κειμένων. Τρέχοντας ένα τοπικό αντίγραφο της Wikipedia και ανακτώντας τα κομμάτια κειμένου από εκεί, επιτεύχθηκε σημαντική βελτίωση στην καθαρότητα των εξαγόμενων κειμένων. Επιπρόσθετα, εισάχθηκε ένα καινούριο σετ δεδομένων που περιείχε περιεχόμενο από την Wikimedia Commons (απωθετήριο εικόνων, αρχείων ήχου και άλλων πολυμεσικών αρχείων ελεύθερης χρήσης). Ολόκληρο το σετ δεδομένων της DBpedia περιγράφει 4.58 εκατομμύρια οντότητες, εκ των οποίων 4,22 εκατομμύρια κατηγοριοποιούνται σε μια συνεπή οντολογία, συμπεριλαμβανομένων ατόμων, τόπων, μουσικών άλμπουμ, ταινιών, ηλεκτρονικών παιχνιδιών, οργανώσεων, ειδών και ασθενειών. Το σετ δεδομένων παρέχει υποστήριξη για πάνω από 125 διαφορετικές γλώσσες 25,2 εκατομμύρια συνδέσμους σε εικόνες και 29,8 εκατομμύρια συνδέσμους σε εξωτερικές ιστοσελίδες. Παράλληλα, περιλαμβάνει περίπου 50 εκατομμύρια συνδέσμους προς άλλα RDF σετ δεδομένων και 80,9 εκατομμύρια συνδέσμους προς κατηγορίες της Wikipedia. Το έργο της DBpedia χρησιμοποιεί το RDF για την αναπαράσταση της εξαγόμενης πληροφορίας και αποτελείται από 3 δισεκατομμύρια τριπλέτες RDF, εκ των οποίων οι 580 εκατομμύρια προέρχονται από την αγγλική έκδοση της Wikipedia και οι υπόλοιπες 2,46 δισεκατομμύρια από τις εκδόσεις για τις άλλες γλώσσες. Μία από τις προκλήσεις στην εξαγωγή πληροφορίας από την Wikipedia αποτελεί το γεγονός πως ίδιες έννοιες μπορούν να εκφραστούν με διαφορετικές παραμέτρους στο κουτί πληροφοριών (infobox) καθώς και σε άλλα πρότυπα. Παραδείγματος χάρη γίνεται χρήση τόσο του birthplace, όσο και του placeofbirth. Εξαιτίας αυτού του φαινομένου, ερωτήματα σχετικά με τον τόπο γέννησης των ανθρώπων θα έπρεπε να αναζητήσουν τα αποτελέσματα και των δύο παραπάνω ιδιοτήτων για να ληφθούν πλήρη αποτελέσματα. Ως αποτέλεσμα, αναπτύχθηκε η γλώσσα χαρτογράφησης της DBpedia (DBpedia Mapping Language) για να βοηθήσει στη χαρτογράφηση τέτοιων ιδιοτήτων σε μια οντολογία και παράλληλα να μειώσει τον αριθμό των συνωνύμων Παράδειγμα Η DBpedia εξάγει περιεχόμενο από σελίδες της Wikipedia, επιτρέποντας στους χρήστες να βρουν απαντήσεις σε ερωτήσεις όπου η πληροφορία είναι διανεμημένη σε πολλά διαφορετικά άρθρα της Wikipedia. Η πληροφορία είναι προσβάσιμη με τη χρήση της SPARQL. Για παράδειγμα, έστω πως μας ενδιέφερε το βιβλίο Huis-clos (No Exit) του συγγραφέα Jean-Paul Sartre, και θέλαμε να βρούμε περισσότερες πληροφορίες για άλλα έργα του. Η DBpedia συνδυάζει την πληροφορία από διάφορα άρθρα της Wikipedia σχετικά με τον Jean-Paul Sartre, όπως η τριλογία του The Roads to Freedom και το Being and Nothingness. Από τη στιγμή που η DBpedia κανονικοποιεί την πληροφορία σε μία μόνο βάση δεδομένων, το παρακάτω ερώτημα μπορεί να τεθεί δίχως να χρειάζεται να γνωρίζουμε ποια εγγραφή φέρει κάθε κομμάτι της πληροφορίας. PREFIX dbprop: < ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 71

72 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ PREFIX db: < SELECT?who,?WORK,?genre WHERE { db:jean_paul_sartre dbprop:author?who.?work dbprop:author?who. OPTIONAL {?WORK dbprop:genre?genre }. } Περιπτώσεις χρήσης Η DBpedia έχει μια ευρεία ποικιλία οντοτήτων που καλύπτουν διαφορετικές περιοχές της ανθρώπινης γνώσης. Αυτό το γεγονός την καθιστά ένα φυσικό κόμβο για τη διασύνδεση των σετ δεδομένων. Το σετ της DBpedia διασυνδέεται στο RDF επίπεδο με διάφορα σετ Ανοικτών Δεδομένων (Open Data) στο Διαδίκτυο. Αυτό επιτρέπει στις εφαρμογές να εμπλουτίσουν τα δεδομένα της DBpedia με δεδομένα από άλλα σετ. Από το Σεπτέμβρη του 2013, υπάρχουν περισσότεροι από 45 εκατομμύρια σύνδεσμοι ανάμεσα στη DBpedia και σε εξωτερικά σετ δεδομένων, συμπεριλαμβανομένων και των: Freebase, OpenCyc, UMBEL, GeoNames, Musicbrainz, CIA World Fact Book, DBLP, Project Gutenberg, DBtune Jamendo, Eurostat, Unipro και Bio2RDF. Το BBC χρησιμοποιεί την DBpedia για να κατηγοριοποίησει ορθότερα το περιεχόμενό του. Επίσης, η Amazon παρέχει ένα δημόσιο σετ δεδομένων το οποίο μπορεί να ενσωματωθεί στις διαδικτυακές εφαρμογές της Amazon (Amazon Web Services) Dbpedia lookup Γενική περιγραφή H DBpedia παρέχει επίσης την υπηρεσία DBpedia Lookup Service, η οποία επιτρέπει στους χρήστες να αναζητήσουν DBpedia URIs χρησιμοποιώντας σχετικές λέξεις κλειδιά. Τα αποτελέσματα ταξινομούνται με βάση τον αριθμό των εισερχόμενων συνδέσμων από άλλες σελίδες της Wikipedia σε μια σελίδα αποτελεσμάτων. Παρέχεται ένα API που υποστηρίζει την αναζήτηση μέσω μιας λέξης κλειδί, δεδομένης μιας συμβολοσειράς. Η συμβολοσειρά αυτή μπορεί να αποτελείται είτε από μία είτε από πολλές λέξεις. Π.χ.: Μέρη που περιέχουν τη λέξη κλειδί «Berlin» Παράμετροι Οι 3 παράμετροι είναι: QueryString: μια συμβολοσειρά για την οποία πρέπει να βρεθεί ένα DBpedia URI 72 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

73 ΕΡΓΑΛΕΊΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΉΘΗΚΑΝ QueryClass: μια κλάσης της DBpedia η οποία πρέπει οπωσδήποτε να περιέχεται στα αποτελέσματα MaxHits: o μέγιστος αριθμός των αποτελεσμάτων που επιστρέφονται (default: 5) 5.4 ΣΥΝΟΨΗ Στο κεφάλαιο αυτό έγινε μια επισκόπηση των βασικών εργαλείων που χρησιμοποιήθηκαν για την ανάπτυξη και υλοποίηση της παρούσας πτυχιακής. Στο επόμενο κεφάλαιο θα περιγραφεί το σκεπτικό καθώς και θα παρουσιαστούν αναλυτικά τα βήματα που ακολουθήθηκαν. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 73

74 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Κ Ε Φ Α Λ Α Ι Ο 6 : Υ Λ Ο Π Ο Ι Η Σ Η 74 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

75 ΥΛΟΠΟΊΗΣΗ ΥΛΟΠΟΙΗΣΗ Στο κεφάλαιο αυτό γίνεται μια αναλυτική περιγραφή της υλοποίησης της παρούσας πτυχιακής. Στις παραγράφους που ακολουθούν παρουσιάζεται κατά σειρά μια διατύπωση του προβλήματος, τα δεδομένα που χρησιμοποιήθηκαν καθώς και η μετατροπή που απαιτήθηκε, μια περιγραφή του προγράμματος και μια πιο αναλυτική περιγραφή κάποιων σημείων του κώδικα. 6.1 ΔΙΑΤΥΠΩΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ Το πρόβλημα που μας απασχόλησε στην παρούσα διπλωματική, ήταν η εξαγωγή πληροφορίας από βιο-οντολογίες και η ανίχνευση της ανάμεσα σε αυτές και σε διάφορες άλλες πηγές δεδομένων. Στις παραγράφους που ακολουθούν παρουσιάζονται κατά σειρά τα δεδομένα που χρησιμοποιήθηκαν, μια περιγραφή του προγράμματος και μια πιο αναλυτική περιγραφή κάποιων σημείων του κώδικα. Τέλος, παρουσιάζονται τα αποτελέσματα και τα συμπεράσματα που προέκυψαν. 6.2 ΔΕΔΟΜΕΝΑ Όπως είναι γνωστό, ένα μεγάλο πρόβλημα για τη διαδικασία ανακάλυψης γνώσης είναι η εύρεση κατάλληλών δεδομένων. Στη συνέχεια θα περιγράψουμε οτιδήποτε σχετίζεται με τα δεδομένα που χρησιμοποιήθηκαν στο πρόβλημά μας, από την εύρεσή τους μέχρι και στο μετασχηματισμό τους στην επιθυμητή μορφή Αρχικά δεδομένα Όπως αναφέρθηκε και παραπάνω, στην εργασία χρησιμοποιήθηκε η οντολογία GO Slim της Gene Ontology. Παρ όλα αυτά, τα δεδομένα της Go Slim δε βρίσκονται αποθηκευμένα σε κάποια από τις διαδομένες μορφές αποθήκευσης τέτοιων αρχείων. Πιο συγκεκριμένα, η οντολογία αυτή διατίθεται υπό την επέκταση OBO. H OBO (Open Biomedical Ontologies) αποτελεί μια προσπάθεια για τη δημιουργία ελεγχόμενου λεξιλογίου για χρήση ανάμεσα σε διάφορους κλάδους της Βιολογίας και της Ιατρικής. Παρά όμως το γεγονός πως πλέον τυγχάνει αναγνώρισης από σημαντικούς φορείς στον κλάδο της Βιοπληροφορικής (π.χ. U.S. National Center for Biomedical Ontology), τα περισσότερα προγραμματιστικά πλαίσια που χρησιμοποιούνται για την επεξεργασία των οντολογιών (όπως και η Jena, που χρησιμοποιήθηκε στην παρούσα εργασία) δεν υποστηρίζουν δεδομένα με αυτή την επέκταση. Ως αποτέλεσμα, κρίθηκε αναγκαία η μετατροπή των δεδομένων. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 75

76 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Μετατροπή των δεδομένων Για τη μετατροπή του αρχείου OBO σε μορφή OWL χρησιμοποιήθηκε το εργαλείο OBO Ontology Release Manager (OORT) ( Αρχικά έγινε προσπάθεια για μετατροπή του αρχείου μέσω του OBO Converter, το οποίο αποτελεί ένα γνωστό plugin της πλατφόρμας Protégé. Οι προσπάθειες όμως αυτές απέτυχαν, καθώς παρουσιάστηκαν σφάλματα κατά τη μετατροπή του αρχείο στο Protégé 3.5, ενώ το plugin δεν υποστηρίζεται από την έκδοση 4.0 και μετέπειτα. Η μετατροπή του αρχείου μέσω του OBO Ontology Release Manager είναι πολύ εύκολη μέσω της γραφικής διεπαφής του προγράμματος. Εικόνα 4: Μετατροπή της οντολογίας από OBO σε OWL Παραδειγματικά, θα δείξουμε την αναπαράσταση του όρου reproduction (αναπαραγωγή) στην επέκταση OBO, και την αναπαράσταση του ίδιου όρου μετά τη μετατροπή σε αρχείο τύπου OWL. Εικόνα 5: O όρος reproduction πριν τη μετατροπή σε OWL 76 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

77 ΥΛΟΠΟΊΗΣΗ Εικόνα 6: Ο όρος reproduction μετά τη μετατροπή σε OWL 6.3 ΠΕΡΙΓΡΑΦΗ ΥΛΟΠΟΙΗΣΗΣ Σκεπτικό Αρχικά θα αναλύσουμε την προσέγγιση που ακολουθήσαμε για την επεξεργασία (parsing) του αρχείο μας. Η διαδικασία επεξεργασία αρχείων τύπου XML στην ουσία αποτελεί τη διαδικασία «σπασίματος» όλου του κειμένου σε μικρές υποσυμβολοσειρές. Η επεξεργασία αυτή στη Java, μπορεί να γίνει με δύο τρόπους: Με τη χρήση χειριστή τύπου DOM (Document Object Model) Με τη χρήση χειριστή τύπου SAX (Simple API for XML) Για τους σκοπούς της εργασίας, προτιμήθηκε η χρήση χειριστή τύπου SAX. Ο χειριστής SAX είναι γρηγορότερος από τον αντίστοιχο DOM, καθώς δε χρειάζεται να φορτώσει το έγγραφο XML στη μνήμη, εφόσον βασίζεται σε γεγονότα. Είναι μια επεξεργασία που βασίζεται σε γεγονότα και περιέχει χειριστές για τη διαχείριση γεγονότων. Όποτε ο επεξεργαστής SAX επεξεργάζεται το κείμενο και βρίσκει το σύμβολο έναρξης < και το σύμβολο τερματισμού >, τότε καλείται η αντίστοιχη μέθοδος του κατάλληλου χειριστή. Ως παράδειγμα, ας πάρουμε και πάλι τον όρο reproduction που είδαμε και παραπάνω. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 77

78 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Πιο συγκεκριμένα, ο όρος έχει τις εξής ιδιότητες: rdfs:label, που στην ουσία υποδηλώνει το όνομα του όρου στην οντολογία oboinowl:id, το μοναδικό αναγνωριστικό (id) του όρου στην οντολογία oboinowl:hasalternativeid, το εναλλακτικό αναγνωριστικό του όρου στην οντολογία obo:iao_ , το αλφαριθμητικό αυτό αντιπροσωπεύει την περιγραφή (description) του όρου στην οντολογία ( g/obo/iao_ ) oboinowl:hasdbxref, το οποίο αναφέρει πως ο όρος αναφέρεται στην Wikipedia και μάλιστα με τον τίτλο «Reproduction», όπως άλλωστε ήταν και το αναμενόμενο oboinowl:hasobonamespace, αναφέρει το namespace του όρου στην οντολογία OBO oboinowl:hasexactsynonym, αναφέρεται στους συνώνυμους όρους του ονόματος της οντολογίας, και στη συγκεκριμένη περίπτωση είναι: reproductive physiological process oboinowl:insubset, αναφέρει σε ποιες από τις οντολογίες της GO υφίσταται ο συγκεκριμένος όρος Παρακάτω αναλύεται πιο λεπτομερώς η διαδικασία επεξεργασίας: 1. Δημιουργείται ο χειριστής SAX για την επεξεργασία του αρχείου OWL: Σε αυτό το βήμα παίρνουμε ένα στιγμιότυπο της κλάσης SAXParserFactory για την επεξεργασία του αρχείου. Αυτό το στιγμιότυπο στη συνέχεια με τη χρήση της μεθόδου parse() θα προχωρήσει στην ορθή επεξεργασία του αρχείου. 2. Χειρισμός Γεγονότων: Όποτε ο χεριστής SAX βρει το σύμβολο έναρξης ή λήξης μιας ετικέτας, τότε θα καλέσει την κατάλληλη μέθοδο χειρισμού γεγονότων, δηλαδή είτε την public void startelement( ), είτε την public void endelement( ) 3. Καταχώριση των γεγονότων: Η κλάση επεκτείνει τον προεπιλεγμένο χειριστή ώστε να ακούει για τα κατάλληλα γεγονότα Επεξήγηση κώδικα Αρχικά, ήταν αναγκαία η δημιουργία μιας κλάσης η οποία θα υποστήριζε την αποθήκευση κάθε αντικειμένου, μαζί με τα χρήσιμα χαρακτηριστικά τους. Συνεπώς, δημιούργησα την κλάση Item, η οποία έχει την εξής δομή: 78 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

79 ΥΛΟΠΟΊΗΣΗ public class Item { } private String name; private String synname; private String description; Κώδικας 1: Πεδία της κλάσης Item Συνεπώς, για κάθε αντικείμενο κρατάμε το όνομά του, το όνομα των συνωνύμων κλάσεων καθώς και την περιγραφή του. Στη Main δημιουργούμε μια ArrayList ως εξής: private final ArrayList<Item> itemlist = new ArrayList<>();, η οποία κρατάει όλα τα αντικείμενα τύπου ItemList (τα οποία αντιπροσωπεύουν τα αποτελέσματά μας). Στη συνέχεια θα εξηγηθούν κάποιες λεπτομέριες της κλάσης Main. //Create a "parser factory" for creating SAX parsers SAXParserFactory spfac = SAXParserFactory.newInstance(); //Now use the parser factory to create a SAXParser object SAXParser sp = spfac.newsaxparser(); //Create an instance of this class; it defines all the handler methods ReadXMLFileUsingSaxparser handler = new ReadXMLFileUsingSaxparser(); //Finally, tell the parser to parse the input and notify the handler sp.parse("output.owl", handler); handler.readlist(); Κώδικας 2: Σημαντικές κλήσεις στη Main Στο παραπάνω κομμάτι κώδικα επιτελούνται οι εξής λειτουργίες: Αρχικά, δημιουργείται ένα στιγμιότυπο τύπου ParserFactory για τη δημιουργία SAX parsers. Έπειτα, χρησιμοποιείται το παραπάνω στιγμιότυπο για τη δημιουργία ενός αντικειμένου SAXParser, το οποίο και θα χρησιμοποιηθεί για την επεξεργασία των στοιχείων του αρχείου. Στη συνέχεια δημιουργείται ένα στιγμιότυπο το οποίο είναι υπεύθυνο για τον ορισμό όλων των μεθόδων χειρισμού (handler methods). Τέλος, λέμε στον parser να επεξεργαστεί το αρχείο εισόδου (output.owl) και να ειδοποιήσει το χεριστή. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 79

80 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ public void characters(char[] buffer, int start, int length) { } temp = new String(buffer, start, length); Κώδικας 3: public void characters(char[] buffer, int start, int length) Όταν ο parser συναντήσει απλό κείμενο (δηλαδή όχι στοιχεία XML), τότε καλεί την παραπάνω μέθοδο, η οποία συναθροίζει όλους τους χαρακτήρες σε μια συμβολοσειρά (string buffer). public void startelement(string uri, String localname, String qname, Attributes attributes) throws SAXException { } temp = ""; if (qname.equalsignorecase("rdfs:label")) { } item = new Item(); Κώδικας 4: public void startelement(string uri, String localname, String qname, Attributes attributes) Κάθε φορά που ο parser συναντά την αρχή ενός νέου στοιχείου, τότε καλεί την παραπάνω μέθοδο, η οποία επαναφέρει τη συμβολοσειρά (string buffer) στην αρχική κατάσταση. public void endelement(string uri, String localname, String qname) } throws SAXException { if (qname.equalsignorecase("owl:class")) { itemlist.add(item); } else if (qname.equalsignorecase("rdfs:label")) { item.setname(temp); } else if (qname.equalsignorecase("oboinowl:hasexactsynonym")){ item.setsynonymname(temp); } else if (qname.equalsignorecase("obo:iao_ ")){ } item.setdescription(temp); Κώδικας 5: public void endelement(string uri, String localname, String qname) 80 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

81 ΥΛΟΠΟΊΗΣΗ Αντίστοιχα, κάθε φορά που ο parser συναντά το τέλος κάποιου στοιχείου, τότε καλεί την παραπάνω μέθοδο, η οποία προσθέτει το στοιχείο στη λίστα αντικειμένων ItemList και αρχικοποιεί τα κατάλληλα πεδία του αντικειμένου. Στη συνέχεια, πρέπει να κάνουμε ερωτήματα στο API της DBpedia (Lookup DBpedia) που αναφέρθηκε σε παραπάνω κεφάλαιο. Αυτό επιτυγχάνεται με τον εξής τρόπο: ListIterator<Item> its = itemlist.listiterator(); while (its.hasnext()) { // Make a URL to the web page String classname = its.next().getname(); String synonym = its.previous().getsynonymname(); its.next(); URL url1 = new URL(" + newclassname); URL url2 = new URL(" + newsynonym); Κώδικας 6: Ερωτήματα προς τη DBpedia Χρησιμοποιούμε δύο URLs, καθώς το πρώτο προορίζεται για κάθε όνομα κλάσης, και το δεύτερο για το συνώνυμό της (αν φυσικά υπάρχει). Στη συνέχεια, πρέπει να «πλοηγηθούμε» κατάλληλα στα XML έγγραφα που προκύπτουν μετά από τις παραπάνω κλήσεις. Αυτό επιτυγχάνεται με τη βοήθεια της XPath. XPath is a syntax for defining parts of an XML document. XPath uses path expressions to navigate in XML documents. XPath contains a library of standard functions. XPath is a major element in XSLT. XPath is a W3C recommendation. H XPath είναι ένα συντακτικό διαχωρισμού των όρων ενός εγγράφου XML. Χρησιμοποιεί εκφράσεις μονοπατιών (path expressions) για να πλοηγηθεί μέσα σε έγγραφα XML και το επιτυγχάνει με τη χρήση βιβλιοθηκών που παρέχουν πολλές λειτουργίες. Παράλληλα, η XPath αποτελεί και μια πρόταση της W3C. private void start(url url1, URL url2) throws Exception { URLConnection connection = url1.openconnection(); ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 81

82 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ URLConnection connection2 = url2.openconnection(); Document doc = parsexml(connection.getinputstream()); Document doc2 = parsexml(connection2.getinputstream()); XPathFactory xpathfactory = XPathFactory.newInstance(); XPath xpath = xpathfactory.newxpath(); NodeList descnodes = (NodeList) xpath.evaluate("arrayofresult/result/label", doc, XPathConstants.NODESET); NodeList descnodes2 = (NodeList) xpath.evaluate("arrayofresult/result/description", doc, XPathConstants.NODESET); NodeList descnodes3 = (NodeList) xpath.evaluate("arrayofresult/result/label", doc2, XPathConstants.NODESET); NodeList descnodes4 = (NodeList) xpath.evaluate("arrayofresult/result/description", doc2, XPathConstants.NODESET); Κώδικας 7: private void start(url url1, URL url2) Ας δούμε αναλυτικά τι κάνει το παραπάνω κομμάτι κώδικα. Αρχικά, ανοίγει τη σύνδεση με τα δύο URLs που αναφέρθηκαν και παραπάνω, τα οποία αποτελούν το όνομα της κλάσης που μας ενδιαφέρει μαζί με κάποιο συνώνυμο όνομα για αυτήν (αν υπάρχει). Στη συνέχεια καλούμε τη μέθοδο getinputstream για να πάρουμε τους χειριστές του αρχείου XML και έπειτα δημιουργούμε ένα νέο στιγμιότυπο της κλάσης XPathFactory χρησιμοποιώντας τον προεπιλεγμένο χειριστή μοντέλων. Για να αποφασίσουμε ποιο είναι το σωστό μονοπάτι για τα αποτελέσματα της XPath, ας δούμε ένα screenshot από την υπηρεσία lookup.dbpedia.org, με λέξη-κλειδί τη λέξη reproduction. 82 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

83 ΥΛΟΠΟΊΗΣΗ Εικόνα 7: Αποτελέσματα DBpedia με λέξη-κλειδί reproduction Παρατηρούμε πως το στοιχείο-γονέας είναι το ArrayOfResult. Στη συνέχεια βλέπουμε το στοιχείο Result το οποίο είναι παιδί του ArrayOfResult, και τέλος το Label που είναι παιδί του Result. Συνεπώς, σύμφωνα με το συντακτικό της XPath, για να ανακτήσουμε αυτό το στοιχείο θα έπρεπε να έχουμε μια εντολή της μορφής /ArrayOfResult/Result/Label. Αντίστοιχα για να ανακτήσουμε την περιγραφή θα έπρεπε να έχουμε εντολή της μορφής /ArrayOfResult/Result/Description. Οι κόμβοι NodeList descnodes3 και NodeList descnodes4 αντιπροσωπεύουν τα αποτελέσματα που προκύπτουν έπειτα από το ερώτημα σχετικά με το συνώνυμο ενός αποτελέσματος Σύγκριση των περιγραφών της οντολογίας και της DBpedia Για αυτή τη λειτουργία κρίθηκε απαραίτητη η δημιουργία ενός δεύτερου προγράμματος πάλι σε γλώσσα Java, το οποίο είναι υπεύθυνο για τη σύγκριση των δύο κειμένων. Το προηγούμενο πρόγραμμα αποθήκευσε σε δύο αρχεία κειμένου τα αποτελέσματα της οντολογίας και των αποτελεσμάτων που πήρε για κάθε ερώτημα από την DBpedia (σε κατάλληλη μορφή, ώστε να είναι εύκολη η επεξεργασία (parsing) από το δεύτερο πρόγραμμα). Τα δύο αυτά αρχεία είναι το ontology.txt και το DBpedia_results.txt αντίστοιχα. Παρακάτω βλέπουμε δύο στιγμιότυπα από αυτά τα αρχεία. Εικόνα 8: ontology.txt ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 83

84 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Εικόνα 9: DBpedia_results.txt Για τη σύγκριση των δύο κειμένων, έγινε χρήση ενός λογισμικού ονόματι ADW, το οποίο χρησιμοποιείται για τη μέτρηση της σημασιολογικής ομοιότητας ζευγών λεξικολογικών όρων. Το λογισμικό βασίζεται πάνω στην εξής δημοσίευση: "Align, Disambiguate, and Walk" [25], a WordNet-based state-of-the-art semantic similarity approach presented in ACL Το λογισμικό μεταξύ και άλλων, προσφέρει: Πολύ καλές επιδόσεις σε πολλαπλά λεξικολογικά επίπεδα Σημασιολογική ομοιότητα ακόμα και ανάμεσα σε όρους από διαφορετικά πεδία Πρόσβαση μέσω Διεπαφές Προγραμματισμού Εφαρμογών Java Η βασική λειτουργία του προγράμματος φαίνεται στο εξής κομμάτι κώδικα: for (int i = 0; i < firstdimension; i++) { for (int j = 0; j < firstdimension2; j++) { if (ontologyarray[i][0].equals(dbpediaarray[j][0]) == true) { System.out.println("For the query:" + ontologyarray[i][0]); System.out.println("Which description in the ontology is:" + ontologyarray[i][1]); System.out.println("And its description in DBpedia is:" + DBpediaArray[i][1]); String text1 = ontologyarray[i][1]; String text2 = DBpediaArray[j][1]; //types of the two lexical items ItemType srctexttype = ItemType.SURFACE; ItemType trgtexttype = ItemType.SURFACE; //if lexical items has to be disambiguated DisambiguationMethod dismethod = DisambiguationMethod.ALIGNMENT_BASED; 84 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

85 ΥΛΟΠΟΊΗΣΗ measure, } } //measure for comparing semantic signatures SignatureComparison measure = new WeightedOverlap(); ADW pipeline = new ADW(); double score = pipeline.getpairsimilarity(text1, text2, dismethod, srctexttype, trgtexttype); System.out.println("Their similarity score is: " + score); Κώδικας 8: Βασική λογική του προγράμματος Ο υπολογισμός του σκοραρίσματος υπολογίζεται στην κλήση double score = pipeline.getpairsimilarity(text1, text2, dismethod, measure, srctexttype, trgtexttype), όπου τα text1 και text2 αποτελούν τα δύο κείμενα που βρίσκονται υπό εξέταση, το dismethod αντιπροσωπεύει αν οι δύο λέξεις πρέπει να «ξεχωριστούν» μεταξύ τους (disambiguate) ή όχι, το measure υποδηλώνει τη μέθοδο που χρησιμοποιείται για τον υπολογισμό της σημασιολογικής ομοιότητας (WeightedOverlap, Cosine, ή Jaccard) και τέλος τα srctexttype και trgtexttype αντιπροσωπεύουν το είδος εισόδου των κειμένων μας (στη δικιά μας περίπτωση έχουμε απλές συμβολοσειρές - strings) Αποτελέσματα Τα αποτελέσματα που προέκυψαν είναι της εξής μορφής: Class name/query Name Description Αποθηκεύονται σε ένα αρχείο με όνομα DBpedia_results.txt. Παρακάτω φαίνεται ένα screenshot αυτού του αρχείου. Εικόνα 10: Αποτελέσματα εκτέλεσης του προγράμματος ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 85

86 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Φιλτράρισμα αποτελεσμάτων Το επόμενο βήμα ήταν η εκτίμηση των αποτελεσμάτων. Με άλλα λόγια, έπρεπε να αποφασίσουμε ποια από τα αποτελέσματα που προέκυψαν θα θεωρηθούν σχετικά, ποια μη σχετικά και ποια εν μέρει σχετικά. Τα αποτελέσματα αυτά βρίσκονται στο φύλλο 1 του εγγράφου Excel που επισυνάπτεται στα παραδοτέα της πτυχιακής, με τίτλο results.xlsx. Αυτό έγινε με τη βοήθεια κάποιου ειδικού στο τομέα της Βιολογίας (domain expert), καθώς η αποτίμηση βιοϊατρικών δεδομένων ξεφεύγει από την σκοπιά του επιστήμονα της πληροφορικής, εφόσον δεν κατέχει το θεωρητικό υπόβαθρο για μια τέτοια εργασία. Συνεπώς, συνέταξα ένα φύλλο εργασίας (έγγραφο Excel) με όλα τα ονόματα κλάσεων και όλα τα αποτελέσματα που προέκυψαν και το παρέδωσα για αξιολόγηση στον ειδικό. Εδώ πρέπει να σημειωθεί πως δεν αλλάξαμε την παράμετρο της υπηρεσίας lookup.dbpedia.org η οποία σου επιτρέπει να τροποποιήσεις τον αριθμό των αποτελεσμάτων που λαμβάνονται για κάθε ερώτημα, μιας και κρίθηκε κατάλληλος ο αριθμός των πέντε αποτελεσμάτων/ερώτημα για τους σκοπούς αυτής της εργασίας. Παράλληλα, έπρεπε να βρεθεί και ένα κατάλληλο σύστημα αξιολόγησης της ακρίβειας των αποτελεσμάτων. Μετά από ενδελεχείς συζητήσεις και λεπτομερή έρευνα, καταλήξαμε στο εξής σύστημα βαθμολόγησης: 1 βαθμός αν το αποτέλεσμα κρίνεται ως σχετικό με βάση το ερώτημα 0.5 βαθμός αν το αποτέλεσμα αξιολογείται ως εν μέρει σχετικό με βάση το ερώτημα 0 βαθμοί αν το αποτέλεσμα αξιολογείται ως μη σχετικό με βάση το ερώτημα -1 βαθμός αν το αποτέλεσμα αξιολογείται ως άσχετο με βάση το ερώτημα Για να γίνει πιο κατανοητό αυτό το σύστημα αξιολόγησης, θα παραθέσουμε την εφαρμογή του στους δύο πρώτους όρους που προκύπτουν: Term R1 R2 R3 R4 R5 S1 S2 S3 S4 S5 O.S. N.R. Pr. Reproduction Horse Breeding Sound recording and reproduction Reproduction Hermaphrodite Mitosis DNA binding Zinc finger DNAbinding domain DNAbinding protein DNA binding site DNA binding protein Πίνακας 3: Αξιολόγηση δύο πρώτων όρων Για τον όρο reproduction (αναπαραγωγή), έχουμε: 86 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

87 ΥΛΟΠΟΊΗΣΗ Βαθμολογείται με -1 στο αποτέλεσμα Sound recording and reproduction (εγγραφή και αναπαραγωγή ήχου), καθώς δεν έχει κάποια σχέση με τη χρήση του όρου αναπαραγωγή στον τομέα της Βιολογίας ή της Ιατρικής. Βαθμολογείται με 0 στο αποτέλεσμα Horse breeding (εκτροφή αλόγων), καθώς ναι μεν έχει μια όχι ιδιαίτερα σαφή σχέση με τον τομέα της Βιολογίας, δε σχετίζεται δε άμεσα με την έννοια της αναπαραγωγής. Βαθμολογείται με 1 στο αποτέλεσμα Reproduction, καθώς έχουμε πλήρη ταύτιση με τη λέξη του ερωτήματος. Βαθμολογείται με 0.5 στα αποτελέσματα Hermaphrodite (ερμαφρόδιτος) και Mitosis (μίτωση), καθώς πρόκειται για όρους της Βιολογίας που δε σχετίζονται άμεσα τουλάχιστον με τον όρο αναπαραγωγή. Για τον όρο DNA binding, παρατηρούμε πως όλα τα αποτελέσματα βαθμολογήθηκαν με 1, καθώς όλα ήταν άμεσα σχετιζόμενα με τον όρο-ερώτημα. Η στήλη Ο.S. (Overall Score) αθροίζει όλα τα αποτελέσματα, αλλά αγνοεί τα αρνητικά νούμερα (-1). Με άλλα λόγια, η αξιολόγηση είτε με 0 είτε με -1 έχει τον ίδιο αντίκτυπο στο τελικό αποτέλεσμα, προσφέρει όμως μια πιο λεπτομερή ανάλυση των αποτελεσμάτων, καθώς μας επιτρέπει να έχουμε καλύτερη και ποιοτικότερη κατανόηση. Η στήλη Ν.R. (Number of Results), αθροίζει τον αριθμό των αποτελεσμάτων που προέκυψαν. Εδώ πρέπει να σημειωθεί πως ο αριθμός αυτός ναι μεν έχει μέγιστη τιμή το πέντε (για λόγους που αναφέραμε παραπάνω), κάποιες φορές όμως είναι μικρότερος από αυτό, καθώς κάποια αποτελέσματα επιστρέφουν λιγότερα αποτελέσματα. Συνεπώς, αυτή η στήλη θα έχει πάντα τιμές από 1 μέχρι 5. Η στήλη Pr. (Precision), μετράει την ακρίβεια σε επίπεδο όρου, με άλλα λόγια απλά επιτελεί τη διαίρεση της στήλης O.S. με τη στήλη N.R.. Μιας και η εύρεση της ακρίβειας σε επίπεδο όρων δε προσφέρει μεγάλη χρηστικότητα, έπρεπε να μετρήσουμε τη συνολική ακρίβεια στο επίπεδο ολόκληρης της εφαρμογής. Αυτό επιτεύχθηκε ως εξής: Αθροίστηκαν όλα τα στοιχεία της στήλης OverallScore Αθροίστηκαν όλα τα στοιχεία της στήλης NumberOfResults Το νούμερο που προέκυψε μετά τη διαίρεση του πρώτου με τον δεύτερο αριθμό, αποτελεί τη συνολική ακρίβεια του συστήματος ( ) Αποτελέσματα ομοιότητας περιγραφών Τα αποτελέσματα αυτά βρίσκονται στο φύλλο 2 του εγγράφου Excel που επισυνάπτεται στα παραδοτέα της πτυχιακής, με τίτλο results.xlsx. ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 87

88 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ Εδώ, απλά βάλαμε τη βαθμολογία κάθε όρου (όπως αυτή προέκυψε από το λογισμικό ADW) και στη συνέχεια φτιάξαμε τη συνολική βαθμολογία κάθε όρου (Average). Στο τέλος, απλά αθροίσαμε και διαιρέσαμε με το πλήθος των όρων (σε όσους εμφανίζονται αποτελέσματα φυσικά) και έτσι προέκυψε το τελικό αποτέλεσμα ( ). 88 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

89 ΥΛΟΠΟΊΗΣΗ Σ Υ Μ Π Ε Ρ Α Σ Μ ΑΤ Α Μια πτυχή του οράματος του Σημασιολογικού Ιστού είναι η μεταφορά από τον Ιστό των εγγράφων στον ιστό των αντικειμένων. Ο αμεσότερος τρόπος για να επιτευχθεί κάτι τέτοιο είναι η ενίσχυση της διαλειτουργικότητας των οντολογιών, που χρησιμοποιούνται πλέον ευρέως σε πολλούς τομείς της ανθρώπινης δραστηριότητας, με πηγές διασυνδεδεμένων δεδομένων στον Ιστό. Σε ό,τι αφορά τον τομέα της Βιολογίας και της Βιοπληροφορικής, καθίσταται σαφές πως οι τεχνολογίες του Σημασιολογικού Ιστού δύνανται να βελτιστοποιήσουν άμεσα τόσο τις παρεχόμενες υπηρεσίες, όσο και την ποσότητα και ποιότητα της έρευνας που διεξάγεται σε αυτές τις νευραλγικές για τον άνθρωπο επιστήμες. Τα οφέλη που θα προσφέρει η μετάβαση σε τεχνολογίες Σημασιολογικού Ιστού συνοψίζονται ως εξής: H Gene Ontology αποτελεί μια συλλογική προσπάθεια για να επιλυθεί το ζήτημα της συνεπούς περιγραφής των γονιδιακών προϊόντων σε διαφορετικές βάσεις δεδομένων. Αναπτύσσονται τρεις οντολογίες που περιγράφουν βιολογικές διαδικασίες και μοριακές λειτουργίες με έναν τρόπο ο οποίος είναι ανεξάρτητος από το είδος του οργανισμού, βοηθώντας έτσι σημαντικά την έρευνα στον τομέα. Οι οντολογίες προσφέρουν ένα λεξικό για την αναπαράσταση γνώσης και συσχετίσεων για ένα συγκεκριμένο θέμα. Από τη στιγμή που οι όροι και οι μεταξύ τους σχέσεις είναι προσεκτικά σχεδιασμένες, η χρησιμοποίηση των οντολογιών βοηθάει σημαντικά στην καλύτερη σήμανση των όρων, στη βελτίωση των ερωτημάτων (queries) και μπορεί να υποστηρίξει την κατασκευή συμπερασμάτων με βάση τις υπάρχουσες πληροφορίες. Ευκολία στη σύνθεση με εξωτερικές πηγές δεδομένων. Ο τελικός χρήστης έχει τη δυνατότητα να εκτελέσει αναζητήσεις και να ανακτήσει πληροφορίες από διαφορετικά αποθετήρια αποστέλλοντας ερωτήματα σε ένα μόνο SPARQL endpoint. Ταυτόχρονα, η προσέγγιση που ακολουθήθηκε δέχεται ορισμένες προκλήσεις Δεδομένου ότι οι περισσότερες οντολογίες αναπτύσσονται ξεχωριστά, είναι αναμενόμενο να υπάρχουν διαφορές και οι αντιστοιχήσεις να μην είναι απλές. Για τη δημιουργία αντιστοιχίσεων-συνδέσεων, είναι απαραίτητη η παρουσία ενός ειδικού στον τομέα (domain expert), καθώς ο επιστήμονας της Πληροφορικής δεν έχει τις γνώσεις για να υλοποιήσει και αυτό το σκέλος. Αυτή η συνεργασία πολλές φορές καθυστερεί την ολοκλήρωση του έργου, καθώς απαιτεί τη συνεννόηση πολλών ατόμων. Διατίθενται στο Διαδίκτυο πολλά εργαλεία (ανοικτού κώδικα κυρίως) τα οποία μπορούν να επιτελέσουν πολλά από τα κομμάτια της εργασίας. Εναπόκειται όμως ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 89

90 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ στον προγραμματιστή να μπορέσει να επιλέξει το καλύτερο πακέτο εργαλείων ανάλογα με το είδος της εργασίας του. Αυτό όμως πολλές φορές αποδεικνύεται δύσκολο έργο, καθώς είναι πρακτικά αδύνατο να ελεγχθούν ένα προς ένα όλα τα εργαλεία ή όλες οι δυνατοί μέθοδοι επεξεργασίας. Συνήθως επιλέγεται ευριστικά το θεωρητικά καλύτερα δυνατό σενάριο εργασίας. Τα εργαλεία που αναφέρθηκαν παραπάνω, συνήθως δέχονται στις παραμέτρους τους πολλές διαφορετικές επιλογές (π.χ. είδος ομοιότητας, λεξικολογική μορφή κτλ) με αποτέλεσμα να αποτελεί πολύ δύσκολο να ελεγχθούν όλα τα δυνατά αποτελέσματα για όλες τις επιλογές που δίνονται, καθώς τις πιο πολλές φορές μια απλή εκτέλεση του προγράμματος απαιτεί αρκετή ώρα. Συνεπώς, πρέπει να υπάρχει σωστή μελέτη, ώστε να επιλεχθούν με σύνεση αυτές οι παράμετροι, ώστε να μοντελοποιούν σωστά το πρόβλημά μας. Το εγχείρημα θα μπορούσε να επεκταθεί με τους παρακάτω τρόπους: Να αξιοποιηθούν περισσότερα από τα στοιχεία (tags) της οντολογίας με κάποιο στατιστικό μοντέλο. Το σύστημα να προτείνει πιθανές συζεύξεις ανάμεσα σε όρους της οντολογίας και σε όρους της DBpedia, που είτε δεν υπάρχουν είτε είναι αρκετά πιο φτωχοί προς το παρόν. Να γίνει χρήση ενός μεγαλύτερο συνόλου δεδομένων, ώστε να δούμε πως ανταποκρίνεται το μοντέλο μας και σε μια μεγαλύτερη κλίμακα, κάτι που αποτελεί πλέον ζητούμενο σε ολόκληρο τον κλάδο της Πληροφορικής. 90 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

91

92

93 ΒΙΒΛΙΟΓΡΑΦΙΑ Β Ι Β Λ Ι Ο Γ Ρ Α Φ Ι Α [1] Βακάλη Α., Παπαμήτσιου Ζ., Πληροφοριακά Συστήματα Παγκοσμίου Ιστού, Εκδόσεις Νέων Τεχνολογιών, [2] Μανωλόπουλος I., Παπαδόπουλος A.N., Συστήματα Βάσεων Δεδομένων: Θεωρία & Πρακτική Εφαρμογή, Εκδόσεις Νέων Τεχνολογιών, 2006 [3] Manning C., Raghavan P., Schutze H., Introduction to Information Retrieval, Cambridge University Press, 2009 [4] Tan P.-N., Steinbach M., Kumar V., Introduction to Data Mining, 2005 [5] Larose D., Discovering Knowledge in Data An Introduction to Data Mining, Wiley Interscience, 2005 [6] Berners-Lee T., Hendler J., Lassila O., The Semantic Web, Scientific American, [7] Gruber T., A Translation Approach to Portable Ontology Specifications, 1993 [8] Bizer C., Heath T., Berners-Lee T., Linked-Data The story so far, International Journal on Semantic Web and Information Systems (IJSWIS), 2009 [9] Hebeler J., Fisher M., Blace R., Perez-Lopez A., Semantic Web Programming, Wiley Publishing, 2009 [10] Hayes J., A Graph Model for RDF, Technische Universität Darmstadt - Universidad de Chile, 2004 [11] DuCharme B., Learning SPARQL 2 nd edition, O Reilly Media, 2013 [12] Antoniou G., Groth P., Van Harmelen F., Hoekstra R., A Semantic Web Primer 3 rd edition, The MIT Press, [13] Hogeweg P., The Roots of Bioinformatics in Theoretical Biology, PLoS Comput Biol 7(3): e , 2011 [14] Nelson D., Cox M, Lehninger principles of biochemistry 4 th edition, 2005 [15] Αλεπόρου-Μαρίνου Β., Αργυροκαστρίτης Α., Κομητοπούλου Α., Πιάλογλου Π., Σγουρίσα Β., Βιολογία Θετικής Κατεύθυνσης Γ Τάξης Ε.Λ., Ο.Ε.Δ.Β., 2003 [16] J. Durant, Martin W., Biotechnology in the Public Sphere: A European Sourcebook, NMSI Trading Ltd., ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 93

94 ΓΕΡΟΧΡΗΣΤΟΣ ΙΩΑΝΝΗΣ [17] The Gene Ontology Consortium, The Gene Ontology project in 2008, D440 D444 Nucleic Acids Research, 2008, Vol. 36, 2008 [18] Auer S., Bizer C., Kobilarov G., Lehmann J., Cyganiak R., Ives Z., DBpedia: A Nucleus for a Web of Open Data, Proceedings of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference, 2007 [19] Βλαχάβας Ι., Κεφαλάς Π., Βασιλειάδης Ν., Κόκκορας Φ., Σακελλαρίου Η., Τεχνητή Νοημοσύνη Γ έκδοση, Εκδόσεις Γκιούρδας, [20] Baldi P., Brunak S., Bionformatics The Machine Learning Approach 2 nd edition, The MIT Press, 2001 [21] Witten I., Frank E., Hall M., Data Mining Practical Machine Learning Tools and Techniques 3 rd edition, Morgan Kaufmann Publishers, 2011 [22] Κοντόπουλος Δ.-Γ., Pinda: Ένα πρόγραμμα εντοπισμού γονιδιακών διπλασιασμών, Δημοκρίτειο Πανεπιστήμιο Θράκης, Τμήμα Μοριακής Βιολογίας και Γενετικής, 2012 [23] Μηλιαράκη Σ. Ανάκτηση Σημασιολογικής Πληροφορίας για Υπηρεσίες του Παγκόσμιου Ιστού χρησιμοποιώντας Κατανεμημένους Πίνακες Κατακερματισμού, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, 2005 [24] Κολλάρας Ν., Ο Σημασιολογικός Ιστός, Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών, 2007 [25] Pilehvar M.T., Jurgens D., Navigli R., Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity, Department of Computer Science, Sapienza University of Rome, ΔΙΚΤΥΑΚΑ ΕΙΚΟΝΙΚΑ ΕΚΠΑΙΔΕΥΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ: Η ΠΛΑΤΦΟΡΜΑ EVE

95 ΠΑΡΑΡΤΗΜΑ I: WEB LINKS Π Α Ρ Α Ρ Τ Η Μ Α I : W E B L I N K S ΔΙΚΤΥΑΚΑ ΕΙΚΟΝΙΚΑ ΕΚΠΑΙΔΕΥΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ: Η ΠΛΑΤΦΟΡΜΑ EVE 95

96

97 ΠΑΡΑΡΤΗΜΑ I: WEB LINKS W EB S I T E S ticle_%20the%20semantic%20web_%20may% pdf ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 97

98

99 Π Α Ρ Α Ρ Τ Η Μ Α I I : Γ Λ Ω Σ Σ Α Ρ Ι Ο

100

101 ΠΑΡΑΡΤΗΜΑ II: ΓΛΩΣΣΑΡΙΟ Γ Λ Ω Σ Σ Α Ρ Ι Ο Όρος Ad hoc retrieval Application Programming Interface (API) Classification Client/Server model Clustering Data Mining Database Directed acyclic graph File System Information need Information Retrieval Internet Linked Data Linked Open Data Object Ontology Precision Projection Recall Resource Description Framework (RDF) Semantic Web Unique Resource Identifier (URI) World Wide Web World Wide Web Consortium (W3C) Επεξήγηση Περιστασιακή ανάκτηση Διεπαφή Προγραμματισμού Εφαρμογών Ταξινόμηση Μοντέλο Πελάτη/Εξυπηρετητή Συσταδοποίηση Εξόρυξη Δεδομένων Βάση Δεδομένων Κατευθυνόμενος ακυκλικός γράφος Σύστημα Αρχείων Ανάγκη Πληροφόρησης Ανάκτηση Πληροφορίας Διαδίκτυο Διασυνδεδεμένα Δεδομένα Διασυνδεδεμένα Ανοικτά Δεδομένα Αντικείμενο Οντολογία Ακρίβεια Προβολή Ανάκληση Πλαίσιο Περιγραφής Πόρων Σημασιολογικός Ιστός Αναγνωριστικό Ενιαίου Πόρου Παγκόσμιος Ιστός Κοινοπραξία του Παγκόσμιου Ιστού ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 101

102 Π Α Ρ Α Ρ Τ Η Μ Α I I I : Ο Δ Η Γ Ο Σ Ε Γ Κ ΑΤ Α Σ Τ Α Σ Η Σ Τ Η Σ J E N A Κ Α Ι Τ Ο Υ A D W Σ Τ Ο N E T B E A N S 102 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

103 ΠΑΡΑΡΤΗΜΑ III: Οδηγός Εγκατάστασης της Jena και του ADW στο Netbeans Ο Δ Η Γ Ο Σ Ε Γ Κ ΑΤ Α Σ Τ Α Σ Η Σ Τ Η Σ J E N A Κ Α Ι Τ Ο Υ A D W Σ Τ Ο N ETB E A N S Σε αυτό το παράρτημα θα αναλύσουμε βήμα προς βήμα τα βήματα που απαιτούνται για την εγκατάσταση της Jena στο ολοκληρωμένο περιβάλλον ανάπτυξης NetBeans. Αρχικά, θα αναλύσουμε τα χαρακτηριστικά του μηχανήματος καθώς και τις εκδόσεις των προγραμμάτων που χρησιμοποιήθηκαν κατά την εκτέλεση του προγράμματος. Η εργασία υλοποιήθηκε σε μηχάνημα με Windows 10 H έκδοση της Java που χρησιμοποιήθηκε είναι η Version 8, Update 45 Χρησιμοποιήθηκε η έκδοση του NetBeans Χρησιμοποιήθηκε η έκδοση της Jena Στη συνέχεια θα αναλυθούν με ακρίβεια τα βήματα που ακολουθήθηκαν για την εγκατάσταση. Βήμα 1: Δημιουργία νέου project Java Βήμα 2: Δημιουργία νέας κλάσης Βήμα 3: Προσθήκη των βιβλιοθηκών της Jena. Κάνουμε δεξί κλικ στο project μας και στη συνέχεια επιλέγουμε το Properties. Βήμα 4: Στη συνέχεια πηγαίνουμε στην κατηγορία Libraries, και διαλέγουμε την επιλογή Add Library ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 103

104 Βήμα 5: Πατάμε Create Βήμα 6: Δίνουμε ένα κατάλληλο όνομα (π.χ. JenaLibs) και επιβεβαιώνουμε την επιλογή μας πατώντας ΟΚ. 104 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

105 ΠΑΡΑΡΤΗΜΑ III: Οδηγός Εγκατάστασης της Jena και του ADW στο Netbeans Βήμα 7: Στη συνέχεια επιλέγουμε το Add JAR/Folder ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ 105

106 Βήμα 8: Τώρα πρέπει να βάλουμε τις σωστές επιλογές στις καρτέλες Classpath, Sources και Javadoc Στην καρτέλα Classpath, βάζουμε τα εξής δύο αρχεία jar. Αντίστοιχα, στην καρτέλα Sources βάζουμε τα εξής δύο αρχεία jar: 106 ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΠΗΓΕΣ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ

Δείτε περισσότερα