για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών»
|
|
- Χάρων Λούπης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή Πανεπιστημίου Πατρών Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών» Μελέτη Τεχνολογιών Σηµασιολογικού Ιστού και Ανάπτυξη Συστήµατος ιαχείρισης Πολιτισµικών εδοµένων Μερτής Αριστοτέλης Επιβλέπων Καθηγητής κ. Αθανάσιος Τσακαλίδης Τριμελής Εξεταστική Επιτροπή Καθηγητής κ. Αθανάσιος Τσακαλίδης Επ. Καθηγητής κ. Χρήστος Μακρής Επ. Καθηγητής κ. Ιωάννης Χατζηλυγερούδης Πάτρα, Μάρτιος 2010
2 ΕΥΧΑΡΙΣΤΙΕΣ Θέλω να ευχαριστήσω τον επιβλέποντα καθηγητή μου κ. Αθανάσιο Τσακαλίδη που μου έδωσε την ευκαιρία να ασχοληθώ με ένα τόσο ενδιαφέρον επιστημονικά αντικείμενο στον τομέα του Σημασιολογικού Ιστού. Ευχαριστώ επίσης τον κ. Ιωάννη Χατζηλυγερούδη και τον κ. Χρήστο Μακρή που δέχτηκαν να είναι μέλη της τριμελούς επιτροπής για την εξέταση και κρίση της μεταπτυχιακής μου εργασίας. i
3 ΕΠΙΤΕΛΙΚΗ ΣΥΝΟΨΗ Η ψηφιακή εποχή έχει διεισδύσει σε όλες τις πτυχές της ανθρώπινης δραστηριότητας και τις μεταμορφώνει με έναν επαναστατικό και πρωτόγνωρο τρόπο. Ένας ιδιαίτερος ευαίσθητος τομέας για εμάς τους Έλληνες, ο πολιτισμός, δεν θα μπορούσε να μείνει ανεπηρέαστος από το κύμα της ψηφιακής εποχής. Η ψηφιακή εποχή έχει μεταμορφώσει τη πολιτιστική κληρονομιά τόσο από άποψη δημιουργίας όσο και από άποψη διατήρησης πολιτισμού. Ενώ κάποτε συλλέγαμε φυσικά αντικείμενα όπως ζωγραφιές, βιβλία και αγάλματα, τώρα πλέον διατηρούμε και ψηφιακές αναπαραστάσεις των πολιτιστικών αντικειμένων. Μέσω των νέων τεχνολογιών της Πληροφορικής και των Επικοινωνιών μπορούν να δημιουργηθούν, ταυτοποιηθούν και να ανακτηθούν τα ψηφιακά αυτά αγαθά. Η πολιτιστική κληρονομιά έχει κερδίσει μεγάλο ενδιαφέρον τα τελευταία χρόνια. Η επιστημονική κοινότητα ερευνά τις πιθανότητες για παροχή κατάλληλων τεχνολογιών για ολοκληρωμένη πρόσβαση στις συλλογές πολιτισμικής κληρονομιάς, ενώ οι οργανισμοί πολιτισμικής κληρονομιάς γίνονται ολοένα πιο πρόθυμοι να συνεργαστούν και να παρέχουν την καλύτερη δυνατή πρόσβαση στις συλλογές τους μέσα από εξατομικευμένη παρουσίαση και πλοήγηση. Ο Σημασιολογικός Ιστός βρίσκεται στο επίκεντρο της προσπάθειας αυτής. Ο Σημασιολογικός Ιστός είναι το επόμενο στάδιο του σημερινού Διαδικτύου κατά το οποίο, τα δεδομένα θα επισημειώνονται με μεταδεδομένα, τα οποία θα επιτρέπουν στις εφαρμογές του Διαδικτύου να προσφέρουν καλύτερες υπηρεσίες αναζήτησης στο χρήστη. Η διπλωματική αυτή πραγματεύεται τη χρήση των τεχνολογιών του Σημασιολογικού Ιστού για την βελτίωση της πρόσβασης σε πολιτισμικά δεδομένα. Έχει ως στόχο την εμβάθυνση στις τεχνολογίες Σημασιολογικού Ιστού, στην ανάπτυξη μιας καινοτόμου εφαρμογής και στην ανάδειξη των πλεονεκτημάτων. Στο δεύτερο κεφάλαιο παρουσιάζεται πως ο Σημασιολογικός Ιστός λύνει το πρόβλημα της συντακτικής συμβατότητας. Συγκεκριμένα, παρουσιάζεται η τεχνολογία της XML και των διάφορων τεχνολογιών γύρω από αυτήν. Στο τρίτο και στο τέταρτο κεφάλαιο παρουσιάζεται πως επιτυγχάνεται η Σημασιολογική Συμβατότητα. Στο τρίτο κεφάλαιο μελετάται το RDF μοντέλο δεδομένων, η μοντελοποίηση δεδομένων στο Σημασιολογικό Ιστό. Παρουσιάζονται οι διάφοροι τρόποι σύνταξης του καθώς και πως γίνεται αναζήτηση σε γράφους RDF με το πρωτόκολλο SPARQL. Στο τέταρτο κεφάλαιο παρουσιάζεται η έννοια της ii
4 οντολογίας. Παρουσιάζονται διάφορες γλώσσες περιγραφής οντολογιών ενώ μελετάται σε βάθος η OWL. Στο πέμπτο κεφάλαιο παρουσιάζεται ένα σύνολο θησαυρών και οντολογιών που χρησιμοποιούνται περισσότερο από τους οργανισμούς. Παρουσιάζεται η οντολογία SKOS καθώς και μέθοδοι για τη μεταφορά παραδοσιακών θησαυρών στο Σημασιολογικό Ιστό μέσω του SKOS. Τέλος, παρουσιάζεται το CIDOC CRM ως μία λύση για την ολοκλήρωση θησαυρών ποικιλίας γνωστικών πεδίων. Στο έκτο κεφάλαιο γίνεται μία ανασκόπηση από επιλεγμένα έργα των τελευταίων ετών που χαρακτηρίζονται από την εφαρμογή των τεχνολογιών του Σημασιολογικού Ιστού στο τομέα του Πολιτισμού και της Πολιτισμικής Κληρονομιάς. Τέλος στο έβδομο κεφάλαιο παρουσιάζεται μία εφαρμογή διαχείρισης πολιτιστικών δρώμενων. Επίσης παρουσιάζεται η πρωτοβουλία των Διασυνδεδεμένων Δεδομένων και πως γίνεται η εφαρμογή μας γίνεται μέρος του Σημασιολογικού Ιστού μέσω της πρωτοβουλίας αυτής. iii
5 EXECUTIVE SUMMARY The digital age has influenced every aspect of human activity and has transformed them in a revolutionary, previously unseen way. A special for us Greeks sector, cultural heritage, could not stay unaffected from the wave of the digital age. The Digital age has transformed Cultural Heritage both from the aspect of creation and the aspect of conservation of civilization. While once we collected only physical objects like paintings, books and statues, now we also collect digital representations of cultural objects. Through the new ICTs the objects can be created, authenticated and retrieved. The domain of Cultural Heritage has gained a lot of popularity during the last years. The scientific community researches new possibilities for integrated access of collections of cultural heritage, while the organizations of cultural heritage are increasingly eager to cooperate and provide the best possible access to their collections through personalized presentation and navigation. The Semantic Web stands in the center of this effort. The Semantic Web is the next stage of today s Internet, in which, data are annotated with metadata that enable novel applications of the Internet to provide better search services to the user. This thesis researches the usage of Semantic Web technologies for the enhancement of the access to cultural data. Its goal is the study of Semantic Web technologies and the development of a novel application to emphasize its advantages. In the second chapter is presented the XML, which is the vehicle of Semantic Web data representations.in the third chapter, the RDF model is presented. Specifically, the various syntaxes of RDF and how RDF graphs are queried. In the fourth chapter the concept of the ontology is studied. Many ontology description languages are presented and OWL is studied more in depth. In the fifth chapter a number of thesaurus and ontologies are presented that are used by many CH organizations. The SKOS ontology is presented as well as the methods employed to migrate legacy thesauri to the Semantic Web. Also, the CIDOC CRM ontology is presented as a solution for the integration of various domains. In the sixth chapter a review of selected projects of the last years is presented, that are characterized by the application of the technologies of Semantic Web in the sector of Culture and Cultural heritage. iv
6 In the last chapter an application of cultural events management is presented. The initiative of Linked Data is also presented and how the application becomes a part of the Semantic Web through this initiative. v
7 ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΗ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΤΟ ΟΡΑΜΑ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ ΤΟ ΠΡΟΓΡΑΜΜΑ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ ΟΙ ΤΕΧΝΟΛΟΓΙΕΣ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ ΣΥΝΟΨΗ ΤΗΣ ΕΡΓΑΣΙΑΣ 6 2. ΣΥΝΤΑΚΤΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ ΔΟΜΙΚΑ ΣΤΟΙΧΕΙΑ XML ΠΕΡΙΓΡΑΦΉ ΔΟΜΉΣ XML ΕΓΓΡΆΦΩΝ DTDS XML SCHEMA ΧΏΡΟΙ ΟΝΟΜΆΤΩΝ ΓΛΏΣΣΕΣ ΕΠΕΡΏΤΗΣΗΣ XML ΕΓΓΡΆΦΩΝ XPATH XQUERY XML QL ΔΙΑΔΙΚΤΥΑΚΈΣ ΥΠΗΡΕΣΊΕΣ ΚΑΙ XML SOAP WSDL ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ: ΤΟ ΜΟΝΤΕΛΟ ΔΕΔΟΜΕΝΩΝ RDF ΕΙΣΑΓΩΓΗ ΣΤΟ RDF ΤΟ ΜΟΝΤΕΛΟ ΔΕΔΟΜΕΝΩΝ ΤΟ RDF ΣΑΝ ΓΡΑΦΟΣ ΣΥΝΤΑΞΕΙΣ TOY RDF RDF/XML TURTLE N TRIPLES ΑΝΑΖΗΤΗΣΗ ΣΕ RDF ΔΕΔΟΜΕΝΑ SELECT ΕΡΩΤΗΜΑ CONSTUCT ΕΡΩΤΗΜΑ ASK ΕΡΩΤΗΜΑ ΤΡΕΧΟΥΣΕΣ ΕΛΛΕΙΨΕΙΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ ΙΙ: ΟΝΤΟΛΟΓΙΕΣ ΚΑΙ ΚΑΝΟΝΕΣ 35 vi
8 4.1. ΓΛΏΣΣΕΣ ΠΕΡΙΓΡΑΦΉΣ ΜΕΤΑΔΕΔΟΜΈΝΩΝ SHOE OIL RDFS OWL ΠΕΡΙΓΡΑΦΙΚΈΣ ΛΟΓΙΚΈΣ ΔΙΆΛΕΚΤΟΙ ΤΗΣ OWL ΘΗΣΑΥΡΟΙ ΚΑΙ ΟΝΤΟΛΟΓΙΕΣ ΣΤΗ ΠΟΛΙΤΙΣΜΙΚΗ ΚΛΗΡΟΝΟΜΙΑ ΛΕΞΙΛΌΓΙΑ, ΘΗΣΑΥΡΟΊ ΚΑΙ ΘΕΜΑΤΙΚΈΣ ΕΠΙΚΕΦΑΛΊΔΕΣ ΘΗΣΑΥΡΟΊ ΑΑΤ TGN ULAN ICONCLASS DC SKOS ΈΝΝΟΙΕΣ SKOS ΕΤΙΚΈΤΕΣ SKOS ΣΗΜΑΣΙΟΛΟΓΙΚΈΣ ΣΧΈΣΕΙΣ ΣΧΉΜΑΤΑ ΕΝΝΟΙΏΝ ΜΕΤΑΤΡΟΠΉ ΘΗΣΑΥΡΏΝ ΣΕ SKOS CIDOC CRM CIDOC CRM ΚΑΙ LINKED DATA ΑΝΑΣΚΟΠΗΣΗ ΣΥΣΤΗΜΑΤΩΝ ΠΟΛΙΤΙΣΤΙΚΗΣ ΚΛΗΡΟΝΟΜΙΑΣ EUROPEANA ΛΟΓΙΚΟ ΜΟΝΤΕΛΟ ΔΕΔΟΜΕΝΩΝ: ΨΗΦΙΑΚΑ ΑΝΤΙΚΕΙΜΕΝΑ ΚΑΙ SURROGATES CHIP AMA PROJECT MULTIMEDIAN E CULTURE LIBRIS: ΚΑΝΟΝΤΑΣ ΕΙΣΑΓΩΓΗ ΤΩΝ ΚΑΤΑΛΟΓΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ ΔΙΑΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ. ΑΝΑΠΤΥΞΗ CASE STUDY ΔΙΑΣΥΝΔΕΔΕΜΈΝΑ ΔΕΔΟΜΈΝΑ: Ο ΙΣΤΌΣ ΔΕΔΟΜΈΝΩΝ ΠΟΡΟΙ ΚΑΙ ΑΝΑΠΑΡΑΣΤΑΣΕΙΣ ΣΤΟΝ ΙΣΤΟ ΔΕΔΟΜΕΝΩΝ ΔΙΑΠΡΑΓΜΆΤΕΥΣΗ ΠΕΡΙΕΧΟΜΈΝΟΥ ΨΕΥΔΏΝΥΜΑ URI ΣΥΣΧΕΤΙΖΟΜΕΝΕΣ ΠΕΡΙΓΡΑΦΕΣ ΠΛΕΟΚΤΉΜΑΤΑ ΚΑΙ ΘΈΜΑΤΑ ΤΙ ΘΑ ΠΡΕΠΕΙ ΝΑ ΕΠΙΣΤΡΕΦΕΙ ΜΙΑ ΠΕΡΙΓΡΑΦΗ RDF ΕΝΟΣ URI 80 vii
9 7.2. ΤΕΧΝΟΛΟΓΙΕΣ ΑΝΑΠΤΥΞΗΣ ΣΥΣΤΗΜΑΤΩΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ ΔΙΑΣΥΝΔΕΣΗ ΠΑΡΑΔΟΣΙΑΚΩΝ ΕΦΑΡΜΟΓΩΝ ΜΕ ΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ ΑΡΧΙΤΕΚΤΟΝΙΚΉ ΟΝΤΟΛΟΓΙΆ ΚΑΙ ΘΗΣΑΥΡΌΣ ΟΝΤΟΛΟΓΙΑ ΕΦΑΡΜΟΓΗΣ ΠΑΡΟΥΣΙΑΣΗ ΤΗΣ ΔΙΑΧΕΙΡΙΣΤΙΚΗΣ ΕΦΑΡΜΟΓΗΣ ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΩΝ ΔΙΑΧΕΙΡΙΣΗ ΧΩΡΩΝ ΠΟΛΙΤΙΣΤΙΚΩΝ ΕΚΔΗΛΩΣΕΩΝ ΔΙΑΧΕΙΡΙΣΗ ΚΙΝΗΜΑΤΟΓΡΑΦΙΚΩΝ ΠΑΡΑΣΤΑΣΕΩΝ ΑΝΑΖΗΤΗΣΗ ΚΑΙ ΟΠΤΙΚΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΤΟ ΣΥΣΤΗΜΑ ΣΤΟΝ ΙΣΤΟ ΔΕΔΟΜΕΝΩΝ DBPEDIA FREEBASE FOAF GEONAMES ΔΗΜΟΣΙΟΠΟΊΗΣΗ ΤΩΝ ΔΕΔΟΜΈΝΩΝ ΠΛΟΗΓΗΣΗ ΜΕ ΦΥΛΛΟΜΕΤΡΗΤΗ ΕΡΩΤΗΜΑΤΑ SPARQL ΒΙΒΛΙΟΓΡΑΦΙΑ ΚΑΙ ΑΝΑΦΟΡΕΣ 104 viii
10 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Εικόνα 1: Αρχιτεκτονική Σημασιολογικού Ιστού... 5 Εικόνα 2: Εποκοινωνία με Διαδικτυακές Υπηρεσίες Εικόνα 3: Στίβα πρωτοκόλλων Δικτυακών Υπηρεσιών Εικόνα 4: Παράδειγμα δήλωσης ως γράφος Εικόνα 5: Πολλές δηλώσεις ως γράφος Εικόνα 6: Παράδειγμα επισημείωσης με την SHOE Εικόνα 7: Παράδειγμα οντολογίας σε OIL Εικόνα 8: Το RDFS Specification Εικόνα 9: Ορολογία των Περιγραφικών Λογικών Εικόνα 10: Δομητές Εικόνα 11: Αξιώματα Εικόνα 12: Οι σημαντικότερες κλάσεις στο CIDOC CRM Εικόνα 13: Dbpedia Mobile εφαρμογή Εικόνα 14: Διασυνδεδεμένα Δεδομένα και Πολιτισμική Κληρονομιά Εικόνα 15: Δεδομένα αποθετηρίου Εικόνα 16: Διασύνδεση συλλογής με Διασυνδεδένα Δεδομένα Εικόνα 17: Αρχιτεκτονική Europeana Εικόνα 18: Μοντέλο καταλόγου βιβλιοθήκης Εικόνα 19: Μοντέλο Europeana Εικόνα 20: Δομή surrogate Εικόνα 21: CHIP Εικόνα 22: CHIP διεπαφή Εικόνα 23: Εργαλείο αντιστοίχισης ix
11 Εικόνα 24: Αρχιτεκτονική E CULTURE Εικόνα 25: Γράφος διασύνδεσης εννοιών στο Libris Εικόνα 26: Αρχιτεκτονική του Libris Εικόνα 27: Διαπραγμάτευση Περιεχομένου Εικόνα 28: Αρχιτεκτονική D2RServer Εικόνα 29: Αρχιτεκτονική Εφαρμογής Εικόνα 30: Η οντολογία όπως φαίνεται στο protégé Εικόνα 31: Οι ιδιότητες της οντολογίας όπως φαίνεται στο protégé Εικόνα 32: Αρχική οθόνη Διαχείρισης Έργων Εικόνα 33: Εισαγωγή νέου έργου Εικόνα 34:Υποβολή Ερωτήματος Εικόνα 35:Επιλογή έργου Εικόνα 36:Συμπληρωμένη φόρμα έργου Εικόνα 37:φόρμα συντελεστών Εικόνα 38:Περιλήψεις έργων Εικόνα 39: Αρχική οθόνη Διαχείρισης τοποθεσιών Εικόνα 40:Φόρμα αναζήτησης τοποθεσιών Εικόνα 41:Αναζήτηση Τοποθεσίας Εικόνα 42:Επιλογή Τοποθεσίας Εικόνα 43:Πολύπλευρη αναζήτηση και οπτικοποίηση αποτελεσμάτων Εικόνα 44: H εφαρμογή στα Διασυνδεδεμένα Δεδομένα Εικόνα 45: Η DBPedia στο δίκτυο Διασυνδεδεμένων Δεδομένων Εικόνα 46: Αρχιτεκτονική της Dbpedia Εικόνα 47: FreeBase Εικόνα 48:Αναπαράσταση πόρου Εικόνα 49: SPARQL Endpoint x
12 1. ΕΙΣΑΓΩΓΗ Η ψηφιακή εποχή έχει διεισδύσει σε όλες τις πτυχές της ανθρώπινης δραστηριότητας και τις μεταμορφώνει με έναν επαναστατικό και πρωτόγνωρο τρόπο. Ένας ιδιαίτερος ευαίσθητος τομέας για εμάς τους Έλληνες, ο πολιτισμός, δεν θα μπορούσε να μείνει ανεπηρέαστος από το κύμα της ψηφιακής εποχής. Η ψηφιακή εποχή έχει μεταμορφώσει τη πολιτιστική κληρονομιά τόσο από άποψη δημιουργίας όσο και από άποψη διατήρησης πολιτισμού. Ενώ κάποτε συλλέγαμε φυσικά αντικείμενα όπως ζωγραφιές, βιβλία και αγάλματα, τώρα πλέον διατηρούμε και ψηφιακές αναπαραστάσεις των πολιτιστικών αντικειμένων. Μέσω των νέων τεχνολογιών της Πληροφορικής και των Επικοινωνιών μπορούν να δημιουργηθούν, ταυτοποιηθούν και να ανακτηθούν τα ψηφιακά αυτά αγαθά. Η πολιτιστική κληρονομιά έχει κερδίσει μεγάλο ενδιαφέρον τα τελευταία χρόνια. Η επιστημονική κοινότητα ερευνά τις πιθανότητες για παροχή κατάλληλων τεχνολογιών για ολοκληρωμένη πρόσβαση στις συλλογές πολιτισμικής κληρονομιάς, ενώ οι οργανισμοί πολιτισμικής κληρονομιάς γίνονται ολοένα πιο πρόθυμοι να συνεργαστούν και να παρέχουν την καλύτερη δυνατή πρόσβαση στις συλλογές τους μέσα από εξατομικευμένη παρουσίαση και πλοήγηση. Η εφαρμογή των τεχνολογιών πληροφορικής και επικοινωνιών στη διαχείριση της πολιτιστικής κληρονομιάς εκτείνεται σε ένα ευρύ φάσμα συστημάτων, όπως πληροφοριακά συστήματα μουσείων και μνημείων, συστήματα αρχείων, ψηφιακές βιβλιοθήκες, γεωγραφικά πληροφοριακά συστήµατα, συστήµατα καταγραφής έρευνας πεδίου και συστήματα τεκμηρίωσης συντήρησης. Η προσφορά της πληροφορικής στην αξιοποίηση της πολιτιστικής κληρονοµιάς ενδεικτικά αναφέρεται στην ολική ή επιλεκτική πρόσβαση σε βάσεις δεδοµένων, αρχεία ή συλλογές, στη δηµιουργία ηλεκτρονικών οδηγών µουσείων και εκθέσεων, σε ηλεκτρονικές εκδόσεις τέχνης, ιστορίας και τεχνολογίας και σε παρουσιάσεις εικονικής πραγµατικότητας. Ο πολιτισµός αποτελεί βασικό συγκριτικό πλεονέκτηµα της Ελλάδας και οι δυνατότητες που προσφέρουν οι σύγχρονες Τεχνολογίες Πληροφορίας και Επικοινωνίας για την ανταλλαγή εικόνων, κειµένων, ήχων κτλ παραµερίζοντας τα εµπόδια της περιορισµένης γλωσσικής εµβέλειας και της γεωγραφικής θέσης παρέχουν σηµαντικές ευκαιρίες για τη διακίνηση των ιδεών και της πληροφόρησης για την πολιτιστική κληρονοµιά και τη σύγχρονη δηµιουργία. Με τον όρο «πολιτιστική κληρονοµιά» δεν αναφερόµαστε µόνο σε µουσειακά αντικείµενα, αλλά και σε σηµαντικά οικοδοµήµατα και τόπους, µνηµεία, βιβλία και έγγραφα, θέατρα, µουσική, λαϊκή τέχνη κτλ που συνθέτουν το πολιτιστικό απόθεµα µίας χώρας και τα οποία διασυνδέονται µεταξύ τους. Η ελεύθερη πρόσβαση στους πόρους της πολιτιστικής κληρονοµιάς θα δώσει στους χρήστες ένα ευρύ φάσµα 1
13 1. Εισαγωγή δυνατοτήτων για την πρόκτηση γνώσης, ανεξάρτητα από την τοποθεσία και τη µορφή (µουσειακό αντικείµενο, βιβλίο κτλ) στην οποία διατίθεται, ενώ η χρήση των εργαλείων πληροφορικής και επικοινωνιών µπορεί να προσφέρει πρόσβαση στους ζητούµενους πόρους ανεξάρτητα από τον πολιτιστικό φορέα που τους διαθέτει. Η ιδεατή κατάσταση την οποία ευαγγελίζεται η Κοινωνία της Πληροφορίας στον τοµέα της αξιοποίησης του πολιτιστικού αποθέµατος µπορεί να περιγραφεί µε τη χρήση ενός παραδείγµατος: αν ένας πολίτης της Ελλάδας ή οποιασδήποτε άλλης χώρας ενδιαφέρεται για τον Οδυσσέα Ελύτη και αναζητά πληροφορία σε ένα ολοκληρωµένο δίκτυο πολιτισµικής κληρονοµιάς, να µπορεί να ανακτήσει δεδοµένα για: τη βιογραφία και το έργο του, µουσεία που φυλάσσουν αντικείµενα σχετικά µε τον καλλιτέχνη και πληροφορίες για τα σχετικά εκθέµατα, βιβλιογραφία, βιβλιοθήκες µε αυθεντικά έργα του, ιστοτόπους, πολυµεσικές εφαρµογές για τη ζωή και το έργο του, µεταφράσεις των έργων του και εικονογραφίες, θεατρικές αποδόσεις και ηθοποιούς που συµµετέχουν σε αυτές, ταινίες, µνηµεία κτλ. Η µετατροπή του παραπάνω ιδεατού παραδείγµατος σε εφικτή λύση απαιτεί την επίλυση του πρόβληµα της διαλειτουργικότητας. Η διαλειτουργικότητα ορίζεται ως η ικανότητα µεταφοράς και χρησιµοποίησης της πληροφορίας µε ένα οµοιογενή και αποτελεσµατικό τρόπο µεταξύ διαφόρων οργανισµών σε επίπεδο συστηµάτων πληροφορικής. Το πρόβλημα αυτό καλούνται να επιλύσουν οι τεχνολογίες του Σημασιολογικού Ιστού ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Ο Σημασιολογικός Ιστός είναι μία ενεργή πρωτοβουλία του W3C (World Wide Web Consortium) τα τελευταία χρόνια και έχει προσελκύσει ενδιαφέρον και σκεπτικισμό μαζί. Η πρωτοβουλία είναι έμπνευση του οράματος του δημιουργού του ίδιου του Διαδικτύου, του Tim Berners Lee, για ένα πιο ευέλικτο, ολοκληρωμένο αυτόματο και αυτοπροσαρμοζόμενο Διαδίκτυο, παρέχοντας μία πιο πλούσια αλληλεπιδραστική εμπειρία στους χρήστες. Το W3C έχει αναπτύξει ένα σύνολο προτύπων και εργαλείων για την υποστήριξη αυτού του οράματος και μετά από αρκετά χρόνια έρευνας και ανάπτυξης, είναι πλέον έτοιμα για χρήση. Έχει χρησιμοποιηθεί σε αρκετούς τομείς μέχρι τώρα και συγκεκριμένα στην υγεία, την ηλεκτρονική διακυβέρνηση ενώ τελευταία υπάρχει έντονο ενδιαφέρον και για την πολιτιστική κληρονομιά. Ο όρος Σημασιολογικός Ιστός χρησιμοποιείται ευρέως, συχνά χωρίς ιδιαίτερη προσοχή και κατανόηση της προέλευσης και της σημασίας του. Γενικά υπάρχουν τρις σκοπιές του όρου που χρησιμοποιούνται ευρέως: το όραμα, το πρόγραμμα και η τεχνολογία. 2
14 1. Εισαγωγή ΤΟ ΟΡΑΜΑ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ Ο Σημασιολογικός Ιστός είναι εμπνευσμένος από ένα όραμα για το σημερινό Διαδίκτυο το οποίο βρίσκεται στο προσκήνιο από την σύλληψη του Διαδικτύου. Ο Tim Berners Lee είναι ο πρώτος που οραματίστηκε το Διαδίκτυο να περιέχει πλούσιες περιγραφές των εγγράφων και συνδέσμους μεταξύ τους. Ωστόσο, σε μία προσπάθεια να παρέχει ένα απλό, εύχρηστο και εύρωστο λειτουργικό σύστημα που μπορεί να χρησιμοποιηθεί από όλους, αυτές οι ιδέες παραμερίστηκαν και οι πιο απλές τέθηκαν σε εφαρμογή για να κυοφορήσουν το σημερινό Διαδίκτυο. Το μεγαλύτερο όραμα εκφράστηκε σε ένα άρθρο γραμμένο από τους Tim Berners Lee, Jim Hendler και Ora Lassila στο περιοδικό Scientific American το Στο άρθρο αυτό παρέχουν το όραμα ενός κόσμου που αντί οι άνθρωποι να ερευνούν και να χάνονται μέσα στην πληροφορία ή να διαπραγματεύονται μεταξύ τους άμεσα για να εκτελέσουν έργα ρουτίνας όπως προγραμματισμό ραντεβού, εύρεση εγγράφων κ.λπ., το Διαδίκτυο θα μπορεί να το κάνει αυτό για αυτούς. Αυτό μπορεί να γίνει παρέχοντας επαρκείς πληροφορίες σχετικά με τους πόρους στο Διαδίκτυο καθώς και εργαλεία για τη χρησιμοποίηση των πληροφοριών αυτών έτσι ώστε οι εφαρμογές να μπορούν να βρουν τα σωστά πράγματα και να πάρουν τις σωστές αποφάσεις. Όπως λέει συγκεκριμένα το άρθρο: «Ο Σημασιολογικός Ιστός θα φέρει δομή στο περιεχόμενο των ιστοσελίδων, δημιουργώντας ένα περιβάλλον όπου οι πράκτορες εφαρμογές θα μπορούν να μεταφέρονται από σελίδα σε σελίδα και να εκτελούν εκλεπτυσμένα έργα για τους χρήστες.». Το ίδιο άρθρο γράφει για το Σημασιολογικό Ιστό ότι : «είναι μία επέκταση του τωρινού Διαδικτύου στην οποία οι πληροφορίες έχουν καλώς ορισμένη σημασία, επιτρέποντας στους υπολογιστές και στους ανθρώπους να συνεργάζονται» ΤΟ ΠΡΟΓΡΑΜΜΑ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ Ο Σημασιολογικός Ιστός έγινε πρόγραμμα από τη στιγμή που εμφανίστηκε το Semantic Web Roadmap, ένα σχέδιο για την ανασχεδίαση του Διαδικτύου για την επίτευξη του οράματος αυτού. Ο Σημασιολογικός Ιστός είναι μία πρωτοβουλία του W3C, του παγκόσμιου οργανισμού που θέτει τα πρότυπα για τις τεχνολογίες που βρίσκονται κάτω από το Διαδίκτυο. Το W3C ιδρύθηκε την εποχή που ήταν ξεκάθαρο ότι υπήρχε ένας κίνδυνος για το Διαδίκτυο να διασπαστεί λόγων των πιέσεων από τον ανταγωνισμό εμπορικών συμφερόντων και είναι σήμερα ένα μεγάλο forum που παρέχει πληροφορίες υποδομής στους ανθρώπους και στους οργανισμούς σε όλον τον κόσμο. Στόχο έχει να συντηρήσει την διαλειτουργικότητα και την καθολικότητα του Διαδικτύου μέσα από τον καθορισμό ανοικτών προτύπων στα οποία τα εργαλεία του Διαδικτύου θα πρέπει να συμμορφώνονται. Χρηματοδοτείται από συνδρομές μελλών στα οποία 3
15 1. Εισαγωγή περιλαμβάνονται μεγάλες εμπορικές επιχειρήσεις καθώς και πολλά μη κερδοσκοπικά ιδρύματα και πανεπιστήμια. Η πρωτοβουλία του Σημασιολογικού Ιστού ξεκίνησε με το Web Metadata Working Group το 1998 το οποίο έγινε μετά το Semantic Web Activity. Τα πρώτα Groups στο Semantic Web Activity δημιούργησαν δύο σημαντικές προτάσεις: το μοντέλο RDF και το RDFS. Σήμερα η εργασία στο Semantic Web Activity συνεχίζεται με τις εξής ομάδες: Rules Interchange Format Working Group: έχει ως στόχο την παραγωγή μιας γλώσσας κανόνων μαζί με επεκτάσεις που θα δίνει τη δυνατότητα μετάφρασης κανόνων μεταξύ διαφόρων γλωσσών κανόνων. RDB2RDF Working Group: έχει ως αποστολή να προτυποποιήσει μία γλώσσα για την απεικόνιση σχεσιακών δεδομένων και σχεσιακών σχημάτων σε RDF/OWL. RDFa Working Group: έχει ως αποστολή την υποστήριξη της ανάπτυξης της χρήσης του RDFa προτύπου για την ενσωμάτωση δομημένων δεδομένων στις ιστοσελίδες. SPARQL Working Group: γνωστό παλιότερα ως RDF Data Access Working Group, ανάπτυξε τη SPARQL πρόταση το 2008 και έχει τώρα ως αποστολή να κάνει μικρές αλλαγές στη SPARQL ΟΙ ΤΕΧΝΟΛΟΓΙΕΣ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ Η τρίτη κοινή χρήση του όρου Σημασιολογικός Ιστός είναι να αναγνωρίσει το σύνολο των τεχνολογιών, εργαλείων και προτύπων που διαμορφώνουν τα βασικά συστατικά μέρη ενός συστήματος που θα μπορούσε να υποστηρίξει το όραμα του Σημασιολογικού Ιστού. Η αρχιτεκτονική του Σημασιολογικού Ιστού αποτελείται από μία στοίβα πρωτοκόλλων, που αναπαρίσταται στο παρακάτω σχήμα. 4
16 1. Εισαγωγή Εικόνα 1: Αρχιτεκτονική Σημασιολογικού Ιστού Παρακάτω περιγράφονται σύντομα τα επίπεδα: Unicode και URIs: Το Unicode είναι το πρότυπο για την αναπαράσταση χαρακτήρων και τα URIs είναι το πρότυπο για την αναγνώριση και την διευθυνσιοδότηση πόρων όπως σελίδες και φωτογραφίες στο Διαδίκτυο. Τα δύο αυτά πρότυπα παρέχουν τη βάση για την αναπαράσταση χαρακτήρων στις περισσότερες γλώσσες του κόσμου και για την αναγνώριση των πόρων. XML: η XML και τα σχετιζόμενα πρότυπα, όπως οι χώροι ονομάτων και τα Σχήματα, διαμορφώνουν έναν κοινό τρόπο για την δόμηση των δεδομένων στο Διαδίκτυο αλλά χωρίς την μεταφορά της σημασιολογίας των δεδομένων. RDF (Resource Description Framework): το RDF είναι το πρώτο επίπεδο που ασχολείται με τη σημασιολογία των δεδομένων. Είναι μία απλή γλώσσα αναπαράστασης μεταδεδομένων που χρησιμοποιεί URIs για την αναγνώριση διαδικτυακών πόρων καθώς και ένα μοντέλο γράφου για την περιγραφή των σχέσεων μεταξύ αυτών των πόρων. RDFS (RDF Schema): το RDFS είναι μια απλή γλώσσα μοντελοποίησης τύπων για την περιγραφή κλάσεων πόρων και ιδιοτήτων μεταξύ τους στο βασικό RDF μοντέλο. Παρέχει ένα απλό πλαίσιο συλλογιστικής για το συμπερασμό των τύπων των πόρων. Οντολογίες: είναι μία πλουσιότερη γλώσσα για παροχή πιο πολύπλοκων περιορισμών στους τύπους των πόρων και τις ιδιότητές τους. 5
17 1. Εισαγωγή Λογική και απόδειξη: ένα αυτόματο σύστημα συλλογιστικής μέσω του οποίου ένας πράκτορας μπορεί να βγάλει νέα συμπεράσματα σχετικά με το αν ένας πόρος ικανοποιεί κάποιες απαιτήσεις. Εμπιστοσύνη: Το τελικό επίπεδο της στοίβας απευθύνεται σε θέματα εμπιστοσύνης στο Σημασιολογικό Ιστό ΣΥΝΟΨΗ ΤΗΣ ΕΡΓΑΣΙΑΣ Στο δεύτερο κεφάλαιο παρουσιάζεται πως ο Σημασιολογικός Ιστός λύνει το πρόβλημα της συντακτικής συμβατότητας. Συγκεκριμένα, παρουσιάζεται η τεχνολογία της XML και των διάφορων τεχνολογιών γύρω από αυτήν. Στο τρίτο και στο τέταρτο κεφάλαιο παρουσιάζεται πως επιτυγχάνεται η Σημασιολογική Συμβατότητα. Στο τρίτο κεφάλαιο μελετάται το RDF μοντέλο δεδομένων, η μοντελοποίηση δεδομένων στο Σημασιολογικό Ιστό. Παρουσιάζονται οι διάφοροι τρόποι σύνταξης του καθώς και πως γίνεται αναζήτηση σε γράφους RDF με το πρωτόκολλο SPARQL. Στο τέταρτο κεφάλαιο παρουσιάζεται η έννοια της οντολογίας. Παρουσιάζονται διάφορες γλώσσες περιγραφής οντολογιών ενώ μελετάται σε βάθος η OWL. Στο πέμπτο κεφάλαιο παρουσιάζεται ένα σύνολο θησαυρών και οντολογιών που χρησιμοποιούνται περισσότερο από τους οργανισμούς. Παρουσιάζεται η οντολογία SKOS καθώς και μέθοδοι για τη μεταφορά παραδοσιακών θησαυρών στο Σημασιολογικό Ιστό μέσω του SKOS. Τέλος, παρουσιάζεται το CIDOC CRM ως μία λύση για την ολοκλήρωση θησαυρών ποικιλίας γνωστικών πεδίων. Στο έκτος κεφάλαιο γίνεται μία ανασκόπηση από επιλεγμένα έργα των τελευταίων ετών που χαρακτηρίζονται από την εφαρμογή των τεχνολογιών του Σημασιολογικού Ιστού στο τομέα του Πολιτισμού και της Πολιτισμικής Κληρονομιάς. Τέλος στο έβδομο κεφάλαιο παρουσιάζεται μία εφαρμογή διαχείρισης πολιτιστικών δρώμενων. Επίσης παρουσιάζεται η πρωτοβουλία των Διασυνδεδεμένων Δεδομένων και πως γίνεται η εφαρμογή μας γίνεται μέρος του Σημασιολογικού Ιστού μέσω της πρωτοβουλίας αυτής. 6
18 2. ΣΥΝΤΑΚΤΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ 2.1. ΔΟΜΙΚΑ ΣΤΟΙΧΕΙΑ XML Ένα XML έγγραφο αποτελείται από τα εξής δομικά στοιχεία: Πρόλογος (Prolog) Στοιχεία (Elements) καθώς και άλλα στοιχεία που είναι προαιρετικά όπως σχόλια, επεξεργασίας και έναν επίλογο. εντολές Ο πρόλογος αποτελείται από μία δήλωση XML η οποία ορίζει ότι το έγγραφο είναι έγγραφο XML, την κωδικοποίησή του καθώς και την έκδοση της XML στην οποία έχει συνταχθεί το έγγραφο. Ένα παράδειγμα φαίνεται παρακάτω: <xml encoding= UTF 8 version= 1.0 > Τυπικά τα δεδομένα στο Σημασιολογικό Ιστό κωδικοποιούνται με το UTF 8. Ο πρόλογος επίσης περιλαμβάνει μία προαιρετική αναφορά σε εξωτερικά έγγραφα που περιγράφουν τη δομή του XML εγγράφου. Το εξωτερικό έγγραφο αυτό μπορεί να βρίσκεται τοπικά π.χ. στον εξυπηρετητή που βρίσκεται το έγγραφο ή να βρίσκεται σε μία άλλη δικτυακή τοποθεσία. Στην πρώτη περίπτωση δηλώνεται το όνομα του αρχείου με την ετικέτα SYSTEM ενώ στη δεύτερη δηλώνεται το URL της τοποθεσίας που βρίσκεται μαζί με την ετικέτα PUBLIC. Ένα παράδειγμα δήλωσης ενός εξωτερικού εγγράφου που περιγράφει τη δομή ενός XML εγγράφου και που βρίσκεται τοπικά στο σύστημα είναι το εξής: <!DOCTYPE writer SYSTEM "writers.dtd"> Τα στοιχεία είναι το κύριο δομικό στοιχείο ενός XML εγγράφου με τα οποία περιγράφονται τα δεδομένα. Ένα XML στοιχείο περιλαμβάνει τυπικά μία αρχική ετικέτα (opening tag), το περιεχόμενο του στοιχείου και μία τελική ετικέτα (closing tag). Η επιλογή των ετικετών γίνεται αυθαίρετα και καθορίζεται από τον χρήστη. Τυπικά η επιλογή τους καθορίζεται από το περιεχόμενο για το οποίο έχουν σχεδιαστεί να περιλαμβάνουν και θα πρέπει να περιγράφει ικανοποιητικά αυτό έτσι ώστε να είναι κατανοητό και σε άλλους χρήστες. Οι μόνοι περιορισμοί στην επιλογή τους είναι ότι ο πρώτος χαρακτήρας της ετικέτας δεν μπορεί να είναι γράμμα, κάτω παύλα ή ελληνικό ερωτηματικό. Επίσης η ετικέτα δεν μπορεί να ξεκινάει με το λεκτικό xml σε οποιοδήποτε συνδυασμό πεζών/μικρών γραμμάτων. Μερικά παραδείγματα απλών στοιχείων είναι τα εξής: <firstname> Aristotelis </firstname> 7
19 2. Συντακτική Διαλειτουργικότητα <writer/> Το πρώτο στοιχείο έχει ετικέτα firstname οπότε συμπεραίνουμε ότι ορίζει ένα μικρό όνομα στο περιεχόμενό του. Το δεύτερο στοιχείο είναι ένα κενό στοιχείο το οποίο μπορεί να γραφτεί συντομευτικά στη μορφή που φαίνεται, χωρίς να ορίσουμε διαφορετική αρχική και τελική ετικέτα. Το περιεχόμενο του στοιχείου μπορεί να είναι είτε κενό, είτε απλό κείμενο είτε άλλα στοιχεία. Το επόμενο στοιχείο έχει δύο άλλα στοιχεία για περιεχόμενο και περιγράφει τα στοιχεία ενός συγγραφέα. <writer> <firstname>ares</firstname> <lastname>mertis</lastname> </writer> Προαιρετικά ένα στοιχείο έχει ένα η περισσότερα γνωρίσματα (attributes). Τα γνωρίσματα είναι ζευγάρια τύπου όνομα τιμή μέσα στην αρχική ετικέτα ενός στοιχείου. Η χρήση τους μοιάζει και μπορεί να αντικατασταθεί από ενθυλακωμένα στοιχεία. Ένα παράδειγμα φαίνεται παρακάτω: <books name= Ares lastname= Mertis > <book> A study on semantic web </book> <book> Another study on semantic web </book> </books> Το οποίο θα μπορούσε να γραφτεί μονάχα με στοιχεία ως εξής: <books> <name>ares</name> <lastname>mertis</lastname> <book> A study on semantic web </book> <book> Another study on semantic web </book> </books> Οπότε το θέμα της επιλογής ανάμεσα σε ενθυλακωμένα στοιχεία ή γνωρίσματα έχει να κάνει με το πώς θέλει ο καθένας να οργανώσει το έγγραφό του. Τα XML έγγραφα έχουν μία αυστηρότητα στη σύνταξή τους σε αντίθεση με την HTML. Υπάρχει ένα σύνολο κανόνων το οποίο καθορίζει αν ένα XML έγγραφο είναι έγκυρο ή καλώς μορφοποιημένο (well formed). Κάποιοι από τους σημαντικότερους κανόνες είναι οι εξής: 8
20 2. Συντακτική Διαλειτουργικότητα Κάθε στοιχείο περιέχει μία αρχική ετικέτα και μια αντίστοιχη τελική ετικέτα. Δεν θα πρέπει οι ετικέτες να επικαλύπτονται. Τα γνωρίσματα μέσα σε ένα στοιχείο πρέπει να έχουν μοναδικά ονόματα Κάποια ακόμα προαιρετικά στοιχεία που ενδεχομένως περιλαμβάνονται σε ένα XML έγγραφο είναι τα σχόλια και οι εντολές επεξεργασίας (Processing Instructions). Τα σχόλια ορίζονται ως εξής: <! Παράδειγμα σχολίου > Οι εντολές επεξεργασίας είναι ειδικές οδηγίες που περιλαμβάνονται στο έγγραφο από το σχεδιαστεί και αποτελούν υπόδειξη για τις εφαρμογές που θα το χρησιμοποιήσουν για το πώς θα πρέπει ή είναι επιθυμητό να χειριστούν τα στοιχεία του. Η παρακάτω εντολή είναι μία υπόδειξη για τις εφαρμογές να χρησιμοποιήσουν ένα χαρακτηριστικό σύνολο στυλ για τη μορφοποίηση τον στοιχείων του. <?stylesheet type= text/css href= mystyle.css?> Να σημειωθεί ότι η σειρά των στοιχείων παίζει σημασία ενώ η σειρά των γνωρισμάτων δεν παίζει σημασία ΠΕΡΙΓΡΑΦΉ ΔΟΜΉΣ XML ΕΓΓΡΆΦΩΝ Για να είναι δυνατή η επικοινωνία των εφαρμογών μεταξύ τους με έγγραφα XML, θα πρέπει να γίνει πρώτα μία συμφωνία σχετικά με τα ονόματα των στοιχείων και των γνωρισμάτων που θα χρησιμοποιηθούν για τη σύνταξη των XML εγγράφων. Πέραν από την ονοματολογία, θα πρέπει να ορίζεται η ακριβής δομή του μοντέλου του δέντρου, δηλαδή ποια στοιχεία μπορούν να υπάρχουν μέσα σε ποια στοιχεία κ.λπ. Για τη δημιουργία ενός τέτοιου «συμβολαίου», υπάρχουν δύο τρόποι. Ο ένας είναι τα DTDs (Document Type Definitions) και ο άλλος είναι το XML Schema. Βάσει ενός από αυτά τα συμβόλαια μπορούμε να ορίσουμε εκ νέου την εγκυρότητα ενός XML εγγράφου. Πρώτον, θα πρέπει να είναι καλώς μορφοποιημένο, να αναφέρεται σε κάποιο συμβόλαιο ενός από τους δύο τύπους που παραθέσαμε παραπάνω και να ακολουθεί το συμβόλαιο αυτό DTDS Σε αυτήν την ενότητα θα παρουσιαστεί ο πρώτος τρόπος περιγραφής της δομής XML εγγράφων. Τα DTDs είναι μία σειρά οδηγιών για τη δομή ενός XML εγγράφου οι οποίες μπορούν να περιληφθούν είτε στο ίδιο το XML έγγραφο τη δομή του οποίου ορίζουν, όποτε λέγονται και εσωτερικά DTDs (internal DTDs), ή δύνανται να βρίσκονται σε ξεχωριστό αρχείο και τοποθεσία από το έγγραφο XML, οπότε μιλάμε 9
21 2. Συντακτική Διαλειτουργικότητα για εξωτερικό DTD (external DTD). Γενικά προτιμάται ως πρακτική η σύνταξη εξωτερικών DTDs λόγω της δυνατότητας επαναχρησιμοποίησής τους από πολλαπλά XML έγγραφα και για την ευκολότερη συντήρησή τους. Για την παρουσίαση των DTDs θα χρησιμοποιηθεί ένα γνωστό λεξιλόγιο που χρησιμοποιείται για τη τεκμηρίωση βιβλιογραφικών κυρίως έργων, το Dublin Core και συγκεκριμένα μία απλουστευμένη εκδοχή του που δεν περιλαμβάνει χώρους ονομάτων, τους οποίους θα εξετάσουμε σε επόμενη ενότητα. Για να δούμε πως περιγράφεται η δομή των στοιχείων, έστω το παρακάτω στοιχέιο: <work> <title> Σημασιολογικός Ιστός </title> <creator> Αριστοτέλης Μερτής </creator> </work> Για το παραπάνω στοιχείο, το DTD θα έχει ως εξής: <!ELEMENT work (title,creator)> <!ELEMENT title (#PCDATA)> <!ELEMENT creator (#PCDATA)> Οι παραπάνω οδηγίες ορίζουν τα εξής: Το στοιχείο work περιέχει ένα στοιχείο title κι ένα στοιχείο creator με τη σειρά αυτή. Τα στοιχεία title και creator μπορούν να έχουν οποιοδήποτε περιεχόμενο. Αν ολόκληρο το DTD ήταν αυτό, επίσης συμπεραίνουμε πως δεν θα πρέπει να περιλαμβάνεται άλλο στοιχείο στο έγγραφο εκτός από τα work, title και creator. Αν θέλουμε να ορίσουμε ότι ένα στοιχείο μπορεί να περιέχει ένα από δύο στοιχεία τότε γράφουμε: <!ELEMENT work (title creator)> Ενώ αν δεν μας ενδιαφέρει η σειρά μπορούμε να γράψουμε: <!ELEMENT work ((title,creator) (creator,title))> Σε περίπτωση που έχουμε ένα στοιχείο με γνωρίσματα όπως για παράδειγμα: <work about= work id dept= ceid > 10
22 2. Συντακτική Διαλειτουργικότητα <title lang= el > Σημασιολογικός Ιστός </title> <creator lang= el name= Αριστοτέλης Μερτής /> </work> Το αντίστοιχο DTD που θα περιέγραφε τη δομή του παραπάνω εγγράφου θα έχει ως εξής: <!ELEMENT work (title,creator)> <!ATTLIST work work id ID #REQUIRED dept CDATA #REQUIRED> <!ELEMENT title (#PCDATA)> <!ATTLIST title lang CDATA #IMPLIED> <!ELEMENT creator EMPTY> <!ATTLIST creator name CDATA #REQUIRED> Με το κωδικό ATTLIST ορίζουμε τα δυνατά γνωρίσματα για ένα στοιχείο. Ο τύπος της τιμής ενός γνωρίσματος μπορεί να είναι κάποιος από τους επόμενους: #REQUIRED : το γνώρισμα θα πρέπει να εμφανίζεται σε κάθε εμφάνιση του στοιχείου. #IMPLIED: η εμφάνιση του γνωρίσματος είναι προαιρετική. Όπως στο παράδειγμα η γλώσσα του τίτλου. #FIXED value : κάθε στοιχείο πρέπει να έχει αυτό το γνώρισμα που θα πρέπει να έχει τη τιμή που ορίζεται μετά το #FIXED στο DTD. Τέλος για τη παρουσίαση του τελεστή πληθικότητας ( cardinality operator), Έστω το παρακάτω παράδειγμα: <library> <work title= title 1 /> <work title= title 2 /> </library> Το αντίστοιχο DTD θα έχει ως εξής: <!ELEMENT library (work+)> <!ELEMENT work EMPTY> 11
23 2. Συντακτική Διαλειτουργικότητα <!ATTLIST work title CDATA #REQUIRED> Οι τελεστές πληθικότητας είναι οι εξής: + o οποίος δηλώνει ότι εμφανίζεται μία η περισσότερες φορές.? o οποίος δηλώνει ότι δεν εμφανίζεται καμία φορά ή μόνο μία * ο οποίος δηλώνει ότι εμφανίζεται μία ή παραπάνω φορές XML SCHEMA Το XML Schema είναι ο δεύτερος, νεότερος και καλύτερος τρόπος περιγραφής της δομής XML εγγράφων. Τα XML Schemata έχουν μία σειρά από πλεονεκτήματα απέναντι στο παραδοσιακό DTD που περιγράφηκε στην προηγούμενη ενότητα. Καταρχάς, χρησιμοποιούν το συντακτικό της XML. Τα ίδια προγράμματα που χρησιμοποιούνται για επεξεργασία και συντακτική ανάλυση των XML εγγράφων μπορούν να χρησιμοποιηθούν και για τo XML Schema, χωρίς να χρειάζεται η ανάπτυξη ιδιαίτερων εργαλείων. Άλλο ένα πλεονέκτημα που προκύπτει από τη χρήση του XML συντακτικού είναι η δυνατότητα επέκτασης του XML Schema. Ένα XML Schema έγγραφο μπορεί να χρησιμοποιηθεί σε άλλα έγγραφα ή στο ίδιο έγγραφο να γίνει αναφορά σε πολλαπλά XML Schemas. Ένα άλλο σημαντικό πλεονέκτημα των XML Schemas απέναντι στα DTD είναι η υποστήριξη τύπων δεδομένων. Οι τύποι δεδομένων επιτρέπουν την πιο ακριβή περιγραφή του περιεχομένου του εγγράφου και τη δυνατότητα για επαλήθευση της ορθότητας των δεδομένων. Οι τύποι δεδομένων κάνουν ευκολότερη την ανταλλαγή δεδομένων εφόσον ορίζουν το τύπο του περιεχόμενου που πρέπει να περιμένει ο παραλήπτης του μηνύματος σε κάθε στοιχείο του XML εγγράφου. Επίσης, δίνεται η δυνατότητα για επέκταση τωνπρότυπων τύπων δεδομένων του XML Schema. Για την ανάπτυξη του XML Schema χρησιμοποιούμε το ίδιο λεξιλόγιο που παρουσιάσαμε στην προηγούμενη ενότητα. Ας πάρουμε για παράδειγμα πάλι το παρακάτω κομμάτι ενός XML εγγράφου: <work> <title> Σημασιολογικός Ιστός </title> <creator> Αριστοτέλης Μερτής </creator> </work> 12
24 2. Συντακτική Διαλειτουργικότητα Το αντίστοιχο XML Schema για το παραπάνω στοιχείο είναι το παρακάτω: <?xml version="1.0"?> <xs:schema xmlns:xs=" targetnamespace=" xmlns=" elementformdefault="qualified"> <xs:element name="work"> <xs:complextype> <xs:sequence> <xs:element name="title" type="xs:string"/> <xs:element name="creator" type="xs:string"/> </xs:sequence> </xs:complextype> </xs:element> </xs:schema> Η ρίζα ενός XML Schema xml εγγράφου είναι πάντα το στοιχείο schema. Τυπικά γνωρίσματα του στοιχείου schema είναι τα εξής: Ο χώρος ονομάτων που ορίζονται οι τύποι δεδομένων και τα στοιχεία του XML Schema. Αυτός είναι ο Το targetnamespace το οποίο δηλώνει το χώρο ονομάτων των στοιχείων τα οποία ορίζει το παρόν XML Schema. Το XML Schema διακρίνει δύο ειδών στοιχεία: τα απλά στοιχεία και τα πολύπλοκα στοιχεία. Τα απλά στοιχεία είναι αυτά που περιέχουν μονάχα κείμενο και δεν έχουν γνωρίσματα ή άλλα στοιχεία ως περιεχόμενο. Αντίθετα, τα πολύπλοκα στοιχεία μπορούν να έχουν γνωρίσματα και άλλα στοιχεία ως περιεχόμενο. Ένα απλό στοιχείο ορίζεται ως εξής: <xs:element name="xxx" type="yyy"/> Όπου xxx είναι το όνομα του στοιχείου και yyy είναι ο τύπος δεδομένων του. Το XML Schema υποστηρίζει ένα προεπιλεγμένο σύνολο από τύπους δεδομένων, οι σημαντικότεροι από τους οποίους φαίνονται στον παρακάτω πίνακα. 13
25 2. Συντακτική Διαλειτουργικότητα Πίνακας 1: Τύποι Δεδομένων στο XML Schema Τύπος Δεδομένων Αλφαριθμητικό Ακέραιος Δεκαδικός Boolean Ημερομηνία Ώρα Περιγραφή Xs:string xs:int xs:decimal xs:boolean xs:date Xs:datetime Μέσω του στοιχείου element μπορεί να οριστεί μία προεπιλεγμένη τιμή θέτοντας τη τιμή αυτή στο γνώρισμα default, ή μία σταθερή τιμή η οποία δεν υπόκειται σε αλλαγή. Τονίζεται ότι πέρα από τους έτοιμους τύπους που υποστηρίζει το XML Schema, ένα απλό στοιχείο μπορεί να χρησιμοποιήσει έναν καινούριο τύπο δεδομένων ορισμένο από το χρήστη. Για να ορίσουμε ένα γνώρισμα για ένα στοιχείο γράφουμε το εξής <xs:attribute name="xxx" type="yyy"/> Όπου τα xxx,yyy είναι το όνομα και ο τύπος δεδομένων του γνωρίσματος. Έτσι, το παρακάτω XML έγγραφο: <title lang= el > Σημασιολογικός Ιστός </title> 2.3. ΧΏΡΟΙ ΟΝΟΜΆΤΩΝ Η XML δίνει τη δυνατότητα να συνταχθεί ένα έγγραφο από πολλά DTDs ή XML Schemas. Το πρόβλημα που δημιουργείται σε αυτές τις περιπτώσεις είναι η πιθανότητα ύπαρξης στοιχείων με τα ίδια ονόματα σε διαφορετικά XML Schemata. Για να αποφευχθούν λοιπόν οι συγκρούσεις, χρησιμοποιούνται οι χώροι ονομάτων για να παρέχει μοναδικά ονόματα στα στοιχεία και τα γνωρίσματα σε ένα έγγραφο XML. Για να δηλωθεί ένας χώρος ονομάτων σε ένα έγγραφο XML χρησιμοποιείται το γνώρισμα xmlns, με τιμή κάποιο URI, όπως για παράδειγμα: 14
26 2. Συντακτική Διαλειτουργικότητα xmlns=" Συνήθως αντιστοιχίζουμε τους χώρους ονομάτων σε κάποιο συντομευτικό αλφαριθμητικό, που λέγεται prefix. xmlns:xhtml=" Με αυτό τον τρόπο, τα στοιχεία χρησιμοποιούνται μαζί με το prefix στο οποίο ανήκουν. <root xmlns:h=" xmlns:f=" <h:table> <h:tr> <h:td>apples</h:td> <h:td>bananas</h:td> </h:tr> </h:table> <f:table> <f:name>african Coffee Table</f:name> <f:width>80</f:width> <f:length>120</f:length> </f:table> </root> 2.4. ΓΛΏΣΣΕΣ ΕΠΕΡΏΤΗΣΗΣ XML ΕΓΓΡΆΦΩΝ Όπως μπορούμε να υποβάλλουμε ερωτήματα στις βάσεις δεδομένων, με αντίστοιχο τρόπο μπορούμε να υποβάλλουμε ερωτήματα και σε XML έγγραφα. Υπάρχουν διάφορες γλώσσες επερώτησης XML εγγράφων, οι επικρατέστερες από τις οποίες είναι η XML QL, η XQuery και η XPath. Οι γλώσσες αυτές βασίζονται στο δενδρικό μοντέλο των XML εγγράφων και έχουν σαν κύρια έννοια την έκφραση μονοπατιού η οποία ορίζει πως κάποιος ή κάποιοι κόμβοι μπορούν να προσπελαστούν. Θα παρουσιάσουμε τις τρεις γλώσσες που αναφέραμε παραπάνω XPATH Η XPath αποτελεί µία πρόταση του οργανισμού W3C για µία γλώσσα ταύτισης τμημάτων XML εγγράφων, η οποία χρησιμοποιείται από πρότυπα, όπως το XSLT και το XPointer. Η έκδοση 2.0 της XPath επιτρέπει την επεξεργασία τιμών που 15
27 2. Συντακτική Διαλειτουργικότητα συμμορφώνονται µε το μοντέλο δεδομένων της, το οποίο αναπαριστά τα XML έγγραφα χρησιμοποιώντας τη δομή δεδομένων των δέντρων. Το αποτέλεσμα µίας XPath έκφρασης µπορεί να είναι µία επιλογή κόµβων από τα έγγραφα εισόδου ή µία ατοµική τιµή, ή γενικότερα οποιαδήποτε ακολουθία επιτρέπεται από το µοντέλο δεδοµένων της. Η XPath 2.0 αποτελεί υπερσύνολο της XPath 1.0, µε την επιπλέον ικανότητα υποστήριξης πλουσιότερου συνόλου τύπων δεδομένων. Επιπλέον, η XPath 2.0 είναι σε θέση να εκμεταλλευτεί την πληροφορία για τους τύπους δεδομένων που χρησιμοποιούνται σε ένα έγγραφο, η οποία είναι διαθέσιμη όταν τα έγγραφα επικυρώνονται µε τη χρήση του XML Schema. Η XPath 2.0 υποστηρίζει τη δυνατότητα εκφράσεων βρόχων (loop expressions), συνθηκών ελέγχου περιπτώσεων (if then else), συναρτήσεων, ποσοτικών τελεστών κτλ. Αν και η XPath 2.0 υπερέχει χαρακτηριστικών της XPath 1.0, παρουσιάζει επίσης και κάποιους περιορισµούς, ο βασικότερος εκ των οποίων είναι ότι επιστρέφει XML κόµβους δέντρων και όχι ένα XML έγγραφο. Το γεγονός αυτό αποτελεί ένα µειονέκτηµα της XPath 2.0, δεδομένου ότι η επερώτηση (ή η πλοήγηση) ενός XML εγγράφου απαιτεί συνήθως ένα XML αποτέλεσμα. Την δυνατότητα αυτή της παραγωγής, αλλά επιπλέον και της αναδόμησης, ενός XML εγγράφου παράσχει η γλώσσα επερώτησης XQuery, που παρουσιάζεται στην επόµενη παράγραφο XQUERY Η XQuery αποτελεί πρόταση του οργανισµού W3C για µία γλώσσα επερώτησης XML πηγών δεδοµένων εγγράφων και βάσεων δεδοµένων. Η XQuery αποτελεί µία πλήρη προγραµµατιστική γλώσσα, ενώ ειδικότερα η έκδοση 1.0 αποτελεί υπερσύνολο της γλώσσας επερώτησης XPath. Η XQuery εκµεταλλεύεται την ευελιξία της XML να αναπαριστά διαφορετικά είδη πληροφορίας από διάφορες πηγές και σχεδιάστηκε µε τρόπο που να ικανοποιεί τις ανάγκες επερώτησης XML δεδοµένων, όπως αυτές καταγράφηκαν από το W3C XML Query Working Group. Βασικότερη απαίτηση που τέθηκε κατά το σχεδιασµό της είναι η ευκολία στη σύνταξη επερωτήσεων, οι οποίες µπορούν να αναγνωστούν και από χρήστες χωρίς ιδιαίτερο τεχνολογικό υπόβαθρο. Η XQuery προέρχεται από την XML γλώσσα επερώτησης Quilt, η οποία µε τη σειρά της δανείζεται στοιχεία από άλλες γλώσσες, όπως η XPath, η XQL και η XML QL. Όντας υπερσύνολο της XPath 2.0, κάθε έκφραση της XQuery 1.0 που είναι συντακτικά ορθή, επιστρέφει το ίδιο αποτέλεσµα και στις δύο γλώσσες. Οι εκφράσεις επερωτήσεων στην XQuery έχουν τη δυνατότητα να συνδυάσουν πληροφορία από µία ή περισσότερες πηγές δεδοµένων και να την αναδοµήσουν για να δηµιουργήσουν ένα νέο αποτέλεσµα. Οι εκφράσεις αυτές είναι παρόµοιες µε τις εκφράσεις Select From Where της SQL, µε τη διαφορά ότι συνδέουν µεταβλητές µε τιµές στους όρους for και let και 16
28 2. Συντακτική Διαλειτουργικότητα χρησιµοποιούν αποτελέσµατα. αυτές τις συνδέσεις µεταβλητών για να δηµιουργήσουν νέα Εκτός από τη δυνατότητα θέσπισης φίλτρων επί των αποτελεσμάτων µέσω του όρου where, η XQuery παράσχει στο χρήστη ενσωματωμένες συναρτήσεις (π.χ. min(), max(), average()) ή δίνει τη δυνατότητα ορισμού συναρτήσεων από τον ίδιο τον χρήστη. Η δυνατότητα αυτή διευκολύνει την αναγνωσιμότητα των επερωτήσεων, οι οποίες μπορούν να χρησιμοποιηθούν σε άλλες επερωτήσεις (ή τμήματα αυτών). Επιπλέον, η XQuery υποστηρίζει δύο σύνολα τύπων: ενσωματωμένους (διαθέσιµους σε κάθε επερώτηση) και τύπους που εισάγονται σε µία επερώτηση από ένα συγκεκριµένο σχήµα XML QL Η XML QL σχεδιάστηκε µε σκοπό να υποστηρίξει την ανταλλαγή δεδοµένων στον Παγκόσµιο Ιστό και ειδικότερα την ανταλλαγή XML εγγράφων. Η ανάπτυξή της προσέγγισε ζητήµατα, όπως: τεχνικές και εργαλεία για την εξαγωγή δεδοµένων από µεγάλα XML έγγραφα, την µετάφραση XML δεδοµένων από διαφορετικά DTD, την ολοκλήρωση XML δεδοµένων από πολλαπλές XML πηγές και την µεταφορά µεγάλων ποσοτήτων XML δεδοµένων σε πελάτες ή την αποστολή επερωτήσεων σε XML πηγές. Η XML QL αποτελεί µία γενικού σκοπού γλώσσα επερώτησης, η οποία παράσχει µία απλή σύνταξη που µπορεί να χρησιµοποιηθεί για επερωτήσεις και πρότυπα (patterns). Η απλότητα της σύνταξής της έγκειται στη χρήση µίας δοµής SELECT WHERE, όπως στην SQL, δανειζόµενη στοιχεία από γλώσσες επερώτησης που αναπτύχθηκαν από την ερευνητική κοινότητα των βάσεων δεδοµένων για τα ηµιδοµηµένα δεδοµένα. Η XML QL µπορεί να εκφράσει επερωτήσεις, οι οποίες εξάγουν τµήµατα από XML έγγραφα, όπως επίσης και µετασχηµατισµούς, οι οποίοι για παράδειγµα µπορούν να απεικονίσουν XML δεδοµένα µεταξύ DTD και µπορούν να ολοκληρώσουν XML δεδοµένα από διαφορετικές πηγές. Αν και η XML QL διαθέτει κάποια λειτουργικότητα της XSL, υποστηρίζει περισσότερες λειτουργίες προσανατολισµένες στα δεδοµένα (data intensive), όπως ενώσεις (joins) και συναθροίσεις (aggregates) και προσφέρει µεγαλύτερη υποστήριξη για τη δηµιουργία νέων XML δεδοµένων, το οποίο απαιτείται από τους µετασχηµατισµούς. Ειδικότερα, στηρίζεται πάνω στις δυνατότητες της XSL να αναγνωρίζει κλάσεις κόµβων, προσθέτοντας στη λειτουργικότητα στοιχεία όπως Boolean λογική, φίλτρα και δεικτοδότηση σε συλλογές κόµβων. Με τον τρόπο αυτό καθίσταται µία απλή, αλλά ταυτόχρονα ισχυρή γλώσσα επερώτησης XML δεδοµένων, που µπορεί να χρησιµοποιηθεί σε πολλά πλαίσια εργασίας. 17
29 2. Συντακτική Διαλειτουργικότητα 2.5. ΔΙΑΔΙΚΤΥΑΚΈΣ ΥΠΗΡΕΣΊΕΣ ΚΑΙ XML Οι διαδικτυακές υπηρεσίες (web services) είναι υπηρεσίες δημοσιευμένες στο Διαδίκτυο οι οποίες χρησιμοποιούν ως σύστημα μεταφοράς μηνυμάτων την XML και δεν εξαρτώνται σε συγκεκριμένο λειτουργικό σύστημα ή γλώσσα προγραμματισμού. Υπάρχουν διάφοροι τρόποι επικοινωνίας όπως XML RPC ( XML Remote Procedure Calls), SOAP ή HTTP GET και POST XML μηνυμάτων. Εικόνα 2: Εποκοινωνία με Διαδικτυακές Υπηρεσίες Οι δικτυακές υπηρεσίες οργανώνονται σε μία στίβα πρωτοκόλλων όπως φαίνεται παρακάτω: Εικόνα 3: Στίβα πρωτοκόλλων Δικτυακών Υπηρεσιών SOAP Το SOAP (αρχικά Simple Object Access Protocol), είναι ένα δημοφιλές πρωτόκολλο ανταλλαγής πληροφοριών μεταξύ εφαρμογών το οποίο είναι βασισμένο σε XML. Ο κύριος στόχος του είναι η κλήση απομακρυσμένων διαδικασιών (RPC) μέσω του HTTP πρωτοκόλλου. 18
30 2. Συντακτική Διαλειτουργικότητα Υπάρχουν διάφορες βιβλιοθήκες εφαρμογών οι οποίες επιτελούν την ίδια λειτουργία με το SOAP. Για παράδειγμα οι τεχνολογίες CORBA, DCOM ή Java RMI. Η διαφορά του SOAP είναι ότι όντας γραμμένο εξολοκλήρου σε XML, είναι ανεξάρτητο από πλατφόρμα και γλώσσα προγραμματισμού. Έτσι μπορούν να επικοινωνήσουν ανομοιογενείς εφαρμογές ή συστήματα μεταξύ τους και να ανταλλάξουν δεδομένα. Το δομικό στοιχείο του SOAP είναι το μήνυμα SOAP (SOAP message). Το μήνυμα SOAP είναι ένα XML έγγραφο το οποίο περιέχει τα παρακάτω στοιχεία: Ένα στοιχείο με το όνομα Envelope (Φάκελος). Αυτό αποτελεί αναγνωριστικό του XML εγγράφου ως μηνύματος SOAP. Ένα στοιχείο με το όνομα Header (Επικεφαλίδα). Ένα στοιχείο με το όνομα Body (Κυρίως Σώμα) το οποίο περιέχει την πληροφορία κλήσης και απάντησης. Ένα στοιχείο με το όνομα Fault που περιέχει πληροφορία λαθών και καταστάσεων. Πέρα από τα τέσσερα δομικά στοιχεία ενός SOAP μηνύματος, υπάρχουν και κάποιοι σημαντικοί κανόνες συντακτικού οι οποίοι περιορίζουν τη σύνταξή του. Συγκεκριμένα, δεν θα πρέπει να χρησιμοποιεί αναφορά σε DTD ή να περιέχει εντολές επεξεργασίας. Τα στοιχεία του SOAP δηλώνονται στον χώρο envelope ενώ οι τύποι δεδομένων και η κωδικοποίηση στον χώρο encoding. Έτσι ο σκελετός ενός SOAP μηνύματος φαίνεται παρακάτω: <?xml version="1.0"?> <soap:envelope xmlns:soap=" envelope" soap:encodingstyle=" encoding"> <soap:header>... </soap:header> <soap:body>... <soap:fault>... </soap:fault> </soap:body> 19
31 2. Συντακτική Διαλειτουργικότητα </soap:envelope> Το SOAP Body στοιχείο περιέχει το πραγματικό μήνυμα για την υπηρεσία στόχο. Ένα παράδειγμα μηνύματος αίτησης SOAP είναι το εξής: <?xml version="1.0"?> <soap:envelope xmlns:soap=" envelope" soap:encodingstyle=" encoding"> <soap:body> <m:getprice xmlns:m=" <m:item>apples</m:item> </m:getprice> </soap:body> </soap:envelope> Παρατηρούμε ότι μέσα στο στοιχείο Body ορίζονται χώροι ονομάτων που αφορούν τη συγκεκριμένη εφαρμογή. Αντίστοιχα μία SOAP απάντηση θα έχει ως εξής: <?xml version="1.0"?> <soap:envelope xmlns:soap=" envelope" soap:encodingstyle=" encoding"> <soap:body> <m:getpriceresponse xmlns:m=" <m:price>1.90</m:price> </m:getpriceresponse> </soap:body> </soap:envelope> 20
32 2. Συντακτική Διαλειτουργικότητα WSDL Η WSDL είναι ένα σχήμα XML για την περιγραφή δικτυακών υπηρεσιών σαν ένα σύνολο από τελικά σημεία που λειτουργούν σε μηνύματα τα οποία περιέχουν πληροφορία είτε προσανατολισμένη στα έγγραφα είτε προσανατολισμένη στις διαδικασίες. Οι λειτουργίες και τα μηνύματα περιγράφονται περιληπτικά, και τότε δένονται σε ένα συγκεκριμένο πρωτόκολλο δικτύων και μορφή μηνυμάτων για να καθορίσουν ένα τελικό σημείο. Πολλά σχετικά τελικά σημεία συνδυάζονται σε υπηρεσίες (services). Η WSDL είναι επεκτάσιμη στο να επιτρέπει την περιγραφή τελικών σημείων και των μηνυμάτων τους άσχετα από τη μορφή των μηνυμάτων και των πρωτοκόλλων δικτύων που χρησιμοποιούνται για την επικοινωνία. Παρόλα αυτά, αυτή τη στιγμή στην προδιαγραφή της WSDL οι μόνες συνδέσεις που περιλαμβάνονται περιγράφουν πώς μπορούμε να χρησιμοποιήσουμε την WSDL σε συνδυασμό με το SOAP 1.1, το HTTP GET/POST και το MIME. Η WSDL παρέχει ένα τρόπο στους παρόχους υπηρεσιών να περιγράψουν τη βασική μορφή των αιτήσεων και απαντήσεων των υπηρεσιών πάνω από διαφορετικά πρωτόκολλα και κωδικοποιήσεις. Η WSDL χρησιμοποιείται για να περιγράψει ΤΙ μπορεί να κάνει ένα web service, πού βρίσκεται και πώς να το καλέσει κανείς. Οι κατάλογοι UDDI περιγράφουν πολλές πτυχές των web services, συμπεριλαμβανομένων και των λεπτομερειών σύνδεσης μίας υπηρεσίας. Η WSDL ταιριάζει απόλυτα σε μια τέτοια περιγραφή μιας υπηρεσίας του UDDI 10. Η WSDL ορίζει υπηρεσίες σαν συλλογές από τελικά σημεία δικτύου ή αλλιώς ports. Στην WSDL ο περιγραφικός ορισμός των τελικών σημείων και των μηνυμάτων διαχωρίζεται από συγκεκριμένα διαδικτυακά πρωτόκολλα ή μορφές δεδομένων. Αυτό επιτρέπει την επαναχρησιμοποίηση των περιγραφικών ορισμών : των μηνυμάτων (messages). Τα μηνύματα είναι αόριστες περιγραφές των δεδομένων που ανταλλάσσονται και των τύπων τελικών σημείων (PORT TYPES). Οι τύποι τελικών σημείων είναι συλλογές λειτουργιών. Το συγκεκριμένο πρωτόκολλο και ο ορισμός της μορφής των δεδομένων για ένα συγκεκριμένο τύπο τελικών σημείων δημιουργεί μία επαναχρησιμοποιούμενη σύνδεση (BINDING). Ένα τελικό σημείο (PORT) ορίζεται συνδέοντας μια διεύθυνση δικτύου με μία επαναχρησιμοποιούμενη σύνδεση (binding), και μία συλλογή τελικών σημείων ορίζουν μία υπηρεσία (SERVICE). Ως εκ τούτου, ένα έγγραφο WSDL χρησιμοποιεί τα παρακάτω στοιχεία για τον ορισμό δικτυακών υπηρεσιών 10 : TYPES ένα περίβλημα για ορισμούς τύπων δεδομένων χρησιμοποιώντας ένα σύστημα τύπων (όπως για παράδειγμα το XML Schema). 21
33 2. Συντακτική Διαλειτουργικότητα MESSAGE ένας περιγραφικός ορισμός των δεδομένων που ανταλλάσσονται. OPERATION μία περιγραφή μίας λειτουργίας που υποστηρίζεται από μία υπηρεσία PORT TYPE ένα περιγραφικό σύνολο από λειτουργίες που υποστηρίζονται από ένα ή περισσότερα τελικά σημεία. BINDING ένα συγκεκριμένο πρωτόκολλο και μορφή δεδομένων για ένα συγκεκριμένο τύπο τελικών σημείων (port type). PORT ένα μοναδικό τελικό σημείο που ορίζεται σαν συνδυασμός μίας σύνδεσης (binding) και μιας διεύθυνσης δικτύου. SERVICE μία συλλογή από σχετικά τελικά σημεία. Ένα παράδειγμα WSDL εγγράφου φαίνεται παρακάτω: <?xml version="1.0"?> <definitions name="stockquote" targetnamespace=" xmlns:tns=" xmlns:xsd1=" xmlns:soap=" xmlns=" <types> <schema targetnamespace=" xmlns=" <element name="tradepricerequest"> <complextype> <all> <element name="tickersymbol" type="string"/> </all> </complextype> </element> <element name="tradeprice"> <complextype> <all> <element name="price" type="float"/> </all> </complextype> 22
34 2. Συντακτική Διαλειτουργικότητα </element> </schema> </types> <message name="getlasttradepriceinput"> <part name="body" element="xsd1:tradepricerequest"/> </message> <message name="getlasttradepriceoutput"> <part name="body" element="xsd1:tradeprice"/> </message> <porttype name="stockquoteporttype"> <operation name="getlasttradeprice"> <input message="tns:getlasttradepriceinput"/> <output message="tns:getlasttradepriceoutput"/> </operation> </porttype> <binding name="stockquotesoapbinding" type="tns:stockquoteporttype"> <soap:binding style="document" transport=" <operation name="getlasttradeprice"> <soap:operation soapaction=" <input> <soap:body use="literal"/> </input> <output> <soap:body use="literal"/> </output> </operation> </binding> <service name="stockquoteservice"> <documentation>my first service</documentation> <port name="stockquoteport" binding="tns:stockquotebinding"> <soap:address location=" </port> </service> </definitions> 23
35 3. ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ: ΤΟ ΜΟΝΤΕΛΟ ΔΕΔΟΜΕΝΩΝ RDF 3.1. ΕΙΣΑΓΩΓΗ ΣΤΟ RDF Το RDF (Resource Description Framework) είναι το μοντέλο δεδομένων που χρησιμοποιεί ο σημασιολογικός ιστός για την αναπαράσταση των πληροφοριών στο διαδίκτυο. Παρέχει τη γλώσσα για την αναπαράσταση των διαδικτυακών πόρων (web resources) οι οποίοι περιλαμβάνουν οποιαδήποτε οντότητα μπορεί να ονοματιστεί και για την οποία μπορεί να γίνει αναφορά στο διαδίκτυο, χωρίς να σημαίνει απαραίτητα ότι είναι δυνατή η προσπέλασή της μέσα από αυτό. Έτσι, από κλασικούς διαδικτυακούς πόρους όπως τα αρχεία και οι ιστοσελίδες, διευρύνουμε τον όρο σε πρακτικά οποιοδήποτε αντικείμενο: βιβλία, αυτοκίνητα, μνημεία, βουνά κλπ. Ειδικότερα, το RDF δίνει τη δυνατότητα περιγραφής των μεταδεδομένων ενός διαδικτυακού πόρου, όπως τον ορίσαμε προηγουμένως. Στο RDF μοντέλο, η πληροφορία αναπαρίσταται με ένα σύνολο δηλώσεων (statements) οι οποίες αποτελούνται από τρία μέρη: (α) το υποκείμενο, (β) το κατηγορούμενο και (γ) το αντικείμενο. Λόγω της δομής τους, οι RDF δηλώσεις ονομάζονται και τριπλέτες (triples). Τα τρία δομικά στοιχεία μιας δήλωσης έχουν αντίστοιχο ρόλο με αυτόν που έχουν στην ελληνική γλώσσα: το υποκείμενο υποδεικνύει το πρόσωπο/πράγμα στο οποίο αναφέρεται η δήλωση και το κατηγορούμενο περιγράφει μία σχέση ανάμεσα στο υποκείμενο και το αντικείμενο. «Μελέτη και ανάπτυξη Συστημάτων Διαχείρισης Π.Κ» έχει συγγραφέα «Μερτής Αριστοτέλης» «Μελέτη και ανάπτυξη Συστημάτων Διαχείρισης Π.Κ» ολοκληρώθηκε «Μαρ. 2010» Οι παραπάνω τριπλέτες είναι ένα παράδειγμα δύο δηλώσεων που μας δίνει πληροφορία για την παρούσα διπλωματική εργασία. Το υποκείμενο και των δύο δηλώσεων είναι ο τίτλος της εργασίας, τα κατηγορούμενα είναι το «έχει συγγραφέα» και «ολοκληρώθηκε» αντίστοιχα και τα αντικείμενα το «Μερτής Αριστοτέλης» και «Ιαν 2010» αντίστοιχα. Ωστόσο, υπάρχουν δύο εμπόδια για την επικοινωνία των εφαρμογών μέσω RDF. Πρώτον, θα πρέπει να υπάρχει κάποιο σύστημα ανάθεσης αναγνωριστικών στους διάφορους διαδικτυακούς πόρους για να μην υπάρχει σύγχυση σχετικα με το ποιο υποκείμενο, αντικείμενο ή κατηγόρημα χρησιμοποιούμε. Για παράδειγμα υπήρξαν ενδεχομένως κι άλλοι άνθρωποι με το όνομα «Μερτής Αριστοτέλης». Θα πρέπει να υπάρχουν αναγνωριστικά για το καθέναν από αυτούς έτσι ώστε να μην υπάρχει σύγχυση μεταξύ των επικοινωνούντων μερών περί ποιου «Μερτή Αριστοτέλης» γίνεται ο λόγος. Δεύτερον, θα πρέπει να ορίζεται μία κοινή γλώσσα, εύκολα 24
36 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF επεξεργάσιμη από τους υπολογιστές για την αναπαράσταση των δηλώσεων έτσι ώστε να γίνεται εύκολα η επικοινωνία μεταξύ τους. Η λύση των παραπάνω δύο θεμάτων έχει δοθεί από την υπάρχουσα διαδικτυακή υποδομή. Το θέμα των αναγνωριστικών για τους δικτυακούς πόρους επιλύεται εύκολα με τη χρήση URIs (Uniform Resource Identifiers). Τα URIs προέρχονται από τα γνωστά URLs (Uniform Resource Locator) τα οποία χρησιμοποιούνται για την διευθυνσιοδότηση πόρων προσπελάσιμων από το διαδίκτυο. Τα URI επεκτείνουν τη λογική των URL και προσφέρουν αναγνωριστικά τόσο για δικτυακούς πόρους προσπελάσιμους από το διαδίκτυο (ιστοσελίδες, αρχεία, routers, printers) αλλά και αντικείμενα μη προσπελάσιμα από αυτό όπως άνθρωποι, αυτοκίνητα, εταιρείες κλπ. Όσο για το θέμα της κοινής μηχανικά επεξεργάσιμης γλώσσας, η XML (Extensible Markup Language) αποτελεί την καλύτερη λύση. Η XML δίνει τη δυνατότητα στον καθένα να φτιάξει το δική του διαμόρφωση και μοντέλο δεδομένων. Ωστόσο, η χρησιμότητα του περιορίζεται σε τοπικές συναλλαγές δεδομένων ανάμεσα σε εταιρείες, διότι η διερμηνεία των XML εγγράφων πρέπει να κωδικοποιηθεί μέσα στην εφαρμογή. Το RDF προσφέρει ακριβώς αυτό που λείπει από το XML, και συνθέτει μαζί με αυτό ένα νέo format, το RDF/XML. Περισσότερα για αυτό θα δούμε στην ενότητα των γλωσσών του RDF ΤΟ ΜΟΝΤΕΛΟ ΔΕΔΟΜΕΝΩΝ ΤΟ RDF ΣΑΝ ΓΡΑΦΟΣ Τα δεδομένα που έχουν συνταχθεί σε RDF μπορούν να εκφρασθούν σε ένα γράφο. Μπορούμε να απεικονίσουμε μία απλή δήλωση σε έναν απλό γράφο με τις εξής οδηγίες: Για το υποκείμενο της δήλωσης, δημιουργούμε έναν κόμβο στον γράφο Για το αντικείμενο της δήλωσης, δημιουργούμε έναν δεύτερο κόμβο στον γράφο Για το κατηγόρημα της δήλωσης, σχεδιάζουμε μία κατευθυνόμενη ακμή, από το κόμβο που αντιστοιχεί στο υποκείμενο της δήλωσης προς το κόμβο που αντιστοιχεί στο αντικείμενό της. 25
37 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Εικόνα 4: Παράδειγμα δήλωσης ως γράφος Αντίστοιχα μετατρέπονται οι παραπάνω από μία δηλώσεις. Εικόνα 5: Πολλές δηλώσεις ως γράφος 3.3. ΣΥΝΤΑΞΕΙΣ TOY RDF Για την ανταλλαγή δεδομένων μεταξύ των εφαρμογών στο Σημασιολογικό Ιστό, πέρα από την XML έχουν προταθεί και κάποιες άλλες μορφοποιήσεις του μοντέλου RDF. Η προτεινόμενη μορφή από το W3C είναι το βασισμένο στην ΧΜL συντακτικό της γλώσσας RDF/XML. Η μορφή αυτή ωστόσο κληρονομεί από τη XML το βερμπαλισμό, οπότε μέσα από την ανάγκη για πιο επίτομες και πιο φιλικές στον άνθρωπο γλώσσες δημιουργήθηκαν οι Terse RDF Triple Language, γνωστή και ως Turtle και η N Triples ή N3. Οι παραπάνω γλώσσες είναι εκφραστικά ισοδύναμες. Όλες εκφράζουν το ίδιο μοντέλο για τα ίδια συστατικά χαρακτηριστικά του: RDF δηλώσεις. Παρόλο που κάποιες μορφές μπορεί να παρέχουν χαρακτηριστικά για να εκφράζεται με μεγαλύτερη συντομία τις δηλώσεις, όλες περιγράφουν την ίδια πληροφορία RDF/XML Η RDF/XML γλώσσα ετικετών βασίζεται στην XML και είναι το μόνο πρότυπο συντακτικό για την ανταλλαγή δεδομένων ανάμεσα σε εφαρμογές στο 26
38 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Σημασιολογικό Ιστό. Είναι το πρώτο πρότυπο που πρέπει να υποστηρίζουν οι εφαρμογές. Όλα τα RDF/XML έγγραφα ξεκινούν με την ετικέτα rdf:rdf. Είναι αυτή που δηλώνει ότι το έγγραφο αυτό περιέχει περιεχόμενο που αναπαριστά δεδομένα σε RDF. Ως γνωρίσματα στην ετικέτα αυτή εισάγονται οι χώροι ονομάτων των λεξιλογίων που χρησιμοποιεί το έγγραφο αυτό. Ο χώρος ονομάτων που υπάρχει σε όλα τα έγγραφα RDF είναι αυτός που ορίζει τους ίδιους τους όρους του RDF. O χώρος αυτός είναι ο xmlns:rdf = rdf syntax ns. Με άλλα λόγια, όλες οι ετικέτες που ξεκινάνε με rdf:, ορίζονται στο λεξιλόγιο με το URI που δόθηκε παραπάνω. Το ίδιο το λεξιλόγιο που περιγράφει τις ετικέτες του rdf είναι και αυτό μορφοποιημένο σε RDF/XML. Οι δηλώσεις στη μορφή RDF/XML περιγράφονται με μπλοκς της ετικέτας rdf:description. Η ετικέτα rdf:description έχει σαν γνώρισμα το rdf:about το οποίο δηλώνει το πόρο που είναι το υποκείμενο των δηλώσεων που περικλείονται στο μπλοκ του rdf:description. Τα εμφωλευμένα στοιχεία δηλώνουν το κατηγορούμενο και το αντικείμενο κάθε δήλωσης. Συγκεκριμένα, τα ονόματα των ετικετών δηλώνουν το όνομα του κατηγορούμενου ενώ οι τιμές εντός αποτελούν τα αντικειμένα όταν αυτά είναι αλφαριθμητικά. Όταν τα αντικείμενα είναι πόροι, εκφράζονται ως rdf:resource γνωρίσματα του κατηγορήματος. Δηλαδή, οι πόροι εκφράζονται με το rdf:about γνώρισμα αν είναι υποκείμενα και με το rdf:resource γνώρισμα αν είναι αντικείμενα. <?xml version="1.0" encoding="utf 8"?> <rdf:rdf xmlns:rdf=" rdf syntax ns#" xmlns:dc=" <rdf:description rdf:about=" syntax grammar"> <dc:title>rdf/xml Syntax Specification (Revised)</dc:title> <dc:title xml:lang="en">rdf/xml Syntax Specification (Revised)</dc:title> <dc:title xml:lang="en US">RDF/XML Syntax Specification (Revised)</dc:title> </rdf:description> </rdf:rdf> Τα αλφαριθμητικά μπορούμε να ορίσουμε τύπο και γλώσσα χρησιμοποιόντας τα γνωρίσματα rdf:datatype και xml:lang αντίστοιχα. Μπορούμε να ορίσουμε έναν τύπο δεδομένων από το πρότυπο XSD (XML Schema Datatypes). <dc:copies rdf:datatype= xsd:int > 2</dc:copies> 27
39 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Αντίστοιχα ορίζουμε και τη γλώσσα: <dc:title xml:lang= el > Μελέτη και ανάπτυξη συστημάτων </ dc:title> TURTLE Η Terse RDF Triple Language ή αλλιώς Turtle είναι μία εξίσου δημοφιλής μορφή συντακτικού για το rdf Μοντέλο λόγω του γεγονότος ότι είναι πιο φιλική στο άνθρωπο για ανάγνωση. Μάλιστα έχει σχεδιαστεί ειδικά για το RDF μοντέλο. Βασίζεται στη γλώσσα N3 που σχεδίασε ο Tim Berners Lee και είναι υποσύνολό της. Παρακάτω φαίνεται ένα παράδειγμά rdf: < dc: <> dc:title <Mertis> dc:author <Anaptyxh > Οι δηλώσεις στη Turtle εκφράζονται με ένα πολύ σύντομο τρόπο. Το υποκείμενο το κατηγορούμενο και το αντικείμενο παρατίθενται σε μία γραμμή χωρισμένα με ένα κενό και με μία τελεία στο τέλος. Μία συντόμευση που προσφέρει είναι να γράφουμε μία φορά το κοινό υποκείμενο μία σειράς δηλώσεων. Σε αυτή τη περίπτωση, τίθεται ένα ελληνικό ερωτηματικό στο τέλος κάθε δήλωσης με εξαίρεση τη τελευταία δήλωση όπου μπαίνει η τελεία. Αντίστοιχες συντομεύσεις υπάρχουν και για όταν πολλαπλές δηλώσεις έχουν κάποιο άλλο κοινό στοιχείο. Οι πόροι μπορούν να εκφραστούν με δύο τρόπους. Είτε με το πλήρες URI τους οπότε τους περικλείουμε εντός των χαρακτήρων <>, είτε χρησιμοποιούμε το πρόθεμα του χώρου ονόματος, οπότε αναφερόμαστε σε αυτούς ως εξής: prefix:element, όπου element το όνομα του πόρου εντός του RDF εγγράφου. Τα αλφαριθμητικά στη Turtle περικλείονται σε διπλά αγγλικά εισαγωγικά. Μπορούμε να ορίσουμε τύπο δεδομένων προσθέτοντας στο τέλος του αλφαριθμητικού την εξής ακολουθία: ^^<URI τύπου δεδομένων>. <a:uri> ex:age 34^^xsd:int Η γλώσσα μπορεί να οριστεί προσθέτοντας στο τέλος του αλφαριθμητικού N TRIPLES Η Ν Τtriples είναι μία απλούστερη εκδοχή της Turtle γλώσσας. Οι περιορισμοί που τίθενται πάνω στους κανόνες της Turtle είναι οι εξής: 28
40 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Δεν χρησιμοποιείται το prefix Δεν χρησιμοποιούνται συντομεύσεις Κάθε δήλωση στη N Triples μπορεί να πιάνει μόνο μία γραμμή και όχι περισσότερες. Η απλότητά της την κάνει ελκυστική για την ανταλλαγή δεδομένων σε streaming κυρίως εφαρμογές ΑΝΑΖΗΤΗΣΗ ΣΕ RDF ΔΕΔΟΜΕΝΑ Για την εκμετάλλευση των δυνατοτήτων του μοντέλου γράφου του RDF, σχεδιάστηκε μία νέα γλώσσα ερωτημάτων, η SPARQL. H SPARQL χρησιμοποιεί πολλά στοιχεία από τον στενό συγγενή της, την SQL, ωστόσο έχει μία άλλη φιλοσοφία, η οποία βασίζεται στο RDF μοντέλο δεδομένων. Τα ερωτήματα SPARQL υποβάλλονται σε ειδικές διευθύνσεις που λέγονται τερματικά σημεία (endpoints) ή επεξεργαστές (processors) και οι οποίοι υλοποιούν το πρωτόκολλο SPARQL. Οι SPARQL επεξεργαστές δέχονται σαν είσοδο το ερώτημα, το επεξεργάζονται και επιστρέφουν τα αποτελέσματα μέσω του HTTP πρωτοκόλλου. Κατηγοριοποιούνται σε δύο τάξεις: στους γενικούς SPARQL επεξεργαστές οι οποίοι δέχονται και επεξεργάζονται ερωτήματα πάνω σε οποιαδήποτε πηγή δεδομένων σε RDF και στους ειδικούς SPARQL επεξεργαστές που περιορίζονται στην υποβολή ερωτημάτων πάνω σε συγκεκριμένα σύνολα δεδομένων. Υπάρχουν 4 είδη SPARQL ερωτημάτων μέχρι στιγμής: SELECT: ομοιάζει με την αντίστοιχη εντολή της SQL, μόνο που αντί για εγγραφές και πίνακες, κρύβονται από πίσω τριπλέτες και γράφοι. CONSTRUCT: έχει ίδιο συντακτικό με τη SELECT, με τη διαφορά που αντί να επιστρέφει ένα σύνολο τριπλετών, επιστρέφει ένα γράφο. DESCRIBE: μπορούμε με αυτήν να μάθουμε ότι μπορούμε για συγκεκριμένο URI ASK: μας δίνει τη δυνατότητα να κάνουμε ερωτήματα που έχουν απάντηση ναι ή όχι. Η δομή ενός SPARQL ερωτήματος έχει ως εξής: Δηλώσεις προθέματος: ορίζονται οι διάφοροι χώροι ονόματος των πόρων ή/και των λεξιλογίων που χρησιμοποιεί το ερώτημα, έτσι ώστε να γίνει με συντομία η αναφορά στα στοιχεία τους. Εδώ χρησιμοποιείται η λέξη κλειδί PREFIX 29
41 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Ορισμός του συνόλου δεδομένων: δηλώνονται οι RDF γράφοι πάνω στους οποίου θα τεθούν τα ερωτήματα. Για τον ορισμό τους χρησιμοποιείται η λέξη κλειδί FROM. Πρόταση αποτελεσμάτων: ορίζει τη πληροφορία που θα επιστραφεί από το ερώτημα. Για τον ορισμό της χρησιμοποιείται η λέξη κλειδί SELECT. Το πρότυπο του ερωτήματος: είναι ένα σύνολο προτύπων γράφου οι οποίοι θα αναζητηθούν στις τριπλέτες του συνόλου δεδομένων. Για τον ορισμό του χρησιμοποιείται η λέξη κλειδί WHERE. Μετατροπείς ερωτήματος (query modifiers): επεξεργασία του συνόλου αποτελεσμάτων π.χ. ταξινόμηση κ.λπ SELECT ΕΡΩΤΗΜΑ Παρακάτω φαίνεται ο σκελετός ενός πλήρους SELECT SQL ερωτήματος. # ΔΗΛΩΣΕΙΣ ΠΡΟΘΕΜΑΤΟΣ PREFIX foo: < # ΟΡΙΣΜΟΣ ΤΟΥ ΣΥΝΟΛΟΥ ΔΕΔΟΜΕΝΩΝ FROM... # ΠΡΟΤΑΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ SELECT... # ΠΡΟΤΥΠΟ ΤΟΥ ΕΡΩΤΗΜΑΤΟΣ WHERE { }... # ΜΕΤΑΤΡΟΠΕΙΣ ΕΡΩΤΗΜΑΤΟΣ ORDER BY... Τα επόμενα παραδείγματα θα τα εκτελέσουμε στον επεξεργαστή που διατίθεται στο [??] για τη DBLP (Digital Bibliography and Library Project). Αυτό φαίνεται παρακάτω: 30
42 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Το πρώτο ερώτημα μας ζητάει τον κωδικό, το τίτλος, την ημερομηνία έκδοσης και τον τύπο κάθε δημοσίευσης ενός προσώπου που υπάρχουν καταχωρημένα στη DBLP. PREFIX dc: < PREFIX rdfs: < schema#> PREFIX rdf: < rdf syntax ns#> SELECT?work?title?date?type WHERE {?work dc:creator < rdfs:label?title; dc:date?date; rdf:type?type. } Στη SELECT πρόταση παρατηρούμε τις τέσσερις μεταβλητές τις οποίες θέλουμε να επιστραφούν στα αποτελέσματα. Στη WHERE πρόταση φαίνεται το πρότυπο γράφου το οποίο αποτελείται από τέσσερις τριπλέτες. Ο επεξεργαστής θα βρει όλες τις τριπλέτες που ταιριάζουν με το δοθέν πρότυπο και θα επιστρέψει τις τιμές των μεταβλητών που ορίζονται στη SELECT και που υπάρχουν στις τριπλέτες που ταιριάζουν. Παρατηρούμε επίσης ότι δεν υπάρχει η FROM πρόταση, δηλαδή δεν ορίζονται σύνολα δεδομένων. Αυτό σημαίνει ότι η αναζήτηση γίνεται στον προεπιλεγμένο γράφο. Από τη διεπαφή του SPARQL επεξεργαστή βλέπουμε ότι υπάρχει μία επιλογή για τη μορφή των αποτελεσμάτων. Γενικά ο επεξεργαστής μπορεί να διαθέτει δυνατότητες διαπραγμάτευσης περιεχομένου. Τυπικές μορφές των αποτελεσμάτων είναι η HTML, JSON, RDF, και φυσικά η μορφή που ορίζεται από το αντίστοιχο SPARQL RESULTS [??] πρότυπο. Το σύνολο λύσεων του παραπάνω ερωτήματος φαίνεται παρακάτω σε μορφή SPARQL RESULTS. <?xml version="1.0"?> 31
43 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF <sparql xmlns:rdf=" rdf syntax ns#" xmlns:xs=" xmlns=" results#" > <head> <variable name="work"/> <variable name="title"/> <variable name="date"/> <variable name="type"/> </head> <results ordered="false" distinct="false"> <result> <binding name="work"> <uri> </binding> <binding name="title"> <literal>red Blue Intersection Reporting for Objects of Non Constant Size.</literal> </binding> <binding name="date"> <literal datatype=" </binding> <binding name="type"> <uri> berlin.de/dblp/terms.rdf#article</uri> </binding> </result>. </results> </sparql> Για να φιλτράρουμε τα αποτελέσματα, η SPARQL διαθέτει τη λέξη κλειδί FILTER. Ο παρακάτω πίνακας συνοψίζει το σύνολο των τελεστών και συναρτήσεων που υποστηρίζονται στην πρόταση FILTER 32
44 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF ΛΟΓΙΚΟΙ ΤΕΛΕΣΤΕΣ!, &&, ΜΑΘΗΜΑΤΙΚΟΙ ΤΕΛΕΣΤΕΣ +,, *, / ΣΥΓΚΡΙΤΙΚΟΙ ΤΕΛΕΣΤΕΣ =,!=, <, >, <=, >= SPARQL ΣΥΝΑΡΤΗΣΕΙΣ ΕΛΕΓΧΟΥ SPARQL ACCESSORS ΑΛΛΕΣ ΣΥΝΑΡΤΗΣΕΙΣ isuri,isblank,isliteral, bound Str, lang, datatype sameterm, langmatches, regex Στο παρακάτω ερώτημα φιλτράρονται τα αποτελέσματα των δημοσιεύσεων και επιστρέφονται μόνο αυτά που έχουν έτος έκδοσης το 2006 και αργότερα. PREFIX dc: < PREFIX rdfs: < schema#> PREFIX rdf: < rdf syntax ns#> PREFIX xsd: < SELECT?work?title?date?type WHERE {?work dc:creator < rdfs:label?title; dc:date?date; rdf:type?type. FILTER ( xsd:int(?date) >= xsd:int("2006") ). Η SPARQL παρέχει μία λίστα από μετατροπείς λύσεων οι οποίοι επενεργούν στα αποτελέσματα ενός ερωτήματος. Αυτοί είναι οι εξής: Μετατροπέας ταξινόμησης (ORDER) : ταξινομεί τις λύσεις ως προς κάποια μεταβλητή Μετατροπέας προβολή(select) : επιλέγει το σύνολο των μεταβλητών που θα επιστραφούν Μετατροπέας Μοναδικότητας (DISTINCT): εξασφαλίζει ότι κάθε λύση στο σύνολο λύσεων είναι μοναδική Μετατροπέας Περιορισμού Διπλότυπων (REDUCED) Μετατροπέας Ορίου (LIMIT): ορίζει τον αριθμό των λύσεων στο σύνολο λύσεων 33
45 3. Σημασιολογική Διαλειτουργικότητα: Το Μοντέλο Δεδομένων RDF Μετατροπέας Βήματος (OFFSET): ορίζει τον αριθμό από τον οποίο ξεκινάνε οι λύσεις CONSTUCT ΕΡΩΤΗΜΑ Τα ερωτήματα τύπου CONSTRUCT μας επιτρέπουν να αναζητήσουμε δεδομένα και να τα λάβουμε υπό τη μορφή RDF γράφου. Ο γράφος δημιουργείται λαμβάνοντας τα αποτελέσματα του αντίστοιχου SELECT ερωτήματος και γεμίζοντας τις τιμές των μεταβλητών που υπάρχουν στο πρότυπο του CONSTRUCT ASK ΕΡΩΤΗΜΑ Το ερώτημα ASK, δοθέντος ενός προτύπου γράφου, μπορεί να μας πει αν το πρότυπο υπάρχει στη βάση δεδομένων και να επιστρέψει μία Boolean τιμή. Η λειτουργία του ASK μπορεί να προσομοιωθεί με μία αντίστοιχη SELECT στα αποτελέσματα της οποίας θα γίνεται έλεγχος και θα επιστρέφεται μία Boolean μεταβλητή. Τα οφέλη του ASK απέναντι στο αντίστοιχο SELECT είναι ότι μειώνει το φόρτο τόσο στο πελάτη όσο και στον εξυπηρετητή αλλά και μειώνει το απαιτούμενο εύρος ζώνης ΤΡΕΧΟΥΣΕΣ ΕΛΛΕΙΨΕΙΣ Υπάρχει ένα σύνολο απαραίτητων χαρακτηριστικών που αυτή τη στιγμή η SPARQL δεν έχει. Μία λίστα από τα πιο σημαντικά είναι η εξής: Λειτουργίες Ενημέρωσης: δεν έχει λειτουργίες INSERT/UPDATE/DELETE αλλά μόνο λειτουργίες αναζήτησης δεδομένων Λειτουργίες ομαδοποίησης ή Αθροιστικές συναρτήσεις: GROYP BY, SUM, COUNT κ.λπ Υποερωτήματα (subqueries) Παρόλα αυτά έχει συσταθεί πρόσφατα ειδική ομάδα η οποία εργάζεται για τη νέα έκδοση της SPARQL που θα συμπληρώσει πολλές από τις υπάρχουσες ελλείψεις της γλώσσας. 34
46 4. ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ ΙΙ: ΟΝΤΟΛΟΓΙΕΣ ΚΑΙ ΚΑΝΟΝΕΣ 4.1. ΓΛΏΣΣΕΣ ΠΕΡΙΓΡΑΦΉΣ ΜΕΤΑΔΕΔΟΜΈΝΩΝ To RDF μοντέλο δεδομένων όπως είδαμε είναι το προτεινόμενο μοντέλο για την αποθήκευση των δεδομένων στο σημασιολογικό ιστό. Μας δίνει τη δυνατότητα να αναφερθούμε και να περιγράψουμε πόρους με λεξιλόγια της επιλογής μας. Δεν κάνει όμως καμία υπόθεση για το γνωστικό πεδίο εφαρμογής ή για τη σημασιολογία του. Σε αυτό το σημείο μπαίνουν οι οντολογίες. Η οντολογία είναι μία επίσημη αναπαράσταση εννοιών σχετικά με ένα γνωστικό πεδίο και τις σχέσεις που υπάρχουν στο γνωστικό αυτό πεδίο. Σύμφωνα με τον ορισμό, η οντολογία παρέχει ένα διαμοιραζόμενο λεξιλόγιο το οποίο μπορεί να χρησιμοποιηθεί για τη μοντελοποίηση του γνωστικού πεδίου. Στο κεφάλαιο αυτό θα παρουσιαστούν οι πιο γνωστές γλώσσες περιγραφής οντολογιών. Θα δοθεί ιδιαίτερη έμφαση στη γλώσσα RDFS και την OWL SHOE Η γλώσσα SHOE (Simple HTML Ontology Extension) είχε σαν στόχο να δώσει τη δυνατότητα στους μεν συγγραφείς των ιστοσελίδων να εισάγουν γνώση απευθείας στις HTML σελίδες, στις δε εφαρμογές να ανακτούν και να αποθηκεύουν τη γνώση. Η προσέγγιση αυτή επιτρέπει στους συγγραφείς να προσθέσουν σημασιολογικό περιεχόμενο στις ιστοσελίδες, συσχετίζοντας το θέμα τους με κοινές οντολογίες που παρέχουν πληροφορία σχετικά με το τομέα του επιστητού που αναφέρεται η ιστοσελίδα. Οι περισσότερες ιστοσελίδες που είναι επισημειωμένες με τη SHOE τείνουν να έχουν ετικέτες που κατηγοριοποιούν έννοιες, ώστε να μην υπάρχει ανάγκη για πολύπλοκους κανόνες συλλογισμού για αυτόματη κατηγοριοποίηση. Η προσέγγιση επεκτείνει την HTML με ένα σύνολο από αντικειμενοστρεφείς ετικέτες για να παρέχει δομή για ανάκτηση γνώσης. Συσχετίζει το νόημα με το περιεχόμενο συνδέοντας ιστοσελίδες με υπάρχουσες οντολογίες. Αυτές οι οντολογίες επιτρέπουν την ανακάλυψη υπονοούμενης πληροφορίας μέσα από τη χρήση ταξινομήσεων και κανόνων συμπερασμού, επιτρέποντας τους πάροχους πληροφοριών να κωδικοποιήσουν μόνο τις απαραίτητες πληροφορίες στις ιστοσελίδες τους. Μία ετικέτα οντολογίας μαρκάρει την επεξεργάσιμη από πράκτορες μερίδα της οντολογίας. Άλλες ετικέτες συμπληρώνουν τον ορισμό των οντολογιών. H SHOE επικεντρώνεται στο πρόβλημα της συντήρησης της συνέπειας καθ όσο οι οντολογίες εξελίσσονται. Στο παρακάτω σχήμα φαίνεται ένα παράδειγμα της SHOE. 35
47 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες Εικόνα 6: Παράδειγμα επισημείωσης με την SHOE OIL Η γλώσσα OIL (Ontology Interchange Language) βασίζεται σε τρία στοιχεία: στα συστήματα βασισμένα στα frames, στη περιγραφική λογική και στα διαδικτυακά πρότυπα. Τα βασικά στοιχεία μοντελοποίησης των frame based συστημάτων είναι τα πλαίσια με ιδιότητες. Οι ιδιότητες αυτές έχουν μία τοπική σημασία και είναι μόνο γνωστές στα πλαίσια για τα οποία έχουν οριστεί. Ένα πλαίσιο παρέχει ένα καθορισμένο context για τη μοντελοποίηση μίας πτυχής ενός γνωστικού πεδίου. H OIL είναι βασισμένη στη έννοια της κλάσης, των υπερκλάσεών της και των γνωρισμάτων της. Οι σχέσεις μπορούν να οριστούν ως ανεξάρτητες έννοιες. Η περιγραφική λογική έχει αναπτυχθεί στην έρευνα για την αναπαράσταση γνώσης για την περιγραφή γνώσης με όρους εννοιών και ρόλων. Επιπρόσθετα, το νόημα κάθε έκφρασης μπορεί να περιγραφεί με έναν μαθηματικά ακριβή τρόπο, ο οποίος δίνει τη δυνατότητα για συλλογισμό με περιγραφή εννοιών και την αυτόματη παραγωγή ταξινομήσεων. Δεδομένες της σημασίας του Διαδικτύου, οι γλώσσες οντολογιών πρέπει να αναπτύσσονται έχοντας υπόψη τα διαδικτυακά πρότυπα. Η OIL έχει ένα καλώς ορισμένο XML συντακτικό. Επίσης, ορίζεται ως επέκταση του RDF και του RDFS, πράγμα που παρέχει δύο σημαντικές συνεισφορές: ένα προτυποποιημένο συντακτικό για σύνταξη οντολογιών και ένα πρότυπο σύνολο από στοιχεία μοντελοποίησης. 36
48 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες Εικόνα 7: Παράδειγμα οντολογίας σε OIL RDFS Το RDF Schema είναι η μία σημασιολογική επέκταση του RDF η οποία μας δίνει τη δυνατότητα να κάνουμε υποθέσεις σχετικά με το γνωστικό πεδίο στο οποίο αναφέρονται τα δεδομένα. Παρέχει μηχανισμούς για την περιγραφή ομάδων συσχετιζόμενων πόρων και των σχέσεων μεταξύ των πόρων αυτών. Μπορεί να την δει κανείς σαν ένα τύπο ελαφριάς (lightweight) οντολογίας, από την άποψη ότι δεν παρέχει πλούσια υποστήριξη για συλλογισμό και εξαγωγή νέων δεδομένων ΚΛΆΣΕΙΣ ΚΑΙ ΣΤΙΓΜΙΌΤΥΠΑ Η κλάση είναι η κύρια έννοια στις οντολογίες. Η κλάση είναι ένας ειδικός πόρος ο οποίος μπορεί να χρησιμοποιηθεί για να ταξινομήσει πόρους. Τα μέλη των κλάσεων τα λέμε στιγμιότυπα (instance) των κλάσεων. Στo RDFS για να ορίσουμε μία κλάση χρησιμοποιούμε την ετικέττα rdfs:class. Μερικές ενδιαφέρουσες κλάσεις είναι οι παρακάτω: Rdfs:Resource: ότι περιγράφεται με RDF είναι πόροι και είναι στιγμιότυπα της κλάσης αυτής. Είναι η κλάση του οτιδήποτε. Όλες οι άλλες κλάσεις είναι υποκλάσεις της κλάσης αυτής. Η ίδια είναι στιγμιότυπο της κλάσης rdfs:class. Rdfs:Class είναι η κλάση τω ν πόρων που είναι RDF κλάσεις. Είναι στιγμιότυπο της κλάσης rdfs:class Rdfs:Literal είναι η κλάση των αλφριθμητικών. Τα αλφαριθμητικά μπορεί να είναι απλά ή με τύπο. Στη δεύτερη περίπτωση, το στιγμιότυπο είναι τύπου rdfs:datatype. Η rdfs:literal είναι υποκλάση της rdfs:resource. 37
49 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες ΙΔΙΌΤΗΤΕΣ Μια ιδιότητα είναι μια σχέση μεταξύ των πόρων υποκειμένου και των πόρων αντικειμένου. To RDFS ορίζει την έννοια της υποιδιότητας. Ορίζουμε μία υποιδιότητα με την ετικέττα rdfs:subpropertyof. Η ετικέττα αυτή συνοδεύεται από τις ετικέττες rdfs:range, rdfs:domain. Η πρώτη χρησιμοποιείται για να δηλώσουμε ότι οι τιμές μίας ιδιότητας είναι στιγμιότυπα μιας ή περισσότερων κλάσεων. Για παράδειγμα η τριπλέτα: ceidns:actor rdfs:range ceidns:person Δηλώνει ότι το ceidns:actor είναι στιγμιότυπο της κλάσης rdf:property, ότι το ceidns:person είναι στιγμιότυπο της κλάσης rdfs:class και ότι οι πόροι που υπάρχουν σαν αντικείμενα σε δηλώσεις που έχουν σαν predicate το ceidns:actor θα είναι στιγμιότυπα των κλάσεων του ceidns:person. Εικόνα 8: Το RDFS Specification Η rdfs:domain είναι στιγμιότυπο της rdf:property και δηλώνει ότι κάθε πόρος που έχει μία δοθείσα ιδιότητα, είναι στιγμιότυπο μιας ή περισσότερων κλάσεων. 38
50 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες ceidns:actor rdfs:domain ceidns:person H τριπλέτα δηλωνει ότι to ceidns:actor είναι rdf:property, το ceidns:person είναι rdfs:class και ότι οι πόροι που είναι υποκείμενα στις δηλώσεις που έχουν κατηγόρημα το ceidns:actor είναι στιγμιότυπα της κλάσης ceidns:person OWL Η OWL είναι μία γλώσσα οντολογιών για το Σημασιολογικό Ιστό, που αναπτύχθηκε από το W3C. Η OWL σχεδιάστηκε πρωταρχικά για την αναπαράσταση πληροφορίας σχετικά με κατηγορίες αντικειμένων και πως τα αντικείμενα αλληλοσυσχετίζονται. Η σχεδίαση της έχει επηρεαστεί από πολλούς παράγοντες. Σε αυτούς περιλαμβάνονται υπάρχοντες φορμαλισμοί από την έρευνα στην αναπαράσταση γνώσης, επιδράσεις από υπάρχουσες γλώσσες οντολογιών και επιδράσεις από υπάρχουσες γλώσσες του Σημασιολογικού Ιστού. Μερικές από τις πιο σημαντικές επιδράσεις στη σχεδίαση της OWL ήρθαν από τη DAML OIL, από τις Περιγραφικές Λογικές και από το RDF. Συγκεκριμένα, το επίσημο specification της γλώσσας επηρεάστηκε από τις Περιγραφικές Λογικές. Στην επόμενη ενότητα παρουσιάζονται οι Περιγραφικές Λογικές, ενώ στην επόμενη ενότητα παρουσιάζονται οι διάφορες διάλεκτοι της OWL ΠΕΡΙΓΡΑΦΙΚΈΣ ΛΟΓΙΚΈΣ Οι Περιγραφικές Λογικές είναι μία οικογένεια φορμαλισμών αναπαραστάσεων γνώσης βασισμένων σε έννοιες. Χαρακτηρίζονται από τη χρήση μίας ποικιλίας κατασκευαστών που χρησιμεύουν στην κατασκευή πιο πολύπλοκων κλάσεων από απλούστερες και από την έμφαση στην αποφασισιμότητα βασικών προβλημάτων συλλογισμού. Οι περιγραφικές λογικές επέδρασαν σημαντικά στη σχεδίαση της OWL, κυρίως στο φορμαλισμό της σημασιολογίας, την επιλογή των κατασκευαστών της γλώσσας και την ολοκλήρωση των τύπων δεδομένων. Μάλιστα η OWL DL και η OWL Lite, δύο από τα τρία είδη της OWL, είναι ουσιαστικά εκφραστικές Περιγραφικές Λογικές. Η κύρια τεχνική για τον προσδιορισμό της σημασίας μιας Περιγραφικής Λογικής είναι μέσω σημασιολογιών θεωρητικών μοντέλων. Ένα μοντέλο αποτελείται από ένα πεδίο γνώσης (domain) το οποίο συμβολίζεται συνήθως ως και μία συνάρτηση διερμηνείας η οποία συμβολίζεται ως. Το γνωστικό πεδίο είναι ένα σύνολο αντικειμένων και η συνάρτηση διερμηνείας είναι μία αντιστοίχιση ονόματα ατόμων, κλάσεων και ιδιοτήτων σε στοιχεία του γνωστικού πεδίου, υποσύνολα του γνωστικού πεδίου και δυαδικές σχέσεις στο γνωστικό πεδίο αντίστοιχα. Έτσι για ένα άτομο με όνομα John,, για μία κλάση Person, και για μία ιδιότητα friend,. 39
51 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες Η συνάρτηση αντιστοίχισης μπορεί να επεκταθεί με πολύπλοκες περιγραφές κλάσεων από απλούστερες κλάσεις. Έτσι για παράδειγμα, δοθέντων δύο κλάσεων Male και Person με τις διερμηνείες τους και δύο συνόλων. τότε η τομή των δύο κλάσεων θα διερμηνευτεί ως η τομή των Μία βάση γνώσης Περιγραφικής Λογικής αποτελείται από ένα σύνολο αξιωμάτων που ορίζει τις κλάσεις και τις σχέσεις μεταξύ αυτών και από ένα σύνολο δηλώσεων που ορίζει τις σχέσεις στιγμιότυπου ανάμεσα σε ένα άτομο και μία έννοια. Οι σχέσεις που μπορούν να περιγραφούν μεταξύ των εννοιών λέγονται αξιώματα ορολογίας. Πιο συγκεκριμένα, αν C,D είναι έννοιες μίας Περιγραφικής Λογικής, τότε τα αξιώματα ορολογίας έχουν τη μορφή Αξιώματα του πρώτου τύπου λέγονται αξιώματα υπαγωγής (subsumption ή inclusion axioms) ενώ του δεύτερου τύπου ονομάζονται αξιώματα ισοδυναμίας. Διαισθητικά, ένα αξίωμα υπαγωγής της μορφής δηλώνει ότι η έννοια D είναι πιο γενική από την έννοια C ή αλλιώς ότι η έννοια C είναι υποέννοια της D. Αντίστοιχα το αξίωμα της ισοδυναμίας μεταξύ των C,D δηλώνει ότι δύο έννοιες είναι ταυτόσημες. Ένα σύνολο από αξιώματα υπαγωγής ή/και ισοδυναμίας συνιστούν το σώμα ορολογίας (Terminological Box TΒox). Σύμφωνα µε τα παραπάνω εφόσον το αξίωµα σημαίνει ότι η έννοια D είναι πιο γενική από την έννοια C και εφόσον τα C και D ερμηνεύονται σαν σύνολα είναι φυσικό να πούμε ότι µια ερμηνεία ικανοποιεί (satisfies) ένα αξίωµα υπαγωγής αν,δηλαδή αν η ερµηνεία I ερµηνεύει την έννοια D ως υπερσύνολο της έννοιας C. Αντίστοιχα µια ερµηνεία I ικανοποιεί ένα αξίωµα ισοδυναµίας C D αν CI = DI. Τέλος µια ερµηνεία I ικανοποιεί ένα σώµα ισχυρισµών T αν ικανοποιεί όλα τα αξιώµατα υπαγωγής και ισοδυναµίας που Υπάρχουν στο T.Τότε λέµε ότι η I είναι µοντέλο (model) του T. ιαισθητικά µια ορολογία T αποτελεί έναν περιορισµό στη δοµήτων µοντέλων που µπορούν να οριστούν. 40
52 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες Εικόνα 9: Ορολογία των Περιγραφικών Λογικών Εικόνα 10: Δομητές Εικόνα 11: Αξιώματα 41
53 4. Σημασιολογική Διαλειτουργικότητα II: Οντολογίες και Κανόνες ΔΙΆΛΕΚΤΟΙ ΤΗΣ OWL H OWL διατίθεται σε τρεις διαλέκτους αυξανόμενης εκφραστικότητας., καθεμία από τις οποίες πληρεί διαφορετικές απαιτήσεις. OWL Lite: η διάλεκτος αυτή ικανοποιεί τις πιο μινιμαλιστκές απαιτήσεις, δηλ μία απλή ιεραρχία κατηγοριοποίησης και απλά χαρακτηριστικά περιορισμών. Για παράδειγμα, παρέχει μόνο δυαδικό cardinality (0 ή 1). Από τη μια πλευρά κάνει ευκολότερη την υλοποίηση εργαλείων για αυτήν σε σύγκριση με τις άλλες διαλέκτους, από την άλλη υστερεί σε εκφραστικότητα. OWL DL: η διάλεκτος αυτή ικανοποιεί τους χρήστης που θέλουν την μεγαλύτερη δυνατή εκφραστικότητα χωρίς να χάνουν την πλήρη υπολογισιμότητά και την αποφασισιμότητα των reasoning συστημάτων. OWL Full: η διάλεκτος αυτή υπάρχει για λόγους πληρότητας. Δεν είναι ουσιαστικά διάλεκτος αλλά περιλαμβάνει όλα τα χαρακτηριστικά της OWL και παρέχει απεριόριστη χρήση των RDF δομών. Το μειονέκτημα είναι ότι δεν εξασφαλίζεται η αποφασισιμότητα των reasoning συστημάτων. 42
54 5. ΘΗΣΑΥΡΟΙ ΚΑΙ ΟΝΤΟΛΟΓΙΕΣ ΣΤΗ ΠΟΛΙΤΙΣΜΙΚΗ ΚΛΗΡΟΝΟΜΙΑ Στην ενότητα αυτή θα ασχοληθούμε πλέον με το διεπιστημονικό πεδίο της πολιτισμικής κληρονομιάς και με το πώς οι τεχνολογίες Σημασιολογικού Ιστού βοηθούν στην ενοποίηση, την ομογενοποίηση ετερογενών δεδομένων. Καταρχάς, παρουσιάζουμε τους θησαυρούς όρων και άλλες ποικιλίες ελαφρών οντολογιών. Το μεγαλύτερο κομμάτι πολιτισμικής κληρονομιάς είναι τεκμηριωμένο με τη βοήθεια μιας ποικιλίας θησαυρών ή αντίστοιχων δομών. Θα παρουσιαστούν τα πρότυπα κατασκευής θησαυρών. Έπειτα, θα μελετήσουμε μία σειρά θησαυρών που έχουν επικρατήσει στο στερέωμα της πολιτισμικής κληρονομιάς και αποτελούν λίγο έως πολύ πρότυπα περιγραφής πολιτισμικών αντικειμένων. Αφού καλύψουμε την υπάρχουσα υποδομή, προχωράμε στο πως θα σμίξουμε την ήδη υπάρχουσα γνώση υπό τη μορφή θησαυρών με τις εύρωστες τεχνολογίες του Σημασιολογικού Ιστού που παρουσιάσαμε στις προηγούμενες ενότητες. Γίνεται μελέτη της SKOS οντολογίας, μία οντολογία φτιαγμένη για την αναπαράσταση θησαυρών. Στη συνέχεια παρουσιάζονται τεχνικές μετατροπής των παραδοσιακών θησαυρών σε SKOS για την εισαγωγή των δεδομένων που περιγράφουν στο Σημασιολογικό Ιστό. Παρουσιάζεται μία οντολογία πρότυπο για τη πολιτισμική κληρονομιά, το CIDOC CRM, το οποίο έχει σαν στόχο την ολοκλήρωση ετερογενών γνωστικών πεδίων σε μία θεμελιώδη οντολογία ΛΕΞΙΛΌΓΙΑ, ΘΗΣΑΥΡΟΊ ΚΑΙ ΘΕΜΑΤΙΚΈΣ ΕΠΙΚΕΦΑΛΊΔΕΣ Ένα ελεγχόμενο λεξιλόγιο αποτελεί ένα σύνολο τυποποιημένων λέξεων ή φράσεων, που χρησιμοποιούνται για τον ευρετηριασμό και την ανάκτηση πληροφορίας. Τα ελεγχόμενα λεξιλόγια καθορίζουν ένα μοναδικό όρο για να ταυτοποιήσουν μία έννοια, μειώνοντας ή εξαλείφοντας με αυτό τον τρόπο την επιλογή και συνεπώς τη χρήση συνωνύμων. Παραδείγματα ελεγχόμενων λεξιλογίων αποτελούν θεματικά περιγραφικά πεδία, όπως τo Library of Congress Subject Headings (LCSH) και θησαυροί όρων, όπως ο Government of Canada Core Subject Thesaurus (CST).Η χρήση όρων από ένα ελεγχόμενο λεξιλόγιο για την περιγραφή του θέματος ή του περιεχομένου διαδικτυακών πόρων διευκολύνει την πρόσβαση σε πληροφορία που παράγεται από πολλούς διαφορετικούς δημιουργούς, ενώ ταυτόχρονα επιτρέπει στους αναζητούντες πληροφορία να ανακαλύπτουν πόρους για το ίδιο θέμα με συνέπεια και αποτελεσματικότητα. Τυπικά, ένα ελεγχόμενο λεξιλόγιο είναι σχεδιασμένο για χρήση σε συγκεκριμένο πλαίσιο περιβάλλον. Ένας θησαυρός αποτελεί ένα συγκεκριμένο τύπο ελεγχόμενου λεξιλογίου που δομείται με συγκεκριμένη σειρά (όχι απαραίτητα αλφαβητική), στον οποίο οι σχέσεις ισοδυναμίας, ιεραρχίας (ευρύτερος, στενότερος όρος) και συσχέτισης (συναφής όρος) ανάμεσα στους όρους εμφανίζονται με σαφήνεια και 43
55 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά αναγνωρίζονται με τυποποιημένο τρόπο, καθώς ένας θησαυρός ακολουθεί συνήθως διεθνή πρότυπα. Το πρότυπο για την κατασκευή και ανάπτυξη μονόγλωσσων θησαυρών είναι το ISO2788 από τον Διεθνή Οργανισμό για την Τυποποίηση (International Organisation for Standardisation), ενώ το Βρετανικό ακριβές ισοδύναμο πρότυπο είναι το BS5723. Για την ανάπτυξη πολύγλωσσων θησαυρών, χρησιμοποιείται το πρότυπο ISO5964. Οι σχέσεις μεταξύ των όρων που ορίζει το πρότυπο ISO2788 προσδίδουν σημασιολογικό περιεχόμενο στις καταχωρήσεις του θησαυρού και επιτρέπουν τη σημασιολογική συσχέτιση όρων βάσει βασικών σχέσεων, και συγκεκριμένα: Ιεραρχικών σχέσεων: Ευρύτερος Όρος (BT Broader Term), Ευρύτερος Όρος Μεριστικός (BTP Broader Term Partitive), Ευρύτερος Όρος Γενικός (BTG Broader Term Generic) Σχέσεων Συσχέτισης: Συναφής Όρος (RT Related Term) Σχέσεων Ισοδυναμίας: Εναλλακτικός Όρος (ALT Alternative Term), «χρησιμοποιείται για» σχέση (UF Used For Term)Ιεραρχικών σχέσεων: Ευρύτερος Όρος (BT Broader Term), Ευρύτερος Όρος Μεριστικός (BTP Broader Term Partitive), Ευρύτερος Όρος Γενικός (BTG Broader Term Generic) Σχέσεων Συσχέτισης: Συναφής Όρος (RT Related Term) Σχέσεων Ισοδυναμίας: Εναλλακτικός Όρος (ALT Alternative Term),«χρησιμοποιείται για» σχέση (UF Used For Term) Κατά το πρότυπο αυτό ορίζεται ότι οι έννοιες που φιλοξενεί ένας θησαυρός όρων προσδιορίζουν σύνολα αντικειμένων του πραγματικού κόσμου και οι όροι χρησιμοποιούνται από κοινωνικές ομάδες για να αναφερθούν σε έννοιες. Οι σχέσεις μεταξύ των όρων εκφράζουν απόψεις και διαφορές τόσο σχετικά με τη σχέση συνόλων μεταξύ εννοιών (υπαλληλίας, μέλους σε ένα σύνολο κτλ.) όσο και με τη χρήση των όρων. Επομένως, ένας θησαυρός διατάσσει τους όρους που περιέχει ιεραρχικά, με τρόπο που διευκολύνει την αναζήτηση κατάλληλων όρων στο σωστό επίπεδο λεπτομέρειας. Εάν αναζητήσετε ένα συγκεκριμένο όρο (π.χ σε ένα αγγλικό θησαυρό τον όρο houses οικίες), το πιθανότερο είναι να βρείτε αναφορές σε ευρύτερους όρους (π.χ buildings κτίσματα), στενότερους όρους (π.χ. cottagesαγροτόσπιτα) ή συναφείς όρους (π.χ palaces παλάτια), δηλαδή όρους που διαφέρουν, αλλά επικαλύπτονται στη σημασιολογία. Όπου υπάρχουν διαφορετικές λέξεις για με την ίδια σημασία (π.χ houses και dwellings κατοικίες), ένας θησαυρός θα αναφέρει επίσης ποιος είναι ο προτιμητέος όρος (π.χ «dwellings, USE houses»). 44
56 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά Οι θεματικές επικεφαλίδες (Subject headings) συχνά διατάσσονται όπως οι θησαυροί, καθιστώντας με αυτό τον τρόπο τη διάκριση μεταξύ αυτών και των θησαυρών δυσδιάκριτη. Εντούτοις, αντί να παράσχουν ένα μοναδικό όρο ή φράση για χρήση, όπως γίνεται στην περίπτωση των θησαυρών, οι θεματικές επικεφαλίδες συχνά επιτρέπουν στο χρήστη να συνδέσει ή να συντονίσει όρους για να παράγει επιμήκεις φράσεις ή συμβολοσειρές όρων. Για παράδειγμα, οι θεματικές επικεφαλίδες Library of Congress Subject Headings ενώνουν τις έννοιες «Art» και «War» για να σχηματίσουν την επικεφαλίδα «Art and war». Στη συνέχεια, κάποιος μπορεί να συντονίσει την επικεφαλίδα αυτή με επικεφαλίδες από συγκεκριμένους πολέμους, π.χ «World War, Art and the war». Οι δημοσιευμένες LCSH θεματικέςεπικεφαλίδες αριθμούν περισσότερες από , αλλά εξαιτίας του τρόπου που οι επικεφαλίδες συντάσσονται και διαιρούνται, ο συνολικός αριθμός των πιθανών επικεφαλίδων είναι απίστευτα μεγάλος ΘΗΣΑΥΡΟΊ ΑΑΤ Αποτελώντας πρόγραμμα του Getty Vocabulary Program εντός του οργανισμού Getty Research Institute, ο θησαυρός AAT αποτελεί ένα δομημένο λεξιλόγιο από περίπου όρους και άλλη πληροφορία για την περιγραφή, τεκμηρίωση και ανάκτηση αντικειμένων από πολλούς τομείς, όπως καλές τέχνες (ζωγραφική, γλυπτική, κτλ), αρχιτεκτονική, διακοσμητικές τέχνες (έπιπλα, κοστούμια, εξοπλισμός), αρχειακό (έγγραφα, επιστολές, κτλ) και πολιτισμικό υλικό (π.χ πολιτισμικές παραδόσεις) και για ένα χρονικό διάστημα που εκτείνεται από την αρχαιότητα ως τη σημερινή εποχή σε όλο τον κόσμο. Ο θησαυρός AAT υποστηρίζεται από ένα σύνολο οργανισμών και ιδρυμάτων, ονομαστικά τους: Art Libraries Society of North America (ARLIS/NA), College Art Association of America (CAA), Society of Architectural Historians (SAH), American Institute of Architects (AIA) και International Confederation of Architectural Museums (ICAM), ενώ για την ανάπτυξη πολύγλωσσων αντίστοιχων όρων έχουν συνεργαστεί ιδρύματα από τη Γαλλία, την Ιταλία και την Ισπανία. Ο ενδιαφερόμενος χρήστης μπορεί να πλοηγηθεί στον AAT μέσω μίας on line έκδοσης, που ανανεώνεται σε τακτά χρονικά διαστήματα και είναι διαθέσιμος σε εκτυπωμένη και ηλεκτρονική μορφή, συμπεριλαμβανομένης και της μορφής USMARC (MAchine Readable Cataloguing) για την ανταλλαγή πληροφορίας. Μία online ισπανική έκδοση διατίθεται επίσης από τον οργανισμό Centro de Documentation de Bienes Patrimoniales (Dirección de Bibliotecas, Archivos y Museos, Chile), που επιτρέπει την αναζήτηση βάσει ισπανικών και αγγλικών όρων. Ο AAT δομείται τόσο ιεραρχικά βάσει διαφορετικών κατηγοριών (facets) όσο και αλφαβητικά, ανακλώντας την κοινή πρακτική από ακαδημαϊκούς και 45
57 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά καταλογογράφους. Ειδικότερα, τη βάση της δομής του AAT εξυπηρετεί ένα πλαίσιο από επτά κατηγορίες, οι οποίες αποτελούν τα υψηλότερα επίπεδα στην ιεραρχική δομή του AAT. Κάθε κατηγορία υποδιαιρείται σε ιεραρχίες, οι οποίες επί του παρόντος είναι 33 στον αριθμό. Το επίκεντρο κάθε εγγραφής στον AAT είναι μία έννοια και στη βάση δεδομένων κάθε έννοια (ή εγγραφή) αναγνωρίζεται από ένα μοναδικό αριθμητικό αναγνωριστικό (ID). Σε κάθε έννοια έχουν συνδεθεί όροι, συναφείς έννοιες, μία πατρική έννοια (σε σχέση με την ιεραρχία), πηγές για τα δεδομένα και σημειώσεις. Οι όροι για κάθε έννοια μπορεί να περιλαμβάνουν τον ενικό και τον πληθυντικό αριθμό, τη φυσική διάταξη, γραμματικές παραλλαγές, διάφορους τύπους φωνής και συνώνυμα που έχουν ποικίλες ετυμολογικές ρίζες. Ο AAT μπορεί να χρησιμοποιηθεί ως ένα πρότυπο τιμών δεδομένων στην τεκμηρίωση (καταλογογράφηση, ευρετηριασμό και περιγραφή) πολιτισμικής πληροφορίας, δεδομένου ότι οι όροι που διαθέτει μπορούν να αποτελέσουν τιμές των πεδίων που χρησιμοποιούνται για την τεκμηρίωση. Ο AAT μπορεί επίσης να χρησιμοποιηθεί, όπως θα εξετάσουμε και στην επόμενη ενότητα, ως βοήθημα αναζήτησης στις βάσεις δεδομένων, δημιουργώντας ένα σημασιολογικό δίκτυο που απεικονίζει συνδέσμους και μονοπάτια μεταξύ όρων. Οι χρήστες μπορούν να ακολουθήσουν αυτά τα μονοπάτια που συντίθενται από συνώνυμους, ευρύτερους/στενότερους και συναφείς όρους για να εκλεπτύνουν, να επεκτείνουν και να βελτιώσουν τις αναζητήσεις τους TGN Ο θησαυρός γεωγραφικών ονομάτων (Thesaurus of Geographic Name TGN), ανήκει και αυτό στο Getty Vocabulary Program και περιλαμβάνει ονόματα και πληροφορία σχετικά με τοποθεσίες. Οι τοποθεσίες στο TGN περιλαμβάνουν πολιτικές οντότητες (π.χ. πόλεις, έθνη), φυσικά χαρακτηριστικά (π.χ. βουνά, ποτάμια), ιστορικές τοποθεσίες και άλλες πληροφορίες που σχετίζονται με την ιστορία, τον πληθυσμό, την κουλτούρα, τη τέχνη και την αρχιτεκτονική. Ο TGN περιέχει ονόματα και άλλες πληροφορίες σχετικά με τοποθεσίες. Ονόματα τοποθεσιών ενδεχομένως περιλαμβάνουν και ονόματα στην τοπική γλώσσα. Ανάμεσα σε διάφορες ονομασίες, μία ορίζεται ως η προτιμώμενη. Ο TGN είναι συμβατός με ISO και NISO πρότυπα για σχεδίαση θησαυρών. Περιέχει σχέσεις ιεραρχικές, ισοδυναμίας και συσχετιστικές. Σημειωτέον ότι δεν είναι GIS, παρόλο ότι πολλές εγγραφές του περιέχουν και τις συντεταγμένες της τοποθεσίας, οι οποίες είναι πάντα κατά προσέγγιση και με μόνη πρόθεση την αναφορά. The focus of each TGN record is a place. There are around 912,000 places in the TGN. In the database, each place record (also called a subject) is identified by a unique numeric ID. Linked to the record for the place are names, the place's parent or 46
58 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά position in the hierarchy, other relationships, geographic coordinates, notes, sources for the data, and place types, which are terms describing the role of the place (e.g., inhabited place and state capital). The temporal coverage of the TGN ranges from prehistory to the present and the scope is global ULAN O θησαυρός ULAN (Union List of Artist Names ULAN) είναι ο τρίτος θησαυρός που περιλαμβάνεται στο Getty Vocabulary Program και περιέχει ονόματα και άλλες πληροφορίες σχετικά με καλλιτέχνες. Τα ονόματα στον ULAN μπορεί να περιλαμβάνουν τα μικρά ονόματα, ψευδώνυμα, εναλλακτικές συντάξεις, ονόματα σε πολλαπλές γλώσσες και ονόματα που έχουν αλλάξει μέσα στο χρόνο. Ο θησαυρός περιέχει καλλιτέχνες και καλύπτει όλες τις ιστορικές περιόδους από την αρχαιότητα έως το σήμερα, καθώς και όλες τις χώρες. Οι καλλιτέχνες, μπορεί να είναι είτε πρόσωπα, είτε ομάδες προσώπων. Γενικά αντιπροσωπεύουν δημιουργούν που ασχολούνται με την παραγωγή ή την επινόηση οπτικών τεχνών και αρχιτεκτονικής. Επίσης, περιλαμβάνονται μερικοί καλλιτέχνες από ερμηνευτικές τέχνες ICONCLASS H IconClass είναι μία ειδική βιβλιοθήκη κατηγοριοποιήσεων σχεδιασμένη για τη τέχνη και την εικονογραφία. Επινοήθηκε από τον Henri van de Waal και αναπτύχθηκε περαιτέρω από μία ομάδα ακαδημαϊκών μετά το θάνατό του. Το σύστημα Iconclass είναι ίσως το μεγαλύτερο σύστημα κατηγοριοποίησης για πολιτιστικό περιεχόμενο. Αρχικά σχεδιάστηκε για ιστορικές εικόνες, αλλά τώρα χρησιμοποιείται για τη ταξινόμηση μιας ευρείας γκάμας εικόνων, συμπεριλαμβανομένης και της μοντέρνας φωτογραφίας. Αυτή τη στιγμή περιέχει πάνω από μοναδικές έννοιες (τύπους κατηγοριοποίησης) και έχει ένα λεξιλόγιο καταχωρήσεων λέξεων κλειδιών. Μπορεί να το συμβουλευτεί κανείς ελεύθερα μέσω ενός Online φυλλομετρητή. To iconclass αναπτύχθηκε στην Ολλανδία ως ένα πρότυπο κατηγοριοποίησης για την αποθήκευση συλλογών, με την ιδέα της δημιουργίας μίας τεράστιας βάσης δεδομένων που θα επιτρέπει την ανάκτηση εικόνων που περιέχουν συγκεκριμένες λεπτομέρειες, υποκείμενα ή άλλους κοινούς παράγοντες. Για παράδειγμα, ο κωδικός του Iconclass «71 Η 7131» αντιστοιχεί στο υποκείμενο «Bathsheba με το γράμμα του Δαυίδ». To πρόθεμα 71 αναφέρεται στην Παλαιά Διαθήκη, και το 71H αναφέρεται στην ιστορία του Δαυίδ. 47
59 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά Ένας αριθμός από συλλογές διαφορετικών τύπων έχουν κατηγοριοποιηθεί χρησιμοποιώντας το Iconclass. Το σύστημα μπορεί επίσης να χρησιμοποιηθεί πέρα από την καθαρά ιστορία της τέχνης, για παράδειγμα σε ιστοσελίδες όπως το flickr. Το περιεχόμενο της iconclass συντηρείται αυτή τη στιγμή από το Ινστιτούτο Ιστορίας της Τέχνης στην Ολλανδία DC Το Σύνολο μεταδεδομένων DC (Dublin Core) είναι ένα πρότυπο λεξιλόγιο για crossdomain πληροφορία. Χρησιμοποιείται ευρέως για την περιγραφή ψηφιακού περιεχομένου όπως video, ήχος, εικόνα, κείμενο αλλά και σύνθετα πολυμέσα όπως οι ιστοσελίδες. Οι υλοποιήσεις του είναι τυπικά βασισμένες σε XML και RDF. Το Dublic Core είναι ορισμένο από τον ISO, στο ISO Standard και το NISO Standard Ζ H Dublin Core Metadata Initiative (DCMI) είναι μία οργάνωση Που παρέχει ένα ανοιχτό φόρουμ για την ανάπτυξη διαλειτουργικών προτύπων μεταδεδομένων για το διαδίκτυο, τα οποία υποστηρίζουν ένα εύρος στόχων και επιχειρηματικών μοντέλων. Η DCMI περιλαμβάνει ομάδες εργασίες που λειτουργούν πάνω σε ομοφωνία, παγκόσμια συνέδρια και workshops. Το πρότυπο Dublic Core περιλαμβάνει δύο επίπεδα: το Απλό και το Qualified. Το απλό Dublin Core αποτελείται από δεκαπέντε στοιχεία ενώ το Qualified Dublic Core περιέχει τρία στοιχεία επιπλέον: τα στοιχεία Audience, Provenance και RightsHolder, καθώς και ένα σύνολο από εκλεπτύνσεις στοιχείων που λέγονται Qualifiers και που εκλεπτύνουν τη σημασιολογία των στοιχείων με χρήσιμους για την ανακάλυψη των πόρων τρόπους SKOS Τα συστήματα οργάνωσης γνώσης (KOS knowledge Organization Systems) παίζουν θεμελιώδη ρόλο για τη δόμηση των πληροφοριών αλλά και την πρόσβασή τους. Σε αυτά συμπεριλαμβάνονται διάφορα είδη λεξιλογίων όπως θησαυροί, σχήματα κατηγοριοποίησης, θεματικές λίστες, ταξινομήσεις ή folksonomies. Τέτοια λεξιλόγια αναπτύσσονται και χρησιμοποιούνται στην πράξη σε όλο τον κόσμο από διάφορα ινστιτούτα και οργανισμούς. Ωστόσο, παραμένουν απομονωμένα το ένα από το άλλο και δεν γίνεται πλήρης εκμετάλλευση τους σε πληροφοριακά συστήματα. Το SKOS είναι ένα RDF λεξιλόγιο για την αναπαράσταση KOSs όπως θησαυρούς και όλα τα άλλα είδη που αναφέραμε πριν. Εφόσον βασίζεται στο RDF, οι αναπαραστάσεις αυτές είναι μηχανικά επεξεργάσιμες και μπορούν να ανταλλαχθούν μεταξύ εφαρμογών καθώς και να εκδοθούν στο διαδίκτυο. Ο σκοπός του είναι να εισάγει το πλήθος αυτό των παραδοσιακών λεξιλογίων που υπάρχουν 48
60 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά διασκορπισμένα στους οργανισμούς ανά τον κόσμο στο Σημασιολογικό Ιστό. Από μία άλλη σκοπιά, παρέχει μία ενδιάμεση εναλλακτική ανάμεσα στον εμπεριστατωμένο λογικό φορμαλισμό των γλωσσών οντολογιών όπως της OWL, και του χαοτικού,μη δομημένου κόσμου των κοινωνικών tagging εφαρμογών. Στην ενότητα αυτή θα παρουσιαστεί το μοντέλο SKOS, τα στοιχεία που το συναποτελούν, καθώς και το τρόπο χρήσης του μαζί με άλλες τεχνολογίες Σημασιολογικού Ιστού ΈΝΝΟΙΕΣ SKOS Η έννοια (concept) είναι το κεντρικό στοιχείο όλων των SKOS λεξιλογίων. Μία έννοια μπορεί να αναπαριστά μία ιδέα, ένα αντικείμενο, ένα γεγονός ή οτιδήποτε άλλο στα πλαίσια ενός γνωστικού πεδίου. Η αναγνώριση των εννοιών είναι τυπικά έργο κάποιου ειδικού πάνω στο γνωστικό πεδίο. Για τον ορισμό μιας έννοιας, το SKOS εισάγει την κλάση skos:concept. Έτσι για να ορίσουμε μία έννοια γράφουμε: < rdf:type skos:concept Ουσιαστικά, αναθέτουμε ένα URI στην έννοια και την δηλώνουμε ως τύπο της κλάσης skos:concept ΕΤΙΚΈΤΕΣ SKOS Οι ετικέττες μιας έννοιας αποτελούν το σύνολο των εκφράσεων τις οποίες χρησιμοποιούμε για να αναφερθούμε σε αυτήν την έννοια. Το SKOS παρέχει τρεις ιδιότητες για την επισύναψη ετικεττών σε έννοιες: skos:preflabel, skos:altlabel και skos:hiddenlabel. Ο τύπος της ετικέττας δηλώνει και τη σχέση της ετικέττας με την έννοια η οποία ποικίλλει από την univocal denotation έως ένα απλό αλφαριθμητικό για την υποβοήθηση της αναζήτησης. Τα γνωρίσματα αυτά ορίζονται ως αμοιβαίως αποκλειώμενα οπότε είναι σφάλμα αν μία έννοια έχει το ίδιο αλφαριθμητικό για δύο τύπους ετικεττών. Οι προτιμώμενες λεκτικές ετικέτες αναθέτουν μία προτιμώμενη ετικέτα σε μία έννοια. Οι ετικέτες αυτές χρησιμοποιούνται ως περιγραφείς των εννοιών στα συστήματα ευρετηριοποίησης. Τα αλφαριθμητικά των ετικετών μπορούν προαιρετικά να συνοδεύονται από ένα tag γλώσσας. ceid:publicevent rdf:type skos:concept; skos:preflabel «Ανοιχτή skos:preflabel «Public 49
61 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά Οι σωστές πρακτικές υπαγορεύουν την χρήση μίας μόνο ετικέττας για κάθε γλώσσα ενώ μία ετικέττα δεν θα πρέπει να χρησιμοποιείται σε περισσότερες έννοιες από μία, εφόσον αυτές χρησιμοποιούνται για την αναπαράσταση της έννοιας ΣΗΜΑΣΙΟΛΟΓΙΚΈΣ ΣΧΈΣΕΙΣ Οι σημασιολογικές σχέσεις καθορίζουν το νόημα των εννοιών σε σχέση με άλλες έννοιες. Το SKOS παρέχει τρία γνωρίσματα: το skos:broader, το skos:narrower και το skos:related. Τα πρώτα δύο γνωρίσματα δίνουν τη δυνατότητα δημιουργίας ιεραρχικών σχημάτων εννοιών ΣΧΉΜΑΤΑ ΕΝΝΟΙΏΝ Οι έννοιες μπορούν να δημιουργηθούν και να χρησιμοποιηθούν σαν ξεχωριστές οντότητες. Ωστόσο, συνήθως συλλέγονται σε λεξιλόγια ή σχήματα ταξινόμησης. Το SKOS παρέχει αυτή τη δυνατότητα με τη κλάση skos:conceptscheme. Για παράδειγμα, για να ορίσουμε ένα σχήμα εννοιών σαν πόρο και να περιγράψουμε το τίτλο του και το δημιουργό του βάσει του Dublin Core μπορούμε να γράψουμε: ex:animalthesaurus rdf:type skos:conceptscheme; dct:title "Simple animal thesaurus"; dct:creator ex:antoineisaac. Για την αποδοτική προσπέλαση των κορυφαίων εννοιών σε ένα σχήμα εννοιών, το SKOS ορίζει την ιδιότητα skos:hastopconcept, με την οποία μπορούν να οριστούν οι πιο γενικές έννοιες που περιέχει ένα σχήμα εννοιών. Για το παράδειγμα από πάνω: ex:animalthesaurus rdf:type skos:conceptscheme; skos:hastopconcept ex:mammals; skos:hastopconcept ex:fish. Τα σχήματα εννοιών έχουν σχεδιαστεί για την αναπαράσταση παραδοσιακών λεξιλογίων που βασίζονται στα πρότυπα [?],[?] οπότε οι σχεδιαστές θησαυρών θα πρέπει να ακολουθούν τις οδηγίες των προτύπων αυτών. Ωστόσο πρέπει να γίνει αντιληπτή η διάσταση του Σημασιολογικού Ιστού στο SKOS σε αντίθεση με τα παραδοσιακά λεξιλόγια π.χ. μία έννοια μπορεί να ανήκει σε πολλά σχήματα εννοιών χρησιμοποιώντας την ιδιότητα: skos:inscheme. 50
62 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά ΑΝΤΙΣΤΟΊΧΙΣΗ ΣΧΗΜΆΤΩΝ ΕΝΝΟΙΏΝ Η αναπαράσταση ενός λεξιλογίου με το SKOS δεν εξυπηρετεί μόνο ως μηχανισμόςστο δημοσίευσης, αλλά επιτρέπει να συμμετέχει σε ένα δίκτυο από σχήματα εννοιών. Στο Σημασιολογικό Ιστό οι πραγματικές δυνατότητες των δεδομένων εκτοξεύονται όταν διασυνδέονται. Καθώς οι έννοιες από διάφορα σχήματα εννοιών διασυνδέονται, αρχίζουν να διαμορφώνουν ένα κατανεμημένο, ετερογενές καθολικό σχήμα εννοιών. Ένας ιστός από σχήματα εννοιών μπορεί να εξυπηρετήσει ως η βάση για νέες εφαρμογές που θα επιτρέπουν τη σημασιολογική πλοήγηση μέσα στα λεξιλόγια. Κάθε έννοια SKOS λαμβάνει ένα URI το οποίο αποτελεί αναμφίβολο αναγνωριστικό για την έννοια αυτή σε κάθε SKOS εφαρμογή. Αυτό γίνεται ιδιαίτερα χρήσιμο για την δημιουργία σημασιολογικών σχέσεων μεταξύ προϋπάρχοντων εννοιών. Αυτές οι αντιστοιχίσεις είναι κρίσιμης σημασίας για εφαρμογές όπως εργαλεία ανάκτησης πληροφορίας που χρησιμοποιούν πολλαπλά λεξιλόγια με αλληλεπικαλυπτόμενα γνωστικά πεδία και που πρέπει να διασυνδεθούν σημασιολογικά. Ένα σημαντικό χαρακτηριστικό της αντιστοίχισης είναι η δυνατότητα να δηλωθεί ότι δύο έννοιες σε διαφορετικά σχήματα έχουν συγκρίσιμα νοήματα και να προσδιοριστεί η σχέση μεταξύ τους, ακόμα και αν έρχονται από διαφορετικά πλαίσια που χρησιμοποιούν διαφορετικές αρχές μοντελοποίησης. Το SKOS παρέχει μερικές ιδιότητες οι οποίες αντιστοιχούν έννοιες μεταξύ διαφορετικών σχημάτων εννοιών. Όταν δύο έννοιες έχουν παρόμοιο νόημα, αυτό μπορεί να δηλωθεί με τις ιδιότητες skos:exactmatch και skos:closematch. Η ιδιότητα skos:closematch δηλώνει ότι οι δύο έννοιες είναι επαρκώς παρόμοιες που μπορούν να χρησιμοποιηθούν η μία αντί για την άλλη στις εφαρμογές. Η ιδιότητα skos:exactmatch δηλώνει μία ακόμα μεγαλύτερη σημασιολογική ομοιότητα. Πρέπει να σημειωθεί ωστόσο, ότι η τελευταία ιδιότητα δεν ορίζεται μέσω της ιδιότητας owl:sameas, η οποία συνδέει έννοιες που είναι ταυτόσημες. Επίσης δύο έννοιες από διαφορετικά σχήματα εννοιών μπορούν να αντιστοιχηθούν με ιδιότητες παράλληλες αυτών των σημασιολογικών σχέσεων που είδαμε πρωτύτερα: skos:broadmatch, skos:narrowmatch και skos:relatedmatch. Παρακάτω στο πίνακα φαίνονται οι σημαντικότερες ετικέτες του λεξιλογίου SKOS. Πίνακας 2: Λεξιλόγιο SKOS skos:concept skos:conceptscheme skos:inscheme Έννοια Σχήμα εννοιών Ανήκει στο σχήμα 51
63 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά skos:hastopconcept skos:topconceptof skos:altlabel skos:hiddenlabel skos:preflabel skos:changenote skos:definition skos:editorialnote skos:example skos:historynote skos:note skos:scopenote skos:broader skos:narrower skos:related Έχει ως κορυφαία έννοια.. Είναι κορυφαία έννοια του.. Εναλλακτική ετικέτα Κρυφή ετικέττα Προτιμώμενη ετικέττα τεκμηρίωση Ορισμός Σημείωση του editor παράδειγμα Ιστορική σημείωση σημείωση Σημείωση εμβέλειας εννοιας Ευρύτερος όρος Όρος στενότερης σημασίας Σχετιζόμενος όρος 5.4. ΜΕΤΑΤΡΟΠΉ ΘΗΣΑΥΡΏΝ ΣΕ SKOS Οι θησαυροί είναι καρπός μελέτης και προσπάθειας και περιλαμβάνει όλη τη διαθέσιμη γνώση για τις αναφερόμενες συλλογές. Για να μπορεί να γίνει η χρήση τους όμως στο σημασιολογικό ιστό πρέπει να προσαρμοστεί η μορφή τους στα πρότυπα του σημασιολογικού ιστού, θα πρέπει δηλαδή να μετατραπούν σε RDF/OWL αναπαράσταση. Τα οφέλη που προκύπτουν από μία πρότυπη μετατροπή είναι αρκετά: μειώνεται το κόστος διαμοίρασης του θησαυρού, είναι δυνατή η χρήση πολλαπλών θησαυρών στα πλαίσια μιας εφαρμογής και είναι δυνατή η ανάπτυξη πρότυπου λογισμικού για την επεξεργασία τους. Ωστόσο, οι θησαυροί διαφέρουν αρκετά ως προς τα χαρακτηριστικά τους. Η πρόκληση για το SKOS είναι να μπορέσει να συλλάβει όλα τα απαραίτητα χαρακτηριστικά των θησαυρών και να παρέχει επαρκή επεκτασιμότητα ώστε να είναι δυνατή η αναπαράσταση τοπικών χαρακτηριστικών. Η βιβλιογραφία που αφορά τη μετατροπή θησαυρών διακρίνεται σε τρία είδη: 52
64 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά 1. Μέθοδοι μετατροπής για συγκεκριμένους θησαυρούς 2. Μέθοδοι που μετατρέπουν τους θησαυρούς σε οντολογίες 3. Μέθοδοι που μετατρέπουν κάθε θησαυρό σε RDF/OWL. Οι μέθοδοι που αφορούν το πρώτο είδος παρουσιάζουν ενδιαφέρουσες τεχνικές στη μετατροπή θησαυρών, ωστόσο δεν είναι ξεκάθαρο αν μπορούν να γενικευτούν και να εφαρμοστούν σε άλλους θησαυρούς εφόσον καλύπτονται μονάχα χαρακτηριστικά που εμφανίζονται στο συγκεκριμένο θησαυρό. Το δεύτερο είδος παρουσιάζει τεχσχνικές για την μετατροπή του θησαυρού σε οντολογία. Η μεθοδολογία τους περιλαμ βναει τρια βήματα: Πρώτα ορίζεται το μετα μοντέλο της οντολογίας. Έπειτα ορίζονται οι κανόνες που θα χρησιμοποιηθούν για τη μετατροπή ενός παραδοσιακού θησαυρού στο μεταμοντέλο και τέλος γίνεται χειρωνακτική διόρθωση. Για την μετατροπή θησαυρών σε SKOS θα παρουσιάσουμε τρεις προσεγγίσεις. H πρώτη περιλαμβάνει τρία βήματα: 1. Παραγωγή Κωδικοποίησης RDF 2. Έλεγχος λαθών 3. Δημοσιοποίηση στο διαδίκτυο Η προσέγιση βασίζεται σε δύο απαιτήσεις: Η μετατροπή του θησαυρού στο SKOS μοντέλο με στόχο την υποστήριξη διαλειτουργικότητας των θησαυρών και η διατήρηση όλων των πληροφοριών που είναι κωδικοποιημένες στο θησαυρό. Το πρώτο βήμα διακρίνει τη μορφή του προς μετατροπή θησαυρού σε πρότυπο και μη πρότυπο. Οι πρότυποι βασίζονται στο ISO 2788 πρότυπο. Οι θησαυροί αυτοί μετατρέπονται σε στιγμιότυπα SKOS σχήματος χωρίς απώλεια πληροφορίας. Οι μηπρότυποι θησαυροί είναι αυτοί που δεν έχουν δομικά χαρακτηριστικά τα οποία δεν ακολουθούν το ISO Η προσέγγιση αναπτύσσει μία επέκταση του SKOS σχήματος χρησιμοποιώντας τα rdfs:subclassof και rdfs:subpropertyof για την υποστήριξη των μη πρότυπων χαρακτηριστικών. Μία δεύτερη προσέγγιση μετατροπής θησαυρών σε skos [1] περιγράφει μία μέθοδο τεσσάρων βημάτων: 1. Προετοιμασία 2. Συντακτική μετατροπή 3. Σημασιολογική μετατροπή 4. Προτυποποίηση Στο πρώτο βήμα αναλύεται η μορφοποίηση του θησαυρού και στο δεύτερο βήμα γίνεται η μετατροπή του σε βασική RDF. Έπειτα, μετατρέπεται σε ένα πιο κοινό μοντέλο που χρησιμοποιεί RDF και OWL. Στο τελικό βήμα, το RDF OWL μεταμοντέλο μετατρέπεται σε SKOS. Αυτή η δεύτερη προσέγγιση βασίζεται σε δύο απαιτήσεις: τη 53
65 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά διατήρηση της αρχικής σημασιολογίας του θησαυρού και την βηματική εκλέπτυνση του θησαυρού CIDOC CRM Η επιστήμη οδηγούμενη από τα δεδομένα (data driven) έχει ανακύψει ως ένα νέο μοντέλο που επιτρέπει στους ερευνητές να προχωρήσουν από πειραματικά, θεωρητικά και υπολογιστικά κατανεμημένα δίκτυα, σε ένα νέο μοντέλο για επιστημονική ανακάλυψη βασισμένο σε κατανεμημένα δίκτυα πλέγματος ευρείας κλίμακας. Χιλιάδες νέα ψηφιακά αντικείμενα και γεγονότα τοποθετούνται στον Ιστό σε ψηφιακά αποθετήρια και σε άλλα πληροφοριακά συστήματα καθημερινώς, υποστηρίζοντας τις ερευνητικές διεργασίες σε όλους τους κλάδους των επιστημών και όχι μόνο. Είναι έκτοτε σημαντική η κατασκευή της υποδομής που θα επιτρέψει την εξερεύνηση, την εξόρυξη γνώσης, τη σημασιολογική ολοκήρωση και το πειραματισμό πάνω από όλες αυτές τις πλούσιες πηγές. Ένα παράδειγμα μιας επιστημονικής ανακάλυψης που προέκυψε από την επαναχρησιμοποίηση υπάρχοντων πόρων είναι ο Νόμος της Περιοδικότητας του Μεντελεεβ. Ο νόμος αυτός είναι άμεσο επακόλουθο από μία δεξαμενή γενικεύσεων και αποδεδειγμένων γεγονότων που είχαν συσσωρευτεί στο τέλος της δεκαετίας του Ο νόμος προέκυψε από τη συνένωση γεγονότων που εξήχθησαν από δημοσιευμένη βιβλιογραφία πάνω στη χημεία σε διάφορες γλώσσες και συμβολικές φόρμουλες. Η ανάλυση των σχέσεων στα δεδομένα και τα δεδομένα ήταν κρίσιμης σημασίας για την εξαγωγή του συμπεράσματός του. Για την υποστήριξη προχωρημένων υπηρεσιών, οι σχέσεις θα πρέπει να είναι σύμφωνες με κάποιο σχήμα ή οντολογία. Αν και υπάρχει η ευρεία αντίληψη ότι δεν υπάρχει συμφωνία για μία καθολική οντολογία, η ευρεία αποδοχή του Dublic Core αποδεικνύει το αντίθετο. Αν υπάρχει μία ή μερικές κεντρικές οντολογίες δεν διαφοροποιεί την δυνατότητά τους να αναδείξουν καθολικά δίκτυα γνώσης. Εμπειρικές μελέτες έχουν δείξει ότι ο αριθμός των σχέσεων στις οντολογίες είναι πολύ λιγότερες από τις κλάσεις και έτσι αρκετά διαχειρίσιμες. Άλλες μελέτες έχουν δείξει ότι μία κεντρική οντολογία μερικών δεκάδων σχέσεων μπορεί να συλλάβει τη σημασιολογία των δομών δεδομένων πάνω σε πολλά γνωστικά πεδία. Το CIDOC CRM είναι μία επίσημη οντολογία με σκοπό την υποστήριξη της ολοκλήρωσης, μεσολάβησης και διασύνδεσης ετερογενών πληροφοριών πολιτισμικής κληρονομιάς. Αναπτύχθηκε από διεπιστημονικές ομάδες ειδικών προερχόμενες από πεδία όπως η πληροφορική, η αρχαιολογία, η τεκμηρίωση μουσείων, η ιστορία των τεχνών, φυσική ιστορία, βιβλιοθηκονομία, φυσική και φιλοσοφία, κάτω από την αίγιδα της Διεθνούς Επιτροπής Τεκμηρίωσης (International Committee for Documentation CIDOC) του Διεθνούς Συμβουλίου Μουσείων(Internation Council of Museums ICOM). Ξεκίνησε από τη βάση 54
66 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά ανασχεδιάζοντας και ολοκληρώνοντας τα σημασιολογικά περιεχόμενα από ολοένα και περισσότερα σχήματα βάσεων δεδομένων και δομές τεκμηρίωσης από όλα τα είδη μουσείων, βιβλιοθηκών και αρχείων. Η ομάδα ανάπτυξης εφάρμοσε αυστηρές αρχές για την αποδοχή μόνο εννοιών που εξυπηρετούν τη λειτουργικότητα ολοκλήρωσης καθολικής πληροφορίας και άλλων πιο φιλοσοφικών περιορισμών σχετικά με το είδος Η εφαρμογή αυτών των αρχών ήταν επιτυχημένη από δύο απόψεις. Από τη μία, το μοντέλο έγινε αρκετά συνεπτυγμένο χωρίς να χάνει σε επάρκεια. Το πρώτο σχήμα που αναλύθηκε το 1996, το Μοντέλο Σχεσιακών Δεδομένων με παραπάνω από 400 πίνακες συμπτύχθηκε σε 50 κλάσεις και 60 ιδιότητες με πολύ μεγαλύτερη εφαρμοσιμότητα από το πρωτότυπο σχήμα. Από την άλλη, όσο περισσότερα σχήματα αναλύονταν, τόσο λιγότερες αλλαγές χρειαζόταν το μοντέλο. Το παρόν μοντελο περιέχει 80 κλάσεις και 132 ιδιότητες, αναπαριστώντας τη σημασιολογία εκατοντάδων σχημάτων. Η CIDOC ξεκινησε τη διαδικασία συνεργασία με την ISO το Έτσι, το 2006 το μοντέλο έγινε αποδεκτό ως ISO21127:2006. Η οντολογία παρουσιάζεται με μία κειμενική μορφοποίηση Η βασική αρχή είναι η ρητή μοντελοποίηση των των γεγονότων. Επιτρέπει την αναπαράσταση των μεταδεδομένων όπως η δημιουργία, η δημοσίευση και η χρήση καθώς και η περίληψη του περιεχομένου. Η αναπαράσταση των γεγονότων επιτρέπει τη μετατροπή σχετιζόμενων γεγονότων σε συνεκτικές αναπαραστάσεις ιστορίας. Οι έννοιες του CRM παρέχουν μία ελεγχόμενη γλώσσα για τη περιγραφή σημασιολογίας υψηλού επιπέδου που επιτρέπει την πληροφοριακή ολοκλήρωση σε επίπεδο σχήματος. Υπάρχουν τέσσερις κεντρικές ιδέες στο CRM. Η πιθανή αμφισημία της σχέσης μεταξύ εννοιών και των αναγνωριστικών («Appellations») που χρησιμοποιούνται για να γίνει αναφορά στις οντότητες είναι κομμάτι της ιστορικής πραγματικότητας που θα περιγραφεί από την οντολογία και λιγότερο ένα πρόβλημα που θα πρέπει να επιλυθεί. Έκτοτε, διακρίνονται οι κόμβοι που αναπαριστούν το πραγματικό αντικείμενο από τους κόμβους πουαναπαριστούν τα ονόματα του αντικειμένου Οι τύποι και τα συστήματα ταξινόμησης δεν είναι οι μόνοι τρόποι για τη δόμηση της πληροφορίας σχετικά με την πραγματικότητα από μία εξωτερική σκοπιά, αλλά επίσης κομμάτι της ιστορικής πραγματικότητας στη φύση τους ως ανθρώπινες επινοήσεις. Αντίστοιχα, η τεκμηρίωση αποτελεί μέρος της πραγματικότητας και μπορεί να περιγραφεί μαζί με το τεκμηριωμένο περιεχόμενο. 55
67 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά Ο κανονικός ανθρώπινος τρόπος για να αναλ υθεί το παρελθόν είναι να χωριστεί η εξέλιξη των πραγμάτων σε διακριτά γεγονότα στο χώρο και το χρόνο. Έτσι το τεκμηριωμένο παρελθόν μπορεί να μορφοποιηθεί ως μία σειρά από γεγονότα που περιλαμβάνουν Persistent Items όπως τα φυσικά αντικείμενα και τους Δράστες. Η διασύνδεση αντικειμένων, τοποθεσιών και χρόνου μέσα από γεγονότα δημιουργεί μία νοοτροπία της ιστορίας ως κοσμικές γραμμές που συναντώνται στο χώρο και το χρόνο. Τα γεγονότα όταν τα δει κανεις ως διεργασίες, μπορούν να γενικευθούν σε περιόδους και ακόμα περισσότερο σε Χρονικές Οντότητες. Μόνο αυτγές οι κλάσεις είναι άμεσα συνδεδεμένες με το χώρο και το χρόνο στην οντολογία. Οι χρονικές οντότητες έχουν ασαφή όρια στο χώρο και το χρόνο τα οποία μπορούν να προσεγγισθούν από άνω και κάτω όρια. Τα νοητά αντικείμενα είναι αντικείμενα που μπορούν να δημιουργηθούν αλλά μπορούν να βρίσκονται σε περισσότερους από ένα φυσικούς φορείς την ίδια χρονική στιγμή, περιλαμβάνοντας ανθρώπινα μυαλά. Τα άυλα αντικείμενα μπορούν να είναι παρόντα σε γεγονότα μέσα από τους αντίστοιχους φυσικούς φορείς τους. Δεν μπορούν να καταστραφούν, αλλά ο τελευταίος φορέας τους μπορεί να χαθεί. Εικόνα 12: Οι σημαντικότερες κλάσεις στο CIDOC CRM 56
68 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά 5.6. CIDOC CRM ΚΑΙ LINKED DATA Η πρωτοβουλία Linked Data του Tim Berners Lee είναι η πρώτη γεύση ενσάρκωσης του σημασιολογικού ιστού σήμερα. Το δίκτυο των πηγών δεδομένων στο Linked Data έχει αυξηθεί ραγδαία και έχει εξελιχθεί σε μία αποδεδειγμένη και πρακτικά υλοποιίιμη λύση. Δεδομένου αυτού, φαίνεται ελκυστική η ιδέα της σύνδεσης των συλλογών πολιτισμικής κληρονομιάς με το Linked Data. Οι τέσσερις βασικές αρχές της πρωτοβουλίας των διασυνδεδεμένων δεδομένων είναι οι εξής: Χρήση URIs σαν ονόματα για τους πόρους. Χρήση απαναφοροποιήσιμων URIs, δηλαδή HTTP URIs έτσι ώστε οι χρήστες να μπορούν να βρουν τα ονόματα αυτά στο διαδίκτυο Όταν κάποιος χρήστης πληκτρολογεί το URI, να παρέχεται χρήσιμη πληροφορία Σύδεση πόρων σε άλλες πηγές δεδομένων έτσι ώστε να είναι δυνατή η ανακάλυψη νέων δεδομένων Από το 2007, το project Linking Open Data ( LOD Διασυνδέοντας Ανοιχτά Δεδομένα) έχει σαν στόχο την εφαρμογή των αρχών των διασυνδεδεμένων δεδομένων σε δημοσίως διαθέσιμες πηγές δεδομένων όπως η Wikipedia, η DBLP κ.λπ. Αυτή τη στιγμή πάνω από 100 πηγές δεδομένων με δισεκατομμύρια τριπλέτες και εκατομμύρια διασυνδέσμους (Interlinks) είναι ήδη διαθέσιμες από πολλά ινστιτούτα και projects, συμπεριλαμβανομένων του BBC. Η πρωτοβουλία Linked Data έχει ήδη εφαρμοστεί σε πολυμεσικό περιεχόμενο, Catch me if you can μία εφαρμογή για σημασιολογική επισημείωση φωτογραφιών στο Flickr. Αυτές οι επισημειώσεις διασυνδέουν τη φωτογραφία με άλλους πόρους που έχουν περισσότερη πληροφορία για τα πρόσωπα/μέρη/αντικείμενα που αναπαριστώνται, π.χ. το αντίστοιχο άρθρο στη Wikipedia. Εικόνα 13: Dbpedia Mobile εφαρμογή 57
69 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά Μία άλλη εφαρμογή, η DbPedia Mobile που είναι ένας πελάτης για την DbPedia για κινητά τηλέφωνα παρουσιάζει σε ένα χάρτη διάφορα σημεία ενδιαφέροντος με διασυνδεδεμένες πληροφορίες από τη Wikipedia. Για να γίνουν τα ινστιτούτα πολιτισμικής κληρονομιάς μέρος του Ιστού των Δεδομένων, οι οργανισμοί πολιτισμικής κληρονομίας πρέπει να σχεδιάσουν τις εφαρμογές τους σύμφωνα με τις αρχές των Διασυνδεδεμένων Δεδομένων. Γραφικά, το παραπάνω φαίνεται στο παρακάτω σχήμα. Εικόνα 14: Διασυνδεδεμένα Δεδομένα και Πολιτισμική Κληρονομιά Τυπικά, κάθε οργανισμός πολιτισμικής κληρονομιάς, αποθηκεύει πληροφορίες σχετικά με τις συλλογές του σε κάποιο αποθετήριο (repository), συνήθως μιας βάση δεδομένων. Έστω ότι το αποθετήριο αποθηκεύει τις πληροφορίες για το αντικείμενο Epitaphios GE
70 5. Θησαυροί και Οντολογίες στην Πολιτισμική Κληρονομιά Εικόνα 15: Δεδομένα αποθετηρίου Έστω ότι τα δεδομένα αντιστοιχίζονται σε RDF και γίνονται διαθέσιμα δημοσίως. Προσθέτουμε τώρα την τριπλέτα: < Owl:sameAs < Αυτό έχει σαν αποτέλεσμα να δημιουργηθεί μία διασύνδεση μεταξύ των δύο πηγών δεδομένων. Έτσι ο ενδιαφερόμενος χρήστης στο αντικείμενο αυτό θα μπορεί να δει ότι το αντικείμενο ανήκει στο Μουσείο Μπενάκη, άρα στην Αθήνα. Εικόνα 16: Διασύνδεση συλλογής με Διασυνδεδένα Δεδομένα 59
71 6. ΑΝΑΣΚΟΠΗΣΗ ΣΥΣΤΗΜΑΤΩΝ ΠΟΛΙΤΙΣΤΙΚΗΣ ΚΛΗΡΟΝΟΜΙΑΣ Στην ενότητα αυτή θα παρουσιαστούν μερικά συστήματα που χρησιμοποιούν τεχνολογίες Σημασιολογικού Ιστού για την διαχείριση Πολιτιστικών Δεδομένων. Αρχίζουμε με το Europeana που είναι ένα φιλόδοξο έργο που έχει ως στόχο την ολοκλήρωση όλων των συλλογών των οργανισμών πολιτιστικής κληρονομιάς σε όλη την Ευρώπη. Το έργο Europeana είναι ακόμα σε εξέλιξη. Το έργο CHIP επιδεικνύει την συνεργασία των τεχνολογιών του Σημασιολογικού Ιστού και των τεχνολογιών της εξατομίκευσης για την παραγωγή ενός συστήματος συστάσεων στο τομέα του πολιτισμού. Το AMA project που είναι ένα έργο με σκοπό την ολοκλήρωση συλλογών με τη βοήθεια του CIDOC CRM. Τον ίδιο σκοπό έχει το E culture Multimedian έργο το οποίο χρησιμοποιεί το λεξιλόγιο VRE, ενός υποσυνόλου του Dublin Core. Τέλος παρουσιάζεται το σύστημα Libris και πως υλοποιήθηκε η ολοκλήρωσή του με τα Διασυνδεδεμένα Δεδομένα EUROPEANA H Europeana είναι ένα έργο με στόχο να ολοκληρώσει τη πολιτιστική κληρονομιά ολόκληρης της Ευρώπης. Στην εικόνα φαίνεται η αρχιτεκτονική του συστήματος. Οι πάροχοι περιεχομένου έχουν ως ρόλο την έκθεση των αποθετηρίων τους στους συσσωρευτές περιεχομένου της Europeana. Θα πρέπει να δημοσιεύουν τα δεδομένα σε κατάλληλες μορφές για να επιτύχουν την σωστή ορατότητα για το περιεχόμενο του αποθετηρίου λαμβάνοντας υπόψη πιθανούς περιορισμούς χρήσης και σχετικές απαιτήσεις της Europeana. Αυτό σημαίνει ότι πρέπει να υποβάλλεται το περιεχόμενο και τα σχετιζόμενα δεδομένα στους συσσωρευτές περιεχομένου με έναν ελεγχόμενο και αυτόματο τρόπο. Το πρωτόκολλο OAI PMH χρησιμοποιείται ευρέως ως μηχανισμός για αυτόν ακριβώς το σκοπό σε σχέση με τα μεταδεδομένα και έτσι η Europeana αποφάσισε να το κάνει προαπαιτούμενο για την διαδικασία συλλογής δεδομένων ενώ αντίστοιχα οι συσσωρευτές περιεχομένου θα συλλέγουν δεδομένα από τους παρόχους περιεχομένου. Ωστόσο, αυτό δεν αποκλείει τη χρήση άλλων τεχνολογιών π.χ. P2P για τη χρησιμοποίησή τους ως μεθόδους παράδοσης πληροφορίας, δεδομένου ότι το OAI PMH θα υποστηρίζεται ως η βασική μέθοδος. 60
72 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 17: Αρχιτεκτονική Europeana Οι πάροχοι περιεχομένου μπορεί να επιθυμούν να εμφανίζεται η ταυτότητα όταν το περιεχόμενο τους προσπελαύνεται από το portal της Europeana. Αλλά εφόσον το περιεχόμενο προσπελάζεται μέσω των δικό τους αποθετηρίων και οι ίδιοι παρέχουν τις εφαρμογές για την έκθεση του περιεχομένου (π.χ. εφαρμογή γυρίσματος σελίδας), έχουν τα μέσα να επιδειξουν τη ταυτότητά τους χωρίς την αρωγή της Europeana. Για τη συλλογή και παροχή δεδομένων από τους πάροχους περιεχομένου υπάρχουν οι εξής τρόποι: Άμεση διαδικασία εγγραφής. Οι πάροχοι περιεχομένου λαμβάνουν υλοποιήσεις πελάτη χρησιμοποιώντας μία απλή κοινή λειτουργία εγγραφής μεταδεδομένων με την οποία αντιστοιχούν όλες τις απαραίτητες πληροφορίες στα χαρακτηριστικά του αποθετηρίου και τα μεταδεδομένα από τη βάση δεδομένων τους. Η τελική έγκριση και η διαδικασία εγγραφής πρέπει να είναι μέρος του συστήματος της Europeana. Προγραμματισμένη συλλογή: πρέπει να υπάρχει ένας τρόπος ορισμού μίας αυτόματης διεργασίας για την εκτέλεση συλλογής δεδομένων σε τακτά διαστήματα. Αυξητική συλλογή: για την ελαχιστοποίηση της κίνησης και τη βελτίωση της απόδοσης σε ένα περιβάλλον πολλαπλών αποθετηρίων, η Europeana πρέπει να εκμεταλλεύεται και να υποστηρίζει την αυξητική συλλογή κατά την οποία συλλέγονται μόνο οι επιπλέον αλλαγές στο περιεχόμενο. 61
73 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Οι συσσωρευτές περιεχομένου είναι η διεπαφή μεταξύ των πάροχων περιεχομένου και της Europeana. Ο ρόλος τους είναι : Η συλλογή πληροφοριών σχετικά με τους πάροχους και τα συστήματα παράδοσής τους Η συλλογή δεδομένων σχετικά με το περιεχόμενο που παρέχεται ως surrogate. Η αφαίρεση διπλότυπων δεδομένων, η αποσαφηνοποίηση, ο καθαρισμός και η εμπλούτισή τους με χρήσιμες ιδιότητες Η επαλήθευση της πρόσβασης στο περιεχόμενο Η προετοιμασία των δεδομένων για την συλλογή δεδομένων της Europeana χρησιμοποιώντας το πρωτόκολλο OAI PMH Η Europeana παρέχει επίσης εξωτερικές εφαρμογές/apis για την προσπέλαση του περιεχομένου που έχει στη διάθεσή της ΛΟΓΙΚΟ ΜΟΝΤΕΛΟ ΔΕΔΟΜΕΝΩΝ: ΨΗΦΙΑΚΑ ΑΝΤΙΚΕΙΜΕΝΑ ΚΑΙ SURROGATES Μία κεντρική αρχή της Europeana είναι ένα δίκτυο σημασιολογικών πόρων το οποίο χρησιμοποιείται ως το πρωτεύον επίπεδο διεπαφής χρήστη. Στο παραδοσιακό μοντέλο καταλόγου βιβλιοθήκης, η πρόσβαση στα πληροφοριακά αντικείμενα λάμβανε χώρα μέσα από περιγραφικά μεταδεδομένα με τον τρόπο που παρουσιάζεται στην εικόνα Εικόνα 18: Μοντέλο καταλόγου βιβλιοθήκης Αντίθετα προς το μοντέλο αυτό, οι χρήστες έχουν τη δυνατότητα να εξερευνούν το χώρο δεδομένων της Europeana χρησιμοποιώντας σημασιολογικούς κόμβους ως 62
74 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study πρωτεύοντα στοιχεία για την αναζήτηση και φυλλομέτρηση μέσω ερωτημάτων σχετικών με το που, το ποιος το πότε και το τι. Η προτιθέμενη σχέση μεταξύ του σημασιολογικής αναπαράστασης και της αναπαράστασης του αντικειμένου και των επίπεδών τους φαίνεται στο σχήμα Εικόνα 19: Μοντέλο Europeana Ο χρήστης τώρα αλληλεπιδρά κυρίως με το σημασιολογικό δίκτυο για να εξερευνήσει το χώρο surrogates της Europeana ο οποίος τώρα έχει τα μεταδεδομένα ως μέρη των surrogates και συσσωρεύσεων surrogates. Υπό αυτό το πλαίσιο, η Europeana μπορεί να συλληφθεί ως ένα δίκτυο από διαλειτουργικών πλαισιωμένων (contextualized) surrogates αντικειμένων που δίνουν τη δυνατότητα για ανακάλυψη και χρήση αντικειμένων βάσει σημασιολογίας. Το δίκτυο είναι μέρος της πληροφοριακής αρχιτεκτονικής του διαδικτύου. Όσον αφορά συγκεκριμένα στα δεδομένα πλαισίου, η Europeana χρησιμοποιεί την Linked Data πρωτοβουλία όπου είναι δυνατόν αντί να δημιουργεί συγκεκριμένους κόμβους πλαισίου εντός του χώρου δεδομένων της. Με τον ίδιο τρόπο, το σημασιολογικό επίπεδο της Europeana δημοσιεύεται προς τα έξω ως διασυνδεδεμένα δεδομένα, με τα URIs των αντικειμένων να είναι αποαναφοροποιήσιμα. Η Europeana θα δημιουργήσει ένα παράλληλο χώρο δεδομένων εντός του συστήματος ο οποίος θα είναι αναπαράσταση του χώρου αντικειμένων των πάροχων περιεχομένου. Έτσι, διακρίνουμε τα Πραγματικά Φυσικά Αντικείμενα (Real Physical Objects) για να δηλωθεί ένα εξωτερικό αντικείμενο μαζί με σχετιζόμενα μεταδεδομένα για το αντικείμενο, τα Αντικείμενα Ψηφιακής Αναπαράστασης (Digital Representation Objects) που είναι οι ψηφιοποιημένες αναπαραστάσεις αυτών των πραγματικών αντικειμένων που δημιουργούνται από τους παρόχους περιεχομένου, τα Ψηφιακά Κύρια Αντικείμενα που είναι τα πρωτότυπα ψηφιακά 63
75 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study αντικείμενα και τα Ψηφιακά Surrogate Αντικείμενα που δηλώνουν το εσωτερικό αντικείμενο με τα σχετικά μεταδεδομένα και άλλα σύνθετα στοιχεία. Η βασική υπόθεση του μοντέλου αντικειμένων της Europeana είναι ότι το κεντρικό αποθετήριο της θα περιέχει μόνο surrogates και αρχείο ευρετηρίου, ενώ τα πρωτότυπα αντικείμενα και οι ψηφιακές αναπαραστάσεις τους θα υπάρχουν στους ιστότοπους των πάροχων περιεχομένου. Επιπλέον, υποτίθεται ότι τα surrogates μπορούν να δημοσιευθούν μέσα από το API της Europeana και τις υπηρεσίες του Portal της. Μία επιπλέον σημαντική λεπτομέρεια είναι ότι στο surrogate μοντέλο, τα surrogates θα πρέπει να έχουν μία μόνιμη αναφοράω εφόσον παίζουν πρωτεύοντα ρόλο. Το μοντέλο έχει σαν βασικά στοιχεία τα surrogates τα οποία αναπαριστούν το ελάχιστο σημαντική μονάδα τεκμηρίωσης που ένας πάροχος περιεχομένου είναι ικανός ή πρόθυμος να παρέχει. Κάθε surrogate στη Europeana περιέχει τουλάχιστον έναν identifier, μία σύνδεση στο DRO, μεταδεδομένα καθώς και διάφορα είδη αφαιρέσεων ή παραγώγων ή περιλήψεων. Παραδείγματα αυτών είναι οι πίνακες περιεχομένων και ευρετήρια, thumbnails, αφαιρέσεις μουσικής και βίντεο (ιστογράμματα χρώματος ή αφαιρέσεις σχήματος) και υπογραφές. Οι εγγραφές των μεταδεδομένων των surrogates ως κομμάτια των ίδιων των surrogates είναι μορφοποιημένες σε RDF. Όλα τα surrogates στο χώρο δεδομένων της Europeana είναι διαδικτυακοί πόροι και έχουν ένα URI. Επίσης έχουν έναν σύνδεσμο στο DRO σε περίπτωση που το αντικείμενο αυτό μπορεί να αναγνωρισθεί ως διαδικτυακός πόρος. Διαφορετικά ο σύνδεσμος θα είναι προς μία εξωτερική εφαρμογή που θα επιτρέπει πρόσβαση στο αντικείμενο. Σε μία τέτοια προσέγγιση, το μοντέλο της Europeana δεν θα ασχολείται με τη προέλευση των πρωτότυπων αντικειμένων. Έτσι, σε περίπτωση που υπάρχει η απαίτηση να αποθηκευθούν τα DROs στην Europeana, το μοντέλο των surrogates δεν επηρεάζεται. 64
76 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 20: Δομή surrogate Τα αντικείμενα surrogates μπορεί να είναι είτε απλές οντότητες, είτε μέρη πιο πολύπλοκων λογικών οντότητων. Μπορούν επίσης να σχετίζονται με άλλα surrogates ή πόρους οι οποίοι αποτελούν το πλαίσιο του surrogate. Μία απλοποιημένη όψη του surrogate φαίνεται στο παραπάνω σχήμα. Τα surrogates έχουν μεταδεδομένα, αφαιρέσεις και επισημειώσεις σαν μέρη, μπορεί να έχουν μία πολύπλοκη εσωτερική δομή (έχει μέρος κ.λπ) Τα surrogates της Europeana θα συνδέονται συστηματικά με σημασιολογικούς πόρους που αναπαριστούν έννοιες καθώς και με εξωτερικούς πόρους αναφοράς που αναπαριστούν οντότητες αναφοράς όπως πρόσωπα, τοποθεσίες και περιόδους στο χρόνο. Η διαδικασία δημιουργίας αυτού του πλαισίου των surrogates ονομάζεται πλαισιοποίηση (contextualization). Οι αναφερόμενοι πόροι μπορεί να είναι είτε μέρος του χώρου δεδομένων της Europeana, είτε εξωτερικοί πόροι όπως στην περίπτωση των Διασυνδεδεμένων Δεδομένων. Οι συνδεόμενοι αυτοί πόροι με τα surrogates θα οργανώνονται σε οντολογίες ή σε SKOS σχήματα εννοιών, που περιλαμβάνουν τα λεξιλόγια για την περιγραφή των εννοιών των surrogates. Οι πόροι αυτοί περιλαμβάνουν τους θησαυρούς, τα σχήματα ταξινόμησης, τις θεματικές λίστες κ.λπ. Ο βασικός μηχανισμός του OAI PMH μπορεί να χρησιμοποιηθεί για τη λήψη απλών Dublin Core μεταδεδομένων από τους παρόχους δεδομένων. Προβλέπεται ότι η Europeana θα λαμβάνει και επιπλέον μεταδεδομένα, είτε μέσω της getrecord 65
77 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study αίτησης με τη κατάλληλη metadataprefix τιμή ή με κάποιον άλλο τρόπο. Αυτά τα λεπτομερή μεταδεδομένα θα πρέπει να παραδίδονται σε XML, σε μία μορφοποίηση που έχει συμφωνηθεί μεταξύ του παρόχου δεδομένων και της Europeana. Πιθανές μορφοποιήσεις περιλαμβάνουν: TEL, METS, EAD, EBU Core, Immix, CIDOC CRM, MODS, MARCXML, MPEG 21, Dismac, museumdat κ.λπ. Τα XML schemas αυτών των συνόλων μεταδεδομένων θα πρέπει να παρέχονται από τον πάροχο δεδομένων μαζί με μία απεικόνιση στο Europeana Semanic Elements Specification (ESE) Το ESE είναι ένα σύνολο μεταδεδομένων του Europeana που παίζει σημαντικό ρόλο για την ανακάλυψη αντικειμένων μέσω προχωρημένης αναζήτησης. Όλα τα surrogate αντικείμενα περιέχουν περιγραφή σε αυτό το σύνολο μεταδεδομένων πράγμα που εξασφαλίζει την διαλειτουργικότητα CHIP Το project CHIP (Cultural Heritage Information Personalization) έχει ως στόχο να επιδείξει πως ο σημασιολογικός ιστός και οι τεχνικές εξατομίκευσης μπορούν να συνδυαστούν και να εφαρμοστούν για την βελτίωση της προσπέλασης σε μουσειακές ψηφιακές συλλογές. Στα πλαίσια του έργου, έχει αναπτυχθεί ένα σύστημα συστάσεων (Art Recommender) που βασίζεται σε φιλτράρισμα βάσει περιεχομένου. Το σύστημα συστάσεων αποσπά βαθμολογίες των αντικειμένων τέχνης από τους χρήστες και προτείνει σχετιζόμενες έννοιες με τα χαρακτηριστικά των προτιμώμενων αντικειμένων. Η χρήση και διαλειτουργικότητα ενός συνόλου δομημένων λεξιλογίων δημιουργεί τη δυνατότητα για συστάσεις μίας ποικιλίας εννοιών μέσω σημασιολογικών σχέσεων. Έτσι για παράδειγμα, αν ένας χρήστης έχει δώσει μεγάλη βαθμολογία στον Ρέμπραντ, τότε το σύστημα θα του προτείνει το δάσκαλό του ή το μαθητή του. 66
78 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 21: CHIP Παρ όλες τις δυνατότητες που υπόσχεται η χρήση σημασιολογικών σχέσεων για εξατομικευμένες συστάσεις, θέτει κι ένα πρόβλημα. Από τις διάφορες πληροφορίες που σχετίζονται με τα προτιμώμενα αντικείμενα του χρήστη, δεν τον ενδιαφέρουν όλες οι αυτές οι πληροφορίες. Έτσι, ένα σημασιολογικό σύστημα συστάσεων θα μπορούσε να προτείνει σε κάποιον που προτιμά το Ρέμπραντ και το μέρος του θανάτου του, το Άμστερνταμ, το οποίο ενδεχομένως δεν τον ενδιαφέρει. Το πρόβλημα γίνεται μεγαλύτερο εφόσον οι σημασιολογικές σχέσεις επεκτείνονται πάνω από πολλά λεξιλόγια. Το project βασίζεται στη βάση δεδομένων ARIA (Amstardam RIA), η οποία περιέχει περιγραφές και οπτικό υλικό για εκθέματα σε flat μορφή. Για το σημασιολογικό εμπλουτισμό της, παρήχθησαν αντιστοιχίσεις στο ICONCLASS λεξιλόγιο και χρησιμοποιήθηκαν οι RDF/OWL αναπαραστάσεις των Getty λεξιλογίων (AAT, ULAN, TGN). Επίσης με τη βοήθεια ειδικών, ορίστηκαν συγκεκριμένες σημασιολογικές σχέσεις ανάμεσα σε διαφορετικά λεξιλόγια, πχ καλλιτέχνες από το ULAN συνδέονται με στυλ τεχνών στο AAT μέσω ειδικών διασυνδέσεων. 67
79 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 22: CHIP διεπαφή Τα πλούσια λεξιλόγια μεταδεδομένων φέρνουν συνολικά έντεκα σημασιολογικές σχέσεις ανάμεσα σε ένα λεξιλόγιο και σε δύο διαφορετικά λεξιλόγια, όπως φαίνονται στο προηγούμενο σχήμα. Οι σχέσεις 1 4 είναι τα βασικά χαρακτηριστικά των έργων. Οι σχέσεις 5 15 είναι σχέσεις ανάμεσα σε ένα λεξιλόγιο ή δύο λεξιλόγια. Π.χ. η σχέση 5 συνδέει έναν καλλιτέχνη στο ULAN με ένα στυλ τέχνης στο ΑΑΤ, οι σχέσεις 6,7 είναι σχέσεις μέσα στο ίδιο το ULAN και οι 8 9 είναι σχέσεις ανάμεσα σε καλλιτέχνες του ULAN και τις τοποθεσίες από το TGN. Για την ανακάλυψη των πιο χρήσιμων για συστάσεις σημασιολογικών σχέσεων, διεξάχθηκε ένα πείραμα. Η οθόνη φαίνεται στην προηγούμενη φωτογραφία. Στην κορυφή παρουσιάζεται ένα slideshow με τα έργα τα οποία φυλλομετρά ο χρήστης και τα οποία μπορεί να βαθμολογήσει με μία βαθμολογική κλίμακα 1 5. Βασιζόμενο το σύστημα στις βαθμολογίες των έργων με βαθμολογία 4 5, συστήνει έννοιες μέσω χαρακτηριστικά των έργων όπως φαίνεται στο κάτω μέρος της οθόνης. Ο χρήστης βαθμολογεί τις συστημένες έννοιες στην ίδια βαθμολογική κλίμακα. Η λίστα των προτεινόμενων εννοιών ενημερώνεται δυναμικά βασιζόμενη στις βαθμολογίες του τελευταίου έργου ή έννοιας. Επίσης ο χρήστης μπορεί να δει την εξήγηση πίσω από κάθε σύσταση που του προτάθηκε, που περιγράφει το χαρακτηριστικό ή τη σχέση που χρησιμοποιήθηκε. Ο χρήστης ζητείται να προσφέρει ανάδραση και για το πόσο ενδιαφέρουσα φαίνεται η έννοια που του συστάθηκε. Για την εξαγωγή αποτελεσμάτων χρησιμοποιήθηκαν δύο διαστάσεις: (α) ακρίβεια (β) ενδιαφέρον. Η ακρίβεια έχει να κάνει με τη βαθμολογία του χρήστη σχετικά με δεδομένη έννοια και το ενδιαφέρον σχετικά με τη βαθμολογία της εξήγησης και της διαδικασίας εξαγωγής συμπεράσματος. 68
80 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study 6.3. AMA PROJECT Το ΑΜΑ (Archive Mapper for Archeology) project είναι μία άλλη προσπάθεια για την αντιμετώπιση του προβλήματος της ολοκλήρωσης πολιτιστικών συλλογών, η οποία χρησιμοποιεί το CIDOC CRM. Στόχος του είναι η ανάπτυξη εργαλείων για ημιαυτόματη αντιστοίχιση δεδομένων πολιτισμικής κληρονομιάς στο CIDOC CRM. Τα εργαλεία αυτά είναι ικανά να εξάγουν και να κωδικοποιήσουν πληροφορία από μία ποικιλία πηγών, να αποθηκεύσουν και να διαχειριστούν την πληροφορία μέσω ενός σημασιολογικού container και να τα κάνουν διαθέσιμα δημοσίως για ερωτήματα και επαναχρησιμοποίηση. Εικόνα 23: Εργαλείο αντιστοίχισης Τα εργαλεία που περιλαμβάνει το ΑΜΑ project είναι τα εξής: Μία ισχυρή εφαρμογή αντιστοίχισης για την δημιουργία αντιστοιχίσεων από υπάρχοντα σύνολα δεδομένων Ένα εργαλείο για την αντιστοίχιση πληροφορίας πολιτιστικής κληρονομιάς που βρίσκεται σε μορφή απλού κειμένου στο μοντέλο CIDOC CRM. Πρότυπα που περιγράφουν τις σχέσεις μεταξύ της δομής υπάρχοντων αρχείων και του CIDOC CRM. 69
81 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Ένα σημασιολογικό πλαίσιο για την αποθήκευση, διαχείριση και φυλλομέτρηση της κωδικοποιημένης πληροφορίας παρέχοντας διεπαφές φιλικές στο χρήστη. Το εργαλείο αντιστοίχισης που φαίνεται στην εικόνα παραπάνω βασίζεται στην ακριβή γνώση του υλικού και της δομής του που χειρίζεται. Αυτό περιλαμβάνει διάφορες μορφές πρότυπες ή μη, παλιές και μοντέρνες. Το εργαλείο αντιστοιχίζει όλα αυτά τα δεδομένα σε μία πρότυπη μορφή συμβατή με το CIDOC CRM, εύκολα προσβάσιμη για έρευνα από μία διεπαφή διαδικτύου. Το εργαλείο βασίζεται σε πρότυπα αντιστοιχήσεων μεταξύ των δομών των πηγών δεδομένων και της δομής της πηγής στόχου. Τα πρότυπα δημιουργημένα σε XML περιγράφουν τη δομή των πηγών και την αντιστοίχιση και αυτόματα υποστηρίζουν την αυτόματη μετατροπή συνόλων δεδομένων κατά βούληση. Η μέθοδος διευκολύνει τη μελλοντική συντήρηση του συστήματος, σε περίπτωση που νέες εκδόσεις του προτύπου είναι διαθέσιμες MULTIMEDIAN E CULTURE Ο κύριος στόχος του Mutimedian e culture έργου είναι να επιδείξει πως οι καινοτόμες τεχνολογίες του Σημασιολογικού Ιστού και παρουσίασης δεδομένων μπορούν να χρησιμοποιηθούν για να παρέχουν καλύτερη ευρετηριοποίηση και αναζήτηση σε μία τεράστια συλλογή εικονικών συλλογών αντικειμένων πολιτισμικής κληρονομιάς. Η αρχιτεκτονική του βασίζεται σε ανοικτά πρότυπα (XML,RDF,OWL,SPARQL) και έχει ως βασική υπόθεση ότι η χρήση γνώσης αυστηρά υπό τη μορφή οντολογιών, θησαυρών, λεξιλογίων είναι ιδιαίτερα χρήσιμη για την ανάκτηση πληροφορίας σε γνωστικά πεδία πλούσια σε πληροφορίες. Το E culture ξεκίνησε με στόχο να δείξει ότι η διασυλλογική αναζήτηση μπορεί να επιτευχθεί με σχετικά χαμηλό κόστος σε τεχνολογία Σημασιολογικού Ιστού. Η προσέγγιση περιλαμβάνει τρία στοιχεία: Παροχή υποδομής για ανάκτηση, εμπλουτισμό και ευθυγράμμιση μεταδεδομένων συλλογών και λεξιλογίων Παροχή υποδομής για σημασιολογική αναζήτηση στον προκύπτοντα γράφο, περιλαμβανομένων διάφορων μηχανισμών παρουσίασης για τα αποτελέσματα αναζήτησης Παροχή υποδομής στους χρήστες να προσθέσουν μεταδεδομένα ή/και περιεχόμενο Βασικές προϋποθέσεις για το έργο είναι: 70
82 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Να μην υλοποιηθούν νέες οντολογίες ή λεξιλόγια αλλά να χρησιμοποιηθούν μονάχα τα υπάρχοντα. Επιτρέπεται μόνο η ανάπτυξη επεκτάσεων στα πλαίσια της ευθυγράμμισης των λεξιλογίων Να χρησιμοποιηθούν υπάρχοντα μεταδεδομένα πολλών συλλογών Το έργο έχει συγκεντρώσει τις περιγραφές αντικειμένων από έξι συλλογές, επισημειωμένα με πλήθος θησαυρών και πολλαπλών ιδιωτικά ελεγχόμενων λιστών λέξεων κλειδιών. Συνολικά ο όγκος δεδομένων φτάνει τα 20 εκατομμύρια τριπλέτες. Ο ιστότοπος του έργου φιλοξενεί τέσσερις γενικούς θησαυρούς. Τα τρία λεξιλόγια από το Getty Foundation, τα οποία έχουν μετατραπεί από XML μορφή σε RDF/OWL και το λεξιλόγιο του Wordnet που και αυτό έχει μετατραπεί σε OWL μορφή. Για την ολοκλήρωση μίας νέας συλλογής στο σύστημα, λαμβάνονται dumps βάσεων δεδομένων ή XML αρχεία που περιέχουν τα μεταδεδομένα και τα λεξιλόγια της συλλογής και ακολουθείται η παρακάτω διαδικασία: Μετατρέπονται οι θησαυροί σε RDF/OWL μορφή με τη βοήθεια όπου είναι δυνατό του SKOS για τη δημοσιοποίηση των δεδομένων. Έτσι τα λεξιλόγια γίνονται διαλειτουργικά Γίνεται ευθυγράμμιση του σχήματος μεταδεδομένων:γίνεται απεικόνιση του στο VRA, ενός ειδικού λεξιλογίου του Dublic Core για οπτικούς πόρους. Η αναπαράσταση γίνεται με σχέσεις rdfs:subproperty και owl:equivalentproperty. Τα δεδομένα μετατρέπονται σε τριπλέτες RDF και περνάνε από μία φάση εμπλουτισμού όπου γίνεται επεξεργασία των πεδίων κειμένου των μεταδεδομένων για την εύρεση αντίστοιχων εννοιών από ήδη υπάρχοντες θησαυρούς στο έργο. Για παράδειγμα, αν το πεδίο dc:creator περιέχει το αλφαριθμητικό Pablo Picasso, θα προστεθεί η έννοια αυτή και στο ULAN λεξιλόγιο. Γίνεται ευθυγράμμιση των θησαυρών με owl:sameas και skos:exactmatch σχέσεις. 71
83 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 24: Αρχιτεκτονική E CULTURE Η αρχιτεκτονική του συστήματος φαίνεται στο παραπάνω σχήμα. Ένας από τους στόχους του ιστότοπου του έργου είναι να παρέχει στους χρήστες του έναν οικείο και απλό τρόπο αναζήτησης με λέξεις κλειδιά και ταυτόχρονα να τους επιτρέπει να ωφεληθούν από όλη την γνώση που υπάρχει από τους θησαυρούς και τα λεξιλόγια. Ο αλγόριθμος αναζήτησης αρχικά ελέγχει όλα τα RDF αλφαριθμητικά στο αποθετήριο για ταιριάσματα με τη δοθείσα λέξη. Έπειτα, για κάθε ταίριασμα, διασχίζει τον RDF γράφο μέχρι να βρει έναν πόρο ενδιαφέροντος, ο οποίος αποκαλείται πόρος στόχος. Τέλος, βάσει των μονοπατιών από τα ταιριασμένα αλφαριθμητικά στους πόρους στόχους, τα αποτελέσματα συσταδοποιούνται. Για τη βελτίωση της αναζήτησης των RDF αλφαριθμητικών, η RDF βάση δεδομένων διατηρεί ένα btree ευρετήριο λέξεων που εμφανίζονται σε αλφαριθμητικά LIBRIS: ΚΑΝΟΝΤΑΣ ΕΙΣΑΓΩΓΗ ΤΩΝ ΚΑΤΑΛΟΓΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ Οι βιβλιοθήκες έχουν στην κατοχή τους μία πληθώρα δεδομένων, δομημένων και υψηλής ποιότητας, τα οποία ωστόσο γενικά δεν γίνονται διαθέσιμα στις εφαρμογές του σημασιολογικού ιστού. Με το έργο Libris έγινε η προσπάθεια εισαγωγής των καταλόγων των βιβλιοθηκών στα Διασυνδεδεμένα Δεδομένα. 72
84 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 25: Γράφος διασύνδεσης εννοιών στο Libris Το libris τεκμηριώνει μία σειρά από τύπους πόρων: βιβλία, συγγραφείς, θέματα, οργανισμούς κ.λπ. Για να υπάρχει δυνατότητα διασύνδεσης γίνεται η χρήση κοινών λεξιλογίων. Αυτά είναι το Dublin Core για βιβλιογραφικά δεδομένα, το FOAF για άτομα και οργανισμούς και το SKOS για ελεγχόμενα λεξιλόγια. Ένας γράφος για βιβλίο «The difference Engine φαίνεται στο παραπάνω σχήμα. Για τη δημιουργία συνδέσεων μεταξύ των εγγραφών χρησιμοποιείται το FRBR (Functional Requirements for Bibliographic Records). Σε κάθε εγγραφή στην βάση δεδομένων ανατίθεται ένα ή περισσότερα FRBR κλειδιά, τα οποία είναι οι κανονικοποιημένες συγχωνεύσεις ενός εκ των συγγραφέων και του πρωτότυπου τίτλου. Έτσι, προκύπτει ένα κλειδί για κάθε συγγραφέα ενός τίτλου. Τα κλειδιά αυτά δεν χρησιμοποιούνται σαν αναγνωριστικά, αλλά μόνον για τη δημιουργία συνδέσεων μεταξύ των εγγραφών του ίδιου έργου. Έτσι, όταν ένας συγγραφέας πεθάνει, αλλάξει όνομα κ.λπ. οι συνδέσεις μένουν οι ίδιες ακόμα και αν τα κλειδιά αλλάζουν. Επίσης, παρέχονται σύνδεσμοι σε εξωτερικούς πόρους, στη DbPedia και Wikipedia. 73
85 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 26: Αρχιτεκτονική του Libris Στο παραπάνω σχήμα φαίνονται τα βασικά μέρη της αρχιτεκτονικής της εφαρμογής. Το πρώτο βήμα είναι η δημιουργία ενός RDF Server Wrapper γύρω από το ILS το οποίο θα παρέχει τις εγγραφές σε RDF και όχι στη δυαδική αναπαράσταση που χρησιμοποιείται συνήθως για τις βιβλιογραφικές εγγραφές. Στο τελικό στάδιο της μετατροπής, μια XML αναπαράσταση του MARC21 μετατρέπεται με XSLT σε RDF. Επίσης για την επερώτηση και ανάλυση των δεδομένων, διατίθεται ένα SPARQL endpoint. 74
86 7. ΔΙΑΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ. ΑΝΑΠΤΥΞΗ CASE STUDY Στο κεφάλαιο αυτό θα παρουσιαστεί ένα σύστημα διαχείρισης πολιτιστικών εκδηλώσεων και δημοσιοποίησης δεδομένων στο Σημασιολογικό Ιστό. Αρχικά θα παρουσιαστούν οι διάφορες τεχνολογίες που μπορούν να χρησιμοποιηθούν για τη δημοσιοποίηση υπάρχοντων δεδομένων στο Σημασιολογικό Ιστό ΔΙΑΣΥΝΔΕΔΕΜΈΝΑ ΔΕΔΟΜΈΝΑ: Ο ΙΣΤΌΣ ΔΕΔΟΜΈΝΩΝ Ο στόχος της πρωτοβουλίας των Διασυνδεδεμένων Δεδομένων είναι να επιτρέψει στην κοινότητα όλων των χρηστών του Διαδικτύου να διαμοιραστεί δομημένα δεδομένα τόσο εύκολα όσο μπορούν να διαμοιραστούν HTTP έγγραφα σήμερα. Ο όρος των διασυνδεδεμένων Δεδομένων προτάθηκε από το Tim Berners Lee και αναφέρεται σε ένα τρόπο δημοσιοποίησης και διασύνδεσης δομημένων δεδομένων στο Διαδίκτυο. Η βασική υπόθεση πίσω από τα Διασυνδεδεμένα Δεδομένα είναι ότι η αξία και η χρησιμότητα των δεδομένων αυξάνεται περισσότερο όσο διασυνδέεται με άλλα δεδομένα. Οι βασικές αρχές των Διασυνδεδεμένων Δεδομένων είναι η χρήση του μοντέλου RDF για τη δημοσιοποίηση δομημένων δεδομένων στο Διαδίκτυο και η χρήση συνδέσμων RDF (RDF links) για την διασύνδεση δεδομένων από διαφορετικές πηγές δεδομένων. Η εφαρμογή και των δύο αρχών οδηγεί στη δημιουργία του Ιστού των Δεδομένων ή του Σημασιολογικού Ιστού, ενός χώρου όπου οι χρήστες και οι οργανισμοί μπορούν να αναρτήσουν και να καταναλώσουν δεδομένα σχετικά με το οτιδήποτε. Ο Ιστός Δεδομένων μπορεί να προσπελαστεί χρησιμοποιώντας ειδικούς φυλλομετρητές για Διασυνδεδεμένα Δεδομένα, όπως τα παραδοσιακά έγγραφα του Διαδικτύου προσπελαύνονται από HTML φυλλομετρητές. Ωστόσο, αντί να ακολουθούνται σύνδεσμοι ανάμεσα σε σελίδες HTML, οι φυλλομετρητές των Διασυνδεδεμένων δεδομένων επιτρέπουν στους χρήστες να πλοηγηθούν σε διαφορετικές πηγές δεδομένων ακολουθώντας RDF συνδέσμους. Έτσι ένας χρήστης μπορεί να ξεκινήσει τη πλοήγηση σε μία πηγή δεδομένων και να κινηθεί ανάμεσα σε πολλές διαφορετικές πηγές δεδομένων που διασυνδέονται μέσω RDF συνδέσμους. Για παράδειγμα, ενώ κάποιος χρήστης κοιτάει τα δεδομένα σχετικά με κάποιο πρόσωπο από μία πηγή δεδομένων, μπορεί να ενδιαφέρεται να μάθει περισσότερα σχετικά με την πόλη που γεννήθηκε το πρόσωπο αυτό. Ακολουθώντας ένα RDF σύνδεσμο, o χρήστης μπορεί να πλοηγηθεί σε μία άλλη πηγή που περιέχει πληροφορίες για τη πόλη αυτή. Όπως ακριβώς το παραδοσιακό Διαδίκτυο των HTML εγγράφων μπορεί να σαρωθεί από crawlers ακολουθώντας τους υπερσύνδεσμους ανάμεσα στα έγγραφα, έτσι 75
87 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study γίνεται και με τον Ιστό των Δεδομένων ακολουθώντας όμως RDF συνδέσμους. Από τα δεδομένα που προκύπτουν, οι μηχανές αναζήτησης μπορούν να παρέχουν εκλεπτυσμένες δυνατότητες αναζήτησης, παρόμοιες με αυτές που παρέχονται από τις συμβατικές σχεσιακές βάσεις δεδομένων ΠΟΡΟΙ ΚΑΙ ΑΝΑΠΑΡΑΣΤΑΣΕΙΣ ΣΤΟΝ ΙΣΤΟ ΔΕΔΟΜΕΝΩΝ Οι πόροι που χρησιμοποιούνται στον Ιστό Δεδομένων χωρίζονται σε πληροφοριακούς και μη πληροφοριακούς. Και τα δύο είδη αναγνωρίζονται στον Ιστό Δεδομένων με URIs και αποφεύγεται η χρήση άλλων σχημάτων όπως τα URNs και τα DOIs. Η αναπαράσταση είναι μία σειρά από bytes με συγκεκριμένη μορφοποίηση όπως HTML, RDF/XML, JPEG κ.λπ. Ένας πόρος μπορεί να έχει πολλαπλές αναπαραστάσεις όπως διάφορες μορφοποιήσεις, διάφορες αναλύσεις ποιότητας ή φυσικές γλώσσες. Η απαναφοροποίηση είναι η διαδικασία αναζήτησης ενός URI στο Διαδίκτυο έτσι ώστε να ανακτηθεί η σχετική πληροφορία με το πόρο αυτό. Πληροφοριακοί πόροι: Όταν το URI που αναγνωρίζει έναν πληροφοριακό πόρο απαναφοροποιείται, ο εξυπηρετητής συνήθως παράγει μία νέα αναπαράσταση, μία απεικόνιση της τρέχουσας κατάστασης του πληροφοριακού πόρου, και το στέλνει πίσω στο πελάτη. Οι μη πληροφοριακοί πόροι δεν μπορούν να απαναφοροποιηθούν άμεσα. Έτσι, η Διαδικτυακή Αρχιτεκτονική χρησιμοποιεί ένα κόλπο για να επιστρέψει την ύπαρξη URIs που να αναγνωρίζουν μη πληροφοριακούς πόρους. Αντί να στείλει μία αναπαράσταση του πόρου αυτού, ο εξυπηρετητής στέλνει στον πελάτη το URI ενός πληροφοριακού πόρου που περιγράφει το μη πληροφοριακό πόρο, χρησιμοποιώντας το κωδικό απόκρισης 303 See Other. Η απόκριση αυτή λέγεται ανακατεύθυνση 303. Έπειτα, ο πελάτης απαναφοροποιεί το νέο URI και λαμβάνει μια αναπαράσταση που περιγράφει τον αρχικό μη πληροφοριακό πόρο. Οι πάροχοι δεδομένων έχουν στη διάθεση τους δύο τρόπους για να παρέχουν στους πελάτες URIs πληροφοριακών πόρων που περιγράφουν μη πληροφοριακούς πόρους. Ο ένας είναι αυτός που περιγράψαμε και ο άλλος είναι τα Hash URIs. Στη διπλωματική και στην εφαρμογή που υλοποιήθηκε χρησιμοποιείται ο πρώτος τρόπος. Για το δεύτερο τρόπο μπορεί ο αναγνώστης να ανατρέξει στο []. 76
88 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study ΔΙΑΠΡΑΓΜΆΤΕΥΣΗ ΠΕΡΙΕΧΟΜΈΝΟΥ Οι HTML φυλλομετρητές συνήθως εμφανίζουν τις RDF αναπαραστάσεις ως «γυμνό» κώδικα RDF ή απλά τις «κατεβάζουν» ως αρχεία RDF χωρίς να τις εμφανίζουν. Αυτό δεν είναι πολύ βοηθητικό για το μέσο χρήστη. Επομένως, η παρουσίαση μιας σωστής HTML αναπαράστασης σε συνδυασμό με την RDF αναπαράσταση ενός πόρου βοηθάει τον άνθρωπο να καταλάβει σε τί αναφέρεται ένα URI. Επομένως, διαπραγμάτευση περιεχομένου είναι η διαδικασία επιλογής της καλύτερης αναπαράστασης για μια δεδομένη απόκριση όταν υπάρχουν διαθέσιμες πολλαπλές αναπαραστάσεις. Οι πελάτες HTTP στέλνουν κεφαλίδες HTTP με κάθε αίτηση για να δηλώσουν τί είδος αναπαράστασης προτιμούν. Εάν οι κεφαλίδες δηλώνουν ότι ο πελάτης προτιμά HTML, τότε ο εξυπηρετητής μπορεί να παράγει μια HTML αναπαράσταση. Εάν ο πελάτης προτιμά RDF, τότε ο εξυπηρετητής μπορεί να παράγει RDF. Η διαπραγμάτευση περιεχομένου για μη πληροφοριακούς πόρους υλοποιείται κυρίως με τον ακόλουθο τρόπο. Όταν επισκεφτούμε ένα URI που ταυτοποιεί ένα μη πληροφοριακό πόρο, ο εξυπηρετητής στέλνει μια ανακατεύθυνση 303 προς έναν πληροφοριακό πόρο κατάλληλο για τον πελάτη. Επομένως, μια πηγή δεδομένων συχνά εξυπηρετεί τρία URIs που σχετίζονται με μη πληροφοριακούς πόρους, για παράδειγμα: berlin.de/factbook/resource/russia (URI που ταυτοποιεί το μη πληροφοριακό πόρο Ρωσία) berlin.de/factbook/data/russia (πληροφοριακός πόρος με μια RDF/XML αναπαράσταση που περιγράφει τη Ρωσία) berlin.de/factbook/page/russia (πληροφοριακός πόρος με μια HTML αναπαράσταση που περιγράφει τη Ρωσία) Εικόνα 27: Διαπραγμάτευση Περιεχομένου 77
89 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Η παραπάνω εικόνα δείχνει πώς η επίσκεψη σε ένα HTTP URI το οποίο ταυτοποιεί ένα μη πληροφοριακό πόρο χρησιμοποιεί τη διαπραγμάτευση περιεχομένου: 1. Ο πελάτης πραγματοποιεί ένα HTTP GET αίτημα προς ένα URI το οποίο ταυτοποιεί ένα μη πληροφοριακό πόρο. Στην περίπτωσή μας, ένα URI λεξιλογίου. Εάν ο πελάτης είναι φυλλομετρητής Συνδεδεμένων Δεδομένων και προτιμά μια RDF/XML αναπαράσταση του πόρου, στέλνει μια κεφαλίδα Accept: application/rdf+xml μαζί με την αίτηση. Οι HTML φυλλομετρητές θα έστελναν αντί γι αυτό μια κεφαλίδα Accept: text/html. 2. Ο εξυπηρετητής αναγνωρίζει το URI που ταυτοποιεί ένα μη πληροφοριακό πόρο. Καθώς ο εξυπηρετητής δεν μπορεί να επιστρέψει μια αναπαράσταση αυτού του πόρου, απαντά χρησιμοποιώντας τον HTTP κωδικό απόκρισης 303 See Other και στέλνει στον πελάτη το URI ενός πληροφοριακού πόρου που περιγράφει το μη πληροφοριακό πόρο. Στην περίπτωση του RDF: RDF content location. 3. Ο πελάτης τώρα ζητά από τον εξυπηρετητή να λάβει (GET) μια αναπαράσταση του πληροφοριακού πόρου, ζητώντας ξανά application/rdf+xml. 4. Ο εξυπηρετητής στέλνει στον πελάτη ένα έγγραφο RDF/XML το οποίο περιέχει μια περιγραφή του vocabulary URI του αρχικού πόρου ΨΕΥΔΏΝΥΜΑ URI Σε ένα ανοιχτό περιβάλλον όπως είναι ο Ιστός συχνά συμβαίνει διαφορετικοί πάροχοι να μιλούν για τον ίδιο μη πληροφοριακό πόρο, για παράδειγμα μια γεωγραφική τοποθεσία ή ένα διάσημο πρόσωπο. Καθώς μπορεί να μη γνωρίζουν ο ένας για τον άλλο, συνιστούν διαφορετικά URIs για να ταυτοποιήσουν την ίδια οντότητα. Για παράδειγμα, η DBpedia, μια πηγή δεδομένων που παρέχει πληροφορίες οι οποίες έχουν εξαχθεί από τη Wikipedia, χρησιμοποιεί το URI για να ταυτοποιήσει το Βερολίνο. Το Geonames, μια πηγή δεδομένων που παρέχει πληροφορίες για εκατομμύρια γεωγραφικές τοποθεσίες, χρησιμοποιεί το URI για να ταυτοποιήσει το Βερολίνο. Καθώς και τα δύο URIs αναφέρονται στον ίδιο μηπληροφοριακό πόρο, καλούνται ταυτόσημα URI. Τα ταυτόσημα URIs συνηθίζονται στον Ιστό των Δεδομένων καθώς δεν μπορεί να περιμένουμε ότι όλοι οι πάροχοι πληροφοριών θα συμφωνήσουν πάνω στο ίδιο URI για να ταυτοποιήσουν μια οντότητα. Τα ταυτόσημα URIs παρέχουν μια σημαντική κοινωνική λειτουργία στον Ιστό Δεδομένων καθώς αναφέρονται σε διαφορετικές περιγραφές του ίδιου μηπληροφοριακού πόρου και έτσι επιτρέπουν την έκφραση διαφορετικών όψεων και 78
90 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study απόψεων. Για να είμαστε ακόμα σε θέση να εντοπίσουμε ότι οι διαφορετικοί πάροχοι πληροφοριών μιλούν για τον ίδιο μη πληροφοριακό πόρο, είναι κοινή πρακτική για τους παρόχους πληροφοριών να θέτουν συνδέσμους owl:sameas προς ταυτόσημα URI τα οποία γνωρίζουν ΣΥΣΧΕΤΙΖΟΜΕΝΕΣ ΠΕΡΙΓΡΑΦΕΣ Ένας χρήσιμος όρος στα πλαίσια των Συνδεδεμένων Δεδομένων (αλλά όχι μέρος της καθορισμένης ορολογίας της Αρχιτεκτονικής Ιστού) είναι η σχετιζόμενη περιγραφή και αναφέρεται στην περιγραφή ενός μη πληροφοριακού πόρου την οποία αποκτά ο πελάτης επισκεπτόμενος ένα συγκεκριμένο URI που ταυτοποιεί αυτό το μηπληροφοριακό πόρο. Για παράδειγμα, επισκεπτόμενοι το URI και ζητώντας application/rdf+xml, μας δίνεται, μετά την ανακατεύθυνση, μια σχετιζόμενη περιγραφή που είναι ίδια με την RDF περιγραφή του μέσα στον πληροφοριακό πόρο Η χρήση αυτού του νέου όρου έχει νόημα στα πλαίσια των Συνδεδεμένων Δεδομένων καθώς είναι συνηθισμένη η χρήση πολλαπλών ταυτόσημων URI για την αναφορά στον ίδιο μη πληροφοριακό πόρο και επίσης διότι διαφορετικά ταυτόσημα URI αναφέρονται σε διαφορετικές περιγραφές του πόρου ΠΛΕΟΚΤΉΜΑΤΑ ΚΑΙ ΘΈΜΑΤΑ Στο πλαίσιο των Συνδεδεμένων Δεδομένων η χρήση του μοντέλου RDF αποφέρει οφέλη όπως τα εξής: Οι πελάτες μπορούν να επισκεφθούν κάθε URI ενός RDF γράφου στον Ιστό για να ανακτήσουν επιπλέον πληροφορίες. Πληροφορίες από διαφορετικές πηγές συγχωνεύονται με φυσικό τρόπο. Το μοντέλο δεδομένων δίνει τη δυνατότητα σε κάποιον να θέσει RDFσυνδέσμους μεταξύ δεδομένων από διαφορετικές πηγές. Το μοντέλο δεδομένων επιτρέπει σε κάποιον να αναπαραστήσει πληροφορίες που εκφράζονται με τη χρήση διαφορετικών σχημάτων σε ένα μοντέλο. Συνδυαζόμενο με σχηματικές γλώσσες όπως η RDF S και η OWL, το μοντέλο δεδομένων επιτρέπει τη χρήση δομής στο βαθμό που απαιτείται κάθε φορά, που σημαίνει ότι μπορούμε να αναπαραστήσουμε αυστηρά δομημένα δεδομένα καθώς και ημι δομημένα δεδομένα. 79
91 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Για να είναι ευκολότερο για τους πελάτες να συγχωνεύσουν και να υποβάλλουν ερωτήματα στα δεδομένα που παρέχονται, προτείνεται να μην χρησιμοποιείται η πλήρης εκφραστικότητα του RDF μοντέλου δεδομένων, αλλά ένα υποσύνολο του. Ειδικότερα: Αποθαρρύνεται η χρήση blank nodes. Είναι αδύνατο να θέσεις εξωτερικά RDF διασυνδέσεις σε blank nodes και συγχώνευση δεδομένων από διαφορετικές πηγές δεδομένων γίνεται πολύ πιο δύσκολο όταν χρησιμοποιούνται blank nodes. Έκτοτε, όλοι οι πόροι οσοδήποτε σημασίας πρέπει αν ονοματίζονται με URI αναφορές. Σημειωτέον ότι και το λεξιλόγιο FOAF που χρησιμοποιούσε blank nodes, έχει τροποποιηθεί και δεν περιέχονται πλέον στο νέο specification του. Αποθαρρύνεται η χρήση RDF reification επειδή η σημασιολογία της είναι ασαφής ενώ τα ερωτήματα με SPARQL γίνονται πιο πολύπλοκα. Μεταδεδομένα μπορούν να επικολληθούν στους πληροφοριακούς πόρους ως εναλλακτική. Οι RDF Containers και collections δεν λειτουργούν καλά με τη SPARQL. Οπότε θα πρέπει να χρησιμοποιηθούν μόνο όταν είναι αναγκαίο ΤΙ ΘΑ ΠΡΕΠΕΙ ΝΑ ΕΠΙΣΤΡΕΦΕΙ ΜΙΑ ΠΕΡΙΓΡΑΦΗ RDF ΕΝΟΣ URI Υποθέτοντας ότι έχουμε ήδη εκφράσει όλα τα δεδομένα μας σε RDF τριάδες, θα πρέπει να δούμε ποιες τριάδες θα περιληφθούν στην RDF αναπαράσταση η οποία επιστρέφεται (ύστερα από μια 303 ανακατεύθυνση) ως απόκριση στην «επίσκεψη» ενός URI το οποίο ταυτοποιεί ένα μη πληροφοριακό πόρο. 1. Η περιγραφή: Η αναπαράσταση θα πρέπει να περιλαμβάνει όλες τις τριάδες από το σύνολο δεδομένων οι οποίες έχουν ως υποκείμενο το URI του πόρου. Αυτή είναι η άμεση περιγραφή του πόρου. 2. Σύνδεσμοι επιστροφής (Backlinks): Η αναπαράσταση θα πρέπει επίσης να περιλαμβάνει όλες τις τριάδες από το σύνολο δεδομένων οι οποίες έχουν ως αντικείμενο το URI του πόρου. Αυτό είναι πλεονασμός καθώς αυτές οι τριάδες μπορούν ήδη να ανακτηθούν από τα υποκείμενα URI τους αλλά επιτρέπει σε περιηγητές και crawlers να διασχίζουν συνδέσμους προς οποιαδήποτε κατεύθυνση. 3. Σχετιζόμενες περιγραφές: Μπορούν να συμπεριληφθεί οποιαδήποτε συμπληρωματική πληροφορία για σχετιζόμενους πόρους η οποία πιθανόν να ενδιαφέρει σε τυπικά σενάρια χρήσης. Για παράδειγμα, μαζί με τις πληροφορίες για ένα βιβλίο να σταλούν και πληροφορίες για τον συγγραφέα, διότι πολλοί πελάτες οι οποίοι ενδιαφέρονται στο βιβλίο πιθανόν να ενδιαφέρονται και για το συγγραφέα. Συστήνεται μια 80
92 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study μετριοπαθής προσέγγιση, στις περισσότερες περιπτώσεις η επιστροφή ενός megabyte RDF θεωρείται υπερβολική. 4. Μεταδεδομένα: Η αναπαράσταση θα πρέπει να περιλαμβάνει οποιαδήποτε μεταδεδομένα θέλουμε να επισυνάψουμε στα δημοσιευμένα δεδομένα, όπως ένα URI που ταυτοποιεί το συγγραφέα και τις πληροφορίες άδειας. Αυτές θα πρέπει να καταγραφούν ως RDF περιγραφές του πληροφοριακού πόρου ο οποίος περιγράφει ένα μη πληροφοριακό πόρο. Δηλαδή, το υποκείμενο των RDF τριάδων πρέπει να είναι το URI του πληροφοριακού πόρου. Η επισύναψη μεταδεδομένων σ αυτό τον πληροφοριακό πόρο, αντί για την επισύναψή τους στον ίδιο τον περιγραφόμενο πόρο ή σε συγκεκριμένες RDF δηλώσεις σχετικά με τον πόρο συνεργάζεται καλά με τη χρήση Ονοματικών Γράφων και τη γλώσσα ερωτημάτων SPARQL στις εφαρμογές πελάτη των Συνδεδεμένων Δεδομένων. Για επιτρέψουμε στους καταναλωτές δεδομένων να χρησιμοποιήσουν τα δεδομένα μας κάτω από ξεκάθαρα νόμιμους όρους, κάθε RDF έγγραφο πρέπει να περιέχει μια άδεια κάτω από την οποία μπορεί να χρησιμοποιηθεί το περιεχόμενο. 5. Συντακτικό: Υπάρχουν διάφοροι τρόποι για τη μορφοποίηση RDF περιγραφών. Μια πηγή δεδομένων πρέπει τουλάχιστον να παρέχει RDF περιγραφές σε RDF/XML καθώς είναι το επίσημο συντακτικό για RDF. Καθώς το RDF/XML δεν είναι πολύ εύκολο στην ανάγνωση από ανθρώπους, η πηγή δεδομένων πρέπει επίσης να παρέχει Turtle περιγραφές όταν της ζητείται MIME τύπος application/xturtle ΤΕΧΝΟΛΟΓΙΕΣ ΑΝΑΠΤΥΞΗΣ ΣΥΣΤΗΜΑΤΩΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΙΣΤΟΥ ΔΙΑΣΥΝΔΕΣΗ ΠΑΡΑΔΟΣΙΑΚΩΝ ΕΦΑΡΜΟΓΩΝ ΜΕ ΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ D2R SERVER Ένα εργαλείο για την επίδοση όψεων Συνδεδεμένων Δεδομένων σε σχεσιακές βάσεις δεδομένων είναι ο D2R Server. Ο D2R Server είναι ένα εργαλείο για δημοσίευση του περιεχομένου σχεσιακών βάσεων δεδομένων στον Σημασιολογικό Ιστό. Το περιεχόμενο της βάσης δεδομένων αντιστοιχίζεται σε RDF με μια δηλωτική χαρτογράφηση η οποία καθορίζει πώς ταυτοποιούνται οι πόροι και πώς παράγονται οι τιμές των ιδιοτήτων από το περιεχόμενο της βάσης δεδομένων. Με βάση αυτή τη χαρτογράφηση, ο D2R Server δίνει τη δυνατότητα σε RDF και HTML φυλλομετρητές να περιηγούνται στο περιεχόμενο μη RDF βάσεων δεδομένων και επιτρέπει σε εφαρμογές να υποβάλουν ερωτήματα σε μια βάση δεδομένων χρησιμοποιώντας τη γλώσσα υποβολής ερωτημάτων SPARQL πάνω από το πρωτόκολλο SPARQL. Ο server λαμβάνει αιτήματα από τον Ιστό και τα ξαναγράφει σε SQL ερωτήματα. Αυτή η on 81
93 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study the fly μετάφραση επιτρέπει στο περιεχόμενο μεγάλων βάσεων δεδομένων να προσπελαστεί με αποδεκτούς χρόνους απόκρισης. Στην εικόνα που ακολουθεί παρουσιάζεται με σχηματικό τρόπο η αρχιτεκτονική λειτουργίας του D2R Server. Εικόνα 28: Αρχιτεκτονική D2RServer ΥΛΟΠΟΊΗΣΗ WRAPPERS ΓΎΡΩ ΑΠΌ ΥΠΆΡΧΟΥΣΕΣ ΕΦΑΡΜΟΓΈΣ Ή WEB APIS Μεγάλος αριθμός εφαρμογών Ιστού έχουν αρχίσει να κάνουν διαθέσιμα τα δεδομένα τους στον Ιστό μέσω Web APIs. Παραδείγματα πηγών δεδομένων που παρέχουν τέτοια APIs περιλαμβάνουν το ebay, το Amazon, το Yahoo, το Google και το Google Base. Διαφορετικά APIs παρέχουν ποικίλες διεπιφάνειες υποβολής ερωτημάτων και ανάκτησης και επιστρέφουν αποτελέσματα χρησιμοποιώντας διαφορετικές μορφές όπως XML, JSON ή ATOM. Αυτό οδηγεί σε τρεις γενικούς περιορισμούς όσον αφορά τα Web APIs: Το περιεχόμενο δεν μπορεί να «περπατηθεί» από μηχανές αναζήτησης Τα Web APIs δεν μπορούν να αξιολογηθούν χρησιμοποιώντας γενικούς φυλλομετρητές δεδομένων Τα mashups υλοποιούνται με ένα συγκεκριμένο αριθμό πηγών δεδομένων και δεν μπορούν να εκμεταλλευτούν τις νέες πηγές δεδομένων που εμφανίζονται στον Ιστό ΑΡΧΙΤΕΚΤΟΝΙΚΉ Η αρχιτεκτονική της εφαρμογής φαίνεται στο σχήμα. Η εφαρμογή αποτελείται από τρία κύρια συστατικά μέρη: 82
94 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Την εφαρμογή διαχείρισης πληροφοριών Το αποθετήριο γνώσης Το σημασιολογικό φυλλομετρητή. Το SPARQL ENDPOINT 83
95 Εικόνα 29: Αρχιτεκτονική Εφαρμογής 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study
96 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Η εφαρμογή διαχείρισης δεδομένων είναι το μία εφαρμογή μέσω της οποίας ο διαχειριστής μπορεί να προσθέσει νέα πληροφορία στο αποθετήριο γνώσης ή να επεξεργαστεί την ήδη υπάρχουσα. Για το σκοπό αυτό χρησιμοποιεί τη βιβλιοθήκη Σημασιολογικού Ιστού Jena που περιγράψαμε παραπάνω. Τα ερωτήματα υποβάλλονται σε μία προσαυξημένη έκδοση του SPARQL πρωτοκόλλου της Jena, το SPARQL/Update, το οποίο περιλαμβάνει και ερωτήματα τροποποίησης (INSERT/DELETE) καθώς και κάποιες άλλες επεκτάσεις. Ο διαχειριστής αρχικά πληκτρολογεί το όνομα του έργου του οποίου το πρόγραμμα θα καταχωρήσει στη βάση δεδομένων. Το σύστημα ψάχνει σε άλλες πηγές δεδομένων για να βρει πληροφορίες για το έργο αυτό. Για παράδειγμα, γίνεται αναζήτηση μιας ταινίας μέσω SPARQL στο αντίστοιχο SPARQL endpoint του DBPEDIA. Αντίστοιχα, μπορεί να βρει πληροφορίες σχετικά με τη τοποθεσία που θα πραγματοποιηθεί η παράσταση από το Geonames κ.λπ. Το αποθετήριο γνώσης που χρησιμοποιήθηκε είναι ένα από τα μοντέλα απόθηκευσης RDF δεδομένων που προσφέρει η Jena, και συγκεκριμένα το ModelRDB. Το μοντέλο αυτό είναι το πιο παλιό και πλέον προτείνεται η χρήση των SDB και HDB. Το μοντέλο μπορεί να χρησιμοποιήσει μία πλειάδα βάσεων δεδομένων κάτω από αυτό. Στη συγκεκριμένη περίπτωση χρησιμοποιήσαμε τη PostgreSQL. Το μοντέλο αποθηκεύει κωδικοποιημένα τα RDF γραφήματα σε εγγραφές της βάσης, χωρίς να γνωρίζει ο προγραμματιστής τη δομή της βάσης. Επίσης υπάρχει ένας indexer ο οποίος διατρέχει το περιεχόμενο του RDF Store καθώς και πόρους στο οποίο αυτό αναφέρεται όπως σελίδες στη Wikipedia κ.λπ. Στη προκειμένη περίπτωση χρησιμοποιήθηκε ο LARQ που είναι ένας συνδυασμός της γνωστής μηχανής αναζήτησης Lucene, με τη μηχανή αναζήτησης του Jena, ΑRQ. Ο σημασιολογικός φυλλομετρητής είναι μια διαδικτυακή εφαρμογή η οποία επιτρέπει στον επισκέπτη να πλοηγηθεί στο RDF γράφο που υπάρχει στη βάση γνώσης. Μέσω αυτού ο επισκέπτης, είτε άνθρωπος, είτε εφαρμογή, μπορεί να παραλάβει το γράφο που έχει κέντρο έναν συγκεκριμένο πόρο σε μία ποικιλία από μορφοποιήσεις. Τέλος, υπάρχει κι ένα SPARQL Endpoint το οποίο προσφέρει πρόσβαση στη βάση γνώσης μέσω SPARQL. Το Endpoint έχει υλοποιηθεί σε Joseki ΟΝΤΟΛΟΓΙΆ ΚΑΙ ΘΗΣΑΥΡΌΣ Στα πλαίσια της εφαρμογής σχεδιάστηκαν μία οντολογία και ένας θησαυρός. Η οντολογία είναι γραμμένη σε OWL όπως και ο θησαυρός που χρησιμοποιεί το συνδυασμό OWL/SKOS. Για τη σχεδίασή τους χρησιμοποιήθηκε το εργαλείο Protégé, η έκδοση
97 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study ΟΝΤΟΛΟΓΙΑ ΕΦΑΡΜΟΓΗΣ Η οντολογία της εφαρμογής είναι μία απλή οντολογία μερικών εννοιών και φαίνεται στις παρακάτω φωτογραφίες. Εικόνα 30: Η οντολογία όπως φαίνεται στο protégé Από τις δυνατότητες της OWL μονο οι αντίθετες σχέσεις έχουν χρησιμοποιηθεί όπως φαίνεται και στην παρακάτω εικόνα. Η έννοια Type αποτελεί τη σύνδεση της οντολογίας με το θησαυρό. Όπως βλεπουμε στην εικόνα υπάρχει η ιδιότητα hastype η οποία έχει domain την έννοια ShowEntity και έτσι κληρονομείται σε όλες τις έννοιες. Εικόνα 31: Οι ιδιότητες της οντολογίας όπως φαίνεται στο protégé 86
98 7.5. ΠΑΡΟΥΣΙΑΣΗ ΤΗΣ ΔΙΑΧΕΙΡΙΣΤΙΚΗΣ ΕΦΑΡΜΟΓΗΣ 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Σε αυτήν την ενότητα θα παρουσιαστεί η εφαρμογή διαχείρισης των δεδομένων μέσα από την οποία μπορούμε να εισάγουμε νέα έργα, να εισάγουμε ελληνικά μεταδεδομένα, να εισάγουμε νέα σημεία ενδιαφέροντος όπου λαμβάνουν χώρα οι παραστάσεις, καθώς και νέα προγράμματα παραστάσεων. Επίσης, προσφέρει και οθόνες αναζήτησης, οπτικοποίησης και αντιγραφής/επανάκτησης δεδομένων ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΩΝ Η εφαρμογή, αφού φορτώσει, εμφανίζει το κύριο μενού στο οποίο παρουσιάζονται όλες οι δυνατές εντολές που μπορεί να εκτελέσει η εφαρμογή. Για να διαχειριστούμε τα έργα, κάνουμε κλικ στο μενού κινηματογράφος και στο υπομενού κάνουμε κλικ στην επιλογή Διαχείριση ταινιών. Η οθόνη που εμφανίζεται περιέχει μία λίστα με όλα τα έργα που είναι καταχωρημένα. Εικόνα 32: Αρχική οθόνη Διαχείρισης Έργων Για να κάνουμε εισαγωγή ενός νέου έργου κάνουμε κλικ στο κουμπί Εισαγωγή στο κάτω μέρος της οθόνης. Εμφανίζεται έτσι η φόρμα εισαγωγής νέου έργου. 87
99 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 33: Εισαγωγή νέου έργου Η φόρμα αυτή περιέχει τρις καρτέλες: η μία περιλαμβάνει τα βασικά στοιχεία ενός έργου, οι άλλοι περιέχει τους συντελεστές ενός έργου και η τρίτη, συνοπτικές περιγραφές του έργου. Για την εισαγωγή ενός νέου έργου, πληκτρολογούμε το τίτλο του έργου στα αγγλικά στο αντίστοιχο πεδίο και κάνουμε κλικ στο πλήκτρο Dbpedia. 88
100 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 34:Υποβολή Ερωτήματος Η εφαρμογή υποβάλλει ερώτημα σε ένα web service της dbpedia που κάνει αναζήτηση πόρων. Ως αποτέλεσμα, επιστρέφεται μία λίστα με τους πόρους που ταιριάζουν στο έργο που πληκτρολογήθηκε. 89
101 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 35:Επιλογή έργου Επιλέγουμε έπειτα από τη λίστα το πόρο που αντιστοιχεί στο έργο που επιθυμούμε να εισάγουμε. Η εφαρμογή έτσι υποβάλλει SPARQL ερώτημα στο endpoint της DBPEDIA για να ανακτήσει τα στοιχεία του έργου αυτού. Παρακάτω φαίνονται οι καρτέλες με τα δεδομένα που επιστράφηκαν. 90
102 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 36:Συμπληρωμένη φόρμα έργου Εικόνα 37:φόρμα συντελεστών 91
103 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 38:Περιλήψεις έργων Για να ολοκληρωθεί η εισαγωγή, συμπληρώνουμε τα στοιχεία που λείπουν στις τρις καρτέλες και κάνουμε κλικ στο κουμπί Αποθήκευση ΔΙΑΧΕΙΡΙΣΗ ΧΩΡΩΝ ΠΟΛΙΤΙΣΤΙΚΩΝ ΕΚΔΗΛΩΣΕΩΝ Για να εισάγουμε στο σύστημα πληροφορία για χώρους όπου υπάρχουν κινηματογράφοι ή άλλοι χώροι όπου λαμβάνουν χώρα πολιτιστικές εκδηλώσεις, κάνουμε κλικ στο μενού Τοποθεσίες. Στην οθόνη φαίνεται μία λίστα με τις τοποθεσίες που υπάρχουν αποθηκευμένες στο σύστημα καθώς κι έναν χάρτη με σημάδια στις συντεταγμένες των τοποθεσιών αυτών. 92
104 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 39: Αρχική οθόνη Διαχείρισης τοποθεσιών Για να εισάγουμε μία νέα Τοποθεσία, κάνουμε κλικ στο κουμπί Εισαγωγή. Έτσι εμφανίζεται η παρακάτω οθόνη: Εικόνα 40:Φόρμα αναζήτησης τοποθεσιών Πληκτρολογούμε την οδό στην οποία βρίσκεται ο χώρος και έπειτα πατάμε Αναζήτηση. 93
105 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 41:Αναζήτηση Τοποθεσίας Στο πίνακα αποτελεσμάτων εμφανίζονται οι πόλεις που περιέχουν την οδό καθώς και οι συντεταγμένες της. Κάνοντας κλικ στο κουμπί Επιλογή, τα δεδομένα συμπληρώνονται αυτόματα στην φόρμα στο κάτω μέρος, με μόνη εκκρεμότητα πλέον το όνομα της τοποθεσίας. Τέλος κάνουμε κλικ στο κουμπί Αποθήκευση. 94
106 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 42:Επιλογή Τοποθεσίας ΔΙΑΧΕΙΡΙΣΗ ΚΙΝΗΜΑΤΟΓΡΑΦΙΚΩΝ ΠΑΡΑΣΤΑΣΕΩΝ Για να εισάγουμε ένα νέο πρόγραμμα παραστάσεων κάνουμε κλικ στο μενού Κινηματογράφος και στο υπομενού Διαχείριση Παραστάσεων. Στην οθόνη φαίνεται μία λίστα με τις υπάρχουσες παραστάσεις. Κάνουμε κλικ στο κουμπί Εισαγωγή. Στην οθόνη που εμφανίζεται έπειτα, ορίζουμε το διάστημα της περιόδου για το οποίο θα ισχύει το πρόγραμμα που θα εισάγουμε. Έπειτα, προσθέτουμε τις ώρες του προγράμματος. Στο τέλος κάνουμε κλικ στο κουμπί Αποθήκευση ΑΝΑΖΗΤΗΣΗ ΚΑΙ ΟΠΤΙΚΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ Η εφαρμογή υποστηρίζει πολύπλευρη αναζήτηση (multifaceted search) καθώς και γραφική αναπαράσταση των RDF περιγραφών των πόρων. Η πολύπλευρη αναζήτηση δίνει τη δυνατότητα παρουσίασης των αποτελεσμάτων ανά έννοια. Η δε γραφική αναπαράσταση αποτελεί πιστή αναπαράσταση του μοντέλου του γράφου που ακολουθεί το RDF Μοντέλο δεδομένων. 95
107 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 43:Πολύπλευρη αναζήτηση και οπτικοποίηση αποτελεσμάτων 7.6. ΤΟ ΣΥΣΤΗΜΑ ΣΤΟΝ ΙΣΤΟ ΔΕΔΟΜΕΝΩΝ Στο παρακάτω διάγραμμα φαίνεται πως συνδέεται με άλλες πηγές στο Linked Data. Εικόνα 44: H εφαρμογή στα Διασυνδεδεμένα Δεδομένα 96
108 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study DBPEDIA Η Dbpedia είναι μία προσπάθεια από μία ανοικτή κοινότητα χρηστών για την εξαγωγή δομημένης πληροφορίας από την εγκυκλοπαίδεια Wikipedia και να κάνει την πληροφορία αυτή διαθέσιμη στο διαδίκτυο. Επιτρέπει στους χρήστες την υποβολή εκλεπτυσμένων ερωτημάτων στην Wikipedia, καθώς και το συνδυασμό άλλων πηγών δεδομένων από το διαδίκτυο με τα δεδομένα της Wikipedia. Η Dbpedia σαν βάση γνώσης έχει τα εξής ελκυστικά χαρακτηριστικά: 1. Καλύπτει πολλαπλά πεδία του επιστητού 2. Περιγράφει πάνω από 2.6 εκατομμύρια αντικείμενα, περιλαμβανομένων προσώπων, τοποθεσιών, μουσικών άλμπουμ, βιντεοταινιών και εταιρειών. 3. Παρέχει τίτλους και σύντομες περιλήψεις σε 30 γλώσσες. 4. Βασίζεται σε ένα έργο με μία από τις μεγαλύτερες κοινότητες στο διαδίκτυο και με αναγνωρισμένη αξία. Η Dbpedia συνδέεται με διάφορες άλλες πηγές δεδομένων. Στο παρακάτω διάγραμμα φαίνονται μερικές από αυτές. Εικόνα 45: Η DBPedia στο δίκτυο Διασυνδεδεμένων Δεδομένων Η αρχιτεκτονική φαίνεται παρακάτω 97
109 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 46: Αρχιτεκτονική της Dbpedia FREEBASE Η Freebase είναι μία πρακτική, κλιμακωτή βάση δεδομένων με σκοπό τη δόμηση γενικής ανθρώπινης γνώσης. Η έμπνευσή της προέρχεται από ευρέως διαδεδομένες κοινότητες όπως τη Wikipedia και το Σημασιολογικό Ιστό. Τα δεδομένα στη Freebase δημιουργούνται, δομούνται και συντηρούνται συνεργατικά. Τη στιγμή αυτή περιέχει παραπάνω από 125 εκατομμύρια εγγραφές, περισσότερους από 4000 τύπους και περισσότερες από 7000 ιδιότητες. Η δημόσια πρόσβαση για ανάγνωση και εγγραφή στη Freebase γίνεται μέσω ενός API επερώτησης γράφων βασισμένο στο HTTP πρωτόκολλο που χρησιμοποιηεί την Metaweb Query Language (MQL) ως γλώσσα επερώτησης και χειρισμού δεδομένων. Η MQL παρέχει ένα εύχρηστο αντικειμενοστρεφές περιβάλλον για τα δεδομένα στη Freebase και είναι σχεδιασμένο για να υποστηρίξει συνεργατικές και διαδικτυακές εφαρμογές προσανατολισμένες στα δεδομένα. Οι παραδοσιακές βάσεις δεδομένων ελέγχονται κεντρικά, με σχήματα που μπορεί να δημιουργήσει και να συντηρήσει μόνο ένα σύνολο εμπιστευόμενων διαχειριστών. Η υποστήριξη δομικής ποικιλίας είναι συχνά δύσκολη σε τέτοιες αρχιτεκτονικές. Από την άλλη πλευρά, τα δημοφιλή wikis όπως η Wikipedia, είναι ημιδομημένα αποθετήρια εγγράφων μεγάλης σημασιολογικής ετερογένειας και με λίγα εργαλεία παροχής δυνατοτήτων για δομημένα ερωτήματα. Η Freebase προσπαθεί να συγχωνεύσει την κλιμακωσιμότητα των δομημένων βάσεων δεδομένων με την ποικιλία των 98
110 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study συνεργατικών wikis σε μία πρακτική, κλιμακωτή βάση δομημένες γενικής ανθρώπινης γνώσης. Η σχεδίαση δίνει έμφαση στην πρακτικότητα και σημαντική προσπάθεια έχει συντελεστεί για να γίνει η Freebase άμεσα χρήσιμη. Τα κύρια συστατικά μέρη της Freebase είναι τα εξής: Ένα κλιμακώσιμο αποθετήριο πλειάδων το οποίο έχει υποστήριξη για ακύρωση αλλαγών (undo) μέσα από ένα ενσωματωμένο σύστημα εκδόσεων. Αυτό το χαρακτηριστικό δίνει τη δυνατότητα για ευρεία δημιουργία και συντήρηση συνεργατικών δεδομένων Ένα API βασισμένο σε HTTP πρωτόκολλο και τη μορφοποίηση JSON με το οποίο μπορούν να συνταχθούν ερωτήματα ανάγνωσης και εγγραφής χρησιμοποιώντας τηνς γλώσσα Metaweb Query Language. Η ΜQL είναι μία εύχρηστη, αντικειμενοστρεφής γλώσσα επερωτήσεων με μία δενδρική μορφή των αποτελεσμάτων. Ένα ελαφρύ, συνεργατικό σύστημα τύπων. Είναι περισσότερο μία γενική συλλογή δομικών μηχανισμών και συμβάσεων παρά από ένα σύνολο οντολογιών και αναπαραστάσεων. Υπάρχει η δυνατότητα ύπαρξης συγκρουόμενων τύπων και ιδιοτήτων για να αντανακλώνται οι διάφορες απόψεις και συλλήψεις των χρηστών. Ένα τεράστιο σύνολο δεδομένο. Περιλαμβάνει πρόσωπα, πολυμέσα, τοποθεσίες και πολλά ακόμα. Τα δεδομένα παρέχονται μέσα από μία άδεια Creative Commons για σχεδον κάθε χρήση. Φιλοσοφία πλήρης κανονικοποίησης: κάθε οντότητα, θέμα ή έννοια στη Freebase έχει το δικό του μοναδικό GUID. 99
111 7. Διασυνδεδεμένα Δεδομένα. Ανάπτυξη Case Study Εικόνα 47: FreeBase FOAF Το FOAF (Friend Of a Friend) project είναι μία προσπάθεια για τον ορισμό ενός RDF λεξιλογίου για την περιγραφή των μεταδεδομένων σχετικά με πρόσωπα, τα ενδιαφέροντά τους, τις σχέσεις και τις δραστηριότητές τους. Ξεκίνησε από τους Dan Brickley και Libby Mille και συνέχισε σαν μία ανοιχτή κοινοτική πρωτοβουλία που οδεύει προς το Σημασιολογικό Ιστό. Το FOAF δίνει τη δυνατότητα για τη δημιουργία του αντίστοιχου της προσωπικής ιστοσελίδας στον κόσμο του Σημασιολογικού Ιστού. Και όπως ακριβώς τα HTML έγγραφα μπορούν να διασυνδεθούν μεταξύ τους, το ίδιο γίνεται και με τα FOAF έγγραφα. <rdf:rdf xmlns:rdf=" rdf syntax ns#" xmlns:foaf=" <foaf:person> <foaf:name>peter Parker</foaf:name> <foaf:mbox rdf:resource="mailto:peter.parker@dailybugle.com"/> </foaf:person> 100
Σχεδίαση Εφαρμογών και Υπηρεσιών Διαδικτύου 10η Διάλεξη: Web Services
Σχεδίαση Εφαρμογών και Υπηρεσιών Διαδικτύου 10η Διάλεξη: Web Services Δρ. Απόστολος Γκάμας Λέκτορας (407/80) gkamas@uop.gr Σχεδίαση Εφαρμογών και Υπηρεσιών Διαδικτύου Διαφάνεια 1 Ορισμός των Web Services
Προγραμματισμός και Συστήματα στον Παγκόσμιο Ιστό Ενότητα 9: Web Services. Καθ. Ιωάννης Γαροφαλάκης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής
Προγραμματισμός και Συστήματα στον Παγκόσμιο Ιστό Ενότητα 9: Web Services Καθ. Ιωάννης Γαροφαλάκης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Σκοπός της παρούσας ενότητας είναι να εξοικειωθούν
Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου
Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό
Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) (alexv@aegean.gr) Υποψήφιος ιδάκτορας Τµήµα Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων.
ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13. Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15
ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος... 13 Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15 1.1 Εισαγωγή... 16 1.2 Διαδίκτυο και Παγκόσμιος Ιστός Ιστορική αναδρομή... 17 1.3 Αρχές πληροφοριακών συστημάτων
Διαχείριση Πολιτισμικών Δεδομένων
Διαχείριση Πολιτισμικών Δεδομένων Μάθημα 9 Μεταδεδομένα Τζανέτος Πομόνης ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι τα Μεταδεδομένα; Ο όρος
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ XML (extended Markup Language) Ι. Χατζηλυγερούδης ΕΙΣΑΓΩΓΗ SGML (Standard Generalized Markup Language) Διεθνές πρότυπο ορισμού μεθόδων αναπαράστασης πληροφοριών
Μεταπτυχιακή Διατριβή
Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Υπηρεσία Αυτόματης Ανάκτησης Συνδεδεμένης Δομής Θεματικών Επικεφαλίδων μέσω
Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Οδηγός Εργαστηρίου:
ΟΝΤΟΛΟΓΙΕΣ, ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΔΙΑΚΥΒΕΡΝΗΣΗΣ
ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΟΝΤΟΛΟΓΙΕΣ, ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΔΙΑΚΥΒΕΡΝΗΣΗΣ ΣΩΤΗΡΙΟΣ ΓΟΥΔΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ Κ.ΤΑΡΑΜΠΑΝΗΣ ΕΞΕΤΑΣΤΗΣ
Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο
Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο 1 Γλώσσες Σήµανσης Γλώσσες σήµανσης: Αρχικά για τον καθορισµό εµφάνισης σελίδων, γραµµατοσειρών. Στη συνέχεια επεκτάθηκαν
Υπηρεσίες Ιστού (Web Services) Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών
Υπηρεσίες Ιστού (Web Services) Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Περιεχόμενα Εισαγωγή στις Υπηρεσίες Ιστού Ορισμοί Παραδείγματα Σύγκριση με άλλες τεχνολογίες Πρωτόκολλα Υπηρεσιών Ιστού SOAP
Εργαστήριο Σημασιολογικού Ιστού
Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 10-2-2017 Η αρχή: Το όραμα του Σημασιολογικού Ιστού Tim Berners-Lee, James Hendler and Ora Lassila, The Semantic
Περιεχόμενα. Πρόλογος... xiii
Περιεχόμενα Πρόλογος... xiii Κεφάλαιο 1 ο Εισαγωγή στις τεχνολογίες Διαδικτύου... 1 1.1 Σύντομη ιστορία του Διαδικτύου... 3 1.2 Σύνδεση στο Διαδίκτυο μέσω Παρόχου (ISP)... 6 1.3 Μοντέλα Επικοινωνίας...
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Διαδίκτυο και Επίπεδα ετερογένειας δεδομένων
Εργαστήριο Σημασιολογικού Ιστού
Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 5-2-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Σημασιολογική Συσταδοποίηση Αντικειμένων Με Χρήση Οντολογικών Περιγραφών.
Linked Data for the Masses: Η προσέγγιση και το λογισμικό
Linked Data for the Masses: Η προσέγγιση και το λογισμικό Γιώργος Αναδιώτης, Πάνος Ανδριόπουλος, Πάνος Αλεξόπουλος, ημήτρης Βεκρής, Αριστοτέλης Ζωσάκης IMC Technologies S.A. 15/05/2010 Linked Data for
Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία
Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Σοφία Ζαπουνίδου, Αρχειονόμος Βιβλιοθηκονόμος, Πανεπιστήμιο Θεσσαλίας Κεντρική
Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο
Βάσεις Δεδομένων ΙΙ Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Πολλές εφαρμογές διαδικτύου υποστηρίζουν web διεπαφές
1 Συστήματα Αυτοματισμού Βιβλιοθηκών
1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία
Μεταδεδομένα στο Ψηφιακό περιβάλλον
Μεταδεδομένα στο Ψηφιακό περιβάλλον Μονάδα Αριστείας Ανοικτού Λογισμικού - Χαροκόπειο Πανεπιστήμιο Ψηφιακό Τεκμήριο Οτιδήποτε υπάρχει σε ηλεκτρονική μορφή και μπορεί να προσπελαστεί μέσω υπολογιστή Μεταδεδομένα
Κατανεμημένα Συστήματα με Java. Ενότητα # 18: Υπηρεσίες Ιστού Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής
Κατανεμημένα Συστήματα με Java Ενότητα # 18: Υπηρεσίες Ιστού Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ (III) ΙΖΑΜΠΩ ΚΑΡΑΛΗ ΑΘΗΝΑ 2008 Σύγχρονεςανάγκες για αναπαράσταση γνώσης
ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:
ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής
Τεχνολογίες Ανάλυσης περιεχοµένου και Europeana
Αρχεία: Και µετά την ψηφιοποίηση, τι; Τεχνολογίες Ανάλυσης περιεχοµένου και Europeana ΣΤΕΦΑΝΟΣ ΚΟΛΛΙΑΣ Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ 30 Σεπτεµβρίου 2010 Περιεχόµενα
Προγραμματισμός ΙI (Θ)
Τεχνολογικό Εκπαιδευτικό Ίδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Προγραμματισμός ΙI (Θ) Δρ. Δημήτρης Βαρσάμης Επίκουρος Καθηγητής Μάρτιος 2017 Δρ. Δημήτρης Βαρσάμης Μάρτιος 2017
Τεχνικές Προδιαγραφές ιαλειτουργικότητας
ΤΕΧΝΙΚΕΣ ΠΡΟ ΙΑΓΡΑΦΕΣ ΕΙΓΜΑ ΠΑΡΑΡΤΗΜΑΤΟΣ ΙΑΓΩΝΙΣΜΟΥ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ 2000-2006 ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «Κοινωνία της Πληροφορίας» http://www.infosociety.gr Μάιος 2003 Τεχνικές Προδιαγραφές ιαλειτουργικότητας
Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας
Μεταδεδομένα για Ψηφιακές Βιβλιοθήκες Γ. Δ. Μπώκος Μεταδεδομένα: Ο όρος Μεταδεδομένα: «Δεδομένα σχετικά με Δεδομένα» Αναλυτικότερα: «Το σύνολο όσων θα μπορούσε να πει κανείς για ένα πληροφοριακό αντικείμενο
Εισαγωγή(στη(γλώσσα(XML(
Εισαγωγή(στη(γλώσσα(XML( Μανόλης(Γεργατσούλης(( Χρήστος(Παπαθεοδώρου( Ομάδα(Βάσεων(Δεδομένων(και(Πληροφοριακών( Συστημάτων,(Τμήμα(Αρχειονομίας( (Βιβλιοθηκονομίας(( Ιόνιο(Πανεπιστήμιο( HTML(! Απλή(γλώσσα&σημειοθέτησης((markup&language)(!
Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων
Έργο: Τίτλος Υποέργου: «ΘΑΛΗΣ: Ενίσχυση της Διεπιστημονικής ή και Διιδρυματικής έρευνας και καινοτομίας με δυνατότητα προσέλκυσης ερευνητών υψηλού επιπέδου από το εξωτερικό μέσω της διενέργειας βασικής
ΚΕΦΑΛΑΙΟ 17: Web Services Εισαγωγή
ΚΕΦΑΛΑΙΟ 17: Web Services 17.1. Εισαγωγή Με τον όρο WebService αναφερόμαστε σε ένα σύστημα λογισμικού το οποίο σχεδιάστηκε με τρόπο τέτοιο ώστε να υποστηρίζει την ανεμπόδιστη συνεργασία δύο μηχανών μέσω
ΝΤUA. Τεχνολογία Πολυμέσων
ΝΤUA Τεχνολογία Πολυμέσων 5. Διάλεξη 5: XML XML Μεταγλώσσα για την κωδικοποίηση δεδομένων Πρόβλημα που επιζητά λύσεις: Kοινή γλώσσα επικοινωνίας των εφαρμογών Σημαίνει extensible Markup Language Σχεδιάστηκε
Ασφάλεια σε χώρους αναψυχής: Ένα σύστημα από έξυπνα αντικείμενα
Σχολή Επικοινωνίας και Μέσων Ενημέρωσης Πτυχιακή εργασία Ασφάλεια σε χώρους αναψυχής: Ένα σύστημα από έξυπνα αντικείμενα Εύρος Χριστοδούλου Λεμεσός, Μάιος 2018 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΚΟΙΝΩΝΙΑΣ
Υπηρεσίες Ιστού (Web Services) ΜΙΧΑΛΗΣ ΜΑΛΙΑΠΠΗΣ
Υπηρεσίες Ιστού (Web Services) ΜΙΧΑΛΗΣ ΜΑΛΙΑΠΠΗΣ Μάθημα Πρώτο Εισαγωγή στις Υπηρεσίες Ιστού (Web Services) Μοντέλα WS JSON Χρήση (consume) WS μέσω python Πρόσβαση σε WS και άντληση δεδομένων Παραδείγματα
Προγραμματισμός και Συστήματα στον Παγκόσμιο Ιστό Ενότητα 5: XML. Καθ. Ιωάννης Γαροφαλάκης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής
Προγραμματισμός και Συστήματα στον Παγκόσμιο Ιστό Ενότητα 5: XML Καθ. Ιωάννης Γαροφαλάκης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Σκοπός της παρούσας ενότητας είναι να εξοικειωθούν
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ XML-Schema Ι. Χατζηλυγερούδης ΕΙΣΑΓΩΓΗ XML Schema vs DTD Πλουσιότερη γλώσσα: περισσότερες δυνατότητες αναπαράστασης δομήςπεριεχομένου εγγράφων Σύνταξη βασισμένη
Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων
Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων Ο ΡΟΛΟΣ ΤΩΝ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΤΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Δρ. Χαράλαμπος Μπράτσας - OKGR CEO, Σωτήριος Καραμπατάκης - OKGR Open G.L.A.M.
ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας
ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας
Εργαστήριο Σημασιολογικού Ιστού
Εργαστήριο Σημασιολογικού Ιστού Ενότητα 8: Εισαγωγή στη SPARQL Βασική Χρήση Μ.Στεφανιδάκης 3-5-2015. Η γλώσσα ερωτημάτων SPARQL Ερωτήσεις (και ενημερώσεις) σε σετ δεδομένων RDF Και σε δεδομένα άλλης μορφής
Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α
Πολιτισμική Τεχνολογία Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α Δυνατότητες: Σύλληψη, συντήρηση, ανάδειξη Χρήση : Ψηφιακών βίντεο, ήχων, εικόνων, γραφικών παραστάσεων Οι συλλογές καθίστανται διαθέσιμες
της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004
example Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 Πρότυπα και XML Πρότυπα ενιαίο
Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Αιγαίου.
Από τον Παγκόσµιο Ιστό στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Υποψήφιος ιδάκτορας, Τµήµατος Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων. Παν/µίου Αιγαίου. Συνεργαζόµενος
Τίτλος Πακέτου Certified Computer Expert-ACTA
Κωδικός Πακέτου ACTA - CCE - 002 Τίτλος Πακέτου Certified Computer Expert-ACTA Εκπαιδευτικές Ενότητες Επεξεργασία Κειμένου - Word Δημιουργία Εγγράφου Προχωρημένες τεχνικές επεξεργασίας κειμένου & αρχείων
Σχεδιασµός Ανάπτυξη Οντολογίας
Σχεδιασµός Ανάπτυξη Οντολογίας ΈλεναΜάντζαρη, Γλωσσολόγος, Ms.C. ΙΑΤΡΟΛΕΞΗ: Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Τι είναι η οντολογία; Μιαοντολογίαείναιέναλεξικόόρωνπου διατυπώνονται
Τεχνολογίες RDF για τον Ιστό Δεδοµένων
1 Τεχνολογίες RDF για τον Ιστό Δεδοµένων The Semantic Web is Dead? Hardly! The reports of my death are greatly exaggerated. Mark Twain Διαχείριση δεδοµένων στον Ιστό 2 Έστω ένας φανταστικός ιστός! html
ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών
ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών World Wide Web (WWW) Θέματα Επεξεργασία δεδομένων στο Web Δημιουργία απλών σελίδων HTML Περιγραφή κάποιων XHTML στοιχείων (tags) Εξέλιξης του WWW Το WWW
Ανάπτυξη Γραφικού Περιβάλλοντος Σύνθεσης Υπηρεσιών Ιστού
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανάπτυξη Γραφικού Περιβάλλοντος Σύνθεσης Υπηρεσιών Ιστού ιπλωµατική Εργασία της Σταµάτη-Κοροµηνά Βερονίκης (ΑΕΜ: 1144)
ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ
ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ ΥΠΟΥΡΓΕΙΟΥ ΟΙΚΟΝΟΜΙΚΩΝ ΤΗΣ ΚΥΠΡΙΑΚΗΣ ΔΗΜΟΚΡΑΤΙΑΣ Οδηγίες
Αξιολόγηση Υπηρεσιών ιαδικτύου µέσω Περιπτώσεων Μελέτης
Αξιολόγηση Υπηρεσιών ιαδικτύου µέσω Περιπτώσεων Μελέτης Κωστής Αϊβαλής Μηχανικός Πληροφορικής TU-Berlin 2/5/2008 ΕΑΠ-ΓΤΠ61-Κωστής Αϊβαλής 1 Εισαγωγή Η ταχύτητα επεξεργασίας των εφαρµογών διαδικτυακών υπηρεσιών
«Υποστήριξη της Ψηφιοποίησης και Τεκµηρίωσης του Αρχείου του Κέντρου Λαογραφίας» Γιώργος Κουταλιέρης, Τεχνικός ιευθυντής, SYSTEMA TECHNOLOGIES Α.Ε. gkout@systema.gr Σύνοψη Αντικείµενο Υλοποίησης Πλαίσιο
Λογισμικό Open Source στις Υπηρεσίες των Βιβλιοθηκών του Πανεπιστημίου Αθηνών
Λογισμικό Open Source στις Υπηρεσίες των Βιβλιοθηκών του Πανεπιστημίου Αθηνών Υπολογιστικό Κέντρο Βιβλιοθηκών ΕΚΠΑ http://www.lib.uoa.gr Εισαγωγή Και στις ΒΥΠ του ΕΚΠΑ, οι ανάγκες για υλοποίηση υπηρεσιών
Unified search of digital cultural content: Searching culture
Εθνικό Κέντρο Τεκµηρίωσης Unified search of digital cultural content: Searching culture Ioanna- Ourania Stathopoulou, Ph.D. Senior So;ware Engineer EKT iostath@ekt.gr Haris Georgiadis, Ph.D. Senior So;ware
Σχεδιασμός του Ολοκληρωμένου Συστήματος Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών
Σχεδιασμός του Ολοκληρωμένου Συστήματος Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών Κώστας Βίγλας, Ειρήνη Λουρδή, Μάρα Νικολαΐδη, Γιώργος Πυρουνάκης, Κώστας Σαΐδης Περιεχόμενα Πώς οδηγούμαστε στο σχεδιασμό
Μάθηµα 6. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας
Μάθηµα 6 122 Μεταδεδοµένα: : Η τυπολογία των σχηµάτων 123 Dublin Core: Τα στοιχεία δεδοµένων (1) Θέµα (Subject) Περιγραφή (Description) ηµιουργός (Creator( Creator) Τίτλος (Title) Εκδότης (Publisher( Publisher)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ Αξιοποίηση Τεχνολογιών Ανοικτού Κώδικα για την ανάπτυξη εφαρμογών Σημασιολογικού Ιστού ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
Η Τεχνολογική Διαλειτουργική Πλατφόρµα του έργου ATHENA
Η Τεχνολογική Διαλειτουργική Πλατφόρµα του έργου ATHENA Εθνικό Μετσόβιο Πολυτεχνείο, Εργαστήριο Συστηµάτων Εικόνας, Βίντεο και Πολυµέσων Βασίλης Τζουβάρας, Νάσος Δροσόπουλος, Arne Stabenau, Κώστας Παρδάλης,
3. Επερώτηση XML Εγγράφων: Η Γλώσσα XPath
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 3. Επερώτηση XML Εγγράφων: Η Γλώσσα XPath ιαχείριση εδομένων στον Παγκόσμιο Ιστό Χρήστος ουλκερίδης Τμήμα
ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων Δημητριάδης Σάββας Πληροφορικός, MSc. Συνεργάτης Έργου Το Ιδρυματικό
SGML (Standard Generalized Markup Language) HTML (HyperText Markup Language) XML (extensible Markup Language)
SGML (Standard Generalized Markup Language) Γλώσσα για την περιγραφή της δομης και του περιεχομένου ηλεκτρονικών κειμένων Πλήρης Σύνθετη Δύσκολη στην εκμάθηση και την χρήση HTML (HyperText Markup Language)
Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού.
Τζίτζικας Αγαπητός Τζίτζικας Αγαπητός Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Δυστυχώς, αυτές οι μηχανές αναζήτησης
Ο ΗΓΟΣ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΚΜΗΡΙΩΣΗΣ ΚΑΙ ΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ
Ο ΗΓΟΣ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΚΜΗΡΙΩΣΗΣ ΚΑΙ ΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ Κέντρο Πολιτισµικής Πληροφορικής Ινστιτούτο Πληροφορικής ΙΤΕ Επιµέλεια: Πάνος Κωνσταντόπουλος Χρυσούλα Μπεκιάρη Μάρτιν Ντέρ Επιχειρησιακό Πρόγραµµα
Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ
Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» 2000-2006 ΑΞΟΝΑΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ: 1 - ΠΑΙ ΕΙΑ ΚΑΙ ΠΟΛΙΤΙΣΜΟΣ ΜΕΤΡΟ: 1.3 ΤΕΚΜΗΡΙΩΣΗ, ΑΞΙΟΠΟΙΗΣΗ ΚΑΙ ΑΝΑ ΕΙΞΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ XML-XPath Ι. Χατζηλυγερούδης Ερωτήματα σε έγγραφα XML Αντίστοιχα των ερωτημάτων (queries) σε βάσεις δεδομένων Γλώσσες ερωτημάτων (αντίστοιχες της SQL) XQL (XML Query
Σύνθεση διαδικτυακών υπηρεσιών με χρήση τεχνικών σχεδιασμού ενεργειών
Σύνθεση διαδικτυακών υπηρεσιών με χρήση τεχνικών σχεδιασμού ενεργειών Ουρανία Χατζή raniah@hua.gr Χαροκόπειο Πανεπιστήμιο 29 Νοεμβρίου 2007 Outline Web Service Overview Standards & Model Syntactic vs Semantic
«Σημασιολογική Αναζήτηση Υπηρεσιών Ιστού βάση των δυνατοτήτων τους» Semantic Matching of Web Services Capabilities
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΠΟΛΙΤΙΚΩΝ ΣΠΟΥΔΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «Σημασιολογική Αναζήτηση Υπηρεσιών Ιστού βάση των δυνατοτήτων τους»
ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:
ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο
ΚΕΡΑΜΟΠΟΥΛΟΣ ΕΥΚΛΕΙΔΗΣ
ΚΕΡΑΜΟΠΟΥΛΟΣ ΕΥΚΛΕΙΔΗΣ Στις παραδοσιακές βάσεις δεδομένων, η πληροφορία είναι αυστηρά δομημένη και υπακούει σε ένα σταθερό σχήμα που έχει οριστεί εκ των προτέρων. Τα δεδομένα του Ιστού μπορεί να μην έχουν
Σχεδίαση και Ανάπτυξη Ιστότοπων
Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου
Σημασιολογικός Ιστός (Semantic Web) - XML
Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Σημασιολογικός Ιστός (Semantic Web) - XML 4/10/2016 Δρ. Ανδριάνα Πρέντζα Αναπληρώτρια Καθηγήτρια aprentza@unipi.gr Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων
Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους
Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Επιμέλεια: Καρανικολάου Θεοδώρα Επιβλέπων καθηγητής: Δενδρινός Μάρκος Αθήνα, 2017 Σκοπός Στόχος της πτυχιακής
Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση
Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση Νίκος Λούτας (nlout@uom.gr) http://nikosloutas.com Υποψήφιος Διδάκτορας, Εργαστήριο Πληροφοριακών Συστημάτων,
Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014
Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Ανοικτά και Συνδεδεμένα Δεδομένα Ανοικτά Δεδομένα Πληροφορίες, δημόσιες ή άλλες, στις
Μοντέλο. για ημι-δομημένα μημ δεδομένα. Ημι-δομημένα δεδομένα XML DTD XML Schema
Μοντέλο για ημι-δομημένα μημ δεδομένα Ημι-δομημένα δεδομένα XML DTD XML Schema Εισαγωγικά 3 βασικές κατηγορίες δεδομένων: Δομημένα (structured): τα δεδομένα σε ΒΔ, όπου η αναπαράσταση γίνεται σύμφωνα με
Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες.
Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες. Για να επιτευχθεί αυτό όλοι οι υπολογιστές και τα επιμέρους
Ιστορικοί χάρτες στον Παγκόσμιο Ιστό
Χαρτογραφική Επιστημονική Εταιρεία Ελλάδας Χαρτογραφία στο Διαδίκτυο. Σύγχρονες Τάσεις και Προοπτικές 13 ο Εθνικό Συνέδριο Χαρτογραφίας Πάτρα, 22-24 Οκτωβρίου 2014 1 Ελένη Γκαδόλου, 2 Εμμανουήλ Στεφανάκης
networks across Europe EUROPEANA»
ΗΜΕΡΙΔΑ ΥΠ.ΠΟ ΠΟ Ε.Μ.Π «ΑΤΗΕΝΑ : Access to cultural heritage networks across Europe EUROPEANA» ΣΤΕΦΑΝΟΣ ΚΟΛΛΙΑΣ Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ 9 Απριλίου 2009
ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου
GREEKLISH: ΜΙΑ ΝΕΑ ΔΙΑΛΕΚΤΟΣ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ; Α.Καράκος, Λ.Κωτούλας ΠΕΡΙΛΗΨΗ Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου {INTERNEη από την μια άκρη του κόσμου
Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο
Εθνικό Κέντρο Τεκμηρίωσης Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο Χάρη Γεωργιάδης, Ph.D. Senior Software Engineer EKT hgeorgiadis@ekt.gr Πιστοποίηση, διασφάλιση & ευρεία διάθεση έγκριτου ελληνικού
5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery ιαχείριση εδομένων στον Παγκόσμιο Ιστό Χρήστος ουλκερίδης
Πίνακας Εικόνων. 22/04/2014 Έκδοση 3.0.1
Προδιαγραφές για Προγραμματιστές Διαδικτυακής Υπηρεσίας «Βασικά στοιχεία μητρώου για νομικά πρόσωπα, νομικές οντότητες, και φυσικά πρόσωπα με εισόδημα από επιχειρηματική δραστηριότητα». Πίνακας Περιεχομένων
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Σαράντος Καπιδάκης 0_CONT_Ω.indd iii τίτλος: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ συγγραφέας: Καπιδάκης Σαράντος 2014 Εκδόσεις Δίσιγμα Για την ελληνική γλώσσα σε όλον τον
Σημασιολογικός Ιστός (Semantic Web) - XML
Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Σημασιολογικός Ιστός (Semantic Web) - XML 22/11/2016 Δρ. Ανδριάνα Πρέντζα Αναπληρώτρια Καθηγήτρια aprentza@unipi.gr Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων
Διαμοιρασμός δεδομένων & γλωσσικών πόρων: τεχνικά ζητήματα. Πένυ Λαμπροπούλου ΙΕΛ/ΕΚ "ΑΘΗΝΑ"
Διαμοιρασμός δεδομένων & γλωσσικών πόρων: τεχνικά ζητήματα Πένυ Λαμπροπούλου ΙΕΛ/ΕΚ "ΑΘΗΝΑ" Επισκόπηση Γνωρίζετε ήδη Τι είδους δεδομένα χρειάζονται από προηγούμενη συνεδρία Μοντέλο που βασίζεται στα Δεδομένα
"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης
"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Προκήρυξη Υποτροφιών To Ινστιτούτο Πληροφοριακών Συστημάτων
ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) ADVANCED σχεδιασμός ιστοσελίδας ΕΚΔΟΣΗ 1.0. Σόλωνος 108,Τηλ Φαξ
ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) ADVANCED σχεδιασμός ιστοσελίδας ΕΚΔΟΣΗ 1.0 ΤΙ ΕΙΝΑΙ ΤΟ ADVANCED Οι Advanced θεματικές ενότητες είναι είναι κατάλληλες για άτομα που επιθυμούν να συνεχίσουν σπουδές στο χώρο της
ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams
ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς
<address>αδριανείου 2, Νέο Ψυχικό, 11525, Αθήνα</adderss> <address>
ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟ ΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ ΥΠΟΥΡΓΕΙΟΥ ΟΙΚΟΝΟΜΙΚΩΝ ΤΗΣ ΚΥΠΡΙΑΚΗΣ ΗΜΟΚΡΑΤΙΑΣ Οδηγίες
Κεφάλαιο 29. Τεχνητή Νοημοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου
Κεφάλαιο 29 Σημασιολογικό Διαδίκτυο "The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."
...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)
Κατηγορία Καλύτερης Εφαρµογής 4-delta: ηµιουργία & ιαχείριση ιαδικασιών Αξιολόγησης στο ηµόσιο τοµέα Χονδρογιάννης Θεόδωρος Εθνικό Καποδιστριακό Πανεπιστήµιο Αθηνών Αλεξόπουλος Χαράλαµπος Πανεπιστήµιο
Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML
Θέματα Βάσεις ιαδικτύου Ο αλγόριθμος HITS Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Τι είναι η XML XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης)
ΝΤUA. Τεχνολογία Πολυμέσων
ΝΤUA Τεχνολογία Πολυμέσων Contents 2. Lesson 5: XML Τα αρχικά XML Extensible Markup Language Μεταγλώσσα προγραμματισμού για την κωδικοποίηση δεδομένων Έστω ότι θέλουμε να παρουσιάσουμε ένα κείμενο, μια
ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ
ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Χειμερινό Εξάμηνο 2013 - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ Δρ. Βαγγελιώ Καβακλή ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ, ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 Αρχιτεκτονική
Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Οδηγός Εργαστηρίου ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Οδηγός Εργαστηρίου:
Εργαλεία Ανάπτυξης Εφαρμογών Internet I
Εργαλεία Ανάπτυξης Εφαρμογών Internet I 1: Εισαγωγή στον Παγκόσμιο Ιστό Σταύρος Καμμάς Δομή μαθήματος 1. Εισαγωγή στον Παγκόσμιο Ιστό (www, υπερκείμενο, υπερσύνδεσμοι, υπερμέσα, πολυμέσα, πλοηγοί, παραδείγματα)
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. WSDLBook:
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ WSDLBook: Web 2.0 εφαρμογή για WSDL Περιγραφές Υπηρεσιών Ιστού (Web Services) Διπλωματική Εργασία του Γεωργακάκη Νικολάου
Τι είναι ένα δίκτυο υπολογιστών; Αρχιτεκτονική επιπέδων πρωτοκόλλων. Δικτυακά πρωτόκολλα
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2014-15 Δίκτυα υπολογιστών (και το Διαδίκτυο) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι ένα δίκτυο υπολογιστών;
Web and HTTP. Βασικά Συστατικά: Web Server Web Browser HTTP Protocol
HTTP Protocol Web and HTTP Βασικά Συστατικά: Web Server Web Browser HTTP Protocol Web Servers (1/2) Ένα πρόγραμμα (λογισμικό) που έχει εγκατασταθεί σε ένα υπολογιστικό σύστημα (έναν ή περισσότερους υπολογιστές)
Γιώργος Χρ. Μακρής. Σύγχρονες Γλώσσες Σήμανσης του Διαδικτύου. Αναπαράσταση Μαθηματικών κειμένων στο διαδίκτυο. Η Γλώσσα MathML
Σύγχρονες Γλώσσες Σήμανσης του Διαδικτύου. Αναπαράσταση Μαθηματικών κειμένων στο διαδίκτυο. Η Γλώσσα MathML Γιώργος Χρ. Μακρής Θεσσαλονίκη, Μάρτιος 2012 Αναπαράσταση Μαθηματικών Κειμένων στο διαδίκτυο
Πλοήγηση και Αναζήτηση
Πλοήγηση και Αναζήτηση Περιήγηση Το Eprints παρέχει πολλούς διαφορετικούς τρόπους να επιμεριστεί το καταθετήριο σε διαφορετικές συλλογές και να προσεγγίζεται το περιεχόμενό του από διαφορετικές οπτικές