ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ"

Transcript

1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ «ΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ» ΠΑΝΑΓΙΩΤΗΣ ΒΑΓΓΕΛΑΤΟΣ Μ ΑΘΗΝΑ, ΔΕΚΕΜΒΡΙΟΣ 2012

2

3 ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ «ΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ» ΠΑΝΑΓΙΩΤΗΣ ΒΑΓΓΕΛΑΤΟΣ Μ Επιβλέπων Καθηγητής: ΠΑΝΟΣ ΚΩΝΣΤΑΝΤΟΠΟΥΛΟΣ Εξωτερικός Κριτής: ΧΡΗΣΤΟΣ ΠΑΠΑΘΕΟΔΩΡΟΥ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΘΗΝΑ, ΔΕΚΕΜΒΡΙΟΣ 2012

4 ΕΥΧΑΡΙΣΤΙΕΣ Με αυτήν την εργασία τελειώνω αυτό το μεταπτυχιακό πρόγραμμα στη διάρκεια του οποίου κάποιοι άνθρωποι βρέθηκαν δίπλα μου, ο καθένας με το δικό του τρόπο. Θα ήθελα να ευχαριστήσω την οικογένεια μου, τους φίλους μου και τους συναδέλφους μου για τη στήριξή τους και για την ανοχή τους στην απουσία μου. Ευχαριστώ τους συμφοιτητές που πλέον είναι φίλοι μου - για την συνεργασία και την αλληλοϋποστήριξη αυτά τα δύο χρόνια. Ευχαριστώ τον κ. Πάνο Κωνσταντόπουλο τόσο για την υπομονή του και την καθοδήγησή του όσο για την παραινετική συμβολή του στην συγγραφή αυτής της εργασίας. Ευχαριστώ τον κ. Δημήτρη Γκρίτζαλη για την κατανόηση του στην καθυστέρηση της παράδοσης της. Ευχαριστώ την εταιρία SANOFI για τη χρηματοδότηση της συμμετοχής μου σε αυτό το πρόγραμμα. Συνδεδεμένα Δεδομένα i

5 ΠΕΡΙΛΗΨΗ Ο όρος Συνδεδεμένα Δεδομένα (Linked Data) επινοήθηκε το 2006 από τον Tim Berners Lee. Αναφέρεται σε ένα σύνολο κανόνων και πρακτικών για τη σύνδεση και δημοσίευση δεδομένων στον Παγκόσμιο Ιστό κι αποτελεί συνέχεια και προαπαιτούμενο για την υλοποίηση του ευρύτερου οράματος του Σημασιολογικού Ιστού, που πρωτοπαρουσιάστηκε από τον ίδιο το 1998 [1]. Στην εργασία αυτή κάνουμε μία ανασκόπηση του πεδίου που καλύπτει ο όρος. Αρχίζουμε με μία σύντομη περιγραφή της έννοιας του Σημασιολογικού Ιστού, τον αναμενόμενο τρόπο λειτουργίας του, τα μέσα υλοποίησης του και τα προβλήματα που πρέπει να λυθούν. Στη συνέχεια δίνουμε τον ορισμό και περιγράφουμε τις αρχές και τις απαιτήσεις των Συνδεδεμένων Δεδομένων που έχουν ως στόχο την επίτευξη της συντακτικής και σημασιολογικής διαλειτουργικότητας. Ξεκινάμε με τις στοιχειώδεις έννοιες του Resource Description Framework (RDF), Universal Resource Identifiers και τους συνδέσμους. Παρουσιάζουμε τους ορισμούς και τις παραλλαγές τους. Ακολούθως περνάμε στην περιγραφή των εργαλείων που είναι απαραίτητα για την υλοποίηση της σημασιολογικής σύνδεσης και συνένωσης δεδομένων: SKOS, RDFS, OWL. Οι βασικότερες προκλήσεις των Συνδεδεμένων Δεδομένων, αφού έχουν ορισθεί οι κανόνες και τα πλαίσια δημιουργίας είναι η δημιουργία αυτών καθαυτών των δεδομένων. Στα επόμενα κεφάλαια ασχολούμαστε με τη δημιουργία των συνδέσμων και τις τεχνικές κι εργαλεία που χρησιμοποιούνται κι αμέσως μετά παρουσιάζουμε τους τρόπους δημοσίευσης των συνδεδεμένων δεδομένων και τους τρόπους λήψης αυτών. Ορίζουμε και διακρίνουμε τα Ανοικτά Συνδεδεμένα Δεδομένα και κάνουμε μία σύντομη παρουσίαση της εξέλιξης και σημερινής κατάστασής τους με αριθμούς. Ένας από τους σημαντικότερους παράγοντες αποδοχής κι επιτυχίας ενός πληροφοριακού συστήματος είναι η ποιότητα της πληροφορίας που δίνει. Ο ορισμός της ποιότητας από μόνος του έχει πολλές πλευρές (ορθότητα, ακρίβεια, συνέπεια κλπ). Εξετάζουμε το τι σημαίνει ποιότητα στα Συνδεδεμένα Δεδομένα πώς μπορεί να εξασφαλιστεί καθώς και παράγοντες που επηρεάζουν θετικά ή αρνητικά την ποιότητα. Τα Συνδεδεμένα Δεδομένα δημιουργούν έναν τεράστιο όγκο δεδομένων από τη μία μεριά ενώ μπορούν επίσης να περιέχουν ένα ακόμα μεγαλύτερο όγκο πληροφοριών που θα πρέπει να αναλυθεί ποσοτικά. Το πρόβλημα της ανάλυσης μεγάλου όγκου δεδομένων των παραδοσιακών συστημάτων συναλλαγών (transactional), έχει λυθεί Συνδεδεμένα Δεδομένα ii

6 με τις αποθήκες δεδομένων (datawarehouses) και τα συστήματα On-Line Analytical Processing. Στο τελευταίο κεφάλαιο εξετάζουμε πώς από ένα dataset Συνδεδεμένων Δεδομένων Στατιστικής σε RDF μπορεί να δημιουργηθεί ένα μοντέλο OLAP αλλά και πως επηρεάζονται οι αποθήκες δεδομένων από τα Συνδεδεμένα Δεδομένα. Συνδεδεμένα Δεδομένα iii

7 ABSTRACT The term Linked Data was coined by Tim Berners Lee in 2006 and refers to the principles and guidelines for publishing and connecting semi-structured data on the Web, in a way that data is machine-readable. Linked Data is part of the technology stack that W3C is building to support the Semantic Web: a Web of data from various sources, that machines can collect, process, make inferences to help humans give answers to complex queries. In this paper we make an overall review of Linked Data. We start with a short description of the concept Semantic Web, the expectations and the problems that should be addressed. In chapter 2 we present the principles and rules of the Linked Data. The desired interoperability of systems, which is the foundation of the Semantic Web, can be achieved by standardizing the ways the systems exchange information. In chapters 3 and 4 we describe the means for achieving the syntactic and semantic interoperability: RDF, URIs, metadata, RDFS, SKOS, OWL, Ontology alignment, data linking. We also review the proposals found in the bibliography, to tackle one of the most common and difficult problems in data linking: co-reference.. In the next two chapters we present the ways of publishing and consuming Linked Data. In chapter 7 we make a quick reference on the Linked Open Data their features and their statistics. The adoption of the Linked Data depends very much on the volume and the quality of the data that will be me made available. The aspects of quality and known errors are presented in chapter 8. The Linked Data - the principles, the tools and data themselves bring new challenges in the data analysis field. The problem of the analysis of big volume of data in the transactional systems has been solved with datawarehouses and On-Line Analytical Processing Systems. In chapter 10 we see if and how these can be used for the analysis of the Linked Data and what is the impact of Linked data on DW and OLAP. Συνδεδεμένα Δεδομένα iv

8 ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΗ ΑΡΧΕΣ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΥΝΤΑΚΤΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ ΔΗΜΟΣΙΕΥΣΗ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΤΑΝΑΛΩΣΗ ΣΥΝΔΕΔΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΑΝΟΙΚΤΑ ΔΕΔΟΜΕΝΑ ΠΟΙΟΤΗΤΑ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ ΚΙ ΑΝΑΛΥΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΥΜΠΕΡΑΣΜΑ ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ Συνδεδεμένα Δεδομένα v

9 1 ΕΙΣΑΓΩΓΗ Ο Σημασιολογικός Ιστός (Semantic Web) είναι μία επέκταση του Παγκόσμιου Ιστού που έχει στόχο την προσθήκη δεδομένων που να είναι επεξεργάσιμα από μηχανές και την ενοποίηση (integration) δεδομένων από διαφορετικές πηγές [1], έτσι ώστε κι οι υπολογιστές να «κατανοούν» καλύτερα τις πληροφορίες που βρίσκονται στον ιστό κι οι χρήστες να βοηθούνται στην εύρεση κι επεξεργασία των πληροφοριών. Τεχνικές από το πεδίο της παράστασης γνώσης (Knowledge Representation) εφαρμόζονται για να γίνουν τα δεδομένα επεξεργάσιμα από τους υπολογιστές [2] χρησιμοποιώντας φορμαλισμούς που επιτρέπουν την παράσταση αλλά και τον αυτοματοποιημένο συλλογισμό. Τμήματα γνώσης όπως «ο Γ. Σεφέρης έγραψε τη Στέρνα» και «όλοι οι άνθρωποι έχουν ένα όνομα» μετασχηματίζονται σε δηλώσεις με τέτοιο τρόπο που ένας υπολογιστής μπορεί να χειριστεί. Κάποιες από τις δηλώσεις περιγράφουν μία συγκεκριμένη κατάσταση του πραγματικού κόσμου, όπως η πρώτη δήλωση, κι άλλες κωδικοποιούν περιορισμούς ή κανόνες συλλογισμού (συμπερασμού) για τον κόσμο όπως η δεύτερη. Οι προσπάθειες για τη δημιουργία του Σημασιολογικού Ιστού, είχαν ως αποτέλεσμα τη δημιουργία μιας οικογένειας εργαλείων παράστασης γνώσης: RDF, RDFS,OWL. Ο σχεδιασμός αυτών των γλωσσών εμπνέεται από τις προσπάθειες της κοινότητας της παράστασης γνώσης. Στον πυρήνα αυτής της οικογένειας, βρίσκεται η ιδέα ότι η γνώση μπορεί να αναπαρασταθεί ως κόμβοι που συνδέονται με δυαδικές ακμές δηλαδή μ ένα γράφο. Οι κόμβοι στο γράφο μπορούν να αναπαριστούν οτιδήποτε: κείμενα, ανθρώπους, αντικείμενα, αφηρημένες έννοιες. Οι ακμές είναι οι συσχετίσεις των κόμβων. Οι ακμές κι οι κόμβοι προσδιορίζονται μοναδικά από ένα αναγνωριστικό: Uniform Resource Identifier (URI). Οι γράφοι φορτώνονται στον Παγκόσμιο Ιστό, όπου οι κόμβοι κι ακμές γίνονται προσβάσιμοι μέσω των URIs. Οι γλώσσες βασίζονται στη λογική, η οποία επιτρέπει σε κάποιον να κάνει δηλώσεις όπως «όποιος είναι ζωγράφος είναι επίσης και καλλιτέχνης» ή «το άτομο που ζωγράφισε έναν ή περισσότερους πίνακες ονομάζεται ζωγράφος». Τέτοιες δηλώσεις επιτρέπουν στους υπολογιστές να συμπεράνουν νέα γνώση από αυτή που έχουν. Αναπαριστώντας τη γνώση με αυτό τον τρόπο, επιτρέπεται η απάντηση ερωτημάτων όπως «Ποια ποιήματα έγραψε ο Γ.Σεφέρης όσο ήταν στο Λονδίνο;» που δεν μπορούν να απαντηθούν από τις συμβατικές μηχανές αναζήτησης. Οι μηχανές αναζήτησης φέρνουν μία λίστα από σελίδες στις οποίες ίσως υπάρχει αυτή η πληροφορία. Για να Συνδεδεμένα Δεδομένα 1/68

10 απαντηθούν τέτοια ερωτήματα από τους υπολογιστές πρέπει να μεταφερθεί ένα συγκεκριμένο μοντέλο του κόσμου σαν γράφος. Έννοιες όπως Ποιητής, Χώρα, Ποίημα και σχέσεις μεταξύ των εννοιών όπως Έγραψε, Γράφτηκε πρέπει να αναπαρασταθούν με μορφή δηλώσεων όπως: <Σεφέρης, Έγραψε, Στέρνα> και <Στέρνα, Γράφτηκε, Λονδίνο>. Υπάρχοντα λεξιλόγια μπορούν να παίξουν αυτό το ρόλο επειδή παρέχουν αυτές τις έννοιες. Η συνένωση των διαφόρων πηγών είναι απαραίτητη για να απαντηθούν ερωτήματα όπως το προηγούμενο για τον Γ.Σεφέρη, επειδή τα έργα του (κι οι πληροφορίες γι αυτά) βρίσκονται σε διάφορες βιβλιοθήκες. Το πρόβλημα της συνένωσης έχει δύο πλευρές. Την συντακτική, που λύνεται μετατρέποντας τις βάσεις δεδομένων σε ένα ενιαίο μορφότυπο (πχ XML, RDF) και τη σημασιολογική, όπου οι έννοιες που χρησιμοποιούνται στα δεδομένα μπορούν να σχετιστούν μεταξύ τους αλλά και με έννοιες που οι επεξεργαστές κατανοούν. Έτσι η έννοια του Συγγραφέα στη βάση δεδομένων της μίας βιβλιοθήκης με την έννοια του Ποιητή στην άλλη βιβλιοθήκη θα πρέπει να αντιστοιχισθούν σαν ισοδύναμες έτσι ώστε, το ερώτημα «όλα τα έργα του ποιητή Γ. Σεφέρη» για τη μία βάση να μεταφραστεί σε «όλα τα έργα του συγγραφέα Γεωργίου Σεφέρη (με την προϋπόθεση κι ότι η έννοια «Γ. Σεφέρης» έχει αντιστοιχισθεί με τη «Γεώργιος Σεφέρης»). Το RDFS και η OWL παρέχουν τέτοιες δυνατότητες αντιστοίχισης (κάτι που δεν παρέχει η XML). Η σημασιολογική και συντακτική συνένωση σχετίζονται με την συντακτική και σημασιολογική διαλειτουργικότητα. Η διαλειτουργικότητα συνήθως ορίζεται ως η ικανότητα δύο ή περισσοτέρων εφαρμογών να κατανοούν τα δεδομένα αλλήλων. Αυτό υπονοεί ότι είναι γνωστό εκ των προτέρων ποιες εφαρμογές πρέπει να κατανοήσουν τα δεδομένα την ώρα που τα δεδομένα δημοσιεύονται, κάτι που δεν ισχύει, ειδικά στον σημασιολογικό ιστό. Αυτό σημαίνει ότι ο στόχος είναι, τα δεδομένα να είναι όσο το δυνατόν κατανοητά οποιαδήποτε στιγμή από οποιοδήποτε υπολογιστή (επεξεργαστή). Ένα άλλο πρόβλημα στην συνένωση των δεδομένων, είναι ότι όλες οι πηγές δεν κάνουν χρήση των ίδιων λεξιλογίων, ενώ αντί να χρησιμοποιούν λεξιλόγια για την πλήρωση των μετα-δεδομένων μπορεί να χρησιμοποιούν απλές συμβολοσειρές πχ Paris αντί για την έννοια Paris από το Thesaurus of Geographic Names. Επίσης οι ομωνυμίες μπορούν να δημιουργήσουν προβλήματα στην αναζήτηση (πχ. πρόσωπα με το όνομα Paris), ενώ η καταχώριση σε άλλη γλώσσα επίσης μπορεί να κάνει την Συνδεδεμένα Δεδομένα 2/68

11 συνένωση αδύνατη. Θα πρέπει λοιπόν και σε αυτές τις περιπτώσεις να γίνει μία αντιστοίχιση κι ένας μετασχηματισμός αυτών των δεδομένων στις αντίστοιχες έννοιες των αντίστοιχων λεξιλογίων. Ακολούθως εξετάζουμε τις βασικές αρχές και τις τεχνικές που έχουν τεθεί από την επιστημονική κοινότητα για την δόμηση και σύνδεση των δεδομένων στον ιστό ώστε να επιτευχθεί η ζητούμενη διαλειτουργικότητα. Συνδεδεμένα Δεδομένα 3/68

12 2 ΑΡΧΕΣ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ Ο όρος «Συνδεδεμένα Δεδομένα» (Linked Data), αναφέρεται σε ένα σύνολο αρχών δημοσίευσης και σύνδεσης δομημένων δεδομένων στον Ιστό οι οποίες ετέθησαν από τον Tim Berners-Lee [3] κι είναι γνωστές σαν Linked Data principles. Οι αρχές αυτές είναι: 1. Η χρήση URIs ως ονόματα πραγμάτων 2. Η χρήση HTTP URIs ώστε να μπορούν να αναζητηθούν από τον άνθρωπο 3. Όταν κάποιος αναζητά ένα URI, πρέπει να του δίνεται χρήσιμη πληροφορία χρησιμοποιώντας πρότυπα (RDF*, SPARQL). 4. Να περιλαμβάνονται σύνδεσμοι σε άλλα URIs, ώστε να μπορούν να ανακαλυφθούν περισσότερα πράγματα. Η βασική ιδέα για τα Συνδεδεμένα Δεδομένα, είναι η εφαρμογή της γενικής αρχιτεκτονικής του Παγκόσμιου Ιστού (WWW), στο να γίνουν διαθέσιμα προς όλους δομημένα δεδομένα. Τα βασικά χαρακτηριστικά αυτής της αρχιτεκτονικής είναι: η χρήση των Uniform Resource Identification (URIs) ως μηχανισμού ταυτοποίησης, το Hypertext Transfer Protocol (HTTP) ως μηχανισμού πρόσβασης, η χρήση της Hypertext Markup Language (HTML) ώς μηχανισμού μορφοποίησης περιεχομένου και τέλος η χρήση συνδέσμων (hyperlinks) για τη διασύνδεση των διαφόρων κειμένων του Ιστού, μεταξύ τους. Η πρώτη αρχή είναι προφανής, και σύμφωνα με τον T.Berners-Lee, «αν δεν γίνεται χρήση των URIs, τότε δεν μιλάμε για Σημασιολογικό Ιστό» [3]. Η χρήση των URIs δεν περιορίζεται σε απτά αντικείμενα, αλλά μπορεί να χρησιμοποιηθεί και για άυλες έννοιες (πχ: «είναι φίλος»). Η δεύτερη αρχή αναφέρεται στη χρήση ενός προτύπου για την αναζήτηση των αντικειμένων, όπου το URI μέσω του πρωτοκόλλου HTTP θα εντοπίζει το αντικείμενο (για την ακρίβεια την περιγραφή του αντικειμένου) στο οποίο αναφέρεται. Άλλα σχήματα μοναδικών αναγνωριστικών όπως XRIs, LSIDs, DOIs δεν μπορούν να χρησιμοποιηθούν αφού, δεν εμπεριέχουν πληροφορίες για το που βρίσκεται το αντικείμενο, όπως ένα HTTP URI. Ο μηχανισμός διαπραγμάτευσης του HTTP είναι εξελιγμένος που δίνει πολλές δυνατότητες στον αιτούντα (client) για την αναζήτηση περιγραφών (πχ σε ποιά μορφή με βάρος προτίμησης, σε ποιά γλώσσα). Συνδεδεμένα Δεδομένα 4/68

13 Αναγνωριστικά όπως το ISBN θα μπορούσαν να χρησιμοποιηθούν ως τμήμα ενός HTTP URI. Η τρίτη αρχή αναφέρεται στην χρήση ενός προτύπου, ανάλογου της HTML για τη διάθεση των δομημένων δεδομένων. Το Resource Description Framework (RDF) [4] είναι ένα απλό μοντέλο δεδομένων που βασίζεται στους γράφους. Το σημαντικό σε αυτό το πρότυπο είναι ότι μπορεί να τύχει επεξεργασίας και να «κατανοηθεί» από μηχανές. Στο επόμενο κεφάλαιο περιγράφεται το RDF αναλυτικότερα. Και τέλος η τέταρτη αρχή, αναφέρεται στη συσχέτιση των αντικειμένων κι εννοιών, με τη χρήση συνδέσμων (RDF Links) που έχουν εννοιολογική σημασία. Αυτό είναι το κλειδί του Σημασιολογικού Ιστού. Με αυτό τον τρόπο η μηχανές θα είναι σε θέση να απαντήσουν ερωτήματα της μορφής «Πόσοι από τους φίλους του Π.Βαγγελάτου μένουν στην Αθήνα». Τον Απρίλιο του 2010 και στην προσπάθεια διάδοσης της διάθεσης συνδεδεμένων δεδομένων για ελεύθερη χρήση (Linked Open Data), ιδιαίτερα από κυβερνήσεις, o T.Berners-Lee ανακοινώνει το σύστημα κατάταξης των δεδομένων 5 αστέρων [3]: Διαθέσιμα στον Ιστό, σε οποιαδήποτε μορφή, με ανοικτή άδεια ώστε να είναι Ανοικτά Δεδομένα. Διαθέσιμα για μηχανική ανάγνωση δομημένα δεδομένα (πχ excel αντί σαρωμένη εικόνα πίνακα) Δομημένα δεδομένα για μηχανική ανάγνωση αλλά όχι σε ιδιόκτητες μορφές (π.χ. CSV αντί για excel) Όλα τα προηγούμενα, συν τη χρήση ανοικτών προτύπων από W3C (RDF and SPARQL) ώστε να αναγνωρίζονται πράγματα Όλα τα προηγούμενα συν τη σύνδεση των δεδομένων με άλλα δεδομένα για την παροχή περιεχομένου Πίνακας 1: Το σύστημα αξιολόγησης Συνδεδεμένων Δεδομένων Ακολούθως εξετάζουμε αναλυτικότερα τις αρχές και τις απαιτήσεις των Συνδεδεμένων Δεδομένων. Συνδεδεμένα Δεδομένα 5/68

14 3 ΣΥΝΤΑΚΤΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ 3.1 ΜΟΡΦΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ Για την εξασφάλιση της διαλειτουργικότητας, θα πρέπει να εφαρμοσθούν πρότυπα στον τρόπο σχηματισμού των δεδομένων που θα επιτρέψουν την άντληση των δεδομένων που κάθε φορά χρειάζονται και την επεξεργασία τους από οποιαδήποτε μηχανή. Το πρότυπο αυτό θα πρέπει να είναι ανεξάρτητο από μηχανή ή εφαρμογή και τόσο ευέλικτο ώστε νέες πληροφορίες για το ίδιο πεδίο γνώσης ή για νέα πεδία, να μπορούν άμεσα να γίνονται διαθέσιμα με αυτό. Για τα Συνδεδεμένα Δεδομένα, η βέλτιστη επιλογή ημι-δομημένου μορφοτύπου είναι η χρήση του Resource Description Framework (RDF). Το μοντέλο δεδομένων RDF [4] αναπαριστά την πληροφορία με έναν κατευθυνόμενο γράφο. Εικόνα 1 : Ένας γράφος RDF που περιγράφει τον Eric Miller [5] Η περιγραφή ενός πόρου (resource) γίνεται με τη χρήση ενός αριθμού τριάδων (triples). Κάθε τριάδα αποτελείται από το υποκείμενο (subject), κατηγόρημα 1 (predicate) και το αντικείμενο (object) αντιγράφοντας το συντακτικό μίας απλής πρότασης σε φυσική γλώσσα: Eric Miller Έχει τίτλο Dr Υποκείμενο Κατηγόρημα Αντικείμενο 1 Οι όροι «κατηγόρημα» κι «αντικείμενο» είναι μετάφραση των αντίστοιχων αγγλικών όρων. Δεν αντιστοιχούν ακριβώς στο εννοιολογικό περιεχόμενο που τους αποδίδεται στο συντακτικό της ελληνικής γλώσσας. Ενίοτε μπορεί η χρήση των όρων να είναι η προβλεπόμενη (πχ σε μία δήλωση της μορφής Eric Miller Κατέχει (ή ΕίναιΚάτοχος) Αυτοκίνητο) Συνδεδεμένα Δεδομένα 6/68

15 Το υποκείμενο μίας τριάδας μπορεί να είναι ένα URI που προσδιορίζει μοναδικά τον περιγραφόμενο πόρο. Το αντικείμενο μπορεί να είναι μία απλή σταθερά (αλφαριθμητική, αριθμητική, ημερομηνία), ή ένα άλλο URI ενός άλλου πόρου που συνδέεται με το υποκείμενο. Το κατηγόρημα ορίζει τη σχέση μεταξύ υποκειμένου κι αντικειμένου κι έχει τη μορφή URI, το οποίο προέρχεται από κάποιο λεξιλόγιο (vocabulary): συλλογή URIs που αναπαριστούν πληροφορίες ενός συγκεκριμένου πεδίου. To RDF έχει διάφορες παραλλαγές συντακτικού οι οποίες χρησιμοποιούνται κατά περίπτωση. Οι διάφορες συντακτικές μορφές αποκαλούνται serializations, επειδή η παράσταση των γράφων με μορφή κειμένου είναι μία σειρά χαρακτήρων σε ένα αρχείο. 1. RDF/XML 2 : Είναι το αρχικό πρότυπο που τέθηκε από τον W3C. Βασίζεται στην XML, υποστηρίζεται σχεδόν από όλα τα εργαλεία RDF, είναι πολύ φλύαρη και δύσκολα αναγνώσιμη από τον άνθρωπο. <?xml version="1.0"?> <rdf:rdf xmlns:rdf=" xmlns:contact=" <contact:person rdf:about=" <contact:fullname>eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@w3.org"/> <contact:personaltitle>dr.</contact:personaltitle> </contact:person> </rdf:rdf> Εικόνα 2: Η περιγραφή του Eric Miller σε RDF/XML [5] 2. N-triples. Είναι ο πιο ευθύς τρόπος αναπαράστασης RDF γράφων με μορφή τριάδας. Είναι μία απλοποιημένη έκδοση του Ν3 Notation που δημιουργήθηκε γι αυτό το σκοπό. Κάθε τριάδα γράφεται σε μία γραμμή. Είναι εύκολα αναγνώσιμη από τον άνθρωπο. 2 Συνδεδεμένα Δεδομένα 7/68

16 @prefix rdf: contact: people: " people:em rdf:type contact:person. people:em contact:fullname "Eric Miller". people:em contact:mailbox people:em contact:title Dr. Εικόνα 3: Η περιγραφή του Eric Miller σε N3 3. Turtle. Είναι παρόμοια με την N-triples, αλλά ακόμα πιο απλή και rdf: contact: people: " people:em rdf:type contact:person ;contact:fullname "Eric Miller" ; contact:mailbox rdf:resource=mailto:em@w3.org ; contact:title Dr. Εικόνα 4: Η περιγραφή του Eric Miller σε turtle 4. RDFa: είναι ένα mark-up σχήμα για την ενσωμάτωση RDF περιγραφών σε HTML5 και XHTML κείμενα. Παρέχει έναν μηχανισμό δημοσίευσης RDF δεδομένων σε ιστοσελίδες, απ όπου μπορούν να εξαχθούν ή συλλεχθούν από μηχανές αναζήτησης. Η αναφορά σε αντικείμενα του πραγματικού κόσμου, γίνεται με τη χρήση του γνωρίσματος RDFa about= εκχωρώντας το αντίστοιχο URI που περιγράφει το αντικείμενο.... <p about=" In his paintings <span property="ex:name">pablo Picasso</span>, born in <span property="ex:birth-time">1881</span>, expressed... </p>... Εικόνα 5: Παράδειμγα RDFa [6] 5. RDF/JSON: είναι μία εκδοχή του RDF προσαρμοσμένη στο JSON (JavaScript Object Notation), ένα άλλο πρότυπο ανταλλαγής δεδομένων αναγνώσιμο από άνθρωπο. Είναι ανερχόμενο αφού πολλές προγραμματιστικές γλώσσες του Ιστού διαθέτουν εγγενή υποστήριξη του προτύπου, έτσι ώστε να Συνδεδεμένα Δεδομένα 8/68

17 μη χρειάζεται η εγκατάσταση επιπλέον βιβλιοθηκών για τη μετατροπή κι επεξεργασία RDF δεδομένων. Δύο άλλες μορφές δόμησης δεδομένων που βρίσκουμε στον Ιστό είναι τα microformats και τα microdata. Τα microfomats χρησιμοποιούν τις παραδοσιακές HTML tags για την ενσωμάτωση δομημένων δεδομένων με τέτοιο τρόπο ώστε να μη αλλοιώνεται η εμφάνιση της σελίδας και να είναι αναγνώσιμη από τον άνθρωπο. Τα microdata, χρησιμοποιούν ειδικές HTML5 tags για την αναπαράσταση δομημένων δεδομένων, και παρέχουν συλλογές από μεριζόμενα λεξιλόγια που μπορούν να χρησιμοποιήσουν οι webmasters για να σημαδέψουν τις σελίδες τους ώστε να γίνουν κατανοητές από μηχανές αναζήτησης [6]. 3.2 URIs Μία βασική αρχή του Σημασιολογικού Ιστού είναι ή έννοια του πόρου (resource). Πόρος είναι οποιαδήποτε οντότητα την οποία θέλουμε να περιγράψουμε Η αναφορά στις οντότητες αυτές γίνεται με Universal Resource Identifiers (URI). Η ιδέα είναι ότι οι πόροι ταυτοποιούνται από αναγνωριστικά ιστού βασισμένα στο HTTP πρωτόκολλο, που είναι κατάλληλα για χρήση από μηχανές, κι όχι με τα ονόματά τους ή τους τίτλους σε κάποια φυσική γλώσσα Υπάρχουν διάφοροι τρόποι σχηματισμού URIs. Ένα κριτήριο για το σχηματισμό είναι ο τρόπος διαπραγμάτευσης με τον εξυπηρετητή για τον εντοπισμό και την επιστροφή της περιγραφής του αντικειμένου στο οποίο αναφέρεται το URI. 303 URIs: Με ένα URI αυτής της μορφής (πχ: ο εντοπισμός κι η επιστροφή της RDF περιγραφής του αντικειμένου γίνεται σε δύο βήματα. Στο πρώτο ο εξυπηρετητής απαντάει επιστρέφοντας ένα μήνυμα επανακατεύθυνσης 303 See Other όπου επιστρέφει τη θέση του αντικειμένου ( κι ο client με ένα νέο αίτημα GET παίρνει το περιεχόμενο του RDF. # (Hash) URIs: Με ένα URI αυτής της μορφής (πχ: (αφού στην εγκαθίδρυση τη επικοινωνίας αφαιρεθεί το τμήμα (fragment) μετά το #, ο εξυπηρετητής επιστρέφει όλες τις RDF περιγραφές που βρίσκονται στη Συνδεδεμένα Δεδομένα 9/68

18 κι ο client, θα πρέπει να απομονώσει το μέρος που αφορά το συγκεκριμένο αντικείμενο (p-4). Στην πρώτη περίπτωση αυξάνεται ο χρόνος επικοινωνίας αλλά επιστρέφεται η περιγραφή του συγκεκριμένου πόρου. Στη δεύτερη περίπτωση μειώνεται ο χρόνος επικοινωνίας αλλά επιστρέφεται ίσως άχρηστη πληροφορία. Η χρήση 303 URIs ενδείκνυται για ανάκτηση περιγραφής πόρων (resource description) που είναι τμήματα μεγάλων συνόλων δεδομένων (data sets) όπως πχ. DBPedia, όπου η ανάκτηση ολοκλήρου του συνόλου για την ανεύρεση ενός αντικειμένου θα ήταν άσκοπη και κοστοβόρος. Η χρήση # URIs ενδείκνυται για την ανάκτηση μικρών σε όγκο συνόλων (πχ λεξικών) που η άπαξ ανάκτηση τους κοστίζει λιγότερο από την ανάκτηση των επιμέρους αντικειμένων (πχ όροι λεξικού) ένα προς ένα. Ο σχηματισμός των URIs είναι ευθύνη του παρόχου των δεδομένων. Εκ των πραγμάτων, θα περιέχει το domain spacename το οποίο ελέγχει ο ίδιος. Επειδή τα URIs θα χρησιμοποιηθούν από άλλους παρόχους για να συνδεθούν τα δεδομένα μεταξύ τους, θα πρέπει να εξασφαλίζεται ότι τα URIs θα δείχνουν πάντα στον πόρο στον οποίο αναφέρονται, όποτε ότι αυτά θα πρέπει να αλλάζουν (και φυσικά δεν θα πρέπει να αλλάζει θέση και το RDF στο οποίο δείχνουν). Ο όρος Cool URIs χρησιμοποιείται για να ορίσει πρακτικές και κανόνες σχηματισμού URIs που θα είναι πάντα dereferencable 3 [7], όπως η χρήση ελεγχόμενου namespace, η αποφυγή χρήσης γλώσσας, η χρήση κλειδιών αν αυτά ήδη υπάρχουν (πχ ISBN). 3.3 ΕΣΩΤΕΡΙΚΟΙ & ΕΞΩΤΕΡΙΚΟΙ ΣΥΝΔΕΣΜΟΙ Η 4 η αρχή των συνδεδεμένων δεδομένων και το 5 ο αστέρι στην κλίμακα ταξινόμησης τους είναι η σύνδεση δεδομένων στον Ιστό. Οι συνδέσεις μπορούν να γίνουν μεταξύ πόρων στην ίδια πηγή (εσωτερικές) ή μεταξύ πόρων σε διαφορετικές πηγές (εξωτερικές). Τεχνικά η σύνδεση γίνεται με μία RDF τριάδα όπου οι συνδεόμενοι πόροι είναι το υποκείμενο και το αντικείμενο κι αναπαριστώνται με τα αντίστοιχα URIs, και το κατηγόρημα ορίζει τη σύνδεση με ένα άλλο URI. Υπάρχουν τριών ειδών συνδέσεις: 3 Συνδεδεμένα Δεδομένα 10/68

19 Σύνδεσμοι Σχέσης: συνδέουν δύο οντότητες αναπαριστώντας την αντίστοιχη σχέση του πραγματικού κόσμου, πχ. Τόπος γέννησης ενός ατόμου. Σύνδεσμοι ταυτότητας: με αυτούς του συνδέσμους, δύο URIs από διαφορετικά συνήθως σύνολα δεδομένων (πεδία) συνδέονται για να δηλωθεί ότι αναφέρονται στον ίδιο πόρο. Στον κόσμο των Συνδεδεμένων Δεδομένων, γι αυτό το σκοπό, χρησιμοποιείται από την OWL το γνώρισμα Αν κι αυτή είναι η πιο ουσιαστική σχέση στην οποία στηρίζονται τα Συνδεδεμένα δεδομένα, εγείρονται διάφορα ερωτηματικά από τη χρήση της, τα οποία θα εξετάσουμε αργότερα. Σύνδεσμοι λεξιλογίου: χρησιμοποιούνται για την εννοιολογική σύνδεση των δεδομένων, ώστε να είναι δυνατή η ολοκλήρωσή τους (integration) αλλά κι δημιουργία νέας γνώσης από τους συμπερασμούς που προκύπτουν. Για να αποφεύγεται η ετερογένεια των διαφόρων πηγών δεδομένων ως προς τα δεδομένα αυτά καθ αυτά αλλά και των συνδέσεων τους, προτείνεται η χρήση λεξιλογίων που περιέχουν όρους που περιγράφουν κάποιο πεδίο (άνθρωποι, μέρη, έργα). Επίσης αν μία πηγή χρησιμοποιεί δικούς της όρους, θα πρέπει οι αντίστοιχοι URIs να είναι ανακτήσιμοι, ενώ θα πρέπει να συντηρούνται κι οι αντιστοιχίσεις όρων μεταξύ λεξιλογίων. Οι OWL (Web Ontology Language), RDF Schema (RDFS) και Simple Knowledge Organization System (SKOS), ορίζουν συνδέσμους λεξιλογίου που μπορούν να χρησιμοποιηθούν για τέτοιες αντιστοιχίσεις: οι owl:equivalentclass και owl:equivalentproperty μπορούν να χρησιμοποιηθούν για να δηλώσουν την ισοδυναμία δύο όρων. Οι rdfs:subclassof, rdfs:subpropertyof μπορούν να χρησιμοποιηθούν για να δημιουργήσουν ιεραρχίες, ενώ για τη δήλωση χαλαρότερης ισοδυναμίας μπορούν να χρησιμοποιηθούν οι skos:broadmatch, and skos:narrowmatch. Συνδεδεμένα Δεδομένα 11/68

20 4 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ Έως τώρα είδαμε τι χρειάζεται για να επιτευχθεί η διαλειτουργικότητα των δεδομένων σε τεχνικό επίπεδο ώστε να μπορέσουν τα δεδομένα να συνδεθούν. Θα δούμε τώρα τι χρειάζεται για να αποκτήσει η σύνδεση εννοιολογικό περιεχόμενο που ανταποκρίνεται στον πραγματικό κόσμο και μπορεί να επιτρέψει την αυτοματοποιημένη δημιουργία συλλογισμών. 4.1 ΜΕΤΑΔΕΔΟΜΕΝΑ Τα μετα-δεδομένα περιλαμβάνουν πληροφορίες για τα δεδομένα στα οποία αναφέρονται. Μπορεί κι αυτά να είναι κωδικοποιημένα. Τα μετα-δεδομένα μπορεί να είναι διαχειριστικά (πότε κι από ποιόν δημιουργήθηκαν), περιγραφικά (τι περιλαμβάνει το σύνολο δεδομένων), τεχνικά (κάποιο πρότυπο που ακολουθούν τα δεδομένα, του τρόπους πρόσβασης σε αυτά), χρήσης (κάτω από ποια άδεια χρήσης διατίθενται, πνευματικά δικαιώματα), δεδομένα ευρετηρίου (λέξεις κλειδιά που θα διευκολύνουν την εύρεση των δεδομένων από τις μηχανές αναζήτησης) κ.α. Όσο πιο πλήρης είναι η περιγραφή των πόρων που προσφέρουν τα συνδεδεμένα δεδομένα, αντίστοιχα και πιο πλήρη πρέπει να είναι και τα μετα-δεδμένα. Εκτός από πληρότητα, ακρίβεια, συνέπεια, τα μετα-δεδομένα θα πρέπει να μπορούν να αναγνωσθούν και να τύχουν μηχανικής επεξεργασίας. Υπάρχουν δύο μηχανισμοί δημοσίευσης αυτών των μετα-δεδομένων. Semantic Sitemaps: αποτελούν επέκταση του πρωτοκόλλου Sitemap. Το Sitemap αποτελείται από ένα XML αρχείο που βρίσκεται στο αρχικό (root) κατάλογο μίας ιστοσελίδας και περιέχει στοιχεία γι αυτή που μπορούν να χρησιμοποιηθούν από τις μηχανές αναζήτησης. To Sitemap extension, επεκτείνει αυτό το αρχείο, προσθέτοντας στοιχεία για τα συνδεδεμένα δεδομένα, όπως: ετικέτα και URI για το σύνολο δεδομένων, η τοποθεσία των αντίστοιχων SPARQL σημείων [8]. Ακολουθεί παράδειγμα ενός sitemap που επεκτείνεται σε semantic sitemap με τη χρήση της ετικέτας <sc:dataset>. Οι ετικέτες <sc:datadump>, <sc:sparqlendpoint>, <sc:linkeddataprefix> χρησιμοποιούνται για τον ορισμό των επιλογών πρόσβασης στο σύνολο των δεδομένων. <?xml version="1.0" encoding="utf-8"?> <urlset xmlns= χmlns:sc=" <sc:dataset> Συνδεδεμένα Δεδομένα 12/68

21 <sc:datasetlabel> Example Corp. Product Catalog </sc:datasetlabel> <sc:dataseturi> <sc:linkeddataprefix sc:slicing="subject-object"> <sc:sampleuri> <sc:sampleuri> <sc:sparqlendpoint sc:slicing="subject-object"> <sc:datadump> <sc:datadump> <changefreq>weekly</changefreq> </sc:dataset> </urlset> Εικόνα 6 : Semantic Sitemap File [8] void Descriptions: το Vocabulary of Interlinked Datasets είναι το πρότυπο για την περιγραφή συνόλων Συνδεδεμένων Δεδομένων που προτείνεται από τον W3C [9]. Περιλαμβάνει πληροφορίες όπως και τα semantic sitemaps αλλά σε μορφή RDF. Περιλαμβάνει δηλώσεις για τα λεξιλόγια που χρησιμοποιούνται στο σύνολο των δεδομένων, συνδέσμους μεταξύ συνόλων δεδομένων, καθώς και των ορισμό λογικών υποσυνόλων του συγκεκριμένου συνόλου (πχ θεματικές υποκατηγορίες στην DBPedia). Ακολουθεί owl : <http :// org /2002/07/ owl foaf : <http :// xmlns. com / foaf /0.1/ dc: <http :// purl. org /dc/ terms void : <http :// rdfs. org /ns/ void dbp : <http :// dbpedia. org / resource />. : DBpedia a void : Dataset ; foaf : homepage <http :// dbpedia. org /> ; void : subset : DBpedia2DBLP. : DBLP a void : Dataset ; foaf : homepage <http :// dblp. l3s.de/ d2r / > ; dc: subject dbp : Computer_science ; dc: subject dbp : Journal ; dc: subject dbp : Proceedings. : DBpedia2DBLP a void : Linkset ; void : subjectstarget : DBpedia ; void : objectstarget : DBLP ; Συνδεδεμένα Δεδομένα 13/68

22 void : linkpredicate owl : sameas. Εικόνα 7: Παράδειγμα περιγραφής void [10] Όπως είπαμε, μέρος των μετα-δεδομένων είναι τα δεδομένα προέλευσης (provenance metada). Το πιο διαδεδομένο λεξιλόγιο για την αναπαράσταση αυτών των δεδομένων είναι το Dublin Core 4 και πιο συγκεκριμένα τα γνωρίσματα dc:creator, dc:publisher and dc:date. Το Open Provenance Model 5 παρέχει ένα άλλο λεξιλόγιο που περιγράφει όρους προέλευσης με όρους όπως Agents, Artifacts και Processes. Τα μετα-δεδομένα μπορούν επίσης να υπογραφούν ηλεκτρονικά. Το NG4J Named Graphs API for Jena 6 παρέχει τη δυνατότητα έκδοσης τέτοιων υπογραφών. 4.2 ΛΕΞΙΛΟΓΙΑ, ΟΝΤΟΛΟΓΙΕΣ Το RDF είναι ένα γενικό αφηρημένο μοντέλο δεδομένων που περιγράφει πόρους χρησιμοποιώντας τριάδες. Δεν παρέχει όμως όρους συγκεκριμένους για το πεδίο στο οποίο αναφέρεται για την περιγραφή των τάξεων των αντικειμένων και των σχέσεών τους. Εργαλεία όπως το SKOS, RDFS και OWL χρησιμοποιούνται γι αυτό το σκοπό. Το Simple Knowledge Organization System (SKOS) παρέχει ένα μοντέλο έκφρασης βασικών δομών και περιεχομένου εννοιολογικών σχημάτων όπως θησαυρών, ταξινομιών, λιστών θεμάτων κεφαλίδων (subject heading lists) κι άλλων παρόμοιων τύπων λεξιλογίων. Σαν μία εφαρμογή του Resource Description Framework (RDF), το SKOS επιτρέπει τη σύνθεση και δημοσίευση εννοιών στον Παγκόσμιο Ιστό, τη σύνδεσή τους με δεδομένα στον Ιστό και την ολοκλήρωσή τους σε άλλα εννοιολογικά σχήματα [11]. Το SKOS δεν είναι οντολογία, δεν είναι τυπική γλώσσα παράστασης γνώσης ενώ δεν μπορεί να εκφράσει γεγονότα κι αξιώματα του πραγματικού κόσμου [12] 7. Η βασική έννοια στο SKOS είναι η τάξη skos:concept. Ένα λεξιλόγιο SKOS χτίζεται όπως ένα σημασιολογικό δίκτυο πραγματώσεων αυτής της τάξης που αναπαριστούν όρους θησαυρών, ταξινομήσεων, συλλογών αυτών (skos:collection, skos:orderedcollection). Διαθέτει γνωρίσματα για ισοδυναμία όρων Συνδεδεμένα Δεδομένα 14/68

23 (skos:exactmatch), για προτιμητέα κι εναλλακτική ονομασία (π.χ. skos:preflabel and skos:altlabel), γνωρίσματα για την αναπαράσταση ιεραρχιών (skos:narrower, skos:broader) και σχέσεις για συσχετισμούς εννοιών όπως skos:related. Κάθε λεξιλόγιο SKOS είναι μία πραγμάτωση της τάξης skos:conceptscheme. To SKOS οφείλει πολλά στις προσπάθειες δεκαετιών της κοινότητας Συστημάτων Οργάνωσης Γνώσης για το σχηματισμό εφαρμογών, οδηγιών και προτύπων. Δύο τέτοια πρότυπα είναι το ISO-2788 για μονογλωσσικούς θησαυρούς, και το ISO-5964 για πολυγλωσσικούς θησαυρούς [11]. Το SKOS, παρ όλου δεν περιλαμβάνει κανόνες δημιουργίας εννοιολογικών σχημάτων, όμως το μοντέλο αντανακλά βασικές αρχές κατασκευής Συστημάτων Οργάνωσης Γνώσης. Το λεξιλόγιό του έχει επηρεαστεί ιδιαίτερα από πρότυπα οδηγιών θησαυρών. Υπάρχουν πολλά κοινά σημεία μεταξύ του SKOS και των ISO-2788 και ISO-5964 αλλά και διαφοροποιήσεις. Στο [11] παρατίθεται ένας παραλληλισμός του SKOS με τα ISO πρότυπα και εντοπίζονται οι διαφορές τους. Το RDF Schema (RDFS) εισάγει την αντικειμενοστραφή μοντελοποίηση στο RDF [6]. Περιγράφει το μελετώμενο πεδίο με όρους τάξεων, πραγματώσεων των τάξεων και γνωρισμάτων που περιγράφουν τάξεις και άτομα. Η σχέση ατόμου τάξης δηλώνεται με την rdf:type μεταξύ του URI του ατόμου και του URI της τάξης. Οι κλάσεις δημιουργούν ιεραρχίες με τις υποτάξεις τους με το γνώρισμα rdfs:subclassof. Μία πραγμάτωση μία κλάσης θεωρείται ότι ανήκει και στις υπερτάξεις της κλάσης κληρονομώντας τους ορισμούς των. Τα γνωρίσματα επίσης οργανώνονται σε ιεραρχίες με τo γνώρισμα rdfs:subpropertyof. Τα γνωρίσματα είναι κι αυτά πόροι και μπορούν να έχουν δικά τους γνωρίσματα. Το RDFS εισάγει στο RDF την ιδέα των περιορισμών (constraints). Ένας rdfs:range περιορισμός πχ δηλώνει ότι η τιμή ενός γνωρίσματος (πχ dc:creator) πρέπει να είναι πραγμάτωση μίας συγκεκριμένης τάξης (πχ. Person), ενώ ένας περιορισμός πεδίου αντίστοιχα για το dc:creator δηλώνει ότι μπορεί να χρησιμοποιηθεί σαν γνώρισμα μόνο από πραγματώσεις της τάξης Work. Άρα μία RDFS οντολογία αποτελείται από ιεραρχίες τάξεων, ιεραρχίες γνωρισμάτων και περιορισμούς. Δύο ονοματοχώροι (namespace) χρησιμοποιούνται για το RDFS: που συνδέεται με το πρόθεμα rdfs: και ο που συνδέεται με το πρόθεμα rdf: Συνδεδεμένα Δεδομένα 15/68

24 Ο συγγραφέας ενός RDFS λεξιλογίου μπορεί να θέσει κανόνες οι οποίοι επιτρέπουν το συμπερασμό επιπλέον πληροφορίας μέσα από τους RDF γράφους. Η Web Ontology Language (OWL) επεκτείνει την εκφραστικότητα του RDFS. Για παράδειγμα οι owl:equivalentproperty και owl:equivalentclass, σε συνδυασμό με τα rdfs:subclassof και rdfs:subpropertyof παρέχουν ισχυρούς μηχανισμούς για τον ορισμό αντιστοιχίσεων μεταξύ όρων από διαφορετικά λεξιλόγια, αυξάνοντας έτσι τη διαλειτουργικότητα των συνόλων δεδομένων. To RDFS έχει περιορισμένες δυνατότητες όπως: Περιορισμοί γνωρίσματος δεν μπορούν να εκφραστούν σε επίπεδο τάξης πχ. Ότι το rdfs:range του dc:creator είναι διαφορετικό για βιβλία (Author) απ ότι για συμφωνίες (Composer). Δεν μπορεί να εκφράσει cardinality (πχ ένα Άτομο έχει δύο γονείς). Δεν μπορεί να εκφράσει σημασιολογικά γνωρίσματα συσχετίσεων. Π.χ. τη σχέση αντιστροφής μεταξύ δύο γνωρισμάτων (husbandof και wifeof), μεταβατικές σχέσεις (οι πρόγονοι ενός ατόμου είναι πρόγονοι των παιδιών του), μονοσήμαντες συσχετίσεις (ένα παιδί έχει ένα πατέρα και μία μητέρα), κι αντιστρόφως μονοσήμαντες (ο αριθμός ασφάλισης ταυτοποιεί μοναδικά τον κάτοχό του). Δεν είναι δυνατός ο ορισμός τάξεων με πράξεις συνόλων. Πχ ότι η τάξη Άτομο είναι η ένωση των τάξεων Άνδρας και Γυναίκα Τέτοιες περιπτώσεις μπορούν να μοντελοποιηθούν με την OWL αυξάνοντας την ακρίβεια των ορισμών και τη δυνατότητα συλλογισμών, επιβαρύνοντας όμως την υπολογιστική αποδοτικότητα. Γι αυτό το σκοπό έχουν δημιουργηθεί 3 πρότυπα της OWL με διαφορετική διαβάθμιση του λόγου εκφραστικότητα/αποδοτικότητα: OWL Lite, OWL DL, OWL Full. Όταν συνδυαστούν με κατάλληλες μηχανές συλλογισμού, το RDFS κι η OWL επιτρέπουν τον έμμεσο συμπερασμό συσχετίσεων για τα δεδομένα. Συνήθως στα Συνδεδεμένα Δεδομένα, η χρήση του RDFS είναι αρκετή. Χρησιμοποιούνται όμως συχνά όροι από την OWL όπως το sameas για να δηλωθεί ότι δύο URIs αναφέρονται στον ίδιο πόρο. Ο συνδυασμός RDFS και OWL συχνά αναφέρεται ως RDFS++. Συνδεδεμένα Δεδομένα 16/68

25 Μερικά γνωστά και ευρέως χρησιμοποιούμενα λεξιλόγια, μοντέλα, πλαίσια κι οντολογίες ΠΛΑΙΣΙΑ - ΛΕΞΙΛΟΓΙΑ Dublin Core Metadata Initiative (DCMI): ορίζει γνωρίσματα μετα-δεδομένων όπως: title, creator, date and subject. Description of a Project (DOAP) περιλαμβάνει όρους που περιγράφουν έργα λογισμικού ιδιαίτερα αυτά του Ανοικτού Κώδικα Creative Commons (CC) schema για όρους πνευματικών κι αδειών χρήσης σε RDF. Basic Geo (WGS84) ορίζει όρους όπως lat και long για την περιγραφή πραγμάτων στο γεωγραφικό χώρο. OAI Object Reuse and Exchange που χρησιμοποιείται από βιβλιοθήκες κι εκδοτικούς οργανισμούς για την αναπαράσταση συλλογών διαφορετικών εκδόσεων ενός κειμένου ή της δομής του. Europeana Data Model πλαίσιο για την αναπαράσταση μεταδεδομένων μουσείων, βιβλιοθηκών κι αρχείων. ΟΝΤΟΛΟΓΙΕΣ CIDOC-Conceptual Reference Model παρέχει ορισμούς και μία τυπική δομή για την περιγραφή εννοιών και συσχετίσεων στην τεκμηρίωση πολιτιστικής κληρονομιάς. Bibliographic Ontology (BIBO) έννοιες και γνωρίσματα για την περιγραφή αναφορών (πχ., quotes, books, articles, κλπ). Functional Requirements For Bibliographic Records (FRBR) αναπαράσταση εννοιολογικών μετα-δεδομένων βιβλιογραφικών εγγραφών βιβλιοθηκών. Music Ontology όρους σχετικούς με τη μουσική, καλλιτέχνες, άλμπουμ, τραγούδια, παραστάσεις κλπ. Good Relations Ontology για προϊόντα κι υπηρεσίες σχετικές με εφαρμογές e- commerce Friend-of-a-Friend (FOAF) ορίζει όρους που περιγράφουν πρόσωπα, δραστηριότητες και τις σχέσεις τους με άλλα πρόσωπα ή Programmes Ontology για ραδιοτηλεοπτικά προγράμματα Semantically-Interlinked Online Communities (SIOC) περιγράφει πτυχές της online community sites, όπως users, posts and forums. Συνδεδεμένα Δεδομένα 17/68

26 4.3 ΔΗΜΙΟΥΡΓΊΑ ΣΥΝΔΕΣΜΩΝ Αφού ορισθούν τα σύνολα δεδομένων και δημιουργηθούν, το επόμενο βήμα είναι η σύνδεσή τους. Η δημιουργία RDF συνδέσμων μεταξύ των πόρων δύο συνόλων δεδομένων μπορεί αν γίνει είτε δια χειρός είτε αυτόματα. Η ανεύρεση υπαρχόντων URIs των πόρων που θα συνδεθούν γίνεται είτε με τη χρήση SPARQL endpoint που έχει φτιάξει ο πάροχος των δεδομένων, είτε μέσω φυλλομετρητή Συνδεδεμένων Δεδομένων. Υπάρχουν επίσης ευρετήρια URIs όπως το Sindice 8 και το Falcons 9, όπου μπορεί να γίνει αναζήτηση με λέξεις κλειδιά για τον εντοπισμό URIs υποψήφιων για σύνδεση. Εκτός από τα λάθη που θα συνέβαιναν σε μία παρόμοια χειρόγραφη σύνδεση εγγραφών, υπάρχει ένας ακόμη παράγοντας σφάλματος: να συνδέεται ένα URI με το html ή το rdf κείμενο που περιγράφει το αντικείμενο κι όχι με το URI του. Φυσικά η δια χειρός δημιουργία RDF links είναι εφικτή για πολύ μικρό όγκο δεδομένων, και σίγουρα δεν θα μπορούσε να εφαρμοσθεί σε περιπτώσεις όπου χιλιάδες ή εκατομμύρια URIs από διαφορετικές πηγές θα πρέπει να συνδεθούν. Συνήθως ακολουθείται μία αυτόματη ή ημι-αυτόματη διαδικασία σύνδεσης εγγραφών που δημιουργεί τους συνδέσμους. Το πρόβλημα της σύνδεσης δύο συνόλων δεδομένων είναι γνωστό από τις βάσεις δεδομένων [13] (Record Linkage, Record matching, Mege-purge, Data Deduplication, Instance Identification, Identity Resolution) κι από την Τεχνητή Νοημοσύνη (database hardening, name matching), όπως και στο ταίριασμα οντολογιών. Παρόμοιες τεχνικές εφαρμόζονται κι εδώ. Υπάρχουν δύο βασικές κατηγορίες τεχνικών: α) του κλειδιού β) της ομοιότητας. Τεχνικές κλειδιού: στα διάφορα πεδία έχουν καθιερωθεί διάφορα σχήματα ταυτοποίησης των οντοτήτων τους πχ GTIN (Global Trade Item Numbers) για προϊόντα, ISBN (International Standard Book Number) για τις εκδόσεις, ISIN (International Securities Identification Number) για οικονομικά προϊόντα. Αν υπάρχουν τέτοια αναγνωριστικά στα δεδομένα, τότε αυτά είτε θα πρέπει να είναι μέρος του URI είτε θα πρέπει να υπάρχουν σαν γνώρισμα. Τέτοια γνωρίσματα των οποίων οι τιμές ταυτοποιούν το υποκείμενο της τριάδας - χαρακτηρίζονται ως inverse functional properties, και θα πρέπει να ορίζονται αντίστοιχα στο αντίστοιχο λεξικό με τη δήλωση owl:inversefunctionalproperty. Έχοντας, είτε στο URI είτε σαν InverseFunctionalProperty, το αναγνωριστικό της οντότητας πολύ εύκολα με απλούς Συνδεδεμένα Δεδομένα 18/68

27 αλγορίθμους μπορούν να δημιουργηθούν RDF σύνδεσμοι μεταξύ οντοτήτων με το ίδιο αναγνωριστικό από διαφορετικές πηγές. Τεχνικές ομοιότητας: Όταν δεν υπάρχουν κοινά αναγνωριστικά μεταξύ των συνόλων δεδομένων, τότες εφαρμόζονται ευριστικές τεχνικές που βασίζονται στην προσέγγιση. Οι τεχνικές αυτές συγκρίνουν διάφορα γνωρίσματα των υποψήφιων οντοτήτων ή/και γνωρίσματα σχετιζόμενων οντοτήτων με αυτές. (πχ για τη σύνδεση δύο εγγραφών που αναφέρονται στον ίδιο συγγραφέα, εκτός από την ημερομηνία γέννησης και τον τόπο γέννησης, μπορεί να συγκριθούν και τίτλοι βιβλίων). Συναθροίζονται οι διάφορες βαθμολογίες ομοιότητας, κι αν το άθροισμα ξεπεράσει κάποιο όριο, τότε οι οντότητες συνδέονται. Επειδή δεν είναι δεδομένο ότι οι πηγές παρέχουν πάντα πλήρη περιγραφή των οντοτήτων (δηλ. όλα τα γνωρίσματα έχουν τιμές), η στάθμιση των κριτηρίων βάση των οποίων γίνεται το ταίριασμα, θα πρέπει να εξαρτάται κι από τα διαθέσιμα γνωρίσματα. Στις περιπτώσεις που τα γνωρίσματα περιέχουν σταθερές τιμές ελεύθερου κειμένου, η απλή σύγκριση των δύο τιμών δεν είναι αρκετή, αφού μπορεί να υπάρχουν τυπογραφικές διαφορές που μπορεί να οδηγήσουν σε λανθασμένο συμπέρασμα. Στο χώρο των βάσεων δεδομένων, έχουν αναπτυχθεί διάφορες τεχνικές που έχουν πολύ καλά αποτελέσματα για συγκεκριμένους τύπους διαφορών. Στην εργασία των ElMargamid et al. [13]. παρουσιάζονται αυτές οι τεχνικές. Ακολούθως αναφέρουμε συνοπτικά τις περισσότερες από αυτές. Τεχνικές ομοιότητας βασισμένες στη σύγκριση χαρακτήρων: Edit distance: η απόσταση διόρθωσης μεταξύ δύο συμβολοσειρών σ 1 και σ 2 είναι ο ελάχιστος αριθμός των διορθώσεων (εισαγωγή, διαγραφή, αλλαγή ενός χαρακτήρα) που πρέπει να γίνουν ώστε η σειρά σ 1 να μετατραπεί στη σ 2 Είναι αποτελεσματικός για τυπογραφικά λάθη. Affine gap distance: Η προηγούμενη τεχνική δεν λειτουργεί καλά όταν οι συγκρινόμενες συμβολοσειρές έχουν συντμηθεί ή περικοπεί (πχ «Π.Βαγγελάτος» με «Παναγιώτης Βαγγελάτος»). Η τεχνική της απόστασης του αντιμετάθεσης κενού εισάγει δύο επιπλέον διορθώσεις: άνοιγμα κενού κι επέκταση κενού. Το κόστος επέκτασης κενού είναι συνήθως μικρότερο από κόστος ανοίγματος κενού. Συνδεδεμένα Δεδομένα 19/68

28 Smith-Waterman distance: Είναι επέκταση των δύο προηγούμενων όπου διαφορές στην αρχή και στο τέλος των συμβολοσειρών έχουν μικρότερο κόστος απ ότι διαφορές στη μέση. Επιτρέπει καλύτερα την τοπική ευθυγράμμιση των σειρών (πχ Prof. John R. Smith, University of Calgary και John R. Smith, Prof. Έχουν χαμηλό κόστος ταιριάσματος. Jaro distance: ο αλγόριθμος κατασκευάστηκε κυρίως για τη σύγκριση ονομάτων κι επωνύμων και λαμβάνει υπ όψη του τα μήκη των δύο συμβολοσειρών, το πλήθος των κοινών χαρακτήρων (αυτοί που είναι ίδιοι, κι η διαφορά των θέσεων των χαρακτήρων είναι μικρότερη ή ίση του μισού του μήκους της μικρότερης συμβολοσειράς) και τον αριθμό των μεταθέσεων (είναι ο αριθμός των θέσεων όπου οι χαρακτήρες δεν είναι ίδιοι). Q-grams: είναι μικρές υπο-συμβολοσειρές μήκους q, των συγκρινόμενων συμβολοσειρών. Η ιδέα είναι ότι συμβολοσειρές που είναι όμοιες θα έχουν ένα μεγάλο αριθμό q-grams κοινών. Οι τεχνικές αυτές λειτουργούν καλά σε τυπογραφικά σφάλματα. Δεν λειτουργούν καλά όταν υπάρχει πχ. Αντιμετάθεση λέξεων. Σε τέτοιες περιπτώσεις χρησιμοποιούνται οι ακόλουθες τεχνικές. Τεχνικές ομοιότητας που βασίζονται σε token. Atomic strings. : ατομικές συμβολοσειρές είναι οι σειρές χαρακτήρων που χωρίζονται από σημεία στίξης. Δύο ατομικές συμβολοσειρές είναι ίσες όταν είναι ίδιες ή η μία είναι πρόθεμα της άλλης. Η ομοιότητα είναι ο αριθμός των ίσων ατομικών συμβολοσειρών δια το μέσω πλήθος αυτών. WHIRL: χρησιμοποιεί την ομοιότητα συνημίτονου με τη στάθμιση tf.idf (tf o ο αριθμός εμφάνισης μίας λέξης στο πεδίο και idf υπολογίζεται από τον αριθμό εμφάνισης της λέξης στη βάση). για τον υπολογισμό της ομοιότητας. Λειτουργεί καλά σε πλήθος περιπτώσεων, ιδιαίτερα στις αντιμεταθέσεις λέξεων. Δεν καλύπτει όμως τυπογραφικά λάθη. Q-grams με tf.idf: επέκταση του WHIRL για την κάλυψη τυπογραφικών λαθών με τη χρήση q-grams αντί λέξεων. Χειρίζεται την εισαγωγή κι διαγραφή λέξεων πολύ καλά. (Gate Communication vs Gate Communication International ταιριάζουν). Τεχνικές φωνητικής ομοιότητας. Χρησιμοποιούνται στις περιπτώσεις που δύο συμβολοσειρές έχουν διαφορετική γραφή άλλα φωνητικά είναι όμοιες. Συνδεδεμένα Δεδομένα 20/68

29 Soundex: αναθέτει ίδιους κωδικούς (ψηφία) σε φωνητικά όμοια συμφώνα κι αφαιρεί τα φωνήεντα από τις λέξεις. Χρησιμοποιείται κυρίως για το ταίριασμα επωνύμων. Έχει επιτυχία στα Καυκασιανά επώνυμα ενώ αντίθετα δεν λειτουργεί καλά στα Ασιατικά αφού αγνοεί τα φωνήεντα που κάνουν τη διαφορά στα επώνυμα αυτής της προέλευσης. New York state Identification and Intelligence System (NYSIIS).: Διατηρεί τις θέσεις των φωνηέντων αντικαθιστώντας με το A. Αντικαθιστά τα σύμφωνα με άλλα όμοια φωνητικά, αντί για ψηφία. Χρησιμοποιεί τους 9 πρώτους χαρακτήρες του ονόματος. Είναι πιο ακριβής από τον Soundex. Oxford Name Compression Algorithm (ONCA): Σε πρώτη φάση λειτουργεί όπως ο NYSIIS χρησιμοποιώντας άλλη μέθοδο συμπίεσης. Σε δεύτερη φάση εκτελεί τη μέθοδο του Soundex. Metaphone και Double Metaphone: Είναι παραλλαγή του Soundex. Χρησιμοποιεί 16 ήχους συμφώνων που περιγράφουν τους περισσότερους ήχους που χρησιμοποιούνται σε ονόματα. O Double Metaphone είναι παραλλαγή του απλού, χρησιμοποιεί καλύτερη περισσότερες επιλογές καλύπτοντας πολλαπλής κωδικοποίησης ονομάτων που έχουν πολλαπλές προφορές. Ο μεγάλος αριθμός τεχνικών σύγκρισης αντικατοπτρίζει το μεγάλο αριθμό σφαλμάτων ή μετατροπών που μπορεί να συμβούν στα δεδομένα. Υπάρχουν πολύ λίγες μελέτες που συγκρίνουν την αποτελεσματικότητα των τεχνικών αυτών. Οι προηγούμενες τεχνικές αφορούν τη σύγκριση πεδίων. Στη διαδικασία όμως εντοπισμού διπλών εγγραφών, στις περισσότερες περιπτώσεις, θα πρέπει να συγκριθούν παραπάνω από ένα κοινά (ισοδύναμα) πεδία μεταξύ των εγγραφών. Οι μέθοδοι που χρησιμοποιούνται σε αυτές τις περιπτώσεις είναι πιθανολογικές. Στα πιθανολογικά μοντέλα ταιριάσματος το πρόβλημα ανάγεται σε πρόβλημα λήψης απόφασης υπολογίζοντας την πιθανότητα οι δύο εγγραφές να ταιριάζουν. Η πιο γνωστή μέθοδος είναι : Ο κανόνας απόφασης Bayes για ελάχιστο σφάλμα: Αν x είναι το διάνυσμα σύγκρισης των δύο εγγραφών, Μ το σύνολο των εγγραφών που ταιριάζουν και U το σύνολο των εγγραφών που δεν ταιριάζουν, ο κανόνας απόφασης Συνδεδεμένα Δεδομένα 21/68

30 ελάχιστου σφάλματος ορίζει ότι αν ( ) ταιριάζουν. ( ) ( ) ( ) ( ), οι δύο εγγραφές Ο κανόνας απόφασης Bayes για ελάχιστο κόστος: Παρόμοια με την προηγούμενη μέθοδο υπολογίζεται το κόστος του να αποφασισθεί ότι το x ανήκει στο Μ ενώ οι εγγραφές δεν ταιριάζουν (c MU) και το κόστος να υπολογιστεί ότι το x ανήκει στο U ενώ οι εγγραφές ταιριάζουν (c UM) τότε: αν c MM P(M x) + c MU P(U x) >= c UM P(M x) + c UU P(U x) τότε οι εγγραφές δεν ταιριάζουν, διαφορετικά ταιριάζουν. Απόφαση με περιοχή απόρριψης: Στον κανόνα απόφασης Bayes οι Fellegi & Sunter [14] προσθέτουν άλλη μία περιοχή (σύνολο), των εγγραφών που πιθανόν να μοιάζουν. Πλέον οι προηγούμενοι λόγοι δεν συγκρίνονται ως προς ένα όριο αλλά ένα εύρος ορίων. Έτσι αν ο λόγος ( ) ( ) ξεπερνάει το ανώτατο όριο τότε οι εγγραφές ταιριάζουν, αν είναι μικρότερος από το κατώτατο όριο οι εγγραφές δεν ταιριάζουν, ενώ αν βρίσκεται ανάμεσα στα δύο όρια, οι εγγραφές που ανήκουν σε αυτή την περιοχή πιθανόν να ταιριάζουν και η τελική απόφαση θα απαιτήσει ανθρώπινη διαίσθηση, κοινή λογική ή εμπειρία [15]. Δεν υπάρχει απάντηση στο ερώτημα «ποια τεχνική είναι καταλληλότερη για μία συγκεκριμένη εργασία εντοπισμού διπλών εγγραφών, γιατί η επιτυχία τους εξαρτάται από τα δεδομένα τα ίδια. Εργαλεία που χρησιμοποιούν τέτοιες τεχνικές και δημιουργούν RDF links είναι το Silk Link Discovery Framework 10 και το LIMES - Link Discovery Framework for Metric Spaces 11. To Silk περιλαμβάνει μία γλώσσα όπου ο προγραμματιστής δηλώνει ποιοι RDF σύνδεσμοι θα πρέπει να ανακαλυφθούν καθώς και ποιες συνθήκες πρέπει να ικανοποιούν τα δεδομένα για να συνδεθούν. Οι συνθήκες μπορούν να συνδυάσουν διάφορες τεχνικές ομοιότητας ενώ μπορεί να ληφθεί υπ όψη κι ο γράφος που δημιουργείται γύρω από τα δεδομένα. Η πρόσβαση στα δεδομένα γίνεται με SPARQL Συνδεδεμένα Δεδομένα 22/68

31 Ακολουθεί παράδειγμα ορισμού παραμέτρων ταιριάσματος στο Silk για τη σύνδεση των datasets της DrugBank και Sider όπου όπως φαίνεται χρησιμοποιείται η τεχνική της απόστασης διόρθωσης ( <Compare metric="levenshteindistance" threshold="1">) <?xml version="1.0" encoding="utf-8"?> <Silk> <Prefixes> <Prefix id="rdf" namespace=" <Prefix id="rdfs" namespace=" <Prefix id="foaf" namespace=" <Prefix id="owl" namespace=" <Prefix id="dbpedia-owl" namespace=" <Prefix id="dbpedia" namespace=" <Prefix id="dbpedia-prop" namespace=" <Prefix id="dc" namespace=" <Prefix id="drugbank" namespace=" <Prefix id="opencyc" namespace=" <Prefix id="sider" namespace=" </Prefixes> <DataSources> <DataSource id="sider" type="sparqlendpoint"> <Param name="endpointuri" value=" </DataSource> <DataSource id="drugbank" type="sparqlendpoint"> <Param name="endpointuri" value=" </DataSource> </DataSources> <Interlinks> <Interlink id="drugs"> <LinkType>owl:sameAs</LinkType> <SourceDataset datasource="sider" var="a"> <RestrictTo>?a rdf:type sider:drugs </RestrictTo> </SourceDataset> <TargetDataset datasource="drugbank" var="b"> <RestrictTo>?b rdf:type drugbank:drugs </RestrictTo> Συνδεδεμένα Δεδομένα 23/68

32 </TargetDataset> <LinkCondition> <Aggregate type="max"> <Compare metric="levenshteindistance" threshold="1"> <TransformInput function="lowercase"> <Input path="?a/rdfs:label"/> </TransformInput> <TransformInput function="lowercase"> <Input path="?b/rdfs:label"/> </TransformInput> </Compare> <Compare metric="levenshteindistance" threshold="1"> <TransformInput function="lowercase"> <Input path="?a/rdfs:label"/> </TransformInput> <TransformInput function="lowercase"> <Input path="?b/drugbank:synonym"/> </TransformInput> </Compare> </Aggregate> </LinkCondition> <Filter limit="1"/> </Interlink> </Interlinks> <Outputs> <Output maxconfidence="0.1" type="file"> <Param name="file" value="sider_drugbank_drugs_verify_links.xml"/> <Param name="format" value="alignment"/> </Output> <Output minconfidence="0.1" type="file"> <Param name="file" value="sider_drugbank_drugs_accepted_links.xml"/> <Param name="format" value="alignment"/> </Output> </Outputs> </Silk> Εικόνα 8: Silk: Σύνδεση φαρμάκων της DrugBank και Sider, Πηγή : Σε αντίθεση με αυτά τα εργαλεία όπου ο χρήστης ορίζει την ευριστική ταιριάσματος, υπάρχουν εργαλεία που μαθαίνουν την ευριστική μέσα από τα δεδομένα. Τέτοια Συνδεδεμένα Δεδομένα 24/68

33 εργαλεία είναι RiMOM 12, idmash [16], ObjectCoref 13. To RiMOM περιγράφεται στην ευθυγράμμιση οντολογιών. Το πλεονέκτημα αυτών των τεχνικών είναι μεν ότι δεν χρειάζονται να ρυθμιστούν από το χρήστη, αλλά το μειονέκτημα είναι ότι έχουν μικρότερη ακρίβεια σε σχέση με τις μεθόδους όπου ο χρήστης ορίζει το μοντέλο ταιριάσματος. Στα πλαίσια της Ontology Alignment Evaluation Initiative η αξιολόγηση των αποτελεσμάτων τέτοιων μεθόδων έδωσε ακρίβεια μεταξύ 0,3 και 0,89. Άλλη μία σχετική εργασία με τη δημιουργία συνδέσμων, είναι η συντήρησή τους μέσα στο χρόνο κι όσο οι πηγές δεδομένων αλλάζουν Πόροι μπορεί να μετακινηθούν, να αλλάξουν ή να αφαιρεθούν με αποτέλεσμα τα URIs να μην είναι ανακτήσιμα. Οι N.Popitch και Β. Hasholfer [17], προτείνουν ένα γενικό πλαίσιο εντοπισμού αλλαγών (DSNotify) που βοηθάει τόσο τους ανθρώπους όσο και τις μηχανές στο να διορθώσουν προβλήματα που προκύπτουν από σπασμένους συνδέσμους. Μπορεί να χρησιμοποιηθεί ως add-on σε υπάρχουσες εφαρμογές που θέλουν να διατηρούν την ακεραιότητα των συνδέσεών τους (εντοπίζοντας και διορθώνοντας). Μπορεί να ενημερώνει εφαρμογές που είναι συνδρομητές, για αλλαγές που γίνονται στα data sets (ειδοποιήσεις), ενώ μπορεί επίσης να προωθήσει αιτήματα σε νέες τοποθεσίες όπου έχουν μετακινηθεί οι πόροι. 4.4 ΕΥΘΥΓΡΑΜΜΙΣΗ ΟΝΤΟΛΟΓΙΩΝ Οι οντολογίες παρέχουν μία ρητή εννοιολογική αναπαράσταση του πραγματικού κόσμου. Συνήθως, αποτελούν το ενδιάμεσο συνδετικό επίπεδο μεταξύ ενός πεδίου της πραγματικότητας και του αντίστοιχου λογικού σχεδιασμού ενός πληροφοριακού συστήματος που έρχεται να καλύψει όλη ή μέρος αυτής. Στο σημασιολογικό ιστό, όπως είπαμε παρέχουν την περιγραφή του περιεχομένου και των πόρων με αυστηρούς φορμαλισμούς, έτσι ώστε να είναι δυνατή η επεξεργασία από μηχανές. Στα πλαίσια της αυτοματοποιημένης σύνδεσης δεδομένων αλλά και στα πλαίσια δημιουργίας συμπερασμάτων από μηχανές, η απόφαση του αν δύο αναγνωριστικά αναφέρονται Συνδεδεμένα Δεδομένα 25/68

34 στο ίδιο άτομο (individual), θα εξαρτηθεί κατ αρχήν από το αν τα δύο άτομα είναι πραγματώσεις της ίδιας ή ισοδύναμης τάξης. Αν τα άτομα είναι της ίδιας τάξης (της ίδιας οντολογίας) έχει καλώς. Αν όμως ανήκουν σε διαφορετικές οντολογίες πώς συμπεραίνεται ότι είναι συγκρίσιμα; Θα πρέπει να γίνει σύγκριση των τάξεων για να αποφασισθεί αν αναπαριστούν την ίδια έννοια. Η διαδικασία αντιστοίχησης των οντολογιών ονομάζεται ευθυγράμμιση (alignment). H ευθυγράμμιση γίνεται είτε απ ευθείας μεταξύ των δύο οντολογιών είτε μέσω μίας τρίτης που χρησιμοποιείται ως αναφορά. Το αποτέλεσμα θα είναι μία νέα οντολογία [18]. Στη διαδικασία σύγκρισης μπορεί να ληφθούν υπ όψη επίσης άλλες παράμετροι (π.χ. σταθμίσεις συγκρίσιμων χαρακτηριστικών, αποδεκτά όρια) κι εξωτερικοί πόροι. Το αποτέλεσμα της σύγκρισης δύο οντοτήτων μπορεί να δώσει ως αποτέλεσμα μία αντιστοίχηση ισοδυναμίας (equivalence), γενίκευσης (more general), ή καμία αντιστοίχιση (disjointness), Τεχνικές ταιριάσματος οντολογιών έχουν βασιστεί σε προσεγγίσεις ορολογίας (πχ τεχνικές γλωσσολογικές και ανάκτησης πληροφοριών), δομικές (π.χ. ταίριασμα γράφων),σημασιολογικές (π.χ. σε μοντέλα) [19] και επέκτασης (πραγματώσεις δεδομένων). Η έρευνα των Shvaiko & Euzenat [18] περιλαμβάνει τη σύγκριση μερικών εργαλείων ευθυγράμμισης κι αναφέρουμε συνοπτικά μερικά: SAMBO : Σύστημα ταιριάσματος και συγχώνευσης οντολογιών Βιοϊατρικής. Χειρίζεται οντολογίες OWL κι επιστρέφει 1:1 αντιστοιχίσεις μεταξύ εννοιών και σχέσεων. Χρησιμοποιεί διάφορους αλγόριθμούς ομοιότητας : n-gram, απόσταση διόρθωσης, σύγκριση λέξεων. Τα αποτελέσματα αυτών των αλγορίθμων σταθμίζονται με προκαθορισμένα βάρη. Χρησιμοποιεί δομικό ταίριασμα, όπου ένας επαναληπτικός αλγόριθμός ελέγχει αν δύο έννοιες εμφανίζονται στην ίδια θέση σε ιεραρχίες isa και part of, σε σχέση με ήδη ταιριασμένες έννοιες. Χρησιμοποιεί προηγούμενη γνώση, ελέγχοντας τη σχέση μεταξύ αντιστοιχισμένων οντοτήτων σε Unified Medical Language System (UMLS) και ένα σώμα γνώσης που έχει συλλεχθεί από δημοσιευμένη βιβλιογραφία μέσω ενός απλού Bayes classifier. Όλα αυτά τα αποτελέσματα συνδυάζονται με κάποια βάρη κι εμφανίζονται στο χρήστη αφού φιλτραριστούν με κάποια κατώφλια. Αφού γίνουν οι διορθώσεις από το χρήστη οριστικοποιούνται και δημιουργείται ή νέα οντολογία. Συνδεδεμένα Δεδομένα 26/68

35 Falcon: Είναι μία αυτόματη προσέγγιση διαίρει και βασίλευε. Χειρίζεται μεγάλες οντολογίες RDFS και OWL με χιλιάδες οντότητες. Λειτουργεί σε τρείς φάσεις α) μερισμός των οντολογιών, β) μπλοκ ταιριάσματος, γ) ανακάλυψη ευθυγραμμίσεων. Στην πρώτη φάση οι κλάσεις και τα γνωρίσματα τις οντολογίες χωρίζονται σε ομάδες με βάση δομικά κριτήρια (πχ subclassof) δημιουργεί μπλοκ από αυτές τις ομάδες. Συγκρίνονται τα μπλοκ δύο οντολογιών ως προς τις οντότητές τους χρησιμοποιώντας I-SUB σύγκριση συμβολοσειρών. Βάσει κατωφλίου επιλέγονται τα block με υψηλή ομοιότητα. Τέλος, συνδυάζονται ένα γλωσσολογικό εργαλείο ταιριάσματος V-Doc κι ένα εργαλείο δομικού ταιριάσματος GMO για να ανακαλυφθούν ευθυγραμμίσεις μεταξύ των ταιριασμένων block. Τέλος, η ευθυγραμμισμένη οντολογία εξάγεται μέσω άπληστης επιλογής. DSSim: Χειρίζεται μεγάλες οντολογίες OWL και SKOS κι υπολογίζει 1:1 ευθυγραμμίσεις με σχέσης ισοδυναμίας και γενίκευσης μεταξύ εννοιών και γνωρισμάτων. Αφού μεριστούν οι οντολογίες, κάθε έννοια και γνώρισμα επεκτείνεται με τα υπέρνυμα από το WordNet. Οι εκτεταμένες έννοιες και γνωρίσματα μεταξύ των δύο οντολογιών συγκρίνονται. RiMOM: Το RiMoM είναι ένα δυναμικό πλαίσιο ταιριάσματος οντολογιών πολλαπλής στρατηγικής [18]. Επεκτείνει προηγούμενη έκδοση του συστήματος που επικεντρωνόταν στο συνδυασμό στρατηγικών πολλαπλού ταιριάσματος, μέσω ελαχιστοποίησης του κινδύνου Bayesian απόφασης. Η νέα έκδοση εκτιμάει ποσοτικά την ομοιότητα των χαρακτηριστικών για κάθε εργασία ταιριάσματος. Χρησιμοποιούνται δύο μέθοδοι ταιριάσματος: α) γλωσσολογική ομοιότητα (edit distance πάνω στις ετικέτες των οντοτήτων, vector distance στα σχόλια και στις πραγματώσεις των οντοτήτων και β) δομική ομοιότητα (παραλλαγή της Similarity Flooding [20]) εφαρμοζόμενες ως τρεις στρατηγικές ομοιότητας: έννοια με έννοια, γνώρισμα με γνώρισμα, έννοια με γνώρισμα. Στη σειρά, η επιλογή στρατηγικής χρησιμοποιεί παράγοντες ομοιότητας κι ετικετών, που έχουν αποκτηθεί από την προεπεξεργασία των συγκρινόμενων οντολογιών, για να αποφασισθεί ποια πληροφορία θα επιλεχθεί για τη διαδικασία ταιριάσματος. Μετά την διαβίβαση της ομοιότητας, η διαδικασία ταιριάσματος ολοκληρώνει με το ραφινάρισμα της ευθυγράμμισης των οντολογιών κι εξαγωγή του συμπεράσματος. Συνδεδεμένα Δεδομένα 27/68

36 4.5 ΔΙΑΧΕΙΡΙΣΗ ΤΗΣ ΟΜΟ-ΑΝΑΦΟΡΑΣ Ομο-αναφορά (Co-reference) είναι το πρόβλημα που προκύπτει όταν δύο ονόματα αναφέρονται στην ίδια οντότητα. Το πρόβλημα μπορεί να δημιουργηθεί είτε γιατί όντως η ίδια οντότητα είναι γνωστή με δύο ονόματα (πχ «Ο.Ελύτης» κι «Ο.Αλεπουδέλης» μπορεί να αναφέρονται στο ίδιο πρόσωπο) είτε γιατί από λάθος έχει χρησιμοποιηθεί άλλο όνομα, είτε γιατί εκ των πραγμάτων χρησιμοποιείται διαφορετικό αλφάβητο. Στο χώρο των βιβλιοθηκών το πρόβλημα της αντιστοίχησης (ταιριάσματος) ονομαστικών καταλόγων και πηγών (authority files) από διαφορετικές βιβλιοθήκες είναι πολύ γνωστό. Η πιο γνωστή προσπάθεια συνένωσης είναι αυτή του Virtual International Authority File. Στην Εικόνα 9, φαίνονται οι διαφορετικοί τρόποι με τους οποίους το όνομα Γιάννης Ρίτσος (π.χ. «Giannis Ritsos», «Ritsos, Giannēs», «R tsos, Gi nn s», «Ritsos, Jannis» ) είναι καταχωρημένο στις διαφορετικές βιβλιοθήκες που συμμετέχουν στο έργο του VIAF. Εικόνα 9 : Παραλλαγές του ονόματος του Γ.Ρίτσου από τις εγγραφές ονομαστικών καταλόγων κεφαλίδων και πηγών των βιβλιοθηκών που έχουν συνενωθεί στο VIAF. Το πρόβλημα της ομο-αναφοράς είναι αυτοδημιούργητο κι υπαρκτό στο σημασιολογικό ιστό, εξ αιτίας της χρήσης διαφορετικών URIs από τα διαφορετικά σύνολα δεδομένων. H έλλειψη γνώσης της ομο-αναφοράς μπορεί να οδηγήσει κατ αρχή στην αδυναμία σύνδεσης δεδομένων και κατά συνέπεια στην αναποτελεσματική δημιουργία συμπερασμών. Στο χώρο της τεχνητής νοημοσύνης κι ειδικότερα στα συστήματα γνώσης η αντιμετώπιση του προβλήματος, είναι η χρήση της «υπόθεσης του μοναδικού ονόματος (unique name assumption)» [21] όπου γίνεται μονοσήμαντη (1 προς 1) αντιστοίχιση μεταξύ ονομάτων κι αντικειμένων πεδίου. Είναι μία Συνδεδεμένα Δεδομένα 28/68

37 απλοποιημένη υπόθεση όπου στην ουσία εκμηδενίζει το πρόβλημα. Ένα σύστημα βασισμένο στη γνώση έχει συνήθως μία μικρή ομάδα κατασκευαστών, δεν είναι κατανεμημένο όποτε η εξασφάλιση της υπόθεσης είναι ελεγχόμενη. Κάτι τέτοιο φυσικά δεν είναι εφαρμόσιμο στο σημασιολογικό ιστό όπου το πλήθος των πηγών, το μέγεθος των συνόλων δεδομένων αλλά κι η κατανομή τους στο χώρο είναι άλλων διαστάσεων [22]. Στα συστήματα βάσεων δεδομένων, επίσης το πρόβλημα είναι γνωστό με διάφορες μορφές όπως των διπλών εγγραφών μέσα στην ίδια βάση (duplicate records), ή της ανάγκης σύνδεσης εγγραφών από διαφορετικές βάσεις. Στο προηγούμενο τμήμα παρουσιάσαμε τεχνικές σύνδεσης εγγραφών στα συστήματα βάσεων δεδομένων. Οι τεχνικές αυτές μπορούν να εφαρμοστούν και σε γράφους RDF υπό την προϋπόθεση όμως ότι υπάρχει τουλάχιστον ένα κοινό χαρακτηριστικό ανάμεσα στους συγκρινόμενους γράφους, κάτι που δεν είναι δεδομένο στα διάφορα σύνολα δεδομένων. Για τον ορισμό των συγκρίσιμων γνωρισμάτων θα πρέπει να γίνει ευθυγράμμιση των αντίστοιχων οντολογιών. Στην εργασία των H.Alani et al. [22], προτείνεται ένα σύστημα εντοπισμού ομοαναφορών ονομάτων σε δύο βασικές φάσεις. Στην πρώτη φάση αφού συγκεντρωθούν τα δεδομένα, με χρήση μεθόδων ομοιότητας συγκρίνονται και δημιουργούνται συστάδες από ονόματα που πιθανόν αναφέρονται στο ίδιο πρόσωπο. Στη δεύτερη φάση, χρησιμοποιώντας την ONTOCOPI (Ontology-based Community of Practice Identifier), για τα μέλη κάθε συστάδας εντοπίζει το Community of Practice (CoP είναι άτομα ή ομάδες που μοιράζονται ενδιαφέροντα, προβληματισμούς οι εργασίες) και τα συγκρίνει. Όσο πιο πολλές είναι οι κοινές εγγραφές ανάμεσα στα συγκρινόμενα CoPs, τόσο πιο μεγάλη πιθανότητα τα συγκρινόμενα ονόματα να αναφέρονται στην ίδια οντότητα. Το ποσοστό ομοιότητας των συγκρινόμενων CoPs είναι ο αριθμός των κοινών εγγραφών ως προς το σύνολο τους. Αν το ποσοστό αυτό είναι πάνω από κάποιο όριο (threshold) τότε τα συγκρινόμενα ονόματα θεωρείται ότι αναφέρονται στο ίδιο πρόσωπο. Οι A.Jaffri et al. [23] προτείνουν χρήση μίας Consistent Reference Service (CRS) για τη διαχείριση των ομο-αναφορών μεταξύ εκατομμυρίων URIs στο Σημασιολογικό Ιστό. Εισάγουν την έννοια της δέσμης (bundle), όπου URIs που αναφέρονται στον ίδιο πόρο με το ίδιο περιεχόμενο. Η ένστασή τους στη χρήση της owl:sameas για να δηλωθεί η ομο-αναφορά, έγκειται στο ότι με τη χρήση της owl:sameas, η γνώση που εμπεριέχεται στους γράφους των URIs, συγχωνεύεται και χάνεται η αυτονομία της Συνδεδεμένα Δεδομένα 29/68

38 κάτι που μπορεί να οδηγήσει σε λανθασμένους συμπερασμούς. Αν πχ υπάρχουν δύο URIs που αναφέρονται στο ίδιο πρόσωπο σε δύο διαφορετικά ιδρύματα, τότε, με τη χρήση της owl:sameas, οι δηλώσεις RDF συγχωνεύονται, το πρόσωπο έχει δύο διευθύνσεις (από τα δύο ιδρύματα) αλλά δεν μπορείς να ξεχωρίσεις ποια διεύθυνση ανήκει σε ποιο ίδρυμα. Με τη χρήση των bundles, μπορεί το ίδιο άτομο να έχει συγκεντρωμένα τα URIs για κάθε ίδρυμα σε ξεχωριστό bundle. Η υπηρεσία CRS έχει υλοποιηθεί τόσο σαν RDF knowledge base όσο και σαν σχεσιακή βάση. Κάθε πάροχος, μπορεί να διαθέτει μία ή παραπάνω CRS. Κάθε CRS έχει το δικό της αλγόριθμο εντοπισμού ισοδυναμίας αφού οι συγκρίσεις είναι διαφορετικές ανά πεδίο. Κάθε URI σε ένα αποθετήριο έχει τη δική του δέσμη στη CRS. Όταν εντοπίζονται ομο-αναφορές οι δέσμες των δύο URIs συγχωνεύονται σε μία νέα. Η CRS βασίζεται σε μία οντολογία ομο-αναφοράς, στην οποία η έννοια της δέσμης ορίζεται ως τάξη: coref:bundle. Τα γνωρίσματά της περιλαμβάνουν το προτιμητέο URI (coref:hascoanonicalreference), τα ισοδύναμα URIs (coref:hasequivalentreference), και την ημερομηνία ενημέρωσης (coref:updatedon). Καμία από τις παραπάνω προσεγγίσεις στο θέμα της ομο-αναφοράς δεν ασχολείται με το θέμα της μακροχρόνιας συντήρησης της γνώσης αυτής. Επικεντρώνονται στην αρχική δημιουργία της και την «εισαγωγή» νέας γνώσης αλλά δεν ασχολούνται με την εξέλιξη της υπάρχουσας (πχ, τι γίνεται αν μία ομο-αναφορά πάψει να υπάρχει) καθώς και με θέματα ασυνέπειας που δύο διαφορετικές σχέσεις ισοδυναμίας μπορεί να δημιουργούν. Μια πιο σφαιρική και φορμαλιστική προσέγγιση του θέματος της διαχείρισης της γνώσης ομο-αναφοράς γίνεται από τους Meghini et al. στο [24]. Κατ αρχάς κάνουν μία διάκριση των διαφόρων προσεγγίσεων σε αυτές που εφαρμόζονται προληπτικά (proactive) κι αυτές που εφαρμόζονται εκ των υστέρων (reactive). Στις τελευταίες, τα δεδομένα ενοποιούνται σε ένα ενιαίο σχήμα, εντοπίζονται οι διπλές εγγραφές (είτε συγκρίνοντας γνωρίσματα είτε εκτιμώντας την πιθανότητα να αναφέρονται στην ίδια οντότητα) και συγχωνεύονται. Η αξιοπιστία αυτών των μεθόδων εξαρτάται από τις ακόλουθες πιθανότητες: α) ότι δύο εγγραφές έχουν τυχαία ίδιες τιμές σε κάποια γνωρίσματα β) ότι όλα τα γνωρίσματα είναι σωστά συμπληρωμένα σε κάθε πηγή, γ) ότι όλα τα γνωρίσματα συμπληρώνονται με τον ίδιο τρόπο σε κάθε πηγή. Συνήθως οι εντοπιζόμενες ομο-αναφορές διατηρούνται μόνο εντός του άμεσου πλαισίου στο οποίο γίνεται η σύγκριση. Στις προληπτικές μεθόδους, τα δεδομένα Συνδεδεμένα Δεδομένα 30/68

39 κανονικοποιούνται από τις πηγές πριν την ενοποίηση. Αυτό μπορεί να γίνει με χρήση κανόνων (όπως στις βιβλιοθήκες). Η χρήση κανόνων βοηθά στην αποφυγή ψευδών ταιριασμάτων αλλά δεν έχει κανένα αποτέλεσμα στις περιπτώσεις που χρησιμοποιούνται διαφορετικά ονόματα (πχ ψευδώνυμα, τοπωνύμια κλπ). Παρά την ύπαρξη κανόνων, δεν αποφεύγονται λάθη στην κωδικοποίηση. Όπως ήδη αναφέραμε, στο χώρο των βιβλιοθηκών γίνονται προσπάθειες διαχείρισης ενός κεντρικού συστήματος διαχείρισης γνώσης (Knowledge Organization System), το οποίο θα χρησιμοποιείται ως σημείο αναφοράς από τις διάφορες πηγές. Τέτοια συστήματα σήμερα είναι το Virtual International Authority File (VIAF) [25], και το Multilingual Access to Subjects (MACS) [26]. Τα συστήματα αυτά όμως είναι σχεδιασμένα ειδικά για το συγκεκριμένο πεδίο και δεν είναι επεκτάσιμα. Στην εργασία αυτή, προτείνεται ένα μοντέλο διαχείρισης της γνώσης των ομο-αναφορών όπου η αντιστοίχιση αναγνωριστικών οντοτήτων γίνεται με αρχές και κανόνες λεξιλογίων και συναρτήσεων αντιστοίχησης που είναι γνωστές στην κάθε πηγή ξεχωριστά. Η δήλωση των ισοδύναμων αναφορών ή μη ισοδύναμων αναφορών μεταξύ δύο πηγών γίνεται ρητά μέσω μίας υπηρεσίας (co-reference knowledge service) με αρχές κι όρους παράστασης γνώσης :tell co, tell nco, untell co, untell nco. Η ίδια υπηρεσία απαντάει σε ερωτήματα (ask co, ask nco) για την ύπαρξη ή μη ομο-αναφοράς. Η υπηρεσία είναι σε θέση να συμπεράνει τις έμμεσες ομο-αναφορές που προκύπτουν από τις άμεσες. Η παράσταση της γνώσης γίνεται με τη βοήθεια γράφου όπου κορυφές είναι οι πόροι και ακμές το είδος αναφοράς (co, nco). Το μοντέλο επίσης προβλέπει τη διόρθωση ασυνεπειών όπου δύο πόροι φαίνονται και να αναφέρονται στην ίδια οντότητα και να μην αναφέρονται ταυτόχρονα. Η ασυνέπεια λύνεται με την αφαίρεση από το γράφο μίας εκ των δύο σχέσεων. Αν πρόκειται για έμμεση ομοαναφορά αυτό σημαίνει φυσικά την αφαίρεση όλων των ενδιάμεσων ισοδύναμων αναφορών. Στην εργασία προτείνεται η αποκατάσταση (repair) να γίνεται με εμφάνιση του γράφου αναφοράς που προκύπτει για τους δύο πόρους με όλα τα μονοπάτια κι ο χρήστης να δηλώνει (untell co) τις σχέση που δεν ισχύει. Μετά από κάθε ενέργεια του χρήστη ο γράφος υπολογίζεται ξανά για να επαναληφθεί η διαδικασία μέχρι να αφαιρεθεί η ασυνέπεια. Συνδεδεμένα Δεδομένα 31/68

40 5 ΔΗΜΟΣΙΕΥΣΗ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ Η δημοσίευση Συνδεδεμένων δεδομένων προϋποθέτει την τήρηση των αρχών κι απαιτήσεων που αναλύθηκαν στα προηγούμενα. Η συμμόρφωση με αυτές τις αρχές δε σημαίνει φυσικά την εγκατάλειψη των υφιστάμενων συστημάτων διαχείρισης δεδομένων και τις εφαρμογές τους αλλά την επέκταση αυτών ώστε να συνδεθούν στον Ιστό δεδομένων. Στο Σχήμα 1 αποτυπώνονται οι πιο κοινοί τρόποι δημιουργίας δεδομένων οι οποίοι περιγράφονται αναλυτικά, ακολούθως [27]. Σχήμα 1 : Ροές κι επιλογές για τη δημοσίευση Συνδεδεμένων Δεδομένων [27] Συνδεδεμένα Δεδομένα 32/68

41 6 ΔΗΜΙΟΥΡΓΙΑ ΑΠΟ ΣΧΕΣΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Πολύ συχνά τα δεδομένα είναι ήδη διαθέσιμα σε σχεσιακά συστήματα βάσεων δεδομένων από τις εφαρμογές που τα δημιουργούν πρωτογενώς και που υπό κανονικές συνθήκες έχει εξασφαλισθεί η ποιότητά τους. Σε αυτή την περίπτωση απλά πρέπει να γίνει η μετατροπή τους σε RDF. Συνήθως χρησιμοποιείται ένας RDB-to-RDF server (όπως ο D2R Server). Ο server δημιουργεί αυτόματα από το σχήμα της βάσης το RDF μοντέλο και τις αντιστοιχίσεις, τα οποία μπορούν να προσαρμοστούν ανάλογα με το πεδίο, ώστε να ακολουθούν κάποιο λεξιλόγιο ή οντολογία. Εικόνα 10 : Δημοσίευση RDF δεδομένων από βάση δεδομένων [27] Τα δεδομένα γίνονται διαθέσιμα από τον RDB2RDF server, με τους πιο διαδεδομένους τρόπους κατανάλωσης (βλέπε επόμενο κεφάλαιο). OpenLink Virtuoso, Triplify είναι εργαλεία μετατροπής από σχεσιακή βάση σε RDF. Βρίσκεται σε εξέλιξη η δημιουργία του προτύπου RDB2RDF από το W3C για την αντιστοίχιση σχεσιακών βάσεων και δεδομένων σε RDF και OWL. 6.1 ΔΗΜΙΟΥΡΓΙΑ ΣΤΑΤΙΚΩΝ ΑΡΧΕΙΩΝ RDF/XML Ο πιο απλός τρόπος δημιουργίας δεδομένων είναι να δημιουργηθεί ένα RDF αρχείο (ακόμα και δια χειρός) και να τοποθετηθεί σε έναν Web Server, απ όπου μπορεί να το κατεβάσει ο κάθε ενδιαφερόμενος. 6.2 ΕΝΣΩΜΑΤΩΣΗ RDF ΣΕ HTML Αντί για RDF/XML τα δεδομένα μπορούν να ενσωματωθούν σε HTML σελίδες με τη χρήση RDFa. Χρήσιμο σε περιπτώσεις που Web sites διαθέτουν τέτοιες δυνατότητες ή για την ενσωμάτωση RDF δεδομένων σε content management συστήματα. Συνδεδεμένα Δεδομένα 33/68

42 6.3 ΔΗΜΙΟΥΡΓΙΑ ΑΠΌ ΔΟΜΗΜΕΝΑ ΑΡΧΕΙΑ ΣΕ RDF TRIPLE STORES Για δεδομένα σε μορφή CSV, XLS κ.α. μέσω εργαλείων μπορούν να μετατραπούν στο RDF format και να γίνουν διαθέσιμα είτε μέσω Web server είτε να φορτωθούν σε μία βάση RDF store και να γίνουν διαθέσιμα μέσω interface, ή αν δεν υπάρχει τέτοιο μπορεί να χρησιμοποιηθεί άλλη εφαρμογή (πχ Pubby 15 ) που χρησιμοποιεί το SPARQL endpoint της RDF store. 6.4 ΔΗΜΟΣΙΕΥΣΗ ΜΕΣΩ APIs Για την δημοσίευση σε RDF, δεδομένων που είναι διαθέσιμα από εφαρμογές (πχ Amazon, Twitter) μέσω Application Program Interface (API), θα πρέπει να κατασκευαστεί ειδικός wrapper για την μετατροπή των δεδομένων όπως επιστρέφονται από το API (XML, JSON, ATOM) σε RDF. Στο Σχήμα 2 απεικονίζεται η αρχιτεκτονική ενός τέτοιου μοντέλου [28]. Σχήμα 2 : Αρχιτεκτονική του RDF Book Mashup [27] 6.5 ΔΗΜΙΟΥΡΓΙΑ URIs ΑΠΌ ΜΗ ΔΟΜΗΜΕΝΑ ΔΕΔΟΜΕΝΑ Τέλος, σίγουρα τα ελεύθερα κείμενα δεν μπορούν να μετατραπούν σε RDF μορφή. Όμως υπάρχουν εργαλεία (Calais, Ontos, DBPedia Spotlight), που μπορούν να βρουν τα URIs των οντοτήτων οι οποίες αναφέρονται μέσα στα κείμενα και να τα συνδέσουν με αυτά με μορφή επισημειώσεων (annotations). Δημοσιεύοντας τις σημειώσεις αυτές με τα κείμενα, δίνεται η δυνατότητα ανακάλυψης των κειμένων στον Ιστό Συνδεδεμένα Δεδομένα 34/68

43 7 ΚΑΤΑΝΑΛΩΣΗ ΣΥΝΔΕΔΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ Ένα συνδεδεμένο σύνολο δεδομένων RDF αφού δημοσιευθεί είναι προσβάσιμο από ανθρώπους ή μηχανές με τους εξής τρόπους: 1. Linked Data Browser: εφαρμογή όπως οι Web Browsers που μέσω HTML σελίδων, ο χρήστης πλοηγείται μέσω RDF συνδέσμων. Μερικοί από τους πιο γνωστούς: Tabulator 16, Sig.ma 17, Disco 18, Ontology-browser, Falcons Explorer. Ο χρήστης κάνει την αναζήτηση με χρήση λέξεων κλειδιών. Η αναζήτηση των συνδέσμων γίνεται μέσω μηχανών αναζήτησης που έρπουν στον Ιστό Δεδομένων «διασχίζοντας» RDF συνδέσμους. Ενοποιούν και καθαρίζουν τα δεδομένα που βρήκαν και τα περνούν στα υψηλότερα επίπεδα της εφαρμογής. Μοιάζουν με τις μηχανές αναζήτησης του Ιστού αλλά διαθέτουν επιπλέον δυνατότητες όπως πχ τη δυνατότητα φιλτραρίσματος με τη χρήση των υποκείμενων τάξεων. 2. SPARQL endpoint. Είναι σημεία στον Ιστό που παρέχουν μέσω Web Service πρόσβαση σε RDF δεδομένα μέσω του SPARQL Protocol and RDF Query Language (SPARQL) που είναι το πρότυπο γλώσσας ερωτήσεων αυτά τα δεδομένα. Μοιάζει στη σχεσιακή SQL. Υπάρχουν 4 μορφές ερωτημάτων. a. SELECT Είναι η κλασσική εντολή προβολής αποτελεσμάτων. Στο SELECT ορίζονται οι μεταβλητές (στήλες στο σχεσιακό) που θα επιστραφούν (solution sequence), με ένα? στην αρχή του ονόματός τους. Στο WHERE δηλώνεται το μοτίβο των RDF τριάδων που θα επιλεχθούν από το ερώτημα (basic graph pattern match). Χρησιμοποιείται η Turtle γραφή. Ακολουθεί ένα απλό παράδειγμα. Περισσότερα στο SPARQL Query Language for RDF 19. foaf: < _:a foaf:name "Johnny Lee Outlaw". _:a foaf:mbox <mailto:jlow@example.com>. _:b foaf:name "Peter Goodguy" Συνδεδεμένα Δεδομένα 35/68

44 _:b foaf:mbox _:c foaf:mbox Query PREFIX foaf: < SELECT?name?mbox WHERE {?x foaf:name?name.?x foaf:mbox?mbox } Αποτελέσματα Name "Johnny Lee Outlaw" "Peter Goodguy" Mbox <mailto:jlow@example.com> <mailto:peter@example.org> Εικόνα 11 :Παράδειγμα SPARQL/SELECT [29] b. CONSTRUCT: χρησιμοποιείται για να εξάγει πληροφορίες από ένα Δεδομένα: SPARQL Endpoint και να μετατρέψει τα αποτελέσματα σε org: < _:a org:employeename "Alice". _:a org:employeeid _:b org:employeename "Bob". _:b org:employeeid Query PREFIX foaf: < PREFIX org: < CONSTRUCT {?x foaf:name?name } WHERE {?x org:employeename?name } org: < _:x foaf:name "Alice". _:y foaf:name "Bob". Μετασχηματισμός σε RDF/XML Συνδεδεμένα Δεδομένα 36/68

45 <rdf:rdf xmlns:rdf=" xmlns:foaf=" > <rdf:description> <foaf:name>alice</foaf:name> </rdf:description> <rdf:description> <foaf:name>bob</foaf:name> </rdf:description> </rdf:rdf> Εικόνα 12 : Παράδειγμα SPARQL/CONSTRUCT [29] c. ASK: ελέγχει αν ένα δεδομένο υπόδειγμα γράφου ταιριάζει στον υποκείμενο RDF γράφο επιστέφοντας true ή false. d. DESCRIBE: χρησιμοποιείται για την ανάγνωση της περιγραφής RDF ενός URI. Ένα SPARQL Endpoint παρέχει στους εξωτερικούς χρήστες μία δυναμική υπηρεσία για ανάκτηση πληροφορίας μέσω HTTP, χωρίς να χρειαστεί η αντιγραφή ή η μεταφορά του συνόλου δεδομένων επιστρέφοντας πάντα τα πιο ενημερωμένα δεδομένα. Εμπορικά πακέτα SPARQL που υπάρχουν σήμερα: 4Store, Virtuoso, Jena, Sesame, AllegroGraph. Λίστα με τα τρέχοντα SPARQL endpoints βρίσκεται στα wiki pages του W3C 20. Υπάρχει η δυνατότητα υποβολής σύνθετων ερωτημάτων τα οποία μπορούν να επιμεριστούν και να υποβληθούν σε συγκεκριμένες πηγές (Query federation). Ένα σημαντικό πρόβλημα είναι η εύρεση αποδοτικών πλάνων εκτέλεσης query για join queries σε μεγάλο αριθμό πηγών, με αποτέλεσμα την πτώση της απόδοσης. Συνίσταται η χρήση του όταν ο αριθμός των data sources είναι μικρός. 3. Download: δυνατότητα λήψης των δεδομένων σε τοπικό αρχείο. 4. Ειδικές Εφαρμογές: Εφαρμογές συγκεκριμένου σκοπού που προσφέρουν στο χρήστη δεδομένα συγκεκριμένου πεδίου με συγκεκριμένο τρόπο. Παραδείγματα τέτοιων εφαρμογών από το χώρο των Βιο-Επιστημών είναι το Diseasome Map 21, μια εφαρμογή εξερεύνησης του δικτύου των ανθρώπινων ανωμαλιών κι ασθενειών Συνδεδεμένα Δεδομένα 37/68

46 8 ΑΝΟΙΚΤΑ ΔΕΔΟΜΕΝΑ Πάρα πολλοί οργανισμοί κι άτομα έχουν υιοθετήσει τις αρχές των Συνδεδεμένων Δεδομένων για να δημοσιεύσουν τα δεδομένα τους [27]. Το αποτέλεσμα είναι ένας παγκόσμιος χώρος δεδομένων που ονομάζεται Ιστός Δεδομένων (Web of Data). Ο Ιστός δεδομένων σχηματίζει έναν γιγάντιο παγκόσμιο γράφο (giant global graph) [30] που αποτελείται από δισεκατομμύρια RDF δηλώσεων, από πολλές πηγές από διάφορα πεδία. Όλα αυτά τα δεδομένα όμως δεν είναι διαθέσιμα για όλους. Στα πλαίσια του W3C έχει δημιουργηθεί το SWEO Linking Open Data community project 22 με στόχο τη διάδοση των Συνδεδεμένων Δεδομένων με δεδομένα που θα είναι ελεύθερα για χρήση από τον καθένα. Στην εικόνα που ακολουθεί απεικονίζονται όλα τα σύνολα δεδομένων (φυσαλίδες) όπως έχουν απογραφεί από την ομάδα του Linked Open Data. Τα χρώματα αντιστοιχούν σε διαφορετικά πεδία. Οι συνδέσεις μεταξύ τους απεικονίζονται με τις ακμές μεταξύ των φυσαλίδων. Έως το Σεπτέμβριο του 2011, υπήρχαν 295 σύνολα δεδομένων με εκ. τριάδες και 503,9 εκ. εξωτερικούς συνδέσμους 23. Εικόνα 13 : Το διάγραμμα του LOD, Σεπτ Τα σύνολα δεδομένων ανά θεματική περιοχή κι οι συνδέσεις μεταξύ τους Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. Συνδεδεμένα Δεδομένα 38/68

47 Στον ακόλουθο πίνακα φαίνονται μερικά στοιχεία ανά πεδίο. Έως το Σεπτέμβριο του 2011, υπήρχαν 294 σύνολα δεδομένων με εκ. τριάδες και 503,9 εκ. εξωτερικούς συνδέσμους 25. Εντυπωσιακή είναι ή αύξηση του αριθμού των συνόλων δεδομένων σε σχέση με το προηγούμενο έτος, αλλά ακόμη πιο εντυπωσιακή είναι η αύξηση σε σχέση με το 2007 (απ όπου υπάρχει η πρώτη αποτύπωση) όταν ήταν διαθέσιμα 12 σύνολα δεδομένων. Πεδίο Πλήθος Data sets Τριάδες % Εξωτερικοί σύνδεσμοι % Μέσα ενημέρωσης ,83% ,01% Γεωγραφικά ,44% ,11% Κυβερνητικά ,13% ,84% Εκδόσεις ,34% ,76% Γενικά ,24% ,54% Βιο-Επιστήμες ,61% ,06% Περιεχομένου χρηστών ,42% ,68% Σύνολα Σύνολα Δ 2011 vs ,83% 17,37% 27,43% Πίνακας 2 : Στοιχεία Linked Open Data, Σεπ Πηγή: Σήμερα, σύμφωνα με το μητρώο του Comprehensive Knowledge Archive Network (CKAN) 26 τα σύνολα δεδομένων στο Linked Open Data cloud έχουν γίνει 334 εκ των οποίων μόνον 3 είναι ελληνικά (Hellenic Fire Brigade, Hellenic Police, Public Library of Veroia). Το πόσο ανοικτά είναι τα δεδομένα που διατίθενται στον Ιστό ορίζεται από δύο πράγματα: 1. Το αν είναι διαθέσιμα σε μορφές στις οποίες μπορεί να έχει ο καθένας πρόσβαση (πχ XML, RTF, ODF) που διευκολύνουν τη χρήση, εξαλείφουν την εξάρτηση από κατασκευαστές μορφοτύπων, έχουν μεγαλύτερη διάρκεια, μειώνουν το κόστος κτήσης κι επεξεργασίας κ.α Συνδεδεμένα Δεδομένα 39/68

48 2. Διατίθενται με ανοικτή άδεια από τους κατόχους. Ο χρήστης μπορεί να τα χρησιμοποιήσει ελεύθερα, μερικές φορές και να τα τροποποιήσει,, χωρίς κόστος αρκεί να αναφέρεται η προέλευσή τους. Η ελεύθερη χρήση δεδομένων που δημοσιεύονται στον Ιστό δεν είναι αυτονόητη. Θα πρέπει να δηλώνεται σαφώς και ρητώς. Το δικαίωμα της πνευματικής ιδιοκτησίας και το ποια δεδομένα εμπίπτουν σε αυτό δεν το αναλύουμε εδώ. Απλά θα αναφέρουμε τα ποιο γνωστά μοντέλα αδειών χρήσης με τα οποία γίνονται διαθέσιμα κι ανοικτά τα συνδεδεμένα δεδομένα. Η Creative Commons 27 είναι ένας μη κερδοσκοπικός οργανισμός που δημιουργεί άδειες χρήσης - η οποίες δεν αντικαθιστούν τα πνευματικά δικαιώματα που ορίζουν τους όρους κάτω από τους οποίους γίνονται διαθέσιμα τα δεδομένα: Attribution CC BY Η πιο διαδεδομένη άδεια χρήσης. Επιτρέπει την διανομή, ανάμιξη, χρήση, ελαφρά τροποποίηση, αρκεί να αναφέρεται ο αρχικός δημιουργός. Attribution-NoDerivs CC BY-ND Επιτρέπει την αναδιανομή εμπορική ή μη στο σύνολο του, χωρίς καμία τροποποίηση με αναφορά στον δημιουργού. Attribution-NonCommercial-ShareAlike CC BY-NC-SA Επιτρέπει την ανάμιξη, ελαφρά τροποποίηση, μη εμπορική χρήση για χτίσιμο, αρκεί το νέο προϊόν που θα προκύψει να διατεθεί με τους ίδιους όρους και να αναφέρεται ο αρχικός δημιουργός Συνδεδεμένα Δεδομένα 40/68

49 Attribution-ShareAlike CC BY-SA Επιτρέπει την ανάμιξη, ελαφρά τροποποίηση, χρήση για χτίσιμο για εμπορική χρήση, αρκεί το νέο προϊόν που θα προκύψει να διατεθεί με τους ίδιους όρους και να αναφέρεται ο αρχικός δημιουργός. Attribution-NonCommercial CC BY-NC Επιτρέπει την ανάμιξη, ελαφρά τροποποίηση, μη εμπορική χρήση για χτίσιμο, αρκεί να αναφέρεται ο αρχικός δημιουργός. Το νέο προϊόν δεν χρειάζεται να διατίθεται με τους ίδιους όρους. Attribution-NonCommercial-NoDerivs CC BY-NC-ND Επιτρέπεται το κατέβασμα κι η κοινοποίηση σε άλλους αρκεί να αναφέρεται ο αρχικός δημιουργός. Δεν επιτρέπεται καμία αλλαγή ή εμπορική χρήση. Πληροφορίες για το είδος της άδειας που διέπει τα δεδομένα μπορούν να περιέχονται στην RDF περιγραφή των μεταδεδομένων. <a rel="license" href=" <img alt="creative Commons License" style="border-width:0" src=" /></a><br /> <span xmlns:dc=" href=" property="dc:title" rel="dc:type">rdfa FAQ</span> by <a xmlns:cc=" href=" property="cc:attributionname" rel="cc:attributionurl">john Doe</a> is licensed under a <a rel="license" href=" Commons Attribution 3.0 United States License</a>.<br />Based on a work at <a xmlns:dc=" href=" rel="dc:source">wiki.creativecommons.org</a>.<br /> Permissions beyond the scope of this license may be available at <a xmlns:cc=" href=" rel="cc:morepermissions"> Εικόνα 14 : Παράδειγμα δήλωσης άδειας CC AA σε RDFa Συνδεδεμένα Δεδομένα 41/68

50 Το Open Government Data (OGD) είναι μία παγκόσμια κίνηση για το άνοιγμα των κυβερνητικών και δημόσιων δεδομένων και πληροφοριών σε ανθρώπους και μηχανές. Η κίνηση υποστηρίζεται από κυβερνήσεις και διεθνείς οργανισμούς που ήδη έχουν κάνει διαθέσιμα διάφορα σύνολα δεδομένων. Μερικές ακόμη αρχές που τίθενται για τον χαρακτηρισμό των κυβερνητικών δεδομένων ως ανοικτά είναι [31]: Τα δεδομένα θα πρέπει να είναι πλήρη. Όλα τα δεδομένα πρέπει να είναι διαθέσιμα Τα δεδομένα θα πρέπει να είναι πρωτεύοντα. Θα πρέπει να διατίθενται όπως ακριβώς συλλέγονται από την πηγή με το μέγιστο δυνατό επίπεδο λεπτομέρειας Τα δεδομένα πρέπει να είναι έγκαιρα. Να διατίθενται όσο το δυνατόν πιο σύντομα ώστε να διατηρείτε η αξία τους Συνδεδεμένα Δεδομένα 42/68

51 9 ΠΟΙΟΤΗΤΑ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ Παρά τον ενθουσιασμό που εμπνέει ο σημασιολογικός ιστός, αν θέσουμε σήμερα σε κάποιο SAPRQL endpoint, ένα απλό σύνθετο ερώτημα (πχ ποιοι Έλληνες ποιητές έχουν τιμηθεί με το Βραβείο Νόμπελ), ίσως τελικά να μη πάρουμε την απάντηση αυτή, γιατί α) η πληροφορία αυτή είτε δεν είναι διαθέσιμη σε RDF, β) είναι μερικώς διαθέσιμη, γ) είναι διαθέσιμη αλλά δεν είναι συνδεδεμένη δ) το ερώτημα δεν υποβλήθηκε σωστά ή στο σωστό σημείο (Εικόνα 15). Εικόνα 15: Υποβολή SPARQL ερωτήματος χωρίς αποτελέσματα Όπως αναφέρουμε στο κεφάλαιο 8, τα διαθέσιμα σύνολα ανοικτών δεδομένων έως σήμερα είναι μόλις 334, ενώ ο ίδιος οργανισμός διαθέτει σύνολα δεδομένων. Χωρίς να έχουμε στα χέρια μας κάποια απογραφή ή κάποια ένδειξη για το ποιος θα μπορούσε να είναι ο αριθμός των συνόλων δεδομένων που θα μπορούσαν να διατεθούν, είναι προφανές ότι οι αριθμοί αυτοί είναι υπερβολικά μικροί. Ιδιαίτερα αν αναλογιστεί κανείς ότι οι περισσότερες δραστηριότητες κι αντικείμενα με κάποιο τρόπο, σήμερα, καταχωρούνται σε κάποιο πληροφοριακό σύστημα. Μια απλή αναζήτηση στο συμβατικό ιστό για οτιδήποτε, συνήθως επιστρέφει εκατοντάδες χιλιάδες αποτελέσματα από διάφορες πηγές. Επίσης, υπάρχουν αμέτρητες βάσεις δεδομένων με ήδη καθαρά δεδομένα που θα μπορούσαν να μετατραπούν σε RDF αρχεία. Το πιο δύσκολο κομμάτι σε αυτή τη διαδικασία, ίσως είναι η έλλειψη οντολογίας που να περιγράφει το συγκεκριμένο πεδίο, ή αδυναμία επιλογής μίας. Σε κάθε περίπτωση, ειδικά για τα παραδοσιακά συστήματα η προς τα πίσω σύνδεση με οντολογία θα είναι επίπονη και δαπανηρή. Συνδεδεμένα Δεδομένα 43/68

52 Ένας άλλο λόγος που ίσως δεν υπάρχουν πολλά διαθέσιμα σύνολα, είναι ότι η πλειοψηφία των προγραμματιστών Ιστού αγνοεί της τεχνολογίες του σημασιολογικού ιστού. Άρα θα πρέπει να υιοθετηθούν κι από αυτή τη μεριά αυτές οι τεχνολογίες για να μπορέσουν να υπάρχουν περισσότερα δεδομένα για σύνδεση. Θα πρέπει να ενισχυθεί η σύνδεση μεταξύ συνόλων δεδομένων, έστω με τη χρήση της owl:sameas. Η αυτόματη δημιουργία συνδέσμων με πιθανολογικές, ή στατιστικές τεχνικές θα αυξήσει σημαντικά τις συνδέσεις μεταξύ συνόλων. Προφανώς υπάρχουν κι άλλοι λόγοι που εμποδίζουν τη σύνδεση δεδομένων (πολιτικές, συμφέροντα, πνευματική ιδιοκτησία, έλλειψη ενημέρωσης, κόστος επένδυσης κλπ). Κρίνοντας όμως από την τάση που διαφαίνεται (Κεφάλαιο 8) να υπάρχει μέσα από την ταχεία αύξηση των LOD από το 2007 έως σήμερα, όλο και περισσότερα σύνολα δεδομένων θα συνδέονται. Η έλλειψη ποσότητας συνδεδεμένων δεδομένων είναι μία μόνο διάσταση της ποιότητας δεδομένων, η έλλειψη της οποίας ίσως αναστέλλει τη χρήση και διάδοση των Συνδεδεμένων Δεδομένων. Η ποιότητα δεδομένων κι η εκτίμησή της δεν είναι νέο φαινόμενο. Οι L.Pipino et al. αναφέρουν τους ακόλουθες διαστάσεις στις οποίες εκτείνεται η ποιότητα δεδομένων [32]: Διάσταση Ορισμός Pipino et al. [33] Προσβασιμότητα Σε ποιό βαθμό και πόσο εύκολα Χ Χ και γρήγορα είναι διαθέσιμα είναι τα δεδομένα Ποσότητα Δεδομένων Ο όγκος των δεδομένων είναι Χ Χ αρκετός για την εργασία που χρησιμοποιούνται Αξιοπιστία Πόσο αληθή είναι ώστε να Χ - θεωρούνται αξιόπιστα Επιβεβαιωσιμότητα/Φήμη Δεδομένα διατήρησης που Χ X μπορούν να επιβεβαιώσουν την πηγή Πληρότητα Δεν λείπουν δεδομένα κι είναι Χ - αρκετά για την εργασία που χρησιμοποιούνται Περιεκτικότητα Είναι τόσο συμπυκνωμένα όσο Χ - χρειάζεται Συνέπεια Δεν υπάρχουν αντιφάσεις Χ Χ Συνδεδεμένα Δεδομένα 44/68

53 Ευκολία στη χρήση Ευκολία στη χρήση Χ - Ορθότητα/Εγκυροτητα Δεν υπάρχουν σφάλματα, σωστοί Χ Χ τύποι δεδομένων, ενεργές κλάσσεις Αναγνωσιμότητα Τα δεδομένα είναι σε κατάλληλη Χ - γλώσσα κι οι ορισμοί είναι σαφείς Ενιαία μορφή Χρήση καθιερωμένου - Χ μορφοτύπου Πολύπλευρα Πρόβλεψη για διαφορετικές - Χ γλώσσες, άλλους μορφοτύπους Αντικειμενικότητα Δεν εκφράζουν μεροληψία, Χ - προκατάληψη, μονομέρια. Σχετικότητα Μπορούν να χρησιμοποιηθούν για Χ - την εργασία που προορίζονται Ασφάλεια Η πρόσβαση περιορίζεται όπου Χ - χρειάζεται Αδειοδότηση Αναφέρεται το είδος άδειας βάσει - Χ της οποίας είναι διαθέσιμα τα δεδομένα Επικαιρότητα Τα δεδομένα είναι ενημερωμένα Χ Χ τόσο όσο χρειάζεται Κατανοητά Πόσο κατανοητά είναι τα Χ Χ δεδομένα Απόδοση Διαθέσιμα γρήγορα χωρίς - X καθυστερήσεις και με dumps Προστιθέμενη αξία Πόσο επωφελή είναι και τι πλεονέκτημα αποκτάται από τη χρήση τους. Χ - Πίνακας 3 : Κριτήρια αξιολόγησης ποιότητας [33] [32] Η εκτίμηση αυτών των παραγόντων αυτών είναι στις περισσότερες περιπτώσεις υποκειμενική ενώ οι δείκτες που θα μπορούσαν να χρησιμοποιηθούν δεν είναι πάντα διαθέσιμοι. Παρ όλο που η παραπάνω λίστα αναφέρεται στα παραδοσιακά πληροφοριακά συστήματα, μία αντίστοιχη λίστα [33], που έχει σχεδιαστεί ειδικά για τα συνδεδεμένα δεδομένα περιλαμβάνει σχεδόν τις ίδιες διαστάσεις κι 61 δείκτες αξιολόγησης. Όπως συμβαίνει και με τις HTML σελίδες στον Ιστό, έτσι και τα Συνδεδεμένα Δεδομένα μπορεί να είναι απαρχαιωμένα, ανακριβή, λανθασμένα ασυνεπή κ.λπ. Επειδή τα δεδομένα αυτά είναι ισχυρισμοί της πηγής κι όχι γεγονότα, η κάθε εφαρμογή που χρησιμοποιεί τα δεδομένα αυτά θα πρέπει να τα φιλτράρει με βάσει τους δείκτες ποιότητας. Ενδεικτικά αναφέρουμε μερικούς: Ύπαρξη δεδομένων προέλευσης Υπαγωγή ατόμων σε ξένες τάξεις Ύπαρξη εκπρόθεσμων δεδομένων Συνδεδεμένα Δεδομένα 45/68

54 Χρήση ψηφιακών υπογραφών Πρόβλεψη διαφόρων μορφοτύπων Ύπαρξη SPARQL endpoint Αριθμός εσωτερικών συνδέσμων Στοιχεία άδειας πνευματικής ιδιοκτησίας αναγνώσιμα από μηχανή Η αξιολόγηση εξαρτάται από την εφαρμογή και τη χρήση των δεδομένων. Μπορεί να βασίζεται στο περιεχόμενο των δεδομένων, στην προέλευση τους ή και σε βαθμολογίες άλλων. Ανάλογα με τη βαθμολογία που έχουν συγκεντρώσει τα δεδομένα τότε: μπορούν να ταξινομηθούν από τη μηχανή αναζήτησης με βάση τη βαθμολογία (όπως περίπου γίνεται από τις συμβατικές μηχανές αναζήτησης του ιστού με βάση τη σχετικότητα και τη δημοφιλία) Μπορούν να φιλτραριστούν με βάση κάποια όρια που θέτει ο χρήστης Μία άλλη πρόταση είναι η εισαγωγή ενός δείκτη εμπιστοσύνης (trust) στα δεδομένα (τριάδες) κι η χρήση του ως φίλτρου στις εντολές SPARQL [34]. Σε σχετική έρευνα που έγινε από το Digital Enterprise Research Institute [35] διαπιστώθηκαν διαφόρων ειδών σφάλματα όπως φαίνεται στο πίνακα που ακολουθεί: Κατηγορία Τύπος σφάλματος Σφάλματα URI/HTTP: accessibility and derefencabilit y Document not retrievable Faulty content negotiation υπηρεσία. RDF/XML XML, RDF/XML, datatypes: syntax RDF(S)/OWL : esoteric use Content-Type/actual format mismatch Linked Data accessibility Invalid XML Valid XML but invalid RDF/XML Atypical use of collections, containers and reification Use of undefined classes/properties Misplaced classes/properties Λάθος διεύθυνση, έλλειψη εξουσιοδότησης, Μη διαθέσιμη Δεν επιστράφηκε κείμενο Επιστράφηκε RDF/XML κείμενο, αλλά το περιεχόμενο δεν ήταν τέτοιο. Αντί για χρήση 303 URI, χρήση 301 και 302. Συντακτικά λάθη XML Σωστή XML, αλλά στην αναπαράσταση RDF. Χρήση κενών κόμβων, δηλώσεις rdfs:subject, rdfs:predicate rdfs:object Foaf:image αντί foaf:img, rdfs:range as being of rdf:type Συνδεδεμένα Δεδομένα 46/68

55 Reasoning: noise and consistency Nonauthoritative contributions Misuse of owl:datatypeproperty/owl:object Property Members of deprecated classes/properties Bogus owl:inversefunctionalproperty values Datatype issues OWL inconsistencies ontology hijacking Πίνακας 4 : Σφάλματα στα Συνδεδεμένα Δεδομένα [35] rdfs:class Dtatatype properties με τιμή μη σταθερά. Πραγματώσεις γνωρισμάτων ή τάξεων που έχουν αποσυρθεί. owl:deprecatedproperty Foaf:homepage= < Για τύπο xsd:datetime, λείπουν τα διαχωριστικά της ώρας Foaf:organization and foaf:person για τους ίδιους πόρους. Foaf: image ορισμένο ως owl:objectproperty. Μη ορισμένες τάξεις και γνωρίσματα (χωρίς τυπική RDFS ή OWL περιγραφή), συχνά έχουν πραγματώσεις στον Ιστό με αποτέλεσμα να μην μπορούν να εφαρμοστούν σωστά συλλογισμοί. Πολλές φορές έχει παρατηρηθεί ασυνέπεια δεδομένων πχ σε πραγματώσεις ασυσχέτιστων τάξεων. Οι τυχαίες ασυνέπειες συμβαίνουν όταν αγνοούνται ή παρερμηνεύονται οντολογικοί όροι. Π.χ. το γνώρισμα foaf:img μπορεί να χρησιμοποιηθεί αυθαίρετα, για να σχετισθεί ένας πόρος με μία εικόνα αγνοώντας το γεγονός ότι το πεδίο της foaf:img είναι foaf:person. Με τη χρήση συλλογισμού, η μηχανή θα συμπεράνει ότι ο πόρος είναι foaf:person,κάτι που μπορεί να οδηγήσει σε ασυνέπεια αν η τάξη του πόρου και η foaf:person είναι disjoint. Ασυνέπειες επίσης μπορεί να δημιουργήσει η ασύμβατη ονοματοδοσία πχ η χρήση του ίδιου URI από δύο πηγές για τον προσδιορισμό διαφορετικών αντικειμένων. Ασυνέπειες μπορούν να επίσης να συμβούν, αν αντικρουόμενες δηλώσεις (από διαφορετικές πηγές) επίσης συνδυαστούν πχ: «τα φρούτα και τα λαχανικά δεν έχουν κοινά», «η ντομάτα είναι φρούτο», «η ντομάτα είναι λαχανικό». 4 στρατηγικές ακολουθούνται σύμφωνα με τη βιβλιογραφία [36]. Η πρώτη είναι αγνόηση τους, παρ όλο που κάποιες μπορούν να εντοπιστούν εφαρμόζοντας τεχνικές που βασίζονται σε κανόνες RDFS/OWL. Συνδεδεμένα Δεδομένα 47/68

56 Η δεύτερη είναι ότι λύνονται κατά περίπτωση σε συνεργασία με τους παρόχους μέσα από πρωτοβουλίες της κοινότητας του Ιστού, όπως αυτή του Pedantic Web Group 29. Η τρίτη περιλαμβάνει τη χρήση αλγορίθμων για την επίλυση των ασυνεπειών. Για παράδειγμα, στις οντολογίες βασισμένες σε Description Logic γίνεται αφαίρεση των αξιωμάτων που δημιουργούν τις ασυνέπειες με χρήση τελεστών αναθεώρησης βασισμένων σε μοντέλα. [37]. Άλλες μέθοδοι προσπαθούν να επιλέξουν ένα συνεπές μοντέλο μέσα από ασυνεπή δεδομένα βασιζόμενες σε μετρικές απόστασης ή πιθανολογικές συναρτήσεις και τέλος ταξινομώντας τους συμπερασμούς να γίνει σύγκριση μεταξύ των αντιφατικών συμπερασμών με βάση τη σειρά ταξινόμησής τους [38]. Τέταρτη, είναι οι χρήστες να αποφασίζουν τελικά ποια πλευρά θέλουν να δουν ιδιαίτερα όταν οι πάροχοι δεδομένων εκφράζουν διαφορετικές απόψεις για το ίδιο θέμα. Άσχετα από το ποιες λύσεις προτείνονται, ο Ιστός Δεδομένων θα περιέχει πάντα θόρυβο κι ασυνέπειες. Γι αυτό, η ανίχνευση των δεδομένων προέλευσης έχει τεράστια σημασία Συνδεδεμένα Δεδομένα 48/68

57 10 ΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ ΚΙ ΑΝΑΛΥΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ Τα ψηφιακά δεδομένα που είναι διαθέσιμα είτε δημόσια (στον Ιστό) είτε ιδιωτικά (στους οργανισμούς) συνεχώς αυξάνονται. Οι πληροφορίες που εμπεριέχονται στα δεδομένα είναι επίσης πάρα πολλές, και χρειάζεται μεγάλη προσπάθεια επεξεργασίας κι ανάλυσης των δεδομένων ώστε να εξαχθούν και να χρησιμοποιηθούν για να τεκμηριώσουν συμπεράσματα και να συνεισφέρουν στη λήψη αποφάσεων. Τα δεδομένα μπορεί να βρίσκονται διάσπαρτα σε διάφορες πηγές και να είναι διαθέσιμα σε διάφορες μορφές. Μία προσέγγιση που χρησιμοποιείται συχνά για την συγκέντρωση, επεξεργασία, κι ανάλυση δεδομένων είναι το χτίσιμο μία αποθήκης δεδομένων (data warehouse), η δημιουργία αναφορών κι η διερεύνηση των δεδομένων μέσω συστημάτων Άμεσης Αναλυτικής Επεξεργασίας (Online Analytical Processing,OLAP). Σε αυτό το κεφάλαιο θα δούμε πως τα Συνδεδεμένα Δεδομένα (οι αρχές, τα εργαλεία αλλά και τα δεδομένα) μπορούν να συμβάλλουν στο χτίσιμο αποθηκών και στην αναλυτική επεξεργασία από τη μία και πως θα μπορούσαν στατιστικά δεδομένα που είναι Συνδεδεμένα μπορούν να γίνουν αντικείμενο OLAP επεξεργασίας DATA WAREHOUSES & OLAP Τις τρεις τελευταίες δεκαετίες έχει παρουσιαστεί μεγάλο ενδιαφέρον τόσο από την επιχειρηματική όσο κι από την ερευνητική κοινότητα σχετικά με τις τεχνολογίες αποθηκών δεδομένων (DW) και Άμεσης Αναλυτικής Επεξεργασίας (OLAP) [39]. Ο κλασσικός ορισμός μίας DW από τον W.H. Inmon [40], δηλώνει ότι μία DW είναι υποκειμενοστραφής, ολοκληρωμένη, μόνιμη, μεταβλητή στο χρόνο συλλογή δεδομένων για την υποστήριξη διοικητικών αποφάσεων. Κατά τους R.Kimball και M.Ross μία DW είναι ένα αντίγραφο δεδομένων συναλλαγών (transaction data), ειδικά δομημένο για ερωτήματα και ανάλυση [41]. Έτσι η αποθήκευση δεδομένων, είναι η κατασκευή ενός μεγάλου αποθετηρίου όπου δίνεται μία ολοκληρωμένη (ενιαία) όψη των δεδομένων, βελτιστοποιημένη για ανάλυση. Κατά την τροφοδότηση της αποθήκης δεδομένων με δεδομένα από διάφορες πηγές, θα πρέπει να εκτελεστούν εργασίες εξαγωγής, μετατροπή και φόρτωσης των δεδομένων: Συνδεδεμένα Δεδομένα 49/68

58 Extraction Transformation Loading (ETL). Η εξαγωγή περιλαμβάνει την λήψη των δεδομένων από τα πηγαία συστήματα σε μορφότυπους που έχουν προσυμφωνηθεί. Η μετατροπή περιλαμβάνει τον μετασχηματισμό των δεδομένων στη μορφή που απαιτεί ο σχεδιασμός της αποθήκης, συμπεριλαμβανομένης και της αντιστοίχισης τους δεδομένα αναφοράς της αποθήκης (πχ μετατροπή των κωδικών ειδών της πηγής σε κωδικούς ειδών της αποθήκης δεδομένων). Η φόρτωση περιλαμβάνει την πλήρωση της αποθήκης με τα μετασχηματισμένα και συνενωμένα δεδομένα. Η επεξεργασία (ερωτήσεις κι αναλύσεις) των πληροφοριών που αποθηκεύονται σε μία DW συνήθως γίνεται με τη χρήση εργαλείων OLAP. Το βασικότερο χαρακτηριστικό των εργαλείων αυτών είναι η πολυδιάστατη ανάλυση (multidimensional analysis). Τα OLAP εργαλεία δομούν τις πληροφορίες σε πολυδιάστατους κύβους, όπου τα δεδομένα χωρίζονται σε μετρήσιμα γεγονότα (facts), δηλαδή τις βασικές οντότητες προς ανάλυση, π.χ. πωλήσεις, και διαστάσεις (dimensions) ως προς τις οποίες θα αναλύονται τα μετρήσιμα, πχ προϊόντα. Το Σχήμα 3 απεικονίζει παράδειγμα ενός κύβου. Συνήθως οι διαστάσεις οργανώνονται ιεραρχικά σε επίπεδα (πχ τα προϊόντα ομαδοποιούνται σε κατηγορίες κι οι κατηγορίες σε κλάδο της βιομηχανίας. Τα facts σχετίζονται με αριθμητικά μέτρα (measures), όπως π.χ. η ποσότητα πώλησης και ή αξία πώλησης. Επερωτήσεις (queries) συναθροίζουν (aggregate) τα μετρήσιμα σε κάποιο επίπεδο (π.χ. συνολικές πωλήσεις σε κατηγορία προϊόντος και μήνα), κι είτε γίνεται περαιτέρω συνάθροιση σε υψηλότερο επίπεδο (roll-up) π.χ. έτους, είτε ανάλυση σε πιο χαμηλό επίπεδο (drilldown), π.χ. ανάλυση πωλήσεων ανά προϊόν κι ημέρα. Σχήμα 3. Παράδειγμα πολυδιάστατου κύβου [39] Συνδεδεμένα Δεδομένα 50/68

59 Η πιο ευρέως χρησιμοποιούμενη γλώσσα επερωτήσεων σε πολυδιάστατες αποθήκες είναι η Multi-Dimensional expressions, η οποία πρωτοπαρουσιάστηκε από τη Microsoft κι υποστηρίζεται από πολλούς κατασκευαστές OLAP servers και DW εφαρμογών. Οι πιο γνωστές προσεγγίσεις στην αναλυτική επεξεργασία είναι η ROLAP (Relational OLAP)και η MOLAP (Multi-dimensional OLAP). Στη ROLAP τα δεδομένα αποθηκεύονται σε σχεσιακούς πίνακες. Υπάρχουν διάφορα λογικά σχήματα αναπαράστασης ενός πολυδιάστατου κύβου σε σχεσιακούς πίνακες με πιο γνωστά αυτά του αστέρα (star) και της νιφάδας χιονιού (snowflake): Star Snowflake Σχήμα 4. Παραδείγματα σχημάτων αστέρα και νιφάδας [39] Στο σχήμα star υπάρχει ένας πίνακας για κάθε διάσταση κι ένας πίνακας για τα facts. Κάθε πλειάδα στον πίνακα των facts έχει μία στήλη με ξένο κλειδί για κάθε πίνακα διάστασης και αριθμητικές στήλες για τα μετρήσιμα. Το σχήμα snowflake επεκτείνει το star, όπου οι πίνακες των διαστάσεων είναι κανονικοποιημένοι αναπαριστώντας τις ιεραρχίες. Το ROLAP είναι ιδανικό για πολύ μεγάλους όγκους δεδομένων αλλά η απόδοση τους εξαρτάται από το υποκείμενο σύστημα βάσεων δεδομένων. Πολύπλοκοι υπολογισμοί που συνδυάζουν πολλές διαστάσεις είναι χρονοβόροι. Αντίθετα στην πιο παραδοσιακή MOLAP προσέγγιση χρησιμοποιούνται ειδικές δομές δεδομένων (πολυδιάστατοι πίνακες, κύβοι), που η υλοποίησή τους διαφέρει ανά κατασκευαστή. Κατά τη δημιουργία των κύβων, τα μετρήσιμα μεγέθη υπολογίζονται σε όλες τις διαστάσεις των ιεραρχιών κι αποθηκεύονται, μειώνοντας έτσι πολύ το χρόνο επιστροφής αποτελεσμάτων την ώρα της ανάλυσης. Δεν προσφέρεται για πολύ μεγάλους όγκους δεδομένων. Συνδεδεμένα Δεδομένα 51/68

60 Ο συνδυασμός ROLAP και MOLAP, γνωστός ως Υβριδική OLAP (HOLAP) περιλαμβάνει την αποθήκευση στων αναλυτικών δεδομένων σε σχεσιακούς πίνακες, ενώ η διαχείριση των συναθροισμένων δεδομένων γίνεται με πολυδιάστατους πίνακες. Η πιο πρόσφατη μορφή OLAP είναι η XOLAP (extended OLAP), όπου η αναλυτική επεξεργασία εφαρμόζεται σε XML βάσεις δεδομένων με τη χρήση εργαλείων XQuery κι XPath [39]. Το XML είναι το κατ εξοχήν πρότυπο ανταλλαγής δεδομένων στον ιστό κι υπάρχουν ήδη πρότυπα όπως το Statistical Data and Metadata exchange (SDMX) 30, το Extensible Business Reporting Language (XBRL) ΣΤΑΤΙΣΤΙΚΑ ΣΥΝΔΕΔΕΜΕΝΑ ΔΕΔΟΜΕΝΑ Όταν κάποιος προσπαθεί να αναλύσει στατιστικά στοιχεία από δύο διαφορετικά σύνολα, συνδυάζοντάς τα, αντιμετωπίζει διάφορες προκλήσεις: Τα δεδομένα προέρχονται από διαφορετικές πηγές, βρίσκονται σε συστήματα με διαφορετικούς τρόπους πρόσβασης, και διατίθενται σε διαφορετικούς μορφότυπους Τα δεδομένα είναι ετερογενή: έχουν διαφορετικό επίπεδο ανάλυσης, χρησιμοποιούν διαφορετικές κωδικοποιήσεις Δεν υπάρχει εννοιολογική ομοιότητα σε μεγέθη που συγκρίνονται. Tο ίδιο φαινομενικά μέγεθος να έχει διαφορετικό περιεχόμενο σε διαφορετικά σύνολα (πχ καθαρές πωλήσεις) Αυτά τα προβλήματα φυσικά γίνονται πολύ πιο έντονα όταν την επεξεργασία των στατιστικών θα θέλαμε να γίνεται από μηχανές στα πλαίσια του σημασιολογικού ιστού. Αυτά όμως τα προβλήματα είναι στα οποία δίνουν λύσεις οι αρχές και τεχνικές των Συνδεδεμένων δεδομένων: το RDF ένα ενιαίο ευέλικτο πλαίσιο ορισμού ημι-δομημένων δεδομένων (ορίζεις άμεσα νέες διαστάσεις και μεγέθη). Λεξιλόγια και οντολογίες και τεχνικές ευθυγράμμισης μπορούν να χρησιμοποιηθούν για την εννοιολογική περιγραφή των δεδομένων και την κατανόησή τους από τις μηχανές. Έτσι, ένα μεγάλο μέρος της διαδικασίας ETL που γίνεται στις αποθήκες δεδομένων, θα απλοποιηθεί και θα μπορεί να αυτοματοποιηθεί. Αν πχ σε ένα τέτοιο σύστημα τροφοδοτούνται στοιχεία για προϊόντα από διαφορετικές πηγές, και η μία πηγή Συνδεδεμένα Δεδομένα 52/68

61 αλλάξει τον κωδικό κάποιου προϊόντος, τότε, αν δεν έχει προβλεφθεί από τη διαδικασία φορτώματος, τα στοιχεία για το νέο κωδικό θα απορριφθούν και θα πρέπει να γίνουν οι σχετικές ενέργειες για τον ορισμό του νέου κωδικού, την αντικατάσταση ή σύνδεση με τον παλιό και τη εκτέλεση της διαδικασίας φορτώματος. Πόσο πιο εύκολο θα ήταν, αν η μηχανή μπορούσε να αντιληφθεί την αλλαγή με μία owl:sameas και να κάνει όλες τις ενέργειες αυτόματα. Οι M.Niinimäki και T.Niemi στο [42] προτείνουν ένα σύστημα δημιουργίας OLAP κύβων για ROLAP συστήματα με τη χρήση RDF/OWL οντολογιών κι σχεδιαστικών εργαλείων. Το σημείο εκκίνησης είναι ετερογενή δεδομένα από διαφορετικές πηγές που χρησιμοποιούνται για να δημιουργηθούν οι OLAP κύβοι.. Στην αρχή μετατρέπονται τα δεδομένα σε RDF χρησιμοποιώντας χάρτες οντολογίας. Στη συνέχεια τα δεδομένα εξάγονται από την RDF μορφή τους με queries που δημιουργούνται χρησιμοποιώντας την οντολογία του OLAP σχήματος για να γεμίσουν τους πίνακες του ROLAP συστήματος. Για το σκοπό αυτό έχουν δημιουργήσει μία οντολογία OLAP, την olapcore ( η οποία αποτελείται από διαστάσεις (members of DimensionSet), μετρήσιμα (members of MeasureSet) που συνδέονται με FactRows. Κάθε FactRow έχει ένα DimensionSet και τουλάχιστον ένα MeasureSet. Από αυτή θα προκύψουν οι συγκεκριμένες οντολογίες που θα περιγράφουν το κάθε σύστημα OLAP. Εικόνα 16 : OLAP με χρήση RDF/OWL [42] Στην εργασία παρουσιάζεται ένα πλήρες παράδειγμα μετατροπής δεδομένων και δημιουργίας των κύβων με αυτή την προσέγγιση. Η δημιουργία των ontology maps αλλά κι η δημιουργία των RDF queries είναι μάλλον τα πιο πολύπλοκα βήματα σε Συνδεδεμένα Δεδομένα 53/68

62 αυτή την προσέγγιση, που ίσως είναι και πιο κοστοβόρα από τη χρήση συμβατικών μεθόδων κι εργαλείων ETL. Τη χρήση οντολογίας για το σχεδιασμό ETL διαδικασιών προτείνουν κι οι Skoutas και Simitsis στο [43], σε θεωρητικό επίπεδο, χωρίς την αντίστοιχη υλοποίηση σε βάση δεδομένων. Υπάρχουν περιπτώσεις που η χρήση SPARQL είτε να μην είναι αποδοτική ή κι εφικτή (πχ πολύ μεγάλος όγκος δεδομένων, πολύπλοκοι υπολογισμοί συνάθροισης, pivoting), για τον υπολογισμό μετρήσιμων στοιχείων από δεδομένα σε RDF. Όπως είπαμε προηγουμένως οι προσεγγίσεις των DW κι OLAP έρχονται να λύσουν τέτοια προβλήματα. Οι Kämpgen et al. [44] προτείνουν ένα μοντέλο δημιουργίας ενός κύβου OLAP, από ένα σύνολο δεδομένων σε RDF Data Cube Vocabulary (QB). Πριν δούμε το μοντέλο, ας δούμε λίγο το πρότυπο QB και τα αντίστοιχα πρότυπα από τα οποία προήλθε. Το SDMX [45] είναι ένα πρότυπο που υποστηρίζεται από 7 διεθνείς οργανισμούς (Bank of Intl Settlements., Ευρωπαϊκή Κεντρική Τράπεζα, Eurostat, ΔΝΤ, ΟΟΣΑ, Παγκόσμια Τράπεζα κι ΗΕ) για τη συλλογή, ανταλλαγή, επεξεργασία και διάθεση στατιστικών στοιχείων. Προβλέπει την χρήση δύο συντακτικών (SDMX-ML, SDMX- EDI). Διαθέτει επίσης ένα σύνολο κανόνων (Content-Oriented Guidelines), που ορίζουν έννοιες κοινές σε πολλά πεδία, λίστες κωδικών και κατηγορίες που υποστηρίζουν τη διαλειτουργικότητα και συμβατότητα μεταξύ συνόλων δεδομένων. H DataStructure είναι ένα σύνολο από συστατικά (components) που ορίζει τι είναι αυτό που μετράται (φαινόμενο). Τα συστατικά ορίζουν τις διαστάσεις (dimensions) ως προς τις οποίες γίνονται οι μετρήσεις (πχ χρόνος), τα μετρήσιμα (measures) ορίζει τι μετράται (πχ, όγκος, βάρος) και τα γνωρίσματα (attributes) χρησιμοποιούνται για να περιγράψουν τα φαινόμενα (π.χ. μονάδα μέτρησης). Οι έννοιες (concepts) χρησιμοποιούνται για να δηλωθεί το εννοιολογικό περιεχόμενο των συστατικών. (περισσότερα για το SDMX στον οδηγό χρήστη [45] ) Συνδεδεμένα Δεδομένα 54/68

63 Σχήμα 5: SDMX: Σχηματική αναπαράσταση του ορισμού μίας Data Structure [45] To Statistical Core Vocabulary (SCOVO) [39] είναι ένα απλό RDFs λεξιλόγιο για την αναπαράσταση στατιστικών δεδομένων. Έχει τρεις βασικές έννοιες: Data set: η περιγραφή του συνόλου των στατιστικών (πχ: ontime-flights) Data item: το στατιστικό μέγεθος (πχ: AtlantaHartsfield-ota-2006-q1) Dimension: η διάσταση (π.χ. Q12006) Το μινιμαλιστικό του σχέδιο επιτρέπει την εύκολη υιοθέτηση. Από την άλλη όμως περιορίζει τη χρήση του αφού δεν υποστηρίζει βασικά χαρακτηριστικά της πολυδιάστατης ανάλυσης όπως επίπεδα ιεραρχιών, slices, την περιγραφή της δομής του συνόλου. Συνδεδεμένα Δεδομένα 55/68

Μεταπτυχιακή Διατριβή

Μεταπτυχιακή Διατριβή Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Υπηρεσία Αυτόματης Ανάκτησης Συνδεδεμένης Δομής Θεματικών Επικεφαλίδων μέσω

Διαβάστε περισσότερα

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Μεταδεδομένα στο Ψηφιακό περιβάλλον Μεταδεδομένα στο Ψηφιακό περιβάλλον Μονάδα Αριστείας Ανοικτού Λογισμικού - Χαροκόπειο Πανεπιστήμιο Ψηφιακό Τεκμήριο Οτιδήποτε υπάρχει σε ηλεκτρονική μορφή και μπορεί να προσπελαστεί μέσω υπολογιστή Μεταδεδομένα

Διαβάστε περισσότερα

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων Έργο: Τίτλος Υποέργου: «ΘΑΛΗΣ: Ενίσχυση της Διεπιστημονικής ή και Διιδρυματικής έρευνας και καινοτομίας με δυνατότητα προσέλκυσης ερευνητών υψηλού επιπέδου από το εξωτερικό μέσω της διενέργειας βασικής

Διαβάστε περισσότερα

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων Ο ΡΟΛΟΣ ΤΩΝ ΔΙΑΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΤΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Δρ. Χαράλαμπος Μπράτσας - OKGR CEO, Σωτήριος Καραμπατάκης - OKGR Open G.L.A.M.

Διαβάστε περισσότερα

Linked Data for the Masses: Η προσέγγιση και το λογισμικό

Linked Data for the Masses: Η προσέγγιση και το λογισμικό Linked Data for the Masses: Η προσέγγιση και το λογισμικό Γιώργος Αναδιώτης, Πάνος Ανδριόπουλος, Πάνος Αλεξόπουλος, ημήτρης Βεκρής, Αριστοτέλης Ζωσάκης IMC Technologies S.A. 15/05/2010 Linked Data for

Διαβάστε περισσότερα

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Μεταδεδομένα για Ψηφιακές Βιβλιοθήκες Γ. Δ. Μπώκος Μεταδεδομένα: Ο όρος Μεταδεδομένα: «Δεδομένα σχετικά με Δεδομένα» Αναλυτικότερα: «Το σύνολο όσων θα μπορούσε να πει κανείς για ένα πληροφοριακό αντικείμενο

Διαβάστε περισσότερα

Τεχνολογίες RDF για τον Ιστό Δεδοµένων

Τεχνολογίες RDF για τον Ιστό Δεδοµένων 1 Τεχνολογίες RDF για τον Ιστό Δεδοµένων The Semantic Web is Dead? Hardly! The reports of my death are greatly exaggerated. Mark Twain Διαχείριση δεδοµένων στον Ιστό 2 Έστω ένας φανταστικός ιστός! html

Διαβάστε περισσότερα

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Ανοικτά και Συνδεδεμένα Δεδομένα Ανοικτά Δεδομένα Πληροφορίες, δημόσιες ή άλλες, στις

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 5: Resource Description Framework (RDF) Μ.Στεφανιδάκης 16-3-2015. Τα επίπεδα του Σημασιολογικού Ιστού RDF: Το κύριο πρότυπο του Σημασιολογικού Ιστού, χρησιμοποιεί

Διαβάστε περισσότερα

Σημασιολογικός Ιστός RDF(S) OWL Οντολογίες. Pervasive Computing Research Group

Σημασιολογικός Ιστός RDF(S) OWL Οντολογίες. Pervasive Computing Research Group Σημασιολογικός Ιστός RDF(S) OWL Οντολογίες Ο Παγκόσμιος Ιστός Εφαρμογή του Internet Δημοσίευση εγγράφων και υπερσύνδεσμοι Δυναμικό περιεχόμενο Αναζήτηση πληροφοριών - Κατανοητός μόνο από ανθρώπους (έμφαση

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 5: Resource Description Framework (RDF) Μ.Στεφανιδάκης 13-3-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Ανοικτά Συνδεδεμένα Δεδομένα και το πρότυπο Bibframe Linked Open Data and Bibframe

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Διαχείριση Πολιτισμικών Δεδομένων Μάθημα 9 Μεταδεδομένα Τζανέτος Πομόνης ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι τα Μεταδεδομένα; Ο όρος

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 5-2-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 4: Χρησιμοποιώντας Ενιαία Αναγνωριστικά URIs και IRIs Μ.Στεφανιδάκης 28-2-2016. Η έννοια της οντότητας Στον Σημασιολογικό Ιστό οι τριάδες μπορούν να εκληφθούν ως

Διαβάστε περισσότερα

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου Εισαγωγή στο RDF Σταύρος Πολυβίου Το Resource Description Framework (RDF) RDF: µία γλώσσα περιγραφής πληροφοριών (metadata) που αφορούν πόρους (resources) στο world wide web. Παραδείγµατα: ο τίτλος, ο

Διαβάστε περισσότερα

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Διαδίκτυο και Επίπεδα ετερογένειας δεδομένων

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 10-2-2017 Η αρχή: Το όραμα του Σημασιολογικού Ιστού Tim Berners-Lee, James Hendler and Ora Lassila, The Semantic

Διαβάστε περισσότερα

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) (alexv@aegean.gr) Υποψήφιος ιδάκτορας Τµήµα Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων.

Διαβάστε περισσότερα

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013 Στο πλαίσιο της πράξης «Αναβάθμιση και Εμπλουτισμός των Ψηφιακών Υπηρεσιών της Βιβλιοθήκης του Παντείου Πανεπιστημίου». Η Πράξη συγχρηματοδοτείται από το Ευρωπαϊκό Ταμείο Περιφερειακής Ανάπτυξης (ΕΤΠΑ).

Διαβάστε περισσότερα

Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό

Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό Οι γλώσσες RDF(S) και OWL Γ. Στάμου Περιγραφή Μεταδεδομένων με την RDF Η RDF χρησιμοποιείται για την απλή περιγραφή πόρων (resources) του διαδικτύου o Περιγράφει

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων

ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων Δημητριάδης Σάββας Πληροφορικός, MSc. Συνεργάτης Έργου Το Ιδρυματικό

Διαβάστε περισσότερα

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου

Διαβάστε περισσότερα

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ RDF (Resource Description Framework) Ι. Χατζηλυγερούδης Ανεπάρκεια της XML Η XML είναι Μετα-γλώσσα ορισμού σήμανσης για ανταλλαγή δεδομένων και μεταδεδομένων μεταξύ

Διαβάστε περισσότερα

Εφαρμογές που χρησιμοποιούν το πρότυπο DCAT. Γιάννης Ξυδιάς

Εφαρμογές που χρησιμοποιούν το πρότυπο DCAT. Γιάννης Ξυδιάς Εφαρμογές που χρησιμοποιούν το πρότυπο DCAT Γιάννης Ξυδιάς johnnyxidias@gmail.com Data Catalog Vocabulary (DCAT) λεξιλόγιο RDF έχει σχεδιαστεί για να διευκολύνει τη διαλειτουργικότητα μεταξύ των datasets

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 8: Εισαγωγή στη SPARQL Βασική Χρήση Μ.Στεφανιδάκης 3-5-2015. Η γλώσσα ερωτημάτων SPARQL Ερωτήσεις (και ενημερώσεις) σε σετ δεδομένων RDF Και σε δεδομένα άλλης μορφής

Διαβάστε περισσότερα

ιαχείριση Γνώσης σε Ενδοεπιχειρισιακά ίκτυα και το ιαδίκτυο (ΗΥ-566)

ιαχείριση Γνώσης σε Ενδοεπιχειρισιακά ίκτυα και το ιαδίκτυο (ΗΥ-566) ιαχείριση Γνώσης σε Ενδοεπιχειρισιακά ίκτυα και το ιαδίκτυο (ΗΥ-566) Άσκηση 2 - Αναφορά "Επιλογή Παραδείγµατος Πεδίου Εφαρµογής Περιγραφής Γνώσης, Σύνταξη Σχήµατος σε RDFS (δεδοµένa σε RDF) και Επερωτήσεις

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Σοφία Ζαπουνίδου, Αρχειονόμος Βιβλιοθηκονόμος, Πανεπιστήμιο Θεσσαλίας Κεντρική

Διαβάστε περισσότερα

Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α

Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α Πολιτισμική Τεχνολογία Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α Δυνατότητες: Σύλληψη, συντήρηση, ανάδειξη Χρήση : Ψηφιακών βίντεο, ήχων, εικόνων, γραφικών παραστάσεων Οι συλλογές καθίστανται διαθέσιμες

Διαβάστε περισσότερα

Αποθετήρια. Κλειώ Σγουροπούλου. Αριστεία ΕΛ/ΛΑΚ ΤΕΙ Αθήνας

Αποθετήρια. Κλειώ Σγουροπούλου. Αριστεία ΕΛ/ΛΑΚ ΤΕΙ Αθήνας Αποθετήρια Κλειώ Σγουροπούλου Αριστεία ΕΛ/ΛΑΚ ΤΕΙ Αθήνας Περιεχόμενα 2 Αποθετήρια, ψηφιακά αποθετήρια Άδειες ανοικτού περιεχομένου, Μεταδεδομένα Ψηφιακό Αποθετήριο 3 Πληροφοριακό σύστημα που αναλαμβάνει

Διαβάστε περισσότερα

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ(M.I.S.)

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ(M.I.S.) ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ(M.I.S.) ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Η χρήση των Τεχνολογιών Ανοικτών και Συνδεδεμένων Δεδομένων στα Πανεπιστήμια» Ψαρρά Κωνσταντινιά Επιβλέποντες

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 6: RDF Schema (RDFS) Μ.Στεφανιδάκης 21-3-2016. Τι μπορούμε να εκφράσουμε με την RDF; Δηλώσεις σε μορφή τριάδων (s,p,o) Χωρίς οποιαδήποτε έννοια δομής... Παράδειγμα:

Διαβάστε περισσότερα

Σχεδιασµός Ανάπτυξη Οντολογίας

Σχεδιασµός Ανάπτυξη Οντολογίας Σχεδιασµός Ανάπτυξη Οντολογίας ΈλεναΜάντζαρη, Γλωσσολόγος, Ms.C. ΙΑΤΡΟΛΕΞΗ: Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Τι είναι η οντολογία; Μιαοντολογίαείναιέναλεξικόόρωνπου διατυπώνονται

Διαβάστε περισσότερα

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών 15ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών ΓΑΪΤΑΝΟΥ ΠΑΝΩΡΑΙΑ gaitanou@benaki.gr

Διαβάστε περισσότερα

Ιστορικοί χάρτες στον Παγκόσμιο Ιστό

Ιστορικοί χάρτες στον Παγκόσμιο Ιστό Χαρτογραφική Επιστημονική Εταιρεία Ελλάδας Χαρτογραφία στο Διαδίκτυο. Σύγχρονες Τάσεις και Προοπτικές 13 ο Εθνικό Συνέδριο Χαρτογραφίας Πάτρα, 22-24 Οκτωβρίου 2014 1 Ελένη Γκαδόλου, 2 Εμμανουήλ Στεφανάκης

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Βάσεις Δεδομένων - Γενικά Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα. Τα περιεχόμενα

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ (III) ΙΖΑΜΠΩ ΚΑΡΑΛΗ ΑΘΗΝΑ 2008 Σύγχρονεςανάγκες για αναπαράσταση γνώσης

Διαβάστε περισσότερα

Ψηφιοποίηση και ψηφιακή επεξεργασία εικόνας

Ψηφιοποίηση και ψηφιακή επεξεργασία εικόνας Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Ψηφιοποίηση και ψηφιακή επεξεργασία εικόνας Ενότητα 4: Τεκμηρίωση Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ του Γεράσιμου Τουλιάτου

Διαβάστε περισσότερα

Πρότυπο Αναφοράς Open Systems Interconnection (OSI) Επικοινωνίες Δεδομένων Μάθημα 5 ο

Πρότυπο Αναφοράς Open Systems Interconnection (OSI) Επικοινωνίες Δεδομένων Μάθημα 5 ο Πρότυπο Αναφοράς Open Systems Interconnection (OSI) Επικοινωνίες Δεδομένων Μάθημα 5 ο Πρωτόκολλα και Αρχιτεκτονική Δικτύου Για να ανταλλάξουν δεδομένα δύο σταθμοί, εκτός από την ύπαρξη διαδρομής μεταξύ

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα

Τεχνολογίες Ανάλυσης περιεχοµένου και Europeana

Τεχνολογίες Ανάλυσης περιεχοµένου και Europeana Αρχεία: Και µετά την ψηφιοποίηση, τι; Τεχνολογίες Ανάλυσης περιεχοµένου και Europeana ΣΤΕΦΑΝΟΣ ΚΟΛΛΙΑΣ Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ 30 Σεπτεµβρίου 2010 Περιεχόµενα

Διαβάστε περισσότερα

ΑΝΑΛΥΤΙΚΗ ΑΝΟΙΧΤΩΝ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΤΙΚΗ ΑΝΟΙΧΤΩΝ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ Διπλωματική Εργασία ΑΝΑΛΥΤΙΚΗ ΑΝΟΙΧΤΩΝ ΣΥΝΔΕΔΕΜΕΝΩΝ ΔΕΔΟΜΕΝΩΝ του ΓΕΡΑΣΙΜΟΥ ΑΝΤΩΝΙΟΥ ΤΟΥ ΛΕΩΝΙΔΑ Υποβλήθηκε ως προαπαιτούμενο

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Σημασιολογική Συσταδοποίηση Αντικειμένων Με Χρήση Οντολογικών Περιγραφών.

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Διαχείριση Κατανεμημένων Δεδομένων στο. Διαδίκτυο

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Διαχείριση Κατανεμημένων Δεδομένων στο. Διαδίκτυο ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Διαχείριση Κατανεμημένων Δεδομένων στο Διαδίκτυο Του φοιτητή Τσουκαλά Χρυσόστομου Επιβλέπων καθηγητής Δηµήτρης Αχιλ. Δέρβος Αρ. Μητρώου: 05/2758 Θεσσαλονίκη 2011 ΠΡΟΛΟΓΟΣ Από τότε που

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Χειμερινό Εξάμηνο 2013 - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ Δρ. Βαγγελιώ Καβακλή ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ, ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 Αρχιτεκτονική

Διαβάστε περισσότερα

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού Προγράμματα για τη δημιουργία και διαχείριση θησαυρού Το λογισμικό θησαυρών μπορεί να προορίζεται για έναν υπολογιστή ή για μεγάλο σύστημα, μπορεί να αφορά στην κατασκευή και συντήρηση του θησαυρού ή στην

Διαβάστε περισσότερα

Σημασιολογικός Ιστός (Semantic Web) - XML

Σημασιολογικός Ιστός (Semantic Web) - XML Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Σημασιολογικός Ιστός (Semantic Web) - XML 22/11/2016 Δρ. Ανδριάνα Πρέντζα Αναπληρώτρια Καθηγήτρια aprentza@unipi.gr Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων

Διαβάστε περισσότερα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. ΚΕΦΑΛΑΙΟ 9 Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966 αρχίζει ο σχεδιασμός του ARPANET, του πρώτου

Διαβάστε περισσότερα

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών World Wide Web (WWW) Θέματα Επεξεργασία δεδομένων στο Web Δημιουργία απλών σελίδων HTML Περιγραφή κάποιων XHTML στοιχείων (tags) Εξέλιξης του WWW Το WWW

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Συνδεδεμένα Δεδομένα: Δημοσίευση, Σύνδεση, Προσπέλαση. (Linked Data)

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Συνδεδεμένα Δεδομένα: Δημοσίευση, Σύνδεση, Προσπέλαση. (Linked Data) ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Συνδεδεμένα Δεδομένα: Δημοσίευση, Σύνδεση, Προσπέλαση (Linked Data) Της φοιτήτριας Μουσταφά Νεντιµέ Επιβλέπων καθηγητής Νίτσος Ηλίας Αρ. Μητρώου: 03/2452 Θεσσαλονίκη 2012 ΠΡΟΛΟΓΟΣ Η παρούσα

Διαβάστε περισσότερα

Digital Object Identifer (DOΙ),

Digital Object Identifer (DOΙ), ΜΑΘΗΜΑ 7 CrossRef Μια συνεργατική υπηρεσία διασυνδετικής παραποµπής, η οποία επιτρέπει στο χρήστη την άµεση µετάβαση από την περιγραφή ενός τεκµηρίου, στο περιεχόµενό του Κάθε εκδότης µέλος δηµιουργεί

Διαβάστε περισσότερα

ΟΝΤΟΛΟΓΙΕΣ, ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΔΙΑΚΥΒΕΡΝΗΣΗΣ

ΟΝΤΟΛΟΓΙΕΣ, ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΔΙΑΚΥΒΕΡΝΗΣΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΟΝΤΟΛΟΓΙΕΣ, ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΔΙΑΚΥΒΕΡΝΗΣΗΣ ΣΩΤΗΡΙΟΣ ΓΟΥΔΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ Κ.ΤΑΡΑΜΠΑΝΗΣ ΕΞΕΤΑΣΤΗΣ

Διαβάστε περισσότερα

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού.

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Τζίτζικας Αγαπητός Τζίτζικας Αγαπητός Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Δυστυχώς, αυτές οι μηχανές αναζήτησης

Διαβάστε περισσότερα

Ημερομηνία Παράδοσης: 4/4/2013

Ημερομηνία Παράδοσης: 4/4/2013 Δράση 9.14 / Υπηρεσία εντοπισμού λογοκλοπής Κυρίως Παραδοτέο / Σχεδιασμός και ανάπτυξη λογισμικού (λογοκλοπής) και βάσης δεδομένων (αποθετηρίου) Επιμέρους Παραδοτέο 9.14.1.4 / Πληροφοριακό σύστημα υπηρεσίας

Διαβάστε περισσότερα

Επιχειρησιακό Πρόγραμμα «Ψηφιακή Σύγκλιση»

Επιχειρησιακό Πρόγραμμα «Ψηφιακή Σύγκλιση» EKT / EIE: ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΤΕΚΜΗΡΙΩΣΗΣ / ΕΘΝΙΚΟ ΙΔΡΥΜΑ ΕΡΕΥΝΩΝ EKT / NHRF: NATIONAL DOCUMENTATION CENTRE / NATIONAL HELLENIC RESEARCH FOUNDATION Επιχειρησιακό Πρόγραμμα «Ψηφιακή Σύγκλιση» Άξονας Προτεραιότητας:

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΟΣ Διδάσκων: Γ. Χαραλαμπίδης, Επ. Καθηγητής

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ.

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ. Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων Δρ. Κωνσταντίνος Χ. Γιωτόπουλος Βασικά θέματα Βάσεων Δεδομένων Ένα Σύστημα Βάσης Δεδομένων

Διαβάστε περισσότερα

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας. Η Πυξίδα Απασχόλησης είναι ένα πλήρως παραμετροποιήσιμο portal που απευθύνεται σε Κέντρα Επαγγελματικής Κατάρτισης, Δήμους, Εκπαιδευτικούς Οργανισμούς και Εταιρίες Εύρεσης Εργασίας, με στόχο τόσο την μηχανογράφηση

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Σημασιολογικοί Ιστοχώροι: Γιατί Drupal. 18/3/2014 Μυρτώ Αμοργιανού Μονάδα Σημασιολογικού Ιστού

Σημασιολογικοί Ιστοχώροι: Γιατί Drupal. 18/3/2014 Μυρτώ Αμοργιανού Μονάδα Σημασιολογικού Ιστού Σημασιολογικοί Ιστοχώροι: Γιατί Drupal 18/3/2014 Μυρτώ Αμοργιανού Τι είναι CMS Τα Συστήματα Διαχείρισης Περιεχομένου (ΣΔΠ, Content Management Systems, CMS) είναι διαδικτυακές εφαρμογές που επιτρέπουν την

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 example Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 Πρότυπα και XML Πρότυπα ενιαίο

Διαβάστε περισσότερα

Βασίλειος Κοντογιάννης ΠΕ19

Βασίλειος Κοντογιάννης ΠΕ19 Ενότητα3 Επικοινωνία και Διαδίκτυο Κεφ9: Διαδίκτυο, Web2.0, WebX.0 9.1 Ιστορικά στοιχεία Από πού, πότε με ποια μορφή και με ποια αφορμή ξεκίνησε η λειτουργία του Διαδικτύου; Ξεκίνησε στην Αμερική, το 1969,

Διαβάστε περισσότερα

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Επιμέλεια: Καρανικολάου Θεοδώρα Επιβλέπων καθηγητής: Δενδρινός Μάρκος Αθήνα, 2017 Σκοπός Στόχος της πτυχιακής

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων - Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Καθιστώντας µια υπηρεσία θεµατικής πλοήγησης στο διαδίκτυο συµβατή µε τις τεχνολογίες των συνδεδεµένων δεδοµένων

Καθιστώντας µια υπηρεσία θεµατικής πλοήγησης στο διαδίκτυο συµβατή µε τις τεχνολογίες των συνδεδεµένων δεδοµένων Καθιστώντας µια υπηρεσία θεµατικής πλοήγησης στο διαδίκτυο συµβατή µε τις τεχνολογίες των συνδεδεµένων δεδοµένων Κωνσταντίνος Κυπριανός 1 και Ιωάννης Παπαδάκης 1 1 Ιόνιο Πανεπιστήµιο, Τµήµα Αρχειονοµίας

Διαβάστε περισσότερα

Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό. Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής

Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό. Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής Ηράκλειο, 11/6/2014 Ανοικτοί Εκπαιδευτικοί Πόροι (ΑΕΠ) Οι ανοικτοί εκπαιδευτικοί πόροι είναι ψηφιοποιημένο

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Αιγαίου.

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Αιγαίου. Από τον Παγκόσµιο Ιστό στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Υποψήφιος ιδάκτορας, Τµήµατος Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων. Παν/µίου Αιγαίου. Συνεργαζόµενος

Διαβάστε περισσότερα

Κεφάλαιο 29. Τεχνητή Νοημοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου

Κεφάλαιο 29. Τεχνητή Νοημοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Κεφάλαιο 29 Σημασιολογικό Διαδίκτυο "The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE Βασικές Παρεχόμενες Υπηρεσίες Α. Διαδικασία Μετάπτωσης Δεδομένων Β. Μεθοδολογία Ψηφιοποίησης Εγγράφων Γ. Οργάνωση και Τεκμηρίωση Υλικού Δ. Διαχείριση

Διαβάστε περισσότερα

Επεκτεταμένο Μοντέλο Οντοτήτων-Συσχετίσεων Αντζουλάτος Γεράσιμος antzoulatos@upatras.gr Τμήμα Εφαρμογών Πληροφορικής στην Διοίκηση και Οικονομία ΤΕΙ Πατρών - Παράρτημα Αμαλιάδας 08 Νοεμβρίου 2012 Περιεχομενα

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων

Τεχνολογία Πολυμέσων Τεχνολογία Πολυμέσων Γιώργος Τζιρίτας Τμήμα Επιστήμης Υπολογιστών http://www.csd.uoc.gr/~tziritas Άνοιξη 2017 1 Πολυμέσα Εικόνα Βίντεο Ήχος Υπερ/κείμενο Γραφικά Επεξεργασία φυσικής γλώσσας Διαδραστικές

Διαβάστε περισσότερα

Ε Ξ Α Γ Ω Γ H Γ Ε Ω Γ ΡΑ Φ Ι Κ H Σ Π Λ Η Ρ Ο Φ Ο Ρ Ί Α Σ Α Π O Η Μ Ι Δ Ο Μ Η Μ E Ν Ο Κ Ε I Μ Ε Ν Ο ( G E O P A R S I N G W E B P A G E S )

Ε Ξ Α Γ Ω Γ H Γ Ε Ω Γ ΡΑ Φ Ι Κ H Σ Π Λ Η Ρ Ο Φ Ο Ρ Ί Α Σ Α Π O Η Μ Ι Δ Ο Μ Η Μ E Ν Ο Κ Ε I Μ Ε Ν Ο ( G E O P A R S I N G W E B P A G E S ) Ε Ξ Α Γ Ω Γ H Γ Ε Ω Γ ΡΑ Φ Ι Κ H Σ Π Λ Η Ρ Ο Φ Ο Ρ Ί Α Σ Α Π O Η Μ Ι Δ Ο Μ Η Μ E Ν Ο Κ Ε I Μ Ε Ν Ο ( G E O P A R S I N G W E B P A G E S ) ΠΕΡΙΛΗΨΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ Αλβέρτος-Δαυΐδ Άντζελ el01004@mail.ntua.gr

Διαβάστε περισσότερα

Δεδομένα Βιβλιοθηκών και Δεδομένα Κοινωνικών Επιστημών στον Παγκόσμιο Ιστό

Δεδομένα Βιβλιοθηκών και Δεδομένα Κοινωνικών Επιστημών στον Παγκόσμιο Ιστό Δεδομένα Βιβλιοθηκών και Δεδομένα Κοινωνικών Επιστημών στον Παγκόσμιο Ιστό Χρήστος Παπαθεοδώρου (papatheodor@ionio.gr) Ομάδα Βάσεων Δεδομένων και Πληροφοριακών Συστημάτων, Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Μοντέλα Κυβερνητικής Πληροφορίας

Μοντέλα Κυβερνητικής Πληροφορίας Μοντέλα Κυβερνητικής Πληροφορίας Χρήστος Παπαθεοδώρου (papatheodor@ionio.gr) Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, Ιόνιο Πανεπιστήμιο και Μονάδα Ψηφιακής Επιμέλειας, Ινστιτούτο Πληροφοριακών

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή 1 Πίνακας Περιεχομένων 1. Εισαγωγή... 4 1.1 Περιβάλλον Moodle...4 1.2 Χρήση ονόματος χρήστη και κωδικού...4 1.3 Δημιουργία νέου μαθήματος...4 1.3.1

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο Βάσεις Δεδομένων Εισαγωγή Ανάλυση Απαιτήσεων Φροντιστήριο 1 ο 16-10-2008 Εισαγωγή - Ορισμοί Βάση Δεδομένων είναι μία συλλογή από σχετιζόμενα αντικείμενα Ένα σύστημα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ)

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 7: Χρήση RDFS και λεξιλογίων RDF Μ.Στεφανιδάκης 27-3-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 02 & 03. Δρ. Γεώργιος Χρ. Μακρής

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 02 & 03. Δρ. Γεώργιος Χρ. Μακρής ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ στα ΔΙΚΤΥΑ και ΠΟΛΥΠΛΟΚΟΤΗΤΑ Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός Χειμερινό Εξάμηνο Σπουδών Διάλεξη 02 & 03 Δρ. Γεώργιος Χρ. Μακρής Αναπαράσταση

Διαβάστε περισσότερα

Εννοιολογική Ομοιογένεια

Εννοιολογική Ομοιογένεια Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Εννοιολογική Ομοιογένεια Αξιοποίηση Ταξινομικών Συστημάτων Γεωργία Προκοπιάδου, Διονύσης

Διαβάστε περισσότερα

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής Εισαγωγή στις Βάσεις Δεδομένων Εισαγωγή στις Βάσεις Δεδομένων Ορισμός Βάσης Δεδομένων Σύστημα Διαχείρισης Βάσης Δεδομένων ΣΔΒΔ (DBMS) Χαρακτηριστικά προσέγγισης συστημάτων αρχειοθέτησης Χαρακτηριστικά

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΔΥΤΙΚΗΣ ΑΤΤΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΔΥΤΙΚΗΣ ΑΤΤΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΔΥΤΙΚΗΣ ΑΤΤΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ T.E. ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάλυση του Περιεχομένου της Ελληνικής Wikipedia μέσω των Ιδιοτήτων

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ Κεφάλαιο 2. Το περιβάλλον του παγκόσμιου Ιστού Επιμέλεια: Καραγιάννης Σπύρος Καθηγητής ΠΕ19 Πλεονεκτήματα παγκόσμιου Ιστού Εξυπηρετητής Ιστού & Ιστοσελίδες Κύριες

Διαβάστε περισσότερα

«Ανάπτυξη μηχανής παραγωγής φυσικής γλώσσας για οντολογίες OWL»

«Ανάπτυξη μηχανής παραγωγής φυσικής γλώσσας για οντολογίες OWL» «Ανάπτυξη μηχανής παραγωγής φυσικής γλώσσας για οντολογίες OWL» Διπλωματική εργασία ΜΠΣ «Επιστήμη Υπολογιστών» Γαλάνης Δημήτριος Επιβλέπων: Ι. Ανδρουτσόπουλος Δεύτερος Αξιολογητής: Π. Κωνσταντόπουλος Παραγωγή

Διαβάστε περισσότερα

Ο ρόλος των ελεγχόμενων λεξιλογίων και θησαυρών στην οργάνωση της γνώσης

Ο ρόλος των ελεγχόμενων λεξιλογίων και θησαυρών στην οργάνωση της γνώσης Ο ρόλος των ελεγχόμενων λεξιλογίων και θησαυρών στην οργάνωση της γνώσης Νικόλαος Μήτρου Καθηγητής ΕΜΠ Ιούνιος 2013 Εισαγωγή Αρχαία Έφεσος ΕΝΝΟΙΑ ΕΠΙΣΤΗΜΗ = ΓΝΩΣΗ Ορισμοί Μάθηση και Γνώση Ηλεκτρονική μάθηση

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα