ΕΡΕΥΝΗΤΙΚΟ ΚΕΝΤΡΟ ΚΑΙΝΟΤΟΜΙΑΣ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΗΣ ΓΝΩΣΗΣ «ΑΘΗΝΑ» ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ LODGOV

Σχετικά έγγραφα
ΕΡΕΥΝΗΤΙΚΟ ΚΕΝΤΡΟ ΚΑΙΝΟΤΟΜΙΑΣ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΗΣ ΓΝΩΣΗΣ «ΑΘΗΝΑ» ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ LODGOV

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού

MEDLAB: Mediterranean Living Lab for Territorial Innovation

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Μεταπτυχιακή Διατριβή

Ιχνηλασιμότητα η τροφίμων φμ με ανοικτό διαδικτυακό σύστημα:

Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες.

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΕΡΕΥΝΗΤΙΚΟ ΚΕΝΤΡΟ ΚΑΙΝΟΤΟΜΙΑΣ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΗΣ ΓΝΩΣΗΣ «ΑΘΗΝΑ» ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ LODGOV

Σχεδίαση Βάσεων Δεδομένων

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

ΔΕΛΤΙΟ ΤΥΠΟΥ Open Data Day 2013

ΕΡΕΥΝΗΤΙΚΟ ΚΕΝΤΡΟ ΚΑΙΝΟΤΟΜΙΑΣ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΗΣ ΓΝΩΣΗΣ «ΑΘΗΝΑ» ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ LODGOV

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Σχεδίαση και Ανάπτυξη Ιστότοπων

Η διαδικτυακή εφαρμογή ESOG: Εγχειρίδιο χρήσης *

Χαρακτηριστικά του ebeam Complete. Ό, τι χρειάζεται η σύγχρονη αίθουσα διδασκαλίας

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

Το Ευρωπαϊκό Πρόγραμμα. Motor Challenge

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Παραδοτέο Π.1.3. Μηχανισμοί δεικτοδότησης μη-παραδοσιακών δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

EPALE CY. Οδηγός Ανάρτησης Περιεχομένου

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

ΙΝΤΡΑΚΟΜ Ανώνυμη Εταιρεία Τηλεπικοινωνιακών Λύσεων 19,7 χλμ. Λεωφ. Μαρκοπούλου, Παιανία Αττικής τ: f:

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

ΧΩΡΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

Επερωτήσεις σύζευξης με κατάταξη

ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ Ανακαλύψτε νέες επιχειρήσεις

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

ΕΠΑνΕΚ ΤΟΣ Περιβάλλον. Τομεακό Σχέδιο. Αθήνα,

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Πολιτική Προστασίας Ιδιωτικότητας και Προσωπικών Δεδομένων στον Δήμο Καλαμαριάς. 2 Πολιτική Προστασίας Ιδιωτικότητας και Προσωπικών Δεδομένων

Το νέο τοπίο στην αγορά ηλεκτρικής ενέργειας και ο ρόλος του Διαχειριστή Δικτύου Διανομής (ΔΕΔΔΗΕ)

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

Βάσεις δεδομένων και Microsoft Access

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων

Σχεδίαση Βάσεων Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Εργαστήριο Σημασιολογικού Ιστού

Browsers. Λειτουργικότητα και Παραμετροποίηση

Βασίλειος Κοντογιάννης ΠΕ19

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Πολιτική για την Ιδιωτικότητα και την Προστασία των Προσωπικών Δεδομένων

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Εγχειρίδιο χρήσης Ai4B σελ. 2 από 21

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

Βιώσιμος Σχεδιασμός Αδρανών στη Νοτιοανατολική Ευρώπη: SNAP-SEE SEE/D/0167/2.4/X SNAP-SEE

Περιεχόμενο του μαθήματος

Ο ρόλος της Ψηφιακής Στρατηγικής

Φροντιστήριο Ομαδικής Εργασίας ΗΥ360. Αυγουστάκη Αργυρώ

ΕΡΕΥΝΗΤΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΙΝΣΤΙΤΟΥΤΟ ΣΥΣΤΗΜΑΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΥΠΟΛΟΓΙΣΤΩΝ (ΕΠΙΣΕΥ) I-SENSE GROUP

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

2018 / 19 ΜΕΤΑΠΤΥΧΙΑΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

ΠΡΑΞΗ: «Δομή Απασχόλησης και Σταδιοδρομίας (Δ.Α.ΣΤΑ.) Πανεπιστημίου Μακεδονίας» Κωδικός MIS ΥΠΟΕΡΓΟ: και α/α «01»

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ

Eκπαίδευση Εκπαιδευτών Ενηλίκων & Δία Βίου Μάθηση

Ημερομηνία Παράδοσης: 4/4/2013

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Αναφορά εργασιών για το τρίμηνο Μάρτιος 2013 Μάιος 2013 Όνομα : Παπαχριστόπουλος Λεωνίδας

Εργαστήριο Σημασιολογικού Ιστού

4/2014 ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΥΔΡΟΛΗΨΙΕΣ ΑΤΤΙΚΗΣ ΑΠΟΚΕΝΤΡΩΜΕΝΗ ΔΙΟΙΚΗΣΗ ΑΤΤΙΚΗΣ ΔΙΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Πλοήγηση και Αναζήτηση

Τεχνολογίες RDF για τον Ιστό Δεδοµένων

Προτεινόμενα Θέματα Διπλωματικών Εργασιών

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ - ΜΕΣΟΛΟΓΓΙ ΗΛΕΚΤΡΟΝΙΚΟ ΕΜΠΟΡΙΟ ΕΡΓΑΣΤΗΡΙΟ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ Διαδικασία Κατάρτησης Επιχειρηματικού Σχεδίου

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Λίγα λόγια από το συγγραφέα Βάσεις δεδομένων και Microsoft Access Microsoft Access... 22

Πολιτική για την Ιδιωτικότητα και την Προστασία των Προσωπικών Δεδομένων

Ενότητα 3: Τα δεδομένα στο Web. (και η σημασιολογία τους semantics )

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

VERSION 1.0 ΝΟΕΜΒΡΙΟΣ, 2016 ΤΕΧΝΟΛΟΓΙΕΣ ΥΠΟΛΟΓΙΣΤΙΚΟΥ ΝΕΦΟΥΣ ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΠΡΟΣΟΜΟΙΩΣΗΣ CLOUDSIM ΕΠΙΜΕΛΕΙΑ: ΒΑΣΙΛΕΙΟΣ ΤΣΑΚΑΝΙΚΑΣ

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

οικονομικές τάσεις Εκτεταμένη συνεργασία της εφοδιαστικής αλυσίδας. έργου FLUID-WIN το οποίο χρηματοδοτήθηκε από το 6ο Πρόγραμμα Πλαίσιο Παγκόσμιες

Μια φόρμα με διάταξη πίνακα (tabular form) εμφανίζει τα πεδία με μορφή

ΠΟΙΟΙ ΜΠΟΡΟΥΝ ΝΑ ΣΥΜΜΕΤΕΧΟΥΝ ΣΤΗΝ ΠΙΛΟΤΙΚΗ ΛΕΙΤΟΥΡΓΙΑ

IoT και ανοιχτά δεδομένα στον δήμο Ηρακλείου. Μια ιστορία επιτυχίας, με μακρύ δρόμο ακόμα!

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διαφάνεια 1.1. Μέρος 1 Εισαγωγή. Κεφάλαιο 1 Εισαγωγή στο ψηφιακό επιχειρείν και το ηλεκτρονικό εμπόριο

Σύντομη Ιστορία του Έργου

ΟΓΗΓΙΕΣ ΧΡΗΣΗΣ ΗΛΕΚΤΡΟΝΙΚΟΥ ΜΗΤΡΩΟΥ ΑΠΟΒΛΗΤΩΝ. Draft version

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

Το Ηράκλειο στην εποχή του ΙοΤ. Κεφαλογιάννης Γιάννης. Αντιδήμαρχος Ηλεκτρονικής Διακυβέρνησης Δήμου Ηρακλείου

ΟΔΗΓΟΣ ΔΗΜΙΟΥΡΓΙΑΣ ΛΟΓΑΡΙΑΣΜΟΥ ΣΤΟ GOOGLE SCHOLAR ΓΙΑ ΤΑ ΜΕΛΗ ΔΙΔΑΚΤΙΚΟΥ - ΕΡΕΥΝΗΤΙΚΟΥ ΠΡΟΣΩΠΙΚΟΥ

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

Linked Data for the Masses: Η προσέγγιση και το λογισμικό

Transcript:

ΕΡΕΥΝΗΤΙΚΟ ΚΕΝΤΡΟ ΚΑΙΝΟΤΟΜΙΑΣ ΣΤΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΗΣ ΓΝΩΣΗΣ «ΑΘΗΝΑ» ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ LODGOV Διακυβέρνηση Δεδομένων στην εποχή του Ιστού Δεδομένων: δημιουργία, διαχείριση, διατηρησιμότητα, κοινοχρησία και προστασία πόρων στον Ιστό. ΔΡΑΣΗ «ΑΡΙΣΤΕΙΑ» Παραδοτέο 6.1: Τεχνική Αναφορά

ΔΡΑΣΗ «ΑΡΙΣΤΕΙΑ» Παραδοτέο 6.1: Τεχνική Αναφορά Τεχνική Αναφορά αξιολόγησης έργου Γκίρτζου Κ., Καρόζος Κ., Αλεξίου Γ., Χατζόπουλος Σ., Τσιτσίγκος Δ., Καραγκούνη Δ., Σαρτζετάκης Στ., Σταύρακας Ι., Χριστοφίδης Β. και Δαλαμάγκας Θ. Παραδοτέο 6.1: Τεχνική Αναφορά 2

Περιεχόμενα 1 Εισαγωγή...4 2 Διαχείριση Ανοιχτών Διασυνδεδεμένων Δεδομένων...6 2.1 Αναζήτηση Λέξεων-Κλειδιά και Εξερεύνηση των ΑΔΔ...6 2.2 Διαχείριση των ετερογενών πόρων...10 3 Δυναμική Ανοιχτών Διασυνδεδεμένων Δεδομένων...13 4Προστασία Ανοιχτών Διασυνδεδεμένων Δεδομένων...15 5Συμπεράσματα...17 Βιβλιογραφία...18 Παραδοτέο 6.1: Τεχνική Αναφορά 3

1 Εισαγωγή Η εξέλιξη του διαδικτύου σε διαδίκτυο 2.0 έχει αλλάξει ουσιαστικά τον τρόπο που βλέπουμε, δημιουργούμε, κατανέμουμε και καταναλώνουμε μεγάλο όγκο από πληροφορίες. Στην εποχή μας, οι χρήστες δεν μπορούν να βλέπουν τις πληροφορίες παθητικά, αλλά θα πρέπει να έχουν την δυνατότητα να αλληλεπιδρούν και να τις συνδυάζουν μεταξύ τους, έτσι ώστε να παράγουν καινούργιο περιεχόμενο. Για να διευκολυνθεί η παραγωγή νέων πληροφοριών όσον αφορά την δημοσίευση, διάδοση και κατανάλωση, πρώτος ο Tim Berners-Lee παρουσίασε ένα σύνολο βέλτιστων πρακτικών στις σημειώσεις του σχετικά με τα Διασυνδεδεμένα Δεδομένα [1]. Αυτές οι πρακτικές είναι γνωστές σαν αρχές των Διασυνδεδεμένων Δεδομένων (LD) και είναι οι ακόλουθες: Χρησιμοποίησε URIs σαν ονόματα των αντικειμένων. Χρησιμοποίησε HTTP URIs, έτσι ώστε οι άνθρωποι να μπορούν να αναζητήσουν αυτά τα ονόματα. Όταν κάποιος ψάχνει ένα URI, να παρέχονται χρήσιμες πληροφορίες Να συμπεριλάβετε συνδέσμους σε άλλα URIs, έτσι ώστε να μπορούν να ανακαλύψουν περισσότερα αντικείμενα. Η κύρια ιδέα ήταν η επαναχρησιμοποίηση της υπάρχουσας τεχνολογίας διαδικτύου προσαρμοσμένη κατάλληλα για τις ανάγκες των σημασιολογικών εκφράσεων. Τα Διασυνδεδεμένα Δεδομένα υλοποιούνται χρησιμοποιώντας RDF τεχνολογία [2]. Το μοντέλο δεδομένων του RDF μοιάζει με την κλασσική μοντελοποίηση προσεγγίσεων οντότητας-σχέσης ή διαγράμματα κλάσεων, δεδομένου ότι βασίζεται στην ιδέα της περιγραφής των δηλώσεων των πόρων (κυρίως των διαδικτυακών πόρων) με εκφράσεις της μορφής υποκείμενο-κατηγόρημα-αντικείμενο. Αυτές οι εκφράσεις είναι γνωστές σαν τριπλέτες (triples) στην RDF ορολογία. Το υποκείμενο υποδηλώνει τον πόρο, ενώ το κατηγόρημα υποδηλώνει πτυχές του πόρου και εκφράζει μία σχέση μεταξύ του υποκειμένου και του αντικειμένου. Το αντικείμενο μπορεί να είναι είτε ένας άλλος πόρος είτε μία τιμή. Οι τεχνολογίες Διασυνδεδεμένων Δεδομένων έχουν δώσει αφορμή για το Διαδίκτυο Δεδομένων : a Web of things in the world, described by data on the Web [1]. To Διαδίκτυο Δεδομένων επεκτείνει το υπάρχον διαδίκτυο σε ένα παγκόσμιο χώρο δεδομένων με συνδεδεμένα δεδομένα από διάφορα πεδία. Το Διαδίκτυο Δεδομένων ωθείται από την τρέχουσα τάση προς ένα ανοιχτό Διαδίκτυο. Τα ανοιχτά δεδομένα είναι δημόσια δεδομένα, τα οποία είναι εύκολα εντοπίσιμα, προσπελάσιμα και διαθέσιμα στους ανθρώπους, χωρίς κανένα περιορισμό. Τα Ανοιχτά Διασυνδεδεμένα Δεδομένα (ΑΔΔ) εξυπηρετούν ένα μεγάλο σκοπό, που επιτρέπει την διαφάνεια, τη λογοδοσία και την διακυβέρνηση για τις δημόσιες διοικήσεις. Αυτό είναι εμφανές από τις διεθνής (e.g. data.gov.uk) και εθνικές προσπάθειες (e.g. geodata.gov.gr). Ως παρενέργεια, τα ΑΔΔ προωθούν νέα πρότυπα επιχειρηματικών μοντέλων και δημόσιες/ιδιωτικές συνεργασίες. Το να είσαι σε θέση να παράγεις βιώσιμα οικοσυστήματα που μπορούν να χειριστούν τον πλήρη κύκλο ζωής των ΑΔΔ, από την δημιουργία και την εξαγωγή των δεδομένων, την αποθήκευση και την διατήρηση τους, μέχρι την παρακολούθηση, την προστασία και την επισκευή, είναι ένα απαιτητικό έργο. Ειδικά εάν σκεφτούμε το μέγεθος των δεδομένων που παράγονται από πάρα πολλές κατανεμημένες πηγές. Το όραμα του LODGOV είναι να παρέχει καινοτόμες τεχνολογίες για τις καλύτερες πρακτικές διακυβέρνησης και επιμέλειας για των ΑΔΔ, με σκοπό να παράγει βιώσιμα οικοσυστήματα ΑΔΔ. Το LODGOV επικεντρώνεται σε τρεις διαστάσεις: (α) την διαχείριση Παραδοτέο 6.1: Τεχνική Αναφορά 4

διασυνδεδεμένων δεδομένων, (β) την δυναμική διασυνδεδεμένων δεδομένων και (γ) την ανωνυμοποίηση διασυνδεδεμένων δεδομένων, παρέχοντας πρότυπες επιστημονικές συνεισφορές σε πολλές ερευνητικές προκλήσεις σε αυτές τις διαστάσεις. Σε αυτό το παραδοτέο, αξιολογούμε τις διαφορετικές λύσεις που προτείνονται από το LODGOV για (α) την αποτελεσματική εξερεύνηση του συνόλου των Διασυνδεδεμένων Δεδομένων και (β) τις μεθόδους για τη δημοσιοποίηση, τις επισημειώσεις, την ενσωμάτωση και τον διαμοιρασμό ετερογενών δεδομένων Διαδικτυακών πόρων ως Διασυνδεδεμένα Δεδομένα. Για τους σκοπούς της αξιολόγησης, χρησιμοποιήσαμε δύο Ανοιχτά Διασυνδεδεμένα Δεδομένα, τα οποία προέρχονται από δύο διαφορετικές εφαρμογές, το Diana και το AI4B. Το Diana LOD είναι δεδομένα τα μόρια του microrna, ενώ το AI4B LOD περιέχει πληροφορίες για προϊόντα βιομάζας. Το DIANA είναι ανοιχτά δεδομένα που μοντελοποιούν πληροφορίες για βιολογικές οντότητες από τον κόσμο του microrna και είναι διαθέσιμο στο http://web.imis.athenainnovation.gr/projects/lodgov/diana. Οι πληροφορίες που μοντελοποιούνται μέσα στο DIANA έχουν συγκεντρωθεί και διατηρηθεί από το Ερευνητικό Κέντρο Αθήνα, το πανεπιστήμιο της Θεσσαλίας και από το Βιοϊατρικό Επιστημονικό Κέντρο A. Fleming. Μία ποικιλία από από ελεύθερης πρόσβασης και πολύ γνωστές βιοϊατρικές βάσεις δεδομένων, έχουν χρησιμοποιηθεί σαν πηγές. Οι πιο σημαντικές πηγές είναι: mirbase βάση δεδομένων, που παρέχει τις πρωταρχικές πληροφορίες σχετικά με τα micrornas. ENSEMBL βάση δεδομένων, που παρέχει πληροφορίες που σχετίζονται με το γονίδιο. KEGG βάση δεδομένων που παρέχει πληροφορίες σχετικά με μοριακές αλληλεπιδράσεις και δίκτυα. Τα κύρια χαρακτηριστικά του DIANA είναι (α) ο όγκος του, καθώς σήμερα αποτελείται από 4.6*10 9 triplets και (β) το γεγονός ότι τα δεδομένα από μόνα τους εξελίσσονται μέσα στο χρόνο. Το AI4B είναι ανοιχτά δεδομένα από προϊόντα βιομάζας σχεδιασμένα να καλύπτουν τις ανάγκες της βιομηχανίας ανακυκλώσιμων πηγών ενέργειας και της αγορά τους και είναι διαθέσιμο στο http://web.imis.athena-innovation.gr/projects/lodgov/ai4b. Βιομάζα είναι οποιοδήποτε υλικό προέρχεται από ζωντανούς οργανισμούς και μπορεί να χρησιμοποιηθεί από για την παραγωγή στερεών, υγρών και ή αέριων καυσίμων. Στην πράξη, υπάρχουν δύο τύποι βιομάζας: οι τύποι καταλοίπων (οποιοδήποτε είδους φυτικά υπολείμματα, ζωικά απόβλητα και οργανικά μέρη των αστικών υπολειμμάτων) και η βιομάζα που παράγεται από ενεργειακές καλλιέργειες. Το μοντέλο δεδομένων του AI4B τόσο και όλα τα προαναφερθέντα προϊόντα βιομάζας, καθώς και τις ανάγκες αγοράς τους, όπως τους προμηθευτές, τους πελάτες, τις τρέχουσες προσφορές και τις τρέχουσες απαιτήσεις. Ο πρωταρχικός του στόχος είναι να αναπτύξει ένα βιομηχανικό δίκτυο με οντότητες, οι οποίες μπορούν να επεξεργαστούν τα απόβλητα και οντότητες οι οποίες ενδιαφέρονται στο εμπόριο υλικών, ενέργειας και νερού, με απώτερο στόχο τον οικονομικό, περιβαλλοντικό, και κοινωνικό όφελος της κοινωνίας. Παραδοτέο 6.1: Τεχνική Αναφορά 5

2 Διαχείριση Ανοιχτών Διασυνδεδεμένων Δεδομένων Με τον όρο διαχείριση ΑΔΔ, αναφερόμαστε σε όλες τις μεθόδους και τις τεχνικές που έχουν σχέση με την εξόρυξη, την αποθήκευση, την διατήρηση και την ενσωμάτωση των δεδομένων, καθώς και με την αναζήτηση και την εξερεύνηση. Τα ΑΔΔ είναι κατανεμημένα δεδομένα, καθώς οι πόροι που συνδέονται μέσω των συνδέσεων μπορούν να προέλθουν από διαφορετικές πηγές δεδομένων. Μία βασική πρόκληση στη διαχείριση ΑΔΔ είναι η ανάπτυξη αποτελεσματικών και αποδοτικών μεθόδων για την έκθεση και την διαχείριση μεγάλου όγκου ΑΔΔ από ετερογενή δεδομένα. Επιπλέον, τεχνικές που απαιτούνται για την αυτόματη διασύνδεση και συγχώνευση ΑΔΔ από διαφορετικές πηγές δεδομένων του Web και να υποστηρίζει αποτελεσματικά υπηρεσίες ανάκτηση, όπως ερώτημα λέξεων-κλειδία και SPARQL ερωτήματα σε μεγάλα ανοιχτά διασυνδεδεμένα δεδομένα. Στο LODGOV, επικεντρωνόμαστε κυρίως σε δύο πτυχές: (α) αποτελεσματική εξερεύνηση από διασυνδεδεμένα δεδομένα και (β) πως να δημοσιεύουμε, να σχολιάζουμε, να ενσωματώνουμε και να διαμοιραζόμαστε ετερογενείς πόρους Web δεδομένων σαν Linked δεδομένα. 2.1 Αναζήτηση Λέξεων-Κλειδιά και Εξερεύνηση των ΑΔΔ Ένα από τα κύρια προβλήματα των ΑΔΔ, που θα διευκολύνει την κατανάλωση τους είναι η ικανότητα της αναζήτησης και εξερεύνησης των δεδομένων σε βάθος. Ο πιο συνηθισμένος τρόπος για την LOD εξερεύνηση είναι μέσω SPARQL ερωτημάτων, τα οποία περιλαμβάνουν συζεύξεις και διαζεύξεις από τριπλά μοτίβα, τα οποία ταιριάζουν στο γράφο δεδομένων RDF. Ωστόσο, η χρήση της SPARQL απαιτεί, εκτός από το να ξέρεις το συντακτικό της, επίσης να έχει γνώση του RDF σχήματος που χρησιμοποιείται για να μοντελοποίηση των δεδομένων. Όταν ένας καταναλωτής θέλει να εξερευνήσει ένα σύνολο ΑΔΔ δεν είναι εύκολο να γνωρίζει εκ των προτέρων το RDF σχήμα που χρησιμοποιείται. Για αυτό το λόγο η αναζήτηση λέξεων-κλειδιών έχει προταθεί στην βιβλιογραφία, επιτρέποντας έναν έξυπνο τρόπο για την αναζήτηση RDF δεδομένων. Στο LODGOV, έχουμε σχεδιάσει και παρουσιάσει μία νέα προσέγγιση για αναζήτηση λέξεων-κλειδιών πάνω σε δομημένο γράφο δεδομένων και πιο συγκεκριμένα σε RDF γράφο. Η μέθοδός μας αντί να δίνει άμεσα απαντήσεις από το γράφο δεδομένων RDF, όπως κάνουν οι περισσότερες αναζητήσεις λέξεων-κλειδιών, δημιουργεί αυτόματα ένα σύνολο SPARQL ερωτημάτων, που προσπαθούν να καταλάβουν τις ανάγκες του χρήστη, όπως εκφράζονται από τις λέξεις-κλειδιών που χρησιμοποιεί. Η προσέγγισή μας είναι προσαρμοσμένη στα χρονικά δεδομένα RDF, δηλαδή RDF δεδομένα που περιλαμβάνουν χρονικές ιδιότητες. Για τον σκοπό αυτό είναι εμπλουτισμένη με χρονικούς τελεστές, οι οποίοι αφήνουν το χρήστη να εξερευνήσει τα δεδομένα μέσα στο προκαθορισμένα χρονικά όρια. Τα παραδοτέα 2.2 και 2.4, επικεντρώνονται στις μεθόδους ερωτημάτων ΑΔΔ, παρουσιάζει εκτενώς τις προδιαγραφές του καινούργιου αλγορίθμου αναζήτησης λέξεων-κλειδιών. Για την αξιολόγηση της προσέγγισής μας, πραγματοποιήσαμε μια μελέτη για την αποδοτικότητα χρησιμοποιώντας δύο πραγματικά σύνολα δεδομένων, το DIANA και το AI4B. Ζητήσαμε από του συνεργάτες μας, βιολόγους και χημικούς. Να μας παρέχουν ερωτήματα λέξεων-κλειδιών μαζί με την φυσική γλώσσα περιγραφής των αιτούμενων Παραδοτέο 6.1: Τεχνική Αναφορά 6

πληροφοριών. Έχουμε χρησιμοποιήσει 20 ερωτήματα, 15 για το DIANA(Q1-Q15) και 5 για το AI4B(Q16-Q20). Όλα τα ερωτήματα που χρησιμοποιήθηκαν παρουσιάζονται στον Πίνακα 1 για το DIANA και στον Πίνακα 2 για το AI4B. Πίνακας 1. Τα ερωτήματα που χρησιμοποιήθηκαν για την μελέτη της αποτελεσματικότητας της μεθόδου αναζήτησης λέξεων-κλειδιών για το DIANA. Query Numbe r Keyword input Description in natural Language Use of Temporal Operator Q1 hairpin version at:18 Retrieve all hairpins of mirbase version 18. Q2 MI0001364 name Retrieve the name of Hairpin MI0001364. Q3 hairpin change sequence Q4 Q5 "Caenorhabditis elegans" hairpin paper let7a year after:2006 hairpin Q6 paper zebrafish hairpin Q7 Q8 Q9 Q10 MIMAT0000251 hastarget interaction LncPredicted "Alzheimer's disease" mature lncpredicted hsaloct110000001 name Retriece all hairpins that change their sequence at their lifetime. Retrieve all hairpins of the C.elegans. Retrieve all papers published after 2006 that are related with hairpin mirnas named "let7a". Retrieve all papers related with zebrafish's hairpins. Retrieve all targets of mature MIMAT0000251. Retrieve all interaction predicted by LncPrediction algorithm. Retrieve all matures related with Alzheimer's disease. Retrieve the name of mature's that target transcript hsaloct110000001 via lncpredicted. Q11 let-7 familyname Retrieve the mirnas related with name "let-7". Q12 Q13 "HeLa Cells" paper hasmirna "Rheumatoid arthritis" gene Q14 "PLoS genetics" "Rheumatoid arthritis" Retrieve all papers associated with HeLa cells and contain information about mirna. Retrieve all genes related with Rheumatoid arthritis. Retrieve all publication from PLoS genetics that are related with Rheumatoid arthritis. yes yes Παραδοτέο 6.1: Τεχνική Αναφορά 7

Q15 "Homo sapiens" Melanoma mature hastarget Retrieve mature that target transcript associated with melanona and come from Homo sapiens. Πίνακας 2. Τα ερωτήματα που χρησιμοποιήθηκαν για την μελέτη της αποτελεσματικότητας της μεθόδου αναζήτησης λέξεων-κλειδιών για το AI4B. Query Numbe r Keyword input Description in natural Language Q16 hasownername ΑΘΗΝΑ Retrieve all the names of company owners in the area of Athens (Αθήνα). Q17 recipe "artichoke residues" Retrieve all recipes related with artichoke residues. Q18 hasprice electricity Retrieve all prices for the product of electricity. Q19 hasmoisture "sediment pectin" Retrieve all moisture values for the product sediment pectin. Q20 hasmoisture "sediment pectin" hasprice Retrieve all moisture values and the price for the product sediment pectin. Εικόνα 1. Το Reciprocal Rank των τριών διαφορετικών μετρικών κατάταξης για το DIANA (Q1-Q15) και το AI4B (Q16-Q20). Η αποτελεσματικότητα υπολογίζεται από την Reciprocal Rank μετρική που ορίζεται ως RR=1/r, όπου r η θέση κατάταξης του ερωτήματος που αντιστοιχεί στην παρεχόμενη περιγραφή της φυσικής γλώσσας. Για να βοηθήσουμε περαιτέρω τους συνεργάτες μας στην Παραδοτέο 6.1: Τεχνική Αναφορά 8

διαδικασία αξιολόγησης, μαζί με τα SPARQL ερωτήματα, τους παρέχουμε επίσης και την περιγραφή των παραγόμενων ερωτημάτων σε φυσική γλώσσα. Αυτό επιτυγχάνεται με την χρησιμοποίησης του συστήματος SPARQL2NL[2]. Η Εικόνα 1 παρουσιάζει την Reciprocal κατάταξη που υπολογίσαμε για τις 3 μετρικές κατάταξης: (α) τον αριθμό των τριπλετών (β) την μέση μικρότερη απόσταση διαδρομής (γ) το μεγαλύτερο μικρότερο μονοπάτι απόστασης. Στα 17 από τα 20 ερωτήματα, έχουμε Reciprocal Rank 1, που σημαίνει ότι μπορούμε να πάρουμε την πληροφορία που ζήτησαν οι χρήστες στην πρώτη θέση της κατάταξης. Ο Πίνακας 3 παρουσιάζει με λεπτομέρειες τα παραγόμενα SPARQL ερωτήματα, μαζί με την παραγόμενη περιγραφή φυσικής γλώσσας, για την αναζήτηση λέξεων-κλειδιών για τα ερωτήματα Q1 και Q3 από το DIANA και Q18 από το AI4B. Συγκρίνοντας την στήλη 4 Generated Natural Language Description από τον Πίνακα 3 και την στήλη 3 Description in natural Language από τον Πίνακα 1 και Πίνακα 2 για το ερώτημα Q1 και το ερώτημα Q18 αντίστοιχα, βεβαιώνουμε ότι η reciprocal κατάταξη είναι 1 και για τα δύο ερωτήματα, καθώς η απαιτούμενη πληροφορία ταιριάζει με το ερώτημα που βρίσκεται στην πρώτη θέση. Ομοίως, συγκρίνοντας τις προαναφερθείσες στήλες και πίνακες για το ερώτημα Q3, παρατηρούμε ότι η απαιτούμενη πληροφορία ταιριάζει με το παραγόμενο ερώτημα που βρήκαμε στην δεύτερη θέση, αντί για το παραγόμενο ερώτημα που βρίσκεται στην πρώτη θέση. Συνεπώς RR=0.5 γι αυτό το ερώτημα, όταν η μέθοδος κατάταξης είναι η μέση ελάχιστη απόσταση μονοπατιού. Πίνακας 3. Αναλύοντας την αποτελεσματικότητα της μελέτης του σχήματος 1 για τα ερωτήματα Q1,Q3 και Q18. Query Numbe r Ranking Method Generated SPAQL Query Q1 All SELECT DISTINCT * WHERE {?H a diana:hairpin.?h diana:version?v. FILTER (str(?v) = 18) } Q18 All SELECT DISTINCT * WHERE {?U sym:iscompany?c.?c sym:hasbusinessname?v1.?c a sym:company.?b a sym:biomassoffer.?b sym:hasprice?v2.?u a sym:user.?u sym:offersbiomass?b. FILTER (str(?v1) = "ELECTRICITY"). } Q3 1 st position Average Shortest Paths Distance Generated Natural Language Description This query retrieves distinct values?v and distinct hairpin mirnas?h such that?v is?h s mirbase version and the string of?v is equal to 18. This query retrieves distinct Biomass Offers?B, distinct Users?U and distinct Companies?C distinct values?v1, distinct values? v2, such that?u is company?c,?b has price?v2,?u s offers biomass?b,?c has business name?v1 and the string of?v1 is equal to ELECTRICITY. This query retrieves distinct values?v1, distinct values? v2 and distinct hairpin mirnas?h such that?h s sequence is?v1 and?h s Παραδοτέο 6.1: Τεχνική Αναφορά 9

SELECT DISTINCT * WHERE {?H diana:change?v2.?h a diana:hairpin.?h diana:sequence?v1. } change is?v2. Q3 2 nd position Average Shortest Paths Distance SELECT DISTINCT * WHERE {?H a diana:hairpin.?h diana:change?v1. FILTER (str(?v1) = "SEQUENCE"). } This query retrieves distinct values?v1 and distinct hairpin mirnas?h such that?h change is?v1 and the string of?v1 is equal to SEQUENCE. 2.2 Διαχείριση των ετερογενών πόρων Ένα άλλο κύριο πρόβλημα στα ΑΔΔ είναι το πως θα δημοσιεύσει, επισημειώσει, ενσωματώσει και διαμοιράσει τα ετερογενή δεδομένα των Διαδικτυακών πόρων σαν Διασυνδεδεμένα δεδομένα. Προς την κατεύθυνση αυτή, στο πλαίσιο του LODGOV έχουμε σχεδιάσει και υλοποιήσει το σύστημα LinkZoo. Το LinkZoo είναι μια συνεργατική πλατφόρμα για linked δεδομένα, που επιτρέπει τους χρήστες να επαναχρησιμοποιήσουν τις καθιερωμένες οντολογίες, καθώς και τα semantics που δημιουργήθηκαν, με σκοπό να επισημειώσει και να διαμοιραστεί τους ετερογενείς πόρους πάνω από ένα ορισμένο δυναμικά περιβάλλον χρήσης. Παρέχει cloud-based λειτουργικότητα, όπου οι χρήστες μπορούν να φορτώνουν, να συνδέουν και να διαχειρίζονται πολλούς διαφορετικούς τύπους πόρων, όπως απλά αρχεία, σε ένα που χρησιμοποιείτε από πολλούς χρήστες. Παρέχει τον διαμοιρασμό και την συνεργατική εγγραφή των πόρων, εμπλουτισμένα με ιδιότητες χειροκίνητα ή μέσω εξωτερικών υπηρεσιών και δημοσιεύονται σαν διασυνδεδεμένα δεδομένα για αναφορές και για machine-learning κατανάλωση. Το LinkZoo επιτρέπει στους χρήστες να δημιουργούν όψεις, που οργανώνουν τους πόρους τους κάτω από πολύ διαφορετικές προοπτικές και την διάθεσή τους σε τρίτους. Τέλος, προσφέρει δύο δυνατότητες αναζήτησης: (1) μία διαδραστική, δύο βημάτων υπηρεσία αναζήτησης λέξεων-κλειδιών, όπου οι προτάσεις των ζωντανών ερωτημάτων φυσικής γλώσσας που δίνονται στον χρήστη βασίζονται σε αυτά που δίνει σαν είσοδο και στους τύπους όρων που ταιριάζουν στο LinkZoo και (2) μια υπηρεσία αναζήτησης με λέξεις-κλειδιά για την εξερεύνηση απομακρυσμένων δεδομένων, τα οποία αυτόματα παράγουν ένα σετ από υποψήφια SPARQL ερωτημάτων που προσπαθούν να καλύψουν τις πληροφορίες που θέλει να έχει ο χρήστης με βάση αυτά που έχει δώσει σαν είσοδο. Τα παραδοτέα 2.1 και 2.3, επικεντρώνονται στις μεθόδους LOD fusion, το παρόν αναλύει εκτενώς τις απαιτήσεις του LinkZoo. Για να αποδείξουμε και να αξιολογήσουμε τις δυνατότητες του εργαλείου μας, ας εξετάσουμε το παρακάτω σενάριο: ένας χρήστης συμμετέχει σε ένα ερευνητικό έργο βιοπληροφορικής, που αφορά τους μηχανισμούς ελέγχου για την μελέτη του καρκίνου, και πιο συγκεκριμένα επικεντρώνεται στα ρυθμιστικά μόρια microrna. Για τον σκοπό αυτό, ο χρήστης έχει μαζέψει πόρους και δεδομένα από μια ποικιλία πηγών, όπως δημοσιεύσεις από το PubMed και δεδομένα από το Gene Expression Atlas, το Experimental Factor Ontology και το DIANA. Κάποιοι από αυτούς τους πόρους έχουν εισαχθεί από τον ίδιο τον χρήστη, ενώ άλλοι έχουν μοιραστεί σε αυτόν από τους συνεργάτες του. Οι δημοσιεύσεις είναι είτε ένα αρχείο είτε ένα URL και επισημειώνονται με μεταδεδομένα που παρέχει ο χρήστης και οι συνεργάτες του καθώς και εξωτερικές υπηρεσίες εμπλουτισμού. Από την άλλη πλευρά, τα Παραδοτέο 6.1: Τεχνική Αναφορά 10

εισαγόμενα σύνολα δεδομένων μοντελοποιούνται σαν πόροι τύπου DataCollection, τα οποία επιτρέπουν την εξερεύνηση ενός απομακρυσμένου συνόλου δεδομένων RDF μέσω ενός μηχανισμού αναζήτησης με υποψήφια ερωτήματα. Ομοίως με άλλους τύπους πόρων, οι DataCollection πόροι επισημειώνονται με περιγραφικά μεταδεδομένα. Εικόνα 2. On-the-go αναζήτηση για πόρους τύπου DataCollection with dcterms:coverage dbpedia:microrna. Θεωρούμε ότι ο χρήσης είτε έχει περιορισμένη γνώση του λεξιλογίου RDF που περιγράφει το σύνολο δεδομένων, είτε περιορισμένη εμπειρία σε SPARQL. Για να ξεπεραστεί αυτό το πρόβλημα, το LinkZoo προσφέρει την δυνατότητα αναζήτησης λέξεων-κλειδιών για τον εντοπισμό και εξερεύνηση του συνόλου δεδομένων RDF. Ο χρήστης μπορεί να εντοπίσει πιθανά σύνολα δεδομένων που ταιριάζουν με τα κριτήρια του, με βάση τα μεταδεδομένα της περιγραφής. Σε αυτή την περίπτωση, ψάχνει για σύνολα δεδομένων που περιέχουν microrna δεδομένα και για το σκοπό αυτό χρησιμοποιεί την αναζήτηση on-the-go για να εντοπίσει τελικά το σύνολο δεδομένων DIANA, όπως φαίνεται στην Εικόνα 2. Εικόνα 3. Παραγόμενα ερωτήματα για τις λέξεις hairpin kai zebrafish. Μετά τον εντοπισμό του DIANA ως συνόλου δεδομένων για να χρησιμοποιήσει, ο χρήστης ενδιαφέρεται να συλλέξει πληροφορίες για το zebrafish mirna, προκειμένου να αξιολογήσει μια πιθανή συσχέτιση με την μετάσταση ανθρώπινων καρκινικών κυττάρων. Για να επιτύχει αυτό, πληκτρολογεί τις λέξεις zebrafish hairpin στο πλαίσιο αναζήτησης λέξεων-κλειδιών και ως αποτέλεσμα παίρνει δύο πιθανά SPARQL ερωτήματα, όπως φαίνονται στην Εικόνα 3. Θυμηθείτε ότι ο αριθμός των πιθανών παραγόμενων SPARQL ερωτημάτων βασίζεται στις πληροφορίες που είναι διαθέσιμες στον RDF γράφο δεδομένων του DIANA, όπως περιγράφεται στο παραδοτέο 2.4. Και τα 2 παραγόμενα ερωτήματα θα αναζητήσουν δημοσιεύσεις που έχουν σημειωθεί με τον όρο zebrafish και συσχετίζεται με τον τύπο mirna του hairpin. Παραδοτέο 6.1: Τεχνική Αναφορά 11

Στο παραπάνω ερώτημα, η λέξη hairpin ταιριάζει με την κλάση RDF diana:hairpin και επιβάλει τον άμεσο περιορισμό, ότι το property diana:hasmirna της κλάσης RDF diana:papermirnaconnection θα ανακτήσει μόνο τις Hairpin οντότητες, ενώ στο κάτω η λέξη haipin ταιριάζει με την literal τιμή του property diana:mirnatype της κλάσης RDF diana- PaperMirnaConnection, και επιβάλλει τον έμμεσο περιορισμό στο property diana:hasmirna. Επιπλέον το πρώτο ερώτημα θα ανακτήσει επίσης τις οντότητες RDF των συνδεδεμένων Haipins, ενώ το δεύτερο δεν θα γίνει αυτό. Η Εικόνα 4 παρουσιάζει τα αποτελέσματα που ανακτώνται όταν ο χρήστης επιλέξει και εκτελέσει το πρώτο ερώτημα. Το κόκκινο σύμβολο συν πριν από κάθε RDF οντότητα επιτρέπει στο χρήστη να εισάγει την οντότητα στον αποθηκευτικό του χώρο και να την χειριστεί σαν πόρους, εάν εφαρμοστεί. Εικόνα 4. Παραγόμενα SPARQL ερωτήματα για τις λέξεις MI0000263 and sequence. Εικόνα 5. Αποτελέσματα για το δεύτερο παραγόμενο SPARQL ερώτημα για τις λέξεις MI0000263 and sequence. Παραδοτέο 6.1: Τεχνική Αναφορά 12

Τα δεδομένα που ανακτώνται από το αίτημα της αναζήτησης, μπορεί να παρέχει χρήσιμη πληροφορία που θα επιτρέψει στο χρήστη να εξερευνήσει περαιτέρω το σύνολο δεδομένων. Ας υποθέσουμε ότι ο χρήστης εξερευνήσει το haipin mirna με το accession MI00000263 και ενδιαφέρεται για την ακολουθία του. Για να το επιτύχει αυτό, πληκτρολογεί την λέξη MI00000263 sequence και παίρνει σαν αποτέλεσμα 4 παραγόμενα SPARQL ερωτήματα, όπως φαίνεται στην Εικόνα 4. Όλα τα παραγόμενα SPARQL ερωτήματα αναζητούν για το haipir microrna με το accesion MI00000263, αλλά διαφέρουν με τον τρόπο που αντιλαμβάνονται τον όρο ακολουθία. Το πρώτο ερώτημα θα ανακτήσει την ακολουθία των ίδιων των hairpin του microrna, ενώ το δεύτερο θα ανακτήσει την αλληλουχία του ώριμου microrna που έχει παραχθεί από το hairpin του mircorna με το accesion MI00000263 ( η σχέση αυτή αντιπροσωπεύεται από το property diana: producesmature). Στο τρίτο και το τέταρτο ερώτημα, η λέξη ακολουθία ταιριάζει με την literal τιμή του property diana:change, το οποίο αντιπροσωπεύει μία αλλαγή στην πληροφορία ποθ παρέχεται από το property diana:sequence της διαμοιραζόμενης RDF οντότητας. Στο τρίτο ερώτημα, η αλλαγή είναι συνδεδεμένη με την RDF οντότητα του ώριμου τύπου mirnas, το οποίο παράχθηκε από το hairpin του mirnas με το accesion MI0000263. Η Εικόνα 5 παρουσιάζει τα αποτελέσματα από το δεύτερο ερώτημα. Ο χρήστης να εισάγει κάποια αποτελέσματα στο LinkZoo λογαριασμό του, προκειμένου να τα σχολιάσει σαν σημεία ενδιαφέροντος και να τα μοιραστεί με τους συνεργάτες του. 3 Δυναμική Ανοιχτών Διασυνδεδεμένων Δεδομένων Η δεύτερη διάσταση που εξετάσει το LODGOV είναι η δυναμική ανοιχτών Διασυνδεδεμένων Δεδομένων. Ο χώρος των ΑΔΔ περιέχει δεδομένα που εξελίσσονται μέσα στο χώρο, είναι σημαντικό να διατηρηθεί και πάντα να έχει διαθέσιμα όλα τα δεδομένα, παρά τις όποιες τροποποιήσεις ή εξελίξεις στην τεχνολογία της αποθήκευσης. Επιπλέον, να είναι σε θέση να εντοπίζουν την προέλευση και τις τροποποιήσεις των πληροφοριών που παρουσιάζονται στους χώρους ΑΔΔ, να είμαστε σε θέση να διατηρήσουμε την υψηλή ποιότητα. Βασική επίσης πρόκληση στα ΑΔΔ είναι η διαχείριση δεδομένων σε εξέλιξη, τα αλληλένδετα κενά πληροφορίας με την ικανότητα να πάνε σε προηγούμενο βήμα (υποστήριξη συντήρησης) και πληροφορίες για το πως και γιατί οι αλλαγές έγιναν (υποστήριξη προέλευσης). Μια άλλη, βασική προϋπόθεση στους χώρους ΑΔΔ, σε σύγκριση με τα παραδοσιακά δομημένα και ημι-δομημένα δεδομένα (όπως σχεσιακά/xml), είναι ότι θα πρέπει να διατηρηθεί η συνοχή της πληροφορίας, του σχήματος και τους δεσμούς μεταξύ των αλλαγών που γίνονται στα ΑΔΔ. Προς την κατεύθυνση αυτή, στο πλαίσιο του LODGOV, έχουμε σχεδιάσει και προτείνει ένα καινούργιο μοντέλο δεδομένων, το οποίο χειρίζεται τις αλλαγές ως πολίτες πρώτης κατηγορίας, δηλαδή RDF πόρων στα ίδια Διασυνδεδεμένα δεδομένα. Υιοθετούμε εκδόσεις των RDF οντοτήτων και ιδιότητες της εκδόσης για την επισημείωση και τον καθορισμό από άποψη χρόνου της εξέλιξης των δεδομένων. Με αυτό τον τρόπο, εξασφαλίζουμε αποτελεσματικότητα στα επαναχρησιμοποιούμε δεδομένα και επιτρέπουμε επίσης την εκμετάλλευση της εξέλιξης των δεδομένων. Επιπλέον, οι χρήστες έχουν πρόσβαση όχι μόνο στα ενημερωμένα Διασυνδεδεμένα δεδομένα, αλλά σε οποιαδήποτε από τις προηγούμενες εκδόσεις και να είναι σε θέση να παρακολουθεί τις αλλαγές μεταξύ των εκδόσεων, καθώς και τις αιτίες και τις επιπτώσεις τους. Τα παραδοτέα 3.3 και 3.4 έχουν αναλυτικές περιγραφές του προτεινόμενου μοντέλου. Παραδοτέο 6.1: Τεχνική Αναφορά 13

Πίνακας 4. SPARQL ερωτήματα για την αξιολόγηση της δυναμικής ανοιχτών διασυνδεδεμένων δεδομένων. Query Number Q1 Q2 SPARQL Query SELECT?hairpin?mature?target WHERE {?hairpin rdf:type diana:hairpin.?hairpin diana:label "now".?hairpin diana:producesmature?mature.?interaction rdf:type diana:interaction.?interaction diana:hasmature?mature.?interaction diana:hastarget?target.?interaction diana:application "microt-ann (v4.0)". } SELECT?hairpin?mature? target WHERE {?hairpin rdf:type diana:hairpin.?hairpin diana:version 13.0".?hairpin diana:producesmature?mature.?interaction rdf:type diana:interaction.?interaction diana:hasmature?mature.?interaction diana:hastarget?target.?interaction diana:application "microt-ann v4.0)". } Q3 SELECT?hairpin?version?old_name? new_name WHERE {?hairpin rdf:type diana:hairpin.?hairpin diana:change "NAME".?hairpin diana:version?version.?hairpin diana:name?new_name.?hairpin diana:previousversion? hairpipr.?hairpinpr diana:name?old_name. } Q4 SELECT?hairpin?version?mature WHERE {?rhp rdf:type diana:removehairpinparent.?rhp diana:version?version. FILTER (?version <= "18").?rhp diana:hashairpin?hairpin.?rhp diana:hasmature?mature } Description Retrieve the current and latest version of hairpins, their generated matures, as well as their targeted transcripts, as predicted by the application microt-ann version 4.0. Retrieve the hairpins, their generated matures of mirbase version 13.0, as well as their targeted transcripts, as predicted by the application microt-ann version 4.0. Retrieve all hairpin that change their name, their old and new name value, as well as the version the change occurred. Retrieve all hairpin and mature that used to be related via the property diana:producesmatu re Για την αξιολόγηση του προτεινόμενου μοντέλου θεωρούμε μόνο το DIANA, καθώς το σύνολο δεδομένων AI4B δεν περιλαμβάνει εξέλιξη δεδομένων. Για να δείξει τα Παραδοτέο 6.1: Τεχνική Αναφορά 14

αποτελέσματα και την ευελιξία του προτεινόμενου μοντέλου, παρουσιάζουμε έναν αριθμό από SPARQL ερωτημάτων, τα οποία υπάρχουν στον Πίνακα 4. Τα ερωτήματα κατηγοριοποιούνται στους παρακάτω τύπους : (α) ανάκτηση των ενημερωμένων οντοτήτων, (β) ανάκτηση των προηγούμενων εκδόσεων των οντοτήτων και (γ) αλλαγή εξερεύνησης. Η ανάκτηση των ενημερωμένων οντοτήτων απαιτεί το μοτίβο τριπλέτας?e diana:label now, ένα κατηγόρημα που δηλώνει ότι η συγκεκριμένη οντότητα είναι η τελευταία έκδοση. To Q1 SPARQL ερώτημα από τον Πίνακα 4 είναι ένα παράδειγμα αυτού του τύπου και ανακτά τους στόχους του mirna προβλέπεται από το microt-ann και δείχνει την πλήρη διαδρομή της βιολογικής γέννησης. Έτσι έχουμε το URI του hairpin, το URI του δικού του ώριμου παραγόμενου και το URI του αντιγράφου, που στοχεύει το ώριμο. Για να ανακτήσετε τις παλιότερες οντότητες θα πρέπει να καθορίσετε το χρονικό διάστημα του ενδιαφέροντος. Για παράδειγμα το Q2 από τον Πίνακα 4 απαιτεί τις ίδιες πληροφορίες με το Q1, αλλά για μια ορισμένη προηγούμενη έκδοση του mirbase, σε αυτή την περίπτωση την έκδοση 13.0. Τέλος παρουσιάζουμε 2 παραδείγματα με SPARQL ερωτήματα που δείχνουν πώς να εντοπίζονται αλλαγές σε ΑΔΔ χρησιμοποιώντας το προτεινόμενο μοντέλο. Το Q3 SPARQL ερώτημα από τον Πίνακα 4 ανακτά τα haipins που άλλαξαν το όνομά τους κατά την διάρκεια της ζωής τους και επιστρέφει το URI του hairpin, την mirbase έκδοση του ονόματος που άλλαξε, το παλιό όνομα και το καινούργιο όνομα. Για να ανακτήσουμε το παλιό όνομα των hairpins, μπορούμε να έχουμε πρόσβαση στην προηγούμενη έκδοση του hairpin μέσω του property diana:previousversion. Το Q4 SPARQL ερώτημα από το Πίνακα 4 ανακτά όλα τα τωρινά hairpin που δεν σχετίζονται και ώριμα ζευγάρια που χρησιμοποιούνται για συσχετίσεις με το παρελθόν και επιστρέφει από τα αριστερά στα δεξιά το URI του hairpin, την mirbase έκδοση του property diana:producesmature που έπεσε και το URI του mature. Χρησιμοποιώντας το property diana:version με FILTER μπορούμε να ανακτήσουμε όλες τις αλλαγές της σχέσης μεταξύ του hairpin και του ώριμου mirna πριν από την έκδοση. Να σημειώσουμε επίσης ότι όταν το property diana:producesmature συνδέει δύο πόρους, τότε γίνεται μία αλλαγή σε ένα κατηγόρημα που διασυνδέει δύο πόρους, την οποία θεωρούμε σαν μία νέα κλάση RDF. 4 Ανωνυμοποίηση Ανοιχτών Διασυνδεδεμένων Δεδομένων Η Τρίτη κύρια διάσταση που επικεντρώνεται το LODGOV είναι η ανωνυμοποίηση ανοιχτών διασυνδεδεμένων δεδομένων. Καθώς όλο και μεγαλύτερος όγκος δεδομένων που σχετίζεται με ανθρωπιστικές, κοινωνικές και οικονομικές δραστηριότητες δημοσιεύεται ως Διασυνδεδεμένα δεδομένα, δημιουργούνται ανησυχίες για την προστασία των ευαίσθητων πληροφοριών. Για να δημοσιευτεί ένα ΑΔΔ με διατήρηση της προστασίας των προσωπικών δεδομένων, μία λύση είναι η ανακατανομή (δηλαδή η τυχαία ανταλλαγή των ευαίσθητων τιμών των εγγραφών). Ωστόσο αυτό καθιστά άχρηστα τα δεδομένα. Χρειάζεται να επιτευχθεί ένα καλύτερο trade-off μεταξύ της προστασίας των προσωπικών δεδομένων και της χρησιμότητάς τους. Ένας άλλος τρόπος είναι να αφαιρεθούν τα μοναδικά αναγνωριστικά που συνδέουν την ταυτότητα ενός ατόμου με συγκεκριμένες πληροφορίες. Ακόμα και αυτό, ωστόσο δεν μπορεί να εξασφαλίσει ότι η σύνδεση θα παραμείνει κρυφή. Για παράδειγμα, έχει αποδειχθεί ότι περίπου το 87% των ατόμων που περιέχονται σε πραγματικά ιατρικά δεδομένα (χωρίς να δημοσιεύονται αναγνωριστικά στοιχεία, όπως το όνομα τους) μπορούν μοναδικά να ταυτοποιηθούν, ταιριάζοντας συγκεκριμένα χαρακτηριστικά (όπως η ημερομηνία γέννησης, ο ταχυδρομικός κώδικας, το φύλο, κτλ.) με άλλα διαθέσιμα Παραδοτέο 6.1: Τεχνική Αναφορά 15

δημοσιευμένα δεδομένα, όπως οι εκλογικοί κατάλογοι. Αναπτύξαμε μεθόδους για να δημοσιεύσουμε ΑΔΔ, με την μετατροπή του αρχικού συνόλου δεδομένων με τέτοιο τρόπο, ώστε να καλύπτονται οι απαιτήσεις για προστασία ευαίσθητων δεδομένων, ενώ ταυτόχρονα θα πρέπει να έχουμε την μικρότερη δυνατή απώλεια πληροφορίας από το σύνολο δεδομένων, και αυτό είναι ένα απαιτητικό πρόβλημα. Στο LODGOV, έχουμε σχεδιάσει και αναπτύξει έναν άπληστο ευρετικό αλγόριθμο ανωνυμομοποίησης, που μπορεί να εφαρμοστεί σε δεδομένα RDF γράφου πριν την δημοσίευσή του έτσι ώστε να μην έχουμε παραβίαση των προσωπικών δεδομένων. Η ανωνυμοποίηση επιτυγχάνεται με την χρήση πέντε μετασχηματισμών: (α) γενίκευση literal τιμής, (β) γενίκευση κλάσης, (γ) γενίκευση ιδιότητας (δ) δημιουργία οντότητας και κλάσης και (ε) αποσύνδεση οντότητας. Η k (m,n) - ανωνυμοποίηση εγγυάται ότι οι προσωπικές οντότητες δεν θα μπορούν να αναγνωριστούν από κάποιο κακόβουλος χρήστη, ενώ ταυτόχρονα ελαχιστοποιεί την απώλεια πληροφορίας. Λεπτομέρειες για τον προτεινόμενο αλγόριθμο μπορείτε να βρείτε στα παραδοτέα 4.3 και 4.4. Για την αξιολόγηση του προτεινόμενου αλγόριθμου, χρησιμοποιήθηκαν δεδομένα από το σύνολο δεδομένων DIANA, με 2,4 εκατομμύρια τριπλέτες. Κρατήσαμε τέσσερις κλάσεις με δύο έως τρεις τύπους literals για κάθε οντότητα. Χρησιμοποιήσαμε την κλάση Hairpin ως προσωπική, με 170.847 προσωπικές οντότητες. Σε όλες τις γραφικές παραστάσεις που ακολουθούν μεταβάλουμε μια παράμετρο της εγγύησης μας κρατώντας τις άλλες 2 σταθερές. Οι προεπιλεγμένες τιμές των παραμέτρων k, m και n είναι 20, 3 και 2 αντιστοίχως. 4.1 Απώλεια πληροφορίας Ως μετρική για την αποτίμηση της απώλειας πληροφορίας στην βιβλιογραφία χρησιμοποιείται η Κανονικοποιημένη Ποινή Βεβαιότητας - Normalized Certainty Penaty (NCP), η οποία ορίζεται για μια γενικευμένη τιμή, δοσμένης μιας ιεραρχίας γενίκευσης, ως ο λόγος του πλήθους των φύλλων κάτω από την τιμή στην ιεραρχία, προς το πλήθος των φύλλων της ιεραρχίας. Η συνολική απώλεια πληροφορίας για ένα σύνολο δεδομένων δίνεται από την Γενικευμένη Ποινή Βεβαιότητας - Generalized Certainty Penaty (GCP), η οποία ορίζεται ως ο μέσος όρος του NCP για κάθε τιμή (από literal, κλάση ή ιδιότητα). Στην Εικόνα 6 φαίνεται η Γενικευμένη Ποινή Βεβαιότητας για τις παραμέτρους k, m και n. Όσο αυξάνεται η παράμετρος k η απώλεια πληροφορίας παρουσιάζει υπογραμμική αύξηση. Σε κάθε περίπτωση όμως παραμένει κάτω του 40%, για τις προεπιλεγμένες τιμές των υπολοίπων παραμέτρων. Με την αύξηση του πλήθους των κόμβων που αποτελούν την γνώση του επιτιθέμενου, η απώλεια πληροφορίας αυξάνεται υπεργραμμικά, ενώ η παράμετρος n προκαλεί υπογραμμική αύξηση της μετρικής GCP. Information Loss (GCP) 0.6 rdfanon 0.5 0.4 0.3 0.2 0.1 0 5 100 500 1000 k 0.6 rdfanon 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 m 0.6 rdfanon 0.5 0.4 0.3 0.2 0.1 0 1 2 3 n Εικόνα 6: Απώλεια πληροφορίας (Μετρική GCP) ως προς τις παραμέτρους k, m και n. Παραδοτέο 6.1: Τεχνική Αναφορά 16

4.2 Αύξηση Πλήθους Κόμβων Στην Εικόνα 7 φαίνεται η επί τοις εκατό αύξηση του πλήθους των κόμβων, η οποία οφείλεται σε δημιουργία νέων οντοτήτων και κλάσεων, λόγω γενικεύσεων. Για το πείραμα θεωρήθηκε ότι οι εξωτερικές οντότητες αποτελούν το 50% των μη-προσωπικών οντοτήτων. Η αύξηση του μεγέθους του γράφου δεδομένων κυμαίνεται από 0 έως 35% στα πειράματα που μελετήθηκαν. Η παράμετρος k επηρεάζει υπογραμικά την αύξηση του μεγέθους του γράφου. Ακόμα και για την τιμή 1000, η αύξηση παραμένει κάτω του 20%. Αντίθετα η αύξηση των παραμέτρων k και m προκαλεί υπεργραμμική αύξηση στο πλήθος των κόμβων, λόγω αντίστοιχης αύξησης των γενικεύσεων που πρέπει να πραγματοποιηθούν σε οντότητες και κλάσεις. Υπενθυμίζεται ότι η γενίκευση σε εσωτερικούς κόμβους δεν συμβάλει στην αύξηση του μεγέθους του γράφου. 25% 20% 15% 10% 5% 35% 30% 25% 20% 15% 10% 5% 25% 20% 15% 10% 5% 5 10 50 100 500 1000 k 1 2 3 4 Εικόνα 7. Επί τοις εκατό αύξηση του πλήθους κόμβων ως προς τις παραμέτρους k, m και n. m 1 2 3 n 4.3 Χρόνος Εκτέλεσης Στην Εικόνα 8 απεικονίζονται οι χρόνοι εκτέλεσης ως προς τις παραμέτρους k, m και n. Καθώς αυξάνεται η αυστηρότητα της εγγύησης (παράμετρος k), μειώνεται ο χρόνος εκτέλεσης διότι γίνονται μεγαλύτερες γενικεύσεις πιο σύντομα και ο αλγόριθμος καταλήγει γρηγορότερα σε αποδεκτή λύση. Τα όρια της γνώσης του επιτιθέμενου m και n προκαλούν εκθετική αύξηση του χρόνου εκτέλεσης, καθώς αυξάνεται εκθετικά το πλήθος των πιθανών συνδυασμών γνώσης επιτιθέμενου που θα πρέπει να ελεγχθούν. Time (sec) 2500 2000 1500 1000 500 0 rdfanon 5 100 500 1000 k 20000 rdfanon 15000 10000 5000 0 1 2 3 4 m 100000 rdfanon 80000 60000 40000 20000 0 1 2 3 n Εικόνα 8. Χρόνος εκτέλεσης (σε δευτερόλεπτα) ως προς τις παραμέτρους k, m και n. Παραδοτέο 6.1: Τεχνική Αναφορά 17

5 Συμπεράσματα Σε αυτό το παραδοτέο, παρουσιάσαμε τα αποτελέσματα της αξιολόγησης και πραγματικά σενάρια εφαρμογής για τις μεθόδους και τους αλγορίθμους που προτείνονται στο LODGOV σχετικά με: (α) η αναζήτηση λέξεων-κλειδιών και η εξερεύνηση των μεθόδων και της πλατφόρμας LinkZoo, (β) το μοντέλο για να πιάνει αλλαγές σε RDF δεδομένα και (γ) οι μέθοδοι ανωνυμοποίησης για προστασία ΑΔΔ. Η αξιολόγηση πραγματοποιήθηκε χρησιμοποιώντας δύο πραγματικά σετ ΑΔΔ από δύο διαφορετικούς τομείς, έναν από επιστήμες της ζωής και ένα από ενεργειακά υλικά τεχνολογίας και αγοράς. Βιβλιογραφία [1] Christian Bizer, Tom Heath and Tim Berners-Lee (2009) Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems, Vol. 5(3), Pages 1-22. DOI: 10.4018/jswis.2009081901 [2] Ngonga Ngomo, A.C., Buhmann, L., Unger, C., Lehmann, J., Gerber, D (2013) Sorry, I Don T Speak SPARQL: Translating SPARQL Queries into Natural Language. In: WWW, Pages 977 988 Παραδοτέο 6.1: Τεχνική Αναφορά 18