Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Σημασιολογικός Ιστός (Semantic Web) - XML 4/10/2016 Δρ. Ανδριάνα Πρέντζα Αναπληρώτρια Καθηγήτρια aprentza@unipi.gr
Πρακτικά Θέματα Διαλέξεις Τρίτη 11:15-14:00, αίθουσα 339 Παρουσιάσεις διαλέξεων επιπλέον χρήσιμο υλικό Στο site του μαθήματος Εργαστήριο Ώρες γραφείου: Τρίτη 15:00-16:00 κτίριο Ανδρούτσου, γραφείο 204
Στόχοι Να μάθει ο φοιτητής πώς να προσδίδει σε ένα σύνολο από δεδομένα σημασιολογικό περιεχόμενο Να εξοικειωθεί με τεχνολογίες για διαχείριση του σημασιολογικού περιεχομένου Να εξοικειωθεί με XML, XML Schemas
Αξιολόγηση / Βαθμολόγηση επίδοσης Βαθμολογία Εξετάσεις 80% Εργαστήρια Ασκήσεις Εργασία 30% Βαθμός εξετάσεων >= 5 ΥΠΟΧΡΕΩΤΙΚΑ για να μετρήσει ο βαθμός της εργασίας
Βιβλίο - Βιβλιογραφία Βασικά Συγγράμματα Steven Holzner, «Οδηγός της XML» (μετάφραση, εκδ. Μ. Γκιούρδας) Michael J. Young, «XML Βήμα-Βήμα» (μετάφραση, εκδ. Κλειδάριθμος) Grigoris Antoniou and Frank van Harmelen, «Εισαγωγή στο Σημασιολογικό Ιστό» (μετάφραση, εκδ. Κλειδάριθμος, 2009) Παρουσιάσεις διαλέξεων
Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων Εισαγωγή
Εισαγωγή Ανάγκη για εύρεση, συλλογή, αποθήκευση και διαμοιρασμό πληροφορίας Λύση: η διάδοση του Παγκόσμιου Ιστού, επανάσταση στους τρόπους δημοσίευσης, αναζήτησης και διάδοσης πληροφορίας ΑΛΛΑΞΕ τον τρόπο επικοινωνίας των ανθρώπων και τον τρόπο διεξαγωγής των επιχειρηματικών δραστηριοτήτων ΟΜΩΣ: πρόβλημα στον εντοπισμό της πληροφορίας και στο συνδυασμό πληροφοριών από διαφορετικές πηγές με κατανοητό τρόπο Τα συστήματα διαχείρισης περιεχομένου και οι μηχανές αναζήτησης που καλούνται να λύσουν αυτά τα προβλήματα προσφέρουν στο χρήστη απλά κείμενα που πρέπει να μεταφραστούν για να βγουν γόνιμα συμπεράσματα Μια αναζήτηση σε βάση δεδομένων επιστρέφει ακριβείς απαντήσεις αλλά όχι εναλλακτικές, ανεξάρτητες του περιεχομένου στο οποίο γίνεται η αναζήτηση ΑΡΑ επιθυμητό να καταστήσουμε το περιεχόμενο κειμένων και συνδέσμων μεταξύ δεδομένων μεταφράσιμο σε επίπεδο μηχανών
Το πρόβλημα (1/2) Σύμφωνα με το UC Berkley, ο κόσμος παράγει 1-2 exabytes (1000 6 ) καινούργια δεδομένα κάθε χρόνο Τα 2/3 των επιχειρήσεων στην Ευρώπη και στην Αμερική υποφέρουν από υπερφόρτωση πληροφορίας και δεν έχουν χρόνο να μοιραστούν την πληροφορία Οι υπάλληλοι ξοδεύουν 8 ώρες μέσο όρο την βδομάδα αναζητώντας και χρησιμοποιώντας εξωτερική πληροφορία. Αυτό σημαίνει για τις αμερικάνικες επιχειρήσεις $107 δισεκατομμύρια τον χρόνο. Θα ήταν πολύ σημαντικό να δινόταν η ευκαιρία στις εταιρείες να αυξήσουν την παραγωγικότητα κάνοντας την εξωτερική πληροφορία προσβάσιμη Η πληροφορία του περιεχομένου (information content) είναι μία επιχείρηση $152 δις.
Το πρόβλημα (2/2) Υψηλή ανάκληση, χαμηλή ακρίβεια! Μαζί με τις βασικές, σχετικές σελίδες ανακτώνται και πάρα πολλές λίγο ή καθόλου σχετικές Χαμηλή ή καθόλου ανάκληση! Να μην ανακτώνται σημαντικές και συναφείς σελίδες Τα αποτελέσματα είναι ιδιαίτερα ευαίσθητα στο λεξιλόγιο! Οι αρχικές λέξεις-κλειδιά που χρησιμοποιούμε δεν επιστρέφουν τα αποτελέσματα που επιθυμούμε χρήση διαφορετικής ορολογίας από αυτή του αρχικού ερωτήματος Τα αποτελέσματα είναι μεμονωμένες ιστοσελίδες! Η σύνθεση αποτελεσμάτων από διάφορα έγγραφα γίνεται με μη αυτόματο τρόπο
Ο παγκόσμιος ιστός σήμερα (1/3) Ένα απλό, κοινό πρότυπο για ανταλλαγή και διάδοση πληροφοριών Σύνολο από ιστοσελίδες και διασυνδέσεις Είναι ένας τρόπος αναπαράστασης της πληροφορίας Η αναπαράσταση και ο σχεδιασμός γίνεται από τους developers Οι χρήστες πρέπει να ερμηνεύουν την πληροφορία Οι υπολογιστές είναι υπεύθυνοι µόνο για την παρουσίαση
Ο παγκόσμιος ιστός σήμερα (2/3) Η πληροφορία κατανέμεται σε τμήματα (πληροφοριακές «νησίδες» - ιστοσελίδες), τα οποία μπορούν να κατονομασθούν και να μεταδοθούν. Ένα τμήμα είναι συνήθως ένα αρχείο το οποίο επονομάζεται με ένα URL. Οι υπολογιστές δεν μπορούν να επεξεργαστούν την πληροφορία!!! Το νόημα της πληροφορίας είναι διαθέσιμο μόνο σε αυτούς που γνωρίζουν καλά αγγλικά
Ο παγκόσμιος ιστός σήμερα (3/3) Τι είναι η HTML; Ένας τρόπος δόμησης των πληροφοριών με στόχο τη γραφική τους στοιχειοθέτηση-εμφάνιση σε κάποια τερματική συσκευή. Ένας τρόπος για τον καθορισμό συσχετίσεων ανάμεσα σε στοιχεία του περιεχομένου του ίδιου αρχείου και ανάμεσα σε διαφορετικά αρχεία.
Το βασικό πρόβλημα του παγκόσμιο ιστού σήμερα Η σημασία του περιεχομένου του Web δεν είναι machine-accessible (προσπελάσιμη από υπολογιστές): απουσία των semantics!!!! Περιορισμένη δυνατότητα ερμηνείας! Είναι απλά δύσκολο να γίνει αντιληπτή η διαφορά του νοήματος των δύο προτάσεων: Είμαι καθηγητής της επιστήμης των υπολογιστών. Είμαι καθηγητής της επιστήμης των υπολογιστών, θα μπορούσατε να σκεφτείτε. Λοιπόν,...
Ιστορία του σημασιολογικού ιστού Το Web «εφευρέθηκε» από τον Tim Berners-Lee, φυσικός που δούλευε στο CERN Το όραμα του Tim Berners-Lee για το Web ήταν:... a goal of the Web was that, if the interaction between person and hypertext could be so intuitive that the machine-readable information space gave an accurate representation of the state of people's thoughts, interactions, and work patterns, then machine analysis could become a very powerful management tool, seeing patterns in our work and facilitating our working together through the typical problems which beset the management of large organizations. Για να υλοποιήσει το όραμά του έδωσε τον ορισμό του Σημασιολογικού Ιστού (Semantic Web)
Ορισμός του Semantic Web (1/2) The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation. Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001
Ορισμός του Semantic Web (2/2) Ο σημασιολογικός ιστός δεν είναι ένας ξεχωριστός ιστός αλλά η επέκταση του συντακτικού ιστού, στον οποίο η πληροφορία είναι καλά καθορισμένη κάνοντας καλύτερη τη συνεργασία ανθρώπων και υπολογιστών
Βασική ιδέα σημασιολογικού ιστού Βασική οργάνωση του Σημασιολογικού Ιστού και έννοιες που υπεισέρχονται
Το παρόν του Semantic Web Το Semantic Web είναι μία νέα μορφή του Web content του οποίου η σημασία είναι κατανοητή στους υπολογιστές!!! Οδηγεί σε μία επανάσταση νέων τεχνολογιών και δυνατοτήτων για τους υπολογιστές! Η αρχή γίνεται προσθέτοντας σημασιολογικό σχολιασμό (semantic annotation) στις πηγές web content
Ο σημασιολογικός ιστός... Ο Σημασιολογικός Ιστός στοχεύει στον εμπλουτισμό του Ιστού με σημασιολογική πληροφορία ώστε: τα δεδομένα να είναι κατανοητά σε επίπεδο μηχανής ώστε να διευκολύνεται η επεξεργασία και αναζήτησή τους. να υπάρχει κοινή ορολογία, οργάνωση και σημασιολογία στα δεδομένα που διακινούνται στον Ιστό, στο βαθμό που αυτό είναι εφικτό. να υπάρχει η ευελιξία σύνθεσης της σημασιολογικής πληροφορίας και δημιουργία νέας. Τεχνολογίες Σημασιολογικού Ιστού: RDF/OWL
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (1/7) Ο Μιχάλης είχε πρόσφατα ένα μικρό αυτοκινηστικό ατύχημα και αισθανόταν πόνο στον αυχένα. Ο προσωπικός του γιατρός συνέστησε μια σειρά φυσιοθεραπειών. Ο Μιχάλης ζήτησε από τον πράκτορα του Σημασιολογικού Ιστού να του υποβάλλει κάποιες δυνατές προτάσεις.
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (2/7) Ο πράκτορας: Ανέκτησε λεπτομέρειες σχετικά με την προτεινόμενη θεραπεία από τον πράκτορα του γιατρού Ανέτρεξε στη λίστα των θεραπευτών της ασφαλιστικής εταιρείας που παρέχει ιατρική κάλυψη στο Μιχάλη Αναζήτησε όσους βρίσκονται σε ακτίνα 10km από το γραφείο ή το σπίτι του Μιχάλη Εξέτασε τις συστάσεις τους σύμφωνα με έμπιστες υπηρεσίες αξιολόγησης Επιχείρησε να ταιριάξει τις διαθέσιμες ώρες για ραντεβού με το πρόγραμμα του Μιχάλη Σε λίγα λεπτά επέστρεψε με δύο προτάσεις
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (3/7) Δυστυχώς ο Μιχάλης δεν ήταν ικανοποιημένος με καμία από αυτές, αποφάσισε να θέσει αυστηρότερους χρονικούς περιορισμούς και ζήτησε από τον πράκτορα να προσπαθήσει ξανά. Ο ένας θεραπευτής είχε προσφέρει ραντεβού μετά από δύο εβδομάδες Όσον αφορά τον άλλο, ο Μιχάλης θα έπρεπε να κινηθεί με το αυτοκίνητο σε ώρα αιχμής Μερικά λεπτά αργότερα, ο πράκτορας επανήλθε με μία εναλλακτική λύση: Ένα θεραπευτή με καλές συστάσεις, ο οποίος είχε διαθέσιμα ραντεβού μετά από δύο μέρες
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (4/7) Ωστόσο, υπήρχαν κάποια μικροπροβλήματα Μερικά από τα λιγότερο σημαντικά επαγγελματικά ραντεβού του Μιχάλη θα έπρεπε να προγραμματιστούν ξανά Ο πράκτορας προσφέρθηκε να κάνει τις απαραίτητες διευθετήσεις, αν επιλεγόταν αυτή η λύση Ο θεραπευτής δεν αναγραφόταν στον ιστότοπο της ασφαλιστικής εταιρείας, επειδή χρέωνε περισσότερο από το μέγιστο ποσό κάλυψης
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (5/7) Ο πράκτορας είχε: Εντοπίσει το όνομά του από μία ανεξάρτητη λίστα θεραπευτών Ελέγξει πως ο Μιχάλης δικαιούνταν το μέγιστο ποσό κάλυψης, σύμφωνα με το ασφαλιστικό συμβόλαιο Διαπραγματευτεί ειδική έκπτωση με τον πράκτορα του θεραπευτή Ο θεραπευτής είχε μόλις πρόσφατα αποφασίσει να χρεώνει περισσότερο από το μέσο όρο και ενδιαφερόταν πολύ να βρει νέους ασθενείς
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (6/7) Ο Μιχάλης ήταν ευχαριστημένος με την προτεινόμενη υπόδειξη, επειδή θα έπρεπε να πληρώσει μόνο λίγα ευρώ παραπάνω Όμως, επειδή είχε εγκαταστήσει τον πράκτορα σημασιολογικού ιστού πριν από μερικές μέρες, του ζήτησε να αιτιολογήσει ορισμένους από τους ισχυρισμούς του: Πώς καθορίστηκαν οι συστάσεις του θεραπευτή Γιατί ήταν απαραίτητο για το Μιχάλη να επαναπρογραμματίσει ορισμένα από τα επαγγελματικά ραντεβού του Πώς διεξήχθη η διαπραγμάτευση της τιμής χρέωσης
Προσωπικοί πράκτορες: ένα μελλοντικό σενάριο! (7/7) Ο πράκτορας παρείχε τις κατάλληλες πληροφορίες Ο Μιχάλης ήταν ικανοποιημένος Ο καινούριος πράκτορας σημασιολογικού ιστού θα διευκόλυνε την πολυάσχολη ζωή του Ζήτησε από τον πράκτορα να προβεί σε όλες τις απαραίτητες ενέργειες για την οριστικοποίηση του ζητήματος
Επιστημονική φαντασία? ΟΧΙ! Υπάρχουν επιμέρους λύσεις για όλα τα σημαντικά μέρη του προβλήματος Ανάγκες όμως σε: Ενοποίηση (integration) Προτυποποίηση (standardization) Ανάπτυξη εργαλείων Αποδοχή από χρήστες
Ποιο είναι το πρόβλημα? Σε μία τυπική ιστοσελίδα (web page): H Markup πληροφορία αποτελείται από πληροφορίες παρουσίασης πχ. μέγεθος γραμματοσειράς και χρώμα διασυνδέσεις σε σχετικό περιεχόμενο Το περιεχόμενο του ιστού είναι μορφοποιημένο για ανθρώπους-αναγνώστες και όχι για υπολογιστές Απαιτείται τουλάχιστον κατανόηση της φυσικής γλώσσας
The Car (1/2)
The Car (2/2) Automobile Voiture Coche Araba
Ποιο είναι το πρόβλημα? Έστω μία τυπική ιστοσελίδα: H Markup πληροφορία αποτελείται από πληροφορίες: - παρουσίασης πχ. fontsize, χρώμα - links σε σχετικό περιεχόμενο Το σημασιολογικό περιεχόμενο είναι προσβάσιμο στους χρήστες, αλλά όχι εύκολα στους υπολογιστές!!! Βέβαια απαιτείται τουλάχιστον κατανόηση της φυσικής γλώσσας!
Τι πληροφορία μπορούμε να δούμε WWW2002 The eleventh international world wide web conference Sheraton waikiki hotel Honolulu, hawaii, USA 7-11 may 2002 1 location 5 days learn interact Registered participants coming from australia, canada, chile denmark, france, germany, ghana, hong kong, india, ireland, italy, japan, malta, new zealand, the netherlands, norway, singapore, switzerland, the united kingdom, the united states, vietnam, zaire Register now On the 7-11 May 2002, Honolulu, Hawai will provide the backdrop for the eleventh international world wide web conference. This prestigious series of Featured Speakers confirmed Tim berners-lee Tim is the well known inventor of the Web, Ian Foster Ian is the pioneer of the Grid, the next generation internet
Τι πληροφορία μπορεί να δει μία μηχανή <> </> <> </> <></> <></> <> </> <> </> <></> <></> <></> <></>
Λύση: προσθήκη σημασιολογικού markup - XML markup with meaningful tags? <conf> </conf> <place> </place> <date></date> <slogan></slogan> <participants> </participants> <introduction> </introduction> <speaker></speaker> <bio>
Άλλο famous παράδειγμα Εμφάνιση τμήματος τυπικής ιστοσελίδας φυσιοθεραπευτή... <h1>agilitas Physiotherapy Centre</h1> Welcome to the home page of the Agilitas Physiotherapy Centre. Do you feel pain? Have you had an injury? Let our staff Lisa Davenport, Kelly Townsend (our lovely secretary) and Steve Matthews take care of your body and soul. <h2>consultation hours</h2> Mon 11am - 7pm<br> Tue 11am - 7pm<br> Wed 3pm - 7pm<br> Thu 11am - 7pm<br> Fri 11am - 3pm<p> But note that we do not offer consultation during the weeks of the <a href="...">state Of Origin</a> games.
Προβλήματα με την HTML Στοχεύει ανθρώπους και όχι μηχανές! Οι άνθρωποι δεν έχουν κανένα πρόβλημα με αυτή Οι μηχανές (software agents) όμως έχουν: Πώς να διακρίνουν τη θεραπεύτρια από τη γραμματέα Πώς ακριβώς να καθορίσουν τις ώρες ιατρείου Θα έπρεπε να ακολουθήσουν το link στο State Of Origin games για να βρουν πού γίνονται
Πώς λύνονται? Με την προσέγγιση του Semantic Web Η λύση δεν είναι η ανάπτυξη υπερευφυών πρακτόρων (super-intelligent agents) ΑΛΛΑ προσπάθεια λύσης του προβλήματος από την πλευρά της ιστοσελίδας Αν αντικαταστήσουμε την HTML με πιο κατάλληλες γλώσσες, οι ιστοσελίδες θα μπορούσαν «να κουβαλούν το περιεχόμενο στο μανίκι τους» ΔΗΛΑΔΗ διατήρηση όχι μόνο πληροφορίας για formatting με στόχο την ανθρώπινη κατανάλωση αλλα και πληροφορία για το περιεχόμενο!
Μία καλύτερη αναπαράσταση... <company> <treatmentoffered>physiotherapy</treatmentoffered> <companyname>agilitas Physiotherapy Centre</companyName> <staff> <therapist>lisa Davenport</therapist> <therapist>steve Matthews</therapist> <secretary>kelly Townsend</secretary> </staff> </company>
Το μυστικό είναι τα μεταδεδομένα (1/3) Αυτή η αναπαράσταση είναι πολύ πιο εύκολα processable από τις μηχανές! Μεταδεδομένα (metadata): data about data Τα μεταδεδομένα συλλαμβάνουν μέρος της σημασίας των δεδομένων Ο Σημασιολογικός Ιστός δεν βασίζεται σε textbased manipulation, αλλά μάλλον σε machineprocessable metadata
Το μυστικό είναι τα μεταδεδομένα (2/3) The concept of machine-understandable documents does not imply some magical artificial intelligence which allows machines to comprehend human mumblings. It only indicates a machine's ability to solve a well defined problem by performing well-defined operations on existing well-defined data. Instead of asking machines to understand people's language, it involves asking people to make the extra effort Tim Berners-Lee
Το μυστικό είναι τα μεταδεδομένα (3/3) Κάνουν σαφή την πληροφορία που είναι αόριστη making explicit the implicit Εκθέτουν την πληροφορία για αναζήτηση, επεξεργασία και ενοποίηση Μεταδεδοµένα περιγραφών εδοµένα που περιγράφουν το περιεχόµενο και τη σηµασία των πηγών Αλλά όλοι πρέπει να µιλάνε την ίδια γλώσσα Οντολογίες ιαµοιραζόµενα και κοινά λεξιλόγια για µηχανές εύρεσης και πράκτορες ιαµοιραζόµενη και κοινή κατανόηση ενός πεδίου ενδιαφέροντος Απαραίτητες για ανταλλαγή και αναζήτηση Συµπερασµατολογία Εξαγωγή καινούργιας γνώσης και µεταδεδοµένων από την υπάρχουσα γνώση
Εξέλιξη Η σηµασιολογική πληροφορία που είναι συσχετισµένη µε πηγές στο διαδίκτυο (ως µεταδεδοµένα) μπορεί Να ερµηνευτεί και να συνδυαστεί από τις µηχανές με στόχο παραγωγή λογικής Μία πλατφόρµα για µηχανές εύρεσης και έξυπνους πράκτορες Εξέλιξη του σηµερινού διαδικτύου έτσι ώστε η πληροφορία να µπορεί να επεξεργαστεί από ανθρώπους και µηχανές Ο σηµασιολογικός ιστός δεν αντικαθιστά το σηµερινό παγκόσµιο ιστό. Το διαδίκτυο έχει ήδη δισεκατοµµύρια σελίδες. Πρέπει όλες να είναι σηµασιολογικές? Ο σηµασιολογικός ιστός κάθεται δίπλα στο σηµερινό παγκόσµιο ιστό
Πού βρισκόμαστε σήμερα? Καθορίζονται οι γλώσσες που θα πλαισιώσουν το σημασιολογικό ιστό Καθορίζεται και αναπτύσσεται η αρχιτεκτονική και τα εργαλεία που θα χρησιμοποιηθούν στο σημασιολογικό ιστό Επόμενο βήμα η ανάπτυξή τους Χρήση των εργαλείων και των γλωσσών για να περιγράψουν το υλικό στις διάφορες εφαρμογές
Επίπεδα Είμαστε εδώ OWL DAML+OIL SHOE
Web-based γλώσσες (1/2) OIL DAML+ OIL OWL SHOE (HTML) SHOE (XML) XOL OML RDF - RDFS HTML XML Συγκριτικά με τις υπάρχουσες τεχνολογίες, η OWL υπερβαίνει τις XML, XML Schema, RDF και RDF Schema Υποστηρίζει μεγαλύτερη διασαφήνιση του περιεχομένου του Ιστού από τις μηχανές, παρέχοντας πρόσθετο λεξιλόγιο μαζί με μια επίσημη σημασιολογία
Web-based γλώσσες (2/2) Simple HTML ontology extensions (SHOE) Ontology exchange language (XOL) Ontology markup language (OML and KML) Resource description Framework schema language (RDFS) DARPA agent markup language (DAML) Ontology interchange language (OIL) Ontology Web Language (OWL)
Schema Languages Πρέπει να παρέχουν: Επίσημο συντακτικό και επίσημα semantics δίνει τη δυνατότητα για αυτόματη επεξεργασία περιεχομένου Standardized (κοινό) λεξιλόγιο για real-world semantics (π.χ. οντολογίες) δίνει τη δυνατότητα μοιράσματος της γνώσης ανάμεσα σε διάφορους agents (ανθρώπους και software)
XML και HTML Η XML ξεχωρίζει το περιεχόμενο (δεδομένα και γλώσσα) από την παρουσίαση. Η HTML καθορίζει την παρουσίαση Η HTML σαφώς καθορίζει ένα σύνολο από ετικέτες όπως και τη γραμματική (intended meaning) <TABLE> </TABLE> Η XML επιτρέπει ετικέτες ή γραμματική <BOOK> </BOOK> Kαι οι δύο γλώσσες είναι βασισμένες στην Standard Generalised Markup Language (SGML)
XML (1/2) Μια μετα-γλώσσα για κωδικοποίηση πληροφοριών Χαμηλού επιπέδου μοντέλο δεδομένων Απλό συντακτικό το οποίο μπορεί να διαβασθεί και από άνθρωπο και από μηχανή Ένα πρώτο βήμα προς τη σύγκλιση ιστού και ΒΔ Συντακτικό παρόμοιο με της HTML (υποσύνολο της SGML) Περιγράφει δομημένα δεδομένα Ώριμη διαπροσωπεία και ευσταθή εργαλεία σάρωσης, ανεξάρτητα της εμφάνισης-παρουσίασης του περιεχομένου.
XML (2/2) Παρέχει μια σύνταξη επιφάνειας για τα δομημένα έγγραφα, αλλά δεν επιβάλλει κανένα σημασιολογικό περιορισμό στην έννοια αυτών των εγγράφων Από μόνη της η XML δεν αρκεί για την εξαγωγή δεδομένων από ΧΜL αρχεία, αλλά χρειάζεται και άλλες τεχνολογίες όπως γλώσσες επερωτήσεων σε σχήματα ΧΜL, οντολογίες, κοκ. Δεν μπορεί να χρησιμοποιηθεί για δημιουργία οντολογιών εξειδικευμένου πεδίου ή οντολογικών λεξιλογίων και δεν μπορεί να χρησιμοποιήσει βασικές οντολογικές αρχές μοντελοποίησης Δεν διαθέτει μηχανή συμπερασματολογίας
Παράδειγμα HTML: Λίστα Βιβλίων <HTML> <BODY> Fiction: <UL><LI>Author: Milan Kundera </LI> <LI>Title: Identity </LI> <LI>Published: 1998 </LI> </UL> Science: <UL><LI> Author: Richard Feynman </LI> <LI> Title: The Character of Physical Law </LI> <LI> Hardcover </LI> </UL> </BODY> </HTML>
Παράδειγμα XML εγγράφου Βιβλιογραφία S. Abiteboul, P. Buneman, D. Suciu Data on the Web: From Relations to Semistructured Data and XML Morgan Kaufmann Publishers, 2000. Norman Walsh A Guide to XML World Wide Web Journal, Vol. 2, Issue 4, 1997, pages 97-107. <bibliography> <book> <author>s. Abiteboul</author> <author>p. Buneman</author> <author>d. Suciu</author> <title>data on the Web: From Relations to Semistructured Data and XML</title> <publisher>morgan Kaufmann Publishers</publisher> <year>2000</year> </book> <article> <author>norman Walsh</author> <title>a Guide to XML</title> <journal>world Wide Web Journal</journal> <volume>2</volume> <issue>4</issue> <year>1997</year> <pages>97-107</pages> </article> </bibliography>
XML Νέο πρότυπο που υιοθετήθηκε από το W3C για να συμπληρώσει την HTML στην ανταλλαγή δεδομένων Η HTML περιγράφει τη δομή της παρουσίασης και όχι τη δομή του περιεχομένου Η XML περιγράφει το περιεχόμενο (stylesheets μπορούν να χρησιμοποιηθούν για να ορίσουν πώς να εμφανιστεί ένα XML έγγραφο) Η XML επιτρέπει τον ορισμό νέων tags Ένα XML έγγραφο μπορεί να περιέχει μία προαιρετική περιγραφή της γραμματικής του
XML Schema Mια γλώσσα για τον περιορισμό της δομής των εγγράφων ΧΜL και επεκτείνει επίσης ΧΜL με τα datatypes Ορίζει τα επιτρεπόμενα στοιχεία, τις ιδιότητές τους, καθώς και τον τρόπο με τον οποίο συνδυάζονται μεταξύ τους μέσα στο XML κείμενο Δηλ. Το XML Schema αποτελεί το «συντακτικό» του XML κειμένου
RDF (Resource Description Framework) Προοριζόταν για την αναπαράσταση μεταδεδομένων Περιγραφή πληροφοριακών πόρων και γενικότερα αναπαράσταση γνώσης Πόρος είναι οτιδήποτε θέλουμε να δηλώσουμε ή να περιγράψουμε (πχ. Ιστοσελίδα, δικτυακός τόπος, αντικείμενο) Είναι μοντέλο δεδομένων για τα αντικείμενα και τις μεταξύ τους σχέσεις, παρέχει απλή σημασιολογία για αυτό το μοντέλο και αυτά τα μοντέλα μπορούν να αντιπροσωπευθούν σε μια σύνταξη XML Είναι ένα πλαίσιο για την έκφραση της πληροφορίας με ένα τρόπο που μπορεί να ανταλλαχθεί μεταξύ εφαρμογών χωρίς να χαθεί το νόημα Η πληροφορία μπορεί να είναι διαθέσιμη σε εφαρμογές διαφορετικές από αυτές που είχε αρχικά δημιουργηθεί Συστήνεται από τη W3C Κάνει για τη δημιουργία εκτεταμένων λεξιλογίων
Πλαίσιο RDF RDF: Resource Description Framework (w3c.org) Resources: Web σελίδες, literals (string, int ), οντότητες, έννοιες,...και ότι άλλο βάζει η φαντασία σας! Description: Ιδιότητες και χαρακτηριστικά μιας σελίδας, συσχετίσεις μεταξύ σελίδων Το RDF είναι ένας πολύ απλός τρόπος δήλωσης των ιδιοτήτων και σχέσεων για Web σελίδες. RDF = σύνολο από statements Statement: (resource, property, resource), γνωστό ως RDF triple. Θα το δείτε και ως: (subject, property, object)
RDF Schema Λεξιλόγιο για την περιγραφή των ιδιοτήτων και των κλάσεων RDF αντικειμένων, με μια σημασιολογία για τις γενικευμένες ιεραρχίες τέτοιων ιδιοτήτων και κλάσεων
Περιορισμοί της RDF Πολύ αδύναμη σημασιολογική αναπαράσταση Δεν περιγράφει καλά το νόημα της πληροφορίας Δεν διαθέτει μηχανή συμπερασματολογίας
XML, RDF, Ας κάνουμε μία σύνοψη σχετικά με το ρόλο και την χρησιμότητα των τεχνολογιών XML/RDF/S στην ανάπτυξη του Σημασιολογικού Ιστού: XML. Παρέχει μόνο συντακτική πληροφορία. Δεν δίνει σημασιολογία. Διευκολύνει τον εντοπισμό και την επεξεργασία των δεδομένων, μαρκάροντάς τα με tags. XML Schema. Επεκτείνει την XML με χρήση τύπων δεδομένων. Δεν δίνει σημασιολογία. RDF. Δηλώνει ιδιότητες και σχέσεις για αντικείμενα στον Ιστό (resources), π.χ. Web σελίδες. Δίνει απλή σημασιολογία. RDF Schema. Eίναι τo σύστημα τύπων (type system) του RDF. Βασίζεται σε classes και properties. Ορίζει ιεραρχίες γενίκευσης. Δίνει ικανοποιητική σημασιολογία....επόμενο βήμα είναι η χρήση οντολογιών.
DAML+OIL DAML: Darpa Agent Markup Language Δημιουργήθηκε από την US Defense Advanced Research project agency (DARPA) σε συνεργασία με την EU committee on agent markup languages OIL: Ontology Inference Layer Έχουν δημιουργηθεί πολλές οντολογίες με την DAML+OIL και είναι διαθέσιμες σε όλους Βασίζεται στην RDF Schema Πρόγονος της OWL (standard web ontology language)
Schema Languages XML: συνατακτικό για δομημένα έγγραφα δεν υπάρχουν σημασιολογικοί περιορισμοί στη σημασία τους RDF: μοντέλο δεδομένων για objects (resources) και σχέση μεταξύ τους απλά semantics αναπαρίστανται σε XML syntax RDFS: πρωτόγονη γλώσσα για συγγραφή οντολογιών προσθέτει την περιγραφή ιδιοτήτων και κλάσεων σε RDF resources, προσθέτει ιεραρχίες, i.e. sub-concepts / subproperties (και σε ενδιάμεσο επίπεδο: DAML+OIL) OWL: περισσότερο λεξιλόγιο για περιγραφή ιδιοτήτων, κλάσεων, π.χ. σχέσεις μεταξύ κλάσεων (disjointness), αριθμός στοιχείων συνόλου (cardinality), λογικοί συνδυασμοί κλάσεων (π.χ. ένωση, τομή, συμπλήρωμα), ισότητα, πλουσιότερη δακτυλογράφηση ιδιοτήτων, χαρακτηριστικά ιδιοτήτων (π.χ. συμμετρία, μοναδικότητα, μεταβατικότητα) και απαριθμημένες κλάσεις (e.g. oneof) Syntax (formal) Semantics + reasoning
Οργανωτική Υποστήριξη Semantic Web Υποστηρίζεται από το WorldWideWeb Consortium (W3C), διεθνής οργανισμός προτυποποίησης για τον ιστό. Η ανάπτυξη του Semantic Web διαθέτει έντονη βιομηχανική δυναμική και οι κυβερνήσεις προβαίνουν σε σημαντικές επενδύσεις Δημιουργία του DARPA Agent Markup Language (DAML) Project από την αμερικάνικη κυβέρνηση Semantic Web: από τους βασικούς άξονες δράσης της Ευρωπαϊκής Επιτροπής στο HORIZON 2020
Διαστρωματωμένη Προσέγγιση (1/5) Η ανάπτυξη του σημασιολογικού ιστού εξελίσσεται σταδιακά σε βήματα Κάθε βήμα δημιουργεί ένα επίπεδο πάνω από ένα άλλο Επειδή είναι πιο εύκολη η ομοφωνία σε μικρά βήματα... Τυποποίηση σε όσα υπάρχει συμφωνία...
Διαστρωματωμένη Προσέγγιση (2/5) Βασικές αρχές Συμβατότητα προς τα κάτω (downward compatibility) Μερική κατανόηση προς τα πάνω (upward partial understanding)
Διαστρωματωμένη Προσέγγιση (3/5) Συμβατότητα προς τα κάτω (downward compatibility) Οι πράκτορες που έχουν πλήρη γνώση ενός επιπέδου πρέπει να είναι, επίσης, σε θέση να ερμηνεύουν και να χρησιμοποιούν πληροφορίες χαμηλότερων επιπέδων Οι πράκτορες που γνωρίζουν τη σημασιολογία της γλώσσας OWL μπορούν να εκμεταλλευτούν πλήρως πληροφορίες γραμμένες στις γλώσσες RDF και RDF Schema
Διαστρωματωμένη Προσέγγιση (4/5) Μερική κατανόηση προς τα πάνω (upward partial understanding) Μερική κατανόηση προς τα πάνω (upward partial understanding): οι πράκτορες που έχουν πλήρη γνώση ενός επιπέδου να είναι σε θέση να εκμεταλλευτούν, τουλάχιστον μερικώς, τις πληροφορίες των υψηλότερων επιπέδων. Ένας πράκτορας που γνωρίζει μόνο τη σημασιολογία των RDF και RDF Schema μπορεί να ερμηνεύσει μερικώς γνώση που είναι γραμμένη σε OWL, αγνοώντας εκείνα τα στοιχεία που εκτείνονται πέρα από τις γλώσσες RDF and RDF Schema.
Διαστρωματωμένη Προσέγγιση (5/5) Πύργος επιπέδων σημασιολογικού ιστού από τον Tim-Berners-Lee) κύρια επίπεδα σχεδίασης
Επίπεδα (1/3) XML επίπεδο Γλώσσα που επιτρέπει τη συγγραφή δομημένων εγγράφων του ιστού με λεξιλόγιομ ορισμένο από το χρήστη. Κατάλληλη για αποστολή εγγράφων στον ιστό RDF επίπεδο RDF βασικό μοντέλο δεδομένων, όπως το ΜΟΣ (μοντέλο οντοτήτων-συσχετίσεων) για τη συγγραφή απλών προτάσεων σχετικά με αντικείμενα του ιστού (πόροι). Το μοντέλο δεδομένων της RDF δεν βασίζεται στην XML, αλλά η RDF διαθέτει σύνταξη βασισμένη στην XML RDF Schema παρέχει θεμελιώδη στοιχεία μοντελοποίησης για την οργάνωση των αντικειμένων του ιστού σε ιεραρχίες
Επίπεδα (2/3) RDF επίπεδο RDF Schema μπορεί να θεωρηθεί απλή γλώσσα οντολογιών Επίπεδο οντολογιών Πιο εκφραστικές γλώσσες από RDF Schema που επιτρέπουν αναπαράσταση πολυπλοκότερων σχέσεων μετακύ των αντικειμένων του ιστού Web standard σήμερα: OWL Επίπεδο Λογικής Ενισχύει τη γλώσσα οντολογιών Επιτρέπει τη συγγραφή δηλωτικής γνώσης εξειδικευμένης για εφαρμογές
Επίπεδα (3/3) Επίπεδο Απόδειξης Περιλαμβάνει την πραγματική διαδικασία συναγωγής συμπερασμάτων, και αναπαράσταση αποδείξεων σε γλώσσες ιστού χαμηλότερων επιπέδων και την επαλήθευση αποδείξεων Επίπεδο Εμπιστοσύνης Θα προκύψει μέσα από χρήση ψηφιακών υπογραφών και άλλων ειδών γνώσης, που βασίζεται σε συστάσεις από έμπιστους πράκτορες ή σε οργανισμούς αξιολόγησης και πιστοποίησης και σωματεία καταναλωτών
Ιστός Εμπιστοσύνης (Web of Trust) Η εμπιστοσύνη βρίσκεται στην κορυφή της πυραμίδας γιατί είναι μία έννοια υψηλού επιπέδου και αποφασιστικής σημασίας Ο ιστός θα επιτύχει τις πλήρεις δυνατότητές του μόνο όταν οι χρήστες εμπιστεύονται τις λειτουργίες του (ασφάλεια) και την ποιότητα των παρεχόμενων πληροφοριών
Συνοψίζοντας... Ο σημασιολογικός ιστός είναι μια πρωτοβουλία που στοχεύει στη βελτίωση της τρέχουσας κατάστασης του παγκόσμιου ιστού Η κύρια ιδέα είναι η χρήση πληροφοριών του ιστού που είναι επεξεργάσιμες από τους υπολογιστές Οι βασικές τεχνολογίες περιλαμβάνουν τα ρητά μεταδεδομένα, τις οντολογίες, τη λογική και την εξαγωγή συμπερασμάτων και τους ευφυείς πράκτορες Η ανάπτυξη του σημασιολογικού ιστού εξελίσσεται σε επίπεδα