ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ & ΘΡΗΣΚΕΥΜΑΤΩΝ ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΡΟΓΡΑΜΜΑΤΑ «ΑΝΤΑΓΩΝΙΣΤΙΚΟΤΗΤΑ & ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ» ΚΑΙ ΠΕΡΙΦΕΡΕΙΩΝ ΣΕ ΜΕΤΑΒΑΣΗ ΕΘΝΙΚΟ ΣΤΡΑΤΗΓΙΚΟ ΠΛΑΙΣΙΟ ΑΝΑΦΟΡΑΣ ΕΣΠΑ 2007-2013 Παραδοτέο Π4.1 Οντολογική περιγραφή μεταδεδομένων οπτικοακουστικού υλικού Κωδικός Έργου: 09ΣΥΝ-72-922 Τίτλος του Έργου: IS-HELLEANA - Intelligent System for HELLEnic Audiovisual National Aggregator ΕΥΦΥΕΣ ΣΥΣΤΗΜΑ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΕΝΟΠΟΙΗΣΗΣ ΚΑΙ ΑΝΑΔΕΙΞΗΣ TΟΥ ΕΛΛΗΝΙΚΟΥ ΟΠΤΙΚΟΑΚΟΥΣΤΙΚΟΥ ΑΠΟΘΕΜΑΤΟΣ ΔΡΑΣΗ ΕΘΝΙΚΗΣ ΕΜΒΕΛΕΙΑΣ «ΣΥΝΕΡΓΑΣΙΑ» ΕΥΡΩΠΑΪΚΗ ΕΝΩΣΗ ΕΥΡΩΠΑΪΚΟ ΤΑΜΕΙΟ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ Υπουργείο Παιδείας, Δια Βίου Μάθησης και Θρησκευμάτων ΓΓΕΤ ΕΥΔΕ-ΕΤΑΚ (Ε. Π. Ανταγωνιστικότητα και Επιχειρηματικότητα (ΕΠΑΝ ΙΙ), ΠΕΠ Μακεδονίας Θράκης, ΠΕΠ Κρήτης και Νήσων Αιγαίου, ΠΕΠ Θεσσαλίας Στερεάς Ελλάδας Ηπείρου, ΠΕΠ Αττικής)
ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1. Εισαγωγή... 3 2. Η γλώσσα οντολογιών OWL 2... 4 3. Οντολογίες περιγραφής μεταδεδομένων... 5 3.1 Γενικές οντολογίες περιγραφής οπτικοακουστικών μεταδεδομένων... 5 3.1.1 Οντολογία VideoStar... 5 3.1.2 Movie Ontology... 7 3.1.3 EBU Core Metadata Set... 8 3.1.4 IPTC... 8 3.1.5 Dublin Core... 9 3.2 Οντολογίες περιγραφής κειμενικής πληροφορίας.... 10 3.2.1 DBPedia... 10 3.2.2 Wordnet... 10 3.2.3 GeoNames... 11 3.3 Ειδικές οντολογίες περιγραφής οπτικακουστικού υλικού και μεταδεδομένων... 11 3.3.1 Οντολογίες MPEG-7... 11 3.3.2 Europeana Data Model... 12 3.3.3 CIDOC CRM... 14 3.3.4 SKOS... 14 4. Συμπεράσματα... 15 Σελίδα 2 από 15
1. Εισαγωγή Μια από τις κρίσιμες συνιστώσες του παρόντος έργου, που στοχεύει στην ανάπτυξη ενός ολοκληρωμένου συστήματος για την ενοποιημένη πρόσβαση, διαχείριση, αναζήτηση και διαδραστική παρουσίαση του Ελληνικού οπτικοακουστικού αποθέματος, είναι η κατάλληλη σημασιολογική περιγραφή του διαθέσιμου οπτικοακουστικού υλικού. Κι αυτό, διότι οι αναζητήσεις του διαθέσιμου υλικού μέσω του συστήματος θα χρησιμοποιούν αυτές τις σημασιολογικές περιγραφές ώστε να προσφέρουν πολύ πλουσιότερα και στοχευμένα αποτελέσματα σε σύγκριση με τις συνήθης αναζητήσεις που απλώς βρίσκουν όμοιες λέξεις κλειδιά. Για τη διευκόλυνση αυτού του είδους των αναζητήσεων και για τη σημασιολογική περιγραφή των δεδομένων έχει αναπτυχθεί η τεχνολογία των οντολογιών που φιλοδοξεί να μετατρέψει τον σημερινό Παγκόσμιο Ιστό σε Σημασιολογικό Ιστό. Δεδομένου ότι στo συγκεκριμένο έργο το πρωτογενές υλικό είναι οπτικοακουστικό, αυτό που μας ενδιαφέρει είναι οι τρόποι σημασιολογικής περιγραφής των μεταδεδομένων που το συνοδεύουν. Το ψηφιακό οπτικοακουστικό υλικό συνοδεύεται από μεταδεδομένα που αναφέρονται στο πρωτογενές θέμα που απεικονίζεται, σε διάφορα τεχνικά και πληροφοριακά χαρακτηριστικά του ίδιου του υλικού και της διαδικασίας ψηφιοποίησης του, καθώς και πληροφορίες για το φορέα και τη σχέση του με το υλικό, τη διάθεσή του αλλά και τις πηγές που συνεισφέρουν στην τεκμηρίωσή του. Επιπλέον, δεδομένου ότι το οπτικοακουστικό υλικό συλλέγεται συνήθως από πολλές διαφορετικές πηγές και φορείς, οι οποίοι είναι πιθανόν να ακολουθούν διαφορετικά πρότυπα περιγραφής για τα μεταδεδομένα, το αποτέλεσμα είναι να υπάρχει μια ανομοιομορφία στον τρόπο περιγραφής των διάφορων αντικειμένων. Για να επιλυθεί κατά το καλύτερο δυνατό τρόπο το πρόβλημα αυτό, απαιτείται να συλλεγούν τα διάφορα σχήματα περιγραφής των διαφόρων ειδών μεταδεδομένων (που μπορεί να είναι είτε σε μορφή οντολογίας OWL ή RDF-S, κάποιου σχήματος XML) και να κατασκευαστεί κάποιου είδους αντιστοίχιση είτε απευθείας μεταξύ τους είτε μέσω κάποιο γενικότερου ενοποιητικού σχήματος. Κατ αρχήν, όμως, και προκειμένου να επιτευχθεί αυτό πρέπει να έχουν εξεταστεί οι διάφοροι δυνατοί τρόποι αναπαράστασης που χρησιμοποιούν οι διάφοροι φορείς, χωρίς αυτό να σημαίνει ότι δεν είναι δυνατή η μελλοντική επέκταση του σχήματος ενοποιημένης πρόσβασης σε περίπτωση που εισρεύσει περιεχόμενο από κάποια νέα πηγή που ακολουθεί διαφορετικά πρότυπα περιγραφής μεταδεδομένων. Για το λόγο αυτό, σε αυτό το παραδοτέο περιγράφονται διάφοροι υπάρχοντες τρόποι περιγραφής μεταδεδομένων που χρησιμοποιούνται από διάφορες διαδικτυακές πλατφόρμες, οι οποίες θα αποτελέσουν την βάση για την ανάπτυξη του δικτύου οντολογικής περιγραφής του οπτικοακουστικού υλικού στα πλαίσια του παρόντος έργου. Οι τρόποι περιγραφής μπορούν να διαχωριστούν σε μερικές βασικές κατηγορίες ως προς τον χαρακτήρα τους. Έτσι υπάρχουν φορείς που υιοθετούν τα διεθνή πρότυπα για την περιγραφή των μεταδεδομένων τους, in-house πρότυπα. Επιπλέον διάφοροι φορείς δίνουν έμφαση στην αναλυτικότερη περιγραφή διαφορετικού είδους μεταδεδομένων. Για παράδειγμα, τα δεδομένα μιας ταινίας μπορεί να περιέχουν κάποιο κειμενικό πεδίο που να περιέχει μια σχετικά αναλυτική περίληψη της ταινίας, μπορεί επίσης να υπάρχει διαθέσιμο το αναλυτικό σενάριο της ταινίας με τους πλήρεις υποτίτλους, ή μπορεί να υπάρχουν μόνο οι απλές βασικές πληροφορίες όπως ο τίτλος και οι βασικοί συντελεστές. Στις δύο πρώτες περιπτώσεις, τα δεδομένα περιέχουν πολύ πλούσια πληροφορία όχι όμως σημασιολογικά αναλυμένη (αφού όλη η περιγραφή περιέχεται σε ένα πεδίο κειμένου), από την επεξεργασία της οποίας μπορούν να προκύψουν πολύ πλούσια πρόσθετα μεταδεδομένα (π.χ. από την ανάλυση των διαλόγων μιας ταινίας μπορούν να εντοπιστούν αναφορές σε περιοχές, πρόσωπα, γεγονότα, κτλ. τα οποία να είναι πιθανόν χρήσιμα σε κάποια αναζήτηση ενός χρήστη). Για να περιγραφούν αυτά τα μεταδεδομένα, τα οποία ξεφεύγουν από τα τυπικά δεδομένα ενός οπτικοακουστικού υλικού και αφορούν γενικότερα πεδία γνώσης, όπως γεωγραφικές περιοχές, ιστορικά πρόσωπα και γεγονότα, απαιτούνται επιπλέον οντολογίες που μοντελοποιούν τέτοιου είδους πεδία γνώσης (π.χ. DBpedia). Για την περιγραφή των μεταδεδομένων που αφορούν τεχνικά χαρακτηριστικά και Σελίδα 3 από 15
στοιχεία τεκμηρίωσης του υλικού απαιτούνται πιο ειδικές οντολογίες (π.χ. οι οντολογίες EDM και MPEG7). 2. Η γλώσσα οντολογιών OWL 2 Όπως ήδη αναφέρθηκε οι καθιερωμένες γλώσσες αναπαράστασης οντολογιών μέσω του διαδικτύου είναι οι OWL και RDF-S. Από αυτές η γλώσσα OWL έχει αυστηρά ορισμένη σημασιολογία και αυξημένη εκφραστικότητα (π.χ. η RDF-S δεν παρέχει τη δυνατότητα ορισμού κλάσης από την ένωση, την τομή ή την άρνηση μιας ή και περισσοτέρων άλλων κλάσεων) και για αυτό έχει επιλεγεί ως γλώσσα του υπό κατασκευή συστήματος για την διαδικασία ενοποίησης των διάφορων οντολογιών. Ακολουθεί μια σύντομη αναφορά στην OWL 2 που είναι η τελευταία έκδοση της γλώσσας OWL. Το πρότυπο της OWL 2 καθορίζει ουσιαστικά τρεις υπογλώσσες οι οποίες διαφέρουν μεταξύ τους ως προς την εκφραστική δύναμη και την πολυπλοκότητα στη συλλογιστική. Η κάθε μία χρησιμοποιείται σε διαφορετικές εφαρμογές ανάλογα με τις απαιτήσεις σε εκφραστικότητα και υπολογιστική πολυπλοκότητα. Οι γλώσσες αυτές είναι οι ακόλουθες: OWL 2 EL που είναι κατάλληλη για οντολογίες με πολύ μεγάλο αριθμό ιδιοτήτων ή εννοιών. Είναι χρήσιμη σε εφαρμογές όπου οι οντολογίες περιλαμβάνουν πολύ μεγάλο αριθμό κλάσεων και σχέσεων. Η υπολογιστική πολυπλοκότητα είναι πολυωνυμική με βάση το μέγεθος της οντολογίας. OWL 2 QL που είναι χαμηλής εκφραστικότητας και χρησιμοποιείται σε οντολογίες με πολύ μεγάλο αριθμό στιγμιοτύπων, και στις οποίες από πλευράς συλλογιστικής μας ενδιαφέρει κυρίως η απάντηση ερωτημάτων. Η απάντηση επερωτημάτων που αφορούν οντολογίες σε OWL 2 QL μπορεί να γίνει κάνοντας χρήση των τεχνολογιών των σχεσιακών βάσεων δεδομένων. Με κατάλληλες διαδικασίες εξαγωγής συμπερασμάτων η απάντηση επερωτημάτων έχει πολυπλοκότητα LOGSPACE με βάση το πλήθος των δεδομένων. Όμοια με την περίπτωση οντολογιών σε OWL 2 EL, μπορούμε να αποφασίσουμε για η συνέπεια σε πολυωνυμικό χρόνο. OWL 2 RL που έχει σχεδιαστεί για εφαρμογές που απαιτούν υψηλού επιπέδου συλλογιστική χωρίς να θυσιάζεται όλη η εκφραστική δύναμη της γλώσσας OWL. Τα προβλήματα συλλογιστικής μπορούν να αντιμετωπιστούν σε πολυωνυμικό χρόνο δεδομένου του μεγέθους της οντολογίας. H OWL περιλαμβάνει ένα αλφάβητο το οποίο αποτελείται από κλάσεις, ιδιότητες και άτομα. Μία κλάση αναπαριστά ένα σύνολο αντικειμένων τα οποία έχουν κοινά χαρακτηριστικά, όπως για παράδειγμα η κλάση των ανθρώπων ή η κλάση των αυτοκινήτων. Η OWL περιλαμβάνει τόσο ατομικές κλάσεις όσο και περιγραφές κλάσεων. Επιπρόσθετα, παρέχονται και αξιώματα κλάσεων όπως αξιώματα υπαγωγής, ισοδυναμίας. Οι ιδιότητες αναπαριστούν δυαδικές σχέσεις, δηλαδή ζευγάρια αντικειμένων. Επιπρόσθετα η OWL προσφέρει τη δυνατότητα ορισμού αξιωμάτων ιδιοτήτων, όπως αξιώματα μεταβατικών ρόλων. Τέλος η OWL προσφέρει τη δυνατότητα ορισμού ισχυρισμών, οι οποίοι στην περίπτωση της OWL ονομάζονται γεγονότα. Δεδομένου ότι η OWL είναι μια γλώσσα αναπαράστασης γνώσης για το Σημασιολογικό Ιστό, πρέπει να διαθέτει μια μορφή σύνταξης που να είναι συμβατή με την XML. Η σύνταξη αυτή είναι είτε η RDF/XML η οποία χρησιμοποιεί την RDF γλώσσα για να περιγράψει μία οντολογία σε OWL είτε η OWL/XML η οποία περιγράφει μία οντολογία απευθείας μέσω της XML. Για την υλοποίηση των νέων οντολογιών που θα χρειαστούν στο παρόν έργο καθώς και για τις ανάγκες τις ενοποιημένης πρόσβασης στις διάφορες οντολογίες επιλέχθηκε η χρήση της OWL 2. Πέραν του ότι με αυτόν τον τρόπο το έργο θα συμβαδίζει με τα διεθνή πρότυπα δίνεται η δυνατότητα, μέσω των επιμέρους υποσυνόλων της γλώσσας που μόλις αναλύθηκαν, να διακριθούν διάφορα επίπεδα πολυπλοκότητας ώστε να το τελικό σύστημα να μπορεί να λειτουργεί στο επίπεδο πολυπλοκότητας που το καθιστά χρήσιμο για τα πραγματικά δεδομένα. Σελίδα 4 από 15
3. Οντολογίες περιγραφής μεταδεδομένων Ακολουθεί η περιγραφή των διαφόρων οντολογιών που επιλέχθηκαν για να αποτελέσουν τον κορμό του δικτύου οντολογιών για την περιγραφή των μεταδεδομένων οπτικοακουστικού υλικού στα πλαίσια του έργου. Δεδομένου ότι οι οντολογίες αυτές θα χρησιμοποιηθούν για την εξυπηρέτηση διαφορετικών αναγκών περιγραφής των μεταδεδομένων, έχουμε ομαδοποιήσει τις οντολογίες σε τρεις γενικές κατηγορίες, συγκεκριμένα στις γενικές οντολογίες περιγραφής οπτικοακουστικών δεδομένων, που χρησιμοποιούνται για την περιγραφή των συνήθων μεταδεδομένων ενός οπτικοακουστικού αντικειμένου (όνομα, δημιουργός, κτλ), τις γενικές οντολογίες περιγραφής διάφορων επιστημονικών αντικειμένων (π.χ. γεωγραφικών, ιστορικών, λεξιλογικών) οι οποίες θα ενταχθούν στο σύστημα προκειμένου να χαρακτηριστεί η κειμενική πληροφορία που συνοδεύει το οπτικοακουστικό υλικό, και τέλος τις ειδικές οντολογίες περιγραφής οπτικοακουστικών δεδομένων που αφορούν την περιγραφή συγκεκριμένων τεχνικών χαρακτηριστικών ενός οπτικοακουστικού αντικειμένου. 3.1 Γενικές οντολογίες περιγραφής οπτικοακουστικών μεταδεδομένων Θα ξεκινήσουμε περιγράφοντας τις οντολογίες που θα χρησιμοποιήσουμε στο παρόν έργο και οι οποίες έχουν αναπτυχθεί ακριβώς για τον βασικό σκοπό του έργου, δηλαδή την σημασιολογική περιγραφή κάποιας οπτικοακουστικής παραγωγής με άξονα τα βασικά μεταδεδομένα μιας τέτοιας παραγωγής, όπως είναι ο τίτλος, οι διάφοροι συντελεστές, οι ηθοποιοί, η χρονολογία παραγωγής, το θεματικό είδος, κτλ. Δεδομένης της δημοφιλίας του αντικειμένου, έχουν αναπτυχθεί διάφορες οντολογίες περιγραφής κυρίως κινηματογραφικών ταινιών. Κάποιες από αυτές είναι ελεύθερα προσβάσιμες όπως η MovieOntology, και άλλες προστατεύονται από πνευματικά δικαιώματα, όπως είναι η οντολογία που χρησιμοποιεί ο δημοφιλής ιστοχώρος IMDB. Παρόλα αυτά οι οντολογίες αυτές, όπως είναι αναμενόμενο εμφανίζουν αρκετά κοινά χαρακτηριστικά. Ύστερα από τη μελέτη των υπαρχουσών οντολογιών έγινε η επιλογή αυτή η πτυχή του έργου να στηριχτεί στις ακόλουθες οντολογίες. 3.1.1 Οντολογία VideoStar Η οντολογία VideoStar έχει αναπτυχθεί από το ΕΜΠ-ΨΕΕΒΠ στο πλαίσιο του έργου «Ευφυής αρχειοθέτηση, αναζήτησης και προβολή τηλεοπτικού σήματος video με χρήση τεχνολογιών Σημασιολογικού Ιστού». Στόχος της συγκεκριμένης οντολογίας είναι να προσφέρει τη δυνατότητα σημασιολογικής περιγραφής τηλεοπτικών ταινιών, εκπομπών ή ντοκιμαντέρ που μπορεί να βρίσκεται στην ιδιοκτησία ενός φορέα, όπως ένας τηλεοπτικός σταθμός. Οι βασικές δομές δεδομένων που ορίζει είναι οι MultimediaObject (για την περιγραφή ενός πολυμεσικού αντικειμένου), VideoObject (για την περιγραφή ενός πολυμεσικού αντικείμενο το οποίο είναι ένα βίντεο), Title (ο τίτλος ενός πολυμεσικού αντικειμένου), DistributionCompany και ProductionCompany (η εταιρία διανομής και παραγωγής ενός VideoObject), Director (σκηνοθέτης), Language (η γλώσσα ενός VideoObject), Video Rights (τα δικαιώματα προβολής ενός VideoObject), YearofProduction (το έτος δημιουργίας ενός VideoObject), ThematicCategory (η κατηγοριοποίηση μίας ταινίας, σειράς ή ψυχαγωγικού προγράμματος βάσει του περιεχομένου της), Keyword (λέξεις κλειδιά που αναφέρονται στο περιεχόμενο του οπτικοακουστικού αντικειμένου). Στο Σχήμα 1 φαίνεται ένα μέρος της δομής των υποκλάσεων ενός VideoObject, ενώ το Σχήμα 2 παρουσιάζει ένα στιγμιότυπο της κλάσης VideoObject με διάφορα από τα χαρακτηριστικά του όπως τον ελληνικό και τον αγγλικό τίτλο, τον σκηνοθέτη, την εταιρία διανομής κ.τ.λ. Οι δύο κύριες υποκλάσεις ενός VideoObject είναι οι MovieSeriesObject που αναφέρεται σε ταινίες ή σειρές και ShowObject που αναφέρεται σε ψυχαγωγικά ή ενημερωτικά τηλεοπτικά προγράμματα. Μεταξύ των βασικών κλάσεων που σχετίζονται με τα αντικείμενα MovieSeriesObject είναι οι κλάσεις Actor (οι ηθοποιοί μίας ταινίας ή σειράς), Genre (το είδος μίας ταινίας ή σειράς όπως Action, Adventure), Description (μία λεκτική περιγραφή του Σελίδα 5 από 15
οπτικοακουστικού αντικειμένου). Μεταξύ των βασικών κλάσεων που σχετίζονται με ένα αντικείμενο ShowObject είναι οι εξής κλάσεις: Series (η πληροφορία αυτή περιγράφει εάν ένα αντικείμενο είναι σειρά), Season/Episode (η πληροφορία αυτή αναφέρεται στην περίοδο και το επεισόδιο μίας σειράς), Show (η πληροφορία αυτή χρησιμοποιείται για να περιγράψει εάν ένα VideoObject είναι ψυχαγωγική εκπομπή), Presenter (ο παρουσιαστής ενός τηλεοπτικού ψυχαγωγικού προγράμματος), Guest (ο καλεσμένος ενός τηλεοπτικού ψυχαγωγικού προγράμματος), Genre (το είδος μίας ψυχαγωγικής εκπομπής, όπως GameShows, TalkShows), Comments (σχόλια γύρω από μία ψυχαγωγική εκπομπή). Σχήμα 1: Γράφημα των κλάσεων που σχετίζονται με ένα VideoObject. Όπως είναι φανερό από την παραπάνω περιγραφή, η οντολογία VideoStar προσφέρει πλούσιες δυνατότητες περιγραφής μεταδεδομένων οπτικοακουστικού υλικού που αφορά τηλεοπτικές ταινίες, σειρές και εκπομπές. Ως γλώσσα οντολογίας για την σύνταξή της η οντολογία VideoStar χρησιμοποιεί την OWL. Σχήμα 2: Στιγμιότυπο ενός VideoObject. Σελίδα 6 από 15
3.1.2 Movie Ontology Μια ανάλογη οντολογία, με προσανατολισμό όμως στις κινηματογραφικές ταινίες, είναι η οντολογία ταινιών Movie Ontology (MO) έχει αναπτυχθεί από το Τμήμα Πληροφορικής του Πανεπιστημίου της Ζυρίχης (http://www.movieontology.org). Σχήμα 3: Σχηματική αναπαράσταση της Movie Ontology. Στόχος της συγκεκριμένης οντολογίας είναι να παρέχει ένα ελεγχόμενο λεξιλόγιο για την σημασιολογική περιγραφή εννοιών που σχετίζονται με ταινίες, όπως η Movie (ταινία), Genre (είδος), Director (σκηνοθέτης), Actor (ηθοποιός) και διάφορα στιγμιότυπα αυτών των εννοιών όπως η «Ice Age» («Εποχή των Παγετώνων»), «Drama» («Δράμα»), «Steven Spielberg» ή «Johnny Depp». Ως γλώσσα οντολογίας για την σύνταξή της η οντολογία MO χρησιμοποιεί την OWL. Κατά την κατασκευή της έχουν ληφθεί υπόψη διάφορες άλλες σχετιζόμενες οντολογίες που υπάρχουν στο Linked Data Cloud, έτσι ώστε να είναι εφικτή η συνδυασμένη χρήση τους με την ΜΟ. Σελίδα 7 από 15
Η ανάπτυξη της οντολογίας ταινιών MO βασίστηκε στην διαπίστωση ότι οι περισσότερες οντολογίες ταινιών επικεντρώνονται κυρίως στις έννοιες και τις σημασιολογικές σχέσεις μεταξύ των εννοιών. Πέραν αυτού, οι υπάρχουσες οντολογίες ταινιών ορίζουν άτομα και στιγμιότυπα των διαφόρων εννοιών μόνο περιστασιακά με αποτέλεσμα να χαρακτηρίζονται γενικά ως ελλιπείς. Έτσι, στόχος της ΜΟ είναι όχι μόνο να αποτελέσει μια οντολογία σημασιολογικής περιγραφής των ταινιών μέσω ιεραρχιών εννοιών (π.χ. για κατηγοριοποίηση ταινιών ώστε να είναι δυνατή η πλοήγηση στα διάφορα είδη ταινιών) αλλά και ένα αρκετά πλούσιο σύνολο στιγμιοτύπων που καθιστούν την οντολογία χρήσιμη στην πράξη για την περιγραφή των ταινιών. Αυτό επιτρέπει την παρουσίαση των περιγραφών που σχετίζονται με τις ταινίες με φιλικό προς τον χρήση τρόπο και στο κατάλληλο επίπεδο λεπτομέρειας, και επιπλέον την περιγραφή των ταινιών με βάση το πλούσιο ελεγχόμενο λεξιλόγιο που περιέχεται στο λεξιλόγιο της ΜΟ. Με βάση αυτές τις σχεδιαστικές αρχές, η ΜΟ τελικά παρέχει μεταξύ άλλων αρκετά επίπεδα ιεράρχισης καθώς και πληθώρα στιγμιοτύπων που αφορούν τα είδη των ταινιών. Το σχήμα που ακολουθεί και το οποίο προέρχεται από τον επίσημο ιστοχώρο της ΜΟ, προσφέρει μια εποπτική εικόνα του είδους της ιεραρχίας εννοιών που περιλαμβάνει η οντολογία, καθώς και των στιγμιοτύπων για τα οποία έγινε λόγος παραπάνω. 3.1.3 EBU Core Metadata Set To EBU Core (http://tech.ebu.ch/lang/en/metadataebucore) είναι ένα σύνολο μεταδεδομένων το οποίο αποτελεί ένα βασικό σχήμα για την περιγραφή των δομικών και τεχνικών χαρακτηριστικών ραδιοφωνικού και τηλεοπτικού περιεχομένου. Στόχος του είναι να καλύψει τις πληροφορίες που αφορούν την δημιουργία, τη διαχείριση και την διατήρηση του οπτικοακουστικού υλικού. Το EBU Core μπορεί να διευκολύνει την ανταλλαγή προγραμμάτων μεταξύ διαφόρων παραγωγών οπτικοακουστικού υλικού και μπορεί επίσης να χρησιμοποιηθεί για την περιγραφή περιεχομένου που πρόκειται να διανεμηθεί μέσω τηλεοπτικής εκπομπής, διαδικτύου, κινητών συσκευών ή συνδυασμούς αυτών. Το EBU Core έχει χρησιμοποιηθεί για την περιγραφή του υλικού στα πλαίσια του προγράμματος EUScreen. Ο βασικός πυρήνας του EBU Core είναι το Dublin Core για τα μέσα επικοινωνίας. Το Dublin Core χρησιμοποιείται ως βασικός πυρήνας περιγραφής μεταδεδομένων από διάφορες βιβλιοθήκες και μουσεία σε διάφορα προγράμματα διαχείρισης πολιτισμικής κληρονομιάς. Ωστόσο το EBU Core ενδείκνυται για την περιγραφή της πρόσβασης σε τέτοιου είδους οπτικοακουστικό περιεχόμενο. Το EBU Core ενσωματώνει τις τελευταίες εξελίξεις που αφορούν τον Σημασιολογικό Ιστό και το Linked Open Data, και είναι διαθέσιμο με τη μορφή οντολογίας RDF. Μεταξύ των πεδίων που ορίζει το EBU Core περιλαμβάνονται για παράδειγμα τα πεδία Title (το βασικό όνομα που χαρακτηρίζει ένα αντικείμενο), Creator (ο δημιουργός του αντικειμένου, φορέας ή πρόσωπο), Description (μια σύντομη κειμενική περιγραφή του αντικειμένου), Publisher (ο διανομέας του αντικειμένου), DateCreated (η ημερομηνία παραγωγής), Format (η φυσική μορφή του αντικειμένου), Language (οι γλώσσες του ακουστικού και κειμενικού υλικού), Location (οι περιοχές που σχετίζονται με το αντικείμενο). Eίναι φανερό το EBU Core προσφέρει πλούσια δυνατότητα περιγραφής των μεταδεδομένων που αφορούν τα χαρακτηριστικά του εκάστοτε αντικειμένου, ενώ μέσω πεδίων όπως το Description επιτρέπει την συμπερίληψη πλούσιας κειμενικής πληροφορίας από την επεξεργασία της οποίας, πιθανόν να μπορούν να εξαχθούν επιπλέον πληροφορίες για το αντικείμενο (π.χ. πρόσωπα ή περιοχές που εμφανίζονται σε ένα video, κτλ). 3.1.4 IPTC Πρόκειται για ένα λεξιλόγιο-ταξινομία που σαν σκοπό έχει την περιγραφή μεταδεδομένων που αφορούν ειδησεογραφικό περιεχόμενο. Οι όροι που χρησιμοποιεί το λεξικό IPTC κατηγοριοποιούνται σε επιμέρους σύνολα που σχετίζονται με διαφορετικά πεδία. Ορισμένα από Σελίδα 8 από 15
τα πεδία αφορούν το θέμα του υλικού, την περιγραφή του με κείμενα καθώς και τα τεχνικά χαρακτηριστικά. Για παράδειγμα, οι όροι που χαρακτηρίζουν το είδος του ειδησεογραφικού περιεχομένου (για παράδειγμα κείμενο, φωτογραφίες, βίντεο, ήχος) διακρίνονται σε επιμέρους σύνολα που μπορεί να αφορούν στην κατηγορία (genre), στο θέμα (media topic), στην περιοχή (world region). Επιπλέον, το λεξιλόγιο διαθέτει μια κατηγορία όρων που προσδιορίζουν τους συντελεστές του υλικού (Provider), το ενδιαφερόμενο κοινό (Of Interest To) καθώς και πολλά άλλα επιμέρους σύνολα που μπορούν να φανούν ιδιαίτερα χρήσιμα κατά την περιγραφή μεταδεδομένων οπτικοακουστικού υλικού. Όπως γίνεται κατανοητό, ο συγκεκριμένος θησαυρός παρέχει όρους χρήσιμους για όλες τις κατηγορίες οντολογιών που θα ενταχθούν στο δίκτυο. 3.1.5 Dublin Core Το Dublin Core είναι ένα είναι ένα σύνολο μεταδεδομένων που χρησιμοποιεί 15 στοιχεία (elements) για την περιγραφή ψηφιακών αντικειμένων. Το πρότυπο αυτό χρησιμοποιείται για την περιγραφή ψηφιακών αντικειμένων όπως βίντεο, ήχο, εικόνα, κείμενο αλλά και πιο πολύπλοκων αντικειμένων όπως ιστοσελίδες. Η υλοποίησή του βασίζεται στις μεταγλώσσες XML και RDF και εξαιτίας της απλότητάς του έχει καταστεί το πιο διαδεδομένο πρότυπο μεταδεδομένων. Το συγκεκριμένο πρότυπο, περιλαμβάνει δύο επίπεδα, το Simple Dublin Core και το Qualified Dublin Core. Το Simple Dublin Core χρησιμοποιεί 15 στοιχεία για την περιγραφή των τεκμηρίων, ενώ το Qualified Dublin Core χρησιμοποιεί τρία επιπλέον στοιχεία (Audience, Provenance, RightsHolder), ενώ ταυτόχρονα δίνει την δυνατότητα εισαγωγής προσδιοριστών (qualifiers), οι οποίοι βοηθούν στον καθορισμό της σημασιολογίας των στοιχείων με στόχο την ακριβέστερη αναζήτηση των ψηφιακών πόρων. Τα στοιχεία μεταδεδομένων χωρίζονται σε τρείς ομάδες που κατά προσέγγιση υποδεικνύουν την κατηγορία ή τον σκοπό της πληροφορίας που περιγράφουν: (1) στοιχεία σχετικά κυρίως με το περιεχόμενο του πόρου: Title, Subject, Description, Source, Language, Relation, Coverage (2) στοιχεία σχετικά κυρίως με την πηγή ως πνευματική ιδιοκτησία: Creator, Publisher, Contributor, Rights και (3) στοιχεία σχετικά κυρίως με το στιγμιότυπο της πηγής: Date, Type, Format, Identifier. Επίσης, εκτός από τα 14 αυτά στοιχεία το Dublin Core διαθέτει και ένα σύνολο όρων (DCTERMS) και τύπων (DCMI TYPE) για τη περιγραφή των μεταδεδομένων. Το σύνολο όρων DCTERMS ορίστηκε μετά το ορισμό των 15 βασικών στοιχείων του DC, δημιουργόντας τις ίδιες 15 σχέσεις αλλά με αυστηρώς ορισμένα πλέον τα πεδία ορισμού και τιμών. Το DCTERMS είναι εμπλουτισμένο με ένα πλήθος άλλων σχέσεων για καλύτερη περιγραφή του υλικού. Συνολικά περιέχει 40 ακόμα σχέσεις, μερίκες από αυτές είναι: η Abstract που ορίζεται ως η περίληψη του πόρου, η Access Rights, που περιέχει πληροφορίες σχετικές με την πρόσβαση στον πόρο, η «Has Part που χρησιμοποιείται για να περιγράψει άλλους πόρους που περιέχονται με φυσικό ή λογικό τρόπο στον περιγραφόμενο πόρο. Το σύνολο όρων DCMI TYPE περιέχει μια λίστα όρων (Collection, Dataset, Event, Image, Interactive Resource, Service, Software, Sound, Text) που μπορεί να χρησιμοποιηθεί για να περιγράψει με λεπτομέρεια το περιεχόμεντο του όρου Type. Είναι σαφές ότι οι οντολογίες που περιγράφηκαν παραπάνω έχουν αρκετά κοινά χαρακτηριστικά και εν μέρει συναφείς στόχους, και χρησιμοποιούνται από διαφορετικούς φορείς για τον χαρακτηρισμό παρόμοιου είδους μεταδεδομένων. Έτσι, προκειμένου οι συγκεκριμένες οντολογίες να μπορέσουν να ενταχθούν στο δίκτυο οντολογίων του συστήματος είναι απαραίτητο να υπολογιστούν οι σχέσεις και αντιστοιχίσεις μεταξύ των διαφόρων εννοιών που ορίζουν, με βάση τους αλγορίθμους αυτόματης και ημιαυτόματης στοίχισης οντολογιών που περιγράφονται στα αντίστοιχα παραδοτέα. Με τον τρόπο αυτό θα υπάρχει δυνατότητα ενοποιημένης διαχείρισης ολόκληρου του περιεχομένου του συστήματος, ανεξαρτήτως του τρόπου σημασιολογικής περιγραφής που έχουν επιλέξει οι επιμέρους φορείς που προσφέρουν το οπτικοακουστικό υλικό. Σελίδα 9 από 15
3.2 Οντολογίες περιγραφής κειμενικής πληροφορίας. Όπως προαναφέρθηκε, σε πολλές περιπτώσεις κάποια τμήματα των μεταδεδομένων ενός οπτικοακουστικού αντικειμένου μπορεί να είναι πλούσιες κειμενικές περιγραφές, από την περίληψη, το σενάριο, ή την κριτική μιας ταινίας, μέχρι το πλήρες σύνολο των υποτίτλων της ταινίας. Προφανώς αυτή η πληροφορία, παρότι εν γένει μη επαρκώς σημασιολογικά χαρακτηρισμένη είναι εξαιρετικά πλούσια, και αν καταστεί εφικτή η σημασιολογική της επεξεργασία και η αντιστοίχισή της με οντολογίες που περιγράφουν γενικά γνωστικά αντικείμενα (όπως γεωγραφία, ιστορία, επιστήμες, λεξικά, κτλ) μπορεί να αποτελέσει ένα ιδιαίτερα σημαντικό εργαλείο για την πλουσιότερη περιγραφή του οπτικοακουστικού υλικού, πέραν των καθιερωμένων που αφορούν τον τίτλο, το είδος, του συντελεστές, κτλ. Το αποτέλεσμα θα είναι η παροχή ιδιαίτερα αυξημένων δυνατοτήτων αναζήτησης στους χρήστες, οι οποίοι δεν θα μπορούν να ανακτούν οπτικοακουστικά αντικείμενο μόνο βάσει των τυπικών χαρακτηριστικών τους, αλλά και βάση του περιεχομένου τους. Για αυτόν τον λόγο κρίνεται απαραίτητη η συμμετοχή στο δίκτυο οντολογιών του συστήματος οντολογιών αυτού του είδους. Ακολουθεί η περιγραφή των σημαντικότερων εξ αυτών που είναι χρήσιμες για τον σκοπό του έργου. 3.2.1 DBPedia Η DBpedia είναι μια από τις πλουσιότερες οντολογίες γενικού περιεχομένου. Στόχος της είναι η εξαγωγή δομημένου περιεχομένου από τις πληροφορίες που περιέχει η διαδικτυακή εγκυκλοπαίδεια Wikipedia. Η δομημένη αυτή πληροφορία διατίθεται στον Παγκόσμιο Ιστό, και επιτρέπει στους χρήστες να θέτουν ερωτήματα σχετικά με τις έννοιες και τις ιδιότητες των πηγών της Wikipedia, συμπεριλαμβανομένων των συνδέσεων προς άλλα σύνολα δεδομένων (που αποτελούν μέρος του Linked Data). Για την αναπαράσταση των στιγμιοτύπων η DBpedia χρησιμοποιεί το πρότυπο RDF, ενώ η δομή της οντολογίας διατίθεται στη μορφή OWL. Το εξαιρετικό εύρος του περιεχομένου της Wikipedia, η οποία αποτελεί μια εξαιρετικά πλούσια και συνεχώς επεκτεινόμενη εγκυκλοπαίδεια, καθιστά την DBpedia μια εξαιρετική πηγή πληροφορίας, για την αποδοτική χρησιμοποίηση της οποίας πρέπει να ληφθεί υπόψη o πολύ μεγάλος όγκος της και η σχετικά χαμηλή σημασιολογική εκφραστικότητά της (καθώς χρησιμοποιεί το πρότυπο RDF αντί της OWL). Είναι χαρακτηριστικό ότι το σύνολο των δεδομένων της DBpedia περιγράφει περισσότερα από 3.64 εκατομμύριο αντικείμενα, 1.83 εκατομμύριο από τα οποία είναι ενταγμένα σε μια καλά δομημένη οντολογία, που περιλαμβάνει 416,000 πρόσωπα, 526,000 περιοχές, 106,000 μουσικά άλμπουμ, 60,000 ταινίες, 17,500 βινετοπαιχνίδια, 169,000 οργανισμούς, 183,000 είδη ζωής και 5,400 ασθένειες. Το σύνολο δεδομένων της DBpedia περιέχει περιγραφές μέχρι και σε 97 διαφορετικές γλώσσες, 2,724,000 συνδέσμους προς εικόνες 6,300,000 συνδέσμους προς εξωτερικές ιστοσελίδες, 6,200,000 συνδέσμους προς άλλα σύνολα δεδομένων τύπου RDF. Δεδομένου του πλούτου της DBpedia, αναμένουμε ότι η χρήση της θα συμβάλλει σημαντικά στον εμπλουτισμό των μεταδεδομένων του οπτικοακουστικού υλικού που θα διαχειριστούμε στα πλαίσια του έργου, όταν το υλικό περιλαμβάνει επιπλέον κειμενικές περιγραφές. 3.2.2 Wordnet Για την καλύτερη επεξεργασία των κειμενικών περιγραφών είναι συνήθως χρήσιμη η χρήση ενός είδους θησαυρού που επιτρέπει την εξαγωγή εννοιών από τα κείμενα. Το WordNet είναι μια τέτοια μεγάλη λεξικογραφική βάση δεδομένων της αγγλικής γλώσσας. Τα ουσιαστικά, τα ρήματα, τα επίθετα και τα επιρρήματα της γλώσσας είναι ομαδοποιημένα σε σύνολα συνωνύμων, καθένα από τα οποία εκφράζει μια διαφορετική έννοια. Τα σύνολα αυτά διασυνδέονται μεταξύ τους μέσω εννοιακών, σημασιολογικών και λεξιλογικών σχέσεων. Το WordNet μοιάζει με θησαυρό καθώς ομαδοποιεί τις λέξεις με βάση την σημασία τους. Ωστόσο, Σελίδα 10 από 15
διαφέρει σε αρκετά σημεία από έναν παραδοσιακό θησαυρό. Πρώτον το WordNet δεν διασυνδέει μόνο απλά λέξεις, αλλά σημασίες λέξεων. Αυτό βοηθάει διευκρίνιση των διαφορών μεταξύ λέξεων που βρίσκονται κοντά η μία στην άλλη. Δεύτερον, το WordNet ονοματίζει τις σημασιολογικές σχέσεις μεταξύ των διαφόρων λέξεων, ενώ η ομαδοποίηση των λέξεων σε έναν θησαυρό δεν ακολουθεί κάποιο συγκεκριμένο πρότυπο πέραν της σημασιολογικής ομοιότητας. Η βασική σχέση μεταξύ των λέξεων στο WordNet είναι η συνωνυμία, όπως π.χ. μεταξύ των λέξεων car και automobile. Τα συνώνυμα, δηλαδή οι λέξεις που σημαίνουν το ίδιο πράγμα και μπορούν να χρησιμοποιηθούν η μία στη θέση της άλλης ομαδοποιούνται σε μη διατεταγμένα σύνολα που καλούνται synset. Καθένα από τα 117.000 synset του WordNet συνδέεται με τα άλλα synset μέσω ενός μικρού πλήθους «εννοιακών σχέσεων». Οι λέξεις που έχουν πολλές διαφορετικές μεταξύ τους σημασίες περιέχονται σε περισσότερα του ενός synset. Η πιο συνήθης σχέση μεταξύ των synset είναι η σχέση υπαγωγής (ή σχέση ISA). Η σχέση αυτή συνδέει τα πιο γενικά synset όπως furniture με πιο εξειδικευμένα synset όπως bed. Όλες οι ιεραρχίες ουσιαστικών καταλήγουν σε έναν ριζικό κόμβο και όλες οι σχέσεις υπαγωγής είναι μεταβατικές. Πέραν της υπαγωγής μοντελοποιείται και η σχέση της μερονυμίας, δηλαδή της σχέσης μέρους προς όλο, όπως μεταξύ των synset chair και back. Τα ρήματα ταξινομούνται επίσης σε ιεραρχίες από synset και τα ρήματα που βρίσκονται στα κατώτερα επίπεδα της ιεραρχίας εκφράζουν ολοένα και πιο εξειδικευμένες πράξεις, όπως π.χ. στην ακολουθία communicate-talkwhisper. Η οργάνωση των επιθέτων γίνεται με βάση τα αντώνυμα. Τα ζεύγη άμεσων αντωνύμων όπως young-old εκφράζουν μια ισχυρή σημασιολογική σχέση. Πέραν αυτών ορίζονται όμως και ασθενέστερες σχέσεις. 3.2.3 GeoNames Δεδομένου ότι τα περισσότερα αντικείμενα που θα διαχειριστούμε στα πλαίσια του παρόντος έργου αναμένεται να έχουν κάποια πληροφορία που αφορά τοποθεσίες (π.χ. τόπο παραγωγής,περιοχή όπου εκτυλίσσεται η δράση ενός video, κτλ) απαιτείται μια γεωγραφική οντολογία. Η GeoNames είναι μια διαδικτυακή γεωγραφική βάση δεδομένων, που περιλαμβάνει πάνω από 10.000.000 γεωγραφικά ονόματα που αντιστοιχούν σε 7.500.000 μοναδικά χαρακτηριστικά. Όλα αυτά τα χαρακτηριστικά είναι κατηγοριοποιημένα σε εννιά βασικές κλάσεις. Πέραν των ονομάτων σε διάφορες γλώσσες, τα δεδομένα που αποθηκεύονται περιέχουν το γεωγραφικό μήκος και πλάτος μιας τοποθεσίας, την ύψος, τον πληθυσμό, την διοικητική διαίρεση και ταχυδρομικούς κώδικες. 3.3 Ειδικές οντολογίες περιγραφής οπτικακουστικού υλικού και μεταδεδομένων Πέραν των παραπάνω οντολογιών γενικού περιεχομένου, κρίνεται σκόπιμη η ενσωμάτωση στο δίκτυο των οντολογιών και πιο εξειδικευμένων οντολογιών που δεν περιγράφουν κυρίως το περιεχόμενο, αλλά τα διάφορα άλλα τεχνικά και φυσικά χαρακτηριστικά του οπτικοακουστικού υλικού, όπως τα χαρακτηριστικά ενός αντικειμένου mpeg7, στοιχεία τεκμηρίωσης, κτλ. Σημειώνουμε ότι η EBU Core χρησιμοποιείται και για αυτό το σκοπό. 3.3.1 Οντολογίες MPEG-7 Το πρότυπο MPEG-7 είναι ένα πρότυπο περιγραφής πολυμεσικού περιεχομένου, στόχος του οποίου είναι να προσφέρει συμπληρωματική λειτουργικότητα στα προηγούμενα πρότυπα MPEG, αναπαριστώντας πληροφορία σχετικά με το περιεχόμενο, και όχι για το ίδιο το περιεχόμενο (άρα είναι ένα πρότυπο περιγραφής μεταδεδομένων), έτσι ώστε να διευκολύνει την γρήγορη και αποδοτική αναζήτηση του οπτικοακουστικού υλικού που ενδιαφέρει τον χρήστη. Για την αποθήκευση των μεταδεδομένων το πρότυπο MPEG-7 χρησιμοποιεί την γλώσσα XML. Σελίδα 11 από 15
Το πρότυπο MPEG-7 μπορεί να χρησιμοποιηθεί ανεξάρτητα από τα άλλα πρότυπα MPEG (για παράδειγμα η περιγραφή σε MPEG-7 μπορεί να αφορά κάποια αναλογική ταινία). Παρά τις δυνατότητες επισημείωσης των πολυμεσικών δεδομένων που προσφέρει, ο ορισμός του προτύπου MPEG-7 στερείται αυστηρής σημασιολογίας με αποτέλεσμα να καθίσταται προβληματική η διαλειτουργικότητα μεταξύ διαφορετικών περιγραφών. Για να αντιμετωπιστεί αυτό το πρόβλημα, έχουν γίνει προσπάθειες να μεταφραστεί το πρότυπο MPEG-7 σε μια οντολογία που να μπορεί να ενταχθεί σε ένα δίκτυο οντολογιών και να προσφέρονται με αυτόν τον τρόπο οι επιθυμητές δυνατότητες διαλειτουργικότητας. Για την μετάφραση του MPEG-7 σε μια οντολογία, υπάρχουν δύο επικρατέστερες προτάσεις. Η πρόταση που φέρει την ονομασία Hunter ορίζει μια οντολογία, την αποκαλούμενη οντολογία ABC, η οποία χρησιμοποιείται ως βασικός πυρήνας που παρέχει «σημεία σύνδεσης» με άλλες ειδικές οντολογίες. Πιο συγκεκριμένα, η κλάση mpeg7:multimediacontent ορίζεται ως υποκλάση της κλάσης abc:manifestation, ενώ οι αντίστοιχες ειδικές οντολογίες θεωρείται ότι συνδέονται κατάλληλα με τις κλάσεις της οντολογίας ABC. Ωστόσο, δεδομένου ότι το πρότυπο MPEG-7 εκτός από τις δομικές περιγραφές, περιλαμβάνει και περιγραφές άλλων στοιχείων (π.χ. σημασιολογικές) δεν είναι απόλυτα σαφές πώς πρέπει να γίνει αυτή η σύνδεση με τις έννοιες της ABC. Για παράδειγμα η κλάση mpeg7:agent μπορεί να αντιστοιχιστεί με την abc:agent, οπότε αν έχουμε την ειδική κλάση o:person θα πρέπει και αυτή να αντιστοιχιστεί στην κλάση abc:agent ως ισοδύναμη κλάση, υποκλάση ή μέσω κάποια άλλης ιδιότητας, με αποτέλεσμα να εγείρονται διάφορα ζητήματα σχετικά με την σημασιολογία τις σχέσης των κλάσεων mpeg7:agent και o:person. Συνέπεια αυτού είναι ότι η διαλειτουργικότητα μεταξύ προϋπαρχόντων μεταδεδομένων επισημείωσης πολυμεσικού περιεχομένου βάσει του προτύπου MPEG-7 και νέων μεταδεδομένων επισημείωσης μέσω του πυρήνα της οντολογίας ABC να καθίσταται προβληματική. Στην πρόταση που φέρει το όνομα Tsinaraki, το σημασιολογικό περιεχόμενο του προτύπου MPEG-7 μεταφράζεται σε μια οντολογία που λειτουργεί ως βασικός πυρήνας πάνω στον οποίο μπορούν να διασυνδεθούν άλλες ειδικότερες οντολογίες για διάφορα γνωστικά αντικείμενα, έτσι ώστε ουσιαστικά να επιτευχθεί η επισημείωση του προτύπου MPEG-7 με σημασιολογικά πληροφορία σύμφωνα με κάποια εξειδικευμένη οντολογία. Προκειμένου να επιτευχθεί αυτό, θα πρέπει αρχικά η λογική περιγραφής του πεδίου γνώσης που διέπει κάποια ειδική οντολογία να αντιστοιχιστεί με την λογική μοντελοποίησης που διέπει το MPEG-7. 3.3.2 Europeana Data Model Το Europeana Data Model (EDM) αποτελεί μια πρόταση για την δόμηση και τη διαχείριση των δεδομένων που ενσωματώνονται στη Europeana, τα οποία προέρχονται από μουσεία, αρχεία, συλλογές οπτικοακουστικού περιεχομένου και βιβλιοθήκες. Αποτελεί μια ουσιαστική αναβάθμιση του αρχικού μοντέλου δεδομένων Europeana Semantic Elements (ESE). Καθένας από τους διαφορετικούς φορείς πολιτιστικής κληρονομιάς που συμμετέχουν στη Europeana χρησιμοποιεί διαφορετικά πρότυπα για να αναπαραστήσει τα δεδομένα του. Το πρότυπο EDM προσπαθεί να μειώσει αυτή τη διαφορετικότητα των προτύπων και να τα αντιστοιχίσει σε ένα κοινό μοντέλο δεδομένων ώστε να παρέχει πρόσβαση με ενοποιημένο τρόπο στο κεντρικά προσβάσιμο, διανεμημένο σε ολόκληρη την Ευρώπη, πολιτιστικό περιεχόμενο. Το EDM δεν βασίζεται σε κάποιο συγκεκριμένο πρότυπο που ακολουθείται από κάποιον από τους πολιτιστικούς φορείς. Αντιθέτως υιοθετεί ένα ανοιχτό πρότυπο που βασίζεται στον σημασιολογικό ιστό και το οποίο προσφέρει τη δυνατότητα περιγραφής περιεχομένου προερχόμενου από ποικίλες πηγές. Έτσι, το EDM δεν παρέχει μόνο την δυνατότητα πλήρους περιγραφής των δεδομένων που προέρχονται από διάφορες πηγές, αλλά προσφέρει και τη δυνατότητα εμπλουτισμού των δεδομένων από πληθώρα τρίτων πηγών. Τα στοιχεία της EDM οντολογίας διακρίνονται σε δύο κύριες κατηγορίες, τα στοιχεία που επαναχρησιμοποιούνται από άλλους χώρους ονομάτων (η περιγραφή των οποίων έχει δοθεί παραπάνω) και τα στοιχεία που εισάγονται από το EDM. To EDM επαναχρησιμοποιεί στοιχεία Σελίδα 12 από 15
από τους χώρους ονομάτων RDF και RDF Schema, OAI Object Reuse and Exchange, Simple Knowledge Organization System (SKOS) και Dublin Core. Ακολουθεί μια σύντομη περιγραφή των βασικών στοιχείων (κλάσεων και ιδιοτήτων) που χρησιμοποιούνται στην EDM οντολογία και δεν έχουν αναφερθεί στις προηγούμενες ενότητες. Η κλάση edm:providedcho περιέχει στιγμιότυπα που αναπαριστούν αντικείμενα (πίνακες, βιβλία, κ.τ.λ.) για τα οποία τα ιδρύματα παρέχουν ψηφιακές αναπαραστάσεις και στα οποία κάποιος μπορεί να αποκτήσει πρόσβαση μέσω της Europeana. Τα URIs των αντικειμένων αυτών (CHO) είναι τα κύρια μέσα πρόσβασης στην Europeana. Τα περιγραφικά μεταδεδομένα των αντικειμένων αυτών (creator, subject, κ.τ.λ.), όμως, δεν είναι άμεσα συνδεδεμένα με τα URIs των αντικειμένων, αλλά με τους πληρεξούσιους (proxies) που αναπαριστούν μια οπτική του αντικειμένου από την οπτική γωνία ενός συγκεκριμένου ιδρύματος, που μπορεί να είναι ένας πάροχος της Europeana ή η ίδια η Europeana. Η κλάση ore:proxy περιέχει στιγμιότυπα που χρησιμοποιούνται στη θέση υποκειμένου σε περιγραφικές δηλώσεις (creator, date of creation) για το αντικείμενο, το οποίο παρέχεται από έναν πάροχο της Europeana. Στο μοντέλο OAI-ORE οι πληρεξούσιοι (proxies) καθιστούν δυνατό το διαχωρισμό των διαφόρων οπτικών για το ίδιο αντικείμενο στο πλαίσιο διαφορετικών συσσωμάτων (aggregations). Αυτό επιτρέπει το διαχωρισμό των αυθεντικών μεταδεδομένων για το αντικείμενο από τα μεταδεδομένα που κατασκευάστηκαν από τη Europeana. Οι περιγραφικές δηλώσεις που χρησιμοποιούνται με αυτούς τους πληρεξούσιους (proxies) έρχονται κυρίως από το Dublin Core λεξιλόγιο. Οι πληρεξούσιοι (proxies) συνδέονται με το αντικείμενο που αναπαριστούν μέσω της ιδιότητας ore:proxyfor, ενώ συνδέονται με το συσσωμάτωμα (aggregation) που τους πλαισιώνει μέσω της ιδιότητας ore:proxyin. Η κλάση ore:aggregation περιέχει στιγμιότυπα που σχετίζονται με τη συγκέντρωση (από κάποιον πάροχο της Europeana) των ψηφιοποιημένων αναπαραστάσεων και περιγραφικών δηλώσεων των αντικειμένων των πολιτιστικών φορέων. Συγκεκριμένα, τα στιγμιότυπα αυτά σχετίζονται με ψηφιακούς πόρους σχετικούς με το αντικείμενο, όντας είτε αρχεία που άμεσα το αναπαριστούν (μέσω των ιδιοτήτων edm:object και edm:isshownby) ή ιστοσελίδες που δείχνουν το αντικείμενο (μέσω της ιδιότητας edm:isshownat). Μπορεί επίσης να παρέχουν ελεγχόμενη πληροφορία για δικαιώματα που εφαρμόζονται σε αυτούς τους πόρους (μέσω της ιδιότητας edm:rights). Δεδομένα σχετικά με την προέλευση ενός αντικειμένου δίνονται χρησιμοποιώντας τις ιδιότητες edm:provider ή edm:dataprovider. Στιγμιότυπα της κλάσης ore:aggregation συνδέονται με το αντικείμενο μέσω της ιδιότητας edm:aggregatedcho. Η κλάση edm:proxy περιέχει στιγμιότυπα που παρέχουν πρόσβαση στα μεταδεδομένα ενός αντικειμένου τα οποία δημιουργούνται από τη Europeana και τα οποία είναι διαφορετικά από τα μεταδεδομένα που παρέχονται από τον φορέα. Για παράδειγμα, στιγμιότυπα της κλάσης αυτής συνδέονται μέσω της ιδιότητας edm:year με κανονικοποιημένες ημερομηνίες που σχετίζονται με το αντικείμενο. Μέσω της ιδιότητας edm:hasmet ένα στιγμιότυπο της κλάσης edm:proxy μπορεί να συνδεθεί με τοποθεσίες από το GeoNames, με έννοιες από το GEMET θησαυρό, με πρόσωπα από τη DBpedia κ.τ.λ.. Τέλος ένα στιγμιότυπο της κλάσης edm:proxy συνδέεται με το αντικείμενο που αναπαριστά μέσω της ιδιότητας ore:proxyfor και με τo συσσωμάτωμα (aggregation) που το πλαισιώνει μέσω της ιδιότητας ore:proxyin. Η κλάση edm:aggregation περιέχει στιγμιότυπα που ενσωματώνουν το αποτέλεσμα της προσπάθειας δημιουργίας και συσσωμάτωσης για ένα συγκεκριμένο αντικείμενο. Τα στιγμιότυπα της κλάσης αυτής συσσωματώνουν τα στιγμιότυπα της κλάσης ore:aggregation του παρόχου (μέσω της ιδιότητας ore:aggregates), η οποία με τη σειρά της συνδέεται με ένα στιγμιότυπο της κλάσης ore:proxy του παρόχου. Συνδεδεμένους με το συσσωμάτωμα (aggregation) του παρόχου, μπορεί κάποιος να βρει τους ψηφιοποιημένους πόρους που παρέχει η Europeana για το αντικείμενο, δηλαδή μια σελίδα (μέσω της ιδιότητας edm:landingpage) και ένα thumbnail (μέσω ενός συνδυασμού των ιδιοτήτων edm:hasview και foaf:thumbnail). Όπως αναφέραμε παραπάνω, η κλάση edm:proxy είναι επίσης συνδεδεμένη με την κλάση αυτή. Σελίδα 13 από 15
3.3.3 CIDOC CRM Το CIDOC CRM είναι μία οντολογία με σκοπό την υποστήριξη της ολοκλήρωσης, μεσολάβησης και διασύνδεσης ετερογενών πληροφοριών πολιτισμικής κληρονομιάς. Από το 2006 αποτελεί σχέδιο προτύπου ISO για την ενοποιήση πολιτισμικών δεδομένων. Αναπτύχθηκε από διεπιστημονικές ομάδες ειδικών προερχόμενες από πεδία όπως η πληροφορική, η αρχαιολογία, η τεκμηρίωση μουσείων, η ιστορία των τεχνών, φυσική ιστορία, βιβλιοθηκονομία, φυσική και φιλοσοφία, κάτω από την αίγιδα της Διεθνούς Επιτροπής Τεκμηρίωσης (International Committee for Documentation CIDOC) του Διεθνούς Συμβουλίου Μουσείων (Internation Council of Museums ICOM). Ξεκίνησε από τη βάση ανασχεδιάζοντας και ολοκληρώνοντας τα σημασιολογικά περιεχόμενα από ολοένα και περισσότερα σχήματα βάσεων δεδομένων και δομές τεκμηρίωσης από όλα τα είδη μουσείων, βιβλιοθηκών και αρχείων. Περιέχει 90 οντότητες και 148 σχέσεις. Το CIDOC-CRM επιτρέπει και ενισχύει την ανταλλαγή και την διασύνδεση πληροφοριών μεταξύ ετερογενών πηγών πληροφοριών πολιτισμικής κληρονομιάς. Παρέχει τους αναγκαίους σημασιολογικούς ορισμούς και επεξηγήσεις, προκειμένου να μετατρέψει ανόμοιες, τοπικού χαρακτήρα πηγές πληροφοριών σε ένα κατανοητό μέσο καθολικής εμβέλειας, στο πλαίσιο ενός ευρύτερου οργανισμού, σε εσωτερικά δίκτυα ή στο Διαδίκτυο. Η προοπτική του είναι ανεξάρτητη από τους εσωτερικούς μηχανισμούς οργανισμών και από οποιαδήποτε συγκεκριμένα τοπικά συμφραζόμενα. Η ίδια η δομή και η τυποποίηση του CIDOC CRM το καθιστούν επεκτάσιμο και οι χρήστες ενθαρρύνονται να δημιουργούν επεκτάσεις για τις ανάγκες περισσότερο εξειδικευμένων κοινοτήτων και εφαρμογών. Κεντρική οντότητα του CIDOC-CRM αποτελεί το CRM Entity, το οποίο μπορεί να είναι μια Έγχρονη Οντότητα (Temporal Entity) όπως για παράδειγμα ένα Συμβάν (Event), ή το Ον (Persistent Item) που μπορεί να είναι ένα Πράγμα (Object). Το Συμβάν περιλαμβάνει αλλαγές καταστάσεων σε πολιτισμικά, κοινωνικά ή φυσικά συστήματα, μπορεί να είναι η δημιουργία (Creation) ένας άυλου ή Νοητικού Αντικειμένου (Conceptual Item) όπως για παράδειγμα ενός κειμένου, ενός μουσικού κομματιού, μίας εικόνας, μίας ταινίας κτλ. Επίσης, μπορεί να αναπαρασταθεί η πληροφορία ότι ένας Δράστης (Actor) συμμετείχε στη Δημιουργία αυτή καθώς και πληροφορίες σχετικές με τον δράστη, όπως η ημερομηνία γέννησης, πληροφορίες σχετικές με τους προγόνους του, τα δικαιώματα που έχει για μια οντότητα, σε ποιές ομάδες συμετέχει, ποιός είναι ο ρόλος του σε κάθε γεγονός κα. Ως προς τα Νοητικό Αντικείμενο μπορούμε να εκφράσουμε ότι αποτελείται από άλλα Νοητικά Αντικείμενα, ότι ανφέρεται σε μια οντότητα ή ότι έχει θέμα μια οντότητα. 3.3.4 SKOS Το «Απλό Σύστημα Οργάνωσης Γνώσης» (SKOS) είναι μια οικογένεια τυπικών γλωσσών για την αναπαράσταση θησαυρών, συστημάτων ταξινόμησης, ταξινομήσεων, συστημάτων προσυνδυασμένης ευρετηρίασης (subject-heading systems), ή οποιουδήποτε άλλου τύπου δομημένου ελεγχόμενου λεξιλογίου. Ο σκοπός του είναι να ενώσει το πλήθος των θησαυρών, σχημάτων κατηγοριοποίησης, ταξονομιών που έχουν δημιουργηθεί από διάφορους οργανισμούς. Μπορεί να χρησιμοποιηθεί από μόνο του ή σε συνδυασμό με τυπικές γλώσσες αναπαράστασης γνώσης, όπως τη γλώσσα OWL. Η έννοια (skos:concept) είναι το κεντρικό στοιχείο όλων των SKOS λεξιλογίων. Σε κάθε τέτοια έννοια μπορεί να ανατεθεί ένα μοναδικό αναγνωριστικό μέσω της σχέσης skos:notation. Το SKOS παρέχει τρεις ιδιότητες για την επισύναψη ετικετών: skos: preflabel, skos: altlabel και skos:hiddenlabel, δηλώνοντας έτσι τη προτιμότερη ετικέτα για έναν πόρο καθως και εναλλακτικές ετικέτες για αυτόν. Κάθε πόρος μπορεί να συνδεθεί με ένα κείμενο που θα περιέχει πληροφορίες σχετικές με τον πόρο (π.χ. skos: Note, skos: historynote, skos: example κτλ). Επίσης το μοντέλο SKOS παρέχει σχέσεις για να ορίσει αν ένας πόρος είναι πιο γενικός από έναν άλλο (skos:broader) ή πιο ειδικός (skos: narrower), ή αν απλά σχετίζεται με έναν άλλο πόρο (skos:related). Το σύνολο των SKOS οντοτήτων μπορεί να ομαδοποιηθεί σε συλλογές Σελίδα 14 από 15
(skos: Collections) οι οποίες μπορεί να είναι διατεταγμένες (skos: OrderedCollections). Τέλος, το σύστημα SKOS επιτρέπει την δημιουργία αντιστοιχίσεων μεταξύ των οντοτήτων μέσω σχέσεων όπως skos:closematch, skos:broadmatch κτλ. 4. Συμπεράσματα Στο παραδοτέο αυτό παρουσιάστηκαν οι οντολογίες που επιλέχθηκαν να συμμετέχουν στο δίκτυο οντολογιών που θα αναπτυχθεί στα πλαίσια του παρόντος έργου για την περιγραφή των μεταδεδομένων του οπτικοακουστικού υλικού. Όπως αναφέραμε, οι οντολογίες έχουν ομαδοποιηθεί σε τρεις γενικές κατηγορίες, κάθε μια από τις οποίες καλύπτει διαφορετικές ανάγκες περιγραφής των μεταδεδομένων του οπτικοακουστικού υλικού, από τα τεχνικά χαρακτηριστικά ενός βίντεο, μέχρι τον σημασιολογικό χαρακτηρισμό κάποιας πληροφορίας σε ελεύθερο κείμενο που μπορεί να συνοδεύει ένα βίντεο. Η χρήση των οντολογιών θα προσφέρει την δυνατότητα για μια κοινή σημασιολογική περιγραφή όλων των μεταδεδομένων που συνοδεύουν τα οπτικοακουστικά αντικείμενα, η οποία είναι κρίσιμη για την κατασκευή του συστήματος πρόσβασης στο οπτικοακουστικό απόθεμα το οποίο θα παρέχει την δυνατότητα πραγματοποίησης αναζητήσεων που δεν θα στηρίζονται απλά και μόνο στο ταίριασμα λέξεων κλειδιών, αλλά στο ίδιο το περιεχόμενο των δεδομένων, όπως αυτό θα έχει περιγραφεί μέσω των οντολογιών. Από τις παραπάνω περιγραφές διαπιστώνουμε ότι για την κάλυψη της ανάγκης περιγραφής των μεταδεδομένων χρειάζεται να χρησιμοποιηθούν αρκετές οντολογίες, καθεμία από τις οποίες παρουσιάζει συγκεκριμένες ιδιαιτερότητες. Αυτό σημαίνει ότι απαιτείται η δυνατότητα συνδυασμένης χρήσης των οντολογιών που περιγράφηκαν παραπάνω μέσω μιας λειτουργικής τους διασύνδεσης, η οποία θα αναπτυχθεί στη συνέχεια του έργου. Για παράδειγμα, δεδομένου ότι αρκετές από τις παραπάνω οντολογίες επικαλύπτονται μεν όσον αφορά το θεματικό τους αντικείμενο, αλλά ακολουθούν ενδεχομένως ελαφρώς διαφορετικούς τρόπους περιγραφής, απαιτείται να βρεθούν οι έννοιες των οντολογιών που ουσιαστικά αντιπροσωπεύουν την ίδια κοινή έννοια, ώστε να μην υπάρχει σύγχυση των περιγραφών. Αυτό θα γίνει μέσω των τεχνολογιών στοίχισης οντολογιών. Επιπλέον, θα απαιτηθεί η διασύνδεση των οντολογιών, οι οποίες περιγράφουν γενικές έννοιες, με τα πραγματικά στιγμιότυπά τους, που είναι τα ίδια τα οπτικοακουστικά αντικείμενα και τα οποία βρίσκονται αποθηκευμένα σε βάσεις δεδομένων. Για τον σκοπό αυτό θα χρησιμοποιηθούν οι τεχνολογίες διασύνδεσης οντολογιών με βάσεις δεδομένων, μέσω των οποίων καθίσταται εφικτή υποβολή ερωτημάτων με βάση τους όρους των οντολογιών και η ανάκτηση των απαντήσεων-στιγμιοτύπων από παραδοσιακές βάσεις δεδομένων. Σελίδα 15 από 15