ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Τσατσανιά Παρασκευή

Σχετικά έγγραφα
Διαχείριση Πολιτισμικών Δεδομένων

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού.

Μάθηµα 6. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 5. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας. Tεχνολογίες των Πληροφοριών σε ψηφιακό περιβάλλον: Τα εργαλεία

Η χρήση µεταδεδοµένων στα πολυµέσα: τρόποι εισαγωγής και πεδία εφαρµογής

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Διαλειτουργικότητα μεταξύ αρχείων (1/2)

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Πέργαµος: Το Σύστηµα Ψηφιακής Βιβλιοθήκης του Πανεπιστηµίου Αθηνών

Unified search of digital cultural content: Searching culture

ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων

Αναπαράσταση και διαχείριση χρονικά εξαρτώμενης πληροφορίας στις πολιτιστικές συλλογές

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων

Σχεδιασµός Ανάπτυξη Οντολογίας

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012

Προσβασιµότητα στους διαδικτυακούς κόµβους

Αποθετήρια. Κλειώ Σγουροπούλου. Αριστεία ΕΛ/ΛΑΚ ΤΕΙ Αθήνας

Εννοιολογική Ομοιογένεια

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο

Εργαστήριο Σημασιολογικού Ιστού

Μάθηµα 3. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Σχεδιασμός του Ολοκληρωμένου Συστήματος Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών

Ήλιος: Το ψηφιακό Αποθετήριο Ανοικτής Πρόσβασης του Εθνικού Ιδρύματος Ερευνών

Ανάκτηση Πληροφορίας

Σχεδίαση και Ανάπτυξη Ιστότοπων

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Εργαστήριο Σημασιολογικού Ιστού

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

Εργαστήριο Σημασιολογικού Ιστού

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος Αιγαίου.

Ιστορικοί χάρτες στον Παγκόσμιο Ιστό

ΝΤUA. Τεχνολογία Πολυμέσων

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

Οι υπηρεσίες του ΕΚΤ εξυπηρετούν τον ενάρετο κύκλο διαχείρισης περιεχομένου.

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης

Κατάλογος Βιβλιοθήκης ΤΕΙ Ηπείρου Ιδρυματικό αποθετήριο ΤΕΙ Ηπείρου Ερευνητικό αποθετήριο ΤΕΙ Ηπείρου:

Συγγραφή Τεχνικών Κειμένων

Οπτική αντίληψη. Μετά?..

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Εργαστήριο Σημασιολογικού Ιστού

Η υπηρεσία αποθετηρίων SaaS του ΕΚΤ

Μαθησιακά Αντικείμενα

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012 Όνομα : Μπελούλη Αγάθη

Open Text edocs Records Management

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Τεχνολογία Πολυμέσων

Οι Δρόμοι της Ψηφιακής Διατήρησης και της Ψηφιακής Αρχαιολογίας

Ψηφιοποιημένο Αρχείο Ελληνικής Μουσικής Από την απομόνωση στην εποχή των δικτύων και της διάδοσης της πληροφορίας

Εργαστήριο Σημασιολογικού Ιστού

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013 Όνομα : Μπελούλη Αγάθη

Εθνικό Κέντρο Τεκμηρίωσης ΕΙΕ. Copyright 2014 Εθνικό Κέντρο Τεκμηρίωσης Ι EIE

ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Γ.Τ.Π

Tεχνολογίες της Πληροφορίας. Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 1

Γραφικό Περιβάλλον Οπτικής Απεικόνισης Οντολογιών RDF Schema στο Σημασιολογικό Ιστό

Εισαγωγή στον Παγκόσμιο ιστό και στη γλώσσα Html. Χρ. Ηλιούδης

Μοντέλα Κυβερνητικής Πληροφορίας

Αξιοποίηση και διάθεση ελληνικού ψηφιακού έγκριτου περιεχομένου

Θεματική Ενότητα: Εκπαιδευτικό Λογισμικό. Αποθετήρια & Ανοικτοί Εκπαιδευτικοί Πόροι Ανάλυση εφαρμογής

: ΗΥ-215, : ΗΥ-217, ΗΥ-370

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

ΚΩΔΙΚΟΠΟΙΗΣΗ ONEGEOLOGY - EUROPE ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ WMS WFS ΥΠΗΡΕΣΙΩΝ KATA INSPIRE ΜΕ ΒΑΣΗ ΤΟ ΠΡΟΤΥΠΟ GeoSciML 4.0

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού

Υπόθεση A8-0245/14 /225

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

Ο ΗΓΟΣ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΚΜΗΡΙΩΣΗΣ ΚΑΙ ΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΟΙ ΠΟΛΙΤΙΣΤΙΚΟΙ ΟΡΓΑΝΙΣΜΟΙ ΣΤΟ ΙΑ ΙΚΤΥΟ

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου

Εισαγωγή στην Πληροφορική

Συστήματα πανταχού παρόντος υπολογιστή σε περιβάλλοντα υβριδικών βιβλιοθηκών

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Συλλογικοί Κατάλογοι & Διαδίκτυο

Μεταδεδομένα ψηφιακού περιεχομένου

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Transcript:

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ Αξιολόγηση Ποιότητας Μεταδεδομένων Τσατσανιά Παρασκευή Μ313022 ΑΘΗΝΑ, ΦΕΒΡΟΥΑΡΙΟΣ 2015

ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω θερµά τον επιβλέποντα καθηγητή µου κ. Χρήστο Παπαθεοδώρου για την πολύτιµη καθοδήγηση και υποστήριξη που µου προσέφερε καθ' όλη τη διάρκεια της εκπόνησης αυτής της εργασίας, µέχρι την ολοκλήρωσή της, καθώς και για όλες τις πολύτιµες γνώσεις που αποκόµισα κατά τη διάρκεια της συνεργασίας µας. Επίσης, ευχαριστώ από καρδιάς, όλη την οικογένειά µου και πρωτίστως τους γονείς µου, για την αµέριστη υποστήριξη και συµπαράσταση που µου προσέφεραν σε όλα τα χρόνια των σπουδών µου και σε κάθε βήµα της ζωής µου.

ΠΕΡΙΛΗΨΗ Η ανάπτυξη του Σηµασιολογικού Ιστού αποτελεί µια σηµαντική προσπάθεια οργάνωσης και περιγραφής των διακινούµενων πληροφοριών στον Παγκόσµιο Ιστό. Το βασικότερο επίπεδο του Σηµασιολογικού Ιστού αποτελείται από µια συλλογή συνοπτικών πληροφοριών που ονοµάζονται µεταδεδοµένα και χρησιµοποιούνται για την περιγραφή των ψηφιακών πόρων που βρίσκονται στο ιαδίκτυο. Στην παρούσα εργασία µελετάται το ζήτηµα της ποιότητας των µεταδεδοµένων των ψηφιακών πόρων µέσα από µια επισκόπηση της διεθνούς βιβλιογραφίας και των υπαρχόντων προσεγγίσεων στο ζήτηµα αυτό. Πιο συγκεκριµένα, γίνεται µια καταγραφή των προβληµάτων που σχετίζονται µε την ποιότητα των µεταδεδοµένων ενώ παράλληλα υπογραµµίζεται η σηµαντικότητα ύπαρξης ποιοτικών µεταδεδοµένων για την αποδοτική λειτουργία των ψηφιακών αποθετηρίων και βιβλιοθηκών. Τα πλαίσια εκτίµησης της ποιότητας των µεταδεδοµένων, που αναλύονται στην εργασία αυτή, αφορούν τόσο θεωρητικές προσεγγίσεις των εννοιών που συνιστούν την ποιότητα, όσο και µοντέλα µέτρησής της. Περιγράφονται αναλυτικά για το κάθε πλαίσιο οι παράµετροι και οι διαστάσεις της ποιότητας, καθώς και τα χαρακτηριστικά των µεταδεδοµένων που υποδηλώνουν την ύπαρξη της ποιότητας και τις ατέλειες µε τις οποίες εκδηλώνεται η έλλειψή της. Όπως προκύπτει από τη µελέτη των πλαισίων αυτών, η έννοια της ποιότητας των µεταδεδοµένων είναι δύσκολο να προσδιοριστεί πλήρως και διεξοδικά, καθώς το εύρος και η πολυπλοκότητα των προτεινόµενων παραµέτρων και χαρακτηριστικών της δεν µπορούν να περιοριστούν σε µια εξαντλητική λίστα. Στην εργασία αυτή γίνεται µια προσπάθεια εντοπισµού των βασικών εννοιών της ποιότητας των µεταδεδοµένων, και η διατύπωσή τους σε ένα εννοιολογικό µοντέλο, όπως προκύπτει από τη µελέτη των προτεινόµενων πλαισίων εκτίµησης της ποιότητας, στη διεθνή βιβλιογραφία.

ABSTRACT The development of the Semantic Web is an important effort to organize and describe the information that is currently present in the World Wide Web. On its basic level, the Semantic Web consists of a collection of concise information named metadata, which are used for the description of digital resources found in the World Wide Web. The present paper is focused on the concept of the quality of metadata of digital resources, through an overview of the international literature and the existing relevant approaches. More specifically, it presents a listing of problems that relate to metadata quality, while it highlights the importance of high quality metadata existence, in digital repositories and libraries. The quality assessment frameworks analyzed in this paper, are both theoretical approaches of the concepts that quality consists of, and proposed models that could be used to measure it. For each framework, the quality parameters and relevant dimensions are described, along with the metadata characteristics that imply the existence or absence of quality in their content. As follows from the investigation of these quality assessment frameworks, the concept of metadata quality is difficult to define exhaustively, as the range and complexity of the proposed parameters cannot be confined in a limited list. This paper presents an effort to identify the basic concepts of metadata quality and deliver them in a conceptual model, as follows from the analysis of the proposed frameworks found in the international literature.

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1. ΕΙΣΑΓΩΓΗ...1 1.1. Αντικείµενο της διπλωµατικής εργασίας...3 1.2. Οργάνωση της διπλωµατικής εργασίας...4 2. ΤΑ ΜΕΤΑ Ε ΟΜΕΝΑ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ...5 2.1. Τι είναι τα µεταδεδοµένα...7 2.2. Κατηγοριοποίηση µεταδεδοµένων...9 2.3. Πρότυπα µεταδεδοµένων...10 2.4. Προφίλ εφαρµογής και απεικονίσεις...16 2.5. Αναπαράσταση µεταδεδοµένων...19 2.5.1. Μεταδεδοµένα σε HTML...19 2.5.2. Μεταδεδοµένα σε XML...21 2.6. Το µοντέλο δεδοµένων RDF...24 2.7. Πηγές µεταδεδοµένων...29 2.7.1. Χειροκίνητη παραγωγή µεταδεδοµένων...29 2.7.2. Αυτόµατη παραγωγή µεταδεδοµένων...30 2.7.3. Συγκοµιδή µεταδεδοµένων...31 3. ΠΟΙΟΤΗΤΑ ΜΕΤΑ Ε ΟΜΕΝΩΝ...33 3.1. Λειτουργικές απαιτήσεις συστηµάτων µεταδεδοµένων...34 3.2. Προβλήµατα µεταδεδοµένων...35 3.3. Εκτίµηση της ποιότητας...40 4. ΠΛΑΙΣΙΟ BRUCE & HILLMANN...45 4.1. ιαστάσεις ποιότητας µεταδεδοµένων...45 4.2. Επίπεδα ποιότητας µεταδεδοµένων...50 5.ΠΛΑΙΣΙΟ OCHOA & DUVAL...55 5.1. Μετρικές ποιότητας µεταδεδοµένων σε ψηφιακά αποθετήρια...55

5.1.1. Μετρικές πληρότητας...55 5.1.2. Μετρικές ακρίβειας...57 5.1.3. Μετρικές συµµόρφωσης µε τα προσδοκώµενα...59 5.1.4. Μετρικές λογικής συνέπειας και συνεκτικότητας...61 5.1.5. Μετρικές προσβασιµότητας...64 5.1.6. Μετρικές διαχρονικότητας...67 5.1.7. Μετρικές προέλευσης...70 5.2. Θεώρηση των µετρικών και περιορισµοί...72 6. ΠΛΑΙΣΙΟ STVILIA ET AL...74 6.1. Πηγές προβληµάτων της ποιότητας πληροφοριών...74 6.2. Ταξινοµία διαστάσεων της ποιότητας πληροφοριών...76 6.3. Μετρικές διαστάσεων...81 6.4. Τύποι δραστηριοτήτων και προβλήµατα ποιότητας...83 6.5. Μέτρηση της ποιότητας εξαρτώµενη από το περιβάλλον...85 6.6. Συλλογική µέτρηση της ποιότητας...86 6.7. Λειτουργικότητα του πλαισίου...89 7. ΕΝΝΟΙΟΛΟΓΙΚΟ ΜΟΝΤΕΛΟ ΑΞΙΟΛΟΓΗΣΗΣ ΠΟΙΟΤΗΤΑΣ ΜΕΤΑ Ε ΟΜΕΝΩΝ...92 7.1. Περιγραφή του εννοιολογικού µοντέλου...93 7.2 Συµπεράσµατα...99 ΒΙΒΛΙΟΓΡΑΦΙΑ...100

ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ Στη σηµερινή εποχή, που χαρακτηρίζεται ως εποχή της πληροφορίας, το πλήθος των δεδοµένων που διακινούνται µέσω του ιαδικτύου, καθώς και των πληροφοριών που εξάγονται από αυτά, έχει οδηγήσει στην εκθετική αύξηση του όγκου και της πολυπλοκότητας των ψηφιακών πόρων. Οι τεχνολογίες που βασίζονται στον Παγκόσµιο Ιστό συνέβαλλαν καθοριστικά στην αύξηση αυτή, αφού ολοένα και περισσότεροι χρήστες µπορούν πλέον να δηµιουργήσουν και να δηµοσιεύσουν ψηφιακά έγγραφα. Σαν επακόλουθο αυτής της ραγδαίας εξάπλωσης των ψηφιακών πληροφοριών κάθε µορφής ( κείµενο, εικόνα, ήχος, βίντεο ), σχεδόν σε κάθε πτυχή της σύγχρονης καθηµερινής ζωής, έχει προκύψει η ανάγκη για σωστή οργάνωση και διαχείριση των πληροφοριών αυτών ώστε να καταστεί όσο το δυνατόν πιο εύκολη, γρήγορη και αποτελεσµατική η αναζήτησή τους ανά πάσα στιγµή. Ο Σηµασιολογικός Ιστός αποτελεί µια επέκταση του Παγκόσµιου Ιστού, στα πλαίσια της προσπάθειας της επιστηµονικής κοινότητας να εξυπηρετηθεί η ανάγκη της οργάνωσης των δεδοµένων και της αυτόµατης επεξεργασίας και ανταλλαγής πληροφοριών από ετερογενείς πηγές, µέσω του ιαδικτύου. Ο Σηµασιολογικός Ιστός πέρα από τη δοµή και την οργάνωση, σκοπεύει στην απόδοση σηµασιολογίας στα δεδοµένα ώστε αυτά να γίνονται, κατά το δυνατόν, κατανοητά από µηχανές. Ο όρος "Σηµασιολογικός Ιστός" ( Semantic Web ) χρησιµοποιήθηκε για πρώτη φορά το 1998 από τον Tim Berners - Lee, δηµιουργό του Παγκόσµιου Ιστού και διευθυντή της κοινοπραξίας W3C ( World Wide Web Consortium ). Με την ανάπτυξη του Σηµασιολογικού Ιστού, το ιαδίκτυο µπορεί να γίνει µια παγκοσµίως προσβάσιµη πλατφόρµα που θα επιτρέπει την ανταλλαγή πληροφοριών, προερχόµενων από ετερογενείς πηγές, αλλά και την επεξεργασία τους τόσο από αυτοµατοποιηµένα εργαλεία όσο και από ανθρώπους. Για την υλοποίηση των στόχων αυτών είναι απαραίτητη η χρήση των µεταδεδοµένων, δηλαδή των δεδοµένων που χρησιµοποιούνται για να περιγράψουν συνοπτικά άλλα δεδοµένα ( data about data ). 1

Η χρήση των µεταδεδοµένων για την περιγραφή των διαδικτυακών πόρων κάθε είδους ( έγγραφα, ιστοσελίδες, βάσεις δεδοµένων κτλ. ) επιτρέπει την καλύτερη κατανόηση των αντικειµένων αυτών από τις εφαρµογές λογισµικού διευκολύνοντας την αποδοτικότερη επεξεργασία τους. Επιπλέον, µέσω της περιγραφής των ψηφιακών πόρων µε τη χρήση των µεταδεδοµένων, προωθείται η διαλειτουργικότητα µεταξύ διαφορετικών πληροφοριακών συστηµάτων και η κοινή κατανόηση όρων και εννοιών από διαφορετικές εφαρµογές. Η χρησιµότητα των µεταδεδοµένων στην περιγραφή των διαδικτυακών πόρων µπορεί να γίνει εύκολα αντιληπτή µε µια αναφορά στην αναζήτηση πληροφοριών, µια από τις κυριότερες δραστηριότητες των χρηστών του διαδικτύου. Οι µηχανές αναζήτησης αποτελούν το εργαλείο που βοηθά τους χρήστες να αναζητήσουν και τελικά να βρουν αυτό που επιθυµούν µέσα σε µία πληθώρα ψηφιακών πόρων, χρησιµοποιώντας λέξεις-κλειδιά. Ωστόσο, χωρίς την ενσωµάτωση σηµασιολογίας στα δεδοµένα, παρατηρούνται προβλήµατα ως προς τα επιστρεφόµενα αποτελέσµατα ( χαµηλή ακρίβεια, αποτελέσµατα ευαίσθητα ως προς το λεξιλόγιο που χρησιµοποιήθηκε στην επερώτηση κτλ. ). Στο Σηµασιολογικό Ιστό οι µηχανές αποκτούν τη δυνατότητα κατανόησης της σηµασίας των λέξεων που ανακτώνται, µέσω της χρήσης λεξιλογίων, θησαυρών και οντολογιών, διευκολύνοντας την αναζήτηση και την ανεύρεση πληροφοριών. Οι ερευνητικές προσπάθειες που έχουν ως αντικείµενο τα µεταδεδοµένα, συνεχώς εξελίσσονται και έγιναν πιο έντονες µετά τη δεκαετία του '90. Με τη ραγδαία αύξηση και επέκταση των ψηφιακών πολυµέσων, προέκυπτε ολοένα και περισσότερο η ανάγκη για περιγραφή και διαχείριση του τεράστιου όγκου ψηφιακών πληροφοριών που διακινούνται στο ιαδίκτυο. Η διαρκής εξέλιξη της έρευνας των µεταδεδοµένων επεκτείνεται, πέρα από το χώρο της ψηφιοποίησης, στην ανάκτηση πληροφορίας, στην ανταλλαγή δεδοµένων κτλ. 2

Η δηµιουργία και χρήση υψηλής ποιότητας µεταδεδοµένων σε οποιοδήποτε ψηφιακό πόρο αποτελεί πολύ σηµαντικό ζήτηµα, καθώς και κρισιµότατο παράγοντα που καθορίζει τη διαχείριση, τη χρησιµότητα και την ευχρηστία του πόρου αυτού. Η σύνδεση των ψηφιακών πόρων µε ποιοτικά µεταδεδοµένα εξυπηρετεί µια σειρά λειτουργιών όπως η συντήρηση, η µακροπρόθεσµη διατήρηση και επαναχρησιµοποίηση τους, αλλά και η ανακάλυψη νέων πόρων από τους ήδη υπάρχοντες. 1.1 Αντικείµενο της διπλωµατικής εργασίας Το ζήτηµα της ποιότητας των µεταδεδοµένων αποτελεί ένα συνεχώς εξελισσόµενο ερευνητικό αντικείµενο, µιας και τόσο τα δεδοµένα όσο και τα µεταδεδοµένα παίζουν καθοριστικό ρόλο σε πολλούς τοµείς και σε κάθε είδους συναλλαγή και διαδικασία λήψης αποφάσεων. Η ποιότητα των µεταδεδοµένων των ψηφιακών πόρων επηρεάζει άµεσα και σε µεγάλο βαθµό τη συνολική ποιότητα των υπηρεσιών που προσφέρει η χρήση και η επεξεργασία των πόρων αυτών. Ακόµη και σε συλλογές ψηφιακών πόρων υψηλής ποιότητας, ο κύριος σκοπός για τον οποίο έχουν δηµιουργηθεί µπορεί να µην εξυπηρετείται λόγω χαµηλής ποιότητας των µεταδεδοµένων τους. Τις τελευταίες δύο δεκαετίες οι έρευνες µε αντικείµενο την ποιότητα των µεταδεδοµένων έχουν γίνει όλο και πιο έντονες σε παγκόσµιο επίπεδο, παρόλα αυτά πρόκειται για ένα πολυπαραγοντικό ζήτηµα που µπορεί να προσεγγιστεί από διάφορες πλευρές. Όπως η ποιότητα των δεδοµένων, έτσι και η ποιότητα των µεταδεδοµένων είναι µια πολύπλοκη έννοια που µπορεί να ορισθεί διαισθητικά και λαµβάνοντας υπόψη το πλήθος των διαστάσεών της. Στην παρούσα εργασία, διερευνάται η έννοια της ποιότητας των µεταδεδοµένων όπως διατυπώνεται και περιγράφεται στη διεθνή βιβλιογραφία µε σκοπό να διακριθούν οι θεµελιώδεις συνιστώσες της. Επιπλέον, παρατίθεται η περιγραφή βασικών µοντέλων και µηχανισµών αξιολόγησης της ποιότητας των µεταδεδοµένων. Τέλος, διατυπώνεται ένα εννοιολογικό µοντέλο για την τυπική περιγραφή των βασικών εννοιών, το ερµηνευτικό πλαίσιο της αξίας των µεταδεδοµένων και των µηχανισµών αξιολόγησής τους. 3

1.2 Οργάνωση της διπλωµατικής εργασίας Η παρούσα εργασία είναι οργανωµένη σε κεφάλαια, το καθένα εκ των οποίων καλύπτει και πραγµατεύεται σχετικά θέµατα ως ακολούθως : Στο πρώτο κεφάλαιο παρέχονται βασικές πληροφορίες για την εισαγωγή στο αντικείµενο της εργασίας και παρατίθεται η οργανωτική διάρθρωση του περιεχοµένου της εργασίας στα αντίστοιχα κεφάλαια. Στο δεύτερο κεφάλαιο επιχειρείται µια θεωρητική τεκµηρίωση της έννοιας των µεταδεδοµένων και η εξέταση των βασικών εννοιών που αποτελούν υπόβαθρο για περαιτέρω µελέτη τους. Γίνεται µια εισαγωγή στο Σηµασιολογικό Ιστό και το ρόλο των µεταδεδοµένων στην ανάπτυξή του, ενώ παρουσιάζονται αναλυτικά τα συστατικά στοιχεία της δοµής και της αναπαράστασής τους. Επιπλέον περιγράφονται τα σηµαντικότερα πρότυπα µεταδεδοµένων και οι µέθοδοι παραγωγής ή συλλογής των µεταδεδοµένων. Στο τρίτο κεφάλαιο της εργασίας γίνεται µια εισαγωγή στην έννοια της ποιότητας των µεταδεδοµένων και επιχειρείται µια κατηγοριοποίηση των συχνότερων προβληµάτων που καθιστούν τα µεταδεδοµένα µη ποιοτικά. Στο τέταρτο, πέµπτο και έκτο κεφάλαιο της εργασίας παρουσιάζονται και αναλύονται τρία αντιπροσωπευτικά πλαίσια εκτίµησης της ποιότητας από τη διεθνή βιβλιογραφία. Η µελέτη των πλαισίων αυτών αναδεικνύει τις προτεινόµενες παραµέτρους και διαστάσεις της ποιότητας, όπως και τα µοντέλα µέτρησής της. Στο έβδοµο κεφάλαιο επιχειρείται µια προσπάθεια διατύπωσης όλων των βασικών εννοιών που σχετίζονται µε την ποιότητα των µεταδεδοµένων, σε ένα εννοιολογικό µοντέλο, όπως προκύπτει από την επισκόπηση και ανάλυση των πλαισίων εκτίµησης της ποιότητας που περιγράφονται στα τρία προηγούµενα κεφάλαια. 4

ΚΕΦΑΛΑΙΟ 2 - ΤΑ ΜΕΤΑ Ε ΟΜΕΝΑ ΣΤΟ ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΙΣΤΟ Ο Παγκόσµιος Ιστός έχει επιφέρει µεγάλες αλλαγές στον τρόπο επικοινωνίας των ανθρώπων και κυρίως τον τρόπο µε τον οποίο οι διαθέσιµες πληροφορίες διαδίδονται και ανακτώνται. Τα περιεχόµενά του αποτελούνται από κάθε τύπο πολυµεσικής πληροφορίας ( κείµενο, εικόνα, ήχο, βίντεο κτλ. ) και εκτείνονται σε µια πληθώρα πεδίων γνώσεων. Με την ανάπτυξη του Παγκόσµιου Ιστού, αναρίθµητοι χρήστες έχουν τη δυνατότητα ελεύθερης παρουσίασης και πρόσβασης σε δεδοµένα, αυξάνοντας µε εκθετικούς ρυθµούς το µέγεθος της διακινούµενης πληροφορίας. Αναµφίβολα, ο Παγκόσµιος Ιστός αποτελεί µια τεράστια αποθήκη πληροφοριών µε πολλά πλεονεκτήµατα και προσφερόµενες δυνατότητες. Παρόλα αυτά, η αποθήκευση αυτού του τεράστιου όγκου δεδοµένων οδήγησε στο πρόβληµα κατανόησης και επεξεργασίας του νοήµατος των πληροφοριών από τις µηχανές. Το πρόβληµα αυτό καθιστά δύσκολη την αυτοµατοποίηση της επεξεργασίας των πληροφοριών αλλά και την αποδοτικότητα και ακρίβεια της συλλογής τους. Για το λόγο αυτό, κατέστη απαραίτητο να είναι διαθέσιµη η σηµασιολογία της πληροφορίας, µαζί µε την ίδια την πληροφορία, σε δοµηµένη µορφή, προσπελάσιµη και κατανοητή από τη µηχανή που την επεξεργάζεται. Η ανάγκη αυτή οδήγησε στην ιδέα της δηµιουργίας του Σηµασιολογικού Ιστού, η οποία αποτελεί έµπνευση του Tim Berners - Lee και πρόκειται για µια επέκταση του τρέχοντος Ιστού. Η επέκταση αυτή αποσκοπεί στην απόδοση νοήµατος και σηµασιολογίας στις πληροφορίες, µέσω ενός συνόλου τεχνολογιών και µεθόδων, ώστε τα δεδοµένα του Ιστού να ορισθούν και να συνδεθούν µε τρόπο που θα επιτρέπει την αποτελεσµατική οµαδοποίηση, αναζήτηση και επαναχρησιµοποίηση από ποικίλες εφαρµογές. 5

Το ζήτηµα της αναπαράστασης γνώσης στο Σηµασιολογικό Ιστό απαιτεί ένα µηχανισµό που θα επεξεργάζεται τη γνώση αυτή, µε σκοπό την εξαγωγή συµπερασµάτων, την αυτόµατη εκτέλεση ενεργειών και τη δηµιουργία νέας γνώσης. Ανάµεσα στις βασικές αρχές του Σηµασιολογικού Ιστού είναι η χρήση οντολογιών για την αναπαράσταση και περιγραφή εννοιών, καθώς και των µεταξύ τους σχέσεων, µε σαφή και καθορισµένο τρόπο. Συγκεκριµένα, οι οντολογίες κωδικοποιούν σηµασιολογικά την πληροφορία σε ένα θεµατικό χώρο και επιτρέπουν στους χρήστες να χρησιµοποιούν κοινή ονοµατολογία για τους πόρους που χρησιµοποιούν ή δηλώνουν. Οι οντολογίες περιλαµβάνουν σύνολα εννοιών, κλάσεων εννοιών, ιδιοτήτων και σχέσεων ανάµεσα στις έννοιες, όπως έχουν συµφωνηθεί από µία κοινότητα ανθρώπων µε κοινό θεµατικό χώρο ενδιαφέροντος. Η χρήση των οντολογιών παρέχει τη δυνατότητα κατανόησης και αναγνώρισης του νοήµατος ενός διαδικτυακού πόρου, τόσο για τον άνθρωπο όσο και για τη µηχανή. Άλλη µια βασική αρχή του Σηµασιολογικού Ιστού αποτελεί η ύπαρξη πρακτόρων λογισµικού (software agents) οι οποίοι συλλέγουν για λογαριασµό των χρηστών τις σηµασιολογικές πληροφορίες που συνοδεύουν τις συντακτικές, από διάφορες πηγές του ιαδικτύου. Ο σκοπός είναι να κατανοηθούν οι πληροφορίες αυτές από τους πράκτορες λογισµικού, ώστε να καταστούν οι διαδικτυακοί πόροι µηχαναγνώσιµοι. Οι περιγραφές των διαδικτυακών πόρων ( συντακτικές και σηµασιολογικές ) επιτυγχάνονται µε τη δηµιουργία των µεταδεδοµένων, τα οποία αποτελούν τη βάση του Σηµασιολογικού Ιστού και καθιστούν δυνατή την κατανόηση των πόρων από τις µηχανές αλλά και από τους ανθρώπους. Τα µεταδεδοµένα αποτελούν δοµηµένες πληροφορίες που περιγράφουν και εξηγούν τους διαδικτυακούς πόρους, διευκολύνοντας την επεξεργασία, την ανταλλαγή και τη διαχείρισή τους, λαµβάνοντας τους χρησιµοποιούµενους όρους, τα χαρακτηριστικά τους και τις ιδιότητες από τις οντολογίες. Στο παρόν κεφάλαιο µελετώνται οι βασικές έννοιες και οι ορισµοί, οι βασικές λειτουργίες των µεταδεδοµένων, τα είδη τους και η σηµασιολογία τους. 6

Επιπλέον, περιγράφονται τα σχήµατα και τα πρότυπα µεταδεδοµένων, τα προφίλ εφαρµογών και οι απεικονίσεις µεταξύ σχηµάτων µεταδεδοµένων. Τέλος, µελετώνται τα θέµατα της αναπαράστασης µεταδεδοµένων και των µεθόδων παραγωγής τους ή συλλογής τους. 2.1 Τι είναι τα µεταδεδοµένα Τα µεταδεδοµένα ορίζονται ως "δεδοµένα σχετικά µε άλλα δεδοµένα" και ο όρος αναφέρεται συνήθως σε πληροφορίες που συνοδεύουν έναν φυσικό ή ψηφιακό πόρο πληροφοριών και περιγράφουν τις πηγές του, το περιεχόµενό του και τις σχέσεις που πιθανόν υφίστανται µεταξύ των πηγών του. Στα ψηφιακά αντικείµενα, τα µεταδεδοµένα µπορούν να ενσωµατωθούν στον πόρο τον οποίο περιγράφουν -π.χ. σε HTML έγγραφα- ή να αποθηκευθούν ξεχωριστά, ως ανεξάρτητες εγγραφές ή αρχεία. Η ενσωµάτωση των µεταδεδοµένων στον περιγραφόµενο πόρο διασφαλίζει την ύπαρξή τους αλλά και την ταυτόχρονη ενηµέρωσή τους µε τα περιεχόµενα του πόρου. Ωστόσο, η αποθήκευση και συντήρηση των µεταδεδοµένων ανεξάρτητα από το ψηφιακό αντικείµενο το οποίο περιγράφουν, µπορεί να διευκολύνει και να απλοποιήσει τη διαχείριση και την ανάκτησή τους. Σε αυτή την περίπτωση, οι εγγραφές των µεταδεδοµένων αποθηκεύονται και συντηρούνται σε αποθετήρια, εµπεριέχοντας την τοποθεσία των πρωτογενών πόρων τους οποίους περιγράφουν. Το αποθετήριο των µεταδεδοµένων µπορεί να αποθηκεύεται σε κάποια φυσική τοποθεσία ή σε κάποιο σύστηµα βάσεων δεδοµένων όπου τα µεταδεδοµένα συλλέγονται από διάφορες πηγές. Παρότι τα "µεταδεδοµένα" αποτελούν ένα νέο όρο της ψηφιακής εποχής, οι βασικές έννοιες που σχετίζονται µε τον όρο αυτό υλοποιούνται παραδοσιακά, σε κάθε περίπτωση συστηµατικής οργάνωσης πληροφοριών. 7

Ένα τέτοιο παράδειγµα αποτελούν οι κάρτες καταλόγων µιας βιβλιοθήκης οι οποίες περιέχουν τα µεταδεδοµένα που περιγράφουν ένα βιβλίο µε στοιχεία όπως ο συγγραφέας, ο τίτλος, το θέµα και η ηµεροµηνία δηµιουργίας. Στον ψηφιακό χώρο, όπου το πλήθος των πόρων αυξάνεται µε εκθετικό ρυθµό, η σωστή συγκρότηση των µεταδεδοµένων αποτελεί βασικό παράγοντα της αποτελεσµατικής εύρεσης και διαχείρισής τους. Ωστόσο, πέρα από την περιγραφή των πόρων, τα µεταδεδοµένα αποτελούν κρίσιµο κλειδί για τη διασφάλιση διαφόρων λειτουργιών, όπως η µακροχρόνια διατήρηση και η προσβασιµότητα των ψηφιακών πληροφοριών. Η δηµιουργία των µεταδεδοµένων ενός πόρου είναι µια διαδικασία που συνεχίζεται και µετά τη δηµιουργία του πόρου, σε όλη τη διάρκεια ζωής του, καθώς µπορεί να προκύψουν νέα ή να χρειαστεί να τροποποιηθούν ή να απορριφθούν τα ήδη υπάρχοντα. Η σπουδαιότητα των µεταδεδοµένων στην αποτελεσµατική αξιοποίηση ενός συνόλου πληροφοριακών πόρων µπορεί να τεκµηριωθεί καταγράφοντας τις βασικές λειτουργίες τους : Περιγραφή και οργάνωση : Η βασικότερη λειτουργία των µεταδεδοµένων είναι η οργάνωση και η περιγραφή ψηφιακών πόρων µέσω της προσθήκης δοµηµένων πληροφοριών πάνω στα χαρακτηριστικά τους. Οι πληροφορίες αυτές περιλαµβάνουν τις περιγραφές των πόρων από τον ίδιο το δηµιουργό τους αλλά και επιπρόσθετες που µπορεί να δηµιουργηθούν µέσω διαδικασιών καταλογογράφησης και ευρετηριοποίησης. Αναζήτηση και εύρεση : Η χρήση σωστά συγκροτηµένων µεταδεδοµένων αποτελεί απαραίτητο εργαλείο για την αποτελεσµατική αναζήτηση και ανάκτηση ψηφιακών πόρων από τους χρήστες. Η πρόσθετη πληροφορία που παρέχει η προσθήκη µεταδεδοµένων στα ψηφιακά αντικείµενα συµβάλλει στην ακριβέστερη ανάκτηση αποτελεσµάτων, στη βελτιστοποίηση του χρόνου απόκρισης των µηχανών αναζήτησης καθώς και στην αυτοµατοποίηση της διαδικασίας αναζήτησης. 8

Συντήρηση και διαφύλαξη : Προκειµένου να εξασφαλιστεί η συνεχής διαθεσιµότητα των ψηφιακών πόρων, είναι αναγκαίο να συντηρούνται µέσω διαδικασιών ανανέωσης και ελέγχου της ακεραιότητάς τους. Με τη χρήση των µεταδεδοµένων καταγράφονται οι αλλαγές στις οποίες υπόκεινται οι πόροι µέσω αυτών των διαδικασιών. Παρακολούθηση δικαιωµάτων χρήσης : Με τη χρήση των µεταδεδοµένων µπορούν να αποτυπωθούν θέµατα ιδιωτικότητας και δικαιωµάτων που αφορούν τους ψηφιακούς πόρους. Πιο συγκεκριµένα, µπορούν να καταγραφούν πληροφορίες που αφορούν την αυθεντικότητα της προέλευσής τους και των εκδόσεών τους, καθώς και τα επίπεδα δικαιωµάτων και αναπαραγωγής τους. Ανάλυση χρήσης : Η λειτουργία αυτή αναφέρεται στη δυνατότητα καταγραφής πληροφοριών που σχετίζονται µε τον τύπο και το επίπεδο χρήσης των πόρων (π.χ. διάρκεια ανάγνωσης ενός εγγράφου) µέσω συστηµάτων ή µέσω σχολιασµών από χρήστες που τους έχουν χρησιµοποιήσει. 2.2 Κατηγοριοποίηση µεταδεδοµένων Τα µεταδεδοµένα µπορούν να ενταχθούν σε κατηγορίες µε διάφορους τρόπους, ανάλογα µε το κριτήριο που θα επιλεγεί για την ταξινόµησή τους. Ένας βασικός διαχωρισµός τους σε κατηγορίες είναι αυτός που έχει ως κριτήριο τις λειτουργίες που επιτελούν όπως περιγράφονται παρακάτω: ιαχειριστικά µεταδεδοµένα : Η χρήση τους, όπως δηλώνει και το όνοµά τους, αποσκοπεί στη διαχείριση των πληροφοριακών πόρων. Τα στοιχεία των µεταδεδοµένων αυτού του τύπου σχετίζονται µε θέµατα πρόσβασης, µεταφοράς και επαναχρησιµοποίησης των ψηφιακών αντικειµένων. Περιλαµβάνουν πληροφορία σχετική µε τη δηµιουργία τους (πότε και µε ποιο τρόπο δηµιουργήθηκε ένα ψηφιακό αντικείµενο), τα δικαιώµατα (π.χ. δικαιώµατα προσπέλασης) και τη συντήρησή τους. 9

Επιπλέον, στοιχεία αυτής της κατηγορίας µεταδεδοµένων αποτελούν τα τεχνικά χαρακτηριστικά ενός αντικειµένου, όπως το µέγεθος ενός αρχείου ήχου, η ανάλυση των pixels µιας εικόνας ή τεχνική συµπίεσης που εφαρµόστηκε. Περιγραφικά µεταδεδοµένα : Τα µεταδεδοµένα αυτής της κατηγορίας αναφέρονται στις ιδιότητες ενός πόρου όπως ο τίτλος, ο συγγραφέας, το είδος του, µια περίληψή του καθώς και λέξεις - κλειδιά. Η σωστή επιλογή και καταγραφή των κατάλληλων περιγραφικών µεταδεδοµένων αποτελεί κρίσιµο παράγοντα που καθορίζει τη χρησιµότητα µιας ψηφιακής συλλογής. Περαιτέρω, η χρήση αυτού του τύπου µεταδεδοµένων διευκολύνει την αναζήτηση και επιταχύνει την ανακάλυψη των ψηφιακών αντικειµένων από τους ενδιαφερόµενους χρήστες. οµικά µεταδεδοµένα : Αυτή η κατηγορία µεταδεδοµένων αναφέρεται στην εσωτερική δοµή και στις σχέσεις των αντικειµένων, ψηφιακών ή µη, µε τα συστατικά από τα οποία αποτελούνται και επιτρέπουν την πλοήγηση και την παρουσίασή τους. Χαρακτηριστικό παράδειγµα των δοµικών µεταδεδοµένων αποτελεί η επεξήγηση της οργάνωσης των σελίδων και των κεφαλαίων σε ένα βιβλίο. 2.3 Πρότυπα µεταδεδοµένων Ο βασικός παράγοντας που καθορίζει τη σωστή χρήση, την ευρεία διάθεση και την αποτελεσµατική αναζήτηση των πληροφοριακών πόρων είναι τα µεταδεδοµένα, µέσω των οποίων το ψηφιακό περιεχόµενο εµπλουτίζεται και σχολιάζεται, ώστε να καταστεί χρήσιµο και άµεσα διαθέσιµο. Στη διαδικασία αυτή του εµπλουτισµού των ψηφιακών πόρων µε µεταδεδοµένα, είναι απαραίτητη η επιλογή ενός προτύπου ή σχήµατος µεταδεδοµένων, δηλαδή µιας δοµής βάσει της οποίας θα γίνει η περιγραφή και ο σχολιασµός των πόρων. 10

Τα πρότυπα µεταδεδοµένων αποτελούν ευρέως χρησιµοποιούµενα σχήµατα που συντηρούνται από οργανισµούς προτυποποίησης και είναι αναγνωρισµένα από την κοινότητα από την οποία εφαρµόζονται. Πρόκειται για σύνολα από στοιχεία µεταδεδοµένων που αφορούν στην περιγραφή ειδικών πληροφοριακών πηγών ή συγκεκριµένου θεµατικού τοµέα. Το κάθε στοιχείο ( ή πεδίο ) αυτού του συνόλου µεταδεδοµένων εκφράζει ένα χαρακτηριστικό ή γνώρισµα του πληροφοριακού πόρου και για κάθε στοιχείο, καθορίζεται µέσω του προτύπου το όνοµά του, η σηµασιολογία του και το περιεχόµενό του (π.χ. συντακτικοί κανόνες και επιτρεπόµενες τιµές). Η χρήση των προτύπων µεταδεδοµένων είναι απαραίτητη ώστε να υπάρχει κοινή αντίληψη των δεδοµένων που περιγράφονται µε αυτά, ενώ παράλληλα προσφέρουν µεγαλύτερη δοµή και επεξεργάζονται µηχανικά µε µεγαλύτερη ευκολία. Παρόλα αυτά, δεν υπάρχει ένα µοναδικό διεθνές πρότυπο µεταδεδοµένων µιας και απαιτούνται διαφορετικά επίπεδα πολυπλοκότητας για να περιγραφούν οι διάφοροι τύποι ψηφιακών αντικειµένων. Γι' αυτό το λόγο υπάρχει µια πληθώρα διαφορετικών προτύπων, που καλύπτουν διάφορα επίπεδα και απαιτήσεις, και χρησιµοποιούνται ανά περίπτωση, σε συνδυασµό ή συµπληρωµατικά µε άλλα. Στη συνέχεια γίνεται µια επισκόπηση των πιο διαδεδοµένων προτύπων µεταδεδοµένων. Dublin Core : Το Dublin Core είναι ένα γενικό σχήµα περιγραφής πόρων που σχεδιάστηκε αρχικά για να διευκολύνει την ανακάλυψη ψηφιακών πόρων στο ιαδίκτυο. Πρόκειται για ένα επεκτάσιµο πρότυπο που αποσκοπεί στην απλοποίηση της δηµιουργίας περιγραφών και τη χρήση διαθεµατικής σηµασιολογίας, για την ανακάλυψη πόρων που αφορούν διαφορετικές περιοχές και εφαρµογές. Η δοµή του Dublin Core περιλαµβάνει δύο επίπεδα, το Dublin Core Simple και το Dublin Core Qualified. Το Dublin Core Simple χρησιµοποιεί 15 στοιχεία µεταδεδοµένων τα οποία είναι στο σύνολό τους προαιρετικά και επαναλαµβανόµενα, ενώ χωρίζονται σε τρεις κατηγορίες που περιγράφουν το περιεχόµενο, την πνευµατική ιδιοκτησία και το στιγµιότυπο του πόρου. 11

Το Dublin Core Qualified αποτελεί επέκταση του απλού Dublin Core βελτιώνοντας τη σηµασιολογική ακρίβειά του ορίζοντας ένα σύνολο εξειδικευτών (qualifiers). Οι εξειδικευτές αποτελούν ιδιότητες που χρησιµοποιούνται για να καθορίσουν µε µεγαλύτερη λεπτοµέρεια την έννοια των στοιχείων και να προσδώσουν µεγαλύτερη λεπτοµέρεια στην περιγραφή. MARC 21 ( Machine - Readable Cataloging ): Το MARC είναι ένα διεθνές πρότυπο µεταδεδοµένων γενικού σκοπού που εφαρµόζεται κυρίως σε βιβλιοθήκες αλλά και σε άλλους οργανισµούς διαχείρισης πληροφοριών. Οι βιβλιογραφικές εγγραφές και άλλες σχετικές πληροφορίες αποθηκεύονται και παρουσιάζονται σε µηχαναγνώσιµη µορφή και κωδικοποιούνται µε χρήση ενός συνόλου αριθµητικών κωδικών και δεικτών περιεχοµένου. Το πρότυπο αυτό, ουσιαστικά αποτελεί µια προσπάθεια µεταφοράς των καρτών που βρίσκονται στους καταλόγους των βιβλιοθηκών, σε ηλεκτρονικό περιβάλλον. MODS ( Metadata Object Description Schema ) : Το MODS είναι ένα γενικού σκοπού, περιγραφικό σχήµα µεταδεδοµένων και αποτελεί παράγωγο του προτύπου MARC. Το MODS περιλαµβάνει ένα υποσύνολο στοιχείων του MARC τα οποία δεν είναι αριθµητικά αλλά βασίζονται σε κείµενο. Το πρότυπο αυτό εκφράζεται σε γλώσσα XML και στόχος του είναι η πλούσια περιγραφή του περιεχοµένου των ψηφιακών πόρων. Τα στοιχεία του είναι πιο πλούσια από αυτά του Dublin Core αλλά και πιο συµβατά µε βιβλιογραφικά δεδοµένα. TEI ( Text Encoding Initiative ) Header : Το πρότυπο TEI δηµιουργήθηκε µε σκοπό να χρησιµοποιηθεί από βιβλιοθήκες, µουσεία και εκδότες για τον προσδιορισµό του τρόπου κωδικοποίησης και παρουσίασης σε ηλεκτρονική µορφή, λογοτεχνικών και γλωσσολογικών κειµένων. Τα σύνολα κανόνων και οι οδηγίες σήµανσης του προτύπου αυτού, αφορούν την επεξεργασία και ανταλλαγή κειµένων όπως µυθιστορήµατα, θεατρικά έργα και ποίηση, αλλά και γλωσσολογικά κείµενα όπως τα λεξικά. 12

Οι κατευθυντήριες οδηγίες του προτύπου αυτού ορίζουν επίσης µία κεφαλίδα ( header ) η οποία ορίζεται ως ένα σύνολο ετικετών που περιγράφουν τη δοµή και τα στοιχεία του εγγράφου. Πρόκειται δηλαδή για ένα αρχείο ορισµού τύπου εγγράφου ( Document Type Definition ) το οποίο ενσωµατώνεται στον ίδιο τον πόρο και αποτελείται από µεταδεδοµένα σχετικά µε το έργο. EAD ( Encoded Archival Description ) : Το πρότυπο αυτό αναπτύχθηκε µε σκοπό να δηµιουργήσει έναν ορισµό τύπου εγγράφου (Document Type Definition) βασισµένο στη γλώσσα SGML/XML για την κωδικοποίηση αρχειακών εργαλείων έρευνας σε ψηφιακό περιβάλλον. Τα εργαλεία έρευνας χρησιµεύουν όπως οι τυπωµένες κάρτες καταλόγων των αρχείων σε βιβλιοθήκες και µουσεία, µε τη διαφορά ότι συνήθως αναφέρονται σε περιγραφές που αφορούν ολόκληρες συλλογές. Εποµένως, απαιτείται η χρήση άλλων προτύπων µεταδεδοµένων για να περιγραφούν οι πόροι σε χαµηλότερο επίπεδο από αυτό της συλλογής. Η χρήση των εργαλείων έρευνας που κωδικοποιούνται µε το πρότυπο EAD επιτρέπει τη διατήρηση ιεραρχικών σχέσεων ανάµεσα στα επίπεδα περιγραφής και υποστηρίζει την ευρετηρίαση και ανάκτηση εγγραφών ατοµικού επιπέδου. CDWA ( Categories for the Description of Works of Art ) : Το πρότυπο " Κατηγορίες για την Περιγραφή Έργων Τέχνης" περιλαµβάνει οδηγίες για την περιγραφή και προσθήκη πληροφοριών που αφορούν έργα τέχνης, αρχιτεκτονική, πολιτιστικό υλικό, συλλογές από έργα και εικόνες. Πρόκειται περισσότερο για ένα πλαίσιο που περιλαµβάνει µια πληθώρα κατηγοριών και στοχεύει στη συνεχή και αξιόπιστη πρόσβαση των χρηστών στις πληροφορίες, ανεξάρτητα από το σύστηµα στο οποίο ανήκουν. Μέσα από τις περιγραφικές πρακτικές που παρέχει αλλά και τον ορισµό πόρων λεξιλογίων, φιλοδοξεί να δηµιουργήσει ένα κοινό έδαφος για τη διαχείριση των πληροφοριών στα πληροφοριακά συστήµατα τέχνης, αλλά και την ανταλλαγή αυτών µε άλλα ιδρύµατα ή συστήµατα. 13

VRA ( Visual Resources Association ) Core : Το πρότυπο VRA Core της "Ένωσης Οπτικών Πόρων" δηµιουργήθηκε ως επέκταση του προτύπου CDWA και ορίζει ένα σύνολο στοιχείων µεταδεδοµένων για την περιγραφή έργων τέχνης - το πρωτότυπο ενός πίνακα, µια φωτογραφία, ένα γλυπτό, κλπ.- καθώς και τις οπτικές αναπαραστάσεις τους. Τα µεταδεδοµένα των οπτικών συλλογών πρέπει να εξυπηρετούν την περιγραφή διαφόρων επιπέδων των πόρων, όπως το πρωτότυπο έργο, µια διαφάνεια αυτού ή µια φωτογραφία της διαφάνειας του έργου. Το σύνολο στοιχείων µεταδεδοµένων του σχήµατος συνδυάζει τρία ξεχωριστά στοιχεία για έργα, εικόνες και συλλογές ( έργων ή εικόνων ). Στην έκδοση 4.0 του προτύπου, το σχήµα έγινε πιο συµβατό µε την XML και απέκτησε ιεραρχική δοµή, µε τα πεδία του να περιλαµβάνουν υποπεδία και ιδιότητες. MPEG - 7 ( Moving Pictures Expert Group ) : Το MPEG-7 είναι ένα πρότυπο που αναπτύσσεται από την "Οµάδα Ειδικών στην Κινούµενη Εικόνα" (MPEG) του ISO/IEC (International Standards Organization / International Electrotechnical Commission) και επίσηµα ονοµάζεται " Μέσο Περιγραφής Πολυµεσικού Περιεχοµένου" ( Multimedia Content Description Interface). Η χρήση του προτύπου αυτού προορίζεται για την περιγραφή οπτικοακουστικών δεδοµένων πολυµεσικών πόρων τα οποία απαιτούν κατάλληλη κωδικοποίηση. Τα µεταδεδοµένα που ενσωµατώνονται στους πολυµεσικούς πόρους µπορούν να είναι απλά ή πολυσύνθετα ενώ το εύρος των αντικειµένων που περιγράφουν είναι εξαιρετικά ευρύ, περιλαµβάνοντας ήχο, ακίνητες εικόνες, οµιλία, βίντεο, γραφικά και τρισδιάστατα µοντέλα. Επιπλέον, η δυνατότητα συνδυασµού αυτών των αντικειµένων σε µια πολυµεσική εφαρµογή αλλά και το εύρος των θεµατικών τοµέων όπου χρησιµοποιούνται, αποτελούν προκλήσεις στην προσπάθεια περιγραφής τους µε χρήση µεταδεδοµένων. Το MPEG - 7 είναι ένα πολυµερές πρότυπο που ορίζει τα στοιχεία µεταδεδοµένων, τη δοµή και τις σχέσεις που χρησιµοποιούνται για την περιγραφή των οπτικοακουστικών πόρων και µπορεί να αφορούν : 14

Τη διαδικασία δηµιουργίας και παραγωγής του αντικειµένου Τη χρήση του περιεχοµένου ( πνευµατικά δικαιώµατα, ιστορικό χρήσης) Τα χαρακτηριστικά αποθήκευσης του περιεχοµένου ( τύπος, κωδικοποίηση) Την αποδοτική αναζήτηση του περιεχοµένου ( περιλήψεις, παραλλαγές) Όλες οι παραπάνω, αλλά και πολλές ακόµα περιγραφές κωδικοποιούνται αποτελεσµατικά αξιοποιώντας τη δοµή του προτύπου MPEG - 7 το οποίο αποτελείται από : Εργαλεία Περιγραφής που καθορίζουν τη σύνταξη και τη σηµασιολογία του κάθε στοιχείου µεταδεδοµένων Σχήµατα Περιγραφής Πολυµέσων που ορίζουν τη δοµή και τη σηµασιολογία των σχέσεων µεταξύ των στοιχείων Γλώσσα Ορισµού Περιγραφής που καθορίζει τη σύνταξη των Περιγραφικών Εργαλείων και τη δηµιουργία νέων σχηµάτων περιγραφής Εργαλεία Συστήµατος που υποστηρίζουν την προετοιµασία των περιγραφών, το συγχρονισµό τους µε το περιεχόµενο αλλά και την αποθήκευση και µεταφορά τους. 15

2.4 Προφίλ εφαρµογής και απεικονίσεις Παρά το γεγονός ότι υπάρχουν αρκετά σχήµατα και πρότυπα µεταδεδοµένων που εφαρµόζονται σε διαφορετικούς θεµατικούς χώρους, συνήθως προκύπτουν διαφορετικές απαιτήσεις σε τοπικό επίπεδο ανάλογα µε τις ανάγκες της εκάστοτε κοινότητας των χρηστών. Η πιο συνήθης και αποτελεσµατική πρακτική για την κάλυψη προσαρµοσµένων αναγκών είναι η τροποποίηση και εξατοµίκευση ενός σχήµατος µε µεθόδους και τεχνικές που περιλαµβάνουν τη δηµιουργία προφίλ εφαρµογής και τη χρήση απεικονίσεων ( crosswalks ) µεταξύ σχηµάτων. Τα προφίλ εφαρµογής είναι σχήµατα µεταδεδοµένων που ενσωµατώνουν ένα σύνολο στοιχείων από ένα ή περισσότερα πρότυπα, για τοπική χρήση. Εποµένως, ένα προφίλ εφαρµογής είναι ένα σύνθετο πρότυπο που αποσκοπεί στο συνδυασµό υπαρχόντων σχηµάτων ώστε να εξυπηρετήσει τις ιδιαίτερες λειτουργικές ανάγκες µιας εφαρµογής, διατηρώντας τη διαλειτουργικότητα µε τα αρχικά σχήµατα. Ένα προφίλ εφαρµογής επαναχρησιµοποιεί όρους από ένα ή περισσότερα λεξιλόγια, είτε συνδυάζοντάς τους είτε προσαρµόζοντας ορισµούς για τοπικούς σκοπούς ή εξειδικευµένους τοµείς. Κάποιες βασικές τεχνικές που χρησιµοποιούνται για το σωστό ορισµό ενός προφίλ εφαρµογής είναι οι παρακάτω : Επιβολή πληθικότητας : Για όλα τα στοιχεία του προφίλ εφαρµογής πρέπει να ορίζεται η κατάσταση εµφάνισής του, δηλαδή το πόσες φορές µπορεί να εµφανίζεται και αν είναι προαιρετικό, υποχρεωτικό ή υπό συνθήκη. Σε περίπτωση που τα στοιχεία ενός προτύπου είναι προαιρετικά, ένα προφίλ εφαρµογής µπορεί να χρησιµοποιήσει ορισµένα µόνο από αυτά. Ένα τέτοιο προφίλ απλοποιεί ένα πολύπλοκο πρότυπο µειώνοντας τον αριθµό των απαιτούµενων στοιχείων. Σε άλλες περιπτώσεις, ένα προαιρετικό στοιχείο ενός προτύπου µπορεί να γίνει υποχρεωτικό σε ένα προφίλ. 16

Αντίθετα, τα υποχρεωτικά στοιχεία ενός προτύπου δεν µπορούν να γίνουν προαιρετικά σε ένα προφίλ µιας και αυτό θα πρέπει να τηρεί τους περιορισµούς διαλειτουργικότητας του προτύπου. Περιορισµός πεδίου τιµών : Όταν δηµιουργείται ένα προφίλ εφαρµογής το οποίο βασίζεται σε ήδη υπάρχοντα πρότυπα, ενδέχεται να χρειαστεί εκ νέου ορισµός του συνόλου τιµών ορισµένων στοιχείων. Αυτό κρίνεται απαραίτητο στις περιπτώσεις που τα λεξιλόγια που ορίζονται σε κάποιο πρότυπο θεωρούνται πολύ γενικά για κάποια κοινότητα χρηστών και χρειάζεται µεγαλύτερος βαθµός εξειδίκευσης των περιγραφών, µε όρους σηµασιολογικά πιο συναφείς µε τις ανάγκες της. Καθορισµός σχέσεων και εξαρτήσεων : Ένα προφίλ εφαρµογής µπορεί να ορίζει συσχετισµούς µεταξύ των στοιχείων του και του συνόλου τιµών τους. Για παράδειγµα, η ύπαρξη ενός στοιχείου µεταδεδοµένων µπορεί να επιβάλλει την υποχρεωτική παρουσία ενός άλλου. Κατά τον ίδιο τρόπο, σε ένα προφίλ εφαρµογής µπορεί το σύνολο τιµών ενός στοιχείου να περιορίζεται ανάλογα µε την τιµή κάποιου άλλου στοιχείου. ήλωση χώρου ονοµάτων : Κατά τη δηµιουργία ενός προφίλ εφαρµογής υπάρχει η δυνατότητα χρήσης πολλών χώρων ονοµάτων, µέσω των οποίων προσδιορίζεται το σχήµα προέλευσης του κάθε στοιχείου. Έτσι, υπάρχει η δυνατότητα επιλογής των στοιχείων που καλύπτουν τις εκάστοτε ανάγκες µέσα από διαφορετικά σύνολα στοιχείων. Επιπλέον, είναι δυνατό να ορίζονται τοπικά χώροι ονοµάτων µε τοπικά στοιχεία τα οποία έχουν νόηµα για µια συγκεκριµένη κοινότητα εφαρµογής αλλά δεν έχουν ιδιαίτερη σηµασία σε ένα ευρύτερο περιβάλλον τεκµηρίωσης (Duval et al., 2002). Όπως αναφέρθηκε παραπάνω, ένα προφίλ εφαρµογής µπορεί να είναι κυρίως βασισµένο σε ένα ή περισσότερα σχήµατα µεταδεδοµένων. 17

Για παράδειγµα, το προφίλ DC-Lib αποτελεί εξειδίκευση του Dublin Core και επιπλέον προσδιορίζει τον τρόπο που θα χρησιµοποιηθούν κάποια από τα στοιχεία του MODS για την κωδικοποίηση βιβλιογραφικού υλικού. Σε άλλα προφίλ εφαρµογών χρησιµοποιούνται στοιχεία από ένα µόνο πρότυπο ώστε να καλυφθούν οι απαιτήσεις µιας συγκεκριµένης κοινότητας χρηστών. εδοµένου ότι τα διάφορα σχήµατα µεταδεδοµένων συχνά εκφράζουν µε διαφορετικό τρόπο και σύνταξη κοινές σηµασίες, ενώ παράλληλα δεν ορίζονται προδιαγραφές συµβατότητας µεταξύ τους, προκύπτει η ανάγκη για διαλειτουργικότητα. Η συµβατότητα αυτή µεταξύ δύο ή περισσότερων σχηµάτων µεταδεδοµένων επιτυγχάνεται µέσω των απεικονίσεων. Μια απεικόνιση είναι η σηµασιολογική και συντακτική αντιστοίχηση των στοιχείων από ένα σχήµα µεταδεδοµένων σε ένα άλλο (St Pierre & LaPlant, 1998).Ο µηχανισµός µέσω του οποίου γίνονται οι αντιστοιχήσεις είναι συνήθως ένας πίνακας που περιλαµβάνει τις σηµασιολογικές απεικονίσεις των στοιχείων ενός σχήµατος πηγής προς τα στοιχεία ενός σχήµατος στόχου. Με βάση αυτό το µηχανισµό, τα συστήµατα επιτυγχάνουν τη µετατροπή των δεδοµένων από ένα σχήµα σε ένα άλλο. Μ' αυτό τον τρόπο διευκολύνονται υπηρεσίες όπως η αναζήτηση και η ανάκτηση µέσα σε ετερογενείς συλλογές µεταδεδοµένων, προερχόµενες από διαφορετικά συστήµατα. Τα τελευταία χρόνια, οι απεικονίσεις έχουν εξελιχθεί ώστε να εξυπηρετήσουν ζητήµατα διαλειτουργικότητας ανάµεσα σε σχήµατα µεταδεδοµένων που καλύπτουν τοπικές ανάγκες, όπως τα προφίλ εφαρµογής. Στις απεικονίσεις συναντώνται κυρίως δύο είδη, η απόλυτη και η σχετική (Chan & Zeng, 2006). Στην απόλυτη απεικόνιση υπάρχει ακριβής αντιστοίχηση ανάµεσα στα στοιχεία των σχηµάτων που απεικονίζονται, διασφαλίζοντας την ισοδυναµία µεταξύ τους. Σε περίπτωση που δεν υφίσταται έννοια σηµασιολογικά αντίστοιχη για ένα στοιχείο τότε η απεικόνιση δεν γίνεται, κάτι που συµβαίνει συχνά όταν ένα πολύπλοκο σχήµα απεικονίζεται σε ένα απλούστερο. 18

Αντιθέτως, στη σχετική απεικόνιση η αντιστοίχηση δεν είναι αυστηρή, καθώς όλα τα στοιχεία ενός σχήµατος απεικονίζονται σε τουλάχιστον ένα στοιχείο του άλλου χωρίς να είναι απαραιτήτως σηµασιολογικά ισοδύναµα. Αυτό το είδος απεικόνισης χρησιµεύει περισσότερο στις περιπτώσεις αντιστοίχησης ενός περίπλοκου σχήµατος σε ένα µε πιο απλή δοµή που δε διαθέτει πολλούς πόρους. Κατά τη δηµιουργία µιας απεικόνισης πρέπει να λαµβάνονται υπόψη ο ορισµός της σηµασιολογίας κάθε στοιχείου, το αν είναι προαιρετικό, υποχρεωτικό, υποχρεωτικό υπό προϋποθέσεις ή επαναλαµβανόµενο, αν υπάρχουν περιορισµοί στην εσωτερική οργάνωση των στοιχείων (π.χ. ιεραρχικές σχέσεις), αν υπάρχουν περιορισµοί στις τιµές που λαµβάνουν τα στοιχεία όπως και το αν επιτρέπεται σε ένα σχήµα ο ορισµός τοπικά χρησιµοποιούµενων στοιχείων (St Pierre & LaPlant, 1998). 2.5 Αναπαράσταση µεταδεδοµένων Η έκφραση των µεταδεδοµένων µε τυποποιηµένο τρόπο είναι απαραίτητη για την αναζήτηση και ανταλλαγή τους µεταξύ των υπολογιστικών συστηµάτων αλλά και για την κατανόηση των διακινούµενων πληροφοριών από ανθρώπους και µηχανές. Τα µεταδεδοµένα µπορούν να αποθηκεύονται σε αρχεία ή βάσεις δεδοµένων, ενώ για την αναπαράστασή τους χρησιµοποιείται η HTML ( Hypertext Markup Language ), η XML ( extensible Markup Language ) ή η RDF ( Resource Description Framework ). 2.5.1 Μεταδεδοµένα σε HTML Ο κώδικας HTML µιας ιστοσελίδας περιέχει ετικέτες που συνήθως αφορούν το περιεχόµενο των δοµικών συστατικών της όπως οι παράγραφοι, οι επικεφαλίδες, οι σύνδεσµοι, οι εικόνες κ.α. Στην ενότητα <head> του κώδικα HTML της ιστοσελίδας περιέχονται κάποιες ετικέτες που χρησιµοποιούνται για την περιγράψουν, όπως η ετικέτα <title> που περιέχει τον τίτλο της σελίδας. 19

Σε µια ιστοσελίδα µπορούν να ενσωµατωθούν επιπλέον µεταδεδοµένα, µε χρήση της ετικέτας <meta> στον κώδικα HTML αυτής. Η σύνταξη της ετικέτας <meta> περιλαµβάνει τις ιδιότητες "name" και "content", οι οποίες καθορίζουν το όνοµα και την τιµή του µεταδεδοµένου αντίστοιχα. Οι τιµές που παίρνει η ιδιότητα "name" είναι τυπικά οι "description" και "keywords", που αφορούν την περιγραφή της ιστοσελίδας και λέξεις - κλειδιά που πιθανόν να χρησιµοποιήσει κάποιος σε µια µηχανή αναζήτησης για να την εντοπίσει. Για παράδειγµα : <meta name="description" content="αυτό το κοµµάτι κειµένου είναι µια περιγραφή αυτής της σελίδας."> <meta name="keywords" content="µεταδεδοµένα, ποιότητα, xml, rdf, αξιολόγηση, σηµασιολογικός, ιστός"> Στην περίπτωση που τα µεταδεδοµένα που συνοδεύουν µια ιστοσελίδα ακολουθούν ένα συγκεκριµένο πρότυπο, τότε η ιδιότητα "name" περιλαµβάνει το προσδιοριστικό του χώρου ονοµάτων (namespace) του προτύπου, µαζί µε το όνοµα του αντίστοιχου στοιχείου. Το προσδιοριστικό αυτό πρέπει να δηλώνεται µέσα στην ενότητα <head> του κώδικα HTML, µέσω της ετικέτας <link> στην οποία περιέχεται ένα URI ( Uniform Resource Identifier ) το οποίο ταυτοποιεί το χώρο ονοµάτων. Ένα παράδειγµα µιας εγγραφής µεταδεδοµένων µιας ιστοσελίδας θα µπορούσε να είναι το παρακάτω : 20

<head>... <link rel = "schema.dc " href = "http:// purl.org/dc/elements/1.1/" /> <meta name ="DC.creator" content = "Τσατσανιά Παρασκευή" /> <meta name = "DC.title" content = " Αξιολόγηση Ποιότητας Μεταδεδομένων" /> <meta name = "DC.type" content = "Διπλωματική εργασία Μεταπτυχιακού Προγράμματος στα Πληροφοριακά Συστήματα (Οικονομικό Πανεπιστήμιο Αθηνών) /> " <meta name ="DC.language" content =" gr" />... </head> Εικόνα 2.1 : Παράδειγµα εγγραφής µεταδεδοµένων σε HTML Παρότι η γλώσσα HTML µπορεί να χρησιµοποιηθεί για την έκφραση απλών µεταδεδοµένων σε ιστοσελίδες, περιορίζεται στην περιγραφή της σελίδας που αυτά περιέχονται χωρίς να παρέχει σηµασιολογική σαφήνεια. 2.5.2 Μεταδεδοµένα σε XML Η XML (extensible Markup Language) είναι µια απλή διάλεκτος της γλώσσας SGML ( Standard Generalized Markup Language ) που σχεδιάστηκε µε στόχο να διευκολύνει την επεξεργασία, τη διακίνηση και την αποθήκευση τεκµηρίων στον Παγκόσµιο Ιστό. Σε αντίθεση µε την HTML που εστιάζει στην παρουσίαση των δεδοµένων, η XML αποτελεί ένα σύνολο κανόνων που εστιάζουν στην περιγραφή των δεδοµένων και διευκολύνει την ανάγνωση και την παραγωγή τους από υπολογιστές, εξασφαλίζοντας τη σαφή δόµησή τους. 'Oπως και στην HTML, τα στοιχεία µεταδεδοµένων στην XML ορίζονται µε τη χρήση ετικετών (tags). 21

Σε αντίθεση µε την HTML που χρησιµοποιεί ετικέτες για να καθορίσει τον τρόπο εµφάνισης των δεδοµένων σε ένα φυλλοµετρητή, η XML χρησιµοποιεί ετικέτες για να προσδιορίσει τα δεδοµένα. Παρόλα αυτά το σύνολο των ετικετών της δεν είναι προκαθορισµένο, εποµένως δεν υπάρχει προκαθορισµένη σηµασιολογία και η ερµηνεία των δεδοµένων γίνεται από την εφαρµογή που τα διαβάζει. Η XML παρέχει ένα µηχανισµό "χώρου ονοµάτων" (namespaces) ώστε να µπορεί ο χρήστης να ορίζει οποιοδήποτε στοιχείο - ετικέτα επιθυµεί για την έκφραση των δεδοµένων του. Με αυτό τον τρόπο αποφεύγεται η σύγχυση των ονοµάτων και εξασφαλίζεται η ελευθερία στην επιλογή των ετικετών ανάµεσα σε διαφορετικά κείµενα. Οι χώροι ονοµάτων δηµιουργούν µοναδικά προθέµατα για τα στοιχεία που µπορεί να έχουν διαφορετικές προελεύσεις και ορίζουν τη σηµασιολογία τους. Τα πρότυπα µεταδεδοµένων δηµιουργούν και συντηρούν χώρους ονοµάτων που ορίζουν τα στοιχεία των προτύπων. Όπως αναφέρθηκε παραπάνω, το σύνολο των ετικετών της XML δεν είναι προκαθορισµένο, επιτρέποντας έτσι τον ορισµό στοιχείων και γνωρισµάτων, ανάλογα µε τις εκάστοτε ανάγκες των χρηστών. Έτσι, κάθε κοινότητα χρηστών µπορεί να προδιαγράψει τη δική της XML διάλεκτο, ενώ είναι χρήσιµο να τίθενται κοινά αποδεκτοί κανόνες, για τη δηµιουργία συγκεκριµένων λεξιλογίων µε επιτρεπτά ονόµατα στοιχείων και γνωρισµάτων, καθώς και περιορισµοί που αφορούν την πολλαπλότητα εµφάνισης των στοιχείων, τη µεταξύ τους σειρά κλπ. Η επιβολή τέτοιων περιορισµών απαιτεί την ύπαρξη ενός τρόπου µε τον οποίο αυτοί µπορούν να περιγραφούν, κάτι που µπορεί να γίνει µε τη βοήθεια ηλώσεων Τύπου Τεκµηρίων (Document Type Definitions). Πρόκειται για σύνολα κανόνων που ορίζουν τα στοιχεία, τα γνωρίσµατα και τις οντότητες που επιτρέπεται να εµφανίζονται στα XML έγγραφα. 22

Τα DTDs αποτελούν µια σειρά οδηγιών για τη δοµή ενός XML εγγράφου και µπορούν να περιλαµβάνονται είτε στο ίδιο το XML έγγραφο (εσωτερικά DTDs), είτε σε ξεχωριστό αρχείο και τοποθεσία από το XML έγγραφο (εξωτερικά DTDs). Τα εξωτερικά DTDs µπορούν να επαναχρησιµοποιηθούν από πολλά XML έγγραφα. Από την οπτική γωνία των βάσεων δεδοµένων, το DTD µπορεί να εκληφθεί ως σχήµα (schema) για τα δεδοµένα που αναπαριστά το XML τεκµήριο, µε µια σηµασία παρόµοια µε αυτή των σχεσιακών βάσεων δεδοµένων. Όπως αναφέρθηκε και παραπάνω, τα πρότυπα EAD και TEI αναπτύχθηκαν µε σκοπό να χρησιµοποιηθούν ως DTDs, το πρώτο για την κωδικοποίηση αρχειακών εργαλείων έρευνας και το δεύτερο για την κωδικοποίηση και παρουσίαση σε ηλεκτρονική µορφή, λογοτεχνικών και γλωσσολογικών κειµένων. Η XML Schema είναι ένας νεότερος και καλύτερος τρόπος περιγραφής της δοµής XML τεκµηρίων. Οι κανόνες και οι περιορισµοί που θέτει το XML Schema επεκτείνουν τον έλεγχο εγκυρότητας των XML εγγράφων, πέρα από τους βασικούς συντακτικούς κανόνες της XML. Το XML Schema, σε αντίθεση µε τα DTDs, δε µπορεί να συµπεριληφθεί σε ένα XML έγγραφο αλλά µπορεί µόνο να γίνει αναφορά στο namespace του σχήµατος, µέσα στο στοιχείο - ρίζα του XML εγγράφου. Τα XML σχήµατα κωδικοποιούνται σε XML και ξεκινούν ως εξής : <?xml version = "1.0"?> <xs:schema xmlns:xs="http://www.w3.org/2001/xmlschema"> Η XML Schema, όπως και τα DTDs, είναι γλώσσα περιγραφής σχήµατος αλλά προσφέρει χαρακτηριστικά και δυνατότητες, ισχυρότερα αυτών που παρέχουν τα DTDs. Πιο συγκεκριµένα, µερικά από τα πλεονεκτήµατα που προσφέρει, είναι : Χρησιµοποιεί το συντακτικό της XML, επιτρέποντας έτσι τη χρήση των ήδη ανεπτυγµένων XML εργαλείων. 23

Επιτρέπει την περιγραφή πολύ περισσότερων περιορισµών που αφορούν όχι µόνο τη συντακτική δοµή των δεδοµένων, αλλά και τη σηµασιολογία τους. Το XML Schema είναι επεκτάσιµο. Παρέχει τη δυνατότητα ορισµού των τύπων δεδοµένων από το χρήστη. Ένα XML Schema έγγραφο µπορεί να χρησιµοποιηθεί σε άλλα έγγραφα, ή στο ίδιο έγγραφο να γίνει αναφορά σε πολλαπλά XML σχήµατα. Παρέχει τη δυνατότητα επέκτασης των πρότυπων τύπων δεδοµένων του XML σχήµατος. Το πρότυπο MODS που αναφέρθηκε πρωτύτερα, εκφράζεται µε χρήση της γλώσσας XML Schema. 2.6 Το µοντέλο δεδοµένων RDF Το RDF ( Resource Description Framework ) είναι ένα Πλαίσιο Περιγραφής Πόρων το οποίο προτάθηκε από το World Wide Web Consortium (W3C) και σχεδιάστηκε ώστε να διευκολύνει την κωδικοποίηση, την επεξεργασία και την επαναχρησιµοποίηση των µεταδεδοµένων στον Παγκόσµιο Ιστό. Ο βασικός στόχος του RDF είναι η περιγραφή των πληροφοριακών πόρων µέσω εννοιών και ιδιοτήτων, ανεξάρτητα από το πεδίο εφαρµογής, µε µηχαναγνώσιµο τρόπο. Η κωδικοποίηση των RDF µεταδεδοµένων γίνεται συνήθως µε χρήση της XML, η οποία παρέχει τη σύνταξη (δοµή των δεδοµένων ) αλλά όχι τη σηµασιολογία. Το RDF προσφέρει ένα µοντέλο δεδοµένων σύµφωνα µε το οποίο ορίζεται η έννοια του κάθε στοιχείου µεταδεδοµένων και ο τρόπος µε τον οποίο σχετίζεται µε τα υπόλοιπα στοιχεία. 24

Το µοντέλο του RDF αποτελείται από ένα σύνολο δηλώσεων (statements), κάθε µια από τις οποίες συνίσταται από πόρους (resources), ιδιότητες (properties) και τιµές (values) ιδιοτήτων. Πόρος είναι οτιδήποτε µπορεί να περιγραφεί µε RDF εκφράσεις, όπως µια ιστοσελίδα, ένα τµήµα αυτής ή ένα σύνολο σελίδων, αλλά και αντικείµενα που δεν είναι ψηφιακά, όπως ένα βιβλίο ή ένας πίνακας ζωγραφικής. Σε κάθε πόρο αποδίδεται ένα µοναδικό URI ( Uniform Resource Identifier ) το οποίο αποτελεί το αναγνωριστικό του πόρου. Η ιδιότητα είναι ένα γνώρισµα που περιγράφει έναν πόρο ή µια σχέση µεταξύ πόρων. Οι ιδιότητες είναι κι αυτές πόροι µε µοναδικά URIs, µπορούν να περιγράφονται από RDF εκφράσεις, έχουν καθορισµένη σηµασιολογία και πιθανόν κάποιο πεδίο ορισµού. Η αναπαράσταση των RDF δηλώσεων µπορεί να γίνει µε τρεις διαφορετικούς τρόπους, χρησιµοποιώντας : Μοντέλο δηλώσεων τριάδων Κατευθυνόµενους γράφους µε ετικέτες στις ακµές RDF/XML έγγραφα που αναφέρονται στη σύνταξη των περιγραφών Τα συστατικά µιας RDF δήλωσης, δηλαδή της τριάδας πόρος - ιδιότητα - τιµή ιδιότητας, ονοµάζονται "υποκείµενο" ( subject ), "κατηγόρηµα" ( predicate ) και "αντικείµενο" ( object ). Το υποκείµενο είναι αυτό το οποίο περιγράφεται από τη δήλωση και το κατηγόρηµα είναι η σχέση µεταξύ των εννοιών του υποκειµένου και του αντικειµένου, το οποίο µπορεί να είναι ένας πόρος ή ένα "literal". Εάν πρόκειται για πόρο τότε µπορεί και αυτός µε τη σειρά του να έχει ιδιότητες, ενώ ο τύπος "literal" περιλαµβάνει αλφαριθµητικά και άλλους βασικούς τύπους που ορίζονται στο XML Schema. Για παράδειγµα, στην παρακάτω δήλωση : "Dan Brown is the owner of the Web page http://www.danbrown.com" 25

έχουµε : subject = "Dan Brown" predicate = "owner" object = "http://www.danbrown.com" Οι RDF δηλώσεις µπορούν να αναπαρασταθούν, εναλλακτικά, µε κόµβους και ακµές σε ένα γράφο. Ένα σύνολο RDF τριάδων ορίζει έναν RDF γράφο, όπου το σύνολο των κόµβων αντιστοιχεί στο σύνολο των υποκειµένων και των αντικειµένων των τριάδων. Μια τριπλέτα της µορφής < s, p, o > ορίζει µια κατευθυνόµενη ακµή από τον κόµβο s στο αντικείµενο o, έχοντας ως ετικέτα την ιδιότητα p. Παρακάτω παρατίθεται ένα παράδειγµα δήλωσης και η γραφική της αναπαράσταση : "http://www.w3.org/tr/rec-rdf-syntax/ was created at 1999-02-22, its creator is Ora Lassila and its publisher is W3C" "W3C" http://www.w3.org/tr/rec-rdf-syntax/ Publisher Date Creator "1999-02-22" "Ora Lassila" 26

Οι κόµβοι των RDF γράφων είναι τα υποκείµενα και τα αντικείµενα των δηλώσεων, ενώ µπορούν να αναπαρασταθούν είτε ως πόροι (resources) είτε ως literals, δηλαδή σταθερές τιµές. Όπως αναφέρθηκε και πρωτύτερα, µόνο τα αντικείµενα των δηλώσεων µπορούν να αναπαρασταθούν και µε τα δύο αυτά είδη κόµβων, ενώ τα υποκείµενα µπορούν να αναπαρασταθούν µόνο ως πόροι (resources). Στην περίπτωση που το αντικείµενο µιας δήλωσης αναπαρίσταται ως πόρος, τότε µπορεί να έχει µε τη σειρά του ιδιότητες, όπως φαίνεται στο παρακάτω παράδειγµα: "The individual whose name is Ora Lassila and whose email is ora.lassila@nokia.com is the creator of http://www.w3.org/tr/rec-rdf-syntax/" http://www.w3.org/tr/rec-rdf-syntax/ Creator Name "Ora Lassila" EMail "ora.lassila@nokia.com" 27

Η αναπαράσταση µε χρήση ενός XML - like συντακτικού χρησιµοποιείται ώστε να γίνει δυνατή η επεξεργασία των RDF δηλώσεων από µηχανές. Το RDF καθορίζει τη σύνταξη RDF/XML για την αναπαράσταση RDF πληροφοριών και τη µετάδοσή τους µεταξύ µηχανών. Με τη χρήση των ετικετών, επιτρέπεται στα προγράµµατα η κατανόηση της σηµασίας του εκάστοτε περιεχοµένου. Στην παρακάτω εικόνα φαίνεται ένα παράδειγµα εγγραφής DC σε RDF. Στην αρχή της εγγραφής δηλώνεται η έκδοση της XML και οι χώροι ονοµάτων από όπου προέρχονται τα στοιχεία του DC και του RDF. Ο πόρος http:// example.org/ περιγράφεται από την ιδιότητα dc: title που λαµβάνεται από το DC. Η εγγραφή αυτή δηλώνει ότι ο πόρος http:// example.org/ έχει µια ιδιότητα title ( τίτλος ) που ορίζεται στο DC και η τιµή της είναι "My Home Page". <? xml version = "1.0"?> <rdf : RDF xmlns:rdf = "http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc = "http://purl.org/dc/elements/1.1/" > <rdf : Description rdf : about = "http://example.org/" > <dc:title>my Home Page</dc:title> </rdf:description> </rdf : RDF > Εικόνα 2.2: Παράδειγµα εγγραφής µεταδεδοµένων σε RDF Το RDF παρέχει µέθοδο έκφρασης απλών δηλώσεων για την περιγραφή των πόρων, δεν παρέχει όµως µηχανισµούς για τη δήλωση και την περιγραφή των ιδιοτήτων και των κλάσεων που χρησιµοποιούνται στις RDF περιγραφές. 28