Η χρήση µεταδεδοµένων στα πολυµέσα: τρόποι εισαγωγής και πεδία εφαρµογής Σχοινά Μαριάννα - ΓΤΠ 61 ΦΕΒΡΟΥΑΡΙΟΣ 2008
Περιεχόµενα Τι είναι µεταδεδοµένα (ορισµοί, παραδείγµατα, κατηγορίες) Ποια είναι τα χαρακτηριστικά των µεταδεδοµένων Πρότυπα µεταδεδοµένων πρότυπο Dublin Core Πολυµέσα και µεταδεδοµένα Πρότυπο MPEG-7 Πεδία εφαρµογής των µεταδεδοµένων Τρόποι εισαγωγής µεταδεδοµένων Συµπεράσµατα 2
Ορισµοί µεταδεδοµένων Τα µεταδεδοµένα είναι δοµηµένη πληροφορία που περιγράφει, εξηγεί, εντοπίζει ή διευκολύνει την ανάκτηση ή τη διαχείριση ενός πληροφοριακού πόρου Data about data structured information about information οµηµένα δεδοµένα για πόρους, που µπορεί να χρησιµοποιηθούν για να υποστηρίξουν ένα µεγάλο εύρος λειτουργιών 3
Η ανάγκη για µεταδεδοµένα Ο όγκος των δεδοµένων και των πληροφοριών που είναι προσβάσιµα στο διαδίκτυο είναι τεράστιος και µεγαλώνει καθηµερινώς. Η αναζήτηση πληροφοριών είναι πλέον µία πολύ δύσκολη υπόθεση. Για παράδειγµα, χρησιµοποιώντας µια µηχανή ψαξίµατος όπως το Alta Vista, λαµβάνει κανείς ως αποτέλεσµα ένα πολύ µακρύ κατάλογο από δεσµούς (links), οι οποίοι δεν ανταποκρίνονται πάντα κατά 100% στα κριτήρια αναζήτησης. Ένας από τους τρόπους που αναµένεται να βελτιωθεί στο µέλλον το αποτέλεσµα αυτό είναι η εισαγωγή µεταδεδοµένων (metadata) στα διάφορα κείµενα. 4
Παραδείγµατα µεταδεδοµένων Σε ένα σύστηµα αρχείων: ΟΝΟΜΑ ΑΡΧΕΙΟΥ ΤΥΠΟΣ ΑΡΧΕΙΟΥ ΜΕΓΕΘΟΣ ΑΡΧΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ ΑΛΛΑΓΗΣ ΑΡΧΕΙΟΥ ΕΠΙΠΛΕΟΝ ΣΕ ΑΡΧΕΙΑ ΕΙΚΟΝΩΝ ΦΥΣΙΚΕΣ ΙΑΣΤΑΣΕΙΣ ΕΙΚΟΝΑΣ ΑΝΑΛΥΣΗ, ΜΟΡΦΗ ΑΠΟΘΗΚΕΥΣΗΣ, ΤΡΟΠΟΣ ΣΥΜΠΙΕΣΗΣ Περιγραφή σελίδων στο WWW ΤΙΤΛΟΣ ΗΜΙΟΥΡΓΟΣ ΛΕΞΕΙΣ ΚΛΕΙ ΙΑ ΠΕΡΙΓΡΑΦΗ ΤΥΠΟΣ π.χ. κείµενο ΜΟΡΦΟΤΥΠΟ HTML Σε Βάση εδοµένων, που περιγράφει άρθρα ΤΙΤΛΟΣ ΑΡΘΡΟΥ ΣΥΓΓΡΑΦΕΑΣ ΑΡΘΡΟΥ KEYWORDS ΤΙΤΛΟΣ ΠΕΡΙΟ ΙΚΟΥ ΕΚ ΟΤΗΣ ΠΕΡΙΟ ΙΚΟΥ ISSN ΤΕΥΧΟΣ, ΣΕΛΙ ΕΣ Σε Ψηφιακή Βιβλιοθήκη ιδακτορικών ΤΙΤΛΟΣ ΗΜΙΟΥΡΓΟΣ (ΣΥΓΓΡΑΦΕΑΣ) ΠΕΡΙΓΡΑΦΗ (ΠΕΡΙΛΗΨΗ) ΗΜ/ΝΙΑ ΑΠΟΝΟΜΗΣ ΗΜ/ΝΙΑ ΕΙΣΑΓΩΓΗΣ COPYRIGHT NOTICE KEYWORDS 5
Στην περίπτωση των πολυµέσων, τα δεδοµένα ονοµάζονται «ηλεκτρονικά τεκµήρια» και αφορούν οποιοδήποτε αρχείο ή εφαρµογή έχει ψηφιακή υπόσταση και προσφέρει πληροφορία στον ψηφιακό κόσµο. Μορφές ηλεκτρονικών τεκµηρίων Κείµενο Εικόνες Κινούµενες εικόνες Ήχος Βίντεο Ιστοσελίδες Προγράµµατα 6
Χαρακτηριστικά µεταδεδοµένων εν είναι µόνο ψηφιακά. Είναι πολλά περισσότερα πράγµατα από την περιγραφή του αντικειµένου. Έχουν πολλαπλές πηγές προέλευσης. Συνεχίζουν να αναπτύσσονται και να συσσωρεύονται µετά από τη δηµιουργία τους Μπορεί να είναι δεδοµένα ενός άλλου πληροφοριακού αντικειµένου Είναι υποκατάστατο των αντικειµένων, χωρίς όµως να τα καταργούν Αποτελούν τα ενδιάµεσα βήµατα για την ανάκτηση του περιεχοµένου εν είναι αυτόνοµα, δηµιουργούνται µε αφορµή τα δεδοµένα και ως εκ τούτου δεν υπάρχουν χωρίς αυτά. 7
Κατηγορίες ψηφιακών µεταδεδοµένων (1/2) ιοικητικά ή διαχειριστικά µεταδεδοµένα µεταδεδοµένα που χρησιµοποιούνται για τη διαχείριση και επεξεργασία των ψηφιακών αντικειµένων (δεδοµένων) πχ: τύπος αρχείου, µέγεθος συµπίεσης, κάτοχος πνευµατικών δικαιωµάτων, περιορισµοί στην αναπαραγωγή και τη διανοµή, ηµεροµηνία παραγωγής, ανάλυση εικόνας, χρωµατικό βάθος κ.α. Περιγραφικά µεταδεδοµένα µεταδεδοµένα που χρησιµοποιούνται για να περιγραφεί ή να προσδιοριστεί η ταυτότητα των ψηφιακών αντικειµένων πχ: δηµιουργός του πρωτοτύπου, τίτλος, θεµατικοί όροι, λέξειςκλειδιά, πηγή προέλευσης δεδοµένων, σχόλια χρηστών, υπερσυνδέσεις µεταξύ των πηγών, ευρετήρια, φυσικές διαστάσεις πρωτοτύπου κ.α. 8
Κατηγορίες ψηφιακών µεταδεδοµένων (2/2) οµικά µεταδεδοµένα ασχολούνται µε τη φυσική δοµή µιας σύνθετης ψηφιακής οντότητας µε σκοπό να διευκολύνουν την αναζήτηση, την ανάκτηση πληροφοριών και την προβολή τους πχ: συστατικά µέρη του ψηφιακού αντικειµένου, σχέσεις µεταξύ των συστατικών µερών, ιεραρχικές σχέσεις µε άλλες πηγές, οµαδοποίηση ψηφιακών δεδοµένων, σχέσεις ανάµεσα σε διαφορετικά αρχεία του ίδιου αντικειµένου (πχ η εικόνα Α τύπου jpeg έχει δηµιουργηθεί από την εικόνα Β τύπου TIFF), κ.α. Τεχνικά µεταδεδοµένα Μεταδεδοµένα χρήσης Μεταδεδοµένα διατήρησης 9
Αναγκαιότητα Προτύπων Μεταδεδοµένων Χρειάζονται για να έχουµε κοινή αντίληψη των δεδοµένων που περιγράφονται µε αυτά Μας προσφέρουν µεγαλύτερη δοµή Μας περιορίζουν στην ευελιξία Επεξεργάζονται ευκολότερα µηχανικά Είναι αναγκαιότερα σε ψηφιακά αντικείµενα Αφού στα συµβατικά έχουµε αισθητήρια αντίληψη για αναγνώριση, θέση, θέµατος, 10
Πόσα Πρότυπα Μεταδεδοµένων εν υπάρχει ένα µοναδικό διεθνές πρότυπο για µεταδεδοµένα, γιατί: Χρειαζόµαστε διαφορετικά επίπεδα πολυπλοκότητας, από πλούσιες µέχρι απλές περιγραφές Υπάρχουν κάµποσα σχήµατα µεταδεδοµένων, για διαφορετικά επίπεδα και απαιτήσεις Επεκτείνουµε τα υπάρχοντα πρότυπα 11
Πρότυπα Μεταδεδοµένων AACR2 MARC Text Encoding Initiative - TEI Header (1990) Dublin Core - DC (1995) Encoded Archival Description EAD (1996) Open Archives Initiative - OAI Visual Resources Association Core VRA (1997) Federal Geographic Data Committee for Digital Geospatial Metadata FGDC Data Documentation Initiative DDI (1997) Gateway to Educational Materials GEM (1999) Government (Global) Information Locator Service - GILS Metadata Encoding and Transmission Standard METS Metadata Object Description Schema MODS Computer Interchange of Museum Information CIMI Interoperability of Data in E-Commerce Systems INDECS Online Information Exchange ONIX (2000) Extended Markup Language XML, MARCXML Australian Recordkeeping Metadata Schema (RKMS) 12
Λειτουργικότητα κατά την χρήση AACR2/MARC Dublin Core Qualified Dublin Core Simple Μέτα-µηχανές αναζήτησης Google (µε τεχνικές συνδέσµων) Απλές µηχανές αναζήτησης Κόστος δηµιουργίας και χρήσης 13
Συνδυάζοντας Πολλαπλά Πρότυπα στην Πράξη Εξειδικευµένες εφαρµογές [κυβερνητικής πληροφόρησης, εκπαίδευσης, µαθηµατικών, πολυµέσων, κλπ] µπορεί να χρειάζονται να: Χρησιµοποιούν στοιχεία γενικής χρήσης, π.χ. Dublin Core Χρησιµοποιούν στοιχεία από άλλα, πιο εξειδικευµένα στο πεδίο, πρότυπα Στην πράξη, γενικά πρότυπα (π.χ., Dublin Core) πρέπει να συνδυαστούν µε πρότυπα που εξαρτώνται από τις εφαρµογές (π.χ., MPEG-7) Να ακολουθούν άλλα projects στις πρακτικές των σχηµάτων τους Να επινοούν τοπικά στοιχεία εκτός της εµβέλειας των υπαρχόντων προτύπων 14
Λίγα λόγια για το Dublin Core Το Dublin Core έχει 15 στοιχεία. Κάθε ένα από αυτά είναι προαιρετικό και επαναλαµβανόµενο Τα 15 στοιχεία χωρίζονται σε 3 κατηγορίες: Περιεχόµενο: Περιγράφουν το αντικείµενο Πνευµατική Ιδιοκτησία: Περιγράφουν το copyright και τη δηµιουργία Στιγµιότυπο: Περιγράφουν την εισαγωγή και διαχείριση 15
DC Περιεχόµενο Τίτλος / Title (ονοµασία πηγής) Θέµα / Subject, πχ λέξεις-κλειδιά, ταξινοµικοί κώδικες Περιγραφή / Description, π.χ. περίληψη, περιεχόµενα, περιγραφή εικόνας Πηγή (ή «Προέλευση) / Source (παραγωγής) Γλώσσα / Language (του περιεχοµένου) Σχέση / Relation (αναφορά σε σχετική πηγή), Π.χ. έκδοση του Κάλυψη / Coverage (γεωγραφική ή χρονική) 16
DC Πνευµατική Ιδιοκτησία ηµιουργός / Creator (πρόσωπο, οργανισµός, υπηρεσία) Εκδότης / Publisher (πρόσωπο, οργανισµός, υπηρεσία) Συντελεστής (ή «Συνεργάτης» ή «Υπεύθυνος συµβολής») / Contributor (πρόσωπο, οργανισµός, υπηρεσία που συµβάλλει στο περιεχόµενο), Π.χ. µεταφραστής, εικονογράφος, κριτής ικαιώµατα / Rights (κείµενο σχετικά µε την πνευµατική ιδιοκτησία) 17
DC Στιγµιότυπο Ηµεροµηνία / Date Π.χ. δηµιουργίας, έκδοσης, µετάφρασης, πρόσκτησης, καταλογογράφησης, Τύπος / Type (κατηγορία σχετικά µε το περιεχόµενο) Π.χ. ποίηµα, λεξικό, software, home-page Μορφότυπο / Format (φυσική ή ψηφιακή µορφή) Π.χ. Macintosh-software, pdf, html, διαστάσεις, διάρκεια Αναγνωριστικό (ή Προσδιοριστής ή Κωδικός Ταύτισης) / Identifier Μοναδικό προσδιοριστικό, π.χ. URL, ISBN, 18
19
20
Πεδία εφαρµογής του προτύπου Υποστηριζόµενες Λειτουργίες Ψηφιακής Βιβλιοθήκης Εύρεση Έλεγχος πρόσβασης Παρουσίαση ιαχείριση Ψηφιακή συντήρηση Αναδιάταξη 21
MPEG-7: Πρότυπο περιγραφής πολυµεσικού υλικού Γενικά για το πρότυπο Η MPEG(Motion Picture Experts Group) ξεκίνησε τις εργασίες για το MPEG7 τον Οκτώβριο του 1996, καθιέρωσε το πρότυπο τον Φεβρουάριο του 2002 και το ονόµασε MULTIMEDIA CONTENT DESCRIPTION INTERFACE, δηλαδή «Περιβάλλον Περιγραφής Πολυµεσικού Περιεχοµένου» Ενώ τα προηγούµενα πρότυπα του MPEG είχαν ως στόχο την καλύτερη παρουσίαση και αναπαράσταση της πληροφορίας, ο στόχος του MPEG-7 είναι να παρέχει ένα προτυποποιηµένο περιβάλλον για την περιγραφή της πληροφορίας αυτής. Προσφέρει την κατάλληλη κωδικοποίηση ώστε η οπτικοακουστική πληροφορία να γίνει πιο χρήσιµη και εκµεταλλεύσιµη Η Κωδικοποίηση αυτή αφορά όλες τις οπτικοακουστικές πολυµεσικές µορφές πληροφορίας, δηλ. εικόνες, γραφικά, τρισδιάστατες εικόνες, ήχο, οµιλία, βίντεο. Ουσιαστικά υποστηρίζει την αναζήτηση, την ανταλλαγή, την ανάκτηση και το φιλτράρισµα σε πολλά µορφότυπα (όχι µόνο κείµενο) 22
Στόχοι του MPEG-7: Οι στόχοι που προβλέπεται να καλύψει το MPEG-7 είναι τέσσερις: Η περιγραφή του πολυµεσικού περιεχοµένου Η ευέλικτη διαχείριση των δεδοµένων και Η διαλειτουργικότητα των συστηµάτων στοχεύει στο να είναι ένα γενικό (generic) πρότυπο και όχι στο να χρησιµοποιείται σε µία και µόνο εφαρµογή ή σε ένα µόνο πεδίο δραστηριοτήτων. 23.
Εφαρµογές του MPEG-7 Στην εκπαίδευση (πχ αποθετήρια πολυµεσικών πόρων, αναζήτηση πολυµέσων για εκπαιδευτική υποστήριξη) Στην δηµοσιογραφία (πχ στην αναζήτηση κάποιας οµιλίας ενός πολιτικού, χρησιµοποιώντας το όνοµά του ή την φωνή του.) Σε πολιτισµικές υπηρεσίες (όπως σε ένα µουσείο, σε µία αίθουσα τέχνης) Στην ψυχαγωγία (για διάφορα παιχνίδια) 24
συνέχεια των εφαρµογών Υπηρεσίες επιτήρησης (πχ έλεγχος κυκλοφορίας, µεταφορές) Πολυµεσικές υπηρεσίες καταλόγου (πχ χρυσός οδηγός, τουριστικές πληροφορίες) Οικιακή ψυχαγωγία (πχ συστήµατα διαχείρισης προσωπικών πολυµεσικών εφαρµογών, δηµιουργία home video, παιχνίδια) Ψηφιακές βιβλιοθήκες (πχ κατάλογοι εικόνων, µουσικοί κατάλογοι, αρχεία εικόνας και ήχου κ.α.) Σε συστήµατα Γεωγραφικής Πληροφόρησης. Σε βιοϊατρικές εφαρµογές Σε ερευνητικές υπηρεσίες (για την αναγνώριση ανθρώπινων χαρακτηριστικών) Στην αρχιτεκτονική και στην διακόσµηση εσωτερικών χώρων Σε κοινωνικές εφαρµογές Σε αρχεία video, µιας ταινίας ή ενός ραδιοφωνικού σταθµού. Ηλεκτρονικό εµπόριο (πχ προσωπικές διαφηµίσεις, on-line κατάλογοι αγορών) 25
Ο τύπος του περιεχοµένου και το ερώτηµα του χρήστη δεν είναι απαραίτητο να είναι τα ίδια, για παράδειγµα ένα οπτικό υλικό µπορεί να αναζητηθεί είτε οπτικά, είτε µε µουσική ή µε κείµενο κτλ. Είναι ευθύνη της µηχανής αναζήτησης να αντιστοιχήσει το ρώτηµα µε την περιγραφή σε MPEG-7. Μερικές µορφές ερωτηµάτων: Στην µουσική/ στον ήχο: ίνει την δυνατότητα να παίξουµε µερικές νότες και να µας επιστρέψει µία λίστα από µουσικά κοµµάτια που να περιλαµβάνουν αυτόν τον ρυθµό, συνδυάζοντας κάπως τις νότες. Στα γραφικά: µπορούµε να σχεδιάσουµε µερικές γραµµές στην οθόνη και να µας επιστρέψει ένα σύνολο από εικόνες, που να περιέχουν παρόµοια σχέδια ή εικόνες. Στην κίνηση: Με ένα σύνολο από αντικείµενα video (video objects), µπορούµε να περιγράψουµε κινήσεις και σχέσεις ανάµεσα στα αντικείµενα και να µας επιστραφεί µία λίστα από σχεδιοκίνηση ή video clips που να εκπληρώνουν τις χωρικές και χρονικές σχέσεις. Στο σενάριο (scenario): Σε ένα οπτικοακουστικό περιεχόµενο που µας δίνεται, µπορούµε να περιγράψουµε τις ενέργειες και να λάβουµε µία λίστα από σενάρια, στα οποία θα περιλαµβάνονται παρόµοιες πράξεις. 26
Εργαλεία Συγγραφής (Authoring Tools) για το MPEG-7 Παρόλο που το MPEG-7 παρέχει ένα προτυποποιηµένο τρόπο για την περιγραφή του περιεχοµένου των πολυµέσων, ωστόσο οι ρυθµιστικές προδιαγραφές του δεν προσδιορίζουν το πώς θα δηµιουργηθούν τα µεταδεδοµένα στο MPEG-7, αλλά απλά καθορίζουν την σύνταξη και την σηµασιολογία της περιγραφής του περιεχοµένου. Αυτό βέβαια έγινε µε στόχο την εύρεση κοινών λύσεων µέσω της συνεργασίας ορισµένων εταιρειών και προµηθευτών υλικού, ώστε να προάγουν την διαλειτουργικότητα των συσκευών και των εφαρµογών. Προκειµένου λοιπόν να υπάρξουν εφαρµογές πολυµέσων σε συνδυασµό µε τα µεταδεδοµένα του MPEG-7, είναι απαραίτητη η ύπαρξη ενός συστήµατος για την συγγραφή των µεταδεδοµένων µε σκοπό την εύκολη δηµιουργία µεταδεδοµένων του MPEG-7 για περιεχόµενο πολυµέσων. Για παράδειγµα ένα εργαλείο συγγραφής για µεταδοµένα του MPEG-7 µπορεί να βασίζεται στα Σχήµατα Περιγραφής Πολυµέσων (Multimedia Description Schemes) του προτύπου. Ένα δεύτερο αφορά στην ανάπτυξη ενός συστήµατος για την συγγραφή (authoring) µεταδεδοµένων video και για την περιήγηση (browsing) σε αυτά τα µεταδεδοµένα, γραµµένο σε XML. XML: extensible Markup Language (XML) αποτελεί µια εξαιρετικά απλή διάλεκτο της γλώσσας Standard Generalized Markup Language (SGML), η οποία αναπτύχθηκε µε στόχο να διευκολύνει το χειρισµό, επεξεργασία, διακίνηση και αποθήκευση τεκµηρίων στον Παγκόσµιο Ιστό (web) 27
Επίλογος Στη σηµερινή εποχή, όπου ο όγκος των παραγόµενων πληροφοριών είναι µεγαλύτερος από ποτέ, καθίσταται µεγάλη η ανάγκη για την εξεύρεση των καλύτερων τρόπων για την αξιοποίηση, την διαχείριση και την οργάνωση των πληροφοριών. Σε αυτό το περιβάλλον τα πολυµέσα κατέχουν ένα σηµαντικό ρόλο στην παραγωγή, διάδοση και χρήση της πληροφορίας και για αυτόν τον λόγο έχει υπάρξει έντονο ενδιαφέρον τα τελευταία χρόνια για την καλύτερη αξιοποίηση των δυνατοτήτων που µπορεί να παρέχουν. Είναι γεγονός ότι οι δυνατότητες που προσφέρουν είναι απεριόριστες και καθηµερινά γίνονται µεγαλύτερες, ενώ το κοινό στο οποίο απευθύνονται δεν περιορίζεται αποκλειστικά σε εξειδικευµένους µε ζητήµατα πληροφορικής επιστήµονες, αλλά διευρύνεται σε κάθε ηλικία και κάθε ιδιότητα. 28