author image video quality Ανάκτηση πολυµεσικού περιεχοµένου & σηµασιολογικός semantic web ιστός semantic web & Κωνσταντίνος Μικάλεφ multimedia
Ανάκτηση πολυµεσικού περιεχοµένου & σηµασιολογικός ιστός Κωνσταντίνος Μικάλεφ
ΟΙστός Tim Berners-Lee: The World Wide Web was designed originally as an interactive world of shared information through which people could communicate with each other and with machines. The World Wide Web: Past, Present and Future, 1996
Το πρόβληµα Η αναζήτηση πληροφοριών γίνεται σε πολύ µεγάλο βαθµό από τον άνθρωπο. Το ιαδίκτυο είναι αχανές και η αναζήτηση µπορεί να είναι «εξαντλητική». Παράγονται περισσότερα από 2 exabytes πληροφορίας το χρόνο (Berkley). Time & Business involved ($200 billions) Κυρίαρχη γλώσσα τα Αγγλικά. Ακόµη όµως και οι καλοί γνώστες της γλώσσας έχουν να αντιµετωπίσουν την διαφορετική ή «λάθος» χρήση της γλώσσας. Οι υπολογιστές δεν γνωρίζουν τη γλώσσα! Οι πληροφορίες που διαθέτουν δεν έχουν νόηµα γιατους υπολογιστές. machines should be able to participate and help
Η λύση: ο σηµασιολογικός ιστός The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation. The Semantic Web, Scientific American, May 2001 Tim Berners-Lee, James Hendler, Ora Lassila
Βασικές έννοιες XML & HTML Η XML δεν έχει συγκεκριµένες ετικέτες. Η HTML καθορίζει την παρουσίαση. Η XML ξεχωρίζει το περιεχόµενο (δεδοµένα και γλώσσα) από την παρουσίαση. URI (Uniform Resource Identifier) Υπερσύνολο του URL. To URI µπορεί να «οδηγήσει» σε οποιοδήποτε αντικείµενο στον ιστό.
Η «έννοια» της οντολογίας Για την φιλοσοφία Ηεπιστήµη τηςύπαρξης(αριστοτέλης) Για τις θετικές επιστήµες και στην τεχνητή νοηµοσύνη Αποτελείται από τις ρητές προδιαγραφές της αντίληψης για τον κόσµο (Gruber) an explicit specification of conceptualisation H τυπική προδιαγραφή µίας κοινής αντίληψης για τον κόσµο (Borst) a formal specification of a shared conceptualisation
Τα βασικά στοιχεία µιας οντολογίας Έννοιες (ή κλάσεις) Οτιδήποτε για το οποίο µπορεί να ειπωθεί κάτι Σχέσεις Αναπαριστούν τις αλληλεπιδράσεις µεταξύ των εννοιών του πεδίου ορισµού Συναρτήσεις Ειδικές περιπτώσεις των σχέσεων Αξιώµατα Περιγράφουν προτάσεις οι οποίες είναι πάντα αληθείς Στιγµιότυπα Αναπαριστάνουν συγκεκριµένα στοιχεία
Οντολογίες και σηµασιολογικός ιστός Οι οντολογίες χρησιµοποιούνται για την αναπαράσταση γνώσης (περιγραφή) Οι οντολογίες παρέχουν το λεξιλόγιο των όρων Υπάρχουν διαµοιραζόµενακαικοινάλεξιλόγια Νέοι όροι µπορούν να σχηµατιστούν από το συνδυασµό υπαρχόντων Ησηµασιολογία (το νόηµα) αυτών των όρων είναι τυπικά ορισµένη ιαµοιραζόµενη και κοινή κατανόηση ενός πεδίου ενδιαφέροντος Θυµηθείτε για τη συνέχεια: OWL
Περιγραφή/Annotation πολυµεσικού υλικού Ηπεριγραφή απόταβασικότεραπροβλήµατα Χωρίς περιγραφή δεν υπάρχει αναζήτηση µε βάσητο περιεχόµενο Η χειροκίνητη περιγραφή = time & money Αυτόµατη περιγραφή πολυµεσικού υλικού Ανάλυση εικόνας, βίντεο, ήχου Σηµασιολογική ανάλυση του κειµένου (NLP)
Στη βάση τα µεταδεδοµένα Γιατί χρησιµοποιούµε µεταδεδοµένα; Κάνουν σαφή την πληροφορία που είναι αόριστη. ιαθέτουν την πληροφορία για αναζήτηση, επεξεργασία και ενοποίηση. Επικρατέστερο πρότυπο για τα πολυµέσα: MPEG-7
MPEG-7 Multimedia Content Description Interface: Πρότυπο για την περιγραφή πολυµεσικού υλικού. Βασίζεται στην XML και επιτρέπει διαφορετικό επίπεδα αφαιρετικότητας. Αποτελεσµατικότητα και διευκόλυνση ανάκτησης, φιλτραρίσµατος, πλοήγησης και αναζήτησης σε µεγάλες πολύµεσικές συλλογές. Το MPEG-7 ορίζει µόνο τον τρόπο µε τον οποίο περιγράφονται τα πολυµεσικά δεδοµένα και όχι τις µεθόδους ανάλυσης που προηγούνται.
Ελλείψεις του MPEG-7 Οντολογική γλώσσα για την δηµιουργία διαµοιραζόµενης και κοινής γνώσης. Τυποποιηµένη µηχανή παραγωγής συµπερασµάτων. Πρότυπο για πολυµεσικές υπηρεσίες στο σηµασιολογικό ιστό.
Zinedine Zidane scoring against England! <KeywordAnnotation xml:lang="en"> <Semantic id="formalabstractiondescription"> <Keyword>Zinedine</Keyword> <SemanticBase xsi:type="agentobjecttype" id="zidane"> <Keyword>Zidan</Keyword> <StructuredAnnotation> <Label><Name>Zidane </Name></Label> <Agent xsi: ="PersonType"> <Keyword>scoring</Keyword> <Who> <FreeTextAnnotation <Name> xml:lang="en">zinedine Zidane scoring against England.</FreeTextAnnotation> <Keyword>England</Keyword> <Name xml:lang="en">zinedine <GivenName>Zinedine</GivenName> Zidane</Name> <FamilyName>Zidane</FamilyName> <Keyword>goal</Keyword> Χρειαζόµαστε καθορισµό πλαισίου free text </Who> annotation </Name> οντολογικής διασύνδεσης: </KeywordAnnotation> <WhatAction> </Agent> </SemanticBase> MPEG-7 Ontology by Hunter keyword<name <SemanticBase annotation xml:lang="en">zinedine xsi:type="eventtype" Zidane scoring id="scoring"> against England.</Name> MPEG-7 Ontology by Tsinaraki </WhatAction> <Label> <Name>Zinedine Zidane scoring against England.</Name> </StructuredAnnotation> </Label> </SemanticBase> structured annotation with labels </Semantic> MPEG-7-built-in (non-formal) semantic descriptor
Multimedia Metadata Formats Still images Visual Resource Association (VRA) (σχετίζεται µε το Dublin Core) Exchangeable image file format (Exif) Audio Content ID3 Audio-Visual Content Multimedia Content Description Interface (MPEG-7) MXF Multimedia Presentations SMIL SVG MPEG-21 Λοιπά MM Formats Dublin Core (DC) XMP (από Adobe) Τα υπάρχοντα format πολυµεσικών µεταδεδοµένων πρέπει να µετατραπούν σε RDF/OWL για λόγους διαλειτουργικότητας και λογικής.
και ο ενδιάµεσος το RDF Το RDF (Resource Description Framework) είναι ο ενδιάµεσος για την κατανόηση-επεξεργασία εκ µέρους του υπολογιστή. Αναγνωρίζει τριπλέτες: υποκείµενο, αντικείµενο και ιδιότητα/κατηγόρηµα. Π.χ. I really like Weaving the Web. Οι λέξεις αντιστοιχούν σε URIs. RDF + DAML + OIL = OWL DAML = DARPA Agent Markup Language OIL = Ontology Inference Layer
εν συντοµία στο σηµασιαολογικό ιστό Προσοχή δεν υπάρχει γραµµική σχέση! Πράκτορας (agent): εκτελεί την αναζήτηση Ο παγκόσµιος ιστός είναι οργανωµένος γύρω από URIs, HTML, και HTTP. Τα URIs παρέχουν καθορισµένα ids για αναφορά στα στοιχεία στον ιστό. RDF OWL
Αµφισβητήσεις και στόχοι Πολλά M3 (Many multimedia metadata) formats: ID3, Exif, MPEG-7 Σε βιβλιοθήκες και αρχεία απαντώνται in-house formats ή standardization των M3 formats Περιεχόµενο που παράγουν οι χρήστες: Flickr, YouTube RDF, OWL, Rules, Σηµασιολογική Περιγραφή XML, MPEG-7, DDL, οµική Περιγραφή MPEG-1, JPG MPEG2, PDF, MP3, Raw Mulitmedia Data
image Ευχαριστώ! author ερωτήσεις... quality video