ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Ε.Α.Π. Γ.Τ.Π. 61 2008 Τσιγώνιας Αντώνης 14/12/2008
Εισαγωγή Το ιαδίκτυο και ο Παγκόσµιος Ιστός ήταν µια επανάσταση για την τεχνολογία της πληροφόρησης αλλά και για την καθηµερινή ζωή του ανθρώπου. Πρόκειται για µια προσπάθεια που κατόρθωσε να ξεπεράσει τους γεωγραφικούς φραγµούς και να συνδέσει όλο τον πλανήτη σε ένα κοινό δίκτυο διακίνησης της πληροφορίας. Είναι προφανές ότι αυτή η πληροφορία, αφού παράγεται και δηµοσιεύεται πρακτικά από οποιονδήποτε, δεν έχει µία ενιαία µορφή. Επίσης δεν υπάρχει ένας ενιαίος τρόπος οργάνωσης της ώστε να µπορεί ο καθένας να την ανακτά. Σηµαντικό ρόλο σε αυτό έπαιξε το γεγονός ότι οι πιο σύγχρονες µορφές περιεχοµένου του ιστού έχουν διαµορφωθεί έτσι ώστε να είναι κατανοητές µόνο από τους ανθρώπους. Αυτό έχει ως αποτέλεσµα να είναι ελάχιστα κατανοητές από τους Η/Υ.
Εισαγωγή Ο σηµασιολογικός Ιστός παρέχει γλώσσες έκφρασης ικανές να περιγράψουν την πληροφορία σε µορφές κατανοητές από µηχανές. Αυτό θα προσφέρει την δυνατότητα για µια καλύτερη οργάνωση και ταξινόµηση της πληροφορίας ώστε πλέον, µε αυτοµατοποιηµένο τρόπο µέσα από το ίδιο το σύστηµα, να µπορεί να ανακτάται µε µεγαλύτερη ακρίβεια και ποιότητα αποτελέσµατος, αφού θα υπάρχει `συνεννόηση ανθρώπου-µηχανής.
Τι είναι ο Σηµασιολογικός Ιστός ΟΣηµασιολογικός ιστός (Semantic Web) : αποτελεί µια επέκταση του υπάρχοντος Web η πληροφορία δίδεται µε καλά προσδιορισµένο νόηµα εξασφάλιση της δυνατότητας των υπολογιστικών συστηµάτων να αντιλαµβάνονται και να επεξεργάζονται ευφυώς τις πληροφορίες είναι αόρατος στον καθηµερινό χρήστη στην ουσία είναι µια συλλογή από µεταδεδοµένα
Σηµασιολογικός ιστός W3C (World Wide Web Consortium) κατά τον Tim Berners-Lee
Σηµασιολογικός ιστός κατά τον Tim Berners-Lee Στο κατώτερο επίπεδο βρίσκονται το Unicode που εξασφαλίζει την επικοινωνία ανάµεσα σε διαφορετικές γλώσσες και τα URI (Uniform Resource Identifier),οι `διευθύνσεις' δηλαδή των πόρων. Στο αµέσως επόµενο βρίσκεται η XML, η NS και το XMLSCHEMA ως κύρια γλώσσα έκφρασης στον ιστό. Ακολουθεί η RDF (Resource Description Framework) και το RDFSCHEMA που είναι η κύρια γλώσσα µεταδεδοµένων. Έπειτα είναι το λεξιλόγιο οντολογιών. Στην συνέχεια το λογικό επίπεδο, ακολουθούµενο από το επίπεδο απόδειξης και τέλος το επίπεδο αξιοπιστίας. Οι ψηφιακές υπογραφές είναι πολύ σηµαντικές αφού διασφαλίζουν την αξιοπιστία. Ο σηµασιολογικός ιστός είναι µια ερευνητική προσπάθεια για την καλύτερη οργάνωση του περιεχοµένου στον ιστό. Αυτό θα γίνει µε την χρήση και καλύτερη αξιοποίηση των ήδη υπάρχοντων εργαλειών και δυνατοτήτων, αλλά και µε την ανάπτυξη νέων.
Σηµασιολογικός ιστός Για την ανάπτυξη λοιπόν ενός σηµασιολογικού ιστού είναι απαραίτητο οι πόροι στον ιστό να αναπαρίστανται ή να σχολιάζονται µε δοµηµένες περιγραφές του περιεχοµένου και των σχέσεων τους, κατανοητές από Η/Υ. Αυτό είναι εφικτό µε την χρήση λεξιλογίων και κατασκευασµάτων που δηλώνονται ρητά σε µια οντολογία περιοχής. Είναι φανερό ότι στον σηµασιολογικό ιστό τον πιο σηµαντικό ρόλο θα τον παίξουν οι οντολογίες. Πρόκληση αποτελεί η ανάπτυξη στον τοµέα των οντολογιών, γλωσσών παρουσίασης οντολογιών, µεθόδων εκµάθησης οντολογιών και συστηµάτων οντολογιών που θα διαχειρίζονται, θα υιοθετούν και θα προτυποποιούν οντολογίες. Ο πιο αποδεκτός ορισµός µιας οντολογίας είναι του Gruber (1993) σύµφωνα µε τον οποίο µια οντολογία είναι «µια επίσηµη προδιαγραφή µιας σύλληψης» µέσα σε µια συγκεκριµένη περιοχή. Είναι µια ιεραρχηµένη περιγραφή ενός συνόλου από έννοιες (ιεραρχία), ένα σύνολο από ιδιότητες και οι µεταξύ τους σχέσεις καθώς κι ένα σύνολο από συµπερασµατικούς κανόνες.
Οντολογίες Η αρχιτεκτονική του σηµασιολογικού ιστού συνίσταται στα παρακάτω τρία επίπεδα: The metadata layer (Το επίπεδο µεταδεδοµένων): Το µοντέλο δεδοµένων σε αυτό το επίπεδο περιέχει κυρίως τις έννοιες πόρους και ιδιότητες. Η γλώσσα RDF (Resource Description Framework) είναι το επικρατέστερο µοντέλο δεδοµένων γιααυτότοεπίπεδο. The schema layer (το επίπεδο σχηµάτων): Σε αυτό το επίπεδο εισάγονται γλώσσες οντολογιών για τον ιστό που ορίζουν ιεραρχικές περιγραφές εννοιών και ιδιοτήτων. Το RDFS (Resource Description Framework Schema) είναι το επικρατέστερο υποψήφιο σχήµα γιαυτότοεπίπεδο. The logical layer (το λογικό επίπεδο): Που αποτελείται από πιο ισχυρές γλώσσες οντολογιών. Αυτές οι γλώσσες προσφέρουν ένα µεγαλύτερο σύνολο από διαµορφωµένες αρχές που µπορούν να χαρτογραφηθούν στις γνωστές εκφραστικές λογικές περιγραφής. Εδώ η OIL (Ontology Inference Layer) και η DAML-OIL (Darpa Agent Markup Language-Ontology Inference Layer) ήταν οι δύο επικρατέστερες γλώσσες. Πλέον ο W3C προτείνει την OWL Web Ontology Language ως επίσηµη γλώσσα οντολογιών.
Οντολογίες Μία οντολογία Ο είναι ένα σύνολο από έννοιες (concepts), ρόλους (roles), αξιώµατα (axioms), και οντότητες (entities ή individuals). Ο = (S, A, E), όπου: S (Signature): το σύνολο των εννοιών και των ρόλων της οντολογίας, περιγράφουν σύνολα από οντότητες του σύµπαντος Α (Axioms): τα αξιώµατα περιορίζουν το νόηµα των εννοιών και των ρόλων του S Ε (Entities): οι οντότητες κατηγοριοποιούνται από τις έννοιες ΕΙ Η Υψηλού-επιπέδου οντολογίες (Top or Generic ontologies): περιγράφουν γενικές έννοιες, ανεξάρτητα από οποιοδήποτε πεδίο ενδιαφέροντος. Οντολογίες πεδίου ενδιαφέροντος (Domain ontologies):οι οντολογίες πεδίου ενδιαφέροντος περιγράφουν έννοιες που αφορούν ένα συγκεκριµένο πεδίο ενδιαφέροντος Οντολογίες Αναφοράς (Reference ontologies): περιγράφει γενικότερες έννοιες ενός πεδίου ενδιαφέροντος, µε µεγαλύτερο βαθµό αφαίρεσης από τις έννοιες των οντολογιών του πεδίου ενδιαφέροντος, ώστε να αποσαφηνίζει τις ειδικότερες αυτές έννοιες.
Οντολογίες Μία πηγή πληροφόρησης στο Web µπορεί να περιέχει µία αναφορά σε µία οντολογία ή κάποια µορφή σχολιασµού (που επίσης αναφέρεται σε κάποια οντολογία) που περιέχει τον ορισµό της γνώσης που εµπεριέχεται στην πηγή πληροφόρησης. Με αυτό τον τρόπο «intelligent agents» µπορούν να συλλέγουν πληροφορία από διάφορες πηγές και να τη συσχετίζουν, λόγω των τυπικών σχέσεων που υπάρχουν µέσα και µεταξύ των οντολογιών
Γλώσσες - Τεχνολογίες XML (eχtensible Markup Language) XML Schema RDF (Resource Description Framework) RDF Schema (Resource description Framework schema) OIL (Ontology interchange language) OWL (Ontology Web Language) DAML (DARPA agent markup) Σκοπός: να καταστούν τα δεδοµένα του Παγκόσµιου Ιστού µηχανικώς επεξεργάσιµα. Για την ορθή επεξεργασία των δεδοµένων απαιτείται τα προγράµµατα να κατανοούν την σηµασία αυτών. Τα δεδοµένα χρησιµοποιούν ένα λεξιλόγιο (µε τη σχετική σηµασία), συµφωνηµένη µέσα σε µια κοινότητα, και τα προγράµµατα γράφονται έτσι ώστε να χρησιµοποιούν το λεξιλόγιο αυτό. η περίπτωση των περισσοτέρων εφαρµογών βάσεων δεδοµένων. Η σηµασία ορίζεται ρητώς µέσω µεταδεδοµένων (όπως οι οντολογίες), µε τη χρήση γλωσσών ικανών να αποδώσουν πλούσιο «νόηµα» στα δεδοµένα.
ικτυακές Υπηρεσίες Αυτόµατη ανακάλυψη δικτυακής υπηρεσίας. Αφού οι περιγραφές των δικτυακών υπηρεσιών είναι καταχωρηµένες σε δηµόσια µητρώα, έξυπνοι πράκτορες θα µπορούσαν να ελέγχουν αυτά τα µητρώα ψάχνοντας για την επιθυµητή από τον χρήστη υπηρεσία. Ήδη έχει γίνει έρευνα στον τοµέα της υποβοηθούµενης από κάποιον πράκτορα πλοήγησης στο web. Αυτόµατη επίκληση διαδικτυακής υπηρεσίας. Σήµερα οι περισσότερες υπηρεσίες, κατά την διάρκεια της εκτέλεσής τους απαιτούν ανθρώπινη παρέµβαση, όπου ο χρήστης κάνει διάφορες επιλογές για να έχει το επιθυµητό αποτέλεσµα. Στην περίπτωση της αυτόµατης εκτέλεσης της δικτυακής υπηρεσίας ο χρήστης απλά θα διατυπώνει ένα ερώτηµα και ένας έξυπνος πράκτορας θα ενεργοποιεί όλες τις απαραίτητες διαδικασίες αυτόµατα, στηθέσητουχρήστη.
ικτυακές Υπηρεσίες Αυτόµατη σύνθεση και λειτουργία δικτυακής υπηρεσίας. Αν δοθεί ένα σύνολο από υπηρεσίες και ένας στόχος, είναι δυνατόν να δηµιουργηθεί µια νέα υπηρεσία για να τον επιτύχει. Για να γίνει κάτι τέτοιο πρέπει να περιγραφούν επίσηµα οι απαιτήσεις και τα αποτελέσµατα της κάθε υπηρεσίας. Τότε η τεχνολογία για την αυτόµατη δηµιουργία περιβαλλόντων εργασιών ίσως να µπορεί να χρησιµοποιηθεί για να παράγει υπηρεσίες αυτόµατα. Αυτόµατος έλεγχος εκτέλεσης δικτυακών υπηρεσιών. Είναι χρήσιµο για υπηρεσίες που τρέχουν για µεγάλα χρονικά διαστήµατα να µπορούµε να τις παρακολουθούµε και να ρωτάµε για την κατάσταση των διάφορων εργασιών τους ώστε να ξέρουµε ανά πάσα στιγµή σε πιο στάδιο βρίσκεται το έργο που επιτελούν. Όλα αυτά έχουν ένα ευρύ πεδίο εφαρµογών στον επιχειρηµατικό κόσµο. Με διάφορες σηµασιολογικές τεχνικές µπορεί να αναπτυχθεί σηµαντικά το ηλεκτρονικό εµπόριο, µε την εµφάνιση νέων προτύπων καθώς όλες οι διεργασίες που έπρεπε να κάνει ένας χρήστης για να αγοράσει κάτι απλοποιούνται και αναβαθµίζονται ποιοτικά.
Οντολογίες Όσο η υποδοµή πάνω στην οποία στηρίζεται το Internet αναπτύσσεται ραγδαία µε το πέρασµα των χρόνων, παρατηρούµε την ενσωµάτωση διαφόρων τύπου ψηφιακών πολυµέσων πάνω στο διαδίκτυο (Web), συµπεριλαµβανοµένου εικόνων, βίντεο και ήχου. Συνεπώς, καθώς η χρήση των πολυµέσων αυτών που είναι διαθέσιµα στο διαδίκτυο συνεχώς αυξάνεται, υπάρχει ξεκάθαρη ανάγκη για περισσότερο βελτιωµένες τεχνικές για την αποτελεσµατική ανάκτηση και διαχείρισή τους. Κατά την διάρκεια προηγούµενων ετών, έχουν προταθεί διάφορες προσεγγίσεις για την αποτελεσµατική ανάκτηση και διαχείριση του περιεχοµένου των ψηφιακών τύπου πολυµέσων στο διαδίκτυο. Πρόσφατα, µε την ανάπτυξη του Σηµασιολογικού Ιστού (Semantic Web), δόθηκε έµφαση στην ανάπτυξη τεχνικών για τον σχολιασµό του περιεχοµένου των εικόνων στο διαδίκτυο, χρησιµοποιώντας γλώσσες οντολογίας διαδικτύου (Web ontology languages) όπως είναι η RDFS και η OWL.
Οντολογίες Εικόνας Η οντολογία που χρησιµοποιείται και εφαρµόζεται σε πολυµεσικές εφαρµογές ονοµάζεται Image Ontology.Ειδικότερα, ηοντολογίααυτή αναφέρεται σε : images image regions (SVG) videos video frames video segments και σε αυτά που αναπαριστούν το καθένα. Ηεφαρµογή της στο εργαλείο Photostuff το οποίο κατασκευάστηκε από µία οµάδα ανθρώπων του πανεπιστηµίου του Maryland. Η Images Ontology είναι η προεπιλεγµένη (default) οντολογία που χρησιµοποιείται στο εργαλείο αυτό.h γλώσσα στην οποία είναι γραµµένη η οντολογία αυτή είναι η OWL. Μία ποικιλία από εργαλεία έχει αναπτυχθεί τόσο στα πανεπιστήµια όσο και στις διάφορες εταιρίες λογισµικού, η οποία παρέχει την λειτουργικότητα δηµιουργίας σηµασιολογικών µεταδεδοµένων (semantic metadata) για το περιεχόµενο των ψηφιακών πολυµέσων στο διαδίκτυο.
Οντολογίες Εικόνας Πρόσφατα, τα περισσότερο υπάρχοντα εργαλεία παρέχουν ένα ολοκληρωµένο περιβάλλον για το σχολιασµό/συσχέτιση µόνο κειµένου, σε σελίδες του διαδικτύου. Παρόλα αυτά, υπάρχει η ανάγκη να σχολιάσουµε/συσχετίσουµε επιπρόσθετα πολυµέσα τα οποία είναι διαθέσιµα στο διαδίκτυο. Με δεδοµένοαυτότοκίνητρο, έχει αναπτυχθεί το εργαλείο PhotoStuff. Το PhotoStuff είναι ένα open source, ανεξαρτήτου πλατφόρµας, εργαλείο σχολιασµού εικόνων το οποίο χρησιµοποιεί µία οντολογία για να παρέχει την εκφραστικότητα που απαιτείται για να δηλώσει το περιεχόµενο µιας εικόνας καθώς και πληροφορίες που σχετίζονται µε την εικόνα αυτή (ηµεροµηνία που δηµιουργήθηκε κ.λ.π). Το εργαλείο αυτό επιτρέπει στους χρήστες να σχολιάζουν περιοχές από µία εικόνα σύµφωνα µε τις αρχές µίας οποιαδήποτε οντολογίας που είναι γραµµένη σε RDFS ή OWL. Επίσης, παρέχει την λειτουργικότητα να ενσωµατώνει εικόνες και οντολογίες και να εξάγει τους τελικούς σχολιασµούς/ συσχετισµούς (µεταδεδοµένα) στο δίσκο ή στο Σηµασιολογικό Ιστό. Μία µελλοντική κατεύθυνση είναι η επέκταση του εργαλείου αυτού έτσι ώστε να υποστηρίζει τον σχολιασµό τόσο ήχου όσο και βίντεο.
Ανάκτηση Εικόνας µε Βάσητο Περιεχόµενο Η ανάκτηση εικόνας βασισµένη στο περιεχόµενο (Content-Based Image Retieval, CBIR) χρησιµοποιείται σε µια πληθώρα εφαρµογών όπως εκδόσεις, ιστορική και ιατρική έρευνα διαφήµιση, γραφικές τέχνες, αρχιτεκτονικό και µηχανολογικό σχέδιο, κ.α. Η πιο πρόσφατη όµως και σηµαντική εφαρµογήείναιοπαγκόσµιος Ιστός (web), όπου το 73% της πληροφορίας αποτελείται από εικόνες. Στο web η αναζήτησηµιας εικόνας είναι συχνά µια ιδιαίτερα κοπιαστική αποστολή. Υπάρχουν ήδη αρκετά πειραµατικά αλλά και εµπορικά CBIR συστήµατα καθώς και µηχανές αναζήτησης στο web που υποστηρίζουν τεχνολογίες CBIR. Οι βάσεις δεδοµένων εικόνας διαφοροποιούνται από τις κλασσικές βάσεις κατά το ότι η πληροφορία δεν είναι δοµηµένη, γιατί στην ουσία είναι µια µεγάλη συλλογή εικονοστοιχείων. Τα συστήµατα CBIR ανακτούν εικόνες µέσα από τέτοιες βάσεις, συγκρίνοντας χαρακτηριστικά που εξάγονται από τις ίδιες τις εικόνες. Τέτοια χαρακτηριστικά είναι για παράδειγµα τοχρώµα, η υφή και το σχήµα. Αυτά αποτελούν τα βασικά ή πρώτου επιπέδου χαρακτηριστικά. Ένα επίπεδο πιο πάνω είναι τα χαρακτηριστικά που χρησιµοποιεί ο χρήστης και χωρίζονται σε λογικά και αφηρηµένα.
Ανάκτηση Εικόνας µε Βάσητο Περιεχόµενο Τα λογικά αφορούν στην ταυτότητα των αντικειµένων που βρίσκονται στην εικόνα, ενώ τα αφηρηµένα αφορούν στη σηµασία των σκηνών που αναπαρίστανται. Η µεγαλύτερη δραστηριότητα σ αυτά τα συστήµατα γίνεται στο χωρικό (spatial) περιεχόµενο των εικόνων. Η πλειοψηφία όµως των εικόνων που συναντάµε σήµερα στο web (και όχι µόνο) είναι σε συµπιεσµένη µορφή JPEG. Εποµένως θα ήταν ιδιαίτερα επιθυµητό η ανίχνευση να γίνεται στον συµπιεσµένο (compressed) χώρο. ύο είναι τα κύρια πλεονεκτήµατα αυτής της προσέγγισης: δεν χρειάζεται να αποσυµπιεσθεί το αρχείο εικόνας και έτσι εξοικονοµείται πολύτιµος χρόνος και η διαδικασία επιτελείται σε ένα µικρότερο αριθµό συντελεστών(αφού οι µη σηµαντικοί συντελεστές συχνότητας έχουν µηδενιστεί κατά τη συµπίεση).
Ανάκτηση Εικόνας µε Βάσητο Περιεχόµενο Αυτά τα πλεονεκτήµατα έχουν οδηγήσει πλήθος ερευνητών προς αυτή την κατεύθυνση µε πολύ αξιόλογα αποτελέσµατα έως τώρα. Συνήθως τα συστήµατα CBIR δουλεύουν µε ανίχνευση-βασισµένη-σεπαράδειγµα. Μια εικόνα δηλαδή σχετική µε αυτό που επιθυµούµε δίνεται από εµάς στο σύστηµα και αυτό αναλαµβάνει να ψάξει για παρόµοιες. Η οµοιότητα, είτε χωρικά είτε στο συµπιεσµένο χώρο εκφράζεται µε µετρικές στον χώρο των χαρακτηριστικών. Οι µετρικές βασίστηκαν επάνω στο ιστόγραµµα των συντελεστών συχνότητας των εικόνων. Τα αποτελέσµατα είναι αρκετά ενδιαφέροντα και οι βελτιώσεις που προτείνονται αφορούν στην τµηµατική αναζήτηση σε κάθε εικόνα και όχι µόνο στην ίδια την εικόνα ως σύνολο. Τα αποτελέσµατα της σύγκρισης συνδυάζονται µε υπάρχουσα πληροφορία κειµένου και συλλογές άλλων χαρακτηριστικών, ενώ το όλο εγχείρηµα υποστηρίζεταιαπό"ευφυή" συστήµατα
Συµπεράσµατα Οσηµερινός Ιστός αδυνατεί να αντεπεξέλθει στις σύγχρονες απαιτήσεις Ο Σηµασιολογικός Ιστός προσδίδει σηµασιολογία στα δεδοµένα Το RDF είναι ακόµα υπό ανάπτυξη Ηεπιστήµη, η µηχανική και το εµπόριο θα ωφεληθούν πολύ απότοσηµασιολογικό Ιστό Χρειάζεται επιπλέον έρευνα, και τυποποίηση στον τοµέα
Ερωτήσεις-συζήτηση Σας ευχαριστώ για την προσοχή σας