ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 12 ο : Γλωσσική επεξεργασία πολυμεσικών δεδομένων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013
Τι είναι μια οντολογία; An ontology is an explicit specification of a conceptualization [Gruber, 1993] Ένα μοντέλο μιας θεματικής περιοχής, π.χ. μια γενική αναπαράσταση γνώσης για μια θεματική περιοχή Βασικά έννοιες/κλάσεις και (δυαδικές) σχέσεις Για ποιο λόγο έχει φτιαχτεί μια οντολογία; Συνήθως για σκοπούς διαμοιρασμού γνώσης (knowledge sharing) και επαναχρησιμοποίησης (reuse) Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 1
Τι είναι μια οντολογία; Αξιώματα (axioms) Athlete Person Person SportsEvent = Person SportsCompetition = SportsEvent SportsCompetition = owl:thing subclass-of Person SportsEvent SportsCompetition Athlete icipant instance-of Usain Bolt 2012 Olympics 100 m Κανόνες (rules) has_participant x, y has_participant z, y compete x, z Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 2
Τι είναι μια οντολογία; Κύρια συστατικά μιας οντολογίας Ιεραρχία κλάσεων/εννοιών (classes/concepts) Κλάσεις/έννοιες Σχέσεις «is-a» (subclass-of) Ιδιότητες τύπων (datatype properties - attributes) Athlete xsd:string domain range Ιδιότητες αντικειμένων (object properties - relations) icipant SportsCompetition Athlete domain range Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 3
Web Ontology Language Συστάσεις του W3C Resource Description Framework (RDF) URIs για την ονομασία σχέσεων μεταξύ 2 αντικειμένων ( triples ) OWL 2 Web Ontology Language Διάφορες υπο-γλώσσες, με διαφορετική εκφραστικότητα (και πολυπλοκότητα συλλογισμού - reasoning complexity) OWL Lite (hierarchies and simple constraints) OWL DL (maximum expressiveness retaining computational completeness & decidability corresponds to description logic) OWL Full (more compatible with RDF Schema) Διάφορες μορφές RDF/XML, OWL/XML, Functional syntax, Manchester syntax, Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 4
Web Ontology Language OWL (RDF/XML syntax) <owl:class rdf:id= SportsCompetition > <rdfs:subclassof rdf:resource= owl:thing /> </owl:class> <owl:objectproperty rdf:id= icipant > <rdfs:range rdf:resource= Athlete /> </owl:objectproperty> owl:thing subclass-of Person SportsEvent SportsCompetition Athlete icipant OWL (Manchester syntax) Class: SportsCompetition SubClassOf: owl:thing ObjectProperty: icipant Range: Athlete Description Logic SportsCompetition owl: Thing SportsCompetition 1 has participant. Athlete Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 5
Επισκόπηση Παρουσίασης Κίνητρα και προκλήσεις Εξαγωγή πληροφορίας και Οντολογίες Η προσέγγιση του BOEMIE Πλεονεκτήματα Ερμηνεία μέσω συλλογιστικής Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 6
Κίνητρα (1) Υπερ-πληροφόρηση από τα ψηφιακά μέσα διαφόρων τύπων Προβλήματα στην απάντηση σύνθετων ερωτημάτων Περιορισμένη υποδομή για την λήψη προσωποποιημένης πληροφορίας Έλλειψη γνωστικών πόρων με δυνατότητα εξέλιξης Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 7
Κίνητρα (2) Σημαντική πρόοδος στην πολυμεσική επεξεργασία Ιδιαίτερα σε κείμενα και εικόνες Αλλά περιορισμένη πρόοδος στην σημασιολογική ερμηνεία πολυμεσικού περιεχομένου στον αποτελεσματικό συνδυασμό της εξαχθείσας πληροφορίας από διαφορετικούς τύπους μέσων Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 8
Προκλήσεις Βελτίωση της εξαγωγής σημασιολογικής πληροφορίας από πολυμέσικα έγγραφα, χρησιμοποιώντας οντολογίες και επαναληπτικές διαδικασίες που υποστηρίζουν την συνεχή εξαγωγή και συγχώνευση σημασιολογικής πληροφορίας από διαφορετικά μέσα για τον πληθυσμιακό εμπλουτισμό των οντολογιών, και την χρήση αυτών των οντολογιών για την βελτίωση της διαδικασίας εξαγωγής σημασιολογικής πληροφορίας Συνδυασμός διαφορετικών δεδομένων για την εξαγωγή ακριβέστερης πληροφορίας επιλογή του τρόπου συγχώνευσης ανάλογα με χειριζόμενα μέσα και την σημασιολογική πληροφορία που πρέπει να εξαχθεί Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 9
Εξαγωγή πληροφορίας Σκοπός η εξαγωγή δομημένης πληροφορίας από μη δομημένα έγγραφα Είσοδος Αναγνώριση Οντοτήτων Εξαγωγή Σχέσεων Γνώση για την θεματική περιοχή Ερμηνεία Δομημένη Πληροφορία Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 10
Οντολογίες Η οντολογία είναι μια επίσημη, ρητή προδιαγραφή μιας κοινής εννοιοποίησης μιας θεματικής περιοχής formal, explicit specification of a shared conceptualisation [Gruber, 1994] επίσημη : αναγνώσιμη και κατανοητή από Η/Υ κοινής : αποδεκτής από μια ομάδα ή κοινότητα Μέσο διαμοιρασμού και επαναχρησιμοποίησης γνώσης Μέσο για την περιγραφή σημασιολογικής πληροφορίας μιας θεματικής περιοχής Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 11
Εξαγωγή πληροφορίας + Οντολογίες Στόχος η αναγνώριση και η ρητή αναπαράσταση της γνώσης για τον κόσμο (θεματική περιοχή) Είσοδος Αναγνώριση Οντοτήτων Εξαγωγή Σχέσεων Γνώση για την θεματική περιοχή Γνώση θεματικής περιοχής Ερμηνεία Δομημένη Πληροφορία Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 12
Επισκόπηση Παρουσίασης Κίνητρα και προκλήσεις Εξαγωγή πληροφορίας και Οντολογίες Η προσέγγιση του BOEMIE Πλεονεκτήματα Ερμηνεία μέσω συλλογιστικής Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 13
Το έργο BOEMIE - ανατροφοδότηση Ειδικός θεματικής περιοχής Σύστημα εμπλουτισμού οντολογίας Εμπλουτισμός Οντολογίας Εξαχθείσα σημασιολογία Στιγμιότυπα, έννοιες, σχέσεις Οντολογία Γνώση θεματικής περιοχής Άλλα δεδομένα Εξαγωγή πληροφορίας Τελικός χρήστης Δεδομένα Web Σύστημα εξαγωγής πληροφορίας Δεδομένα εκπαίδευσης (επισημειωμένα με την αρχική οντολογία) Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 14
Στα παρασκήνια του ΒΟΕΜΙΕ Σύντηξη Ερμηνεία Web Ontology Language (OWL) Ανάλυση Χαμηλού Επιπέδου Οπτική Πληροφορία Μη Οπτική Πληροφορία Image Video Video OCR Audio Text Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 15
Face Body Pole Στα παρασκήνια του ΒΟΕΜΙΕ Ανάλυση χαμηλού επιπέδου μέσου με οπτική πληροφορία Objects Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 16
Face Body Pole Στα παρασκήνια του ΒΟΕΜΙΕ Ερμηνεία μέσου με οπτική πληροφορία Pole vault trial Person, Pole vaulter Abstract concepts Objects Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 17
Person Name Country Στα παρασκήνια του ΒΟΕΜΙΕ Ανάλυση χαμηλού επιπέδου κειμένου Yelena Isinbayeva of Russia on her way to victory (Getty Images) Words Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 18
Person Name Country Στα παρασκήνια του ΒΟΕΜΙΕ Ερμηνεία κειμένου Yelena Isinbayeva of Russia on her way to victory (Getty Images) Abstract concepts Person Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 19
Face Body Pole Person Name Country Στα παρασκήνια του ΒΟΕΜΙΕ Σύντηξη πληροφορίας Yelena Isinbayeva of Russia on her way to victory (Getty Images) Person, Pole vaulter Pole vault trial Person, Pole vaulter Person Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 20
Πλεονεκτήματα προσέγγισης ΒΟΕΜΙΕ (1) Στο ΒΟΕΜΙΕ χρησιμοποιήθηκε συλλογιστική για: Ερμηνεία από μεμονωμένους τύπους μέσων Σύντηξη ανάμεσα σε όλους τους τύπους μέσων Η χρυσή τομή αποφασίστηκε βάση της υπόθεσης: Σε έναν πολυμεσικό έγγραφο δεν αναγνωρίζονται οντότητες, αλλά ιδιότητες οντοτήτων Το όνομα είναι μια ιδιότητα ενός αντικειμένου όχι το αντικείμενο Αποφάσεις μέσω συλλογιστικής: Οι οντότητες που θα δημιουργηθούν Οι σχέσεις μεταξύ οντοτήτων Τα γεγονότα που συμμετέχουν οι οντότητες Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 21
Πλεονεκτήματα προσέγγισης ΒΟΕΜΙΕ (2) Οι έννοιες χωρίζονται σε δύο κατηγορίες: Έννοιες μεσαίου επιπέδου (MLCs): αντιστοιχούν σε ιδιότητες π.χ. ονόματα, γένη, εθνικότητες, ηλικίες, μέλη του σώματος, θόρυβοι, κλπ. Έννοιες υψηλού επιπέδου (HLCs): αντιστοιχούν σε οντότητες π.χ. άτομα, αθλητικά γεγονότα, κλπ. Ο διαχωρισμός σε MLCs/HLCs εξαρτάται από τον τύπο του μέσου Διαφορετικοί τύποι μέσων μπορεί να έχουν διαφορετικό διαχωρισμό αλλά κοινή οντολογία Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 22
Επισκόπηση Παρουσίασης Κίνητρα και προκλήσεις Εξαγωγή πληροφορίας και Οντολογίες Η προσέγγιση του BOEMIE Πλεονεκτήματα Ερμηνεία μέσω συλλογιστικής Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 23
Ερμηνεία μέσω συλλογιστικής Στο ΒΟΕΜΙΕ χρησιμοποιείται μείγμα επαγωγικής και απαγωγικής συλλογιστικής Η συλλογιστική οδηγείται από ένα σύνολο κανόνων Κανόνες δύο ειδών: επαγωγικοί και απαγωγικοί Υλοποίηση βασισμένη στον RacerPro http://www.racer-systems.com/ Περισσότερες λεπτομέρειες: Irma Sofia Espinosa Peraldi, Atila Kaya, Sylvia Melzer, and Ralf Moller "On Ontology Based Abduction for Text Interpretation". In the 9th International Conference on Intelligent Text Processing and Computational Linguistics. February 17 to 23, 2008, Haifa, Israel. E. Iosif, G. Petasis and V. Karkaletsis. "Ontology-Based Information Extraction under a Bootstrapping Approach". M. T. Pazienza, Arm and. Stellato eds. Hershey, PA, USA : IGI Global. 2012. pp. 1-21, ISBN 9781466601888. Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 24
Έχοντας: Απαγωγή (abduction) Μια βάση γνώσης (knowledge base) Σ = T, A Ένα σύνολο ισχυρισμών (assertions) Γ Π.χ. τους ισχυρισμούς της ερμηνείας (semantic interpretation) ενός εγγράφου Η απαγωγή παράγει σύνολα συμπερασμάτων (ερμηνείες - interpretations) Δ, ώστε Σ Δ Γ με τους ακόλουθους όρους να έχουν ικανοποιηθεί: a) Σ Δ να μπορεί να ικανοποιηθεί, και b) Το Δ είναι μια συνοπτική ερμηνεία του Γ π.χ. Δ Δ ώστε Σ Δ Δ Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 25
Ερμηνεία μέσω απαγωγής (1) Υποθέτοντας τα ακόλουθα: Άλμα επί Κοντώ Παράδειγμα ενός Σ (TBox + κανόνες) ABox Γ (αποτέλεσμα ανάλυσης) Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 26
Ερμηνεία μέσω απαγωγής (2) Το Γ χωρίζεται σε : Γ 1 (bona fide ισχυρισμών), και Θεωρούνται πάντα σαν αληθείς Γ 2 (fiat ισχυρισμών) Ισχυρισμοί που πρέπει να ερμηνευτούν Αφού το Γ 1 είναι πάντα αληθές: Σ Γ 1 Δ Γ 2 Για κάθε ισχυρισμό του Γ 2 δημιουργείται ένα ερώτημα Q 1 ( ) near bar 1, human 1 Γ2 Γ1 Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 27
Ερμηνεία μέσω απαγωγής (3) Μέσω του ερωτήματος, ένα σύνολο ερμηνειών μπορεί να ανακτηθεί: Οι ερμηνείες βαθμολογούνται: Μέσω ευριστικού βασισμένου στον αριθμό των οντοτήτων που έχουν υποτεθεί και τον αριθμό των εμπλεκομένων ισχυρισμών από το σύνολο Γ 1 Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 28
Ερμηνεία μέσω απαγωγής (4) Η Δ 2 είναι η ερμηνεία με την καλύτερη βαθμολογία Η Δ 1 έχει μια επιπλέον υποτιθέμενη οντότητα Η Δ 3 δεν χρησιμοποίει το Pole από το Γ 1 Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 29
Παράδειγμα ερμηνείας σε κείμενο Για την ερμηνεία αυτών των γεγονότων χρησιμοποιούνται υπηρεσίες reasoning και μια οντολογία σχετική με Στίβο. Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 30
SportsEvent starts ends t-p-i-c Name StartDate EndDate city t-p-i-c POI Country t-p-i-c starts StartDate EndDate SportsCompetition ends t-p-i-c City Name SportsTrial Name SportsRound starts Date has-performance has-ranking icipant Ranking Performance Person has-nationality is-a PoleVault Name has-gender Gender is-participant-of is-a has-age Age Country Athlete is-participant-of Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 31 is-a PoleVaulter
SportsEvent Name_810 Date_878 starts EndDate ends City_1308 t-p-i-c t-p-i-c POI Country_2286 Date_877 t-p-i-c starts EndDate SportsTrial SportsCompetition ends t-p-i-c City_1309 Name_1442 Name SportsRound starts Date has-performance has-ranking icipant Ranking_1572 Performance_2262 Person has-nationality is-a PoleVault Name_4474 has-gender Male_326 is-participant-of is-a has-age Age Country_2310 is-participant-of Athlete is-a PoleVaulter Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 32
Name_810 Date_878 starts EndDate ends City_1308 t-p-i-c SportsEvent t-p-i-c ;;; SportsEventName associated-with Country (define-rule (?x?y associated-with) SportsTrial (and (?w SportsEvent) (?w?x ) has-performance (?x SportsEventName) has-ranking (?w?y takesplace-in-country) (?y Performance_2262 Ranking_1572 Country))) POI Country_2286 Date_877 t-p-i-c starts Abduction rules for each extracted relation: EndDate SportsCompetition ends t-p-i-c City_1309 icipant Name_1442 Name Person has-nationality SportsRound starts Date is-a PoleVault Name_4474 has-gender Male_326 is-participant-of is-a has-age Age Country_2310 is-participant-of Athlete is-a PoleVaulter Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 33
SportsEvent_01 Name_810 starts ends t-p-i-c t-p-i-c Date_878 EndDate City_1308 POI Country_2286 Date_877 t-p-i-c starts EndDate SportsCompetition ends t-p-i-c City_1309 Name_1442 SportsTrial Name SportsRound starts Date has-performance has-ranking icipant Ranking_1572 Performance_2262 Person has-nationality is-a PoleVault Name_4474 has-gender Male_326 is-participant-of is-a has-age Age Country_2310 is-participant-of Athlete is-a PoleVaulter Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 34
SportsEvent_01 Name_810 starts ends t-p-i-c t-p-i-c Date_878 EndDate City_1308 POI Country_2286 Date_877 ;;; SportsEventName associated-with City (define-rule (?x?y associated-with) (and (?w SportsEvent) SportsTrial (?w?x ) (?x SportsEventName) (?w?y takesplace-in-city) has-performance icipant (?y City))) has-ranking t-p-i-c starts EndDate SportsCompetition ends t-p-i-c City_1309 Name_1442 Name SportsRound starts Date Ranking_1572 Performance_2262 Person has-nationality is-a PoleVault Name_4474 has-gender Male_326 is-participant-of is-a has-age Age Country_2310 is-participant-of Athlete is-a PoleVaulter Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 35
SportsEvent_01 Name_810 starts ends t-p-i-c t-p-i-c Date_878 EndDate City_1308 POI Country_2286 Date_877 t-p-i-c starts EndDate SportsCompetition ends t-p-i-c City_1309 Name_1442 SportsTrial Name SportsRound starts Date has-performance has-ranking icipant Ranking_1572 Performance_2262 Person has-nationality is-a PoleVault Name_4474 has-gender Male_326 is-participant-of is-a has-age Age Country_2310 is-participant-of Athlete is-a PoleVaulter Γλωσσική Τεχνολογία, Μάθημα 12 ο, Γλωσσική επεξεργασία πολυμεσικών δεδομένων 36