ΓΛΩΣΣΙΚΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΤΗΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΔΟΜΗΣ ΤΩΝ ΓΕΓΟΝΟΤΩΝ Χάρης Παπαγεωργίου, Προκόπης Προκοπίδης, Ελίνα Δεσύπρη, Μαρία Κουτσομπόγερα & Κανέλλα Πουλή Ινστιτούτο Επεξεργασίας του Λόγου xaris@ilsp.gr, prokopis@ilsp.gr, elina@ilsp.gr, mkouts@ilsp.gr, kanella@ilsp.gr Abstract In this paper we give an overview of our approach to the implementation and use of innovative text processing technologies. Our goal is to develop, on the basis of predicate-argument lists, a fact extraction application that will allow us to automatically recognize semantic relations between the most significant facts of predefined domains represented in our corpus collection (transcripts and web texts). Taking into account the latest developments in this field, as well as a text processing infrastructure already developed at ILSP, we report on the methodology followed in the implementation of the fact extraction module. 1. Εισαγωγή Στο άρθρο αυτό παρουσιάζουμε μια πλατφόρμα καινοτομικών τεχνολογιών επεξεργασίας κειμένου, εστιάζοντας κυρίως στην αυτόματη εξαγωγή σημασιολογικής πληροφορίας με βάση τα γεγονότα (facts) και τη γλωσσολογική δομή τους (predicate argument structure). Οι τεχνολογίες που παρουσιάζονται δέχονται δυο διαφορετικά είδη εισόδου: α) το αποτέλεσμα της αυτόματης μεταγραφής ελληνικού προφορικού λόγου από ραδιοτηλεοπτικά προγράμματα τα οποία συνθέτουν το μεγαλύτερο μέρος του υλικού και β) κείμενα προερχόμενα από ιστότοπους. Το σενάριο επεξεργασίας διαφοροποιείται ανάλογα με την είσοδο: τα πρωτογενή κειμενικά δεδομένα επιτρέπουν την ανάπτυξη μεθοδολογιών που αξιοποιούν σημασιολογική πληροφορία ανώτερου επιπέδου, όπως είναι οι δομές κατηγορήματος-ορισμάτων. Αντίθετα, για τα μεταγραμμένα δεδομένα προκύπτει η ανάγκη σημασιολογικών αναπαραστάσεων που βασίζονται στον εντοπισμό κειμενικών μονάδων έντασης πληροφορίας, όπως είναι οι ονοματικές οντότητες και οι όροι. Ανεξάρτητα από το σενάριο, τα αποτελέσματα της εφαρμογής σχηματοποιούνται σε λίστες κατηγορήματων ορισμάτων, όπου τα κατηγορήματα αποτελούν τον πυρήνα των γεγονότων, ενώ τα ορίσματα αντιστοιχούν στους συμμετέχοντες σε ένα γεγονός. Η προτεινόμενη πλατφόρμα πολυεπίπεδης ανάλυσης ενσωματώνει μια σειρά από βαθμίδες γλωσσικής τεχνολογίας οι οποίες έχουν αναπτυχθεί στο Ινστιτούτο Επεξεργασίας του Λόγου 1094
(ΙΕΛ), αξιοποιούν ένα σύνολο χειρωνακτικά σχολιασμένων γλωσσικών πόρων για την εκπαίδευσή τους και χρησιμοποιούν διαφορετικές κατά περίπτωση τεχνικές με στόχο την κατάλληλη επεξεργασία των δεδομένων. Η δομή του άρθρου έχει ως εξής: στην επόμενη ενότητα γίνεται αναφορά στο θεωρητικό και τεχνολογικό υπόβαθρο της εφαρμογής. Στην ενότητα 3 περιγράφονται τα δύο σενάρια που υλοποιήθηκαν και δίνονται λεπτομέρειες σχετικά με την αρχιτεκτονική τους και τα στάδια προεπεξεργασίας των δεδομένων εισόδου, ενώ τα συμπεράσματα παρατίθενται στην ενότητα 4. 2. Θεωρητικό και τεχνολογικό υπόβαθρο Η σημασιολογική αναπαράσταση της φυσικής γλώσσας θεωρείται ένα από τα πιο σημαντικά ζητήματα σε πολλές εφαρμογές Επεξεργασίας Φυσικής Γλώσσας, όπως είναι η Ανάκτηση και Εξαγωγή Πληροφορίας, η Αυτόματη Περίληψη, τα συστήματα Ερωταποκρίσεων κλπ. Ο εντοπισμός και η παρακολούθηση γεγονότων είναι από τα σημαντικότερα προαπαιτούμενα για την εξασφάλιση της σημασιολογικής ερμηνείας που απαιτούν οι εφαρμογές αυτές. Έτσι, τα γεγονότα έχουν ευρέως συζητηθεί στα πλαίσια τόσο της θεωρητικής γλωσσολογίας όσο και των εφαρμογών φυσικής γλώσσας. Έχουν διατυπωθεί ποικίλες απόψεις σχετικά με το τι ακριβώς συνιστά γεγονός και μέσω ποιας δομής εκφράζεται στα δεδομένα (Chung and Timberlake 1985; Pustejovsky 2000; Siegel & McKeown 2000). Επιπλέον, πολλές ερευνητικές προσπάθειες έχουν στραφεί στον εντοπισμό και την αναγνώριση γεγονότων (Allan et al. 1998; Filatova & Hatzivassiloglou 2003; Filatova & Hovy 2001; Yang et al. 1999). Τελικός στόχος των παραπάνω προσεγγίσεων είναι η ανάπτυξη εφαρμογών που εξάγουν αυτόματα γεγονότα και αναγνωρίζουν χωροχρονικές σχέσεις μεταξύ τους. 3. Αρχιτεκτονική Εφαρμογής Εξαγωγής Γεγονότων Η εφαρμογή εξαγωγής γεγονότων (ΕΕΓ) που αναπτύξαμε στοχεύει στην αναγνώριση γεγονότων που είναι αντιπροσωπευτικά για τους γνωστικούς τομείς του Σώματος Κειμένων (ΣΚ) που περιγράφηκε στην εισαγωγή. Λαμβάνοντας υπόψη την ποικιλομορφία του πρωτογενούς υλικού του ΣΚ (μεταγραμμένα και διαδικτυακά κείμενα) δοκιμάστηκαν διαφορετικές μεθοδολογίες προκειμένου να αντιμετωπιστούν τα δύο σενάρια που περιγράφονται στις επόμενες παραγράφους. 3.1. Σενάριο 1 Η πρώτη έκδοση της ΕΕΓ είχε ως στόχο την ανάκτηση σημασιολογικής πληροφορίας από μεταγραμμένο ελληνικό προφορικό λόγο που προκύπτει από την αυτόματη επεξεργασία του 1095
ακουστικού σήματος από ραδιοτηλεοπτικά προγράμματα. Δεδομένου του στόχου αυτού η μεθοδολογία που υιοθετείται βασίζεται σε δομές που περιλαμβάνουν τον πυρήνα της πληροφορίας έτσι όπως σχηματοποιείται από τα ρηματικά κατηγορήματα, τις ονοματικές οντότητες και τους όρους. Συγκεκριμένα, η ΕΕΓ εστιάζει σε όλα τα γεγονότα που περιλαμβάνονται στα δεδομένα του ΣΚ και είναι αντιπροσωπευτικά του εκάστοτε γνωστικού τομέα. Η έννοια της σημαντικότητας των γεγονότων ορίζεται με βάση το κατά πόσο συμβάλλουν στην αποτελεσματική δεικτοδότηση και τη σημασιολογική αναπαράσταση προκειμένου να ικανοποιηθούν οι ανάγκες των χρηστών. Βάσει αυτού του συλλογισμού, θεωρήθηκε ότι τα κατηγορήματα που συνοδεύονται από τμήματα κειμένου που αντιστοιχούν σε ονοματικές οντότητες (ΟΟ) ή/και όρους είναι πιθανό να δηλώνουν σημαντικά γεγονότα. Αυτή η υπόθεση επιβεβαιώνεται σε όλους τους γνωστικούς τομείς που έχουμε εξετάσει, καθώς οι ονοματικές οντότητες και οι όροι αντιστοιχούν σε χαρακτηριστικά που συνδέονται με τις περισσότερο πληροφοριακές περιοχές των δεδομένων. Για παράδειγμα το κύριο όνομα Καραμανλής και το τοπωνύμιο Αυστραλία αυξάνουν την πιθανότητα του αποσπάσματος «ο Κ. Καραμανλής ολοκλήρωσε την επίσκεψή του στην Αυστραλία» να αποτελεί σημαντικό γεγονός στο γνωστικό τομέα της πολιτικής. Επιπλέον, παρόμοια τμήματα κειμένου είναι πιθανόν να αντιστοιχούν σε συμμετέχοντες στα γεγονότα. Σύμφωνα με τον αλγόριθμο που υλοποιήθηκε, για κάθε πρόταση τα γεγονότα αρχικοποιούνται από τις ΟΟ που δηλώνουν πρόσωπα, τοποθεσίες και οργανισμούς ή/και τους όρους που εξάγονται έτσι όπως παρουσιάζονται στις ενότητες 3.1.2. και 3.1.3. αντίστοιχα. Όσον αφορά στο εύρος των γεγονότων, αυτό αντιστοιχεί σε όλες τις λέξεις του κειμενικού αποσπάσματος που περιλαμβάνεται μεταξύ δύο ΟΟ ή/και όρων υπό την προϋπόθεση ότι το απόσπασμα εμπεριέχει επίσης ένα ρηματικό κατηγόρημα. Ο αλγόριθμος θεωρεί ως μονάδα επεξεργασίας για την εξαγωγή γεγονότων την πρόταση, και αγνοεί τις προτάσεις στις οποίες δεν περιλαμβάνεται ΟΟ ή όρος. 3.1.1. Λεκτικός διαχωρισμός, μορφολογικός χαρακτηρισμός και λημματοποίηση Κατά τη φάση της προεπεξεργασίας τα δεδομένα εισόδου αναλύονται από τις μονάδες λεκτικού διαχωρισμού, μορφολογικού χαρακτηρισμού και λημματοποίησης. Η μονάδα λεκτικού διαχωρισμού (handler) αναγνωρίζει τα όρια των λεκτικών μονάδων και των προτάσεων, καθώς και άλλα επιφανειακά φαινόμενα, όπως στίξη, ημερομηνίες, αριθμούς κλπ. Στο επόμενο στάδιο επεξεργασίας, διενεργείται μορφολογική ανάλυση από έναν μορφολογικό χαρακτηριστή που βασίζεται στη μετασχηματιστική μέθοδο μάθησης και έχει εκπαιδευτεί σε ένα ΣΚ 250K λέξεων. Κάνοντας αναζήτηση σε ένα λεξικό που έχει δημιουργηθεί 1096
από ένα χειρωνακτικά σχολιασμένο ΣΚ, ο μορφολογικός χαρακτηριστής αποδίδει ένα αρχικό χαρακτηριστικό σε κάθε γνωστή λέξη. Στη συνέχεια, ένα λεξικό επιθημάτων χρησιμοποιείται για τον αρχικό χαρακτηρισμό των άγνωστων λέξεων. Τέλος, ένα σύνολο από συμφραστικούς κανόνες εφαρμόζεται για να βελτιώσει τα αρχικά αποτελέσματα. Η λημματοποίηση των δεδομένων βασίζεται στην έξοδο του μορφολογικού χαρακτηριστή και σε ένα μορφολογικό λεξικό της Νέας Ελληνικής που περιλαμβάνει περίπου 70K λήμματα. 3.1.2 Αναγνώριση Ονοματικών Οντοτήτων Η αναγνώριση Ονοματικών Οντοτήτων (ΟΟ) συνίσταται στον εντοπισμό και την αναγνώριση των ΟΟ που εμφανίζονται στα κειμενικά δεδομένα και εμπίπτουν στις κατηγορίες Πρόσωπο, Τόπος και Οργανισμός. Το μοντέλο αναγνώρισης ΟΟ αποδίδει μία ετικέτα σε κάθε λέξη του κειμένου με βάση το κριτήριο συμμετοχής της ή όχι σε κάποια κατηγορία ΟΟ. Η τιμή της εκάστοτε κατηγορίας ανατίθεται σε όσες λεκτικές μονάδες κρίνεται ότι ανήκουν στην αντίστοιχη κατηγορία, ενώ η τιμή Other σε όλες τις υπόλοιπες. Το μοντέλο εκπαιδεύτηκε σε ένα σύνολο λέξεων στις οποίες είχε ήδη αποδοθεί κάποια συγκεκριμένη κατηγορία. Το 10% των δεδομένων χρησιμοποιήθηκε στην αξιολόγηση του μοντέλου. Η εφαρμογή αναγνώρισης ΟΟ (MENER) αποτελεί τροποποιημένη έκδοση του συστήματος που αναπτύχθηκε από τους (Chieu & Ng 2003). Πρόκειται για μια προσέγγιση μέγιστης εντροπίας ενός επιπέδου το οποίο χρησιμοποιεί ποικίλα χαρακτηριστικά. Το σύστημα έχει εκπαιδευθεί κυρίως σε δεδομένα ελληνικής γλώσσας και στο γνωστικό τομέα των ειδήσεων. Είσοδο του συστήματος αποτελεί η λεκτική ανάλυση είτε του κειμένου που παράγεται από εργαλεία αυτόματης αναγνώρισης φωνής είτε των κειμενικών δεδομένων από ιστότοπους. Κατά την έξοδό του, το σύστημα παράγει XML αρχεία, τα οποία περιέχουν αναφορές στις λέξεις που έχουν χαρακτηριστεί ΟΟ, μαζί με μια τιμή εμπιστοσύνης που εκφράζει τη βεβαιότητα του συστήματος για την απόφαση που έλαβε. 3.1.3. Εντοπισμός όρων Σκοπός αυτής της μονάδας επεξργασίας είναι ο εντοπισμός εντός της λεκτικής ροής εισόδου, γνωστών, από το σώμα εκπαίδευσης, αλλά και άγνωστων όρων, βάσει της συντακτικής τους δομής και στατιστικών εμφάνισης. Πρόκειται για μια υβριδική μονάδα λογισμικού αποτελούμενη από το συνδυασμό ενός πεπερασμένου αυτόματου (ΠΑ) και ενός στατιστικού φίλτρου. Το ΠΑ στηρίζεται σε γραμματική προτύπων για να αναγνωρίζει και να επεξεργάζεται συντακτικές δομές όρων. Αποτέλεσμα αυτής της ανάλυσης είναι ένα σύνολο πιθανών όρων από το οποίο το φίλτρο 1097
αφαιρεί όλα τα μέλη που στερούνται στατιστικής ένδειξης. Η έξοδος της μονάδας εντοπισμού όρων είναι ένα αρχείο XML που περιέχει αναφορές στις λέξεις που έχουν χαρακτηριστεί ως όροι μαζί με μια τιμή εμπιστοσύνης που εκφράζει τη βεβαιότητα της μονάδας για την απόφαση που έλαβε. 3.1.4. Εξαγωγή γεγονότων Αφού έχουν προηγηθεί τα στάδια επεξεργασίας που μόλις αναφέρθηκαν, στην περίπτωση που τα δεδομένα εισόδου είναι το αποτέλεσμα αναγνώρισης φωνής τα δεδομένα εξόδου της εξαγωγής γεγονότων είναι XML αρχεία με λίστες κατηγορημάτων-ορισμάτων που περιλαμβάνουν ρηματικά κατηγορήματα και ΟΟ ή/και όρους όπως φαίνεται στο παρακάτω παράδειγμα. Εικόνα 1: Αναπαράσταση της εξόδου της ΕΕΓ σε XML 1 ο Σενάριο <?xml version="1.0"?> - <Media id="270405-1900-news-el"> + <SpeechProcessingMetadata> + <NamedEntityMetadata> + <TermExtractionMetadata> - <FactExtractionMetadata> - <Header type="factextractionmetadata"> <CreationTime>2007-03-28T10:00</CreationTime> <LastUpdate>2007-04-18T17:00:00+00:00</LastUpdate> <Comment>Fact Extractor output</comment> <Creator>ILSP</Creator> <Tool version="1.0">fact Extractor</Tool> </Header> - <Facts> - <Fact id="fct1"> <Fact_extent>Στο Αττικό Νοσοκομείο μεταφέρθηκε ο Αλέκος Παπαδόπουλος</Fact_extent> <Pred end="w139" start="w139">μεταφέρθηκε</pred> <Arg end="w138" id="arg1" start="w137">αττικό Νοσοκομείο</Arg> <Arg end="w142" id="arg2" start="w141"> Αλέκος Παπαδόπουλος</Arg> </Fact> </Facts> </FactExtractionMetadata> </Media> 1098
3.2. Σενάριο 2 Η δεύτερη προσέγγιση της εφαρμογής εξαγωγής γεγονότων στηρίζεται στην περαιτέρω γλωσσική επεξεργασία των δεδομένων εισόδου και τη μετεπεξεργασία των δεδομένων εξόδου. Συγκεκριμένα, γλωσσικά εργαλεία που πραγματοποιούν συντακτική ανάλυση εφαρμόζονται στα δεδομένα εισόδου της μονάδας εξαγωγής γεγονότων με στόχο να οδηγήσουν σε πιο ακριβή προσδιορισμό της έκτασης του γεγονότος. Επιπλέον, πραγματοποιείται το φιλτράρισμα της λίστας των κατηγορημάτων έτσι ώστε να αποκλειστούν τα λιγότερο πληροφοριακά κατηγορήματα (π.χ. είμαι, έχω) και να επιτευχθούν μεγαλύτερα ποσοστά ακρίβειας. Συνοπτικά, αξιοποιούνται οι ακόλουθες πληροφορίες οι οποίες προκύπτουν από την προεπεξεργασία του ΣΚ: αυτόματα αναγνωρισμένες σχέσεις εξάρτησης μεταξύ των λέξεων κάθε πρότασης δομές κατηγορήματος-ορισμάτων το αποτέλεσμα των εφαρμογών αναγνώρισης ονοματικών οντοτήτων και όρων όπως προδιαγράφηκαν στις ενότητες 3.1.2. και 3.1.3. αντίστοιχα. Την είσοδο του συστήματος αποτελούν κειμενικά δεδομένα από ιστότοπους, επεξεργασμένα από τις μονάδες λεκτικού διαχωρισμού και μορφολογικού χαρακτηρισμού. Ακολούθως, αναγνωρίζονται οι συντακτικές σχέσεις εξάρτησης. Στη συνέχεια, διενεργείται αναγνώριση ΟΟ και όρων προκειμένου να εξαχθούν τα χαρακτηριστικά που συνδέονται με τα γεγονότα που μας ενδιαφέρουν. 3.2.1. Συντακτική αναπαράσταση με σχέσεις εξάρτησης Για τον συντακτικό χαρακτηρισμό των δεδομένων χρησιμοποιήθηκε ένας συντακτικός αναλυτής (parser) με βάση τις σχέσεις εξάρτησης (dependency relations). Ως σώμα εκπαίδευσης του αναλυτή χρησιμοποιήθηκε το Greek Dependency Treebank (GDT), που αποτελεί ένα σώμα κειμένων 70Κ λέξεων και 2,9K προτάσεων σχολιασμένων χειρωνακτικά στο επίπεδο της σύνταξης και της σημασιολογίας για την ελληνική γλώσσα (Prokopidis et al. 2005). Η αναπαράσταση που ακολουθείται στο GDT στηρίζεται στα δέντρα εξάρτησης και βασίζεται στο σχήμα συντακτικού σχολιασμού που προτείνεται στο Prague Dependency Treebank-PDT (Böhmová et al. 2003). Σύμφωνα με την ανάλυση αυτή, οι προτάσεις αναπαριστώνται και σχολιάζονται ως δέντρα στα οποία κάθε λέξη αντιστοιχεί σε έναν κόμβο του δέντρου. Το ρήμα της κύριας πρότασης είναι πρωτοτυπικά ο ριζικός κόμβος του δέντρου. Οι λέξεις εξαρτώνται άμεσα από τις κεφαλές τους (τους κυβερνώντες κόμβους τους) χωρίς την παρεμβολή φραστικών κόμβων. Για κάθε εξαρτώμενο κόμβο σχολιάζεται η συντακτική σχέση του με την κεφαλή του (π.χ. υποκείμενο, αντικείμενο κλπ.). Επίσης, για κάθε κόμβο καταγράφονται πληροφορίες που 1099
αφορούν τον αυτόματο ή χειρωνακτικό μορφολογικό χαρακτηρισμό της λέξης, καθώς και το λήμμα της. Το σύνολο των 25 βασικών συντακτικών σχέσεων εξάρτησης του σχήματος σχολιασμού στηρίχθηκε στις αντίστοιχες σχέσεις του PDT, προσαρμοσμένες κατάλληλα για τις δομές της ελληνικής γλώσσας. Με στόχο τον συνεπή σχολιασμό του GDT καταρτίστηκαν οδηγίες σχολιασμού που περιγράφουν τις βασικές συντακτικές δομές της ελληνικής γλώσσας. Για κάθε συντακτική δομή δίνονται λεπτομερή παραδείγματα με στόχο την κάλυψη όλων των δυνατών περιπτώσεων. Η αναπαράσταση που βασίζεται σε σχέσεις εξάρτησης επιτρέπει περιγραφές ποικίλων φαινομένων και δομών που είναι χαρακτηριστικές για γλώσσες όπως η ελληνική. Παράλληλα, οι σχέσεις εξάρτησης σε πολλές περιπτώσεις είναι πολύ κοντά στη σημασιολογική αναπαράσταση μιας πρότασης, π.χ. Υποκείμενο-Δράστης. Στην εικόνα 2 παρατίθεται ένα παράδειγμα όπως έχει αναλυθεί χειρωνακτικά στο εργαλείο σχολιασμού TrEd (Pajas 2005): Εικόνα 2: Δέντρο εξαρτήσεων για την πρόταση Έδωσαν στο δράστη την ευκαιρία να ξεφύγει Στο δέντρο της εικόνας 2, ο κόμβος-κεφαλή της πρότασης είναι το ρήμα Έδωσαν στο οποίο αποδίδεται το χαρακτηριστικό Pred (predicate/κατηγόρημα) και προσαρτάται στον τεχνητό προτασιακό κόμβο AuxS. Οι λέξεις δράστη και ευκαιρία σχολιάζονται ως εξαρτήσεις του Pred και τους αποδίδονται τα χαρακτηριστικά Obj (άμεσο αντικείμενο) και IObj (έμμεσο αντικείμενο) αντίστοιχα. Εφόσον στο συγκεκριμένο συντακτικό σχήμα οι γραμματικές σχέσεις κωδικοποιούνται χωρίς να προϋποτίθεται κάποια πρωτοτυπική σειρά όρων (π.χ Υποκείμενο-Ρήμα-Αντικείμενο) από την οποία παράγονται μετασχηματιστικά όλες οι άλλες σειρές όρων, οι βασικές σχέσεις μιας 1100
πρότασης αναπαριστώνται με άμεσο τρόπο. Για παράδειγμα, στην εικόνα 3, το ρήμα επιδείξουν είναι η κεφαλή της πρότασης και έχει το χαρακτηριστικό Pred, ενώ οι λέξεις πλευρές και ειλικρίνεια είναι εξαρτώμενες του Pred και χαρακτηρίζονται ως Sb (υποκείμενο) και Obj (αντικείμενο) αντίστοιχα. Εικόνα 3: Δέντρο εξαρτήσεων για ένα παράδειγμα με σειρά ΡΥΑ (ρήμα-υποκείμενο-αντικείμενο) Ας επιδείξουν οι δύο πλευρές την ειλικρίνειά τους Επίσης, καθώς το σχήμα αναπαράστασης επιτρέπει μη προβολικά δέντρα, τα φαινόμενα εξαρτήσεων μεγάλης απόστασης (long-distance dependencies) και μη διαδοχικών δομών (discontinuous structures) μπορούν να σχολιαστούν όπως προσλαμβάνονται από τους φυσικούς ομιλητές. Στις περιπτώσεις εξαρτήσεων μεγάλης απόστασης, όπως π.χ. σε αναφορικές ή ερωτηματικές προτάσεις, μια ακμή που συνδέει τις αντίστοιχες αντωνυμίες ή επιρρήματα με τον κυβερνώντα κόμβο τους επιτρέπει την αναπαράσταση της σχέσης χωρίς να είναι αναγκαία η συνδεικτοδότηση με τη χρήση ίχνους. Αυτό φαίνεται στο μη προβολικό δέντρο της εικόνας 4, όπου η αντωνυμία που προσαρτάται στον κυβερνώντα κόμβο της, το ρήμα δεις. Εικόνα 4: Δέντρο για ένα παράδειγμα εξάρτησης μεγάλης απόστασης Σου δείχνουν αυτό που θέλεις να δεις 1101
3.2.2. Συντακτική ανάλυση δεδομένων Για τη αυτόματη αναγνώριση σχέσεων εξάρτησης χρησιμοποιήθηκαν οι πλατφόρμες συντακτικής ανάλυσης MaltParser (Nivre et al. 2004) και MST parser (McDonald & Pereira 2006), μέσω των οποίων αναπτύχθηκαν αντίστοιχοι συντακτικοί αναλυτές εκπαιδευμένοι στις 70Κ λέξεις του GDT. Πειράματα με τους συντακτικούς αναλυτές έδειξαν συνολικό ποσοστό επιτυχίας 78.06% για τις περιπτώσεις προσαρτήσεων στο σωστό κόμβο-κεφαλή και ποσοστό επιτυχίας 71.11% για προσαρτήσεις που συνοδεύονται από την αναγνώριση της σωστής σχέσης εξάρτησης. Η ακρίβεια και η ανάκληση για τη σχέση του Υποκειμένου ανέρχονται σε 70.94% και 76.46% αντίστοιχα. Η έξοδος του συντακτικού αναλυτή είναι ένα XML αρχείο στο οποίο η κάθε λέξη (<Word>) έχει δύο χαρακτηριστικά: α) το χαρακτηριστικό deprel που αντιστοιχεί στη σχέση εξάρτησης κάθε λέξης με την κεφαλή της και β) το χαρακτηριστικό <head> που αντιστοιχεί στο id της λέξης-κεφαλή. Για παράδειγμα, στην πρόταση: Ταυτόχρονα, ξεκαθάρισε ότι δεν πρόκειται να γίνουν αυξήσεις στα κόμιστρα των Μέσων Μαζικής Μεταφοράς, η λέξη αυξήσεις (w66) έχει χαρακτηριστεί ως υποκείμενο (Sb) του ρήματος γίνουν (w65), το οποίο είναι και η κεφαλή της: Εικόνα 5: Αναπαράσταση ενός δέντρου εξάρτησης σε XML <?xml version="1.0" encoding="iso-8859-7"?> - <Media id="080107-news-es05" xml:lang="el_gr"> - <Sent id="s1> <Word deprel="adv" head="w60" id="w59" lemma="ταυτόχρονα" tag="adxxba">ταυτόχρονα</word> <Word deprel="pred" head="" id="w60" lemma="ξεκαθαρίζω" tag="vbmnidpa03sgxxpeavxx">ξεκαθάρισε</word> <Word deprel="auxc" head="w60" id="w61" lemma="ότι" tag="cjsb">ότι</word> <Word deprel="auxv" head="w63" id="w62" lemma="δεν" tag="ptng">δεν</word> <Word deprel="obj" head="w61" id="w63" lemma="πρόκειται" tag="vbisidpr03sgxxippvxx">πρόκειται</word> <Word deprel="auxv" head="w65" id="w64" lemma="να" tag="ptsj">να</word> <Word deprel="sb" head="w63" id="w65" lemma="γίνομαι" tag="vbmnidxx03plxxpepvxx">γίνουν</word> <Word deprel="sb" head="w65" id="w66" lemma="αύξηση" tag="nocmfeplnm">αυξήσεις</word> <Word deprel="auxp" head="w65" id="w67" lemma="στου" tag="aspppaneplac">στα</word> <Word deprel="atr" head="w67" id="w68" lemma="κόμιστρο" tag="nocmneplac">κόμιστρα</word> <Word deprel="atr" head="w70" id="w69" lemma="ο" tag="atdfneplge">των</word> <Word deprel="atr" head="w68" id="w70" lemma="μέσο" tag="nocmneplge">μέσων</word> <Word deprel="atr" head="w72" id="w71" lemma="μαζικός" tag="ajbafesgge">μαζικής</word> <Word deprel="atr" head="w70" id="w72" lemma="μεταφορά" tag="nocmfesgge">μεταφοράς</word> <Word deprel="auxk" head="" id="w73" lemma="." tag="pterm_p">.</word> </Sent> </Media> 1102
3.2.3. Εξαγωγή γεγονότων Κατά το δεύτερο σενάριο λαμβάνεται υπόψη και η συντακτική αναπαράσταση όπως περιγράφηκε στην ενότητα 3.2.2. Για κάθε κατηγόρημα που επιλέγεται με βάση την συνεμφάνιση ΟΟ και όρων (ενότητα 3.1), εξάγουμε όλους τους εξαρτώμενους κόμβους (και τον τύπο εξάρτησής τους) όπως παράγονται αυτόματα από τον συντακτικό αναλυτή. Από το σύνολο των εξαρτώμενων κόμβων αφαιρούνται όσοι θεωρούνται μη ενδιαφέροντες (π.χ. βοηθητικά ρήματα) και εξάγεται η τελική λίστα των ορισμάτων για κάθε κατηγόρημα. Οι αντωνυμίες και τα αντωνυμικά επιρρήματα συμπεριλαμβάνονται στην έξοδο και διακρίνονται από τα υπόλοιπα ορίσματα. Έτσι, εκτός από τον εντοπισμό του πυρήνα του γεγονότος (του ρηματικού κατηγορήματος) αναγνωρίζουμε επίσης τους συμμετέχοντες στο γεγονός (συντακτικά ορίσματα) και τους πιθανούς προσδιορισμούς (χρονικούς, τοπικούς, κ.λπ) κάθε γεγονότος. Ακολούθως, στα αποτελέσματα της συντακτικής ανάλυσης των δεδομένων γίνεται περαιτέρω επεξεργασία από τις εφαρμογές αναγνώρισης ονοματικών οντοτήτων και εξαγωγής όρων. Τα αποτελέσματα των επιμέρους μονάδων συγχωνεύονται σε ένα ενιαίο αρχείο που αποτελεί την έξοδο της ΕΕΓ. Η έξοδος αποτελείται από μια λίστα κατηγορημάτων-ορισμάτων που περιλαμβάνει ρηματικά κατηγορήματα και τα συντακτικά τους ορίσματα όπως φαίνεται στο παρακάτω παράδειγμα της εικόνας 6: Εικόνα 6: Αναπαράσταση της εξόδου της ΕΕΓσε XML 2 ο Σενάριο <?xml version="1.0"?> - <Media id="mid_080107-news-es17-el">... - <FactExtractionMetadata> - <Header type="factextractionmetadata"></header> - <Facts> - <Fact id="fct1"> <Fact_extent>ομάδα φοιτητών προγραμματίζει συμβολική περικύκλωση της Βουλής</Fact_extent> <Pred end="w173" start="w173">προγραμματίζει</pred> <Arg deprel="sb" end="w172" id="arg3_1" pronarg="no" start="w171">ομάδα φοιτητών</arg> <Arg deprel="obj" end="w177" id="arg3_2" pronarg="no" start="w174">συμβολική περικύκλωση της Βουλής</Arg> </Fact> </Facts> </FactExtractionMetadata> </Media> 1103
4. Συμπεράσματα Η εφαρμογή εξαγωγής γεγονότων είχε ως στόχο την αναγνώριση γεγονότων που είναι αντιπροσωπευτικά για τους γνωστικούς τομείς του ΣΚ και συμβάλλουν στην αποτελεσματική δεικτοδότηση του περιεχομένου του. Η πρώτη μεθοδολογία εξαγωγής γεγονότων που παρουσιάσαμε είναι εφαρμόσιμη σε όλους τους γνωστικούς τομείς, καθώς χειρίζεται αποτελεσματικά αντιγραμματικά και σε μεγάλο βαθμό λανθασμένα δεδομένα που προκύπτουν από την αναγνώριση φωνής. Από την άλλη πλευρά, τα πειράματα που πραγματοποιήθηκαν στο μέρος του ΣΚ που αποτελείται από κειμενικά δεδομένα έδειξαν πως η προσθήκη πληροφορίας για τις συντακτικές σχέσεις εξάρτησης υπήρξε ιδιαίτερα αποτελεσματική όσον αφορά την εξαγωγή γεγονότων και τον προσδιορισμό με μεγαλύτερη ακρίβεια των ορισμάτων του γεγονότος. Ευχαριστίες Η μελέτη αυτή υλοποιήθηκε στο πλαίσιο του Ερευνητικού Έργου Σύστημα Οργάνωσης Ψηφιακού Αρχείου Ο/Α Περιεχομένου-TV++, το οποίο συγχρηματοδοτήθηκε από το Ευρωπαϊκό Ταμείο Περιφερειακής Ανάπτυξης και το Υπουργείο Ανάπτυξης (Γενική Γραμματεία Έρευνας και Τεχνολογίας), στο πλαίσιο του Μέτρου 3.3 του Επιχειρησιακού Προγράμματος «Κοινωνία Της Πληροφορίας». Βιβλιογραφία Allan, J., J. Carbonell, G. Doddington, J. Yamron & Y. Yang (1998) Topic detection and tracking pilot study: Final report. In Proceedings of the DARPA Broadcast News Trascription Workshop. Böhmová, A., J. Hajič, E. Hajičová, & B. Hladká (2003) The Prague Dependency Treebank: a three-level annotation scenario. In A. Abeillé (ed.) Treebanks: Building and using parsed corpora. Dordrecht: Kluwer Academic Publishers. Chieu, H. L. & H. T. Ng (2003) Named Entity Recognition with a Maximum Entropy Approach. In CoNLL 2003. Edmonton, Canada. Chung, S. & A. Timberlake (1985) Tense, aspect, and mood. In T. Shopen (ed.) Language Typology and syntactic description. Cambridge: Cambridge University Press, 202-258. Georgantopoulos, B. & S. Piperidis (2000) A hybrid technique for automatic term extraction. In Proceedings of International Conference on Artificial and Computational Intelligence for Decision, Control and Automation in Engineering and Industrial Applications- ACIDCA'2000, 124-128. Giouli, V., A. Konstadinidis, E. Desipri, H. Papageorgiou & S. Piperidis (2006) Multi-domain multilingual named entity recognition: re-visiting & grounding the resources issue. In Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06). Genoa, Italy. Filatova, E. & V. Hatzivassiloglou (2003) Domain-Independent Detection, Extraction and Labeling of Atomic Events. In Proceedings of the Fourth International Conference on Recent Advances in Natural Language Processing (RANLP-2003). Borovets, Bulgaria. Filatova, E. & E. Hovy (2001) Assigning time-stamps to eventclauses. In Proceedings of the workshop on Temporal and Spatial Information Processing, ACL. Toulouse, France. LDC (2005). Automatic Content Extraction, http://www.ldc.upenn.edu/projects/ace/annotation/2005tasks.html 1104
McDonald, R., K. Lerman & F. Pereira (2006) Multilingual Dependency Parsing with a Two-Stage Discriminative Parser. In Proceedings of Conference on Computational Natural Language Learning (CoNLL 2006), 216-220. Nivre, J., J. Hall & J. Nilsson (2004) Memory-Based Dependency Parsing. In Proceedings of the Eighth Conference on Computational Natural Language Learning. Boston, Massachusetts. Pajas, P. (2005). Tree Editor TrEd. http://ckl.mff.cuni.cz/pajas/tred/ Papageorgiou, H., P. Prokopidis, I. Demiros, V. Giouli, A. Konstantinidis & S. Piperidis (2002) Multi level XML based corpus annotation. In Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002). Las Palmas, Spain. Papageorgiou, H., E. Desipri, M. Koutsombogera, K. Pouli & P. Prokopidis (2006) Adding multi-layer semantics to the Greek Dependency Treebank. In Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06), Genoa, Italy. Prokopidis, P., E. Desipri, M. Koutsombogera, H. Papageorgiou & Stelios Piperidis (2005) Theoretical and practical issues in the construction of a Greek Dependency Treebank. In Proceedings of The Fourth Workshop on Treebanks and Linguistic Theories (TLT 2005), Barcelona, Spain. Pustejovsky, J. (2000) Events and the semantics of opposition. In C. Tenny and J. Pustejovsky (eds), Events as grammatical objects. Stanford, CA: CSLI Publications, 445 482. Siegel, E. V. & K. R. McKeown (2000) Learning methods to combine linguistic indicators: Improving aspectual classification and revealing linguistic insights. Computational Linguistics 26(4), 595-627. Yang, Y., J. Carbonell, R. Brown, T. Pierce, B. T. Archibald & X. Liu (1999) Learning Approaches for Detecting and Tracking News Events. IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval, 14(4), 32-43. 1105