Byron Georgantopoulos, Stelios Piperidis

ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΟΡΩΝ ΜΕ ΧΡΗΣΗ ΓΡΑΜΜΑτΙΚΗΣ ΠΡΟΤΥΠΩΝ Βύρων Γεωργαvτόπουλος, Στέλιος Πιπερίδης Περίληψη Στο άρθρο αυτό παρουσιάζονται τα πρώτα αποτελέσματα μιας μεθόδου αυτόματης εξαγωγής όρων από σώματα κειμένων. Η μέθοδος στηρίζεται στην εφαρμογή μιας γραμματικής προτύπων που χρησιμοποιεί το φορμαλισμό ενοποίησης (feature-structure unification} και τελεστές κανονικών εκφράσεων-γραμματικών {regular expressions). τ ο σώμα κειμένων που χρησιμοποιήθηκε είναι ένα εγχειρίδιο οδηγιών της Hewlett-Packard μεγέθους περίπου 90000 λέξεων που περιελάμβανε έναν κατάλογο όρων έναντι του οποίου αξιολογήθηκαν τα αποτελέσματα της μεθόδου. Η μέθοδος εξήγαγε 124 από τους 214 όρους που είχαν εξαχθεί χειρωνακτικά, παρουσιάζοντας ποσοστό ανάκτησης (recall) 58%. AUTOMAτiC TERM EXTRACτiON BASED ΟΝ PATTERN GRAMMARS Byron Georgantopoulos, Stelios Piperidis Abstract ln this paper, we present a method for the automatic extraction of terms from machine readable text corpora. The method is based aπ a pattern grammar endowed with regular expressions and feature structure unification capacity. The text corpus we haνe used consisted of a sottware manual by HeiNiett. Packard extending to around 90000 wordforms, containing a term index against which the resu1ts of the method were eva1uated. The method extracted 124 out of 214 manually coded terms, featuring a 58'% reca\1. 267

ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΟΡΩΝ ΜΕ ΧΡΗΣΗ ΓΡΑΜΜΑΥΙΚΗΣ ΠΡΟΥΥΠΩΝ Βύρων Γεωργαντόπουλος, Στέλιος Πιπερίδης 1. Εισαγωγή Στο άρθρο αυτό παροuσιάζονται τα πρώτα αποτελέσματα μιας μεθόδοu αυτόματης εξαγωγής όρων από σώματα κειμένων. Η αuτόματη εξαγωγή όρων αποκτά ιδιαίτερο ενδιαφέρον σήμερα που μεγάλοι όγκοι κειμένων παράγονται πλέον ηλεκτρονικά, γεγονός που οδηγεί στην διατύπωση νέων απαιτήσεων για την διαχείριση και επεξεργασία τους (αυτόματη ταξινόμηση, ανάκτηση πληροφοριών, κλπ). Η εφαρμογή σuστημάτων γλωσσικής τεχνολογίας για την ικανοποίηση των αναγκών αuτών απαιτεί την προσαρμογή (customisation) του συστήματος στην θεματική περιοχή, το γνωστικό πεδίο, των προς επεξεργασία κειμένων. Βασικό βήμα στην διαδικασία αυτή αποτελεί η βελτrωση και ο εμπλουτισμός των γλωσσικών πόρων (language resources) με την ενσωμάτωση της κατάλληλης ορολογίας. Η εφαρμογή μεθόδων αυτόματης εξαγωγής όρων προσφέρει μια έγκυρη, γρήγορη και χαμηλού κόστους λύση στην διαδικασία προσαρμογής. Η εξαγωγή όρων βρ(σκει πολλές εφαρμογές στο χώρο της επεξεργασ(ας φυσικής γλώσσας και ειδικά με τον διαρκώς αυξανόμενο όγκο ηλεκτρονικών κειμένων σήμερα: δεικτοδότηση κειμένων (text indexing) - οι εξαγόμενοι όροι χρησιμοποιούνται απεuθεrας στον κατάλογο όρων του κειμένου κατηγοριοπο(ηση-ταξινόμηση κειμένων (text classificalion) παρόμοιους όρους ταξινομούνται στην (δια θεματική περιοχή κε(μενα με ανάκτηση/εξαγωγή πληροφορfας (information retrieνal/extraction) - ο χρήστης αναζητά κείμενα ποu τον ενδιαφέρουν με τη μορφή ερωτήσεων αποτελούμενων από όρους-κλειδιά. Από όλα τα διαθέσιμα κείμενα επιστρέφονται μόνο αυτά που περιέχουν αuτούς τους συγκεκριμένους όρους κατασκευή περ(ληψης (text abstracting/summarisation) - οι προτάσεις που περιέχουν όρους του κειμένου είναι κατά κανόνα και οι σημαντικότερες προτάσεις, αυτές ποu υποδηλώνουν σαφέστερα το περιεχόμενό τοu. 268

παραλληλοπο(ηση κειμένων (text alignment) όροι της μιας γλώσσας αντιστοιχούν συνήθως σε έναν μόνο όρο μιας άλλης γλώσσας 2. Μεθοδολογικές προσεγγίσεις Σαν όρους ενός κειμένου ορίζουμε γενικά τις γλωσσικές πραγματώσεις των εννοιών ενός κειμένου. Δύο είναι οι βασικές μεθοδολογικές τάσεις στην εξαγωγή όρων σήμερα: 1. Με χρήση μιας ειδικά σχεδιασμένης γραμματικής όρων (συνήθως ελεύθερης συμφραζομένων), η οποfα εφαρμόζεται σε κείμενα κατάλληλα γραμματικά σχολιασμένα και εξάγει όσες φράσεις αναγνωρίζονται από αυτή τη γραμματική [1]. 2. Με χρήση στατιστικών εργαλείων αντίστοιχων με αυτά που χρησιμοποιούνται για εφαρμογές ανάκτησης πληροφοριών και δεικτοδότησης κειμένων. Στα εργαλεία αυτά περιλαμβάνονται μετρήσεις συχνοτήτων, μετρικές από τη θεωρία πληροφορiας, μετρικές που υπολογίζουν τα συμφραζόμενα των λέξεων κ.α.[2], [9] Αξίζει να σημειωθούν κάποιες διαφορές ανάμεσα στις δύο αυτές μεθόδους. Η γραμματική όρων περιγράφει τη συντακτική δομή που πρέπει να ικανοποιεί κάθε έγκυρος όρος, χωρfς να αποκλείεται το ενδεχόμενο αυτές α συντακτικές δομές να ικανοποιούvrαι και από άλλες ακολουθίες λέξεων που δεν θεωρούνται σωστο( όροι. Αν, για παράδειγμα, ένας από τους κανόνες περιγράψει ότι ένα επίθετο και ένα ουσιαστικό συγκροτούν έναν όρο, η εφαρμογή της γραμματικής στην προηγούμενη πρόταση θα επιστρέψει ως αποτέλεσμα τις φράσεις "συντακτικές δομές", "έγκυρος όρος" και ''σωστοί όροι". Για τη θεματική κατηγορία του παρόντος κειμένου, ο πρώτος όρος είναι αποδεκτός, ο δεύτερος αποδεκτός σε ευρύτερο πλαίσιο αλλά ο τρίτος όχι. Η αδυναμία της γραμματικής έγκειται στο ότι εφαρμόζει τοuς κανόνες της χωρfς διάκριση, περιγράφοντας την ικανή αλλά όχι και αναγκαία συνθήκη για να είναι μια ακολοuθfα λέξεων όρος. Επιπλέον μπορεί να εντοπfσει μόνο όρους με περισσότερες από μ{α λέξεις, μιας και μόνο σε αυτούς μπορεf να αποδοθεί συντακτική δομή. Συμπερασματικά, ο απώτερος στόχος μιας γραμματικής όρων ε(ναι ο εντοπισμός σε ένα πρώτο στάδιο "υποψήφιων όρων". Η στατιστική προσέγγιση στηρίζεται στην υπόθεση ότι οι όροι, ως λέξεις ή φράσεις που είναι χαρακτηριστικές της θεματικής περιοχής του κειμένου, έχουν την τάση να εμφανίζονται συχνά. Η συχνότητα επιδέχεται δύο διαφορετικές ερμηνείες: (1\ συχνότερα aπό ότι σε ένα κείμενο που δεν ανήκει στη συγκεκριμένη θεματική περιοχη 269

και (2) απλά συχνότερα από τις άλλες λέξεις ή φράσεις του κειμένου. Με βάση αυτή τη συγκριτική αντίληψη, για κάθε φράση υπολογίζεται ένα βάρος που εκφράζει τη σημασία της για το κείμενο, εξαιρώντας τις γραμματικές λέξεις, άρθρα, αντωνυμίες, προθέσεις κλπ. οι οποίες εμφανίζουν αρκετά υψηλή συχνότητα σε οποιοδήποτε κείμενο αλλά δεν θεωρούνται όραι. Οι φράσεις για τις οποίες υπολογίζεται το μεγαλύτερο βάρος παρουmάζουν την μεγαλύτερη πιθανότητα να είναι οι όροι του κειμένου. Στα χαρακτηριστικά της προσέγγισης αυτής είναι η δυνατότητα εντοπισμού μονολεκτικών όρων. Στα μειονεκτήματά της καταγράφεται η αδυναμία να εξάγει όρους που δεν ικανοποιούν τα στατιστικά κριτήρια, καθώς είναι πιθανό έγκυροι όροι να εμφανίζονται μόνο μία ή γενικά λίγες φορές στο κείμενο. Τέλος, η επιλογή της στατιστικής φόρμουλας επηρεάζει την αποδοτικότητα της προσέγγισης αυτής, με τρόπο ανάλογο με αυτόν που η καλυmικότητα της γραμματικής επηρεάζει την προηγούμενη προσέγγιση. Αλλες προσεγγίσεις συνδυάζουν την στατιστική επεξεργασία με την γλωσσολογική μοντελοποίηση [3], [4], [5], [6]. Πρόκειται για υβριδικά συστήματα που αρχικά δημιουργούν μια λίστα υποψήφιων όρων με τη βοήθεια γραμματικών και στη συνέχεια "φιλτράρουν" αυτούς τους όρους με στατιστικά εργαλεία ώστε να απομακρύνουν τους όρους εκείνους που ικανοποιούν μεν τη γραμματική, αλλά δεν είναι χαρακτηριστικοί της θεματικής περιοχής του κειμένου ώστε να αποτελούν έγκυρους όρους. 3. Περιγραφή της μεθόδου Η μέθοδος που περιγράφεται στο άρθρο αυτό έχει στόχο την εξαγωγή υποψήφιων όρων, η εγκυρότητα των οποίων θα ελεγχεί χειρωνακτικά. Τα βασικά στάδια της μεθόδου συνίστανται σε : α. γραμματικό χαρακτηρισμό με βάση ένα μορφολογικό λεξικό και ένα σύστημα κανόνων για επίλυση μορφολογικών αμφισημιών β. συντακτική ανάλυση με βάση μια γραμματική προτύπων γ. λημματοποίηση με βάση το μορφολογικό λεξικό και την γραμματική κατηγορία που προκύmει από τον γραμματικό χαρακτηρισμό. Το διάγραμμα ροής της μεθόδου απεικονίζεται στο παρακάτω σχήμα: 270

Κανόνες της γραμματικής προτύπων Μετατpοm] σε πεπερασμένα αυτόματα Σώμα =: Γραμματικός =: Γραμματική ~ Λημματοποιητής h Λίστα υποψήφιων όρων κειμένων χαρακτηριστής προτύπων σε κανονική μορφή ''{πολογισμός Κατάλογος όρων Γραμματικός χαρακτηριστής Λίστα όρων σε κανονική μορφή ανάκτησης/ακρίβειας (recall/pre-cision) / Η γραμματική που χρησιμοποιήθηκε για την συντακτική ανάλυση είναι ένα υποσύνολο της γραμματικής προτύπων που παρουmάστηκε στο [8]. Πρόκειται για μια γραμματική που χρησιμοποιε( το φορμαλισμό ενοποfησης (feature-structure unifιcation) και τελεστές κανονικών εκφράσεων-γραμματικών (regular expressions). Για παράδειγμα, το πρότυπο πα.ι περιγράφει όρους της μορφής ΟΥΣΙΑΣτΙΚΟ ΠΡΟΘΕΣΗ ΟΥΣΙΑΣτΙΚΟ έχει την παρακάτω διατύπωση: term_ pattern : (cat = Νο term = τt;tc), Λ(cat = Pn type = Cl), [[ (cat = Pp type = Sp); Λ (cat = At 271

gender = G number =Ν case = C)] ; (cat = Pp type = Pa gender = G number =Ν case = C)], (cat = Νο term = τt;tc gender = G number =Ν case = C). Το σύμβολο υποδηλώνει προαιρετικότητα (Ο ή 1 εμφάνιση) και το σύμβολο ';' ε(ναι ο διαζευκτικός τελεστής. Ο βασικός περιορισμός που εκφράζεται από το παραπάνω πρότυπο ε(ναι η συμφωv(α αριθμού, γένους και πτώσης για τα επιμέρους στοιχεία του όρου (ουσιαστικά, άρθρο, κλπ). Από την γραμματική του [8] που αριθμούσε 77 κανόνες κωδικοποιήθηκε ένα υποσύνολο που αναγνωρίζει δ(λεκτους και τρίλεκτους όρους. Κάθε κανόνας μετατράπηκε σε ένα πεπερασμένο αυτόματο (fιnite-state aυtomaton) ενισχυμένο (1) με δυνατότητες ενοποίησης συντακτικών χαρακτηριστικών και (2) με τελεστές κανονικών εκφράσεων. Τα χαρακτηριστικά αυτά, όπως φαίνεται aπό το παράδειγμα, μπορεί να είναι η γραμματική κατηγορία (ουmαστικό, άρθρο, επ(ρρημα, κλπ.) ή χαρακτηριστικά υποκατηγοριοποίησης όπως γένος, πτώση, αριθμός, έγκλιση, φωνή κλπ. Οι τελεστές κανονικών εκφράσεων περιλαμβάνουν τελεστές όπως προεραιτικότητα, επανάληψη, διάζευξη κλπ. Το σώμα κειμένων που χρησιμοποιήθηκε για την εφαρμογή της μεθόδου ε(ναι ένα εγχειρ(διο οδηγιών της Hewlett-Packard μεγέθους περ(που 90000 λέξεων. Το κείμενο αυτό επιλέχτηκε επειδή συμπεριλάμβανε έναν κατάλογο όρων έναντι του οπο(ου αξιολογούνται τα αποτελέσματα της μεθόδου. Κατά την αξιολόγηση χρηmμοποιείται η κανονική μορφή των όρων στην οπο(α κάθε λέξη αντικαθ(σταται από το λήμμα της. 272

4. Αποτελέσματα - εκτιμήσεις Η αξιολόγηση των αποτελεσμάτων βασίστηκε στην σύγκριση των όρων που εξάγει η μέθοδος με τους όρους που απαρτίζουν τον κατάλογο όρων που συνόδευε το κείμενο. Προηγουμένως όλοι οι όροι μετασχηματίστηκαν σε μια κανονικοποιημένη μορφή η οποία περιλαμβάνει μόνο τα λήμματα των λέξεων. Με αυτόν τον τρόπο ταυτίστηκαν όροι που περιείχαν τις fδιες λέξεις ελάχιστα διαφοροποιημένες, π.χ. στην πτώση. Για παράδειγμα, ο όρος δεfκτης επιλογής του καταλόγου όρων απαντάται στο κείμενο μόνο ως δεfκτη επιλογής. Εξαιρώντας τους μονολεκτικούς όρους, το κατάλογος όρων του κειμένου περιεfχε συνολικά 214 όρους. Η μέθοδος εξήγαγε 4729 όρους από τους οπaιους 124 περιλαμβάνονταν στους 214 σωστούς όρους. Υπολογίστηκαν έτm: ποσοστό ανάκτησης (recall) 124/214 = 58% ποσοστό ακρfβειας (precision) 124/4729= 2,6%. Το ποσοστό ανάκτησης κρίνεται ικανοποιητικό. Μελέτη των όρων που δεν εντοπfστηκαν έδειξε ότι το 17% από αυτούς περιείχε μη ελληνικές λέξεις, λέξεις που δεν περιέχονταν στο λεξικό του γραμματικού χαρακτηριστή ή λέξεις για τις οποfες ο γραμματικός χαρακτηριστής απέδιδε λανθασμένη γραμματική κατηγορία. Ποσοστό 8,8% ήταν όραι αποτελούμενοι από 4 λέξεις, ενώ η γραμματική περιελάμβανε κανόνες κάλυψης όρων μέχρι 3 λέξεων. Αντίθετα, το ποσοστό ακρίβειας εfναι χαμηλό, γεγονός αναμενόμενο που αποδfδεται στην εγγενή ιδιότητα των γραμματικών να παράγουν περισσότερες υποψήφιες φράσεις επειδή οι κανόνες τους εfναι γενικοf και παραμένουν πάντα στο συντακτικό επίπεδο. Η παρούσα γραμματική προτύπων μπορεf να εμπλουτιστεf με επιπλέον χαρακτηριστικά που θα βελτιώσουν την αποδοτικότητά της. Σε αυτά περιλαμβάνονται: ο Η στατιστική επεξεργασfα (με μεθόδους όπως: μετρήσεις συχνοτήτων, υπολογισμός βάρους με τfidf [11], NC-νalυe [7], log-likelihood, mutυal information [2]) των όρων που εξάγει η γραμματική ώστε να προκριθούν οι έγκυροι όροι του κειμένου. Η κωδικοπάηση στο πεπερασμένο αυτόματο κανόνων που αναγνωρίζουν όρους μεγαλύτερου μήκους. ο Η χρήση μόνο του μέγιστου σε κάλυψη όρου, σε περ(πτωση που αυτός εμπεριέχει μικρότερους σε μήκος όρους. ΚατΏυτόν τον τρόπο α ανακτώμενοι όροι μειώνονται σημαντικά. 273

Ο αποκλεισμός των λειτουργικών λέξεων (functional words) από τους όρους κατά τη διαδικασ(α αξιολόγησης. Η χρηmμοπο(ηση επιπλέον συντακτικής πληροφορ(ας (όπως η κεφαλή στις ονοματικές φράσεις) ώστε να ταυτ(ζονται ονοματικές φράσεις με το (διο περιεχόμενο αλλά με διαφορετική σειρά λέξεων (π.χ. εταιρrες κατασκευών, κατασκευαστικές εταφfέ:ς). 5. Αναφορές [1] Bourigault D. (1992). Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases. Proceedings of the 14'h lnternational Conference on Computational Linguistics. [2] Church Κ. W. and Hunks Ρ. (1990) Word Association, Norms, Mutual lnformation, And Lexicography Comρutational Linguistics, Vol16, Number 1. [3] Dagan Ι. and Church Κ. W. (1994) Termight: ldentifying and Translating Techical Terminology. Proceedings of the EACL 1994. [4] Daille Β., Gaussier Ε., Lange J. Μ.,(1994) Towards automatic extraction of monolingual and bilingual terminology, Proceedings of COLING 94, pp 515-521. [5] Daille Β. (1994), Study and implementation of combined techniques for automatic extraction of Terminology. in The Balancing Act: Combining Symbolic and Statistical Aρproaches to Languages, Workshop at the 32nd Annual Meeting of ACL, Las Cruces, Nouνeau Mexique. [6] Frantzi Κ. and Ananiadou S.,(1996) Extracting nested collocations, Proceedings of COLING 96, pp 41-46. [7] Frantzi, Κ. Τ. and Ananiadou, S. (1997) Automatic term recognition using contextual clues, Proceedings of Mulsaic 97, IJCAI, Japan [Β] Gaνriilidou Μ, Lambropoulou Ρ. Report on the Constituent Grammar, RENOS project, LREI- 62-048, Athens, 1994 274

[9] Hatcher A.J. (1960) An introduction to the analysis of English noun compounds. ln Word, 16, 356-373. [10] Smadja F. Α. and McKeown Κ. R. (1990) Automatically Extracting and Representing Collocations For Language Generation, Proceedings of the 28'" annual Meeting of the ACL. [11] Salton, G. (1989), Automatic text processing : the transformation, analysis, and retrieval of information by computer, Reading, Mass. Wokingham : Addison-Wesley. Βύρων Γεωρyαντόποuλος Στέλιος Πιπερ!δης Ινστιτούτο Επεξερyασιας Λόγου Μάρyαρη 22, 115 25 Αθήνα {byron, spip)@ilsp.gr 275