Byron Georgantopoulos, Stelios Piperidis

Σχετικά έγγραφα
ΜΕΘΟΔΟΣ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΕΞΑΓΩΓΗΣ ΟΡΩΝ. Αντικείμενο της παρούσας ανακοίνωσης είναι μία μέθοδος ημι-αυτόματης εξαγωγής όρων από

S.Piperidis, S. Boutsis, J. Demiros

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

Automatic extraction of bibliography with machine learning

ΑΥΤΟΜΑΤΗ ΔΗΜΙΟΥΡΓΙΑ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΛΟΓΙΚΟ ΠΛΟΥΤΟ ΒΑΣΕΙ ΚΕΙΜΕΝΩΝ ΕΝΤΑΣΕΩΣ ΟΡΩΝ ΠΕΡΙΛΗΨΗ

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

1 n-gram n-gram n-gram [11], [15] n-best [16] n-gram. n-gram. 1,a) Graham Neubig 1,b) Sakriani Sakti 1,c) 1,d) 1,e)

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

Ανάκτηση Δεδομένων (Information Retrieval)

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ. Πτυχιακή εργασία

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

TERMS USED IN STANDARDIZAfiON OF CHEMICAL FOOD ANALYSIS SUMMARY

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ INFORMATION EXTRACTION

Εκπαιδευτική παρέμβαση στον αφηγηματικό λόγο νηπίου με γλωσσική διαταραχή

Ανάκτηση Πληροφορίας

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

[15], [16], [17] [6] [2] [5] Jiang [6] 2.1 [6], [10] Score(x, y) y ( 1) ( 1 ) b e ( 1 ) b e. O(n 2 ) Jiang [6] (word lattice reranking)

ΕΠΑΝΑΛΗΨΗ ΨΕΥΔΟΛΕΞΕΩΝ ΑΠΟ ΠΑΙΔΙΑ ΜΕ ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ ΚΑΙ ΠΑΙΔΙΑ ΤΥΠΙΚΗΣ ΑΝΑΠΤΥΞΗΣ

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

Ανάκτηση Πληροφορίας

Twitter 6. DEIM Forum 2014 A Twitter,,, Wikipedia, Explicit Semantic Analysis,

Ανάκτηση Πληροφορίας

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Ηλεκτρονικά σώματα κειμένων και γλωσσική διδασκαλία: Διεθνείς αναζητήσεις και διαφαινόμενες προοπτικές για την ελληνική γλώσσα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Θέματα υπολογισμού στον πολιτισμό

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

Ανάκτηση πολυμεσικού περιεχομένου

Σειρά Προβλημάτων 1 Λύσεις

Ερευνητικό Πρόγραµµα BalkaNet

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

1530 ( ) 2014,54(12),, E (, 1, X ) [4],,, α, T α, β,, T β, c, P(T β 1 T α,α, β,c) 1 1,,X X F, X E F X E X F X F E X E 1 [1-2] , 2 : X X 1 X 2 ;

Χαρακτηρισµός Νεοπλασµάτων στη Μαστογραφία από το Σχήµα της Παρυφής µε χρήση Νευρωνικών ικτύων

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 7: Ασυμφραστικές Γλώσσες (Γλώσσες Ελεύθερες Συμφραζομένων)

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Software Production Company

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΡΩΤΟΚΟΛΛΟ ΑΞΙΟΛΟΓΗΣΗΣ ΠΑΙΔΙΩΝ ΜΕ ΑΝΑΠΤΥΞΙΑΚΗ ΛΕΚΤΙΚΗ ΑΠΡΑΞΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

(Statistical Machine Translation: SMT[1]) [2]

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (3)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΠΟΛΥΤΙΜΟ. Ερευνητικό έργο. της Ε. Γαλιώτου*

A hybrid approach to compiling bilingual dictionaries of medical terms from parallel corpora

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΥΝΤΑΞΗ: ΟΡΘΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ (FORMAL SYNTAX)

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

ΣΠΟΥ ΕΣ ΞΕΝΕΣ Γ Λ Ω Σ Σ Ε Σ ΥΠΟΤΡΟΦΙΕΣ

Topic Structure Mining based on Wikipedia and Web Search

Στάδια Ανάπτυξης Λόγου και Οµιλίας

Development of the Nursing Program for Rehabilitation of Woman Diagnosed with Breast Cancer

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση πληροφορίας

1. Σκοπός της έρευνας

Buried Markov Model Pairwise

Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος

Transcript:

ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΟΡΩΝ ΜΕ ΧΡΗΣΗ ΓΡΑΜΜΑτΙΚΗΣ ΠΡΟΤΥΠΩΝ Βύρων Γεωργαvτόπουλος, Στέλιος Πιπερίδης Περίληψη Στο άρθρο αυτό παρουσιάζονται τα πρώτα αποτελέσματα μιας μεθόδου αυτόματης εξαγωγής όρων από σώματα κειμένων. Η μέθοδος στηρίζεται στην εφαρμογή μιας γραμματικής προτύπων που χρησιμοποιεί το φορμαλισμό ενοποίησης (feature-structure unification} και τελεστές κανονικών εκφράσεων-γραμματικών {regular expressions). τ ο σώμα κειμένων που χρησιμοποιήθηκε είναι ένα εγχειρίδιο οδηγιών της Hewlett-Packard μεγέθους περίπου 90000 λέξεων που περιελάμβανε έναν κατάλογο όρων έναντι του οποίου αξιολογήθηκαν τα αποτελέσματα της μεθόδου. Η μέθοδος εξήγαγε 124 από τους 214 όρους που είχαν εξαχθεί χειρωνακτικά, παρουσιάζοντας ποσοστό ανάκτησης (recall) 58%. AUTOMAτiC TERM EXTRACτiON BASED ΟΝ PATTERN GRAMMARS Byron Georgantopoulos, Stelios Piperidis Abstract ln this paper, we present a method for the automatic extraction of terms from machine readable text corpora. The method is based aπ a pattern grammar endowed with regular expressions and feature structure unification capacity. The text corpus we haνe used consisted of a sottware manual by HeiNiett. Packard extending to around 90000 wordforms, containing a term index against which the resu1ts of the method were eva1uated. The method extracted 124 out of 214 manually coded terms, featuring a 58'% reca\1. 267

ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΟΡΩΝ ΜΕ ΧΡΗΣΗ ΓΡΑΜΜΑΥΙΚΗΣ ΠΡΟΥΥΠΩΝ Βύρων Γεωργαντόπουλος, Στέλιος Πιπερίδης 1. Εισαγωγή Στο άρθρο αυτό παροuσιάζονται τα πρώτα αποτελέσματα μιας μεθόδοu αυτόματης εξαγωγής όρων από σώματα κειμένων. Η αuτόματη εξαγωγή όρων αποκτά ιδιαίτερο ενδιαφέρον σήμερα που μεγάλοι όγκοι κειμένων παράγονται πλέον ηλεκτρονικά, γεγονός που οδηγεί στην διατύπωση νέων απαιτήσεων για την διαχείριση και επεξεργασία τους (αυτόματη ταξινόμηση, ανάκτηση πληροφοριών, κλπ). Η εφαρμογή σuστημάτων γλωσσικής τεχνολογίας για την ικανοποίηση των αναγκών αuτών απαιτεί την προσαρμογή (customisation) του συστήματος στην θεματική περιοχή, το γνωστικό πεδίο, των προς επεξεργασία κειμένων. Βασικό βήμα στην διαδικασία αυτή αποτελεί η βελτrωση και ο εμπλουτισμός των γλωσσικών πόρων (language resources) με την ενσωμάτωση της κατάλληλης ορολογίας. Η εφαρμογή μεθόδων αυτόματης εξαγωγής όρων προσφέρει μια έγκυρη, γρήγορη και χαμηλού κόστους λύση στην διαδικασία προσαρμογής. Η εξαγωγή όρων βρ(σκει πολλές εφαρμογές στο χώρο της επεξεργασ(ας φυσικής γλώσσας και ειδικά με τον διαρκώς αυξανόμενο όγκο ηλεκτρονικών κειμένων σήμερα: δεικτοδότηση κειμένων (text indexing) - οι εξαγόμενοι όροι χρησιμοποιούνται απεuθεrας στον κατάλογο όρων του κειμένου κατηγοριοπο(ηση-ταξινόμηση κειμένων (text classificalion) παρόμοιους όρους ταξινομούνται στην (δια θεματική περιοχή κε(μενα με ανάκτηση/εξαγωγή πληροφορfας (information retrieνal/extraction) - ο χρήστης αναζητά κείμενα ποu τον ενδιαφέρουν με τη μορφή ερωτήσεων αποτελούμενων από όρους-κλειδιά. Από όλα τα διαθέσιμα κείμενα επιστρέφονται μόνο αυτά που περιέχουν αuτούς τους συγκεκριμένους όρους κατασκευή περ(ληψης (text abstracting/summarisation) - οι προτάσεις που περιέχουν όρους του κειμένου είναι κατά κανόνα και οι σημαντικότερες προτάσεις, αυτές ποu υποδηλώνουν σαφέστερα το περιεχόμενό τοu. 268

παραλληλοπο(ηση κειμένων (text alignment) όροι της μιας γλώσσας αντιστοιχούν συνήθως σε έναν μόνο όρο μιας άλλης γλώσσας 2. Μεθοδολογικές προσεγγίσεις Σαν όρους ενός κειμένου ορίζουμε γενικά τις γλωσσικές πραγματώσεις των εννοιών ενός κειμένου. Δύο είναι οι βασικές μεθοδολογικές τάσεις στην εξαγωγή όρων σήμερα: 1. Με χρήση μιας ειδικά σχεδιασμένης γραμματικής όρων (συνήθως ελεύθερης συμφραζομένων), η οποfα εφαρμόζεται σε κείμενα κατάλληλα γραμματικά σχολιασμένα και εξάγει όσες φράσεις αναγνωρίζονται από αυτή τη γραμματική [1]. 2. Με χρήση στατιστικών εργαλείων αντίστοιχων με αυτά που χρησιμοποιούνται για εφαρμογές ανάκτησης πληροφοριών και δεικτοδότησης κειμένων. Στα εργαλεία αυτά περιλαμβάνονται μετρήσεις συχνοτήτων, μετρικές από τη θεωρία πληροφορiας, μετρικές που υπολογίζουν τα συμφραζόμενα των λέξεων κ.α.[2], [9] Αξίζει να σημειωθούν κάποιες διαφορές ανάμεσα στις δύο αυτές μεθόδους. Η γραμματική όρων περιγράφει τη συντακτική δομή που πρέπει να ικανοποιεί κάθε έγκυρος όρος, χωρfς να αποκλείεται το ενδεχόμενο αυτές α συντακτικές δομές να ικανοποιούvrαι και από άλλες ακολουθίες λέξεων που δεν θεωρούνται σωστο( όροι. Αν, για παράδειγμα, ένας από τους κανόνες περιγράψει ότι ένα επίθετο και ένα ουσιαστικό συγκροτούν έναν όρο, η εφαρμογή της γραμματικής στην προηγούμενη πρόταση θα επιστρέψει ως αποτέλεσμα τις φράσεις "συντακτικές δομές", "έγκυρος όρος" και ''σωστοί όροι". Για τη θεματική κατηγορία του παρόντος κειμένου, ο πρώτος όρος είναι αποδεκτός, ο δεύτερος αποδεκτός σε ευρύτερο πλαίσιο αλλά ο τρίτος όχι. Η αδυναμία της γραμματικής έγκειται στο ότι εφαρμόζει τοuς κανόνες της χωρfς διάκριση, περιγράφοντας την ικανή αλλά όχι και αναγκαία συνθήκη για να είναι μια ακολοuθfα λέξεων όρος. Επιπλέον μπορεί να εντοπfσει μόνο όρους με περισσότερες από μ{α λέξεις, μιας και μόνο σε αυτούς μπορεf να αποδοθεί συντακτική δομή. Συμπερασματικά, ο απώτερος στόχος μιας γραμματικής όρων ε(ναι ο εντοπισμός σε ένα πρώτο στάδιο "υποψήφιων όρων". Η στατιστική προσέγγιση στηρίζεται στην υπόθεση ότι οι όροι, ως λέξεις ή φράσεις που είναι χαρακτηριστικές της θεματικής περιοχής του κειμένου, έχουν την τάση να εμφανίζονται συχνά. Η συχνότητα επιδέχεται δύο διαφορετικές ερμηνείες: (1\ συχνότερα aπό ότι σε ένα κείμενο που δεν ανήκει στη συγκεκριμένη θεματική περιοχη 269

και (2) απλά συχνότερα από τις άλλες λέξεις ή φράσεις του κειμένου. Με βάση αυτή τη συγκριτική αντίληψη, για κάθε φράση υπολογίζεται ένα βάρος που εκφράζει τη σημασία της για το κείμενο, εξαιρώντας τις γραμματικές λέξεις, άρθρα, αντωνυμίες, προθέσεις κλπ. οι οποίες εμφανίζουν αρκετά υψηλή συχνότητα σε οποιοδήποτε κείμενο αλλά δεν θεωρούνται όραι. Οι φράσεις για τις οποίες υπολογίζεται το μεγαλύτερο βάρος παρουmάζουν την μεγαλύτερη πιθανότητα να είναι οι όροι του κειμένου. Στα χαρακτηριστικά της προσέγγισης αυτής είναι η δυνατότητα εντοπισμού μονολεκτικών όρων. Στα μειονεκτήματά της καταγράφεται η αδυναμία να εξάγει όρους που δεν ικανοποιούν τα στατιστικά κριτήρια, καθώς είναι πιθανό έγκυροι όροι να εμφανίζονται μόνο μία ή γενικά λίγες φορές στο κείμενο. Τέλος, η επιλογή της στατιστικής φόρμουλας επηρεάζει την αποδοτικότητα της προσέγγισης αυτής, με τρόπο ανάλογο με αυτόν που η καλυmικότητα της γραμματικής επηρεάζει την προηγούμενη προσέγγιση. Αλλες προσεγγίσεις συνδυάζουν την στατιστική επεξεργασία με την γλωσσολογική μοντελοποίηση [3], [4], [5], [6]. Πρόκειται για υβριδικά συστήματα που αρχικά δημιουργούν μια λίστα υποψήφιων όρων με τη βοήθεια γραμματικών και στη συνέχεια "φιλτράρουν" αυτούς τους όρους με στατιστικά εργαλεία ώστε να απομακρύνουν τους όρους εκείνους που ικανοποιούν μεν τη γραμματική, αλλά δεν είναι χαρακτηριστικοί της θεματικής περιοχής του κειμένου ώστε να αποτελούν έγκυρους όρους. 3. Περιγραφή της μεθόδου Η μέθοδος που περιγράφεται στο άρθρο αυτό έχει στόχο την εξαγωγή υποψήφιων όρων, η εγκυρότητα των οποίων θα ελεγχεί χειρωνακτικά. Τα βασικά στάδια της μεθόδου συνίστανται σε : α. γραμματικό χαρακτηρισμό με βάση ένα μορφολογικό λεξικό και ένα σύστημα κανόνων για επίλυση μορφολογικών αμφισημιών β. συντακτική ανάλυση με βάση μια γραμματική προτύπων γ. λημματοποίηση με βάση το μορφολογικό λεξικό και την γραμματική κατηγορία που προκύmει από τον γραμματικό χαρακτηρισμό. Το διάγραμμα ροής της μεθόδου απεικονίζεται στο παρακάτω σχήμα: 270

Κανόνες της γραμματικής προτύπων Μετατpοm] σε πεπερασμένα αυτόματα Σώμα =: Γραμματικός =: Γραμματική ~ Λημματοποιητής h Λίστα υποψήφιων όρων κειμένων χαρακτηριστής προτύπων σε κανονική μορφή ''{πολογισμός Κατάλογος όρων Γραμματικός χαρακτηριστής Λίστα όρων σε κανονική μορφή ανάκτησης/ακρίβειας (recall/pre-cision) / Η γραμματική που χρησιμοποιήθηκε για την συντακτική ανάλυση είναι ένα υποσύνολο της γραμματικής προτύπων που παρουmάστηκε στο [8]. Πρόκειται για μια γραμματική που χρησιμοποιε( το φορμαλισμό ενοποfησης (feature-structure unifιcation) και τελεστές κανονικών εκφράσεων-γραμματικών (regular expressions). Για παράδειγμα, το πρότυπο πα.ι περιγράφει όρους της μορφής ΟΥΣΙΑΣτΙΚΟ ΠΡΟΘΕΣΗ ΟΥΣΙΑΣτΙΚΟ έχει την παρακάτω διατύπωση: term_ pattern : (cat = Νο term = τt;tc), Λ(cat = Pn type = Cl), [[ (cat = Pp type = Sp); Λ (cat = At 271

gender = G number =Ν case = C)] ; (cat = Pp type = Pa gender = G number =Ν case = C)], (cat = Νο term = τt;tc gender = G number =Ν case = C). Το σύμβολο υποδηλώνει προαιρετικότητα (Ο ή 1 εμφάνιση) και το σύμβολο ';' ε(ναι ο διαζευκτικός τελεστής. Ο βασικός περιορισμός που εκφράζεται από το παραπάνω πρότυπο ε(ναι η συμφωv(α αριθμού, γένους και πτώσης για τα επιμέρους στοιχεία του όρου (ουσιαστικά, άρθρο, κλπ). Από την γραμματική του [8] που αριθμούσε 77 κανόνες κωδικοποιήθηκε ένα υποσύνολο που αναγνωρίζει δ(λεκτους και τρίλεκτους όρους. Κάθε κανόνας μετατράπηκε σε ένα πεπερασμένο αυτόματο (fιnite-state aυtomaton) ενισχυμένο (1) με δυνατότητες ενοποίησης συντακτικών χαρακτηριστικών και (2) με τελεστές κανονικών εκφράσεων. Τα χαρακτηριστικά αυτά, όπως φαίνεται aπό το παράδειγμα, μπορεί να είναι η γραμματική κατηγορία (ουmαστικό, άρθρο, επ(ρρημα, κλπ.) ή χαρακτηριστικά υποκατηγοριοποίησης όπως γένος, πτώση, αριθμός, έγκλιση, φωνή κλπ. Οι τελεστές κανονικών εκφράσεων περιλαμβάνουν τελεστές όπως προεραιτικότητα, επανάληψη, διάζευξη κλπ. Το σώμα κειμένων που χρησιμοποιήθηκε για την εφαρμογή της μεθόδου ε(ναι ένα εγχειρ(διο οδηγιών της Hewlett-Packard μεγέθους περ(που 90000 λέξεων. Το κείμενο αυτό επιλέχτηκε επειδή συμπεριλάμβανε έναν κατάλογο όρων έναντι του οπο(ου αξιολογούνται τα αποτελέσματα της μεθόδου. Κατά την αξιολόγηση χρηmμοποιείται η κανονική μορφή των όρων στην οπο(α κάθε λέξη αντικαθ(σταται από το λήμμα της. 272

4. Αποτελέσματα - εκτιμήσεις Η αξιολόγηση των αποτελεσμάτων βασίστηκε στην σύγκριση των όρων που εξάγει η μέθοδος με τους όρους που απαρτίζουν τον κατάλογο όρων που συνόδευε το κείμενο. Προηγουμένως όλοι οι όροι μετασχηματίστηκαν σε μια κανονικοποιημένη μορφή η οποία περιλαμβάνει μόνο τα λήμματα των λέξεων. Με αυτόν τον τρόπο ταυτίστηκαν όροι που περιείχαν τις fδιες λέξεις ελάχιστα διαφοροποιημένες, π.χ. στην πτώση. Για παράδειγμα, ο όρος δεfκτης επιλογής του καταλόγου όρων απαντάται στο κείμενο μόνο ως δεfκτη επιλογής. Εξαιρώντας τους μονολεκτικούς όρους, το κατάλογος όρων του κειμένου περιεfχε συνολικά 214 όρους. Η μέθοδος εξήγαγε 4729 όρους από τους οπaιους 124 περιλαμβάνονταν στους 214 σωστούς όρους. Υπολογίστηκαν έτm: ποσοστό ανάκτησης (recall) 124/214 = 58% ποσοστό ακρfβειας (precision) 124/4729= 2,6%. Το ποσοστό ανάκτησης κρίνεται ικανοποιητικό. Μελέτη των όρων που δεν εντοπfστηκαν έδειξε ότι το 17% από αυτούς περιείχε μη ελληνικές λέξεις, λέξεις που δεν περιέχονταν στο λεξικό του γραμματικού χαρακτηριστή ή λέξεις για τις οποfες ο γραμματικός χαρακτηριστής απέδιδε λανθασμένη γραμματική κατηγορία. Ποσοστό 8,8% ήταν όραι αποτελούμενοι από 4 λέξεις, ενώ η γραμματική περιελάμβανε κανόνες κάλυψης όρων μέχρι 3 λέξεων. Αντίθετα, το ποσοστό ακρίβειας εfναι χαμηλό, γεγονός αναμενόμενο που αποδfδεται στην εγγενή ιδιότητα των γραμματικών να παράγουν περισσότερες υποψήφιες φράσεις επειδή οι κανόνες τους εfναι γενικοf και παραμένουν πάντα στο συντακτικό επίπεδο. Η παρούσα γραμματική προτύπων μπορεf να εμπλουτιστεf με επιπλέον χαρακτηριστικά που θα βελτιώσουν την αποδοτικότητά της. Σε αυτά περιλαμβάνονται: ο Η στατιστική επεξεργασfα (με μεθόδους όπως: μετρήσεις συχνοτήτων, υπολογισμός βάρους με τfidf [11], NC-νalυe [7], log-likelihood, mutυal information [2]) των όρων που εξάγει η γραμματική ώστε να προκριθούν οι έγκυροι όροι του κειμένου. Η κωδικοπάηση στο πεπερασμένο αυτόματο κανόνων που αναγνωρίζουν όρους μεγαλύτερου μήκους. ο Η χρήση μόνο του μέγιστου σε κάλυψη όρου, σε περ(πτωση που αυτός εμπεριέχει μικρότερους σε μήκος όρους. ΚατΏυτόν τον τρόπο α ανακτώμενοι όροι μειώνονται σημαντικά. 273

Ο αποκλεισμός των λειτουργικών λέξεων (functional words) από τους όρους κατά τη διαδικασ(α αξιολόγησης. Η χρηmμοπο(ηση επιπλέον συντακτικής πληροφορ(ας (όπως η κεφαλή στις ονοματικές φράσεις) ώστε να ταυτ(ζονται ονοματικές φράσεις με το (διο περιεχόμενο αλλά με διαφορετική σειρά λέξεων (π.χ. εταιρrες κατασκευών, κατασκευαστικές εταφfέ:ς). 5. Αναφορές [1] Bourigault D. (1992). Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases. Proceedings of the 14'h lnternational Conference on Computational Linguistics. [2] Church Κ. W. and Hunks Ρ. (1990) Word Association, Norms, Mutual lnformation, And Lexicography Comρutational Linguistics, Vol16, Number 1. [3] Dagan Ι. and Church Κ. W. (1994) Termight: ldentifying and Translating Techical Terminology. Proceedings of the EACL 1994. [4] Daille Β., Gaussier Ε., Lange J. Μ.,(1994) Towards automatic extraction of monolingual and bilingual terminology, Proceedings of COLING 94, pp 515-521. [5] Daille Β. (1994), Study and implementation of combined techniques for automatic extraction of Terminology. in The Balancing Act: Combining Symbolic and Statistical Aρproaches to Languages, Workshop at the 32nd Annual Meeting of ACL, Las Cruces, Nouνeau Mexique. [6] Frantzi Κ. and Ananiadou S.,(1996) Extracting nested collocations, Proceedings of COLING 96, pp 41-46. [7] Frantzi, Κ. Τ. and Ananiadou, S. (1997) Automatic term recognition using contextual clues, Proceedings of Mulsaic 97, IJCAI, Japan [Β] Gaνriilidou Μ, Lambropoulou Ρ. Report on the Constituent Grammar, RENOS project, LREI- 62-048, Athens, 1994 274

[9] Hatcher A.J. (1960) An introduction to the analysis of English noun compounds. ln Word, 16, 356-373. [10] Smadja F. Α. and McKeown Κ. R. (1990) Automatically Extracting and Representing Collocations For Language Generation, Proceedings of the 28'" annual Meeting of the ACL. [11] Salton, G. (1989), Automatic text processing : the transformation, analysis, and retrieval of information by computer, Reading, Mass. Wokingham : Addison-Wesley. Βύρων Γεωρyαντόποuλος Στέλιος Πιπερ!δης Ινστιτούτο Επεξερyασιας Λόγου Μάρyαρη 22, 115 25 Αθήνα {byron, spip)@ilsp.gr 275