ΑΥΤΟΜΑΤΗ ΔΗΜΙΟΥΡΓΙΑ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΛΟΓΙΚΟ ΠΛΟΥΤΟ ΒΑΣΕΙ ΚΕΙΜΕΝΩΝ ΕΝΤΑΣΕΩΣ ΟΡΩΝ ΠΕΡΙΛΗΨΗ

Σχετικά έγγραφα
Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΕΜΠΛΟΥτΙΣΜΟΣ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΥΣ ΚΑΙ ΥΠΟΣτΗΡΙΞΗ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

Αναγνώριση Προτύπων Ι

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Ανάκτηση Πληροφορίας

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου

ΕΠΑΝΑΛΗΨΗ ΨΕΥΔΟΛΕΞΕΩΝ ΑΠΟ ΠΑΙΔΙΑ ΜΕ ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ ΚΑΙ ΠΑΙΔΙΑ ΤΥΠΙΚΗΣ ΑΝΑΠΤΥΞΗΣ

Buried Markov Model Pairwise

Ανάπτυξη λογισμικού για τη διενέργεια υπολογιστικών μελετών

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Η Επίδραση των Events στην Απόδοση των Μετοχών

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

Γεωργικός Πειραματισμός 1o Εργαστήριο «Διαδικασία της Τυχαιοποίησης»

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΣΤΙΓΜΙΑΙΑ ΚΑΤΑΣΚΕΥΗ ΣΤΕΡΕΟΥ ΜΕΙΓΜΑΤΟΣ ΥΛΙΚΟΥ ΜΕΣΑ ΑΠΟ ΕΛΕΓΧΟΜΕΝΗ ΦΥΣΙΚΗ ΔΙΑΔΙΚΑΣΙΑ

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Παρακολούθηση Χρονοσειράς Διάλεξη 11

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Παρακάτω προτείνεται μια αλληλουχία ενεργειών την οποία ο χρήστης πρέπει να ακολουθήσει για να αξιοποιήσει τις δυνατότητες της εφαρμογής.

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Έχουν σα στόχο να αξιολογήσουν με ποιοτικά κυρίως κριτήρια την επίδοση του μαθητή/τριας. Έχουν σα στόχο να «μετρήσουν» την επίδοση του μαθητή/τριας

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή

Αλγόριθμος Ομαδοποίησης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

ΓΕΩΡΓΙΚΟΣ ΠΕΙΡΑΜΑΤΙΣΜΟΣ 1ο Εργαστήριο «ΣΧΕΔΙΑΣΗ ΠΕΙΡΑΜΑΤΙΚΟΥ ΑΓΡΟΥ»

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Βιομηχανία 4.0 (Industry 4.0) Δεξιότητες Προσωπικού. Βιβή Τσούτσα. Λέκτορας ΤΕΙ Θεσσαλίας Τμήμα Λογ/κής & Χρημ/κής

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εύη Καραγιαννίδου Χημικός Α.Π.Θ. ΟΙ ΕΠΟΞΕΙΔΙΚΕΣ ΚΟΛΛΕΣ ΣΤΗΝ ΑΠΟΚΑΤΑΣΤΑΣΗ ΕΡΓΩΝ ΤΕΧΝΗΣ ΑΠΟ ΓΥΑΛΙ ή ΚΕΡΑΜΙΚΟ

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΠΑΣ/ΠβΑΣ Λίστα Δεξιοτήτων (5 η Έκδοση)

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

ΠΡΩΤΟΚΟΛΛΟ ΑΞΙΟΛΟΓΗΣΗΣ ΠΑΙΔΙΩΝ ΜΕ ΑΝΑΠΤΥΞΙΑΚΗ ΛΕΚΤΙΚΗ ΑΠΡΑΞΙΑ

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Μεθοδολογίες Αξιοποίησης Δεδομένων

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

ΔΕΛΤΙΟ ΥΠΟΒΟΛΗΣ ΠΕΡΙΛΗΨΗΣ

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

Γ. Πειραματισμός Βιομετρία

Εισαγωγή στις Τεχνολογίες της

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

ΚΑΤΑΧΩΡΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ [.GR] ΟΝΟΜΑΤΩΝ ΧΩΡΟΥ ΜΕ ΕΛΛΗΝΙΚΟΥΣ ΧΑΡΑΚΤΗΡΕΣ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Κώδικες µεταβλητού µήκους

Στατιστική Επιχειρήσεων Ι. Βασικές διακριτές κατανομές

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Γ. Πειραματισμός Βιομετρία

ΑΙΤΗΣΗ APPLICATION FORM FOR GREEK APPLICANTS. 1. Τίτλος Κοινού Ερευνητικού Σχεδίου:... Title of joint project:...

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Παραδειγματικό σενάριο στο μάθημα της Νεοελληνικής Γλώσσας. «Μουσική»

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Φυλλάδιο Εργασίας 1. Ενδεικτικές Απαντήσεις. Αξιολόγηση Διδακτικών Δραστηριοτήτων από τα διδακτικά εγχειρίδια

Το μοντέλο Perceptron

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

Επαναληπτικό μάθημα Βασικών επιδημιολογικών εννοιών. Ειρήνη Αγιαννιωτάκη

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΔΙΑΧΡΟΝΙΚΗ ΕΞΕΛΙΞΗ ΤΗΣ ΣΧΕΤΙΚΗΣ ΘΕΣΗΣ ΝΟΜΙΣΜΑΤΙΚΟΥΣ ΚΑΙ ΤΟΥΣ ΠΡΑΓΜΑΤΙΚΟΥΣ ΔΕΙΚΤΕΣ

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα

Sub4All: Υποσύστηµα Αναγώρισης Φωνής

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

ΕΘΝΙΚΟ ΠΡΟΓΡΑΜΜΑ ΟΡΟΛΟΓΙΚΟΥ ΣΥΝΤΟΝΙΣΜΟΥ (ΕΠΟΣ): ΣΤΡΑΤΗΓΙΚΗ ΜΕΛΕΤΗ, ΜΕΘΟΔΟΛΟΓΙΑ ΚΑΙ ΣΤΟΧΟΙ. Γεώργιος Καραγιάννης

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Μεταγλωττιστές. Ενότητα 2: Τυπικές γλώσσες (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Ανάκτηση πληροφορίας

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Development of the Nursing Program for Rehabilitation of Woman Diagnosed with Breast Cancer

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Συστήματα μνήμης και υποστήριξη μεταφραστή για MPSoC

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

Transcript:

ΑΥΤΟΜΑΤΗ ΔΗΜΙΟΥΡΓΙΑ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΛΟΓΙΚΟ ΠΛΟΥΤΟ ΒΑΣΕΙ ΚΕΙΜΕΝΩΝ ΕΝΤΑΣΕΩΣ ΟΡΩΝ Γ. Ταμπουρατζής, Γ. Κοραγιάννης ΠΕΡΙΛΗΨΗ Η συμβατική μέθοδος κατασκευής λεξικών απαιτεί την καταγραφή όλων των μορφών των λέξεων της αvrίστοιχης γλώσσας. Η ολοκλήρωση της μεθόδου αυτής απαιτεί εργασία που μετριέται σε αvθρωποέτη, ενώ είναι πρακτικά αδύνατο να καλυφθεί το σύνολο των λέξεων της γλώσσας. Ειδικότερα στην περίπτωση κειμένων εντάσεως όρων. όπου οι χρησιμοποιούμενες λέξεις εστιάζονται σε μία ορισμένη θεματική περιοχή, τα υπάρχοντα μορφολογικά λεξικά γενικής χρήσης δεν παρέχουν επαρκή κάλυψη. Στην ανακοίνωση αυτή προτεiνεται μία μεθοδολογία, βασισμένη στην τεχνική της ταύτισης-και-απόκρυψης σε συνδυασμό με γραμματικούς περιορισμούς, για την παραγωγή εξειδικευμένων μορφολογικών λεξικών από κείμενα εντάσεως όρων. Πειραματικές δοκιμές δείχνουν ότι η μέθοδος αυτή δίνει αποτελέσματα που χαρακτηρίζονται από υψηλή ακρίβεια. AUTOMATED CONSTRUCτiON OF MORPHOLOGICAL LEXICA POSESSING TERMINOLOGY WEALTH ΟΝ ΤΗΕ BASIS OF TERM-INTENSIVE DOCUMENTS ABSTRACT The established method for generating morphologicallexica requires the creation of a list of possible wordfoms in the respective language. This needs several man-years to be implemented, while it remains virtually impossible to provide a complete coverage of the language. ln particular, in termintensive documents. where the constituent words focus in a particular area, existing general-purpose morphological lexica fail to provide a sufficient coverage. ln this article, a methodology is proposed for the generation of specialised morphological lexica using term-intensive documents. This methodology is based on the matching-and-masking technique, in combination with language-specific constraints. Experimental results indicate that this method generates results of a high accuracy. 1. ΕΙΣΑΓΩΓΗ Στην μελέτη της Ελληνικής γλώσσας, ιδιαίτερη σημασία έχει η κατασκευή του αντίστοιχου μορφολογικού λεξικού. Η συμβατική μέθοδος κατασκευής λεξικών απαιτεί την καταγραφή των διαφόρων μορφών των λέξεων της γλώσσας, ώστε να εξαχθούν τα 149

αντίστοιχα λήμματα μαζί με τον τρόπο κλίσης τους. Η καταγραφή αυτή αποτελεί μία επίπονη διαδικασία, η ολοκλήρωση της οποίας χρειάζεται εργασία της τάξεως των ανθρωποετών. Σαν παράδειγμα μπορεί να αναφερθεί το μορφολογικό λεξικό το οποίο έχει κατασκευασθεί στο Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) [1] και απαίτησε χρονικό διάστημα 1 Ο περίπου ετών για να δημιουργηθεί. Έως σήμερα, το λεξικό αυτό εμπλουτίζεται ώστε να επιτευχθεί η καλύτερη δυνατή κάλυψη της Ελληνικής γλώσσας, με την μεγάλη ποικιλία τύπων που εμφανίζει στην εποχή μας. Ένα αναπόφευκτο μειονέκτημα της χειρωνακτικής διαδικασίας κατασκευής λεξικών, που επιτείνεται λόγω της δυναμικής εξέλιξης της κάθε γλώσσας, είναι ότι το παραγόμενο μορφολογικό λεξικό αδυνατεί να καλύψει το σύνολο των λέξεων της γλώσσας. Το φαινόμενο αυτό παρουσιάζεται εντονότερο σε γλώσσες που διαθέτουν μεγάλο αριθμό τύπων λέξεων (πολυτυπία), στις οποίες συγκαταλέγεται και η Ελληνική. Κατά συνέπεια, η πλειοψηφία των υπαρχόντων μορφολογικών λεξικών αποσκοπεί να καλύψει τις συχνότερες λέξεις, καθιστώντας τα λεξικά αυτά κατάλληλα για κείμενα που χρησιμοποιούν γενική γλώσσα. Όμως, στην περίπτωση κειμένων εντάσεως όρων, όπου οι χρησιμοποιούμενες λέξεις είναι σε μεγάλο βαθμό εξειδικευμένες σε μία συγκεκριμένη θεματική περιοχή, τα υπάρχοντα μορφολογικά λεξικά δεν παρέχουν επαρκή κάλυψη. Το πρόβλημα αυτό εντείνεται όταν τα υπό μελέτη κείμενα αναφέρονται σε συγκεκριμένους επιστημονικούς τομείς με εξειδικευμένη ορολογία. Στην παρούσα ανακοίνωση προτείνεται μία μέθοδος η οποία επιτρέπει την κατασκευή μορφολογικών λεξικών εστιασμένων σε μία συγκεκριμένη γνωστική περιοχή. Τα λεξικά αυτά κατασκευάζονται με αυτόματο τρόπο, μέσω ενός αλγορίθμου, και κατά συνέπεια απαιτούν το ελάχιστο δυνατό κόστος σε aνθρώπινους πόρους. Ανάλογα με τα κείμενα που χρησιμοποιούνται σαν πηγή δεδομένων του συστήματος, καθίσταται δυνατή η κατασκευή λεξικών τα οποία είναι εξειδικευμένα ώστε να καλύmουν μία συγκεκριμένη θεματική περιοχή. 2. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΣΥΣτΗΜΑΤΟΣ Η έρευνα στα θέματα της μορφολογικής επεξεργασίας λεκτικών μονάδων έχει ακολουθήσει δύο κύριες κατευθύνσεις. Η πρώτη κατεύθυνση χαρακτηρίζεται από την χρήση γλωσσολογικών κανόνων (όπως επί παραδείγματι στο άρθρο [3]) για την μοντελοποίηση των μορφολογικών φαινομένων, την συμπίεση της πληροφορίας στα μορφολογικά λεξικά, την λημματοποίηση καθώς και την παραγωγή των μορφολογικών τύπων. Η δεύτερη κατεύθυνση χαρακτηρίζεται από την χρήση υπολογιστικών αρχιτεκτονικών που προσομοιώνουν την δομή βιολογικών νευρωνικών δικτύων, ώστε να επιτευχθεί η μορφολογική επεξεργασία των λέξεων (όπως, επί παραδείγματι στο [2]). Η μεθοδολογία που αποτελεί το αντικείμενο της συγκεκριμένης ανακοίνωσης είναι υβριδικού τύπου, με την έννοια ότι χρησιμοποιεί και 150

αξιοποιεί αριθμό κανόνων, αλλά, ενσωματώνει επίσης κάποιους στατιστικούς αλγορίθμους, όπως είναι η τάση σήμερα σε πολλές εφαρμογές της γλωσσικής τεχνολογίας. Η δομή του συστήματος παρουσιάζεται στο σχήμα 1. Η προτεινόμενη μεθοδολογία βασίζεται στην τεχνική της ταύτισης-και-απόκρυψης (matching-and-masking techniqυe), η οποία χρησιμοποιείται ευρέως σε εφαρμογές αναγνώρισης προτύπων (pattern recognition). Σύμφωνα με την τεχνική αυτή, το κάθε πρότυπο διαιρείται σε τμήματα και επιχειρείται η ταύτιση ομοειδών τμημάτων των προτύπων ενώ ταυτόχρονα αποκρύπτονται προσωρινά τα υπόλοιπα τμήματα των προτύπων. Στην συγκεκριμένη περίπτωση, όπου τα πρότυπα είναι λεκτικές μονάδες, η κάλυψη και απόκρυψη αναφέρεται στα θέματα και τις αντίστοιχες καταλήξεις των λεκτικών μονάδων. Έτσι. ας υποτεθεί ότι υπάρχουν δύο συγκεκριμένες λέξεις/πρότυπα οι οποίες παριστάvοvται ως θ 1 κ 1 και θ 2 κ 2, όπου θί το εκάστοτε θέμα και κί η αντίστοιχη κατάληξη. Τότε, η επιτυχής ταύτιση συνεπάγεται ότι είτε Θ, = θ 2 (οπότε ταυτίζονται τα θέματα των δύο λέξεων) είτε κ, ~ κ, (οπότε ταυτίζονται οι καταλήξεις των δύο λέξεων). Η διαδικασία εντοπισμού πιθανών θεμάτων και καταλήξεων υλοποιείται με την επαναληπτική εφαρμογή της τεχνικής ταύτισης-και-απόκρυψης. Σε κάθε επανάληψη, μελετώνται όλες οι λεκτικές μονάδες που υπάρχουν στο σώμα κειμένων ώστε από τις ήδη προσδιορισθείσες καταλήξεις και θέματα να προσδιορισθούν νέες πιθανές καταλήξεις και θέματα. Έτσι, σταδιακά δημιουργείται ένα σύνολο από πιθανές καταλήξεις και θέματα για κάθε λεκτική μονάδα. Πριν την έναρξη της διαδικασίας αυτής, παρέχονται ατον αυτόματο μορφολογικό επεξεργαστή ως εκ των προτέρων γνώση (a priori knowledge) 50 καταλήξεις της Ελληνικής γλώσσας, οι την αρχικοποίηση του συστήματος. οποίες χρησιμοποιούνται για Στο προτεινόμενο σύστημα, η αρχή ταύτισης-και-απόκρυψης συμπληρώνεται από ένα σύνολο γραμματικών περιορισμών ως προς τις αποδεκτές και μη αποδεκτές μορφές των θεμάτων και καταλήξεων στην Ελληνική γλώσσα [4], [5]. Ένα παράδειγμα πιθανού περιορισμού θα ήταν ότι κάθε έγκυρη κατάληξη της Ελληνικής γλώσσας θα πρέπει να περιέχει τουλάχιστον ένα φωνήεν. Οι κανόνες και περιορισμοί αυτοί χρησιμοποιούνται για να περιορίσουν τις πιθανές καταλήξεις και θέματα στις οποίες αναλύεται κάθε δεδομένη λέξη. Με την παραπάνω διαδικασία, για κάθε λέξη του σώματος παράγεται ένας αριθμός από δυνατές λύσεις διαχωρισμού σε θέμα και κατάληξη. Αυτές οι λύσεις κατατάσσονται ανάλογα με την πιθανότητά τους να αποτελούν τον βέλτιστο διαχωρισμό της δεδομένης λεκτικής μονάδας σε θέμα και κατάληξη, χρησιμοποιώντας ένα κριτήριο κατάταξης. Στα πειράματα που θα περιγραφούν στην επόμενη παράγραφο, σαν κριτήριο κατάταξης χρησιμοποιείται το ελάχιστο μήκος κατάληξης. Η προτεινόμενη μεθοδολογία επιτρέπει, μέσω της επεξεργασίας των λέξεων ενός σώματος κειμένων, την κατασκευή του αντίστοιχου μορφολογικού λεξικού. 151

~~ '-------/ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΩΜΑ ΣΩΜΑΤΟΣ ΚΕΙΜΕΝΩΝ KEIMENΩI' ( ΕΑΝ ΑΠΑΙΤΕ ITAI) '"- ΠΛΗΡΟΦΟΡΙΑ ΑΡΧΙΚΟΠΟΙΗΣΗΣ t -~J~ι ΦΑΣΗ ταυτισησ ΚΑΙ ΑΠΟΚΡΥΨΗΣ ~------ ΓΕΝΙΚΟΙ ΚΑΙ ΕΙΔΙΚΩΙ ΓΡΑΜΜΑτΙΚΟΙ ΚΑΝΟΝΕΣ (ΠΕΡΙΟΡΙΣΜΟΙ) ΦΑΣΗ ΣΥΝθΕΣΗΣ ΜΟΡΦΟΛΟΓΙΚΟ ΚΑΙ ΚΑΤΑΤΑΞΗΣ ΛΥΣΕΩΝ ΛΕΞΙΚΟ Σχήμα 1: Διαγραμματική περιγραφή του συστήματος αυτοματοποιημένης μορφολογικής επεξεργασίας. 152

3. ΠΕΙΡΑΜΑτΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Για την μελέτη της συμπεριφοράς του αυτόματου μορφολογικού επεξεργαστή, εξετάσθηκαν τρία σώματα κειμένων τα οποία θα αναφέρονται ως ΣΙ, Σ2 και Σ3. Το πρώτο σώμα κειμένων, Σ1, είναι γενικού τύπου και χρησιμοποιείται για σκοπούς σύγκρισης με τα κείμενα εντάσεως όρων. Έτσι, το ΣΙ περιλαμβάνει λογοτεχνικό κείμενο, το οποίο μπορεί να θεωρηθεί ότι - με την εξαίρεση κάποιων ιδιωματικών κλίσεων και μορφών - χαρακτηρίζεται από μη εξειδικευμένη γλώσσα και άρα θα πρέπει να καλύmεται σε σχετικά υψηλό βαθμό από γενικής χρήσης μορφολογικά λεξικά. Το μέγεθος του ΣΙ είναι 199.494 λέξεις, επιλεγμένο ώστε να παράγει παρόμοιο πλήθος λεκτικών μορφών με τα δύο σώματα κειμένων εντάσεως όρων, Σ2 και Σ3. Το σώμα Σ2 αποτελείται από τρία κείμενα σε θέματα αεροναυπηγικής ενώ το σώμα Σ3 αποτελείται από τρία κείμενα σε θέματα βιολογίας. Το σώμα κειμένων Σ2 περιλαμβάνει 245.006 λέξεις ενώ το σώμα Σ3 περιλαμβάνει 282.902 λέξεις. Στο στάδιο προεπεξεργασίας, για κάθε σώμα κειμένων παραλείπονται όλες οι λέξεις που περιέχουν αριθμούς ή γράμματα του Λατινικού αλφαβήτου. Επίσης παραλείπονται άκλιτες λέξεις (από ένα σύνολο 180 λέξεων που παρέχονται στο σύστημα ως εκ των προτέρων γνώση) ενώ για κάθε λέξη του εκάστοτε σώματος που δεν εμπίmει στους παραπάνω περιορισμούς, διατηρείται μόνο η πρώτη της εμφάνιση. Σαν αποτέλεσμα, δημιουργείται μία λίστα που περιέχει τις λεκτικές μονάδες του σώματος κειμένων που πρόκειται να επεξεργασθεί το σύστημα. Ο αριθμός διαφορετικών λεκτικών μονάδων ανά σώμα κειμένων ανέρχεται σε 20.000 στην περίπτωση του ΣΙ, 13.905 στην περίπτωση του Σ2 και 20.804 στην περίπτωση του Σ3. Σαν μέτρα αξιολόγησης της προτεινόμενης μεθόδου μορφολογικής επεξεργασίας χρησιμοποιήθηκαν δύο διαφορετικές εκδόσεις του μορφολογικού λεξικού του ΙΕΛ. Η βασική έκδοση (που θα συμβολίζεται με ΛεξΙΕΛ1) περιλαμβάνει περίπου 50.000 διαφορετικά λήμματα της Ελληνικής γλώσσας και συνολικά 92.367 αλλόμορφα. Η επαυξημένη έκδοση (που θα συμβολίζεται με Λεξ1ΕΛ2) περιλαμβάνει πάνω από 63.000 διαφορετικά λήμματα της Ελληνικής γλώσσας και συνολικά 107.026 αλλόμορφα. Για την μελέτη των πειραματικών αποτελεσμάτων, οι λέξεις που αποτελούν το κάθε κείμενο χωρίζονται σε δύο κατηγορίες: (ι) τις λέξεις που περιέχονται στο εκάστοτε μορφολογικό λεξικό και (ιι) τις λέξεις που δεν περιέχονται στο εκάστοτε μορφολογικό λεξικό. Σώμα Σ1 Σώμα Σ2 Λεξικό Λεξ/ΕΛ Ι 89,0% 84,2% Λεξικό Λεξ/ΕΛ2 90,9% 86,3% Αυτομ. Μορφολογικός Επεξεργαστής 98,9% 98,6% Σώμα Σ3 74,4% 76,3% 99,3% Πίνακας 1: Κάλυψη των λέξεων των σωμάτων κειμένων. 153

Όπως φαίνεται στον πίνακα 1, στην περίπτωση του σώματος κειμένων Σ1 περίπου το 11% των λεκτικών μορφών είναι άγνωστες στο βασικό μορφολογικό λεξικό του ΙΕΛ (ΛεξΙΕΛ1). ποσοστό που περιορίζεται στο 9% στο επαυξημένο μορφολογικό λεξικό του ΙΕΛ (ΛεξΙΕΛ2). Στην περίπτωση του σώματος κειμένων Σ2, περίπου 16% και 14% των λεκτικών μορφών είναι άγνωστες στο βασικό και στο επαυξημένο μορφολογικό λεξικό του ΙΕΛ αντίστοιχα. Στην περίπτωση του σώματος κειμένων Σ3, τα ποσοστά αυτά είναι πολύ υψηλότερα και προσεγγίζουν το 26% και 24% για το απλό και το επαυξημένο μορφολογικό λεξικό αντίστοιχα. Συνεπώς, όπως αναμενόταν. παρατηρείται μεγαλύτερος αριθμός αγνώστων λέξεων στις περιπτώσεις σωμάτων κειμένων με ένταση όρων απ' ότι σε σώματα που χρησιμοποιούν μη εξειδικευμένη γλώσσα. Οι λεκτικές μονάδες τις οποίες ο αυτόματος μορφολογικός επεξεργαστής δεν διαχωρίζει σε θέμα και κατάληξη ανέρχονται σε περίπου 1,5% στην περίπτωση του σώματος Σ2 και σε λιγότερο από 1% στην περίmωση του σώματος Σ3. Τα ποσοστά αυτά είναι της ίδιας τάξης μεγέθους όπως για το σώμα κειμένων ΣΙ. Συνεπώς, συγκρίνοντας τον αυτόματο μορφολογικό επεξεργαστή με τα μορφολογικά λεξικά παρατηρείται - όπως αναμενόταν ότι ο αυτόματος μορφολογικός επεξεργαστής παρέχει μία κάλυψη πολύ υψηλότερη από αυτές των δύο μορφολογικών λεξικών γενικού τύπου. 1---- 1η λύση 2ηλύσ~λύση 4η λύση Αποτυχία -- ΣΙ & Λεξ/ΕΛ1 93.7% ' 4.9% 0.3% 0.0% 1.1% 1---.,_ " ~~ & Λεξ/ΕΛ2 93.7% 4.8% 0.4% 0.0% 1.1%. -- - Σ2 & Λεξ/ΕΛΙ 93.9% 4.4% 0.1% 0.0% 1.6%.. - -- Σ2 & Λεξ/ΕΛ2 93.8% 4.3% 0.2% 0.0% 1.7% ι--j3 & Λεξ/ΕΛ I 94.0% 4.9% 0.1% 0.0% 1.0_?~ Σ3 & Λεξ!ΕΛ2 93.9% 5.0% 0.1% 0.0% 1.0% - Πίνακας 2: Συμφωνία περιεχομένων των δύο μορφολογικών λεξικών με τις λύσεις του αυτόματου μορφολογικού επεξεργαστή. Ενδιαφέρον παρουσιάζει η μελέτη της ακρίβειας των λύσεων που παράγονται από τον αυτόματο μορφολογικό επεξεργαστή. Η σύγκριση των αποτελεσμάτων του αυτόματου μορφολογικού επεξεργαστή ως προς τα περιεχόμενα των δύο μορφολογικών λεξικών παρουσιάζεται στον πίνακα 2, όπου τα αντίστοιχα ποσοστά αναφέρονται στις λέξεις οι οποίες περιέχονται στο εκάστοτε μορφολογικό λεξικό. Παρατηρείται ότι για το 94% περίπου των λεκτικών μονάδων, η πρώτη κατά σειρά λύση που παράγει ο 154

αυτόματος μορφολογικός επεξεργαστής ταυτίζεται με την αντίστοιχη πληροφορία που περιέχεται στα μορφολογικά λεξικά. Η δεύτερη λύση που παράγει ο αυτόματος μορφολογικός επεξεργαστής ταυτίζεται με την πληροφορία που εμπεριέχεται στο μορφολογικό λεξικό για το 4% έως 5% των λεκτικών μονάδων. Οι περιπτώσεις που η τρίτη κατά σειρά λύση είναι αυτή που βρίσκεται καταχωρημένη στο μορφολογικό λεξικό είναι εξαιρετικά σπάνια, με ποσοστό της τάξης του Ο, 1 ~ 0, ενώ δεν παρατηρείται καμμία περίπτωση όπου η καταχωρημένη στο λεξικό λύση να κατατάσσεται στην τέταρτη ή σε χαμηλότερη θέση. Αξιοσημείωτη είναι η σταθερότητα της κατανομής των σωστών μορφολογικών διαχωρισμών στις κατηγορίες πιθανών λύσεων του αυτόματου μορφολογικού επεξεργαστή, για τα τρία διαφορετικά σώματα κειμένων και τις δύο εκδόσεις του μορφολογικού λεξικού. Τα παραπάνω πιστοποιούν ότι το προτεινόμενο σύστημα αυτόματης μορφολογικής επεξεργασίας παράγει την γραμματικά σωστή λύση (όπως ορίζεται από το μορφολογικό λεξικό) γιο την πλειοψηφία των λεκτικών μονάδων που συναντώνται στα σώματα κειμένων. Αυτό επιτυγχάνεται χρησιμοποιώντας έναν αυτοματοποιημένο αλγόριθμο επεξεργασίας στον οποίο παρέχεται αρχικά μία πολύ μικρή ποσότητα γραμματικής/ γλωσσολογικής πληροφορίας. Κατά συνέπεια, η προτεινόμενη μέθοδος μπορεί να αποτελέσει μία αξιόπιστη μεθοδολογία για την αυτόματη δημιουργία μορφολογικών λεξικών με ορολογικό πλούτο βάσει κειμένων εντάσεως όρων. 4. ΣVΜΠΕΡΑΣΜΑΤΑ Στην ανακοίνωση αυτή, παρουσιάσθηκε ένα σύστημα για την αυτόματη δημιουργία μορφολογικών λεξικών της Ελληνικής γλώσσας, τα οποία κατασκευάζονται με βάση κείμενα ορολογικού πλούτου. Το σύστημα αυτό βασίζεται στην τεχνική "κάλυψης-καιαπόκρυψης". με χρήση a ρriori γνώσης σχετικής με την Ελληνική γλώσσα. Πειραματικά αποτελέσματα έδειξαν ότι το σύστημα αυτό επιτρέπει την επεξεργασία λέξεων από κείμενα με ορολογικό πλούτο, έχοντας ως αποτέλεσμα μορφολογικά λεξικά τα οποία είναι εξειδικευμένα ώστε να καλύπτουν τις αντίστοιχες γνωστικές περιοχές. Η προτεινόμενη μέθοδος μπορεί να χρησιμοποιηθεί και για αυτόματο εμπλουτισμό έτοιμων μορφολογικών λεξικών με βάση κείμενα εντάσεως όρων. Το αντικείμενο αυτό αποτελεί και το θέμα της μελλοντικής έρευνας στο ΙΕΛ γύρω από τις τεχνικές αυτές. 155

5. ΑΝΑΦΟΡΕΣ [1] Αγλαμίσης, I. & Μαντζαρη, Ε. (1995) Μορφολογικό Λεξικό. Γραμματικός Χαρακτηριστής. Κείμενο Εργασίας ELL/STD/DEPT/9501, Ινστιτούτο Επεξεργασίας του Λόγου, Αθήνα. [2] Gasser, Μ. (1994} Modularity in a Connectιonist ModeJ of Morphology Acquisition. ln Proceedings of the 15th Jnternational Conference on Computational Linguistιcs, August 5-9, 1994, Kyαto, Japan, Vol. 1. pp. 214 220. [3] Pentheroυdakis, J. & Vanderwende. L. {1993) Automatically ldentifying Morphological Relations in Machine-Readable Dictionaries. Technical Report MSR-TR-93-06, Microsoft Research Advanced Technology Division. Microsoft Corporation, One Microsoft Way, Redmond. WA, 98052. [4] Ράλλη, Α. (1986) Κλίση και Παραγωγή. Πρακτικά της 7ης Ετήσιας Συνάντησης του Τομέα Γλωσσολογίας της Φιλοσοφικής Σχολής του Αριστοτέλειου Πανεnιστημίου Θεσσαλονίκης. 12 14 Μαίου 1986. pp. 29 48. [5] Τριανταφυλλίδης, Μ. (1941) Νέα Ελληνική Γραμματική (Δημοτική). Ανάτυπο με διορθώσεις 1~78. Ινστιτούτο Μοντέρνων Ελληνικών Σπουδών, Θεσσαλονίκη. Ταμπουρατζής Γεώργιος, Καραγιάvvης Γεώργιος. Ινστιτούτο Επεξεργασίας του Λόγου, Αρτέμιδος 6 και Επιδαύρου, Παράδεισος Αμαρσυσiσυ, 151 25. 156