Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

Σχετικά έγγραφα
Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Ο Κατά ο ος Υπο ραφών

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Παρά η η Δια είριση Δεδομέν ν

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Το Διανυσματικό Μοντέ ο

Κανονισμός Εκτε εστικής Επιτροπής

Ο Αντεστραμμένος Κατά ο ος

Κανονισμός Οικονομικής Δια είρισης

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Διοικητικού Συμ ου ίου

Επέκταση του συστήματος ανοι τού κώδικα Pig

Το Πι ανοκρατικό Μοντέ ο

Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Αποτίμηση Αποτε εσματικότητας

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ε νικό Μετσό ιο Πο υτε νείο

Ορ ανισμός Εσ τερικής Υπηρεσίας

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

Ε νικό Μετσό ιο Πο υτε νείο

Σχεδίαση Γλωσσών Προγραμματισμού Συντακτική Ανάλυση Ι. Εαρινό Εξάμηνο Lec /03/2019 Διδάσκων: Γεώργιος Χρ. Μακρής

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

Σ εδιασμός Συστημάτ ν Ε έ ου

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

Εισα ή στην Ανάκτηση Π ηροφορίας

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

Η Αρ ιτεκτονική αναφοράς Μα ησιακών Χώρ ν CROP - Μια πρώτη προσέ ιση

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

JEAN-CHARLES BLATZ 02XD RE52755

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Σχεδίαση Γλωσσών Προγραμματισμού Λεξική Ανάλυση Ι. Εαρινό Εξάμηνο Lec 05 & & 26 /02/2019 Διδάσκων: Γεώργιος Χρ.

Ε νικό και Καποδιστριακό Πανεπιστήμιο Α ηνών. Δι οτομίες Πο υπ οκότητας σε Προ ήματα Μέτρησης

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΛΑΤΦΟΡΜΑΣ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΓΕΩΡΓΙΟΣ ΓΟΥΛΑΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΥΝΤΑΞΗ: ΟΡΘΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ (FORMAL SYNTAX)

Εισαγωγή στο Bison. Μεταγλωττιστές, Χειμερινό εξάμηνο

ΚΕΦΑΛΑΙΟ 4. Ενοποιητική Γραµµατική

Κατηγορικές Γραµµατικές

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών 6

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Λογισμικό Συστήματος. Κλειώ Σγουροπούλου

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Εισαγωγή στην Επιστήμη των Υπολογιστών


ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 7: Ασυμφραστικές Γλώσσες (Γλώσσες Ελεύθερες Συμφραζομένων)

υαδικό έντρο Αναζήτησης (BSTree)

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος Συντακτική Ανάλυση. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Εισαγωγή. Διαλέξεις στο μάθημα: Μεταφραστές Γιώργος Μανής

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Η κ άσση L A TEX dithesis

Περιεχόµ εν α. Εισαγω γή. Επ ισκόπ ηση υπ ο βο λής φακέλω ν (IUCLID 5) Επ ισκόπ ηση υπ ο βο λής φακέλω ν (Reach-IT) Ερω τήσεις καιαπ αν τήσεις

Γλώσσες Χωρίς Συμφραζόμενα

20/5/ /5/ /5/ /5/2005

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Κεφάλαιο 2: Τυπικές γλώσσες

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Εισαγωγή στο Bison. Μεταγλωττιστές, Χειμερινό εξάμηνο

Μεταγλωττιστές. Ενότητα 2: Τυπικές γλώσσες (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Υλοποίηση ενός προγραμματιστικού κελύφους εργασίας

Υπολογίσιμες Συναρτήσεις

Στόχοι και αντικείμενο ενότητας. Εκφράσεις. Η έννοια του τελεστή. #2.. Εισαγωγή στη C (Μέρος Δεύτερο) Η έννοια του Τελεστή

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών. Προδιαγραφές

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

XADJ(unct) no Controlled adjunct, in contrast with the logical arguments of the predicate it is related to (8) Table 1. Grammatical Functions in LFG

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Τι χρειάζεται ένας φοιτητής για τη σωστή παρακολούθηση και συμμετοχή στο μαθημα;

Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

Κεφάλαιο 3 : Σύνταξη Γλωσσών Προγραμματισμού

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Εργαστήριο Σημασιολογικού Ιστού

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

ΜΑΘΗΜΑ: Μεταγλωττιστές


Μεταγλωττιστές. Ενότητα 7: Συντακτική ανάλυση (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Αρχές Γλωσσών Προγραμματισμού και Μεταφραστών

α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε

Γλώσσες Προγραμματισμού Μεταγλωττιστές. Συντακτική Ανάλυση με το Εργαλείο BISON

Πολλοί τρόποι περιγραφής αλγορίθμων. Όλοι είναι μηχανιστικά ισοδύναμοι και ειδικά ισοδύναμοι με μερικές αναδρομικές συναρτήσεις

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.

Transcript:

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG Πανα ιώτης Μίνος 18 Φε ρουαρίου 2014

Περί ηψη Η παρούσα μεταπτυ ιακή διπ ματική ερ ασία αναφέρεται στον σ εδιασμό και την υ οποίηση ενός συντακτικού ανα υτή (parser), ο οποίος ασίζεται στον φορμα ισμό της Λεξικής-Λειτουρ ικής Γραμματικής (Lexical- Functional Grammar - LFG). Ο συντακτικός ανα υτής είναι δυνατόν να ενσ ματ εί σε συστήματα επεξερ ασίας φυσικής ώσσας (natural language processing - NLP). Επιπ έον, αναπτύ ηκε μία ραφική διεπαφή ρήστη (Graphical User Interface - GUI), η οποία επιτρέπει την άμεση προ ο ή της εξα όμενης π ηροφορίας. Σύμφ να με την προσέ ιση που υιο ετήσαμε, οι ραμματικές που ρησιμοποιεί ο συντακτικός ανα υτής εκ αμ άνονται ς ένα σύνο ο κανόν ν συμφραστικά ανεξάρτητης ραμματικής φραστικής δομής. Οι κανόνες είναι επισημει μένοι με ειτουρ ικές εξισώσεις (functional equations). Η συντακτική ανά υση μίας πρότασης φυσικής ώσσας πρα ματοποιείται σε δύο στάδια. Στο πρώτο στάδιο, εξά ονται οι συστατικές δομές (c-structures) της πρότασης με τη οή εια ενός συντακτικού ανα υτή ια συμφραστικά ανεξάρτητες ραμματικές (context-free grammars), ο οποίος ασίζεται στον α όρι μο του Earley. Στο δεύτερο στάδιο, επι ύεται η ειτουρ ική περι ραφή (f-description) της πρότασης και δημιουρ ούνται οι ειτουρ ικές δομές (fstructures) ια κά ε συστατικό της. Για τη συντακτική ανά υση τ ν ραμματικών ρησιμοποιή ηκε το ερ α- είο JavaCC (Java Compiler Compiler), ενώ οι α όρι μοι υ οποιή ηκαν στη ώσσα προ ραμματισμού Java, η οποία εξασφα ίζει ανεξαρτησία π ατφόρμας και ε ενή υποστήριξη του προτύπου κ δικοποίησης αρακτήρ ν Unicode.

Λέξεις-Κ ειδιά: επεξερ ασία φυσικής ώσσας (ΕΦΓ) / Natural Language Processing (NLP), συντακτική ανά υση / parsing, συντακτικός ανα υτής / parser, Λεξική-Λειτουρ ική Γραμματική / Lexical-Functional Grammar (LFG) 2

Περιε όμενα Εισα ή 5 Δομή ερ ασίας............................ 7 1 Θε ρητικό υπό α ρο 8 1.1 Τυπικές ώσσες και ραμματικές............... 8 1.1.1 Συντακτικός ανα ν ριστής............... 11 1.1.2 Συντακτικός ανα υτής................. 11 1.2 Η Ιεραρ ία του Chomsky.................... 11 1.3 Ο α όρι μος του Earley.................... 13 1.4 Γραμματικές ασισμένες σε περιορισμούς........... 16 1.4.1 Δομές ιδιοτήτ ν.................... 16 1.4.2 Ε κ εισμός....................... 18 1.4.3 Ενοποίηση και Γενίκευση................ 19 1.5 Η Λεξική-Λειτουρ ική Γραμματική............... 20 1.5.1 Συστατική δομή..................... 20 1.5.2 Λειτουρ ική δομή.................... 21 1.5.3 Λειτουρ ική περι ραφή................. 23 1.5.4 Η σ έση αντιστοί ισης συστατικής και ειτουρ ικής δομής.......................... 25 1.5.5 Λειτουρ ικά υποδεί ματα................ 26 1.5.6 Λειτουρ ικές εξισώσεις................. 27 1.5.7 Λειτουρ ική α ε αιότητα................ 30 1

2 Σ εδιασμός και υ οποίηση του συντακτικού ανα υτή 31 2.1 Εισα ή............................ 31 2.2 Σ εδιασμός........................... 32 2.2.1 Η αρ ιτεκτονική του συστήματος........... 32 2.2.2 Το περι ά ον ανάπτυξης............... 32 2.3 Υ οποίηση............................ 35 2.4 Λειτουρ ία............................ 39 2.4.1 Δημιουρ ία της συστατικής δομής........... 39 2.4.2 Δημιουρ ία της ειτουρ ικής δομής.......... 39 2.5 Περι ραφή τ ν αρ εί ν ραμματικής.............. 41 2.5.1 Περι ραφή τ ν κανόν ν................ 41 2.5.2 Περι ραφή του εξικού................. 43 2.5.3 Περι ραφή τ ν ειτουρ ικών προτύπ ν........ 44 2.6 Η ραφική διεπαφή....................... 46 3 Συμπεράσματα και με οντικές προοπτικές 49 Αʹ Γ σσάρι 54 Βʹ Ακρ νύμια 56 2

Κατά ο ος σ ημάτ ν 1.1 Η ιεραρ ία του Chomsky.................... 13 1.2 πίνακας ιδιοτήτ ν-τιμών..................... 17 1.3 απεικόνιση σσικής π ηροφορίας με πίνακα ιδιοτήτ ν-τιμών 17 1.4 Η αρ ιτεκτονική παρά η ης προ ο ής της ΛΛΓ....... 20 1.5 Συστατική δομή σύμφ να με τη ΛΛΓ............. 21 1.6 Λειτουρ ική δομή σύμφ να με τη ΛΛΓ............ 22 1.7 Λειτουρ ική δομή σύμφ να με τη ΛΛΓ............ 24 1.8 Λειτουρ ική δομή σύμφ να με τη ΛΛΓ............ 25 1.9 Η σ έση αντιστοί ισης ϕ.................... 26 1.10 Κανόνες και Λεξικό της ΛΛΓ.................. 27 1.11 Συστατική δομή, επισημει μένη με ειτουρ ικές εξισώσεις.. 28 1.12 Λειτουρ ική δομή σύμφ να με τη ΛΛΓ............ 30 2.1 Η ο ική αρ ιτεκτονική του συντακτικού ανα υτή...... 33 2.2 Τα τμήματα και οι εξαρτήσεις του συντακτικού ανα υτή... 39 2.3 Η συστατική δομή........................ 40 2.4 Συ ραφή ραμματικών..................... 47 2.5 Συντακτική ανά υση...................... 48 3

Κατά ο ος πινάκ ν 1.1 Οι περιορισμοί τ ν ραμματικών................ 11 4

Εισα ή Αντικείμενο της παρούσας ερ ασίας είναι η υ οποίηση ενός συντακτικού ανα υτή φυσικής ώσσας σύμφ να με τον φορμα ισμό της Λεξικής- Λειτουρ ικής Γραμματικής (LFG). Η έρευνά μας εντάσσεται στο επιστημονικό πεδίο της υπο ο ιστικής σσο ο ίας. Η υπο ο ιστική σσο ο ία (computational linguistics CL) είναι ο διεπιστημονικός τομέας που αντ εί τη ε ρία και τη με οδο ο ία του από τη σσο ο ία και την π ηροφορική, με σκοπό τη μοντε οποίηση της φυσικής ώσσας από υπο ο ιστική σκοπιά. Εκτός από τη δημιουρ ία δομών δεδομέν ν και α ορί μ ν ια την περι ραφή σσικών φαινομέν ν, έ ει και πρακτική συνεισφορά στην ανάπτυξη εφαρμο ών και συστημάτ ν επεξερ- ασίας φυσικής ώσσας (ΕΦΓ) (natural language processing - NLP) που επιτρέπουν την ανά υση ή και παρα ή ραπτού και προφορικού ό ου, τη μετάφραση από τη μία ώσσα στην ά η κα ώς και την υ οποίηση διεπαφών ια την επικοιν νία μεταξύ τ ν αν ρώπ ν και τ ν υπο ο ιστών. Γενικά, τόσο από τους ε ρητικούς όσο και από τους υπο ο ιστικούς σσο ό ους ανα ν ρίζονται πέντε επίπεδα ανά υσης του σσικού συστήματος: Φ νητική-φ νο ο ία Η Φ νητική ασ ο είται με την προφορά τ ν έξε ν, κα εμιάς ριστά ή συνδυασμέν ν μεταξύ τους μέσα σε προτάσεις. Η Φ νο ο ία ασ ο είται με τη ειτουρ ία τ ν φ ό ν μέσα σε ένα συ κεκριμένο σσικό σύστημα. Μορφο ο ία 5

Η Μορφο ο ία ασ ο είται με την εσ τερική δομή τ ν έξε ν και το σ ηματισμό τους από τα συστατικά τους στοι εία, τα μορφήματα. Σύνταξη Η Σύνταξη ασ ο είται με τους τρόπους και τους κανόνες σύμφ να με τους οποίους οι έξεις συνδυάζονται μέσα σε με α ύτερες ενότητες, σ ηματίζοντας φράσεις και προτάσεις. Σημασιο ο ία Η Σημασιο ο ία ασ ο είται με τα νοήματα που εκφράζουν οι έξεις και, πι ανόν και οι δομές, και τον τρόπο που αυτά τα νοήματα α η επιδρούν ια τη διαμόρφ ση του νοήματος τ ν προτάσε ν. Πρα ματο ο ία Η Πρα ματο ο ία ασ ο είται με την εξάρτηση του νοήματος μιας πρότασης από τα ευρύτερα ( σσικά και εξ σσικά) συμφραζόμενα μέσα στα οποία εμφανίζεται. Από τα πέντε παραπάν επίπεδα ανά υσης της φυσικής ώσσας, η ερ- ασία μας εστιάζει στο επίπεδο της σύνταξης. Η συντακτική ανά υση είναι απαραίτητο στάδιο στην επεξερ ασία φυσικής ώσσας, ειδικά όταν πρόκειται ια προη μένες εφαρμο ές όπ ς συστήματα μη ανικής μετάφρασης, εξα ής και ανάκτησης π ηροφορίας, ερ τοαποκρίσε ν κ.ά., τα οποία προϋπο έτουν την κατανόηση ή/και παρα ή ραπτού ή προφορικού ό ου. Για την συντακτική ανά υση έ ουν προτα εί και ρησιμοποιη εί από τους υπο ο ιστικούς σσο ό ους διάφορες προσε ίσεις με πιο διαδεδομένες αυτές που ασίζονται σε συμφραστικά ανεξάρτητες ραμματικές (CFG, PCFG) και σε ραμματικές που ασίζονται στη ειτουρ ία της ενοποίησης (LFG, HPSG, PATR). Συ κεκριμένα, η δική μας προσέ ιση ασίζεται στον φορμα ισμό της Λεξικής-Λειτουρ ικής Γραμματικής (LFG). Στό ος μας είναι να υ οποιήσουμε έναν συντακτικό ανα υτή με άση αυτόν τον φορμα ισμό, προκειμένου να συνεισφέρουμε στις, ι οστές ια την ώρα, υπάρ ουσες υ οποιήσεις τέτοιου είδους. Επιπ έον παρέ ουμε ο ισμικό το οποίο είναι δυνατόν να εκτε- 6

εστεί σε διάφορες π ατφόρμες και να ειριστεί α φά ητα UNICODE και συνεπώς είναι δυνατόν να ρησιμοποιη εί ια ό ες τις φυσικές ώσσες. Δομή ερ ασίας Η ερ ασία αποτε είται από 3 κεφά αια. Στο κεφά αιο 1 περι ράφονται ασικές ε ρητικές έννοιες και ορισμοί, κα- ώς και το ε ρητικό μοντέ ο της Λεξικής-Λειτουρ ικής Γραμματικής (LFG). Το κεφά αιο 2 αναφέρεται στον σ εδιασμό και την υ οποίηση του συντακτικού ανα υτή. Στο κεφά αιο 3 παρουσιάζονται τα ενικά συμπεράσματα και οι τε ικές διαπιστώσεις μας από αυτήν τη έρευνα, κα ώς και προοπτικές ια με οντική έρευνα. 7

Κεφά αιο 1 Θε ρητικό υπό α ρο 1.1 Τυπικές ώσσες και ραμματικές Οι τυπικές ώσσες και ραμματικές έ ουν ρησιμοποιη εί στην υπο ο- ιστική σσο ο ία ια την περι ραφή σσικών φαινομέν ν που έ ουν σ έση κυρί ς με τη μορφο ο ία και τη σύνταξη. Θε ρούμε σκόπιμο να δώσουμε μερικούς ασικούς ορισμούς. Α φά ητο Αλφάβητο (alphabet) είναι ένα μη κενό, πεπερασμένο σύνο ο Σ το οποίο περιέ ει ένα ή περισσότερα μη περαιτέρ ανα ύσιμα στοι εία που ονομάζονται σύμβολα (symbols). Συμ ο οσειρά Συμβολοσειρά (string) ή λέξη (word) είναι μια πεπερασμένη ακο ου ία από μηδέν, ένα ή περισσότερα σύμ ο α που ανήκουν στο Σ. Μήκος n μίας συμ ο οσειράς α είναι το π ή ος τ ν συμ ό ν της και το συμ ο ίζουμε με α, n 0. Η κενή συμ ο οσειρά (empty string), όπου n = 0, συμ ο ίζεται ς ϵ. Το σύνο ο ό ν τ ν συμ ο οσειρών που μπορούν να παρα ούν από ένα α φά ητο Σ συμ ο ίζεται ς Σ. Τέ ος, ς Σ + συμ ο ίζεται το σύνο ο τ ν συμ ο οσειρών που δεν περιέ ει το ϵ, δη αδή Σ + = Σ {ϵ}. 8

Τυπική ώσσα Μια τυπική γλώσσα (formal language) L επί του α φα- ήτου Σ είναι ένα, νήσιο ή μη, υποσύνο ο του Σ. Τυπική ραμματική Οι τυπικές γραμματικές (formal grammars) είναι αφηρημένες δομές που ρησιμοποιούνται ια την ακρι ή περι ραφή τυπικών σσών. Μία τυπική ραμματική G ορίζεται ς μία διατετα μένη τετράδα της μορφής N, T, P, S όπου: N είναι ένα μη κενό, πεπερασμένο σύνο ο που περιέ ει τα μη τερματικά (nonterminal) σύμ ο α της ραμματικής. T είναι ένα μη κενό, πεπερασμένο σύνο ο που περιέ ει τα τερματικά (terminal) σύμ ο α της ραμματικής. Τα σύνο α N και T είναι ξένα μεταξύ τους, δη αδή N T =. P είναι ένα μη κενό, πεπερασμένο σύνο ο που περιέ ει τους κανόνες παραγωγής (production rules) της ραμματικής. Οι κανόνες παρα ής, που ονομάζονται και κανόνες επανεγγραφής (rewrite rules), είναι της μορφής α β όπου α (T N) + και β (T N). S είναι ένα ένα διακεκριμένο σύμ ο ο που το ονομάζουμε αρχικό σύμβολο (start symbol) και το οποίο ανήκει στο σύνο ο N, δη αδή S N. Σε έναν κανόνα παρα ής της μορφής α β, το αριστερό μέρος (α) ονομάζεται και κεφαλή (head) του κανόνα, και το δεξί μέρος (β) ονομάζεται και σώμα (body) του κανόνα. Συντακτικά δέντρα Τα συντακτικά δέντρα (syntax trees, parse trees) ή δέντρα παραγωγής (derivation trees) είναι καταρ άς ένας ραφικός τρόπος αναπαράστασης της παρα ής μίας συμ ο οσειράς σύμφ να με τους κανόνες μίας ραμματικής. Ένα δέντρο είναι ένα πεπερασμένο σύνο ο T από έναν ή περισσότερους κόμ ους, τέτοιο ώστε: 9

να περι αμ άνει έναν ειδικό κόμ ο που ονομάζεται ρίζα (root) του δέντρου, root(t ) οι υπό οιποι κόμ οι να μπορούν να διαμεριστούν σε ξένα μεταξύ τους σύνο α T 1,..., T m, όπου κά ε υποσύνο ο είναι με τη σειρά του ένα δέντρο. Τα δέντρα T 1,..., T m ονομάζονται υποδέντρα (subtrees) της ρίζας. Ένας κόμ ος που έ ει 0 υποδέντρα ονομάζεται τερματικός κόμβος (terminal node) ή φύλλο (leaf), ενώ αν έ ει του ά ιστον ένα, ονομάζεται μη τερματικός κόμβος (non-terminal node) ή κλαδί (branch). Αν ένας κόμ ος n 1 έ ει ένα υποδέντρο με ρίζα τον κόμ ο n 2, τότε ο n 1 είναι πρό ονος (ancestor) του n 2 και ο n 2 είναι από ονος (descendant) ή παιδί (child) του n 1. Ένα διατεταγμένο δέντρο (ordered tree) είναι ένα δέντρο με ρίζα στο οποίο η σειρά τ ν παιδιών κά ε κόμ ου είναι κα ορισμένη. Συντακτικό δέντρο σύμφ να με μία ραμματική G = {N, T, P, S} είναι ένα διατετα μένο δέντρο όπου: η επι ραφή (label) της ρίζας του δέντρου περιέ ει το αρ ικό μη τερματικό σύμ ο ο S η επι ραφή κά ε κόμ ου του δέντρου που δεν είναι τερματικός περιέ ει ένα μη τερματικό σύμ ο ο της ραμματικής από το σύνο ο N η επι ραφή κά ε φύ ου του δέντρου περιέ ει ένα τερματικό σύμ ο ο της ραμματικής από το σύνο ο T αν ο κόμ ος n έ ει επι ραφή A και οι κόμ οι n 1, n 2,..., n k με επι ραφές X 1, X 2,..., X k είναι παιδιά του n, σε διάταξη από τα αριστερά προς τα δεξιά, αντίστοι α τότε ο A X 1 X 2 X k πρέπει να είναι κανόνας παρα ής της ραμματικής από το σύνο ο P 10

1.1.1 Συντακτικός ανα ν ριστής Συντακτικός αναγνωριστής (recognizer) ια μία ραμματική G είναι ένας α όρι μος που δέ εται ς είσοδο μία συμ ο οσειρά και ανα ν ρίζει αν η συμ ο οσειρά ανήκει ή ό ι στην ώσσα L(G). 1.1.2 Συντακτικός ανα υτής Συντακτικός αναλυτής (parser) ια μία ραμματική G είναι ένας συντακτικός ανα ν ριστής ο οποίος, εφόσον ανα ν ρίσει οτι η συμ ο οσειρά ανήκει στην ώσσα L(G), τότε κατασκευάζει τα συντακτικά δέντρα της συμ ο οσειράς S. 1.2 Η Ιεραρ ία του Chomsky Ο σσο ό ος Noam Chomsky [2], [3] εισή α ε μία μέ οδο κατάταξης τ ν τυπικών ραμματικών με άση ορισμένους περιορισμούς ς προς την μορφή τ ν κανόν ν παρα ής τους (. πίνακα 1.1). Τύπος Γραμματική Κανόνες παρα ής και περιορισμοί 0 ρίς περιορισμούς α β, α (T N) +, β (T N) 1 συμφραστικά εξαρτημένη α β, α (T N) +, β (T N) α β 2 συμφραστικά ανεξάρτητη A α, A N, α (T N) 3 κανονική (δεξιο ραμμική) w x ή w yz, w N, x T ϵ, y T, z N κανονική (αριστερο ραμμική) w x ή w zy, w N, x T ϵ, y T, z N Πίνακας 1.1: Οι περιορισμοί τ ν ραμματικών Η παραπάν κατάταξη περι αμ άνει 4 τύπους τυπικών ραμματικών: 11

τύπος 0 ή ραμματική ρίς περιορισμούς (unrestricted): πρόκειται ια την κ άση με την με α ύτερη εκφραστικότητα. Οι ώσσες που παρά ει ονομάζονται και αναδρομικά απαρι μήσιμες (recursively enumerable). Ο μοναδικός περιορισμός είναι ότι η κεφα ή του κανόνα δεν μπορεί να είναι η κενή συμ ο οσειρά (ϵ). τύπος 1 ή συμφραστικά εξαρτημένη ραμματική (context-sensitive): πρόκειται ια την κ άση που παρά ει τις συμφραστικά εξαρτημένες ώσσες. Οι περιορισμοί στους κανόνες είναι ότι η κεφα ή του κανόνα δεν μπορεί να είναι η κενή συμ ο οσειρά και ότι το π ή ος τ ν συμ ό ν στο σώμα του κανόνα α πρέπει να είναι με α ύτερο ή ίσο με το π ή ος τ ν συμ ό ν της κεφα ής. τύπος 2 ή συμφραστικά ανεξάρτητή ραμματική (context-free): πρόκειται ια την κ άση που παρά ει τις συμφραστικά ανεξάρτητες ώσσες. Η κεφα ή του κανόνα παρα ής μπορεί να έ ει μόνο ένα σύμ ο ο και αυτό α πρέπει να είναι μη τερματικό. τύπος 3 ή κανονική ραμματική (regular): πρόκειται ια την κ άση με την μικρότερη εκφραστικότητα και παρά ει τις κανονικές ώσσες. Ανά ο α με την μορφή τ ν κανόν ν παρα ής, οι κανονικές ραμματικές μπορεί να είναι δεξιο ραμμικές (right-linear) ή αριστερο ραμμικές (left-linear). Κά ε ραμματική τύπου n είναι ένα νήσιο υποσύνο ο της ραμματικής τύπου n 1, συν έτοντας μία νήσια ιεραρ ία όπου τύπος 3 τύπος 2 τύπος 1 τύπος 0, η οποία ονομάζεται Ιεραρχία του Chomsky (. Εικόνα 1.1). Από τους παραπάν τύπους, οι συμφραστικά ανεξάρτητες ραμματικές έ ουν ρησιμοποιη εί αρκετά στην υπο ο ιστική σσο ο ία ια την συντακτική περι ραφή φυσικών σσών α ά και στην π ηροφορική ια την δημιουρ ία μετα ττιστών. 12

Σ ήμα 1.1: Η ιεραρ ία του Chomsky 1.3 Ο α όρι μος του Earley Ο αλγόριθμος του Earley [6], [5] είναι ένας από τους πιο διαδεδομένους α όρι μους συντακτικής ανα νώρισης συμ ο οσειρών ια συμφραστικά ανεξάρτητες ώσσες. Η ονομασία του προέρ εται από το όνομα του δημιουρ ού του Jay Earley. Ο συ κεκριμένος α όρι μος μπορεί να ειριστεί το σύνο ο τ ν συμφραστικά ανεξάρτητ ν ραμματικών και η ρονική πο υπ οκότητά του (time complexity) είναι της τάξης O(n 3 ), αυτό σημαίνει ότι στην είριστη περίπτ ση (worst-case) ο ρόνος που ρειάζεται ια να ανα ν ρίσει μία συμ ο οσειρά με έ ους n είναι ανά ο ος του n 3. Η πο υπ οκότητα ώρου του (space complexity) είναι της τάξης του O(n 2 ), δη αδή η μνήμη που ρειάζεται ο α όρι μος ια να ανα ν ρίσει μία συμ ο οσειρά με έ ους n είναι ανά ο η του n 2. Αν και ο α όρι μος είναι καταρ άς α όρι μος συντακτικής ανα νώρισης, ο Earley περιέ ραψε τον τρόπο ώστε να μπορεί να πρα ματοποιήσει και συντακτική ανά υση. Σε αυτή την περίπτ ση η ρονική πο υπ οκότητα παραμένει της τάξης O(n 3 ), ενώ η πο υπ οκότητα ώρου ίνεται O(n 3 ). Ο α όρι μος ακο ου εί την προσέ ιση από πάν προς τα κάτ (topdown) και ρησιμοποιεί την τε νική του δυναμικού προ ραμματισμού (dynamic programming). Ένας α όρι μος δυναμικού προ ραμματισμού ύνει ένα πρό- ημα ύνοντας πρώτα απ ούστερα, επικα υπτόμενα (ό ι ανεξάρτητα) υποπρο ήματα. Κά ε υποπρό ημα μπορεί με την σειρά του να ανα υ εί σε 13

απ ούστερα υποπρο ήματα. Όταν ένα υποπρό ημα ύνεται ια πρώτη φορά, η ύση του απο ηκεύεται συνή ς σε έναν πίνακα ώστε να μπορεί να επανα- ρησιμοποιη εί. Με αυτό τον τρόπο, η ύση κά ε υποπρο ήματος υπο ο ίζεται μόνο μια φορά και επανα ρησιμοποιείται όσες φορές ρειάζεται κατά τη διάρκεια της επί υσης του αρ ικού προ ήματος. Περι ραφή του α όρι μου Για μία ραμματική G = N, T, P, S και ια μία συμ ο οσειρά εισόδου w = X 1... X n, ο α όρι μος δημιουρ εί έναν πίνακα ια την απομνημόνευση τ ν ύσε ν. Ο πίνακας αυτός ονομάζεται διά- ραμμα (chart). Ουσιαστικά πρόκειται ια n + 1 σύνο α καταστάσε ν (state set) S 0... S n. Μία κατάσταση (state) ορίζεται ς η τριάδα p, j, f όπου: p ένας κανόνας παρα ής της ραμματικής G, όπου p ο αρι μός τ ν συμ- ό ν στο σώμα του κανόνα j ένας ακέραιος με τιμή 0 j p, ο αρι μός τ ν συμ ό ν στο σώμα του κανόνα p που έ ουν ήδη ανα ν ριστεί f ένας ακέραιος με τιμή 0 f n + 1, η έση στην συμ ο οσειρά w από την οποία ξεκίνησε η ανα νώριση ι' αυτόν τον κανόνα Θα έ αμε να αναφέρουμε ότι ο Earley, στην αρ ική περι ραφή του α όρι μου, στον ορισμό της κατάστασης ρησιμοποιεί ένα προαιρετικό αρακτηριστικό που ονομάζει συμ ο οσειρά πρό εψης (lookahead string) και είναι μία συμ ο οσειρά με έ ους k. Στη συνέ εια α ε ρήσουμε ότι k = 0 και α α νοήσουμε την συμ ο οσειρά πρό εψης, με σκοπό να δώσουμε μία πιο απ ή περι ραφή του α όρι μου. Ένας διαφορετικός τρόπος αναπαράστασης μίας κατάστασης είναι η ρήση της τε είας ( ) στο σώμα του κανόνα ια να δείξουμε τον αρι μό τ ν συμ ό- ν που έ ουν ήδη ανα ν ριστεί. Μια κατάσταση της μορφής [A α β, j] σημαίνει ότι έ ει ήδη ανα ν ριστεί η συμ ο οσειρά α και αναμένεται η ανα- νώριση της συμ ο οσειράς β. 14

Αρ ικά, ό α τα σύνο α καταστάσε ν είναι κενά. Το πρώτο ήμα είναι η προσ ήκη μίας κατάστασης της μορφής [ S, 0] στο σύνο ο S 0. Το σύμ ο ο δεν ανήκει στα σύμ ο α της ραμματικής. Ύστερα, επεξερ αζόμαστε με την σειρά τα σύνο α S 0... S n. Για κά ε σύνο ο καταστάσε ν, έστ S i, ε έ ουμε την μορφή του κανόνα παρα ής κά ε κατάστασης και εκτε ούμε μία από τις παρακάτ ειτουρ ίες, οι οποίες μπορεί να προσ έσουν μία νέα κατάσταση στο σύνο ο S i ή στο σύνο ο S i+1. Πρό εψη (predict) Η ειτουρ ία πρό εψης εφαρμόζεται σε καταστάσεις στο σύνο ο S i που έ ουν την μορφή [A... B..., j], δη αδή έ ουν ένα μη τερματικό σύμ ο ο δεξιά της τε είας. Σε αυτή την περίπτ ση, ια κά ε κανόνα παρα ής της ραμματικής, που έ ει τη μορφή B α, προσ έτει στο S i μία νέα κατάσταση της μορφής [B α, i], προσ έτοντας ουσιαστικά την τε εία στην αρ ή του δεξιού μέρους του κανόνα παρα ής της νέας κατάστασης. Σάρ ση (scan) Η ειτουρ ία σάρ σης εφαρμόζεται σε καταστάσεις στο σύνο ο S i που έ ουν την μορφή [A... a..., j], δη αδή δεξιά της τε είας υπάρ ει ένα τερματικό σύμ ο ο. Ο σαρ τής συ κρίνει αυτό το σύμ ο ο με το σύμ ο ο X i+1. Εάν a = x i+1, τότε προσ έτει στο S i+1 μία κατάσταση [A... a..., j], ουσιαστικά ένα αντί ραφο της κατάστασης στην οποία η τε εία έ ει μετακινη εί μια έση δεξιότερα, προς υπόδειξη ότι ανα ν ρίστηκε το τερματικό σύμ ο ο a. Συμπ ήρ ση (complete) Η ειτουρ ία συμπ ήρ σης εφαρμόζεται σε καταστάσεις στο σύνο ο S i που έ ουν την μορφή [A..., j], δη αδή σε καταστάσεις στις οποίες η τε εία ρίσκεται στο τέ ος του κανόνα. Σε αυτή την περίπτ ση προσ έτει μία κατάσταση [B... A..., k] στο σύνο ο S i ια κά ε κατάσταση της μορφής [B... A..., k] που ανήκει στο σύνο ο S j. 15

Ουσιαστικά ια ό ες τις καταστάσεις στο S j που αναμένουν την ανα- νώριση του μη τερματικού συμ ό ου A, προσ έτει στο τρέ ον σύνο ο S i ένα αντί ραφο της κατάστασης στην οποία η τε εία έ ει μετακινη εί μια έση δεξιότερα, προς υπόδειξη ότι ανα ν ρίστηκε το μη τερματικό σύμ ο ο A. Οι παραπάν ειτουρ ίες προσ έτουν μία κατάσταση σε ένα σύνο ο καταστάσε ν μόνο αν αυτό το σύνο ο δεν περιέ ει ήδη την κατάσταση. Αν επεξερ αστούμε ό ες τις καταστάσεις που περιέ ει το σύνο ο S i και το σύνο ο S i+1 παραμείνει κενό, τότε η συμ ο οσειρά δεν ανήκει στην ώσσα L(G). Αν στο τε ευταίο σύνο ο S n υπάρ ει μία κατάσταση [ S, 0] τότε η συμ ο οσειρά ανήκει στην ώσσα L(G). 1.4 Γραμματικές ασισμένες σε περιορισμούς Οι γραμματικές βασισμένες σε περιορισμούς (constrained-based grammars) που συναντώνται στη ι ιο ραφία και ς ενοποιητικές γραμματικές (unification grammars - UG) είναι φορμα ισμοί που ασίζονται σε δομές ιδιοτήτ ν και στην ειτουρ ία της ενοποίησης ια να περι ράψουν την σύνταξη της φυσικής ώσσας. Σε σ έση με τις συμφραστικά ανεξάρτητες ραμματικές, έ ουν με α ύτερη εκφραστική δύναμη και μπορούν να ειριστούν πιο σύν ετα φαινόμενα, όπ ς η συμφ νία (agreement) και η υποκατη οριοποίηση (subcategorization). Συνή ς ρησιμοποιούν συμφραστικά ανεξάρτητες ραμματικές ς σκε ετό, αν και αυτό δεν είναι απαραίτητο. Στη συνέ εια α περι ράψουμε τις δομές ιδιοτήτ ν, την έννοια του ε κ εισμού και τις ειτουρ ίες της ενοποίησης και της ενίκευσης. 1.4.1 Δομές ιδιοτήτ ν Οι δομές ιδιοτήτων (feature structures) είναι ένας τρόπος αναπαράστασης της σσική π ηροφορίας, με τον οποίο αντιστοι ίζονται τιμές (values) σε 16

ιδιότητες (features). Ο πιο συ νός τρόπος ραφικής αναπαράστασης τ ν δομών ιδιοτήτ ν στην ι ιο ραφία είναι ς πίνακες ιδιοτήτων-τιμών (attributevalue matrices - AVMs), όπ ς φαίνεται στο Σ ήμα 1.2, και σπανιότερα ς γράφοι ιδιοτήτων (feature graphs), δη αδή συνεκτικοί, κατευ υνόμενοι ράφοι με ετικέτες (directed, connected, labelled graphs). feature 1 value 1 feature 2 value 2. feature n value n Σ ήμα 1.2: πίνακας ιδιοτήτ ν-τιμών Οι τιμές τ ν δομών ιδιοτήτ ν μπορεί να είναι ατομικές (atomic) όπ ς η ιδιότητα ΜτΛ ή σύνθετες (complex) όπ ς η ιδιότητα συμφ νία ( έπε Σ ήμα 1.3). ΜτΛ συμφ νία ουσιαστικό ένος η υκό αρι μός ενικός πτώση ονομαστική Σ ήμα 1.3: απεικόνιση σσικής π ηροφορίας με πίνακα ιδιοτήτ ν-τιμών Οι δομές ιδιοτήτ ν είναι μερικές συναρτήσεις από το σύνο ο τ ν ιδιοτήτ ν στο σύνο ο τ ν τιμών. Ο συμ ο ισμός D(f) δη ώνει την τιμή της ιδιότητας f στην δομή ιδιοτήτ ν D, π.. με άση το Σ ήμα 1.3, D(ΜτΛ) = ουσιαστικό. Το σύνο ο τ ν ιδιοτήτ ν μίας δομής ιδιοτήτ ν D, το έμε και πεδίο (domain) της D και το συμ ο ίζουμε με dom(d). Εάν dom(d) =, τότε ονομάζεται κενή δομή ή μεταβλητή (variable) και συμ ο ίζεται ς [ ]. Για παράδει μα, dom(d) = {ΜτΛ, συμφ νία}. Μονοπάτι (path) σε μια δομή είναι μια ακο ου- ία ιδιοτήτ ν που συμ ο ίζεται μέσα σε νιακές παρεν έσεις, π.. 17

συμφ νία ένος. Τα μονοπάτια είναι ρήσιμα ια την εύρεση της τιμής σε μία εν υ ακ μένη δομή ιδιοτήτ ν, π.. D( συμφ νία ένος ) = η υκό. 1.4.2 Ε κ εισμός Ο εγκλεισμός (subsumption) είναι μία σ έση μεταξύ δύο δομών ιδιοτήτ ν. Μία δομή ιδιοτήτ ν D ε κ είεται στην δομή ιδιοτήτ ν D (D D ) εάν η D περιέ ει ένα υποσύνο ο της π ηροφορίας της D, οπότε και περι ράφει ένα με α ύτερο σύνο ο οντοτήτ ν ( έπε (1.1)). [ ένος ] αρσενικό ένος αρι μός αρσενικό (1.1) ενικός Πιο συ κεκριμένα, μία σύν ετη δομή ιδιοτήτ ν D ε κ είεται σε μία σύν- ετη δομή ιδιοτήτ ν D εάν: ια κά ε l dom(d) ισ ύει D(l) D (l) και ια κά ε μονοπάτι p και q της D τέτοιο ώστε D(p) = D(q), α πρέπει να ισ ύει D (p) = D (q). Επίσης, ισ ύει ότι μία ατομική τιμή δεν ε κ είει ούτε ε κ είεται από ά η ατομική τιμή εάν οι δύο ατομικές τιμές είναι διαφορετικές ( έπε (1.2)). αρσενικό η υκό (1.2) αρσενικό αρσενικό (1.3) Οι κενές δομές ιδιοτήτ ν ε κ είονται σε ό ες τις ά ες δομές ιδιοτήτ ν, ατομικές και σύν ετες, επειδή αποτε ούν την δομή με τη μικρότερη π ηροφορία ( έπε (1.4)). [ ] [ ένος ] αρσενικό (1.4) 18

1.4.3 Ενοποίηση και Γενίκευση Η πράξη της ενοποίησης (unification) είναι μία ειτουρ ία που επιτρέπει την συ ώνευση δύο δομών ιδιοτήτ ν, εφόσον περιέ ουν συμ ατά αρακτηριστικά. Το αποτέ εσμα της ενοποίησης δύο δομών ιδιοτήτ ν είναι η μικρότερη δομή ιδιοτήτ ν που ε κ είεται και στις δύο και συμ ο ίζεται ς D = D D. Συ κεκριμένα, η ενοποίηση τ ν δομών ιδιοτήτ ν D και D είναι μία δομή D, τέτοια ώστε D D και D D ( έπε (1.5)). ένος αρσ ένος αρσ ένος αρσ = αρι μός εν (1.5) αρι μός εν πτώση ονομ πτώση ονομ Γενίκευση (generalization) δύο δομών ιδιοτήτ ν είναι η με α ύτερη δομή αρακτηριστικών που ε κ είεται και από τις δύο και συμ ο ίζεται ς D = D 1 D 2. Συ κεκριμένα, η ενίκευση τ ν δομών ιδιοτήτ ν D και D είναι μία δομή C, τέτοια ώστε C D, C D και επιπ έον ια κά ε C να ισ ύει C D, C D, C C ( έπε (1.6)). ένος αρι μός αρσ ένος εν πτώση αρσ [ = ένος ονομ ] αρσ (1.6) Αντί ετα από την ενοποίηση, η πράξη της ενίκευσης είναι πάντα επιτυ ής ( έπε (1.7)). [ ] ένος αρσ αρι μός εν [ ένος ] [ ] ουδ = (1.7) Η ρήση τ ν δομών ιδιοτήτ ν και της ενοποίησης επιτρέπει την επτομερέστερη μοντε οποίηση της σύνταξης της φυσικής ώσσας, σε αντί εση με τις συμφραστικά ανεξάρτητες ραμματικές που περιορίζονται στην ρήση μίας μόνο ιδιότητας, της ραμματικής κατη ορίας. 19

1.5 Η Λεξική-Λειτουρ ική Γραμματική Η Λεξική-Λειτουργική Γραμματική (Lexical-Functional Grammar - LFG), εφεξής ΛΛΓ, είναι ένα ε ρητικό π αίσιο ια την περι ραφή της σύνταξης φυσικών σσών που αναπτύ ηκε στα τέ η της δεκαετίας του '70 από τους Joan Bresnan και Ron Kaplan [11]. Ανήκει στην κατη ορία τ ν ενετικών (generative), μη μετασ ηματιστικών (non-transformational) ραμματικών. Κεντρικός άξονας της ε ρίας είναι η αρχιτεκτονική παράλληλης προβολής (parallel projection architecture) [10] ή αρχιτεκτονική αντιστοίχισης (correspondence architecture). Η αναπαράσταση της σσικής π ηροφορίας ίνεται με την παρά η η ρήση πο ών, διαφορετικού είδους, δομών ή α ιώς προ ο ών (projection), η κά ε μία από τις οποίες διέπεται από διαφορετικούς κανόνες και έ ει τον δικό της τρόπο συμ ο ισμού. Μεταξύ τ ν δομών αυτών, υπάρ ουν σ έσεις που ονομάζονται συναρτήσεις αντιστοί ισης (correspondence functions) ή συναρτήσεις προ ο ών (projection functions) ( έπε Σ ήμα 1.4). Σ ήμα 1.4: Η αρ ιτεκτονική παρά η ης προ ο ής της ΛΛΓ Στην πιο απ ή εκδο ή της ε ρίας υπάρ ουν δύο δομές, η συστατική δομή και η ειτουρ ική δομή, κα ώς και η μεταξύ τους συνάρτηση αντιστοί ισης ϕ. 1.5.1 Συστατική δομή Η συστατική δομή (c-structure ή constituent structure) παρέ ει π ηροφορίες ια τα εξής: την σειρά τ ν όρ ν της πρότασης (word order), τη φραστική κατη ορία στην οποία ανήκει το κά ε συστατικό και την ιεράρ ηση τ ν φραστικών συστατικών. Η δομή αυτή έ ει την μορφή ενός δεντροδια ράμματος. 20

Στο Σ ήμα 1.5, έπουμε ένα δέντρο ια την πρόταση η Δανάη διαβάζει ένα βιβλίο. S NP VP DET N V NP η Δανάη δια άζει DET N ένα ι ίο Σ ήμα 1.5: Συστατική δομή σύμφ να με τη ΛΛΓ 1.5.2 Λειτουρ ική δομή Μία λειτουργική δομή (f-structure ή functional structure) είναι ένα πεπερασμένο σύνο ο ζευ ών ιδιότητας-τιμής και έ ει την μορφή ενός πίνακα ιδιοτήτ ν-τιμών. Μία ιδιότητα είναι μία συμ ο οσειρά (symbol), ενώ μία τιμή μπορεί να είναι είτε μία συμ ο οσειρά είτε μία ά η ειτουρ ική δομή. Ένα ζεύ ος ιδιότητας-τιμής, όπου η τιμή είναι ένα σύμ ο ο ονομάζεται χαρακτηριστικό (feature). Τα αρακτηριστικά ρησιμοποιούνται ια την αναπαράσταση μορφοσυντακτικής π ηροφορίας (π.. πτώση, ρόνος, ένος). Εάν η τιμή είναι μία ειτουρ ική δομή, τότε ονομάζεται γραμματική συνάρτηση (grammatical function) και αναπαριστά ραμματικές ειτουρ ίες (π.. υποκείμενο, αντικείμενο κ. π.). Επιπ έον, οι ειτουρ ικές δομές είναι δυνατόν να ρησιμοποιήσουν ς τιμές και σύνο α (sets) ή σημασιο ο ικές μορφές. Μία σημασιολογική μορφή (semantic form) είναι μία συμ ο οσειρά η οποία αναπαριστά τη σημασιο ο ική ερμηνεία μίας έξης. Η συμ ο οσειρά εμφανίζεται μέσα σε μονά εισα ικά (π.. 'Δανάη', ' ι ίο'). Σε περιπτώσεις που είναι ανα καίο, π.. σε ένα ρήμα, μία σημασιο ο ική μορφή μπορεί να περιέ ει, μέσα 21

σε τρι νικές α κύ ες, τα ορίσματά του (arguments), (π.. 'δια άζ SUBJ, OBJ '). Ένα ζεύ ος ιδιότητας-τιμής, όπου η τιμή είναι μία σημασιο ο ική μορφή ονομάζεται σημασιολογικό χαρακτηριστικό (semantic feature). Οι σημασιο ο ικές μορφές ρησιμοποιούνται συνή ς ς τιμές ια την ιδιότητα P RED. Στο Σ ήμα 1.6 φαίνεται μία ενδεικτική ειτουρ ική δομή ια το παράδει μα στο Σ ήμα 1.5. P RED 'δια άζ SUBJ, OBJ ' T EN SE NONPAST ASP ECT IMPERFECTIVE P ERSON THIRD NUMBER SING P RED 'Δανάη' CASE NOM SUBJ GEN DER FEM NUMBER SING P RED ' ι ίο' CASE ACC OBJ GEN DER NEUT NUMBER SING Σ ήμα 1.6: Λειτουρ ική δομή σύμφ να με τη ΛΛΓ Κυ ερνώμενες ραμματικές συναρτήσεις Η ΛΛΓ διακρίνει τις ραμματικές συναρτήσεις σε κυ ερνώμενες (governable) και μη κυ ερνώμενες (non-governable). Οι κυ ερνώμενες ραμματικές συναρτήσεις περιέ ουν τις ραμματικές ειτουρ ίες οι οποίες είναι ορίσματα του 22

κατη ορήματος όπ ς το υποκείμενο και το αντικείμενο. Γραμματικές συναρτήσεις όπ ς τα προσαρτήματα είναι μη κυ ερνώμενες ραμματικές συναρτήσεις. Κριτήρια ορ ού σ ηματισμού ειτουρ ικών δομών Μία ειτουρ ική δομή είναι έ κυρη αν π ηροί ταυτό ρονα τα κριτήρια της μοναδικότητας (uniqueness ή consistency), της πληρότητας (completeness) και της συνεκτικότητας (coherence). Μοναδικότητα Σε μια ειτουρ ική δομή κά ε ιδιότητα έ ει μία και μόνο μία τιμή. Π ηρότητα Μια ειτουρ ική δομή είναι τοπικά π ήρης εάν και μόνον εάν περιέ ει ό ες τις κυ ερνώμενες ραμματικές συναρτήσεις τις οποίες κυ ερνά το κατη όρημά της. Μία ειτουρ ική δομή είναι π ήρης εάν και μόνον εάν ό ες οι επιμέρους ειτουρ ικές δομές είναι τοπικά π ήρεις. Συνεκτικότητα Μία ειτουρ ική δομή είναι τοπικά συνεκτική εάν και μόνον εάν ό ες οι κυ- ερνώμενες ραμματικές συναρτήσεις τις οποίες περιέ ει κυ ερνώνται από ένα τοπικό κατη όρημα. Μία ειτουρ ική δομή είναι συνεκτική εάν και μόνον εάν ό ες οι επιμέρους ειτουρ ικές δομές είναι τοπικά συνεκτικές. Σύμφ να με την ΛΛΓ, μία συμ ο οσειρά είναι ραμματικά ορ ή αν π ηροί τα εξής δύο κριτήρια. Αφενός, η συμ ο οσειρά α πρέπει να έ ει μία έ κυρη συστατική δομή. Αφετέρου, πρέπει να συνοδεύεται από μία έ κυρη ειτουρ ική δομή, η οποία να ικανοποιεί τα παραπάν τρία κριτήρια. 1.5.3 Λειτουρ ική περι ραφή Η λειτουργική περιγραφή (f-description ή functional description) είναι ένας τρόπος αναπαράστασης μίας ειτουρ ικής δομής. Ουσιαστικά πρόκει- 23

ται ια ένα σύνο ο εξισώσε ν, που στο π αίσιο της ΛΛΓ ονομάζονται λειτουργικές εξισώσεις (functional equations). Μία ειτουρ ική δομή, όπ ς στο Σ ήμα 1.7 μπορεί να ε ρη εί ς συνάρτηση f με πεπερασμένο πεδίο ορισμού τις ιδιότητες της και με πεπερασμένο σύνο ο τιμών τις τιμές της. Σύμφ να με την κ ασική σημειο ραφία, η τιμή της συνάρτησης f ια όρισμα το CASE συμ ο ίζεται ς f(case) = NOM. Ειδικότερα όμ ς στην ΛΛΓ ρησιμοποιείται ένας διαφορετικός τρόπος σημειο ραφίας όπου η αριστερή παρέν εση έ ει μεταφερ εί αριστερά, οπότε η εξίσ ση ράφεται ς (f CASE) = NOM. Μία ειτουρ ική περι ραφή της μορφής (1.8) περι ράφει τη ειτουρ ική δομή f (Σ ήμα 1.7). CASE NOM GEN DER FEM NUMBER SING f Σ ήμα 1.7: Λειτουρ ική δομή σύμφ να με τη ΛΛΓ (f GENDER) = F EM (f NUM) = SING (f CASE) = NOM (1.8) Μία ειτουρ ική περι ραφή μπορεί να ρησιμοποιη εί και ς ένα σύστημα εξισώσε ν το οποίο μπορούμε να επι ύσουμε με σκοπό να δημιουρ ήσουμε μία ειτουρ ική δομή. Το σύστημα (1.9) α μας δώσει την ειτουρ ική δομή 24

που έπουμε στο Σ ήμα 1.8. (f 1 P RED) = κοιμάμαι SUBJ (f 1 SUBJ) = f 2 (f 1 P ERSON) = T HIRD (f 2 P RED) = Δανάη (f 2 GENDER) = F EM (f 2 NUM) = SING (f 2 CASE) = NOM (1.9) P RED P ERSON SUBJ 'κοιμάμαι SU BJ ' THIRD P RED 'Δανάη' CASE NOM GEN DER FEM NUMBER SING Σ ήμα 1.8: Λειτουρ ική δομή σύμφ να με τη ΛΛΓ 1.5.4 Η σ έση αντιστοί ισης συστατικής και ειτουρ ικής δομής Όπ ς έ ει αναφερ εί παραπάν, μία πρόταση φυσικής ώσσας περι ράφεται παρά η α με μία συστατική και μία ειτουρ ική δομή. Μεταξύ τους υπάρ ει μία σ έση αντιστοί ισης που συμ ο ίζεται με ϕ. Τυπικά, η ϕ ορίζεται ς συνάρτηση από το σύνο ο τ ν κόμ ν της συστατικής δομής στο σύνο ο τ ν ειτουρ ικών δομών. Στο Σ ήμα 1.9 έπουμε μία π ήρη ανά υση της πρότασης η Δανάη κοιμάται. Παρατηρούμε ότι η ϕ δεν είναι συνάρτηση ένα προς ένα, πο απ οί κόμ οι του δέντρου αντιστοι ούν σε μία ειτουρ ική δομή. 25

S:f 1 NP:f 2. DET:f 3 N:f 4 η Δανάη. VP:f 5 V:f 6 κοιμάται.p RED 'κοιμάμαι SU BJ ' P ERS T HIRD P RED 'Δανάη' CASE NOM SUBJ. GEND F EM NUM SING f 1, f 5, f f 2, f 3, f 4 6 Σ ήμα 1.9: Η σ έση αντιστοί ισης ϕ Μία ο οκ ηρ μένη περι ραφή μίας πρότασης φυσικής ώσσας περι αμ- άνει ό ι μόνο τις δύο δομές, συστατική και ειτουρ ική, α ά και την αντιστοί ιση μεταξύ τους. 1.5.5 Λειτουρ ικά υποδεί ματα Οι κανόνες της ΛΛΓ έ ουν την μορφή κανόν ν συμφραστικά ανεξάρτητ ν ραμματικών επισημει μέν ν με λειτουργικά υποδείγματα (functional schemata). Τα ειτουρ ικά υποδεί ματα είναι παρόμοια με τις ειτουρ ικές εξισώσεις, όμ ς αντί ια ονόματα συναρτήσε ν, περιέ ουν τα σύμ ο α (πάν έ ος) και (κάτ έ ος). Τα δύο αυτά σύμ ο α που ονομάζονται και μετα-μετα ητές (metavariables) σ ετίζουν έναν κόμ ο της συστατικής δομής με μία ειτουρ ική δομή. Πιο συ κεκριμένα, η συνάρτηση M αντιστοι- εί έναν κόμ ο στον ονικό του κόμ ο. Για έναν κόμ ο, ο κόμ ος M( ) είναι ο ονικός κόμ ος του κόμ ου. Αντί ια M( ), ρησιμοποιείται και ο συμ ο ισμός ˆ. Ισ ύει ότι ϕ(m( )), δη αδή το έ ος δη ώνει την ειτουρ ική δομή του ονικού κόμ ου, και ϕ( ), όπου το έ ος υποδη ώνει την ειτουρ ική δομή του κόμ ου. Στο Σ ήμα 1.10 έπουμε μία ραμματική και ένα εξικό της ΛΛΓ, το οποίο μπορεί να ρησιμοποιη εί ια την ανά υση της πρότασης η Δανάη κοιμάται. Σύμφ να με αυτή την ραμματική, η συστατική δομή της πρότασης α είναι αυτή στο Σ ήμα 1.11. Παρατηρούμε ότι το δέντρο είναι επισημει μένο με τα 26

S NP VP ( SUBJ) = = NP DET N = = VP V = (αʹ) Κανόνες ΛΛΓ η, DET ( GEND) = F EM ( NUM) = SING ( CASE) = NOM Δανάη, N ( GEND) = F EM ( NUM) = SING ( CASE) = NOM ( P RED) = Δανάη κοιμάται ( P RED) = κοιμάμαι SUBJ ( P ERS) = T HIRD ( ʹ) Λεξικό ΛΛΓ Σ ήμα 1.10: Κανόνες και Λεξικό της ΛΛΓ ειτουρ ικά υποδεί ματα. Εάν αντικαταστήσουμε τις μετα-μετα ητές και με ϕ(m( )) και ϕ( ) αντίστοι α, τότε το σύνο ο τους είναι η ειτουρ ική περι ραφή της πρότασης, η οποία μπορεί να επι υ εί ώστε να δημιουρ η ούν οι ειτουρ ικές δομές της πρότασης. Η δομή που αντιστοι εί στην ρίζα του δέντρου είναι η ειτουρ ική δομή της πρότασης. 1.5.6 Λειτουρ ικές εξισώσεις Οι λειτουργικές εξισώσεις (functional equations) της ΛΛΓ ρίζονται σε δύο κατη ορίες: τις εξισώσεις δή σης (defining equations) και τις εξισώσεις περιορισμού (constraining equations). 27

S:f 1 ( SUBJ) = NP:f 2 = VP:f 5 = DET:f 3 ( GEND) = F EM ( NUM) = SING ( CASE) = NOM η = N:f 4 ( GEND) = F EM ( NUM) = SING ( CASE) = NOM ( P RED) = Δανάη Δανάη = V:f 6 ( P ERS) = T HIRD ( P RED) = κοιμάμαι SUBJ κοιμάται Σ ήμα 1.11: Συστατική δομή, επισημει μένη με ειτουρ ικές εξισώσεις Εξισώσεις δή σης Οι εξισώσεις δήλωσης (defining equations) ρησιμοποιούνται ια την δημιουρ ία τ ν ειτουρ ικών δομών. Η (1.10) έτει την τιμή της ιδιότητας CASE στην ειτουρ ική δομή f σε ACC. Εδώ, διευκρινίζεται ότι ο τε εστής =, στο π αίσιο της ΛΛΓ, συμ ο ίζει την πράξη της ενοποίησης. (f CASE) = ACC (1.10) Οι εξισώσεις δή σης μπορούν να ρησιμοποιη ούν και σε σύνο α. Η (1.11) προσ έτει τη ειτουρ ική δομή g ς μέ ος στο σύνο ο ADJ της ειτουρ ικής δομής f. g (f ADJ) (1.11) 28

Εξισώσεις περιορισμού Οι εξισώσεις περιορισμού (constraining equations) είναι εξισώσεις που ε έ ουν ια την ορ ότητα της ύσης εφαρμόζοντας περιορισμούς. Σε αντί εση με τις εξισώσεις δή σης, δεν συνεισφέρουν στην δημιουρ ία ειτουρ- ικών δομών. Η (1.12) α ικανοποιη εί μόνο αν η ειτουρ ική δομή f περιέ ει μία ιδιότητα με το όνομα CASE και με τιμή ACC. (f CASE) = c ACC (1.12) Σε περίπτ ση που έ ουμε να μην περιέ ει κάποια συ κεκριμένη τιμή (π.. NOM), μπορούμε να ρησιμοποιήσουμε τον τε εστή μη ισότητας ( ) όπ ς στην (1.13). (f CASE) NOM (1.13) Η (1.13) μπορεί να ραφτεί σε ά η μορφή ρησιμοποιώντας τον τε εστή άρνησης ( ), έπε (1.14). [(f CASE) = NOM] (1.14) Εκτός από τις εξισώσεις περιορισμού που ε έ ουν ια την ύπαρξη ή απουσία συ κεκριμέν ν τιμών που μπορεί να έ ει μία ιδιότητα, υπάρ ουν και εξισώσεις υπαρξιακού περιορισμού (existential contrain) που ε έ ουν ια την ύπαρξη ιδιοτήτ ν ρίς όμ ς να αμ άνουν υπόψη την τιμή της ιδιότητας. Η (1.15) ικανοποιείται αν η ειτουρ ική δομή f περιέ ει μία ιδιότητα CASE με οποιαδήποτε τιμή, ενώ η ρήση του τε εστή (1.16) υποδη ώνει ότι η ειτουρ ική δομή f δεν πρέπει να περιέ ει μία ιδιότητα CASE. (f CASE) (1.15) (f CASE) (1.16) 29

1.5.7 Λειτουρ ική α ε αιότητα Η λειτουργική αβεβαιότητα (functional uncertainty) είναι μία επέκταση του αρ ικού ε ρητικού μοντέ ου της ΛΛΓ, και πιο ειδικά τ ν ειτουρ ικών εξισώσε ν. Σκοπός της είναι η ρήση ιδιοτήτ ν ς ορίσματα σε ειτουρ ικές εξισώσεις, όταν δεν ν ρίζουμε εκ τ ν προτέρ ν τις ιδιότητες αυτές. Είναι ρήσιμες ια πιο σύν ετα φαινόμενα, π.. αναφορά ή εξαρτήσεις με ά ης απόστασης (long distance dependencies). Μία εξίσ ση ρίς ειτουρ ική α ε αιότητα ορίζεται ς εξής: (f α) = u εάν και μόνο εάν f είναι μία ειτουρ ική δομή, α είναι μία ιδιότητα και το ζεύ ος α, u f. Στο Σ ήμα 1.12, ισ ύει ότι η (f E) = g. Η ειτουρ ική α ε αιότητα ορίζεται ς εξής: Εάν το α είναι ένα σύνο ο που αποτε είται από συμ ο οσειρές, (f α) = u εάν και μόνο εάν υπάρ ει x α τέτοιο ώστε να ισ ύει (f x) = u. Στο Σ ήμα 1.12, ισ ύει ότι η (f {A C E}) = g. Οι ειτουρ ικές εξισώσεις με μορφή από μέσα προς τα έξ (inside-out) είναι ένας ά ος τύπος ειτουρ ικής α ε αιότητας, όπου ια κά ε ειτουρ ική δομή f και κάποια ιδιότητα α, η (α f ) δεί νει μία ειτουρ ική δομή (f α) = f. Στο Σ ήμα 1.12, ισ ύει ότι η (E g) = f. Η ειτουρ ική α ε αιότητα σε εξισώσεις με μορφή από μέσα προς τα έξ ορίζεται ς εξής: Εάν το α είναι ένα σύνο ο που αποτε είται από συμ ο οσειρές, (α f) = u εάν και μόνο εάν υπάρ ει x α τέτοιο ώστε να ισ ύει (x f) = u. Στο Σ ήμα 1.12, ισ ύει ότι η ({A C E} g) = f. A B C D E J K L M f g Σ ήμα 1.12: Λειτουρ ική δομή σύμφ να με τη ΛΛΓ 30

Κεφά αιο 2 Σ εδιασμός και υ οποίηση του συντακτικού ανα υτή 2.1 Εισα ή Το προς επί υση πρό ημα είναι η ανάπτυξη ενός ερ α είου συντακτικής ανά υσης ια προτάσεις φυσικής ώσσας, ασισμένου στον φορμα ισμό της Λεξικής-Λειτουρ ικής Γραμματικής (ΛΛΓ). Αρ ική μας υπό εση είναι ότι οι κανόνες της ΛΛΓ μπορούν να ε ρη ούν κανόνες συμφραστικά ανεξάρτητ ν ραμματικών, όπου τα σύμ ο α στο σώμα τ ν κανόν ν είναι επισημει μένα με ειτουρ ικά υποδεί ματα. Με άση την παραπάν υπό εση, το πρό ημα της συντακτικής ανά υσης είναι δυνατόν να επιμεριστεί σε δύο απ ούστερα υποπρο ήματα: α. την δημιουρ ία ενός δεντροδια ράμματος επισημει μένου με τα ειτουρ- ικά υποδεί ματα ια την αναπαράσταση της συστατικής δομής της πρότασης,. την δημιουρ ία και επί υση της ειτουρ ικής περι ραφής της πρότασης ια την εξα ή της ειτουρ ικής δομής της. 31

2.2 Σ εδιασμός 2.2.1 Η αρ ιτεκτονική του συστήματος Πριν από την υ οποίηση του ο ισμικού προη ή ηκε το απαραίτητο στάδιο του σ εδιασμού του. Σε αυτό το στάδιο, πρα ματοποιή ηκε ο καταμερισμός της ειτουρ ικότητας σε επιμέρους συστατικά (components). Ένα συστατικό είναι μια αρ ρ τή μονάδα με κα ά κα ορισμένες διεπαφές (interfaces). Τα οφέ η αυτής της προσέ ισης είναι πο απ ά: διευκο ύνει την ανάπτυξη, τον έ ε ο και την συντήρηση μικρότερ ν τμημάτ ν κώδικα παρέ ει την δυνατότητα επανα ρησιμοποίησης υπαρ όντ ν συστατικών επιτρέπει την αντικατάσταση ενός συστατικού με μία νέα υ οποίηση, ρίς να ρειάζεται να πρα ματοποιήσουμε α α ές στον υπό οιπο κώδικα της εφαρμο ής. Όπ ς φαίνεται στην ο ική αρ ιτεκτονική του συστήματος (Σ ήμα 2.1), η εφαρμο ή περι αμ άνει τρία συστατικά: α. έναν συντακτικό ανα υτή ια συμφραστικά ανεξάρτητες ραμματικές,. έναν επι υτή ειτουρ ικών εξισώσε ν της ΛΛΓ,. έναν εκτικό και συντακτικό ανα υτή ια την ανά ν ση αρ εί ν με κανόνες της ΛΛΓ και ια την μετατροπή τους σε δομές δεδομέν ν που μπορούν να ρησιμοποιη ούν από τα ά α δύο συστατικά. 2.2.2 Το περι ά ον ανάπτυξης Η ανάπτυξη του ο ισμικού έ ινε με τη ρήση της ώσσας προ ραμματισμού Java. Η Java είναι μια αντικειμενοστρεφής (object oriented) ώσσα προ ραμματισμού, η οποία σ εδιάστηκε από την Sun Microsystems (π έον Oracle Corporation). Ένα από τα ασικά π εονεκτήματα της Java έναντι 32

Σ ήμα 2.1: Η ο ική αρ ιτεκτονική του συντακτικού ανα υτή τ ν περισσότερ ν ά ν σσών είναι η ανεξαρτησία από το ειτουρ ικό σύστημα και την π ατφόρμα. Η μόνη προϋπό εση ια την εκτέ εση ενός προ- ράμματος ραμμένου σε Java είναι η δυνατότητα εκτέ εσης της εικονικής μη ανής Java (Java Virtual Machine - JVM). Επί του παρόντος, υποστηρίζονται τα ειτουρ ικά συστήματα Linux, OS X, Solaris και Windows. Ένα ακόμα αρακτηριστικό της Java, σε σ έση με ά ες ώσσες προ ραμματισμού, είναι η ε ενής υποστήριξη του Unicode. Το πρότυπο Unicode είναι ένα διε νές πρότυπο κ δικοποίησης αρακτήρ ν που έ ει την δυνατότητα αναπαράστασης αρακτήρ ν ια τις περισσότερες ώσσες. Έ ει κα ιερ εί ς η προτιμότερη κ δικοποίηση ια ρήση σε πο υ σσικά υπο ο ιστικά συστήματα και εφαρμο ές. Βασικές έννοιες της Java είναι το αντικείμενο (object) και η κλάση (class). Η Java ρησιμοποιεί κ άσεις ια να ορ ανώσει τον κώδικα σε ο ικές ενότητες, ουσιαστικά πρόκειται ια κάποιο αρ είο πηγαίου κώδικα (source code) ή εκτελέσιμου κώδικα (object code). Ένα αντικείμενο είναι στιγμιότυπο (instance) μίας κ άσης, υπάρ ει δε η δυνατότητα να υπάρ ουν περισσότερα του ενός αντικείμενα που να είναι στι μιότυπα της ίδιας κ άσης. Μία κ άση μπορεί να περιέ ει μεθόδους (methods) και πεδία (fields). Οι μέ οδοι κα ορίζουν την συμπεριφορά ενός αντικειμένου. Τα πεδία περιέ ουν δεδομένα σ ετικά με την κατάσταση αυτού του αντικειμένου. Μία έννοια που α συναντήσουμε στην συνέ εια είναι οι διασυνδέσεις. Μια διασύνδεση (interface) ορίζει έναν τρόπο συμπεριφοράς που μπορεί να υ οποιη εί από οποιαδήποτε κ άση. Δη ώνει 33

ένα σύνο ο με όδ ν α ά δεν προσφέρει την υ οποίηση τους. Οι διασυνδέσεις ρησιμοποιούνται ια να περι ράψουν την ειτουρ ικότητα, α ά ό ι την πι ανή υ οποίηση. Διαφορετικές κ άσεις μπορούν να υ οποιήσουν μία διασύνδεση, κά ε μία με διαφορετικό τρόπο. Όπ ς αναφέρ ηκε παραπάν, η παρούσα ερ ασία απαιτεί ένα συστατικό ια την ανά ν ση αρ εί ν με κανόνες της ΛΛΓ. Το συστατικό αυτό α πρέπει να περιέ ει έναν εκτικό ανα υτή και έναν συντακτικό ανα υτή τυπικής ώσσας. Ένας λεκτικός αναλυτής (lexical analyzer, lexer, tokenizer ή scanner) είναι ένα πρό ραμμα που μετατρέπει μια ακο ου ία από αρακτήρες (string) σε μια ακο ου ία από λεκτικές μονάδες (tokens). Αν και ς προ ραμματιστές μπορούμε να δημιουρ ήσουμε εκτικούς ανα υτές με συ ραφή κώδικα, συνή- ς προτιμάται η ρήση μίας γεννήτριας λεκτικών αναλυτών (lexical analyzer generator) ια την παρα ή τους. Οι εννήτριες εκτικών ανα υτών είναι προ ράμματα που δέ ονται ένα σύνο ο από κανόνες περι ραφής εκτικών μονάδ ν και παρά ουν αυτόματα τον κώδικα ια την εκτική ανά υση τους. Η περι ραφή ίνεται συνή ς με ρήση κανονικών εκφράσε ν ή με κάποια μορφή κανονικής ραμματικής. Αντίστοι α, υπάρ ουν και εννήτριες συντακτικών ανα υτών, δη αδή εφαρμο ές που δημιουρ ούν αυτόματα τον κώδικα ια την συντακτική ανά υση μίας τυπικής ώσσας, σύμφ να πάντα με κάποιους κανόνες. Επειδή η είσοδος αυτών τ ν συντακτικών ανα υτών είναι εκτικές μονάδες, η εκτική ανά υση είναι ένα απαραίτητο στάδιο πριν την συντακτική ανά υση. Για την παρούσα ερ ασία ρησιμοποιήσαμε την JavaCC. Η εφαρμο ή JavaCC (Java Compiler Compiler ) είναι μία εννήτρια εκτικών και συντακτικών ανα υτών τυπικής ώσσας σε ώσσα Java. Οι συντακτικοί ανα υτές που δημιουρ εί είναι τύπου LL(k). Πρόκειται ια έναν τύπο συντακτικού ανα υτή από πάν προς τα κάτ με δυνατότητα ρήσης k συμ- ό ν ια πρό εψη. Οι συντακτικοί ανα υτές αυτού του τύπου μπορούν να ανα ύσουν ντετερμινιστικές συμφραστικά ανεξάρτητες γλώσσες (deterministic context-free languages - DCFGs), ένα υποσύνο ο τ ν συμφραστικά ανεξάρτητ ν σσών. Η συντακτική ανά υση πρα ματοποιείται σε ραμμικό ρόνο. Η δημιουρ ία ενός ανα υτή τυπικής ώσσας ίνεται με άση μία περι ραφή, 34

ραμμένη σε Εκτεταμένη Μορφή Μπάκους-Νάουρ (Extended Backus Naur Form - EBNF). Εφαρμο ές όπ ς η JavaCC ρησιμοποιούνται κυρί ς από μεταγλωττιστές (compilers) και διερμηνείς (interpreters) ια να δια άζουν τα αρ εία πη αίου κώδικα προ ράμματος που πρέπει να μετα ττιστεί ή να εκτε εστεί. Ωστόσο, μπορούν να ρησιμοποιη ούν και σε ά ες εφαρμο ές, όταν υπάρ ει ανά κη επεξερ ασίας ή ερμηνείας δεδομέν ν που ακο ου ούν τον φορμα ισμό κάποιας τυπικής ώσσας, όπ ς στην περίπτ σή μας. 2.3 Υ οποίηση Η υ οποίηση του συντακτικού ανα υτή αποτε είται από 6 έρ α (projects), τα οποία φαίνονται, μαζί με τις εξαρτήσεις τους, στο Σ ήμα 2.2. Ακο ου εί μία περι ραφή του κά ε έρ ου: interfaces Το έρ ο interfaces περιέ ει μία σειρά διασυνδέσε ν που περι ράφουν ειτουρ ικότητα που έ ει σ έση με τις συμφραστικά ανεξάρτητες ραμματικές. Οι διασυνδέσεις είναι οι εξής: IParser: περι ράφει την ειτουρ ικότητα συντακτικών ανα υτών ια συμφραστικά ανεξάρτητες ώσσες και ραμματικές IGrammar: περι ράφει την ειτουρ ικότητα που πρέπει να παρέ ει ένα αντικείμενο συμφραστικά ανεξάρτητης ραμματικής IRule: περι ράφει την ειτουρ ικότητα κανόν ν μετα ραφής συμφραστικά ανεξάρτητης ραμματικής ISymbol: περι ράφει την ειτουρ ικότητα συμ ό ν συμφραστικά ανεξάρτητης ραμματικής ILemma: περι ράφει την ειτουρ ικότητα ημμάτ ν Tree: περι ράφει δεντροδια ράμματα 35

Node: περι ράφει κόμ ους δεντροδια ραμμάτ ν earley Το έρ ο earley περιέ ει την υ οποίηση ενός συντακτικού ανα υτή ια συμφραστικά ανεξάρτητες ραμματικές που ασίζεται στον α όρι μο του Earley. Το με α ύτερο μέρος της ειτουρ ικότητας ρίσκεται στην κ άση EarleyParser που υ οποιεί την ειτουρ ικότητα που περι ράφεται από την διασύνδεση IParser. Δέ εται ς είσοδο μία ίστα από μετα ητές τύπου συμ- ο οσειρά (String) και ένα αντικείμενο που υ οποιεί την διασύνδεση IGrammar. Η έξοδος του ανα υτή είναι ένα αντικείμενο που υ οποιεί την διασύνδεση Tree. lfg-common Το έρ ο lfg-common περιέ ει διασυνδέσεις και κ άσεις που σ ετίζονται με την ΛΛΓ. Ενδεικτικά αναφέρουμε τις κ άσεις LFGrammar, LFGRule, LFGSymbol και LFGLemma που υ οποιούν τις διασυνδέσεις IGrammar, IRule, ISymbol και ILemma αντίστοι α. Επίσης περιέ ονται οι κ άσεις ια την περι- ραφή ειτουρ ικών εξισώσε ν και προσδιοριστών. lfg-grammar-parser Σε αυτό το έρ ο περιέ εται ο εκτικός και συντακτικός ανα υτής ια την ανά ν ση ραμματικών της ΛΛΓ. Περιέ ει την κ άση LfgGrammarParser κα ώς και κάποιες ά ες οη ητικές κ άσεις που ρησιμοποιούνται από την πρώτη. Οι ασικές μέ οδοι που παρέ ει η κ άση LfgGrammarParser είναι οι εξής: public static LFGrammar evaluate(string file); Ανά ν ση ενός αρ είου με το όνομα file και δημιουρ ία ενός αντικειμένου της κ άσης LFGrammar. public static LFGrammar evaluatestring(string grammar); 36

Ανά ν ση της συμ ο οσειράς grammar που περιέ ει μία ραμματική και δημιουρ ία ενός αντικειμένου της κ άσης LFGrammar. Επίσης σε αυτό το έρ ο ρίσκεται και το αρ είο LfgGrammarParser.jj. Το αρ είο αυτό περιέ ει την περι ραφή του φορμα ισμού που α πρέπει να δια έτουν τα αρ εία ραμματικής που δέ εται ς είσοδο το σύστημά μας. Σε περίπτ ση επέκτασης του φορμα ισμού μας, οι α α ές α πρέπει να πρα ματοποιη ούν σε αυτό το αρ είο και στη συνέ εια α πρέπει να ξαναδημιουρ ήσουμε την κ άση LfgGrammarParser με ρήση του ερ α είου JavaCC όπ ς παρακάτ : javacc -STATIC=false LfgGrammarParser.jj lfg-solver Το έρ ο lfg-solver περιέ ει τον κώδικα ια την επί υση ειτουρ ικών περι ραφών. Οι πιο ασικές κ άσεις είναι οι LFGAnalysis, LfgSolution και LfgSolver. Η κ άση LFGAnalysis αντιπροσ πεύει το αποτέ εσμα της συντακτικής ανά υσης μίας πρότασης φυσικής ώσσας. Περιέ ει μηδέν, ένα ή περισσότερα αντικείμενα (σε περίπτ ση αμφισημίας) του τύπου LfgSolution. Η κ άση LFGAnalysis περιέ ει με όδους ια εξα ή της π ηροφορίας της συντακτικής ανά υσης σε μορφή XML (Extensible Markup Language). Επίσης, μπορεί να αναπαραστήσει την π ηροφορία ρησιμοποιώντας το πρότυπο SVG (Scalable Vector Graphics) ια τις συστατικές δομές και το πρότυπο MathML (Mathematical Markup Language) ια τις ειτουρ ικές δομές. Η κ άση LfgSolver είναι η κ άση εκείνη που δέ εται ς είσοδο ένα δέντρο και από αυτό δημιουρ εί και επι ύει μία ειτουρ ική περι ραφή. Χρησιμοποιεί αντικείμενα τύπου LFGAnalysis ια την αναπαράσταση του αποτε έσματος. lfg-parser Το έρ ο lfg-parser περιέ ει την κ άση LFGParser η οποία είναι και ο κυρί ς συντακτικός ανα υτής της ΛΛΓ. Η ασική μέ οδος της κ άσης αυτής 37

είναι η μέ οδος public LFGAnalysis analyse(string[] tokens);. Η μέ οδος analyse δέ εται ς παράμετρο έναν πίνακα με τις έξεις της προς ανά υση πρότασης και επιστρέφει ένα αντικείμενο τύπου LFGAnalysis το οποίο περιέ ει το αποτέ εσμα της ανά υσης. Ακο ου εί ένα παράδει μα ρήσης της κ άσης LFGParser. Listing 2.1: Παράδει μα ρήσης της κ άσης LFGParser // read the grammar f i l e S t r i n g f i l e n a m e =... ; LFGrammar grammar = LfgGrammarParser. e v a l u a t e ( f i l e n a m e ) ; LFGParser p a r s e r = new LFGParser ( grammar ) ; // the sentence to be analyzed S t r i n g [ ] tokens = {"η", "Δανάη", "κοιμάται" } ; // c r e a t e the a n a l y s i s LFGAnalysis a n a l y s i s = p a r s e r. a n a l y s e ( tokens ) ; // g e t number o f s o l u t i o n s int solutioncount = a n a l y s i s. getsolutionscount ( ) ; for ( int i = 0 ; i < solutioncount ; i ++) { // check i f s o l u t i o n i s v a l i d boolean c o r r e c t = a n a l y s i s. g e t S o l u t i o n ( i ). i s C o r r e c t ( ) ; i f ( c o r r e c t ) { // p r i n t an xml r e p r e s a n t a t i o n o f the s o l u t i o n to screen S t r i n g xml = a n a l y s i s. g e t S o l u t i o n ( i ). createxml ( true ) ; System. out. p r i n t l n ( xml ) ; } } 38

Σ ήμα 2.2: Τα τμήματα και οι εξαρτήσεις του συντακτικού ανα υτή 2.4 Λειτουρ ία 2.4.1 Δημιουρ ία της συστατικής δομής Η δημιουρ ία της συστατικής δομής είναι το πρώτο ήμα ια την συντακτική ανά υση μίας πρότασης φυσικής ώσσας σύμφ να με την δοσμένη ραμματική και ίνεται με την οή εια ενός συντακτικού ανα υτή ια συμφραστικά ανεξάρτητες ραμματικές. Ο συντακτικός ανα υτής που υ οποιή ηκε είναι μία τροποποιημένη έκδοση του α όρι μου του Earley. Δέ εται ς είσοδο μία πρόταση φυσικής ώσσας και δημιουρ εί μία δομή δεδομέν ν, ένα δέντρο, που αντιστοι εί στο δεντροδιά ραμμα της πρότασης αυτής. Κατά την δημιουρ ία του δέντρου, απο ηκεύουμε στους κόμ ους του αναφορές στους κανόνες της ραμματικής και στις κατα ρίσεις του εξικού ώστε τα υπό- οιπα τμήματα του ανα υτή να έ ουν την δυνατότητα πρόσ ασης σε αυτή την π ηροφορία που είναι απαραίτητη ια την περαιτέρ ανά υση (Σ ήμα 2.3). 2.4.2 Δημιουρ ία της ειτουρ ικής δομής Η ειτουρ ική περι ραφή μίας πρότασης φυσικής ώσσας κατασκευάζεται διατρέ οντας το δέντρο και συ έ οντας τα ειτουρ ικά υποδεί ματα από τους κανόνες της ραμματικής. Για κά ε κόμ ο n με πατρικό κόμ ο τον p, δημιουρ ούμε μία κενή ειτουρ ική δομή f n και προσ έτουμε στη ειτουρ- 39

S NP. DET. N. η. Δανάη. VP. V. κοιμάται.. S.NP.VP ( SUBJ) = = NP.DET.N = = VP.V =.κοιμάται, V ( P RED) = κοιμάμαι SUBJ ( P ERS) = T HIRD.Δανάη, N ( GEND) = F EM ( NUM) = SING ( CASE) = NOM ( P RED) = Δανάη.η, DET ( GEND) = F EM ( NUM) = SING ( CASE) = NOM Σ ήμα 2.3: Η συστατική δομή ική περι ραφή τις ειτουρ ικές εξισώσεις που υπάρ ουν στο σύμ ο ο του σώματος του κανόνα που αντιστοι εί στον κόμ ο, αντικα ιστώντας τα προσδιοριστικά και τ ν εξισώσε ν με αναφορές στις ειτουρ ικές δομές f n και f p αντίστοι α. Στη συνέ εια επι ύουμε την ειτουρ ική περι ραφή, αρ- ικά τις εξισώσεις δή σης και στη συνέ εια τις εξισώσεις περιορισμού. Η ειτουρ ική δομή που αντιστοι εί στην ρίζα του δέντρου είναι η ειτουρ ική δομή της πρότασης. Αν η δομή αυτή ικανοποιεί τα κριτήρια ορ ότητας της ΛΛΓ και ό ες τις εξισώσεις περιορισμού, τότε η πρόταση φυσικής ώσσας ανήκει στην ώσσα που περι ράφει η ραμματική. 40

2.5 Περι ραφή τ ν αρ εί ν ραμματικής Ένα αρ είο ραμματικής περιέ ει έναν ή περισσότερους κανόνες μετα ραφής. Επίσης περιέ ει και το εξικό. 2.5.1 Περι ραφή τ ν κανόν ν Ένα σύμ ο ο μπορεί να αποτε είται από συ κεκριμένους αρακτήρες. Οι επιτρεπτοί αρακτήρες είναι ό α τα ράμματα του α ικού και ε ηνικού α φά ητου, τα αρι μητικά ψηφία (0-9), ο αρακτήρας underscore (_) και το μονό εισα ικό ('). Ένας κανόνας έ ει την μορφή A X;, όπου: A ένα μη τερματικό σύμ ο ο της ραμματικής ο αρακτήρας ( έ ος δεξιά). Ενα ακτικά μπορούμε να ρησιμοποιήσουμε -> (ο αρακτήρας παύ α ακο ου ούμενος από τον αρακτήρα με α ύτερο από) X ένα ή περισσότερα επισημει μένα σύμ ο α ; ο αρακτήρας ; (ε ηνικό ερ τηματικό) που σηματοδοτεί το τέ ος του κανόνα Ένα επισημει μένο σύμ ο ο αποτε είται από: α. ένα μη τερματικό σύμ ο ο της ραμματικής. προαιρετικά έναν ποσοδείκτη, δη αδή κανένα ή έναν αρακτήρας από το σύνο ο {?,*,+}. προαιρετικά το σώμα του συμ ό ου, δη αδή οι αρακτήρες { } (αριστερή και δεξιά α κύ η) μεταξύ τ ν οποί ν μπορεί να υπάρ ει κανένα, ένα ή περισσότερα ειτουρ ικά πρότυπα Οι ποσοδείκτες (quantifiers) ρησιμοποιούνται ια να δη ώσουν επανά- ηψη. Πιο συ κεκριμένα 41

? ο αρακτήρας? (α ικό ερ τηματικό) δη ώνει ότι το σύμ ο ο μπορεί να υπάρ ει μηδέν ή μία φορά. Ο κανόνας μετα ραφής NP DET ADJ? N; σημαίνει ότι μία ονοματική φράση αποτε είται από έναν προσδιοριστή, κανένα ή ένα επί ετο και ένα ουσιαστικό. * ο αρακτήρας * (αστερίσκος) δη ώνει ότι το σύμ ο ο μπορεί να υπάρ ει μηδέν, μία ή περισσότερες φορές. Ο κανόνας μετα ραφής NP DET ADJ* N; σημαίνει ότι μία ονοματική φράση αποτε είται από έναν προσδιοριστή, κανένα, ένα ή περισσότερα επί ετα και ένα ουσιαστικό + ο αρακτήρας + (συν) δη ώνει ότι το σύμ ο ο μπορεί να υπάρ ει μία ή περισσότερες φορές. Ο κανόνας μετα ραφής NP DET ADJ+ N; σημαίνει ότι μία ονοματική φράση αποτε είται από έναν προσδιοριστή, ένα ή περισσότερα επί ετα και ένα ουσιαστικό. Το σώμα του συμ ό ου, εάν υπάρ ει, περιέ ει τα ειτουρ ικά πρότυπα της ΛΛΓ. Το σώμα μπορεί να είναι άδειο (2.1) ή και να μην υπάρ ει (2.2). Οι δύο τρόποι είναι ισοδύναμοι μεταξύ τους. S VP {}; (2.1) S VP; (2.2) Στο (2.3) δίνεται ένας κανόνας όπου το σύμ ο ο VP περιέ ει το ειτουρ- ικό πρότυπο =. Κά ε ειτουρ ικό πρότυπο πρέπει να τερματίζεται με τον αρακτήρα ; (ε ηνικό ερ τηματικό) S VP { = ; }; (2.3) 42

Οι α α ές ραμμής και τα κενά δεν επηρεάζουν την σημασία του κανόνα. Συνεπώς, τα παραδεί ματα (2.4) και (2.5) είναι ισοδύναμα. S NP {( number)=( number); ( case)=( case);}; (2.4) S NP { ( number) = ( number); ( case) = ( case); }; (2.5) 2.5.2 Περι ραφή του εξικού Το εξικό είναι ένα σύνο ο από κατα ρίσεις που αφορούν εκτικούς τύπους. Η δομή μίας κατα ώρισης στο εξικό αποτε είται από: α. τον εκτικό τύπο. το ήμμα στο οποίο ανήκει ο εκτικός τύπος. τη συντακτική κατη ορία του εκτικού τύπου, ένα μη τερματικό σύμ- ο ο της ραμματικής δ. προαιρετικά, το σώμα του εκτικού τύπου, δη αδή οι αρακτήρες { } (αριστερή και δεξιά α κύ η) μεταξύ τ ν οποί ν μπορεί να υπάρ ει κανένα, ένα ή περισσότερα ειτουρ ικά πρότυπα ε. ο αρακτήρας ; (ε ηνικό ερ τηματικό) που σηματοδοτεί το τέ ος της κατα ώρισης Στη συνέ εια μπορούμε να δούμε ένα δεί μα εξικού που περιέ ει δύο κατα ρίσεις. 43

παιδί παιδί N { ( gender)=neut; ( number)=sing; ( case)=nom; ( PRED)='παιδί'; }; κοιμάται κοιμάμαι V { ( tense)=nonpast; ( aspect)=imperf; ( person)=third; ( PRED)='κοιμάμαι<SUBJ>'; }; 2.5.3 Περι ραφή τ ν ειτουρ ικών προτύπ ν Στην παρούσα έκδοση υποστηρίζεται η ρήση τ ν παρακάτ τε εστών: Ο τε εστής = Τα ειτουρ ικά πρότυπα που περιέ ουν τον τε εστή = (ίσον) ρησιμοποιούνται ια την ειτουρ ία της ενοποίησης (unification) (2.6). Ο τε εστής ενοποιεί το δεξί μέ ος με το αριστερό και το αποτέ εσμα της ενοποίησης απο ηκεύεται και στα δύο μέ η. = (2.6) 44

Ο τε εστής Ο τε εστής (ανήκει σε) προσ έτει το αριστερό μέ ος στο σύνο ο που δη ώνεται από το δεξί μέ ος (2.7). = ( ADJ) (2.7) Ο τε εστής == Τα ειτουρ ικά πρότυπα που περιέ ουν τον τε εστή == (ίσον ίσον) ρησιμοποιούνται ια να περι ράψουν εξισώσεις περιορισμού. Στην (2.8), το αρακτηριστικό case της δομής που δη ώνεται από το αριστερό μέ ος πρέπει να έ ει την τιμή nom. ( case) = nom (2.8) Ο τε εστής! = Τα ειτουρ ικά πρότυπα που περιέ ουν τον τε εστή! = ( αυμαστικό ίσον) ή (διάφορο από) ρησιμοποιούνται ια να περι ράψουν επίσης εξισώσεις περιορισμού. Στην (2.9), το αρακτηριστικό case της δομής που δη ώνεται από το αριστερό μέρος δεν πρέπει να έ ει την τιμή nom. ( case)! = nom (2.9) Ο τε εστής Ο τε εστής μπορεί να ρησιμοποιη εί σε περιπτώσεις που μας ενδιαφέρει να μην ικανοποιείται ένας περιορισμός. Η (2.10) είναι ισοδύναμη με την (2.9). (( case) == nom) (2.10) 45

Λειτουρ ικά πρότυπα υπαρξιακού περιορισμού Τέ ος, η εφαρμο ή υποστηρίζει τη ρήση ειτουρ ικών προτύπ ν υπαρξιακού περιορισμού που ε έ ουν μόνο ια την ύπαρξη μίας ιδιότητας. Η (2.11) α ικανοποιη εί μόνο εάν υπάρ ει αρακτηριστικό case στη δομή που δη ώνεται από το πρότυπο. Μπορούμε να ρησιμοποιήσουμε τον τε εστή εάν ο περιορισμός απαιτεί την απουσία του αρακτηριστικού case όπ ς στην (2.12). ( case) (2.11) ( case) (2.12) 2.6 Η ραφική διεπαφή Οι συντακτικοί ανα υτές είναι προ ράμματα/υποσυστήματα που ρησιμοποιούνται σε με α ύτερα συστήματα και δεν υπάρ ει η ανά κη άμεσης α η- επίδρασης με τον ρήστη. Για ανά κες επίδειξης α ά και ε έ ου του αποτε έσματος της ανά υσης δημιουρ ή ηκε μία ραφική διεπαφή ρήστη (GUI) ια την συ ραφή ραμματικών και την εκτέ εση συντακτικών ανα ύσε ν, κα ώς και την άμεση προ ο ή της εξα όμενης π ηροφορίας. Η εφαρμο ή δεν έ ει δυνατότητες όπ ς μορφο ο ική ανά υση με ρήση μορφο ο ικού εξικού, ρισμό προτάσε ν (sentence splitting) ή ανά υση σε συ ο ή κειμέν ν (corpus/document collection). Το κυρί ς παρά υρο της εφαρμο ής, όπ ς έπουμε στο σ ήμα 2.4, έ ει ένα μενού, μία σειρά κουμπιών με αρακτήρες που ρησιμοποιεί ο φορμα ισμός και δεν υπάρ ουν στο π ηκτρο ό ιο, την περιο ή επεξερ ασίας του κειμένου και, τέ ος, κάτ δεξιά την τρέ ουσα έση του κέρσορα. Στη συνέ εια μπορούμε να ρησιμοποιήσουμε αυτή την ραμματική ια να πρα ματοποιήσουμε μία συντακτική ανά υση σε μία πρόταση μέσ του 46

Σ ήμα 2.4: Συ ραφή ραμματικών μενού Misc Parse. Θα εμφανιστεί ένα νέο παρά υρο που μπορούμε να ρησιμοποιήσουμε ια την συντακτική ανά υση, σ ήμα 2.5. Πάν αριστερά ράφουμε την πρόταση στην οποία έ ουμε να πρα ματοποιήσουμε συντακτική ανά υση και πατάμε το κουμπί Parse. Στην περιο ή αριστερά α εμφανιστούν τα αποτε έσματα της συντακτικής ανά υσης, μία ίστα με τις πι ανές ανα ύσεις: με κόκκινα ράμματα εμφανίζονται οι ύσεις που είναι ά ος, ενώ με μαύρα ράμματα εμφανίζονται οι ύσεις που είναι σ στές σύμφ να με την ραμματική. Μό ις επι έξουμε μία ύση, είτε σ στή είτε ά ος, στην πάν δεξιά περιο ή α εμφανιστεί η συστατική δομή της πρότασης. Αν δεν έ ουμε να εμφανίζονται τα ειτουρ ικά πρότυπα (επισημειώσεις) της συστατικής δομής, τότε μπορούμε να αποεπι έξουμε το Annotate Tree. Εάν μετακινήσουμε τον κέρσορα πάν από κάποιο σύμ ο ο ενός κόμ ου της συστατική δομής, ο κέρσορας α α άξει μορφή και με το κ ικ του ποντικιού α εμφανιστεί η ειτουρ ική δομή του συ κεκριμένου κόμ ου στην περιο ή κάτ δεξιά. Αν την στι μή που κάνουμε κ ικ στο σύμ ο ο έ ουμε πατημένο το π ήκτρο Shift, τότε η ειτουρ ική δομή α εμφανιστεί σε νέο 47