''Σχεδιασμός και ανάπτυξη πρότυπου συστήματος μορφολογικής ανάλυσης ονομάτων της Αρχαίας Ελληνικής γλώσσας."

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ : "ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ" ''Σχεδιασμός και ανάπτυξη πρότυπου συστήματος μορφολογικής ανάλυσης ονομάτων της Αρχαίας Ελληνικής γλώσσας." Ονομ/νυμο : Σώρρα Μαρία Διπλωματούχος Μηχανικός Η/Υ και Πληροφορικής A.M. : 855 Επιβλέπων καθηγητής : Παυλίδης Γεώργιος Πάτρα, Ιούλιος 2014

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ : "ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ" ΤΙΤΛΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ : ''Σχεδιασμός και ανάπτυξη πρότυπου συστήματος μορφολογικής ανάλυσης ονομάτων της Αρχαίας Ελληνικής γλώσσας." Ονοματεπώνυμο : Σώρρα Μαρία Εγκρίθηκε από την τριμελή επιτροπή την 9η Ιουλίου 2014. Παυλίδης Γεώργιος, Καθηγητής ΤΜΗΥΠ,... (Υπογραφή) Μεγαλοοικονόμου Βασίλειος, Καθηγητής ΤΜΗΥΠ,... (Υπογραφή) Μπούρας Χρήστος, Καθηγητής ΤΜΗΥΠ,... (Υπογραφή) Πάτρα, Ιούλιος 2014

Σώρρα Χ. Μαρία Διπλωματούχος Μηχανικός Η/Υ και Πληροφορικής Copyright Σώρρα Χ. Μαρία, 2013 Με επιφύλαξη κάθε δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα ποθ αφορούν την χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευθεί ότι αντιπροσωπεύουν τις επίσημες θέσεις του Τμήματος Μηχανικών Η/Υ και Πληροφορικής του Πανεπιστημίου Πατρών.

Περίληψη Η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) είναι το επιστημονικό πεδίο που συνδυάζει τη γλωσσολογική γνώση με αυτή της επιστήμης των υπολογιστών. Παρέχει την δυνατότητα επεξεργασίας φυσικών γλωσσών με υπολογιστικά μοντέλα και βοηθά τους χρήστες να πραγματοποιούν πλήθος εργασιών. Η ραγδαία ανάπτυξη του παγκόσμιου ιστού και η αύξηση των χρηστών οδηγεί στην ανάγκη για εξέλιξη της γλωσσικής τεχνολογίας (Language Technology). Μια φυσική γλώσσα που παρουσιάζει ιδιαίτερο και παγκόσμιο ενδιαφέρον είναι η Αρχαία Ελληνική, η οποία ως αντικείμενο μελέτης και έρευνας προσβλέπει κυρίως στην απόκτηση των γλωσσικών και πολιτιστικών γνώσεων που αποδεδειγμένα έδωσαν τις βάσεις του σημερινού πολιτισμού. Το ενδιαφέρον γύρω από την Αρχαία Ελληνική εντοπίζεται όχι μόνο σε γλωσσολογικό επίπεδο, αλλά και σε λογοτεχνικό, φιλοσοφικό και εκπαιδευτικό που αφορά την εκμάθηση και τη διδασκαλία. Οι έως τώρα προσεγγίσεις είναι αποτέλεσμα κλασσικών ερευνητικών μεθόδων, θεωρητικών και εμπειρικών από ειδικούς, που στερούνται αυτοματοποίησης. Η οποιαδήποτε προσπάθεια υπολογιστικής επεξεργασίας της Αρχαίας Ελληνικής θα πρέπει να ξεπεράσει ζητήματα που τυχόν θα προκύψουν από την ίδια την πολύπλοκη φύση της γλώσσας, τη γραφή, τη δομή, το λεξιλόγιο και την ετυμολογία της. Η διπλωματική αυτή εργασία αποτελεί μια πρώτη προσπάθεια ανάπτυξης ενός συστήματος μορφολογικής ανάλυσης των ονομάτων της Αρχαίας Ελληνικής. Οι λόγοι επιλογής των ονομάτων είναι ότι αποτελούν μικρό μέρος της γλώσσας, λίγες οι εξαιρέσεις στους κανόνες κλίσης, δεν παρατηρείται αλλομορφία και τέλος η μεγάλη συχνότητα εμφάνισής τους σε Αρχαία Ελληνικά κείμενα. Ο Μορφολογικός Αναλυτής μπορεί να αποτελέσει την υποδομή για περαιτέρω έρευνα στην προσπάθεια κατασκευής ενός πλήρους συστήματος που θα περιλαμβάνει όλα τα μέρη του λόγου και όλα τα επίπεδα ανάλυσης. Μορφολογική ανάλυση (Morphological Parsing) ονομάζεται το πρόβλημα της αναγνώρισης ότι μια λέξη αποσυντίθεται σε μορφήματα και η δημιουργία μια δομημένης αναπαράστασης γι' αυτό το γεγονός. Η διαδικασία της μορφολογικής ανάλυσης προϋποθέτει την αναγνώριση των λέξεων/φράσεων (προ-επεξεργασία δεδομένων) και ακολουθεί η διαδικασία παροχής πληροφοριών για τις λέξεις, δηλαδή η κατασκευή του Μορφολογικού Αναλυτή. Μια προσέγγιση για την κατασκευή του είναι η χρήση λεξικού και των κατάλληλων γραμματικών κανόνων. Με άλλα λόγια, σχεδιάστηκε και δημιουργήθηκε ένα λογισμικό το οποίο έχει ενσωματώσει τους απαραίτητους κανόνες γραμματικής, δέχεται ως όρισμα τον πρώτο τύπου ενός ονόματος και εξάγει πληροφορίες για την κατηγορία κλίσης του αλλά και τους υπόλοιπους τύπους κλίσης του. Δημιουργήθηκε δηλαδή μια βασική εφαρμογή η οποία μπορεί στην συνέχεια να εξελιχθεί -i-

και για άλλα μέρη του λόγου με στόχο την όσο το δυνατόν πλήρη δυνατότητα ψηφιακής επεξεργασίας της συγκεκριμένης γλώσσας. Το πρώτο στάδιο εργασιών που περιλαμβάνει η διπλωματική εργασία ήταν η μελέτη της σχετικής βιβλιογραφίας, όσον αφορά την Γλωσσική τεχνολογία, καθώς και των κανόνων γραμματικής για τα Αρχαία Ελληνικά ονόματα. Ακολούθησε η ανάπτυξη του λογισμικού που περιλαμβάνει όχι μόνο τους κανόνες κλίσης αλλά και τους αντίστοιχους κανόνες τονισμού των ονομάτων του ήδη πολύπλοκου πολυτονικού συστήματος της Αρχαία Ελληνικής γλώσσας. Επόμενο στάδιο εργασιών ήταν η συλλογή μεγάλου όγκου δεδομένων από κείμενα της Αρχαίας Ελληνικής. Στην συνέχεια, πραγματοποιήθηκε η αυτόματη εξόρυξη πλήθους κειμένων που περιέχονται στον ιστότοπο της ψηφιακής βιβλιοθήκης Perseus. Τελικό στάδιο ήταν η δημιουργία ενός interface που στόχο έχει ένα πιο φιλικό προς τον χρήστη μορφολογικό αναλυτή. Να σημειωθεί ότι επισυνάπτεται cd παρούσας εργασίας. που περιέχει όλα τα αρχεία του κώδικα της Λέξεις Κλειδιά: Ονόματα, Αρχαία Ελληνικά, Γλωσσική Τεχνολογία, Μορφολογική Ανάλυση, γραμματική, Επεξεργασία Φυσικής Γλώσσας, Python -ii-

Abstract The Natural Language Processing (NLP) is a scientific field that combines linguistic knowledge with the computer science. It enables the process of natural languages with computational models and helps the users to perform numerous tasks. The rapid growth of the Web and the increasing number of users leads to the need for the development of the Language Technology. A natural language of particular and global interest is the Ancient Greek language, which as a subject of study and research is primarily aimed at the acquirement of language and cultural knowledge, provided the foundations of modern culture. The interest in Ancient Greek language is not only found in linguistic level but also in literary, philosophical and educational, both teaching and learning. The approaches, so far, are the result of classical research methods, theoretical and empirical, which lack automation. Any attempt of computational process of the Ancient Greek should overcome issues that could arise from the complex nature of the language itself, the writing, the structure, the vocabulary and the etymology. The M.Sc. thesis is a first attempt to develop a system of morphological parsing of the names (nouns) of the Ancient Greek language. The reason why names are chosen is that they constitute a small part of the language, there are few exceptions to the grammatical (inclination) rules, there is no allomorphism and their high frequency of occurrence in the ancient Greek documents. The morphological parser could be considered as the infrastructure for further research so as to develop a complete system that would include all the parts of speech and all the levels of analysis according to the Language Technology. Morphological parsing is called the problem of the recognition that a word is decomposed into morphemes and the creation of a structured representation of the development of this event. The procedure of the Morphological parsing implies the recognition of the words/ phrases (data pre-processing) providing information about the words, namely the development of the morphological parser. One possible approach to the development of the morphological parser could be the use of dictionary and the appropriate grammatical rules. In other words, there has been designed and created a software which has integrated the necessary grammatical rules, accepting as input the first type of the noun and prints information about the deviation (category and types). There has been created a basic application which could be developed for the rest parts of speech in order to achieve a full digital processing of the particular language. -iii-

The first stage of the task, included in the thesis, was the study of relevant literature regarding the Language Technology and the grammatical rules of the ancient Greek names. The next step, was the software development that does not only include the deviation rules but also the rules of the polytonic system of the ancient Greek. Subsequently, the collection of the data from ancient Greek documents followed. Then, an automatical extraction of a great number of documents from the website of Perseus digital library was conducted. Finally, an effort to develop an interface was made in order the morphological parser to become user friendly. Note that a cd containing all files of code of this work is attached. Keywords: Names, Ancient Greek, Language Technology, Morphological Parsing, grammar, Natural Language Processing, Python -iv-

Ευχαριστίες Πρώτα απ' όλα, θα ήθελα να αναφερθώ στον αποβιώσαντα καθηγητή του Τμήματος Μηχανικών Η/Υ και Πληροφορικής, Δημήτριο Χριστοδουλάκη και πιο συγκεκριμένα στην πολύτιμη καθοδήγηση του και βοήθειά του κατά την διάρκεια εκπόνησης της παρούσας διπλωματικής εργασίας καθώς για την εμπιστοσύνη που μου έδειξε αναθέτοντάς μου αυτό το ενδιαφέρον θέμα. Είμαι ευγνώμων στον επιβλέποντα καθηγητή κ. Παυλίδη Γεώργιο για τις πολύτιμες υποδείξεις του. Επίσης, θα ήθελα να ευχαριστήσω τα υπόλοιπα μέλη της εξεταστικής επιτροπής της μεταπτυχιακής μου εργασίας κκ. Μεγαλοοικονόμου Βασίλειο και Μπούρα Χρήστο, καθηγητές του Τμήματος Μηχανικών Η/Υ και Πληροφορικής, που μου έδωσαν την δυνατότητα να ασχοληθώ με τον επιστημονικό τομέα που με ενδιαφέρει. Θερμές ευχαριστίες θα ήθελα να εκφράσω στην Βάσω Σιμάκη, υποψήφια Διδάκτωρ του Τμήματος Μηχανικών Η/Υ και Πληροφορικής, για την συνεχή και πολύτιμη καθοδήγηση που μου προσέφερε και κυρίως για την απεριόριστη προθυμία της να με βοηθήσει οποιαδήποτε στιγμή χρειάστηκε. Τέλος, θα ήθελα να ευχαριστήσω του γονείς μου, Χαράλαμπο και Ιωάννα, καθώς και την αδερφή μου, Νίκη, για την στήριξή τους όλα αυτά τα χρόνια. -v-

Περιεχόμενα Κεφάλαιο 1. Εισαγωγικά...1 1.1 Εισαγωγικά...1 1.2 Σκοπός της έρευνας...3 1.3 Διάρθρωση της εργασίας...5 Κεφάλαιο 2. Βιβλιογραφική ανασκόπηση...6 2.1 Βασικές έννοιες...6 2.2 Προ-επεξεργασία κειμένου...9 2.3 Μορφολογική Ανάλυση...12 2.4 Τα ονόματα της Αρχαίας Ελληνικής Γλώσσας...20 Κεφάλαιο 3.Σχεδιασμός και ανάπτυξη συστήματος μορφολογικής ανάλυσης των ονομάτων της Αρχαίας Ελληνικής...27 3.1 Μεθοδολογία και εργαλεία...27 3.2 Υλοποίηση συστήματος μορφολογικής ανάλυσης των ονομάτων της Αρχαίας Ελληνικής...40 Κεφάλαιο 4. Συμπεράσματα -Επίλογος...61 4.1 Αξιολόγηση-Συμπεράσματα...61 4.2 Μελλοντικές κατευθύνσεις...62 Βιβλιογραφία...63 -vi-

Κεφάλαιο 1. Εισαγωγικά 1.1 Εισαγωγικά Η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) ορίζεται το επιστημονικό πεδίο που συνδυάζει την γλωσσολογική γνώση με αυτή της επιστήμης των υπολογιστών. Έχει ως αντικείμενο τις δομές δεδομένων και τους αλγόριθμους επεξεργασίας μιας φυσικής γλώσσας. Παρέχει την δυνατότητα επεξεργασίας φυσικών γλωσσών με υπολογιστικά μοντέλα και βοηθά τους χρήστες να πραγματοποιούν πλήθος εργασιών. Απαραίτητη προϋπόθεση είναι η κατανόηση της φυσικής γλώσσας και η μετατροπή της σε κατάλληλες παραστάσεις / δομές (τεχνητή γλώσσα) που μπορεί να χειριστεί ο υπολογιστής. Η ραγδαία ανάπτυξη του κλάδου της Πληροφορικής, ιδιαίτερα του Παγκόσμιου Ιστού, και η αύξηση του πλήθους των χρηστών, που έχουν άμεση πρόσβαση στους πλέον μεγάλους όγκους πληροφορίας, οδηγούν στην ανάγκη για εξέλιξη της Γλωσσικής Τεχνολογίας (Language Technology) καθώς η αλληλεξάρτηση Τεχνολογίας -Γλώσσας είναι έντονη. Ιδιαίτερο και παγκόσμιο ενδιαφέρον παρουσιάζει η Αρχαία Ελληνική γλώσσα, η οποία ως αντικείμενο μελέτης και έρευνας προσβλέπει κυρίως στην απόκτηση των γλωσσικών και πολιτιστικών γνώσεων που αποδεδειγμένα έδωσαν τις βάσεις του σημερινού πολιτισμού. Το ενδιαφέρον γύρω από την Αρχαία Ελληνική εντοπίζεται όχι μόνο σε γλωσσολογικό επίπεδο, αλλά και σε λογοτεχνικό, φιλοσοφικό και εκπαιδευτικό που αφορά την εκμάθηση και την διδασκαλία. Είναι η γλώσσα στην οποία γράφτηκαν έργα που συντέλεσαν στην θεμελίωση του πνευματικού πολιτισμού τις ανθρωπότητας. Επομένως, η ψηφιοποίηση της Αρχαίας Ελληνικής με τέτοια μορφή ώστε ο χρήστης να έχει πρόσβαση όχι μόνο για μελέτη αλλά και για επεξεργασία τόσο της γλώσσας όσο και γενικότερα στο σύνολο της αρχαίας ελληνικής γραμματείας, χαρακτηρίζεται ελλιπής. Με άλλα λόγια, οι έως τώρα προσεγγίσεις είναι αποτέλεσμα κλασσικών ερευνητικών μεθόδων, θεωρητικών και εμπειρικών από ειδικούς, που στερούνται αυτοματοποίησης. Η δυνατότητα πολύπλευρης προσπέλασης της Αρχαίας Ελληνικής γλώσσας βρίσκεται ακόμα σε διερευνητικό στάδιο. Η δυσκολία εντοπίζεται στο γεγονός ότι οποιαδήποτε προσπάθεια υπολογιστικής επεξεργασίας της Αρχαία Ελληνικής θα πρέπει να ξεπεράσει ζητήματα που τυχόν θα προκύπτουν από την πολύπλοκη φύση της γλώσσας, τη γραφή, τη δομή, το λεξιλόγιο και την ετυμολογία της. Λαμβάνοντας υπ' όψιν τα παραπάνω, η κατασκευή σε πρώτο στάδιο ενός μορφολογικού αναλυτή για την Αρχαία Ελληνική γλώσσα και σε επόμενα στάδια η κατασκευή ενός πλήρους αναλυτή που θα περιλαμβάνει όλα τα επίπεδα ανάλυσης που ορίζει η Γλωσσική Τεχνολογία, κρίνεται απαραίτητη.

Μορφολογία είναι το τμήμα της γραμματικής που ασχολείται με την μελέτη της ανάλυσης και του σχηματισμού των λέξεων. Μορφολογική Ανάλυση (Morphological Parsing) ονομάζεται το πρόβλημα αναγνώρισης ότι μια λέξη αποσυντίθεται σε μορφήματα και η δημιουργία μιας δομημένης αναπαράστασης γι' αυτό το γεγονός. Η διαδικασία της μορφολογικής ανάλυσης προϋποθέτει την αναγνώριση των λέξεων (προεπεξεργασία δεδομένων) και ακολουθεί η διαδικασία παροχής πληροφοριών για τις λέξεις. Η παρούσα εργασία, κατανοώντας τις παραπάνω ανάγκες ανάλυσης της συγκεκριμένης γλώσσας που χαρακτηρίζεται από μεγάλη χρήση μορφημάτων, παρουσιάζει έναν μορφολογικό αναλυτή των ονομάτων στα Αρχαία Ελληνικά έχοντας στόχο να αποτελέσει την υποδομή για την κατασκευή ενός πλήρους συστήματος ανάλυσης. Η πολυπλοκότητα των μερών του λόγου της ίδιας της γλώσσας οδήγησε στην επιλογή των ονομάτων καθώς αποτελούν μικρό μέρος της γλώσσας και οι εξαιρέσεις στους κανόνες κλίσης είναι σχετικά λιγότερες σε σχέση με άλλα μέρη του λόγου (πχ ρήματα). Ο Μορφολογικός αυτός Αναλυτής έχει ενσωματωμένους τους γραμματικούς κανόνες και για τις τρεις κατηγορίες κλίσης των ονομάτων αλλά και τους κατάλληλους κανόνες τονισμού ανάλογα δηλαδή με την θέση που έχει ο τόνος σε μία λέξη καθώς και το είδος τόνου ( οξεία, βαρεία, περισπωμένη). Κάθε μορφολογική διαδικασία έχει μια είσοδο (input) και μια έξοδο (output). Ο χρήστης έχει την δυνατότητα να εισάγει τον πρώτο τύπο του ονόματος (ονομαστική ενικού αριθμού) και το σύστημα εξάγει πληροφορίες για την κατηγορία κλίσης που ανήκει το ζητούμενο όνομα αλλά και τους υπόλοιπους τύπους κλίσης του. 2

1.2 Σκοπός της έρευνας Κύρια αφορμή για το θέμα αυτής της εργασίας ήταν η ραγδαία αύξηση των χρηστών του ηλεκτρονικού υπολογιστή και η πρόσβαση στον Παγκόσμιο Ιστό. Το Διαδίκτυο, σε συνδυασμό με την ολοένα αναπτυσσόμενη ψηφιακή τεχνολογία, έχει δημιουργήσει μία τεράστια και ισχυρή πηγή γνώσεων /πληροφοριών. Οι ποικίλες χρήσεις που μπορεί κάποιος να έχει μέσω του υπολογιστή, εξαιτίας της διαθέσιμης πληροφορίας κυρίως μέσω του Διαδικτύου, τον καθιστούν ως το πολυτιμότερο εργαλείο με εφαρμογές σε κάθε πτυχή της ζωής ενός χρήστη. Η Γλωσσική Τεχνολογία είναι σημαντική αφού η ανθρώπινη γνώση είναι εκφρασμένη σε φυσική γλώσσα. Αναζητώντας στο διαδίκτυο συστήματα επεξεργασίας και ανάλυσης της Αρχαίας Ελληνικής γλώσσας, παρατηρήθηκε έλλειψη της ψηφιοποίησης με δυνατότητες επεξεργασίας της ενώ το ενδιαφέρον για την συγκεκριμένη γλώσσα δεν περιορίζεται μόνο στην Ελλάδα αλλά παραμένει παγκόσμιο, σε διάφορα επίπεδα. Σκοπός της συγκεκριμένης έρευνας είναι η κατασκευή ενός συστήματος που θα παρέχει ψηφιακή επεξεργασία των ονομάτων της Αρχαίας Ελληνικής. Στόχος είναι να αποτελέσει την υποδομή για την κατασκευή ενός πλήρους συστήματος επεξεργασίας στο σύνολο της γλώσσας σε όλα τα επίπεδα. Ιδιαίτερα διαδεδομένες είναι οι πλατφόρμες ηλεκτρονικής μάθησης που αφορούν κυρίως στην Πρωτοβάθμια και Δευτεροβάθμια εκπαίδευση. Στόχος τους είναι όχι μόνο η αναπαραγωγή της κλασσικής εκπαιδευτικής διαδικασίας αλλά και την χρήση της τεχνολογίας για παροχή εργαλείων εκπαίδευσης τόσο στους μαθητές όσο και στους δασκάλους. Εξαιτίας της εξοικείωσης πλήθους μαθητών με τον υπολογιστή και την τεχνολογία διατίθεται μια πληθώρα εφαρμογών για αρκετά σχολικά μαθήματα. Με χρήση των σύγχρονων μέσων τεχνολογίας, πολλές από τις εφαρμογές χρησιμοποιούνται από τους εκπαιδευτικούς μέσα στις τάξεις ως συμπλήρωμα της διδακτικής μεθόδου ανανεώνοντας τις παιδαγωγικές μεθόδους. Έτσι, το μάθημα γίνεται πιο ευχάριστο κινώντας το μαθησιακό ενδιαφέρον. Επιπλέον, τα εργαλεία αυτά μπορούν να αξιοποιηθούν από τους μαθητές στο σπίτι ως βοήθημα διεξαγωγής της διαδικασίας της μελέτης αφού πολλά από αυτά έχουν και διαδραστικό χαρακτήρα. Ενώ αρκετά από τα μαθήματα διαθέτουν εργαλεία και εφαρμογές που διευκολύνουν τόσο εκπαιδευτικούς όσο και μαθητές, το μάθημα των Αρχαίων Ελληνικών στερείται ανάλογου λογισμικού που θα αναβαθμίσει την διδασκαλία και την μάθησή του. Κύριος σκοπός αυτής της εργασίας είναι να δώσει την βάση για την δημιουργία ενός ολοκληρωμένου συστήματος που θα παρέχει πληροφορίες για όλα τα μέρη του λόγου της Αρχαίας Ελληνικής και θα μπορεί να χρησιμοποιηθεί ως βοήθημα εκμάθησης της γλώσσας. Ο σύγχρονος άνθρωπος πρέπει να έχει την δυνατότητα να μαθαίνει με πολλαπλούς τρόπους, να έχει ίσες ευκαιρίες για μάθηση και πρόσβαση στην πληροφορία. Χρήστες, όλων των κοινωνικών και οικονομικών στρωμάτων, ηλικιών, σε ελληνικό και διεθνές επίπεδο, που δεν είναι εξοικειωμένοι με τα Αρχαία Ελληνικά και έχουν την διάθεση να 3

τα μελετήσουν αυτό το εργαλείο μπορεί να αποτελέσει ένα πολύτιμο βοήθημα σε μια προοπτική δια βίου μάθησης. Επομένως, το εργαλείο αυτό μπορεί να συμβάλλει στην ανοιχτή και ελεύθερη πρόσβαση στην γνώση με την χρήση της τεχνολογίας. Παρατηρείται ότι η Γλωσσική Τεχνολογία καλύπτει κυρίως τις σύγχρονες γλώσσες. Τα Αρχαία Ελληνικά ανήκουν στον χώρο των Κλασσικών Γλωσσών όπου οι προσπάθειες ένταξής τους στον κόσμο της τεχνολογίας είναι περιορισμένες. Θα μπορούσε κανείς να ισχυριστεί ότι η Αρχαία Ελληνική γλώσσα στον ψηφιακό κόσμο τείνει υπό εξαφάνιση. Πρέπει να εξασφαλιστεί ο εφοδιασμός με τις απαραίτητες βασικές σύγχρονες τεχνολογίες και ψηφιακούς πόρους, ανοίγοντας νέους δρόμους στην εξ 'αποστάσεως εκπαίδευση και εμβάθυνση γνώσεων. Αυτό μπορεί να επιτευχθεί με την κατασκευή κατάλληλου λογισμικού που θα αξιοποιήσει τις γνώσεις στον τομέα της Γλωσσικής Τεχνολογίας. Αναζητώντας στο διαδίκτυο κανείς υλικό, μπορεί κανείς να βρει κείμενα και πληροφορίες αλλά σε απλή ψηφιακή μορφή μη δίνοντας την δυνατότητα επεξεργασίας και αλληλεπίδρασης. Ένας ακόμη σκοπός της έρευνας λοιπόν, είναι να προσπαθήσει να δώσει τις βάσεις ώστε να καλυφθούν τέτοιου είδους ελλείψεις. 4

1.3 Διάρθρωση της εργασίας Το υπόλοιπο της εργασίας είναι οργανωμένο όπως περιγράφεται ακολούθως: Στο Κεφάλαιο 2 επιχειρείται μια ανασκόπηση της βιβλιογραφίας που είναι σχετική με την παρούσα εργασία. Αναλύονται οι έννοιες της προ-επεξεργασίας κειμένου καθώς και της μορφολογικής ανάλυσης. Ακόμη, γίνεται αναφορά στους γραμματικούς κανόνες κλίσης των ονομάτων στην Αρχαία Ελληνική γλώσσα. Στο Κεφάλαιο 3 περιγράφεται βήμα- βήμα η διαδικασία που ακολουθήθηκε ώστε να προκύψει το ζητούμενο σύστημα μορφολογικής ανάλυσης. Στην ενότητα 3.1, γίνεται εκτενής αναφορά σε εργαλεία που έχουν κατασκευαστεί από διάφορους ερευνητές σχετικά με την Αρχαία Ελληνική Γλώσσα. Ακολούθως, προσδιορίζεται ο σχεδιασμός του συστήματος, δηλαδή η είσοδος, η έξοδος και η επεξεργασία της εισόδου. Στα στάδια της ερευνητικής διαδικασίας δεν θα μπορούσε να παραλειφθεί η συλλογή των δεδομένων απαραίτητη για τον έλεγχο του συστήματος για πιθανά σφάλματα. Η ενότητα 3.2, αφορά στην πραγματοποίηση του συστήματος μορφολογικής ανάλυσης. Καταγράφονται τα εργαλεία και η γλώσσα προγραμματισμού που χρησιμοποιήθηκαν, καθώς και κάποια κομμάτια του κώδικα του συστήματος. Επίσης, παρουσιάζονται οι δυσκολίες που αντιμετωπίστηκαν κατά την ανάπτυξη του συστήματος κυρίως εξαιτίας της αλλομορφίας της Αρχαίας Ελληνικής γλώσσας και του πολυτονικού συστήματος. Τέλος, γίνεται αναφορά στην ανάπτυξη ενός παραθύρου με την βοήθεια της βιβλιοθήκης wxpython που δέχεται είσοδο από τον χρήστη και στα προβλήματα που χρήζουν αντιμετώπισης. Στο Κεφάλαιο 4, η ενότητα 4.1 παρουσιάζει την αξιολόγηση της μεταπτυχιακής αυτής εργασίας. Η ενότητα 4.2, περιγράφει τους στόχους της παρούσας εργασίας και τις μελλοντικές επεκτάσεις ώστε να κατασκευαστεί ένα πλήρες σύστημα ανάλυσης και επεξεργασίας της Αρχαίας Ελληνικής Γλώσσας. 5

Κεφάλαιο 2. Βιβλιογραφική Ανασκόπηση 2.1 Βασικές έννοιες Η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) είναι ο κλάδος της επιστήμης των υπολογιστών και της γλωσσολογίας ο οποίος ασχολείται με την αλληλεπίδραση μεταξύ της γλώσσας των υπολογιστών και της φυσικής (ανθρώπινης) γλώσσας. Μελετά και διερευνά τους τρόπους με τους οποίους οι υπολογιστές μπορούν να κατανοήσουν την ανθρώπινη γλώσσα ώστε αυτή η γνώση να χρησιμοποιηθεί σε χρήσιμα υπολογιστικά μοντέλα που έχουν ως κύριο στόχο να διευκολύνουν την σχέση του χρήστη με την τεχνολογία (βλ. Σχήμα 1). Οι διαδικασίες, οι τεχνικές και τα εργαλεία επεξεργασίας της φυσικής γλώσσας αντιστοιχούν στον όρο Γλωσσική Τεχνολογία 1, η οποία συμπεριλαμβάνεται στον κλάδο NLP. Είσοδος: Φυσική Γλώσσα Υπολογιστής Έξοδος : Φυσική Γλώσσα Σχήμα 1: Επεξεργασία Φυσικής Γλώσσας (NLP). Η Γλωσσική τεχνολογία είναι άρρηκτα συνδεδεμένη με την Τεχνολογία καθώς όλη η πληροφορία από και προς τον χρήστη είναι καταγεγραμμένη στην φυσική γλώσσα. Οι πλέον ταχείς ρυθμοί ανάπτυξης του Παγκόσμιου Ιστού έχουν ως αποτέλεσμα μεγάλοι όγκοι πληροφορίας να είναι άμεσα προσπελάσιμοι. Βασικός ρόλος της Γλωσσικής Τεχνολογίας είναι να συμβάλει στην όσο το δυνατόν ευκολότερη συμβίωση του ανθρώπου με την τεχνολογία. Πολλές είναι οι εφαρμογές που έχουν προέλθει από αυτό τον τομέα της Τεχνολογίας. Η μετάφραση κειμένων, η ορθογραφική και συντακτική διόρθωση, η εξαγωγή περίληψης, η δρομολόγηση αλληλογραφίας και οι μηχανές αναζήτησης είναι από τις πιο ενδεικτικές εφαρμογές. 1 http://www.dblab.upatras.gr/gr/glwssikitexnologia.html 6

Η πολυπλοκότητα της φυσικής γλώσσας αποτελεί ένα από τα βασικότερα προβλήματα σε σχέση με την εξέλιξη της Γλωσσικής Τεχνολογίας, αφού ο υπολογιστής πρέπει να κατανοήσει τις τυχόν ασάφειες της γλώσσας. Συνοπτικά, διακρίνεται ασάφεια της πληροφορίας στα εξής επίπεδα: Ως προς το φωνολογικό επίπεδο. Ο λόγος κατέχει τον πρωτεύοντα ρόλο σχετικά με την έκφραση της γλώσσας. Υπάρχουν μορφήματα /λέξεις οι οποίες προφέρονται με τον ίδιο τρόπο (ομοηχία) αλλά τους προδίδονται διαφορετικές έννοιες και σημασίες είτε μέσω του γραπτού είτε από τα συμφραζόμενα (π.χ. πολλοί, πολύ, πολλή ). Ως προς το μορφολογικό επίπεδο. Ο όρος μορφολογία αναφέρεται στην δομή των λέξεων, στα μορφήματα (μονάδες) από τα οποία αποτελείται η λέξη και στην μελέτη των σχέσεις μεταξύ των μορφημάτων. Η ασάφεια σε αυτό το επίπεδο εντοπίζεται στην γραμματική πληροφορία που φέρει το μόρφημα όπως την πτώση, το γένος και τον αριθμό (π.χ. η / την μητέρα). Ως προς το συντακτικό επίπεδο. Η δομή των προτάσεων αναλύεται με βάση τους γραμματικούς κανόνες. Υπάρχουν, όμως, περιπτώσεις όπου από μια πρόταση μπορεί να απορρέουν διαφορετικές συντακτικές αναλύσεις με αποτέλεσμα να αλλάζει το νόημα της πρότασης (π.χ. "Κάνε το δικό σου" μπορεί να αναλυθεί με δύο τρόπος, είτε να σημαίνει "απόκτησέ το" είτε "κάνε αυτό που επιθυμείς"). Τέλος, ως προς το πραγματολογικό επίπεδο. Η πραγματολογία μελετά και αναλύει την σχέση των φράσεων/προτάσεων με τον ανθρώπινο παράγοντα, δηλαδή τί λέει κάποιος και τί έχει όντως πρόθεση να πει (νόημα). Για παράδειγμα, το ερώτημα "Ξέρεις τι ώρα είναι ; " έχει δυο σημασίες. Η πρώτη είναι αν κάποιος γνωρίζει ή όχι τί ώρα είναι και η δεύτερη ο ομιλητής ζητά να μάθει την ώρα. Στο Σχήμα 2, παρακάτω, παρουσιάζονται συνοπτικά τα έξι επίπεδα ανάλυσης που περιλαμβάνει η Επεξεργασία Φυσικής Γλώσσας. Η προ-επεξεργασία αποτελεί το χαμηλότερο επίπεδο και αφορά στην αναγνώριση λέξεων και προτάσεων. Ακολουθεί η μορφολογική ανάλυση που εξάγει πληροφορίες για τις λέξεις. Επόμενο επίπεδο είναι αυτό της συντακτικής ανάλυσης που μελετά την δομή των προτάσεων και τον ρόλο της κάθε λέξης στην πρόταση. Μετατρέπει μια πρόταση φυσικής γλώσσας σε μια ιεραρχική δομή η οποία ανταποκρίνεται στην διασύνδεση των δομικών στοιχείων της πρότασης. Η σημασιολογική ανάλυση είναι η επιστημονική μελέτη του γλωσσικού νοήματος, δηλαδή μελετά την πρόταση με σκοπό να αναγνωρίσει το νόημα. Η ανάλυση πραγματείας εξετάζει την σχέση μεταξύ των προτάσεων και μελετά την συνεκτικότητα της φυσικής γλώσσας. Τέλος, υψηλότερο επίπεδο ανάλυσης θεωρείται αυτό της ανάλυσης σχεδίου το οποίο προβλέπει τους σκοπούς του χρήστη. Σε αυτό το σημείο αξίζει να αναφερθεί ότι η 7

παρούσα εργασία επικεντρώνεται στα δύο πρώτα επίπεδα ανάλυσης, δηλαδή αυτό της προ-επεξεργασίας και της μορφολογικής ανάλυσης. Προ-επεξεργασία Μορφολογική Ανάλυση Συντακτική Ανάλυση Σημασιολογική Ανάλυση Ανάλυση πραγματείας Ανάλυση Σχεδίου Σχήμα 2. Επίπεδα Ανάλυσης 8

2.2 Προ-επεξεργασία Κειμένου Προ-επεξεργασία κειμένου 2 ορίζεται ένα σύνολο διαδικασιών που έχει στόχο την απλοποίηση ενός κειμένου, την αποδοτική ανάκτηση της πληροφορίας που φέρει και τέλος, τον έλεγχο του λεξιλογίου του καθώς δεν φέρουν όλες οι λέξεις το ίδιο βάρος (σημαντικότητα) για την παράσταση του περιεχομένου. Η διαδικασία της προ- επεξεργασίας αποτελείται από πέντε φάσεις 3 : Λεξιλογική Ανάλυση (Lexical analysis). Περιλαμβάνει την αναγνώριση των μοναδικών όρων που υπάρχουν στο κείμενο όπως αριθμούς, λέξεις, σημεία στίξης. Αποκλεισμός Λέξεων (Stopwords). Κοινότυπες λέξεις όπως άρθρα και αντωνυμίες που χαρακτηρίζονται από μικρή διακριτική ικανότητα, φιλτράρονται και αφαιρούνται από την διαδικασία. Υπάρχουν δύο τρόποι αποκλεισμού λέξεων. Ο πρώτος είναι η απαλοιφή τους αφού ολοκληρωθεί η πρώτη φάση δηλαδή η λεξιλογική ανάλυση και ο δεύτερος είναι η απαλοιφή τους κατά την διάρκεια της λεξιλογικής ανάλυσης η οποία θεωρείται και πιο γρήγορη. Στελέχωση (stemming) των λέξεων. Υπάρχουν αλγόριθμοι stemming για την απαλοιφή καταλήξεων /επιθεμάτων /προθεμάτων ώστε να προκύπτει η αναγωγή τους στην βασική μορφή (ρίζα, θέμα) της λέξης. Με αυτό τον τρόπο αυξάνεται η απόκριση ενός συστήματος ανάκτησης. Επιλογή λέξεων που θα χρησιμοποιηθούν στην ευρετηρίαση, συνήθως βάσει του μέρους του λόγου που ανήκει η κάθε λέξη. Κατασκευή δομών κατηγοριοποίησης. Η τεχνικές stemming είναι ιδιαίτερα χρήσιμες σε συστήματα text mining όπου είναι προτιμότερο να υπάρχει περιορισμένο λεξιλόγιο για την αναπαράσταση κειμένων. Τext mining, σύμφωνα με τον Usama Fayad, είναι η εύρεση ενδιαφέροντων προτύπων (: μη προφανές, κρυμμένο και πιθανόν χρήσιμο) σε μεγάλα σύνολα δεδομένων κειμένου. Η διαδικασία του text mining βρίσκει εφαρμογή στην αυτόματη εξαγωγή περίληψης κειμένων. Οι αλγόριθμοι stemming διακρίνονται στις παρακάτω κατηγορίες: i. Table lookup. Αποθηκεύονται οι όροι και τα αντίστοιχα στελέχη (stems) τους σε έναν πίνακα. 2 http://www.dblab.upatras.gr/download/courses/glwssiki_texnologia/2012_13/frontistirio/front_pr eprocessing.pdf 3 http://www.cs.uoi.gr/~pitoura/courses/ir/ir09s/textoperations.pdf 9

ii. Successor variety. Οι αλγόριθμοι στηρίζονται στις συχνότητες ακολουθιών γραμμάτων. Αυτή η τεχνική χρησιμοποιείται από τον Porter's Αλγόριθμο (M.F. Porter, 1980) και είχε κατασκευαστεί για την Αγγλική γλώσσα. Πιο συγκεκριμένα, αφού δημιουργήσει έναν πίνακα που περιέχει την ποικιλία των διαδόχων ακολουθεί την μέθοδο "peak and plateau" όπου οι λέξεις τεμαχίζονται στο γράμμα στο οποίο οι διάδοχοί του είναι περισσότεροι των διαδόχων του προηγούμενου γράμματος. Άρα, το τεμάχιο που προκύπτει από την διαδικασία αυτή επιλέγεται ως ρίζα. Στην έρευνα του Peter Willet (2006) γίνεται μια ανασκόπηση του αλγορίθμου και αναφέρεται ότι ο συγκεκριμένος αλγόριθμος έχει υιοθετηθεί και επεκταθεί και για άλλες φυσικές γλώσσες. Ο ίδιος ο Porter ανέπτυξε stemmers που βασίζονται στον αλγόριθμό του για γλώσσες όπως Γαλλικά, Ισπανικά, Γερμανικά, Ιταλικά, Ρώσικα και τις Σκανδιναβικές γλώσσες. Οι stemmers χρησιμοποιούν υψηλού επιπέδου γλώσσα προγραμματισμού που ονομάζεται Snowball 4 (Porter, 2006). iii. N-grams. Ομαδοποίηση λέξεων με βάση τα κοινά ν-γράμματα. iv. Affix Removal. Απαλοιφή επιθεμάτων /προθεμάτων. Ευρύτερα γνωστός stemmer αυτής της κατηγορίας είναι ο Porter's Stemmer. Υπάρχουν πληθώρα αλγορίθμων που υλοποιούνται στην αγγλική γλώσσα. Για την Νέα Ελληνική γλώσσα, που αποτελεί μια εξέλιξη της αρχαίας Ελληνικής γλώσσας, έχουν κατασκευαστεί αλγόριθμοι οι οποίοι βασίζονται σε λεξικά και κανόνες.ορισμένες χαρακτηριστικές τεχνικές που έχουν κατασκευαστεί για τα Νέα Ελληνικά αναφέρονται ως εξής: Στην έρευνα των Maistros et al (1987) παρουσιάζεται μια ευρετική μέθοδος για την κατηγοριοποίηση λέξεων σε μια λίστα από Ελληνικούς τύπους λέξεων. Η έρευνα των Kalampoukis & Nikolaidis (1999) περιλαμβάνει μια συστηματική αξιολόγηση των stemming αλγορίθμων στη Νέα Ελληνική Γλώσσα με την χρήση ενός SMART συστήματος ανάκτησης. Η αξιολόγηση έγινε με βάση την επίδραση των αλγορίθμων που προκύπτουν κατά την εκτέλεση ανάκτησης (από πλευράς ευστοχίας και της ακρίβειας). Τα αποτελέσματα από δοκιμές δύο ελληνικών συλλογών έδειξαν ότι αλγόριθμοι συγκερασμό σημαντικά καλύτερες επιδόσεις από ό, τι δεν προκύπτουν, αλλά υπάρχει μικρή διαφορά μεταξύ των μεθόδων όσον αφορά τη μέση ακρίβεια. 4 http://snowball.tartarus.org/ 10

Μια ακόμα έρευνα για την Ελληνική γλώσσα σχετικά με stemming αλγορίθμους είναι αυτή των Tambouratzis & Carayannis (2001) οι οποίοι προτείνουν ένα σύστημα που εκτελεί αυτόματη κατηγοριοποίηση των Ελληνικών λέξεων από ένα κείμενο. Χρησιμοποιείται η τεχνική "masking and matching". Βρέθηκε ότι η εισαγωγή μιας a-priori πληροφορίας όσον αφορά την γραμματική της Νέας Ελληνικής βελτιώνει σημαντικά την ακριβή τμηματοποίηση της λέξης. O Georgios Ntais (2006) παρουσιάζει ένα σύστημα stemming για την Νέα Ελληνική γλώσσα. Συγκεκριμένα, το σύστημα δέχεται ως είσοδο την λέξη και αφαιρεί το κλιτικό επίθεμα σύμφωνα με έναν 'rule-based' αλγόριθμο. Ο αλγόριθμος αυτός ακολουθεί τον Porter αλγόριθμο για την αγγλική γλώσσα και κατασκευάστηκε σύμφωνα με τους κανόνες γραμματικής της Νέας Ελληνικής όπως περιγράφονται στην γραμματική του Τριανταφυλλίδη (1941). Ο αλγόριθμος διαθέτει 29 κανόνες οι οποίοι ανταποκρίνονται σε 158 επιθέματα. Ο Spyridon Saroukos (2008) χρησιμοποιεί μετρικές απόδοσης stemmer για την αξιολόγηση του αλγορίθμου από Ntais (2006) βελτιώνοντας την ακρίβεια και την πληρότητά του. Με βάση αυτόν τον αλγόριθμο, δηλαδή, κατασκευάστηκε ο νέος stemming αλγόριθμος Ntais (2008). Οι βελτιώσεις επιτεύχθηκαν παρέχοντας μια εναλλακτική εφαρμογή σε PHP η οποία προσφέρει συντακτικούς κανόνες και εξαιρέσεις. Οι δύο αλγόριθμοι ελέγχονται και συγκρίνονται οι στατιστικές μετρικές. Τέλος, αξίζει να αναφερθεί η έρευνα από Bouras et al (2010) όπου προτείνουν έναν μηχανισμό για stemming και tagging της Νέας Ελληνικής γλώσσας. Είναι κατασκευασμένος με τέτοιο τρόπο ώστε να μπορεί εύκολα να χρησιμοποιηθεί από οποιοδήποτε σύστημα, παρέχοντας την αναγνώριση και ανάλυση των Ελληνικών λέξεων. Επιπλέον, παρουσιάζεται μια πειραματική αξιολόγηση του μηχανισμού ο οποίος συγκρίνεται με άλλους ήδη υπάρχοντες stemmers και taggers για την Νέα Ελληνική γλώσσα και αποδεικνύεται η υψηλότερη αποδοτικότητα και η ποιότητα στα αποτελέσματα του προτεινόμενου αυτού μηχανισμού. 11

2.3 Μορφολογική Ανάλυση Πυρήνας της γλωσσολογικής έρευνας είναι η μορφολογία 5 καθώς μελετά την λέξη και πιο συγκεκριμένα την δομή της, τα επιμέρους συστατικά της και την μεταξύ τους σχέση. Επιπλέον, η μορφολογία καθορίζει τους κανόνες σύμφωνα με τους οποίους είναι δυνατόν να σχηματιστεί μια λέξη. Με άλλα λόγια, κύριος στόχος της μορφολογίας είναι η αναγνώριση των χαρακτηριστικών της λέξης και η αντιπροσώπευσής τους μέσω των μορφολογικών κανόνων. Υπάρχουν δύο είδη μορφολογικών κανόνων, αυτοί που τροποποιούν την φωνολογική δομή της λέξης και αυτοί που εισάγουν ελεύθερα μορφήματα. Τα βασικότερα πεδία 6 τα οποία περιλαμβάνει ο κλάδος της μορφολογίας είναι τα πέντε παρακάτω: Η αναγνώριση της λέξης ως διακριτή μονάδα. Το πεδίο αυτό μελετά ζητήματα σχετικά με τα όρια της λέξης. Για παράδειγμα, αν οι κλιτές μορφές ενός ονόματος αποτελούν διαφορετική λέξη ή όχι. Η αναγνώριση των μορφημάτων. Μόρφημα ορίζεται η ελάχιστη μονάδα που συνδυάζει μορφή και σημασία. Οι μορφολογικές διαδικασίες. Με άλλα λόγια, σε αυτό το πεδίο ανήκουν διαδικασίες όπως η κλίση, η παραγωγή (: σχηματισμός νέων λέξεων με τον συνδυασμό του θέματος και του παραγωγικού προσφύματος) και η σύνθεση λέξεων (: δημιουργία μορφολογικά πολύπλοκων στοιχείων από τουλάχιστον δύο θέματα). Η σχέση της μορφολογίας με τα υπόλοιπα επίπεδα ανάλυσης της γλώσσας, δηλαδή τα επίπεδα της φωνολογίας, της σύνταξης και της σημασιολογίας, αφού κατά την γλωσσική παραγωγή παρατηρείται αλληλεπίδραση της μορφολογίας με τις υπόλοιπες κατηγορίες. Η τυπολογία των γλωσσών ανάλογα με την μορφολογική τους δομή. Οι γλώσσες διαιρούνται σε δυο κατηγορίες, στις αναλυτικές αν οι λέξεις αποτελούνται κυρίως από τα ελεύθερα μορφήματα, και στις συνθετικές αν οι λέξεις αποτελούνται από δεσμευμένα μορφήματα δηλαδή από περισσότερα του ενός μορφήματα. 5 http://www.dblab.upatras.gr/download/courses/glwssiki_texnologia/2012_13/lectures/lecture-3- a.pdf 6 http://www.greek-language.gr/greeklang/modern_greek/tools/lexica/glossology/show.html?id=627 12

Ο μορφολογικός μηχανισμός της γλώσσας προκύπτει από την αλληλεπίδραση των χαρακτηριστικών της λέξης και των χαρακτηριστικών των μορφολογικών κανόνων. Η αλληλεπίδραση αυτή ελέγχεται από τους τομείς ανάγνωσης και μνήμης, όπως απεικονίζεται στο σχήμα 3. ΛΕΞΗΜΑΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΜΕΑΣ ΑΝΑΓΝΩΣΗΣ ΜΟΡΦΟΛΟΓΙΚΟΙ ΚΑΝΟΝΕΣ ΤΟΜΕΑΣ ΜΝΗΜΗΣ ΛΕΞΙΚΟΣ ΤΥΠΟΣ Σχήμα 3. Μορφολογικός μηχανισμός Σύμφωνα με την Ralli (2008) το παρακάτω σχήμα περιγράφει την θέση της μορφολογίας και της σχέσης της με τα υπόλοιπα γλωσσικά επίπεδα. Αξίζει να αναφερθεί ότι το σχήμα 4 προσεγγίζει την μορφολογία ως ανεξάρτητο τμήμα της γραμματικής. ΛΕΞΙΚΟ ΧΩΡΟΣ ΣΧΗΜΑΤΙΣΜΟΥ ΔΟΜΩΝ ΜΟΡΦΟΛΟΓΙΑ ΣΥΝΤΑΞΗ ΠΡΑΓΜΑΤΩΣΗ ΦΩΝΟΛΟΓΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΕΡΜΗΝΕΙΑ Σχήμα 4. Σχήμα γλωσσικής ικανότητας 13

Μορφολογική ανάλυση (Morphological Parsing) 7, στην επεξεργασία φυσικής γλώσσας, είναι η διαδικασία προσδιορισμού των μορφημάτων από τα οποία μία λέξη είναι κατασκευασμένη. Πρέπει να μπορεί να διακρίνει μεταξύ των ορθογραφικών κανόνων και των μορφολογικών κανόνων. Για παράδειγμα, η λέξη "αλεπούδες" μπορεί να αναλυθεί στο στέλεχος "αλεπού" και στο επίθεμα "δες" που δείχνει την πολλαπλότητα. Μια προσέγγιση της μορφολογικής ανάλυσης είναι μέσω της χρήσης ενός finite state transducers (FST) που δέχεται ως είσοδο λέξεις και η έξοδος δίνει τις μορφολογικές πληροφορίες που χαρακτηρίζουν κάθε λέξη, όπως στο παράδειγμα του σχήματος 5 παρακάτω. Η αντίστροφη διαδικασία ονομάζεται μορφολογική παραγωγή, δηλαδή οι μορφολογικές πληροφορίες ως είσοδος που παράγουν στην έξοδο την λέξη. Το FST αρχικά δημιουργήθηκε μέσω αλγοριθμικής ανάλυσης κάποιας πηγής λέξεων όπως είναι το λεξικό. Η κατασκευή ενός μορφολογικού αναλυτή προϋποθέτει την ύπαρξη 8 α) ενός λεξικού που να περιλαμβάνει λίστα από θέματα, προσφύματα και το αντίστοιχο μέρος του λόγου για αυτά, β) μορφοσυντακτικών κανόνων και τέλος, γ) ορθογραφικών κανόνων δηλαδή οι πιθανές αλλαγές που συμβαίνουν όταν συνδυάζονται μορφήματα. Ο μορφολογικός αναλυτής μπορεί να κατασκευαστεί είτε με την αποκλειστική χρήση λεξικού είτε με την χρήση λεξικού και κανόνων είτε με την αποκλειστική χρήση κανόνων. Η παρούσα εργασία προσεγγίζει τον μορφολογικό αναλυτή κλίσης ονομάτων της Αρχαίας Ελληνικής γλώσσας με αποκλειστική χρήση των γραμματικών κανόνων κλίσης. Είσοδος : αλεπούδες Parsing Έξοδος: αλεπού+ν+pl. Σχήμα 5. Μορφολογική ανάλυση Μία άλλη προσέγγιση μορφολογικής ανάλυσης είναι η χρήση της μεθόδου αναζήτησης με δείκτη κατασκευάζοντας ένα radix tree (δομή όπου κάθε κόμβος με ένα παιδί έχει συγχωνευθεί με το παιδί του). Η μέθοδος αυτή δεν ακολουθείται συχνά καθώς αποτυγχάνει για μορφολογικά πολύπλοκες γλώσσες. 7 http://en.wikipedia.org/wiki/morphological_parsing 8 http://www.dblab.upatras.gr/download/courses/glwssiki_texnologia/2012_13/lectures/lecture-3- b.pdf 14

Η μορφολογική ανάλυση βρίσκει εφαρμογή σε πολλούς τομείς όπως 9 : Επεξεργασία Φυσικής Γλώσσας (NLP): i. Parsing. Ονομάζεται η διαδικασία παραγωγής κάποιας μορφής γλωσσικής πληροφορίας για κάποια είσοδο. ii. Παραγωγή κειμένων, όπως είναι η εξαγωγή πληροφορίας και η αυτόματη περίληψη κειμένου. iii. Μηχανική μετάφραση. iv. Λεξικογραφικά εργαλεία τα οποία παρουσιάζουν τους παραδειγματικούς τύπους μιας λέξης οι οποίοι βρίσκονται στο λεξικό. v. Λημματοποίηση, δηλαδή η αναγωγή κλιτικών/παραγωγικών τύπων στο πρώτο κλιτικό. Εφαρμογές φωνής: i. Συστήματα σύνθεσης φωνής (text to speech), δηλαδή εισαγωγή κειμένου και παραγωγή ομιλίας από μηχανή. ii. Συστήματα αναγνώρισης φωνής (speech to text), δηλαδή αναγνώριση λέξεων και παραγωγή κειμένου. Τα περισσότερα συστήματα περιέχουν λεξιλόγιο και όλους τους μορφολογικά διαφορετικούς τύπους. Εφαρμογές επεξεργασίας κειμένου: i. Έλεγχος ορθογραφίας ii. Εισαγωγή κειμένου Ανάκτηση εγγράφων, δηλαδή χρησιμοποιώντας λέξεις-κλειδιά εμφανίζονται όλα τα κείμενα σε μια βάση δεδομένων που περιέχουν αυτές τι συγκεκριμένες λέξεις. Η μορφολογική ανάλυση επιστρέφει το σύνολο των πιθανών μορφολογικά συνδεόμενων λέξεων ενός κειμένου. Ο θησαυρός της Ελληνικής Γλώσσας (Thesaurus Linguae Grequae) διατίθεται online και αποτελεί την βάση δεδομένων της Αρχαίας Ελληνικής γραμματείας. Εκπαιδευτικά εργαλεία διδασκαλίας μορφολογίας, ώστε όσοι ενδιαφέρονται να μελετήσουν μια γλώσσα μπορούν να κερδίσουν χρόνο και επιπλέον βοηθητικό υλικό με την χρήση αυτών των εργαλείων. Ο Eugene Holman (1988) παρουσίασε το FINNMORF, ένα εργαλείο που παράγει παραδείγματα για σχεδόν οποιαδήποτε λέξη η οποία μπορεί να αποκοπεί ή συζευχθεί. Ακόμη, οι Klavans & Chodorow (1988) εξετάζουν τα αποτελέσματα από την χρήση ενός Instructional 9 https://www.google.gr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0cc4qfjaa&url=htt p%3a%2f%2fhermis.di.uoa.gr%2fcompling%2fpenelope_morphology.ppt&ei=yhqmutuxo8ny7abiryfo &usg=afqjcngd2rw20uhmugokrictwnaxqzvtrg&sig2=vvo2m2tthzidxngp2tmegg&bvm=bv.51495398, d.yms 15

Morphological Parser (IMP) ως ένα εκπαιδευτικό εργαλείο ως προς την θεωρητική μορφολογία και ως προς την υπολογιστική μορφολογία. Η προσπάθεια συμφιλίωσης με τις επιταγές της σύγχρονης τεχνολογίας έχει οδηγήσει στην ανάπτυξη διαδραστικών εργαλείων που προσφέρουν υλικό μελέτης και εξάσκησης της Αρχαίας Ελληνικής γλώσσας ως ξένη γλώσσα, αντικαθιστώντας, εν μέρει, την χρήση του μαυροπίνακα και της κιμωλίας και εστιάζοντας στις μαθησιακές ανάγκες του κάθε μαθητή χωριστά. Τα εργαλεία περιλαμβάνουν κυρίως την προ-επεξεργασία και την μορφολογική ανάλυση. Παρακάτω αναφέρονται τέτοιου είδους εφαρμογές που απευθύνονται σε αγγλόφωνους μαθητές της Αρχαίας Ελληνικής γλώσσας: Wordbase Greek 10. Είναι πρόγραμμα για την Αρχαία Ελληνική αλλά μπορεί να χρησιμοποιηθεί και για τη Νέα Ελληνική γλώσσα. Η εκμάθηση του λεξιλογίου και της μορφολογίας των ρημάτων γίνεται είτε μέσω της word trial διαδικασίας είτε μέσω του hangman game. Στην πρώτη, ο μαθητής διαλέγει μια συλλογή από τα γλωσσάρια (λεξικά, μορφολογικά) που είναι ενσωματωμένα στο εργαλείο και ορίζει να επιθυμεί να γίνει μετάφραση από ή προς τα Αρχαία Ελληνικά. Το hangman game είναι ένας διασκεδαστικός τρόπος μάθησης και έλεγχο των γνώσεων του μαθητή. Τα λάθη στις ασκήσεις που κάνει ο χρήστης-μαθητής αποθηκεύονται σε έναν φάκελο και μπορεί να χρησιμοποιηθεί ως επιπλέον γλωσσάρι. α) 10 http://greek.kihlman.eu/ 16

β) Σχήμα 6. Wordbase greek α)word trial β) hangman game QuickMem Greek 11, μια διαδραστική εφαρμογή που έχει σκοπό την μορφολογική ανάλυση λέξεων (λεξιλόγιο, μετάφραση). Περιλαμβάνει 35 λίστες λεξιλογίου. Στην εφαρμογή αυτή, αφού προηγηθεί η επιλογή κάποιας από τις λίστες εμφανίζεται μια λέξη στα ελληνικά και πατώντας το κουμπί "reveal" εμφανίζεται η αντίστοιχη μετάφραση. Αν ο χρήστης δεν γνωρίζει την λέξη την μαρκάρει ως " incorrect" και το πρόγραμμα την επαναλαμβάνει την επόμενη φορά. Σχήμα 7.QuickMem Greek main view 11 http://blackstripespub.com/greek.html 17

Athenaze Supplemetary Exercises 12. O James F.Johnson, καθηγητής στο Austin College, δημιούργησε μια ιστοσελίδα που παραπέμπει σε διαδραστικές ασκήσεις και αποτελεί ένα συμπλήρωμα του βιβλίου Athenaze. Οι ασκήσεις εστιάζουν στο λεξιλόγιο, στην μετάφραση και στην μορφολογία των Αρχαίων Ελληνικών λέξεων. Things Having to Do with Learning Ancient Greek 13 του Matt Neuburg. Μία ιστοσελίδα που περιλαμβάνει εφαρμογές όπως το JACT vocabulary και το Greek verb Help, όπου ο χρήστης εξασκεί και βελτιώνει τις γνώσεις του ως προς το λεξιλόγιο και την γραμματική. Είναι ένα σημαντικό εργαλείο τόσο για τους μαθητές για αποδοτικότερη μελέτη όσο και για τους δασκάλους δίνοντας ιδέες για ασκήσεις. Σχήμα 8. JACT vocabulary Perseus Digital Library 14. Περιλαμβάνει συλλογές κειμένων στα Αρχαία Ελληνικά δίνοντας μορφολογικές πληροφορίες για κάθε λέξη. Στο Greek word study tool, που είναι ενσωματωμένο στο Perseus, αφού ο χρήστης πληκτρολογήσει την λέξη εμφανίζεται η μορφολογική της ανάλυση ή τουλάχιστον μια έρευνα με όλες τις πιθανές λύσεις. Αξίζει να αναφερθεί ότι το Perseus ήταν η πηγή συλλογής μεγάλου όγκου κειμένων της παρούσας εργασίας όπου και εφαρμόστηκε προ-επεξεργασία και μορφολογική ανάλυση. 12 http://artemis.austincollege.edu/acad/cml/jjohnson/athenaze/index.html 13 http://www.apeth.net/matt/#agthings 14 http://www.perseus.tufts.edu/hopper/ 18

Alpheios 15. Είναι εργαλείο παρόμοιο με το Greek word study tool που αναφέρθηκε παραπάνω. Επιτρέπει την ανάλυση κάθε Ελληνικής λέξης σε Unicode. Το "Alpheios reading tools" μπορεί να χρησιμοποιηθεί σε κείμενα στην Αρχαία Ελληνική, στην Λατινική και στην Αραβική γλώσσα. Diogenis 16. Προσφέρει μορφολογική ανάλυση. Το λογισμικό είναι αργκετά χρήσιμο, ειδικά σε συνδιασμό με την Thesaurous Linguae Graecae 17 (TLG) βάση δεδομένων. Αναζητά βάση δεδομένων αρχαίων κειμένων, στα Λατινικά ή στα Αρχαία Ελληνικά, που έχουν δημοσιευθεί είτε στο TLG είτε στο Packard Humanities Institute 18. Εξαιτίας της βάσης δεδομένων του Perseus το Diogenis είναι εξοπλισμένο με λεξικά, Λατινικών και Αρχαίων Ελληνικών, και δυνατότητες μορφολογικής ανάλυσης. Πατώντας στην λέξη εμφανίζεται η μορφολογική ανάλυση και ο ορισμός της. Σχήμα 9. Diogenis 15 http://alpheios.net/ 16 http://www.dur.ac.uk/p.j.heslin/software/diogenes/index.php 17 http://www.tlg.uci.edu/ 18 http://epigraphy.packhum.org/inscriptions/ 19

2.4 Τα ονόματα της Αρχαίας Ελληνικής Γλώσσας Ονόματα ουσιαστικά ή απλώς ουσιαστικά ονομάζονται οι κλιτές λέξεις που σημαίνουν α) πρόσωπα, ζώα ή πράγματα (συγκεκριμένα) και β) ενέργεια, κατάσταση ή ιδιότητα (αφηρημένα). Οι κλίσεις των ουσιαστικών είναι τρεις : η πρώτη, η δεύτερη και η τρίτη. Όσα ουσιαστικά έχουν τον ίδιο αριθμό συλλαβών σε όλες τις πτώσεις του ενικού και του πληθυντικού λέγονται ισοσύλλαβα. Τα ισοσύλλαβα ανήκουν στην πρώτη και στην δεύτερη κλίση όπως είναι ὁ λό-γος, οἱ λό-γοι. Όσα ουσιαστικά έχουν στη γενική και στην δοτική του ενικού και σε όλες τις πτώσεις του πληθυντικού μία συλλαβή περισσότερη από την ονομαστική (και κλητική) του ενικού λέγονται περιττοσύλλαβα και ανήκουν στην τρίτη κλίση όπως ὁ πί-ναξ, τοῦ πί-να-κος κτλ, οἱ πί-να-κες, τῶν πι-νά-κων, τοῖς πί-να-ξι κτλ. Κατά την πρώτη κλίση κλίνονται ονόματα αρσενικά (κατάληξη σε -ας ή σε -ης) και θηλυκά ( κατάληξη σε -α ή σε -η). Οι καταλήξεις του πληθυντικού των αρσενικών και των θηλυκών είναι ίδιες. Από τα πρωτόκλιτα αρσενικά σε -ης σχηματίζουν σχηματίζουν την κλητική του ενικού σε -ᾱ και όχι σε η 1) τα εθνικά και 2) όσα λήγουν σε -της και τα σύνθετα σε -ἁρχης, -μέτρης, -πώλης κτλ (Παράδειγμα 1). Στα πρωτόκλιτα θηλυκά που έχουν κατάληξη σε -α στην ονομαστική ενικού αν πριν από την κατάληξη α υπάρχει σύμφωνο εκτός από το ρ τότε το α λέγεται μη καθαρό, είναι κανονικά βραχύχρονο και στη γενική και δοτική του ενικού τρέπεται σε η (Παράδειγμα 2). Επιπλέον, αν πριν από την κατάληξη α υπάρχει φωνήεν ή ρ, τότε το α λέγεται καθαρό, είναι κανονικά μακρόχρονο και φυλάγεται σε όλες τις πτώσεις του ενικού (Παράδειγμα 3). Τέλος, το α της κατάληξης των θηλυκών στην αιτιατική και στην κλητική του ενικού είναι μακρόχρονο ή βραχύχρονο ανάλογα με το τι είναι στην ονομαστική. Για παράδειγμα ἡ πολιτείᾱ είναι μακρόχονο ενώ ἡ μοῦσα είναι βραχύχρονο. ΕΝΙΚΟΣ ΠΛΗΘΥΝΤΙΚΟΣ Αρσενικό Θηλυκό Αρσενικό - Θηλυκό Ον. - ᾱς - ης -ᾱ -ᾰ -η -αι Γεν. -ου -ου -ᾱς -ᾱς, -ης -ης -ων Δοτ. -ᾳ -ῃ -ᾳ -ᾳ, -ῃ -ῃ -αις Αιτ. -ᾱν -ην -ᾱν -ᾰν -ην -ᾱς Κλ. -ᾱ -η(-ᾰ ) -ᾱ -ᾰ -η -αι Πίνακας 1. Καταλήξεις ασυναίρετων ουσιαστικών Α' κλίσης 20

Ενικός Πληθυντικός Ον. ὁ στρατιώτης οἱ στρατιῶται Γεν. τοῦ στρατιώτου τῶν στρατιωτῶν Δοτ. τῷ στρατιώτῃ τοῖς στρατιὼταις Αιτ. τὸν στρατιώτην τοὺς στρατιὼτας Κλ. (ῷ) στρατιῶτα (ῷ) στρατιῶται Παράδειγμα 1. Α' Κλίση αρσενικού ουσιαστικού με κλιτική σε ᾰ Ενικός Πληθυντικός Ον. ἠ γλῶσσᾰ αἱ γλῶσσαι Γεν. τῆς γλώσσης τῶν γλωσσῶν Δοτ. τῇ γλώσσῃ ταῖς γλώσσαις Αιτ. τὴν γλώσσᾰν τὰς γλώσσας Κλ. (ῷ) γλώσσᾰ (ῷ) γλῶσσαι Παράδειγμα 2.Α' Κλίση θηλυκού ουσιαστικού με γενική και αιτιατική ενικού σε ης και ῃ αντίστοιχα Ενικός Πληθυντικός Ον. ἠ πολιτεία αἱ πολιτείαι Γεν. τῆς πολιτείας τῶν πολιτειῶν Δοτ. τῇ πολιτείᾳ ταῖς πολιτείαις Αιτ. τὴν πολιτείαν τὰς πολιτείας Κλ. (ῷ) πολιτεία (ῷ) πολιτείαι Παράδειγμα 3. Α' Κλίση θηλυκού ουσιαστικού με γενική και αιτιατική ενικού σε ας και ᾳ αντίστοιχα Τα περισσότερα από τα ουσιαστικά της πρώτης κλίσης που πριν από τον χαρακτήρα α του θέματος έχουν άλλο α ή ε συναιρούνται σε όλες τις πτώσεις και έτσι λέγονται πρωτόκλιτα συνηρημένα ουσιαστικά. Τα συνηρημένα πρωτόκλιτα ουσιαστικά έχουν και μετά την συναίρεση τις καταλήξεις των ασυναίρετων τύπων. Μόνο το εα στον ενικό το συναιρούν σε η. Χαρακτηριστικό παράδειγμα είναι το ουσιαστικό Ἑρμῆς (Παράδειγμα 4). Ενικός Πληθυντικός Ον. ὁ (Ἑρμέας) Ἑρμῆς οἱ (Ἑρμέαι) Ἑρμαῖ Γεν. τοῦ (Ἑρμέου) Ἑρμοῦ τῶν (Ἑρμεῶν) Ἑρμῶν Δοτ. τῷ (Ἑρμέᾳ) Ἑρμῇ τοῖς (Ἑρμέαις) Ἑρμαῖς Αιτ. τὸν (Ἑρμέᾳν) Ἑρμῆν τοὺς (Ἑρμέας) Ἑρμᾶς Κλ. (ῷ) (Ἑρμέᾳ) Ἑρμῆ (ῷ) (Ἑρμέαι) Ἑρμαῖ Παράδειγμα 4. Α' Κλίση συνηρημένου αρσενικού ουσιαστικού 21

Κατά την δεύτερη κλίση κλίνονται ονόματα και των τριων γενών, δηλαδή αρσενικά και θηλυκά που λήγουν σε -ος και ουδέτερα που λήγουν σε -ον. Τα αρσενικά και τα θηλυκά έχουν σε όλες τις πτώσεις τις ίδιες καταλήξεις. Ως αποτέλεσμα διακρίνονται μόνο από το άρθρο (Παράδειγμα 5). Τα οξύτονα -αυτά που τονίζονται στη λήγουσα- και τα παροξύτονα -αυτά που τονίζονται στην παραλήγουσα-διατηρούν τον τόνο τους σε όλες τις πτώσεις στην ίδια συλλαβή όπως τα ουσιαστικά θεός, ὁδός, λόγος, νῆσος. Τα προπαροξύτονα -αυτά που τονίζονται στην προπαραλήγουσα-στη γενική και δοτική του ενικού και στη γενική, τη δοτική και την αιτιατική του πληθυντικού κατεβάζουν τον τόνο στην παραλήγουσα όπως το αρσενικό ουσιαστικό ἄνθρωπος. Τα ουδέτερα διαφέρουν από τα αρσενικά και τα θηλυκά στην ονομαστική και κλητική ενικού (κατάληξη σε ον) και στην ονομαστική, αιτιατική και κλητική του πληθυντικού αριθμού (κατάληξη σε ᾰ). Ακόμη, τα ουδέτερα των πτωτικών σχηματίζουν στον ενικό και πληθυντικό αριθμό τρεις όμοιες πτώσεις, την ονομαστική, την αιτιατική και την κλητική (Παράδειγμα 6). Η κατάληξη -α των ουδετέρων όλων των πτωτικών είναι βραχύχρονη (-ᾰ). Αρσενικό και Θηλυκό Ουδέτερο Ενικός Πληθυντικός Ενικός Πληθυντικός Ον. -ος -οι -ον -ᾰ Γεν. -ου -ων -ῳ -οις Δοτ. -ῳ -οις -ῳ -οις Αιτ. -ον -ους -ον -ᾰ Κλ. -ε (-ος) -οι -ον -ᾰ Πίνακας 2. Καταλήξεις ασυναίρετων ουσιαστικών Β' κλίσης Ενικός Πληθυντικός Ον. ὁ ἀγρὸς ἠ νῆσος οἱ ἀγροὶ αἰ νῆσοι Γεν. τοῦ ἀγροῦ τῆς νήσου τῶν ἀγρῶν τῶν νήσων Δοτ. τῷ ἀγρῷ τῇ νῆσῳ τοῖς ἀγροῖς ταῖς νήσοις Αιτ. τὸν ἀγρὸν τὴν νῆσον τοὺς ἀγροὺς τὰς νήσους Κλ. (ῷ) ἀγρὲ (ῷ) νῆσε (ῷ) ἀγροὶ (ῷ) νῆσοι Παράδειγμα 5. Β' Κλίση αρσενικού και θηλυκού ουσιαστικού Ενικός Πληθυντικός Ον. τὸ μυστήριον φυτὸν τὰ μυστήρια φυτὰ Γεν. τοῦ μυστηρίου φυτοῦ τῶν μυστηρίων φυτὼν Δοτ. τῷ μυστήριῳ φυτῷ τοῖς μυστηρίοις φυτοῖς Αιτ. τὸ μυστήριον φυτὸν τὰ μυστήρια φυτὰ Κλ. (ῷ) μυστήριον φυτὸν (ῷ) μυστήρια φυτὰ Παράδειγμα 6. Β' Κλίση ουδέτερου ουσιαστικου 22

Τα περισσότερα ουσιαστική της δεύτερης κλίσης που πριν από τον χαρακτήρα ο έχουν άλλο ο ή ε συναιρούνται σε όλες τις πτώσεις (δευτερόκλιτα συνηρημένα ουσιαστικά), όπως φαίνεται και στο παρακάτω παράδειγμα 7. Τ φωνήεντα ο και ε των συνηρημένων δευτερόκλιτων, όταν ακολουθεί αμέσως μετά από αυτά ο χαρακτήρας ο, συναιρούνται με αυτόν σε ου αλλιώς χάνονται κατά την συναίρεση εμπρός από τις καταλήξεις. Έτσι οι συνηρημένες καταλήξεις των ουσιαστικών αυτών διαφέρουν από τις καταλήξεις των ασυναίρετων ουσιαστικών της δεύτερης κλίσης μόνο στην ονομαστική, αιτιατική και κλιτική του ενικού αριθμού. Ενικός αριθμός Πληθυντικός αριθμός Ον. ὀ (πλόος) πλοῦς οἰ (πλόοι) πλοῖ Γεν. τοῦ (πλόου) πλοῦ τῶν (πλόων) πλῶν Δοτ. τῷ (πλόῳ) πλῷ τοῖς (πλόοις) πλοῖς Αιτ. τὸν (πλόον) πλοῦν τοῦς (πλόους) πλοῦς Κλ. (ῷ) (πλόε) πλοῦ (ῷ) (πλόοι) πλοῖ Παράδειγμα 7. δευτερόκλιτο συνηρημένο θ. πλοο- = πλου- Τέλος, στην δεύτερη κλίση συγκαταλέγονται και τα αττικόλικτα, ουσιαστικά δηλαδή που λήγουν σε -ως και -ων αντί για -ος και -ον. Οι καταλήξεις των αττικόλικτων ουσιαστικών φαίνονται στον πίνακα 3. Διατηρούν στις καταλήξεις όλων των πτώσεων το ω της ονομαστικής. Ακόμη, διατηρούν σε όλες τις πτώσεις τον ίδιο τόνο που έχει η ονομαστική του ενικού και στην ίδια συλλαβή. Μερικά θηλυκά ουσιαστικά σχηματίζουν την αιτιατική του ενικού χωρίς το τελικό ν, π.χ. την ἄλω. Αρσενικό/Θηλυκό Ουδέτερο Ενικός Πληθυντικός Ενικός Πληθυντικός Ον. -ως - ῳ -ων -ω Γεν. -ω -ων -ῳ -ω Δοτ. -ῳ - ῳς -ῳ - ῳς Αιτ. -ων /-ω(ν) -ως -ων -ω Κλ. -ως - ῳ -βν -ω Πίνακας 3. Καταλήξεις αττικής δεύτερης κλίσης. 23

Κατά την τρίτη και τελευταία κλίση κλίνονται περιττοσύλλαβα και των τριών γενιών. Τα τριτόκλιτα ουσιαστικά λήγουν στην ονομαστική του ενικού σ'ένα από τα φωνήεντα:α, ι, υ, ω ή σε ένα από τα σύμφωνα ν, ρ, ς, (ξ, ψ). Στη γενική του ενικού λήγουν σε -ος, - ως, -ους. Τα αρσενικά και τα θηλυκά έχουν σε όλες τισ πτώσεις τις ίδιες καταλήξεις. Τ α ουδέτερα διαφέρουν από τα αρσενικά και θηλυκά στην ονομαστική, αιτιατική, κλιτική του ενικού και του πληθυντικού. Το ι και το α στη λήγουσα των ονομάτων της γ' κλίσης είναι βραχύχρονα, όπως ἠ γνῶσις (γεν. τὴν γνῶσιν). Καταληκτικά ονομάζονται λέγονται τα αρσενικά και τα θηλυκά της τρίτης κλίσης που σχηματίζουν στην ονομαστική του ενικού κατάληξη σε -ς, όπως ὀ ἰχθύς. όσα σχηματίζουν την ονομαστική ενικού χωρίς καμία κατάληξη ονομάζονται ακατάληκτα, όπως είναι ἠ ἠχώ. Όσον αφορά τα ουσιαστικά της τρίτης κλίσης κανονικά σχηματίζουν την ονομαστική, αιτιατική και κλιτική του ενικού χωρίς κατάληξη, δηλαδή είναι ακατάληκτα. Από τα ουσιαστικά της τρίτης κλίσης άλλα έχουν σε όλες τις πτώσεις ένα μόνο θέμα και γι' αυτό ονομάζονται μονόθεμα και άλλα παρουσιάζονται σε δύο θέματα, γιατί σε μερικές περιπτώσεις εκτείνουν το φωνήεν της τελευταίας συλλαβής του θέματος και γι' αυτό λέγονται διπλόθεμα. Το θέμα στα μονόθεμα ουσιαστικά βρίσκεται από την γενική του ενικού, αφού αφαιρεθεί από αυτήν η κατάληξη, π.χ. πίνακος -> θ. πίνακ-. Στα διπλόθεμα το ισχυρό θέμα, δηλαδή αυτό που έχει στην τελευταία συλλαβή μακρόχρονο φωνήεν, βρίσκεται από την ονομαστική του ενικού. Το αδύνατο θέμα, δηλαδή αυτό που έχει στην τελευταία συλλαβή βραχύχρονο φωνήεν, βρίσκεται από την γενική του ενικού, αφού αφαιρεθεί η κατάληξη. Για παράδειγμα, ὀ ἠγεμών (ισχυρό θ. ἠγεμων-). τοῦ ήγεμόν-ος (αδύνατο θ.ἠγεμον-). Αρσενικό και Θηλυκό Ουδέτερο Ενικός Πληθυντικός Ενικός Πληθυντικός Ον. -ς ή - -ες - -ᾰ Γεν. -ος ή -ως -ων -ος ή -ως -ων Δοτ. -ι -σι(ν) -ι -σι(ν) Αιτ. -ᾰ ή ν -ᾰς ή -ς (-νς) - -ᾰ Κλ. -ς ή - -ες - -ᾰ Πίνακας 4. Καταλήξεις ουσιαστικών Γ' κλίσης 24

Κατά τον χαρακτήρα τα ουσιαστική της γ' κλίσης διαιρούνται σε: Φωνηεντόληκτα, που λέγονται όσα έχουν χαρακτήρα φωνήεν, όπως για παράδειγμα τα ουσιαστικά Τρὼς (γεν.τρω-ὸς), πόλις (γεν. πόλε-ως), βότρυς (γεν. βότρυ-ος), βασιλεὺς (γεν. βασιλέως), ἠχὼ (γεν. ἠχοῦς). Συμφωνόληκτα, που ονομάζονται όσα έχουν χαρακτήρα σύμφωνο, όπως κόραξ (γεν. κόρακ-ος) και σωλήν (γεν. σωλῆν-ος). Τα συμφωνόληκτα τριτόκλιτα ουσιαστικά υποδιαιρούνται σε : 1. Αφωνόληκτα, δηλαδή με χαρακτήρα άφωνο, π.χ. Ἃραψ (γεν. Ἃραβος), τάπης (γεν. τάπητος)., γίγας (γεν. γίγαντος). Τα περισσότερα αρσενικά και θηλυκά σχηματίζουν κανονικά την αιτιατική του ενικού με κατάληξη -α και την κλητική του ενικού όμοια με την ονομαστική. Τα βαρύτονα οδοντικόληκτα σε -ις και μερικά από τα οδοντικόληκτα σε -ης και - υς σχηματίζουν την αιτιατική του ενικού σε -ν και την κλητική του ενικού όμοια με το θέμα χωρίς τον χαρακτήρα. Συνοπτικά, τα αφωνόληκτα κατά τον χαρακτήρα είναι : i. ουρανικόληκτα (κ, γ, χ). ii. χειλικόληκτα (π, β, φ). iii. οδοντικόληκτα (τ, δ, θ). 2. Ημιφωνόληκτα, δηλαδή με χαρακτήρα ημίφωνο, κλητήρ (γεν. κλητῆρος). Διακρίνονται κατά τον χαρακτήρα σε: i. ενρινόληκτα, με χαρακτήρα ν, π.χ. ποιμὴν, γεν.ποιμέν-ος. Τα φωνήεντα ι και α εμπρός από το χαρακτήρα ν των ονομάτων σε -ις (γεν. -ινος) και - αν (γεν.-ανος) είναι μακρόχρονα. ii. υγρόληκτα (λ, ρ), π.χ. ἰχὼρ, γεν. ἰχῶρ-ος. Ο χαρακτήρας λ και ρ εμπρός από το σίγμα της κατάληξης παραμένει. iii. σιγμόληκτα, με χαρακτήρα σ. Π.χ. Σωκράτης, γεν. Σωκράτους. 25

Αν και δεν προκύπτουν από συναίρεση παίρνουν περισπωμένη : Οι μονοσύλλαβοι τύποι της ονομαστικής, της αιτιατικής και της κλητικής, που έχουν χαρακτήρα ι, υ (ου, αι). Η αιτιατική πληθυντικού των ονομάτων σε -ὺς (γεν. ύος), αν τονίζεται στην λήγουσα. Η ονομαστική, η αιτιατική και η κλητική του ενικού των ουδετέρων πῦρ και οὖς. Η ονομαστική και κλητική του ενικού του θηλυκού ἠ γλαῦξ. Η κλητική του ενικού των ονομάτων σε -εύς, όπως ο βασιλεὺς. Τα μονοσύλλαβα ονόματα της γ' κλίσης στην γενική και δοτική όλων των αριθμών τονίζονται στην λήγουσα. Εξαιρούνται τα μονοσύλλαβα ἠ δᾲς, ὀ θὼς, το οὖς, ὀ παῖς, ὀ Τρὼς και τὸ φῶς που τονίζονται στην γενική πληθυντικού στην παραλήγουσα. Τέλος, κάποια από τα ουσιαστικά δεν κλίνονται με βάση κάποια από τις παραπάνω κατηγορίες και γι 'αυτό τον λόγο ονομάζονται ανώμαλα ουσιαστικά. Τα "ανώμαλα κατά το γένος" ουσιαστικά είναι αυτά που έχουν στον πληθυντικό αριθμό διαφορετικό γένος απ 'ό,τι στον ενικό ή εκτός από το βασικό γένος έχουν συγχρόνως και ένα άλλο, όπως ὀ λύχνος (πληθ. τὰ λύχνα). "Ετερόκλητα" ονομάζονται τα ουσιαστικά εκείνα που σχηματίζονται στον πληθυντικό ή σε μερικές πτώσεις κατά διαφορετική κλίση ή συγχρόνως κατά την ίδια και κατά διαφορετική κλίση, όπως ἠ γυνή, τῆς γυναικός, τῇ γυναικί, τὴν γυναῖκα, (ῷ) γύναι - αἱ γυναῖκες, τῶν γυναικῶν, ταῖς γυναιξί, τὰς γυναῖκας, (ῷ) γυναῖκες ( ενικός αριθμός κατά την πρώτη κλίση ενώ ο πληθυντικός κατά την τρίτη κλίση). Τα ουσιαστικά τα οποία κλίνονται κατά μια ορισμένη κλίση σε όλες τις πτώσεις αλλά το θέμα τους μεταβάλλεται σε ορισμένες πτώσεις λέγονται "μεταπλαστά", για παράδειγμα ὀ Ζεύς, τοῦ Δι-ός, τῷ Δι-ί, τὸν Δί-α, (ῷ) Ζεῦ (θ. Ζευ-, Δι-). "Ιδιόκλιτα " ουσιαστικά ονομάζονται όσα δεν κλίνονται σύμφωνα με μια από τις τρεις κλίσεις και ακολουθούν δικό τους σχηματισμό, κλίνονται δηλαδή με ιδιαίτερο τρόπο και συνηθίζονται μόνο στον ενικό. Τέτοια είναι μερικά κύρια ονόματα α) ελληνικά με συντομότερο τύπο και β) ξενικά, για παράδειγμα το κύριο όνομα Ἀλεξᾶς από το Ἀλέξανδρος. Ακόμη, ιδιόκλιτα είναι και μερικά προσηγορικά σε -ᾶς όπως ὀ φαγᾶς. Ορισμένα ουσιαστικά δεν κλίνονται και έτσι διατηρούν τον ίδιο τύπο σε όλες τις πτώσεις και λέγονται "άκλιτα" ουσιαστικά όπως ὀ Ἀδάμ. Τελευταία κατηγορία των ανώμαλων ουσιαστικών είναι τα "ελλειπτικά" που ονομάζονται όσα είναι εύχρηστα μόνο σε μερικές πτώσεις, όπως είναι τὸ σέβας. 26

Κεφάλαιο 3. Σχεδιασμός και ανάπτυξη συστήματος μορφολογικής ανάλυσης ονομάτων της Αρχαίας Ελληνικής 3.1 Μεθοδολογία και εργαλεία Γενικά, τα στάδια 19 μιας οποιαδήποτε ερευνητικής διαδικασίας είναι τα παρακάτω: Προσδιορισμός του ερευνητικού προβλήματος. Συγγραφή πρότασης. Διεξαγωγή πιλοτικής έρευνας, δηλαδή διερεύνηση των πιθανών προβλημάτων στην διεξαγωγή της κύριας έρευνας, όπως είναι τα προβλήματα στις διαδικασίες, στην συλλογή δεδομένων, στον σχεδιασμό κτλ. Διεξαγωγή κύριας έρευνας, όπως είναι ο καθορισμός και εφαρμογή των μεθόδων και των τεχνικών που θα ακολουθηθούν. Συγγραφή ερευνητικής αναφοράς, δηλαδή το παρόν κείμενο. Αρχικά, η βιβλιογραφική ανασκόπηση ήταν αναγκαία αναζητώντας τις ήδη υπάρχουσες μελέτες που αφορούν την εφαρμογή της γλωσσικής τεχνολογίας στην Αρχαία Ελληνική γλώσσα αλλά και για τους λόγους εφαρμογής και αξιοποίησης της τεχνολογίας. Αναζητώντας έρευνες και μελέτες εντοπίστηκε μεγάλο ενδιαφέρον 20 για την Αρχαία Ελληνική γλώσσα από πανεπιστήμια, όχι απαραίτητα ελληνικά, κυρίως λόγω της διαπίστωσης των επιστημών της Πληροφορικής και Υπολογιστών ότι οι υπολογιστές προηγμένης τεχνολογίας δέχονται ως "νοηματική" γλώσσα μόνο την Ελληνική ενώ οι υπόλοιπες γλώσσες χαρακτηρίζονται ως "σημειολογικές". "Νοηματική" ονομάζεται η γλώσσα στην οποία η σχέση της λέξης και την έννοιάς της είναι πρωτογενής. Αντίθετα, "σημειολογική" είναι η γλώσσα στην οποία η σχέση της λέξης και της σημασίας της έχει αυθαίρετα οριστεί. Η Ελληνική χαρακτηρίζεται ως μια μη οριακή γλώσσα και γι 'αυτό θεωρείται αναγκαία στην επιστήμη της Πληροφορικής και της Τεχνολογίας. Όπως δήλωσε 21 και πρώην πρόεδρος της Apple Τζον Σκάλι : <<Αποφασίσαμε να προωθήσουμε το πρόγραμμα εκμάθησης της Ελληνικής, επειδή η κοινωνία μας 19 https://www.google.gr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0cd0qfjac&url=http%3a%2 F%2Fwww.uoi.gr%2Fschools%2Fearlychildhood%2Fsse%2FKoutsoumpa.pps&ei=0VRBUpzMAcTCtAbnnYDIDw&usg=AFQjCNH7eUalD3BsRhcyD WO7ka7Gf3dSZA&sig2=gB-e7mWvKLdPWMZR7DJ80Q 20 http://www.matia.gr/7/78/7806/7806_5_18.html 21 http://el.wikipedia.org/wiki/hellenic_quest 27

χρειάζεται ένα εργαλείο που θα της επιτρέψει να αναπτύξει την δημιουργικότατά της, να εισάγει νέες ιδέες και θα της προσφέρει γνώσεις περισσότερες από όσες ως τώρα ο άνθρωπος μπορούσε να ανακαλύψει >>. Οι παραπάνω λόγοι είναι αρκετοί ώστε να κρίνει κανείς αναγκαία την χρήση της Τεχνολογίας για την ψηφιοποίηση της Αρχαίας Ελληνικής με τρόπο τέτοιο ώστε να υπάρχει αλληλεπίδραση του χρήστη με την Αρχαία Ελληνική είτε για σκοπούς εκμάθησης της γλώσσας είτε για ερευνητικούς σκοπούς. Η ευρεία αυτή αποδοχή των αρχαίων ελληνικών ως νοηματική γλώσσα, ώθησαν τον πανεπιστήμιο Irvine της Καλιφόρνια να αναλάβει την αποθησαύριση του πλούτου της Αρχαίας Ελληνικής, από τους κ. Marianne McDonald, κ.david W. Packard και κ. Theodore F. Brunner τον οποίο αργότερα διαδέχτηκε η κ. Μαρία Παντελιά. Η ιδέα αυτή ήταν πρωτότυπη καθώς ήταν η πρώτη προσπάθεια ένωσης της κλασσικής φιλολογίας με την σύγχρονη τεχνολογία. Το λεγόμενο "TLG Project" ξεκίνησε υπό την καθοδήγηση του Brunner. Ο Packard και η ομάδα του κατασκεύασαν τον υπολογιστή " Ιβυκος" για το Thesaurus Linguae Graecae (TLG) ώστε να είναι εφικτή η καταγραφή, η διόρθωση και επεξεργασία των Αρχαίων Ελληνικών κειμένων. Έτσι, στα πρώτα αποτελέσματα αυτής της προσπάθειας καταγράφηκαν 6.000.000 λεκτικοί τύποι και ταξινομήθηκαν 4.000 συγγράμματα αρχαίων Ελλήνων. Έπειτα από χρόνια ασταμάτητης προσπάθειας, το 2.000, το TLG δημοσιεύει τον δίσκο #Ε με 11.000 έργα και 3.000 συγγραφείς που συγκροτούν μια βάση δεδομένων 76.000.000 λεκτικών τύπων. Αποτελεί, πλέον, μια από τις μεγαλύτερες και αναλυτικότερες ψηφιακές τράπεζες κειμενικών δεδομένων με μείζονος σημασίας έργα για την ανάπτυξη της δυτικής σκέψης. O David W. Packard και η ομάδα του με στόχο την ανάπτυξη ενός εργαλείου διδασκαλίας της Αρχαίας Ελληνικής γλώσσας στους φοιτητές πανεπιστημίων στην Αμερική, παρουσίασε ένα αυτόματο σύστημα μορφολογικής ανάλυσης. Βασική πεποίθηση είναι οι μαθητές να μπορούν να μελετήσουν την αρχαία ελληνική λογοτεχνία από τα πρώτα μαθήματα εάν η διδασκαλία της γραμματικής εστιάζεται σε χαρακτηριστικά της γλώσσας που υπάρχουν στα κείμενα. Με χρήση ενός υπολογιστή δημιουργήθηκε μια λεξική και γραμματική ανάλυση 40.000 λέξεων που συλλέχθηκαν από κείμενα. Αρχικά, η λέξη ελέγχεται αν υπάρχει στην λίστα που περιέχει τύπους οι οποίοι δεν κλίνονται (προθέσεις, επιρρήματα κτλ) και τύπους η κλίση των οποίων είναι ανώμαλη. Αν βρεθεί στην λίστα τότε δεν χρειάζεται περισσότερη ανάλυση. Το πρόγραμμα έχει την δυνατότητα αφαίρεσης του τελευταίου γράμματος της λέξης και εντοπίζει αν το γράμμα αυτό εμφανίζεται ως κατάληξη κλίσης. Αν αποτελεί κατάληξη τότε το υπόλοιπο της λέξης ορίζεται ως θέμα και γίνεται αναζήτηση του θέματος στο λεξικό. Αν βρεθεί, τότε γίνεται αναζήτηση για επιπλέον πιθανές καταλήξεις. Οι καταλήξεις είναι αποθηκευμένες σε μια δομή δένδρου που περιλαμβάνει 2.000 καταλήξεις. Αν δεν μπορεί η λέξη να αναλυθεί μέσω της κατάληξης και του θέματος τότε γίνεται εξέταση ως προς την ύπαρξη προθεμάτων στην αρχή της λέξης. Τα προθέματα απομονώνονται μέσω ad hoc τεχνικών προγραμματισμού. Αν βρεθεί το θέμα στην λίστα αναζήτησης τότε ενώνεται ξανά το θέμα με το πρόθεμα, δηλαδή η υπό μελέτη λέξη, για ανάλυση. 28

Ο Henry Lyman (2012) με αφορμή το γεγονός ότι οι συλλογές δεδομένων Αρχαίων Ελληνικών που χρησιμοποιούνται από ερευνητές δεν είναι συχνά διαθέσιμες για ανάλυση από άλλους. Ακόμα και όταν είναι διαθέσιμα, οι γνώσεις προγραμματισμού είναι απαραίτητες ώστε να δημιουργηθούν ξανά οι ακριβείς παράμετροι που χρειάζονται για να επαληθευτεί ο υπό συζήτηση ισχυρισμός. Ως αποτέλεσμα, ανέπτυξε το εργαλείο "Wordchorus" 22. Αποτελεί μια μηχανή αναζήτησης ειδικά σχεδιασμένη για επαναληπτικές μελέτες που επιτρέπουν στους ερευνητές, χωρίς πόρους προγραμματισμού, γρήγορα και εύκολα να εξετάσουν ισχυρισμούς μέσα από μια μεγάλη συλλογή Αρχαίων Ελληνικών κειμένων. Τα κείμενα είναι σε xml μορφή και προέρχονται από το Perseus Project. Οι ερευνητές μπορούν να αξιολογούν ισχυρισμούς σχετικούς με το ύφος και τα γλωσσικά πρότυπα των Αρχαίων Ελληνικών κειμένων. Το εργαλείο αυτό είναι open source και οι ενδιαφερόμενοι μπορούν εύκολα να αναζητήσουν πρότυπα μέσα από τα κείμενα. Σχήμα 10. WordChorus : παράδειγμα αναζήτησης 22 http://www.wordchorus.com/ 29

Ο John Lee (2008) πρότεινε έναν αλγόριθμο με γνώμονα τα δεδομένα για την αυτόματη ανάλυση της μορφολογίας των Αρχαίων Ελληνικών. Η μέθοδος αυτή βελτιώνει τους ήδη υπάρχοντες αναλυτές των Αρχαίων Ελληνικών μέσω της χρήσης της τεχνικής του κοντινότερου γείτονα χωρίς να απαιτούνται χειροκίνητοι κανόνες. Επιπλέον, είναι σε θέση να προβλέψει τις ρίζες και να ταξινομεί ξανά τις προβλέψεις εκμεταλλευόμενη μη επισημασμένα κείμενα. Με λίγα λόγια, παρουσιάστηκε ένας αναλυτής που συμπεραίνει την ρίζα της λέξης. Δεδομένης μιας κλιτής μορφής, "γείτονας" θεωρείται οποιαδήποτε λέξη στην οποία μπορεί να μετατραπεί τοποθετώντας προσφύματα. Αν δεν βρεθεί γείτονας τότε μια νέα ρίζα προβλέπεται. H web σελίδα Unbound Bible 23 που κατασκευάστηκε από το Πανεπιστήμιο Biola παρέχει μια εφαρμογή όπου ο χρήστης μπορεί να πληκτρολογήσει την αρχαία ελληνική λέξη και πατώντας το κουμπί "Find and Parse" παραπέμπει σε ένα νέο παράθυρο που δείχνει τις πιθανές γραμματικές αναλύσεις της λέξη. Μειονέκτημα αυτής της εφαρμογής είναι ότι στερείται της χρήσης του πολυτονικού συστήματος που αποτελεί ένα από τα κυριότερα χαρακτηριστικά της συγκεκριμένης γλώσσας, μεταβάλλεται ανάλογα με τις πτώσεις, με τις συλλαβές της λέξης καθώς και με την διάκριση μακρόχρονου - βραχύχρονου. Σχήμα 11. Unbound Bible: Greek lexical parser 23 http://unbound.biola.edu/ 30

Παρατηρείται πώς οι περισσότερες προσπάθειες προσαρμογής των αρχαίων Ελληνικών στις επιταγές της τεχνολογικής εξέλιξης στερούνται αυτοματοποίησης με αποτέλεσμα να μην διευκολύνεται η μελέτη τους είτε για εκπαιδευτικούς είτε για ερευνητικούς σκοπούς. Επόμενο βήμα, ήταν η μελέτη του τομέα της Γλωσσικής Τεχνολογίας με ιδιαίτερη έμφαση σε προ-επεξεργασία κειμένου και μορφολογία. Στόχος της παρούσας εργασίας είναι η δημιουργία μιας υποδομής που θα διαθέτει δυνατότητες επεκτασιμότητας με σκοπό την δημιουργία ενός πλήρους συστήματος ανάλυσης και επεξεργασίας των Αρχαίων Ελληνικών. Γι 'αυτό τον λόγο, έπρεπε να εστιάσουμε στα δύο πρώτα επίπεδα ανάλυσης. Εξαιτίας της πολυπλοκότητας των αρχαίων ελληνικών ως προς την δομή, την αλλομορφία, τους γραμματικούς κανόνες και το πολυτονικό σύστημα η εργασία αυτή περιορίζεται την μορφολογική ανάλυση των ονομάτων της Αρχαίας Ελληνικής. Ένας επιπλέον καθοριστικός λόγος επιλογής των ουσιαστικών ήταν η συχνή εμφάνισή τους σε προτάσεις. Η διαφορά σε αυτή την εργασία σε σχέση με άλλες μεθόδους προσέγγισης των αρχαίων ελληνικών αποτελεί η ιδέα πώς οι κανόνες τις γραμματικής θα είναι "μεταφρασμένοι" σε γλώσσα κατανοητή από τον υπολογιστή. Ως αποτέλεσμα, κάθε φορά που θα εισάγεται ένα όνομα στην ονομαστική, ο υπολογιστής θα εξάγει τις υπόλοιπες πτώσεις με βάση τους κανόνες της γραμματικής. Αφού ορίστηκε το πρόβλημα, πραγματοποιήθηκε αναζήτηση των εργαλείων που αφορούν στην επεξεργασία της φυσικής γλώσσας (NLP) και της συλλογής δεδομένων. Ανάμεσα στα εργαλεία διακρίνονται τα παρακάτω: Greek Grammatical Tagger 24. Δεν υποστηρίζει το πολυτονικό σύστημα αλλά αποτελεί ένα εργαλείο ιδιαίτερα δημοφιλές για την Νέα Ελληνική γλώσσα. Αφού ο χρήστης εισάγει το κείμενο, στην κατηγορία "text parser" και το εργαλείο αφού το επεξεργαστεί, εφαρμόζει διαχωρισμό των λέξεων τις οποίες και εμφανίζει. Εμφανίζει, ανά γραμμή, τις λέξεις με την επιλογή "Εισαγωγή" για την κάθε μία. Με αυτό τον τρόπο ο χρήστης έχει την δυνατότητα στην κατηγορία "word importer" που διαθέτει το εργαλείο να εισάγει ο ίδιος μορφολογικού περιεχομένου πληροφορίες για την λέξη, δηλαδή αφού επιλέξει μεταξύ των άκλιτη/αντωνυμία/κλιτή/ρήμα τότε και εμφανίζονται οι ανάλογες πληροφορίες για τον κάθε γραμματικό τύπο όπως φαίνεται στο Σχήμα.13. 24 http://hermis.di.uoa.gr:8080/gramtag/indexeng.html 31

Σχήμα 12. Greek Grammatical Tagger- Screenshot Σχήμα 13. Greek Grammatical Tagger : παράδειγμα εισαγωγής πληροφοριών για την λέξη "είμαι". 32

AUEB Greek Pos Tagger 25. Οι C.Pappas et al (2008) ανέπτυξαν έναν tagger, που αφορά τόσο στη Νέα όσο και στην Αρχαία Ελληνική γλώσσα, βασισμένο σε παλιότερες εκδοχές του εργαλείου αυτού από τους Prodromos Malakasiotis και Ioannis Chronakis. Στο αρχικό παράθυρο εμφανίζονται δυο επιλογές (βλ. Σχήμα 14),"Annotation Tool " και "Active Learning Tool". To Annotation Tool δίνει την δυνατότητα φόρτωσης ενός txt αρχείου στο οποίο το εργαλείο εφαρμόζει την προεπεξεργασία με αποτέλεσμα οι λέξεις του κειμένου να διακρίνονται. Με την επιλογή "Tag Document" από το μενού οι λέξεις του κειμένου χρωματίζονται ανάλογα με το μέρος του λόγου που είναι (βλ. Σχήμα 15). Επιλέγοντας μια λέξη από το κείμενο αυτή κιτρινίζει και οι πληροφορίες για αυτήν εμφανίζονται στο πάνω μέρος του παραθύρου του εργαλείου(βλ. Σχήμα 16). Με την χρήση του "Active Learning Tool" δίνεται η δυνατότητα το εργαλείο να επιλέγει λέξεις από μια συλλογή μη επεξεργασμένων κειμένων και ο χρήστης χρειάζεται μόνο να ελέγξει και πιθανόν να διορθώσει τις πληροφορίες που δίνονται για τις συγκεκριμένες λέξεις. Σχήμα 14. Greek POS tagger: initial window-screenshot 25 http://nlp.cs.aueb.gr/software.html 33

Σχήμα 15. Greek POS tagger: Παράδειγμα tokenization κειμένου. 34

Σχήμα 16. Greek POS tagger: παράδειγμα tagging κειμένου. 35

Unitex (εργαλείο που χρησιμοποιήθηκε για την προ-επεξεργασία των δεδομένων για την παρούσα εργασία). Πρόκειται για μια συλλογή προγραμμάτων με σκοπό την ανάλυση κειμένων στην φυσική γλώσσα χρησιμοποιώντας γλωσσικούς πόρους και εργαλεία. Οι πηγές αποτελούνται από λεξικά, γραμματικές και λεξικο-γραμματικούς πίνακες. Λειτουργεί για πλήθος γλωσσών ανάμεσά τους και τα Αρχαία Ελληνικά. Ανοίγοντας το Unitex εμφανίζεται ένα παράθυρο που μας ζητά να επιλέξουμε την φυσική γλώσσα τα κείμενα της οποίας θέλουμε να επεξεργαστούμε. Για παράδειγμα, επιλέγοντας τα Αρχαία Ελληνικά εμφανίζεται το παράθυρο που φαίνεται στο Σχήμα 17. Επειδή το εργαλείο αυτό χρησιμοποιήθηκε για την επεξεργασία των δεδομένων θα αναλυθεί περισσότερο σε επόμενα βήματα της μεθοδολογίας. Σχήμα 17. Unitex: Ancient Greek framework (screenshot) 36

Αφού ολοκληρώθηκε η μελέτη των τεχνικών/εργαλείων που υπάρχουν, επόμενο βήμα ήταν η επιλογή της γλώσσας προγραμματισμού στην οποία πρόκειται να υλοποιηθεί το σύστημα. Η Python 2.7 είναι αυτή που επιλέχθηκε καθώς ο κώδικας είναι εύκολος να διαβαστεί και να κατανοηθεί σε περίπτωση μελλοντικής προσπάθειας βελτίωσης, εξέλιξης και επέκτασης του συστήματος. Ιδιαίτερα χρήσιμο για την ανάπτυξη του κώδικα της συγκεκριμένης εργασίας ήταν το βιβλίο "Natural language Processing with Python". Προσφέρει μια εισαγωγή στον τομέα της Επεξεργασίας της Φυσικής Γλώσσας (NLP) και προτείνει την Python καθώς διαθέτει άριστη λειτουργικότητα για επεξεργασία γλωσσικών δεδομένων. Η σημασιολογία και το συντακτικό της Python είναι διαφανείς, παρουσιάζει μια καλή λειτουργικότητα ως προς τον χειρισμό χαρακτήρων και διευκολύνει την διαδραστική εξερεύνηση. Αξίζει να αναφερθεί ότι υπάρχει σε Python το εργαλείο NLTK (Natural Language Toolkit) που περιλαμβάνει ήδη υλοποιημένα εργαλεία για επεξεργασία φυσικής γλώσσας και χρησιμοποιείται ευρύτατα ως ερευνητικό εργαλείο στο πεδίο της υπολογιστικής γλωσσολογίας. Η αναζήτηση για την γλώσσα προγραμματισμού Python και την επεξεργασία φυσικής γλώσσας οδήγησε στο wxpython εργαλείο καθώς η εργασία έχει ως στόχο και την σύνδεση του κώδικα με interface ώστε να είναι πιο προσιτό στον χρήστη που δεν διαθέτει γνώσεις προγραμματισμού. Σε αντίθεση με το Tk toolkit, το wxpython είναι ένα Graphic User Interface (GUI) που υποστηρίζει το πολυτονικό σύστημα της Αρχαίας Ελληνικής γλώσσας κάτι το οποίο αποτελεί βασική προϋπόθεση για την επιλογή. Πριν ακολουθήσει ο σχεδιασμός του συστήματος, μελετήθηκαν οι κανόνες της γραμματικής όσον αφορά τα ουσιαστικά της Αρχαίας Ελληνικής και οι κανόνες τονισμού ώστε να προβλεφθούν τυχόν δυσκολίες κατά την υλοποίηση του συστήματος. Η υλοποίηση του συστήματος έγινε σύμφωνα με τους κανόνες γραμματικής όπως αυτοί περιγράφονται στην "Γραμματική Αρχαίας Ελληνικής, Γυμνασίου-Λυκείου". Επόμενο βήμα ήταν ο σχεδιασμός του πρότυπου συστήματος μορφολογικής ανάλυσης των ονομάτων. Ο σχεδιασμός ξεκίνησε με τον καθορισμού της εξόδου, δηλαδή το αποτέλεσμα της μορφολογικής ανάλυσης. Η έξοδος του συστήματος περιλαμβάνει όχι μόνο αναλυτικά τις πτώσεις των ουσιαστικών συμπεριλαμβανομένου της ονομαστικής αλλά και πληροφορίες σχετικές με την κατηγορία κλίσης στην οποία ανήκει το ουσιαστικό. Στην συνέχεια, προσδιορίστηκαν τα δεδομένα εισόδου. Έτσι, ως είσοδος του συστήματος είναι τα ουσιαστικά της Αρχαίας Ελληνικής στην ονομαστική του ενικού αριθμού. Ακολούθησε ο σχεδιασμός του συστήματος, όπως περιγράφεται συνοπτικά στο Σχήμα 18, στην γλώσσα προγραμματισμού Python, δηλαδή του τρόπου με τον οποίο θα πραγματοποιείται η επεξεργασία της εισόδου ώστε να προκύπτει η επιθυμητή έξοδος. Μελετώντας του κανόνες γραμματικής σχετικούς με την κλίση των ουσιαστικών, παρατηρήθηκε ότι συγκριτικά με τις τρεις κατηγορίες κλίσης, η Β' κλίση είναι αυτή με τις λιγότερες καταλήξεις και εξαιρέσεις. Έτσι, πρώτο βήμα στον σχεδιασμό είναι η δημιουργία συνάρτησης για την δεύτερη κλίση και στην συνέχεια οι συναρτήσεις για τις υπόλοιπες δύο κλίσεις. Σημαντικός παράγοντας στον σχεδιασμό του συστήματος 37

αποτέλεσε το πολυτονικό σύστημα των αρχαίων Ελληνικών με τους πολύπλοκους κανόνες τονισμού οι οποίοι πρέπει να συμπεριληφθούν σε συναρτήσεις του προγράμματος. Το τελικό σύστημα είναι αυτό που καλεί όλες τις συναρτήσεις που έχουν δημιουργηθεί και περιγράφουν όλους τους κανόνες γραμματικής κλίσης των ουσιαστικών ώστε να εντοπίσει (το σύστημα) την συνάρτηση στην οποία ανταποκρίνεται η είσοδος για να παραχθεί η έξοδος. ΕΙΣΟΔΟΣ ΕΠΕΞΕΡΓΑΣΙΑ ΕΞΟΔΟΣ ΟΥΣΙΑΣΤΙΚΟ (Ονομαστική Ενικού Αριθμού) ΠΡΟΓΡΑΜΜΑ (συναρτήσεις Python) ΠΤΩΣΕΙΣ ΖΗΤΟΥΜΕΝΟΥ ΟΥΣΙΑΣΤΙΚΟΎ Σχήμα 18. Σχεδιασμός συστήματος Αφού προηγήθηκε η ολοκλήρωση του σχεδιασμού και της ανάπτυξης του συστήματος, επόμενο, τελικό, στάδιο αποτέλεσε ο έλεγχος της ορθότητας του συστήματος. Για να πραγματοποιηθεί ο έλεγχος πρέπει να υπάρχουν δεδομένα για την είσοδο του συστήματος. Η συλλογή των δεδομένων πραγματοποιήθηκε με την βοήθεια του Perseus Digital Library 26 που διαθέτει μεγάλο όγκο κειμένων στα αρχαία Ελληνικά. Συγκεκριμένα, τα κείμενα στο Perseus είναι οργανωμένα ανάλογα με τον συγγραφέα και τους τίτλους των έργων τους. Κάθε έργο δεν εμφανίζεται ολόκληρο στην σελίδα αλλά ένα μέρος του που συνεχίζεται σε επόμενη σελίδα του site. Με την χρήση κώδικα στην γλώσσα προγραμματισμού Python ολοκληρώθηκε η αυτοματοποιημένη συλλογή των κειμένων από την συγκεκριμένη ιστοσελίδα. O πίνακας 5 παρακάτω περιγράφει τα κείμενα που συλλέχθηκαν από το Perseus και τους αντίστοιχους συγγραφείς τους. Ακολούθως, αφού αποθηκεύθηκαν τα κείμενα σε.txt μορφή, ενώθηκαν ώστε να δημιουργηθεί μια ενιαία βάση δεδομένων κατάλληλη για διαδικασία της προ-επεξεργασίας. Η προ-επεξεργασία του πλέον ενοποιημένου.txt αρχείου πραγματοποιήθηκε με την βοήθεια του εργαλείου Unitex και πιο συγκεκριμένα με την τεχνική του "tokenization", δηλαδή τον διαχωρισμό των λέξεων του κειμένου. Ύστερα, εφαρμόστηκε η καταγραφή του αριθμού των εμφανίσεων κάθε λέξης, μία πολύτιμη ιδιότητα που διαθέτει το εργαλείο Unitex και αποθηκεύθηκαν σε αρχείο τύπου *.snt. Από τα αποτελέσματα αυτή της διαδικασίας εντοπίστηκε το πλήθος των ουσιαστικών. Τα ουσιαστικά αυτά αποτέλεσαν την είσοδο του υλοποιημένου 26 http://www.perseus.tufts.edu/hopper/ 38

μορφολογικού συστήματος ανάλυσης ώστε να ελεγχθεί η λειτουργικότητα του συστήματος και να καταγραφούν, όσο αυτό είναι δυνατόν, τυχόν εμφανίσεις σφαλμάτων. ΣΥΓΓΡΑΦΕΑΣ 1. Aelian 2. Aeschines 3. Andocides 4. Antiphon CORPUS i. De natura animalium(books 1-7) ii. Epistulae Ructical iii. Varia Historia(books 1-14) i. Against Timarchus ii. Against Ctesiphon iii. On the Embassy i. Against Alcibiates ii. On his return iii. On the mysteries iv. On the peace i. Against Stepmother ii. Herodes murder iii. On the choreutes iv. Tetralogy (1st,2nd,3rd) 5. Apollodorus i. Epitome (7 chapters) ii. Library (3books) 6. Aratus Solensis i. Phaenomena 8. Aristides i. Orationes (1-20) 9. Aristotle i. Athenion Constitution(70 sections) ii. Economics (Book 1) iii. Economics (Book 2) iv. Nicomachean Ethics (Book 1) Πίνακας 5. Δεδομένα (corpus) από το Perseus Digital Library 39

3.2 Υλοποίηση συστήματος μορφολογικής ανάλυσης των ονομάτων της Αρχαίας Ελληνικής Πρώτο βήμα για την πραγματοποίηση του συστήματος ήταν η εγκατάσταση των απαραίτητων προγραμμάτων. Έτσι, εγκαταστάθηκε η Python έκδοση 2.7.3 από την σελίδα http://www.python.org/download/ και φορτώθηκε το αρχείο εγκατάστασης στο λειτουργικό σύστημα του υπολογιστή (Windows 7, σύστημα 64-bit). Η επιλογή της Python 2.7.3 στηρίζεται στο γεγονός ότι υποστηρίζει την εμφάνιση του πολυτονικού συστήματος των Αρχαίων Ελληνικών. Ακολουθώντας τις οδηγίες του οδηγού εγκατάστασης χωρίς αλλαγές στις ήδη προτεινόμενες ρυθμίσεις, πραγματοποιήθηκε η εγκατάσταση της Python στο σύστημα. Μεταξύ των επιλογών που διαθέτει η Python διακρίνεται η επιλογή IDLE (Python GUI) και Python (Command line) όπως φαίνεται στο Σχήμα 19 και Σχήμα 20 αντίστοιχα. Η διεπαφή χρήστη IDLE προσφέρει ευκολίες στον προγραμματιστή όπως να ανοίγει τον διερμηνευτή της Python και να επεξεργάζεται εφαρμογές γραμμένες σε Python. Για την συγκεκριμένη εργασία, η διεπαφή IDLE είναι ιδιαίτερα χρήσιμη να εμφανίζει την έξοδο του συστήματος μορφολογικής ανάλυσης. Η λειτουργία της Python (command line) είναι να ανοίγει το διερμηνευτή της Python ώστε να μπορούμε να τρέχουμε τις εφαρμογές. Σχήμα 19. IDLE(Python GUI) screenshot 40

Σχήμα 20. Python (command line) screenshot Στην συνέχεια, διαπιστώθηκε ότι το περιβάλλον IDLE δεν έδινε την δυνατότητα απευθείας γραφής των πολυτονικών χαρακτήρων παρά μόνο την δυνατότητα εμφάνισής τους στην έξοδο. Για την εισαγωγή των πολυτονικών χαρακτήρων έπρεπε να γίνει με επικόλλησή τους αφού πρώτα είχαν γραφτεί είτε στο notepad είτε στο word. Για τον λόγο αυτό και για εξοικονόμηση χρόνο ακολούθησε η εγκατάσταση του Notepad++ καθώς διευκόλυνε πολύ την συγγραφή της Python εφαρμογής. Σχήμα 21. Notepa++ screenshot 41

Ένα σημαντικό εμπόδιο στην ανάπτυξη του κώδικα αφορούσε στην κωδικοποίηση. Με άλλα λόγια, στον τρόπο με τον οποίο η είσοδος του προγράμματος, δηλαδή η λέξη στην ονομαστική, θα αναγνωριζόταν από το σύστημα με τρόπο τέτοιο ώστε η έξοδος να παράγει και να εμφανίζει τους επιθυμητούς χαρακτήρες. Η λύση είναι στο πάνω μέρος κάθε κώδικα να γράφεται #-*-coding:utf8-*- ώστε να αναγνωρίζονται οι πολυτονικοί χαρακτήρες. Επιπλέον για να εμφανίζεται στην έξοδο η σωστή κωδικοποίηση σε κάθε "print" που συνοδεύεται από εντολή η οποία αναφέρεται στην έξοδο του συστήματος προστίθεται το.decode("utf8"). Το Παράδειγμα 8 παρακάτω βοηθά να γίνει πιο κατανοητή η δομή του κώδικα όσον αφορά την κωδικοποίηση. Αναφέρεται στην δεύτερη κλίση ουσιαστικών με κατάληξη στην ονομαστική σε "ὸς" και στο τέλος δίνεται κάποια λέξη και ζητείται η εμφάνιση όλων των κλίσεών της. Η λέξη που εισάγεται αποτελεί το όρισμα κάθε συνάρτησης που αναφέρεται στον τρόπο κλίσης των ουσιαστικών. Παράδειγμα 8. Δομή κωδικοποίησης : Στην αρχή κάθε κώδικα αλλά και στο σημείο όπου θέλουμε να είναι η έξοδος του κώδικα. 42

Ο βρόχος for item in s: print item.decode("utf8") όπου s κάθε φορά είναι η συνάρτηση με όρισμα word, αναφέρεται στον έλεγχο της ακολουθίας της συνάρτησης και στην εμφάνιση των περιεχομένων της λίστας. Στην εργασία αυτή τα περιεχόμενα κάθε λίστας ορίζονται οι πτώσεις κάθε κατηγορίας κλίσεων. Να σημειωθεί ότι η εργασία αυτή περιλαμβάνει δύο είδη κώδικα για λόγους διευκόλυνσης σε περίπτωση μελλοντικής προσπάθειας εξέλιξης του συστήματος. Το πρώτο μέρος περιλαμβάνει μια τελική συνάρτηση που καλεί όλες τις προηγούμενες. Το δεύτερο μέρος περιλαμβάνει ένα user interface που έχει αναπτυχθεί με την βοήθεια του εργαλείου wx.python και του κώδικα του πρώτου μέρους ο οποίος είναι τροποποιημένος. Για λόγος ευκολίας ανάγνωσης και δυνατότητας εντοπισμού λαθών κατασκευάστηκαν αρχικά τρεις συναρτήσεις, μια για κάθε κατηγορία κλίσης των ουσιαστικών αντίστοιχα. Σε κάθε κατηγορία κλίσης η δυσκολία που έπρεπε να αντιμετωπιστεί δεν αφορούσε στις καταλήξεις οι οποίες ήταν ορισμένες, αλλά σε θέματα τονισμού κάθε πιθανής λέξης που είναι και η είσοδος του συστήματος. Ως αποτέλεσμα, ήταν απαραίτητη η δημιουργία επιπλέον συναρτήσεων που επιλύουν ενδεχόμενες αλλαγές στον τονισμό της λέξης. Συναρτήσεις, δηλαδή, οι οποίες εκφράζουν τους κανόνες τονισμού του υπάχοντος πολυτονικού συστήματος της Αρχαίας Ελληνικής γλώσσας. Οι συναρτήσεις αυτές καλούνται συναρτήσεις κλίσης που εμφανίζονται στην έξοδο. Πιο συγκεκριμένα, αν κάποιο ουσιαστικό στην ονομαστική του περιλαμβάνει ως πρώτο γράμμα κάποιο φωνήεν ( όπως "ἄ" για παράδειγμα) τότε σε πιθανή άλλη πτώση του ουσιαστικού που χρειάζεται να μεταφερθεί ο τόνος έχει κατασκευαστεί συνάρτηση η οποία καλείται να κάνει την αλλαγή ( από "ἄ" σε "ἀ"). Α) 43

Β) Παράδειγμα 9. Θέματα τονισμού: Α) Screenshot κώδικα με ονομασία g_a1.py που επιλύει θέματα τονισμού όσον αφορά την περίπτωση όπου το πρώτο γράμμα του ουσιαστικού είναι φωνήεν τονισμένο και απαιτείται η αλλαγή τονισμού, συγκεκριμένα για την τρίτη κλίση ουσιαστικών στην κατηγορία μονόθεμων σε -ως. Β) Screenshot κώδικα με ονομασία a_female1.py που επιλύει θέματα τονισμού της α' κλίσης για τα θηλυκά με κατάληξη σε -α, συγκεκριμένα ελέγχει τις προϋποθέσεις ώστε να αλλάξει η περισπωμένη σε οξεία στην παραλήγουσα. 45

Μια δυσκολία που χρειάστηκε να αντιμετωπιστεί κατά την ανάπτυξη του κώδικα ήταν το γεγονός ότι, σύμφωνα με την γραμματική, υπήρχαν περιπτώσεις όπου η κατάληξη της ονομαστικής του ουσιαστικού δεν ήταν αρκετή ώστε να προσδιοριστεί η κατηγορία κλίσης στην οποία ανήκει. Για παράδειγμα, τόσο στην δεύτερη κλίση όσο και στην τρίτη κλίση, υπάρχουν ουσιαστικά με ίδια κατάληξη στην ονομαστική ενικού αριθμού σε -οῦς αλλά με διαφορετικούς κανόνες όσον αφορά τις υπόλοιπες πτώσεις. Συγκεκριμένα, τα δευτερόκλιτα συνηρημένα ουσιαστικά με κατάληξη σε -οῦς, στην γενική ενικού η κατάληξη είναι σε -οῦ. Αντιθέτως, στην τρίτη κλίση υπάρχουν τα καταληκτικά μονόθεμα σε -οῦς, με γενική ενικού να έχει κατάληξη σε -ὸς. Έτσι, αναπτύχθηκαν συναρτήσεις οι οποίες αναγνωρίζουν το συγκεκριμένο πρόβλημα με ίδιες καταλήξεις ονομαστικής. Ρόλος των συναρτήσεων αυτών είναι να παραθέτουν στον χρήστη πιθανές καταλήξεις γενικής ενικού αριθμού χωρίς την χρήση του πολυτονικού συστήματος για λόγος ευκολίας. Η συνάρτηση με ονομασία klisi_1.py που αναπτύχθηκε για το παραπάνω παράδειγμα ουσιαστικών με την κατάληξη σε -οῦς, ζητείται από τον χρήστη να επιλέξει μια εκ των δύο πιθανών εκδοχών, ου / ος. Στην συνέχεια, ο χρήστης πληκτρολογεί την κατάληξη της γενικής ενικού που θεωρεί ότι είναι η σωστή και η συνάρτηση σύμφωνα με αυτή την επιλογή εμφανίζει τις υπόλοιπες πτώσεις, κλίνοντας το ουσιαστικό ανάλογα με την κατηγορία κλίσης που αυτό ανήκει. Αν ο χρήστης δεν μπορεί να επιλέξει κατάληξη γενικής από τις επιλογές που του παρατίθεντο, μπορεί, εκτελώντας το πρόγραμμα τόσες φορές όσες είναι και οι αντίστοιχες επιλογές, βάσει των αποτελεσμάτων να εντοπίσει την κλίση που προσαρμόζεται καλύτερα στο ουσιαστικό σε όλες τις πτώσεις. 46

Παράδειγμα 10. Δομή συνάρτησης αντιμετώπισης περιπτώσεων με ίδιες καταλήξεις αλλά διαφορετικούς κανόνες κλίσης. Α) Ουσιαστικά με κατάληξη σε ονομαστική ενικού σε -οῦς. Δυνατότητα επιλογής μεταξύ Γ' κλίσης και συνηρημένων Β' κλίσης. Β) Γ' κλίση κατάληξη σε -ξ (third_klisi3.py). Στο παρακάτω σχήμα αποτυπώνεται η έξοδος βήμα -βήμα από την εφαρμογή της συνάρτησης από το παραπάνω παράδειγμα 10 Β, δηλαδή την εμφάνιση της κλίσης ενός ουσιαστικού με κατάληξη ονομαστικής ενικού αριθμού σε -ξ. Συγκεκριμένα ζητείται από το τελικό πρόγραμμα (teliko.py) που καλεί όλες τις συναρτήσεις, να εμφανίσει το ουσιαστικό κόραξ σε όλες τις πτώσεις. Πατώντας F5 για το αρχείο teliko.py όπως δείχνει το σχήμα 22Α, εμφανίζεται στο κεντρικό παράθυρο το αποτέλεσμα της συνάρτησης για όμοιες καταλήξεις όπως φαίνεται στο σχήμα22β, όπου ζητείται από τον χρήστη να πληκτρολογήσει μία από τις προτεινόμενες επιλογές για κατάληξη της γενικής ενικού. Τέλος, στο σχήμα 22Γ φαίνεται το αποτέλεσμα που εμφανίζεται στο παράθυρο αφού ο χρήστης έχει ήδη πληκτρολογήσει την επιλογή του για την κατάληξη γενικής του ενικού αριθμού. Με παρόμοιο τρόπο αντιμετωπίζεται το πρόβλημα και για τις υπόλοιπες περιπτώσεις όπου συναντώνται ίδιες καταλήξεις που ανήκουν σε διαφορετικές κατηγορίες κλίσης. 49

Α) 50

Β) 51

Γ) Σχήμα 22. Α) Ο τελικός κώδικας (teliko.py) για το ουσιαστικό κόραξ. Το σημείο που δείχνει το βέλος είναι το σημείο όπου κάθε φορά χρειάζεται η να πληκτρολογείται το ζητούμενο ως προς την κλίση του ουσιαστικό στην ονομαστική ενικού. Β) Το αποτέλεσμα που εμφανίζεται εκτελώντας το αρχείο teliko.py. Γ) Αφού ο χρήστης έχει πληκτρολογήσει μια από τις επιλογές που εμφανίζονται στο 22Β, εμφανίζονται οι λεπτομέρειες κλίσεις του ουσιαστικού κόραξ. 52

Να σημειωθεί πώς για την δημιουργία του τελικού προγράμματος που καλεί όλες τις συναρτήσεις χρειάστηκε να αναπτυχθούν πενήντα-τέσσερις (54) συνολικά συναρτήσεις κάθε μια αποθηκευμένη ως.py αρχεία. Οι συναρτήσεις αυτές προσπαθούν να καλύψουν όσο το δυνατόν γίνεται, την πλειοψηφία των αλλαγών που χρειάζονται κάθε φορά να εφαρμοστούν στην είσοδο του συστήματος, δηλαδή στο ουσιαστικό στην ονομαστική ενικού αριθμού, ώστε να εμφανιστούν στην έξοδο όλες οι πτώσεις του ουσιαστικού. Αφού αναπτύχθηκε ο κώδικας για την κλίση των αρχαίων Ελληνικών ουσιαστικών, ένα επόμενο βήμα εξέλιξής του αποτέλεσε η δημιουργία ενός interface που μπορεί να διευκολύνει τους χρήστες που δεν έχουν τις βασικές γνώσεις προγραμματισμού, με περιβάλλον επεξεργασίας ενός ουσιαστικού πιο φιλικό προς αυτούς. Μια πρώτη προσέγγιση περιλαμβάνεται στην παρούσα εργασία χωρίς να είναι ολοκληρωμένη. Η δημιουργία αυτού του interface έγινε με την χρήση της βιβλιοθήκης wxpython 27 και πιο συγκεκριμένα την έκδοση wxpython-2.8.12.1. Πρώτο στάδιο είναι η εμφάνιση του interface, δηλαδή η κατασκευή του text editor, ο προσδιορισμός των κειμένων (όπως τίτλος), των μεγεθών,των ορίων και η κατασκευή των απαραίτητων κουμπιών (ok / close). Όλα τα παραπάνω περιγράφονται στον κώδικα με τίτλο Final_app.py. Το αποτέλεσμα της εκτέλεσης του Final_app απεικονίζεται στο Σχήμα 23. Σχήμα 23. wxpython User Interface screenshot. Τίτλος "Greek ancient ceid".ακολουθεί μια γραμμή που αποτελείται από μια ετικέτα και ένα κουτί. Στην αμέσως επόμενη γραμμή η ετικέτα "devariation" ουσιαστικά εξηγεί τι εμφανίζει το αμέσως επόμενο κουτί. Κάτω δεξιά τοποθετήθηκαν τα κουμπιά Οk, Close. 27 http://www.wxpython.org/ 53

Ύστερα από την επιτυχή απεικόνιση του interface, ακολουθεί ο κώδικας με ονομασία wx_final_interf.py, μια επέκταση του κώδικα final_app.py, όπου προσδιορίζονται οι διάφορες λειτουργίες που επιθυμούμε. Για παράδειγμα, προσδιορίζουμε το κουτί δίπλα στην ετικέτα "INSERT NOUN" να γράφεται η είσοδος του συστήματος, δηλαδή το ουσιαστικό που επιθυμεί ο χρήστης να επεξεργαστεί. Στην συνέχεια, προσδιορίζουμε το επόμενο κουτί (κάτω από την ετικέτα "devariation") να είναι αυτό που θα τυπώνεται η έξοδος του συστήματος. Τέλος, ορίζουμε τις λειτουργίες των κουμπιών "Οk" και "Close". Για το κουμπί "Ok" η συνάρτηση του είναι αυτή που περιγράφεται παρακάτω: def OnOkPress(self,event): k=self.text1.getvalue() l=wx_teliko(k) Με άλλα λόγια, πατώντας το κουμπί Ok το σύστημα παίρνει ως είσοδο την λέξη που γράφεται στο πρώτο κουτί και στην συνέχεια καλεί την τελική συνάρτηση του συστήματος με ονομασία wx_teliko.py. Κατά την προσπάθεια σύνδεσης των Python συναρτήσεων του συστήματος κλίσης των ουσιαστικών με το wxpython interface εμφανίστηκαν προβλήματα κωδικοποίησης. Για αυτό τον λόγο, έπρεπε να γίνουν κάποιες αλλαγές στους ήδη υπάρχοντες Python κώδικες. Αρχικά, για να διαχωριστούν οι αρχικοί python κώδικες του συστήματος ανάλυσης των ουσιαστικών της Αρχαίας Ελληνικής με τους κώδικες που θα συνδεθούν με το wxpython Interface δημιουργήθηκε ένα αντίγραφο των συναρτήσεων και στην συνέχεια μετονομάστηκαν χρησιμοποιώντας το πρόθεμα wx_. Για παράδειγμα, η συνάρτηση με ονομασία second_klisi.py που αναφερόταν στον τρόπο κλίσης των ουσιαστικών της δεύτερης κλίσης μετονομάστηκε σε wx_second_klisi.py για τις ανάγκες του interface. Επιπλέον, αντικαταστάθηκε η εντολή return ( ) που τύπωνε την έξοδο του συστήματος με την εντολή print σε κάθε νέα γραμμή εξόδου. To κύριο πρόβλημα ήταν αυτό της κωδικοποίησης ώστε να εμφανιστεί το αποτέλεσμα του προγράμματος στο Interface. Ο τρόπος δηλαδή με τον οποίο θα εμφανίζονταν οι πολυτονικοί χαρακτήρες. Η λύση εντοπίστηκε προσθέτοντας σε οτιδήποτε περιβαλλόταν από ' ' την κωδικοποίηση.decode('utf8'). Στο Σχήμα 24 παρακάτω, αποτυπώνονται οι παραπάνω αλλαγές σε μια από τις συναρτήσεις του python κώδικα ώστε να γίνουν καλύτερα κατανοητές. 54

Α) 55

Β) Σχήμα 23. Α) screenshot μέρους της συνάρτησης σε python που αναφέρεται στην επεξεργασία κάποιων ουσιαστικών της τρίτης κλίσης. Β) screenshot μέρους της ίδιας συνάρτησης τροποποιώντας τον κώδικα με τέτοιο τρόπο ώστε να τυπώνεται η έξοδος στην διεπαφή που κατασκευάστηκε. 56

Παρά τις παραπάνω αλλαγές στον αρχικό κώδικα, δεν βρέθηκε ο τρόπος με τον οποίο το σύστημα σε wxpython θα αναγνωρίζει εντολές διαγραφής μέρους (γραμμάτων) της εισόδου, δηλαδή του ουσιαστικού στην ονομαστική ενικού (word). Με άλλα λόγια, εντολές στην έξοδο όπως word [:-4] το interface επιστρέφει κενό ( Παράδειγμα 11). Αυτό θα μπορούσε να αποτελέσει θέμα για μελλοντική εργασία σε μια προσπάθεια βελτίωσης του αρχικού συστήματος. Παράδειγμα 11. Εφαρμογή της διεπαφής για το ουσιαστικό "αγρὸς". 57

Αφού ολοκληρώθηκε το προγραμματιστικό μέρος που περιλάμβανε την υλοποίηση του συστήματος επεξεργασίας και ανάλυσης των ουσιαστικών, επόμενο και τελευταίο βήμα αποτέλεσε η συλλογή δεδομένων όπως έχει αναφερθεί και σε προηγούμενο κεφάλαιο (βλ. Πίνακας 5). Η συλλογή κειμένων από το http://www.perseus.tufts.edu/hopper/ εξαιτίας του μεγάλου όγκου δεδομένων,για λόγους ευκολίας,δεν έγινε χειροκίνητα αλλά με την ανάπτυξη κ εφαρμογή python κώδικα. Η δυσκολία γι' αυτή την διαδικασία εντοπίζεται στο γεγονός ότι το κάθε κείμενο οποιουδήποτε συγγραφέα είναι χωρισμένο σε κομμάτια και δεν εμφανίζεται αυτούσιο σε ένα συγκεκριμένο url, κάθε κομμάτι του κειμένου και διαφορετικό υποσέλιδο (link) του Perseus. Η χρήση των βιβλιοθηκών urllib2 28, για την απόσπαση του περιεχομένου του URL που ορίζουμε, και BeautifulSoup 29, για parsing των αντίστοιχων xml αρχείων, αποτέλεσε το βασικό κομμάτι του κώδικα ώστε να μπορέσουμε να αποσπάσουμε το συνολικό κείμενο αυτοματοποιημένα. Για να γίνει περισσότερο κατανοητό, στο Παράδειγμα 12 παρακάτω, παρατίθεται ο κώδικας για την συλλογή ενός κειμένου (Antiphon, On the murder of Herodes). Παράδειγμα 12. Κώδικας για την εξαγωγή του κειμένου On the murder of Herodes (Antiphon) από το Perseus.Ορίζεται το αρχικό url που περιέχει το πρώτο μέρος του κειμένου. Ύστερα, ανακτάται το περιεχόμενο από τα υπόλοιπα URLs ώστε να επιστραφεί όλο το κείμενο. 28 https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&uact=8&ved=0ccgqfj AC&url=http%3A%2F%2Fwww.dblab.upatras.gr%2Fdownload%2Fcourses%2FGLWSSIKI_TEXNOLOGIA%2F 2010_11%2Ffrontistirio%2Ffront_http.ppt&ei=LcqZU9yOAoqM0AX9uIH4Cg&usg=AFQjCNEJr6XNxEDQFXi7 U1pMVv7rFq4RoQ 29 http://www.crummy.com/software/beautifulsoup/ 58

Ακολούθως, αφού πραγματοποιήθηκε η συλλογή δεδομένων αποθηκεύτηκαν στο αρχείο all_corpus.txt. Το αρχείο αυτό επεξεργάστηκε με την βοήθεια του Unitex εργαλείου που αναφέραμε σε παραπάνω κεφάλαιο. Είσοδος του εργαλείου αυτού είναι το αρχείο με τα κείμενα και η έξοδος του ( preprocessing) είναι η καταμέτρηση και καταγραφή (tokenize) των λέξεων και των σημείων στίξης. Από αυτή την επεξεργασία προκύπτει και μία λίστα που περιέχει τα αποτελέσματα της προεπεξεργασίας του κειμένου με βάση την συχνότητα εμφάνισής τους (token list by frequence). Μαρκάρονται και διαχωρίζονται τα ουσιαστικά, χειρονακτικά, ττα οποία και αποτελούν τα δεδομένα που θα βοηθήσουν στον έλεγχο της λειτουργίας του συστήματος μορφολογικής ανάλυσης αρχαίων ελληνικών ουσιαστικών που αναπτύχθηκε καθώς και στην διόρθωση τυχόν λαθών στον κώδικα. Α) Β) 59

Γ) Σχήμα 24. Unitex preprocessing. Α) Επιλογή Αρχαίων Ελληνικών προς επεξεργασία. Β) Εισαγωγή κείμενου από αρχείο.txt για να ακολουθήσει η διαδικασία της προεπεξεργασίας. Γ) Εμφάνιση token list by Frequence. 60