ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΒΙΟΜΗΧΑΝΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ



Σχετικά έγγραφα
Η πρόταση. Πρόταση λέγεται ένα σύντομο κομμάτι του λόγου, που περιλαμβάνει μια σειρά από λέξεις με ένα τουλάχιστον ρήμα και έχει ολοκληρωμένο νόημα.

Ρήματα λέγονται οι λέξεις που φανερώνουν ότι ένα πρόσωπο, ζώο ή πράγμα ενεργεί ή παθαίνει κάτι ή βρίσκεται σε μία κατάσταση.

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ

Τα ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός

ΡΗΜΑΤΑ. Στην πρώτη περίπτωση κάποιος ενεργεί (ρήμα) και η ενέργειά του αυτή ασκείται σε ένα άλλο πρόσωπο ή πράγμα έξω από αυτόν.

ΤΑ ΠΑΡΕΠΟΜΕΝΑ ΤΟΥ ΡΗΜΑΤΟΣ ΦΩΝΗ ΣΥΖΥΓΙΑ ΔΙΑΘΕΣΗ ΧΡΟΝΙΚΗ ΒΑΘΜΙΔΑ ΠΟΙΟΝ ΕΝΕΡΓΕΙΑΣ

Ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός

Page 1

Γραμματική και Συντακτικό Γ Δημοτικού ανά ενότητα - Παρασκευή Αντωνίου

ΟΙ ΧΡΟΝΟΙ ΤΩΝ ΡΗΜΑΤΩΝ

Η πρώτη μου γραμματική

Στόχος του βιβλίου αυτού είναι να κατακτήσουν οι μικροί μαθητές

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

«Η τροπικότητα στην Νέα Ελληνική» Ανάλυση βάσει του Επικοινωνιακού Δοµολειτουργικού Προτύπου

ΑΡΘΡΑ. Μικρές λέξεις που μπαίνουν μπροστά από ουσιαστικά, επίθετα, τις κλιτές μετοχές και ορισμένες αντωνυμίες. ΟΥΣΙΑΣΤΙΚΑ

Απλές ασκήσεις για αρχάριους μαθητές 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ

Δεκτές είναι μόνο οι λέξεις της νέας Eλληνικής γλώσσας που υπάρχουν στα ισχύοντα βοηθήματα-λεξικά τα οποία είναι τα εξής (1) :

Ορθογραφία : Συλλαβές. Μονοσύλλαβη : το, και Δισύλλαβη : πό δι, ε- κεί. Τρισύλλαβη : πα τέ ρας, μη τέ ρα. Πολυσύλλαβη : πα ρα μύ θι, α στα μά τη τα

καταλήξεις ασυναίρετων της β' κλίσης Ενικός ον. γεν. δοτ. αιτ. κλ. -ον -ου -ῳ -ον -ον -ος -ου -ῳ -ον -ε Πληθυντικός -οι -ων -οις -ους -οι

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ


ΤΑ ΡΗΜΑΤΑ Τα ρήματα Έχουν δύο φωνές: την ενεργητική και την παθητική Ενεργητική φωνή: ω. Παθητική φωνή: -μαι. Οι καταλήξεις των ρημάτων, ω, -άβω

ΕΠΙΜΕΛΕΙΑ:ΠΑΠΑΝΙΚΟΛΑΟΥ ΚΥΒΕΛΗ

ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές.

Πρόσεξε τα παρακάτω παραδείγματα:

ΓΡΑΜΜΑΤΙΚΗ ΤΗΣ ΑΡΧΑΙΑΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ. Παναγιώτης Δεμέστιχας Στέλλα Γκανέτσου

Θησαυρού της Ελληνικής Γλώσσας του Ινστιτούτου Επεξεργασίας Λόγου (

Δευτερόκλιτα επίθετα

Γράμματα. Δίφθογγοι. Συνδυασμοί

ΤΑ ΠΑΡΑΘΕΤΙΚΑ (ΒΑΘΜΟΙ) ΤΟΥ ΕΠΙΘΕΤΟΥ.

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ

Για κάθε φάση του σχεδίου διδασκαλίας προτείνονται δύο στάδια δραστηριοτήτων:

ΤΑ ΜΕΡΗ ΤΟΥ Βασίλης Αναστασίου

ΔΙΑΦΟΡΟΠΟΙΗΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΡΟΓΡΑΜΜΑΤΩΝ

ΓΝΩΣΤΙΚΟ ΑΝΤΙΚΕΙΜΕΝΟ: ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ

Μελέτησε τις παρακάτω σημειώσεις για τις καταλήξεις των ρημάτων

Προτεινόμενος Προγραμματισμός κατά ενότητα

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ

ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ

ΕΙΜΙ= είμαι, υπάρχω. ΥΠΟΤΑ- ΚΤΙΚΗ ω ης η ωμεν. ισθι εστω. εσοίμην εσοιο εσοιτο εσοίμεθα εσοισθε εσοιντο ΑΡΣΕΝΙΚΟ ΘΗΛΥΚΟ ΟΥΔΕΤΕΡΟ. ο υσης ο υσ η ο υσαν

ΕΜΠΛΟΥτΙΣΜΟΣ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΥΣ ΚΑΙ ΥΠΟΣτΗΡΙΞΗ

Δασκάλα - Φιλόλογος. Mε 115 δραστηριότητες, παραδείγματα, κείμενα και κανόνες. Για τις πρώτες τάξεις του Δημοτικού

Η αλφαβήτα μας. Α α Ι ι Ρ ρ Β β Κ κ Σ σ ς Γ γ Λ λ Τ τ Δ δ Μ μ Υ υ Ε ε Ν ν Φ φ Ζ ζ Ξ ξ Χ χ Η η Ο ο Ψ ψ Θ θ Π π Ω ω

1 Η ΕΝΟΤΗΤΑ 1. Τι ονομάζεται επ ικοινωνία; Τι κοινό χρειάζεται για να επ ιτευχθεί;

Λογισμικό: Αρχαία με Νόημα Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Αρχαία Ελληνικά Τάξη/εις: Α, Β Γυμνασίου

Μορφολογία - Ουσιαστικά. A Επίπεδο B επίπεδο Γ Επίπεδο Δ Επίπεδο. αρσενικά αρσενικά αρσενικά αρσενικά. ισοσύλλαβα. -έας, -είς -ής -είς

ΔΙΑΛΕΞΗ ΕΝΔΕΚΑΤΗ ΚΕΙΜΕΝΑ ΥΣΤΕΡΗΣ ΜΕΣΑΙΩΝΙΚΗΣ

ΟΜΟΙΟΙ ΚΑΙ OMOHXΟΙ ΤΥΠΟΙ

ΕΝΗΜΕΡΩΤΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

Γραμματική και Συντακτικό Γ Δημοτικού ανά ενότητα - Παρασκευή Αντωνίου

1. ΟΝΟΜΑΤΙΚΟ ΣΥΣΤΗΜΑ. Ονομαστική Γενική Αιτιατική Κλητική Ονομαστική Γενική Αιτιατική Κλητική ΟΥΣΙΑΣΤΙΚΑ. Αρσενικά

Απλές ασκήσεις για αρχάριους μαθητές 5

ΟΜΟΙΟΙ ΚΑΙ OMOHXΟΙ ΤΥΠΟΙ

ΟΥΣΙΑΣΤΙΚΑ Γ ΚΛΙΣΗΣ Α. ΦΩΝΗΕΝΤΟΛΗΚΤΑ. Παρατηρήσεις στα φωνηεντόληκτα ουσιαστικά: 1. Στα καταληκτικά μονόθεμα σε -υς, -υος:

Οι μαθητές και οι μαθήτριες να είναι σε θέση να: Να κατανοούν την ανθρωποκεντρική διάσταση του αρχαίου κόσμου.

ΧΡΗΣΙΜΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΑ ΛΑΤΙΝΙΚΑ ΚΕΙΜΕΝΑ

κ, όπου οι κ, λ είναι ακέραιοι ΕΝΟΤΗΤΑ 6 - ΜΑΘΗΜΑΤΙΚΑ Κείµενο 1 Οι αριθµοί

Γραμματική και Συντακτικό Γ Δημοτικού ανά ενότητα - Παρασκευή Αντωνίου. Κύρια ονόματα

ΕΝΕΣΤΩΤΑΣ. Κλίνε στον Ενεστώτα της Ενεργητικής και της Παθητικής Φωνής τα ρήματα : δένω δένομαι γράφω γράφομαι. φωτίζω φωτίζομαι πληρώνω πληρώνομαι

Τα ταξίδια του παππού. Ρήματα σε -άβω. Τα ρήματα που τελειώνουν σε -άβω γράφονται με β. πχ: ράβω, ανάβω, σκάβω, θάβω, κ.ά.

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

ΦΩΝΗΤΙΚΗ-ΦΩΝΟΛΟΓΙΑ (Ι)

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα

ΑΓΓΛΙΚΗ ΣΧΟΛΗ ΛΕΥΚΩΣΙΑΣ ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Χρόνος: 1 ώρα. Οδηγίες

ΓΡΑΜΜΑΤΙΚΗ Για την Γ τάξη του Δημοτικού

The G C School of Careers

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

Αμερικανική Ακαδημία Λευκωσίας

Εργαστήριο Αρχαιομάθειας. Κείμενο. Κατάλογος φαινομένων. Περιεχόμενα. [Διδασκαλία - Εκπαίδευση] Ηλεκτρονικές Ασκήσεις

ΤΟ ΕΛΛΗΝΙΚΟ ΑΛΦΑΒΗΤΟ

Το αντικείμενο [τα βασικά]

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Β ΚΛΙΣΗ ΟΥΣΙΑΣΤΙΚΩΝ. Αρσενικά και θηλυκά σε ως και ουδέτερα σε ων. Α. ΑΣΥΝΑΙΡΕΤΑ ΟΥΣΙΑΣΤΙΚΑ

Pos matome Griko: Το εκπαιδευτικό υλικό. Β Επίπεδο για ενηλίκους. Μαριάννα Κατσογιάννου, Γλωσσολόγος, Καθηγήτρια, Παν/μιο Κύπρου

Ασκήσεις Γραμματικής

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

Αναγνώριση Προτύπων Ι

[Ένας φίλος που...τρώγεται]

ΣΥΝΗΘΗ ΛΑΘΗ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΛΕΞΕΩΝ

Φύλλα εργασίας για τη Γλώσσα

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

The G C School of Careers

Η ρηματική όψη στη διδασκαλία της ελληνικής ως δεύτερης/ξένης γλώσσας

MK Prosopsis Ltd - Assistive Technology Products & Services

Πώς να διαβάζεις στο σπίτι γρήγορα και αποτελεσματικά για μαθητές τάξης Teens 2 & 3 (B & C Senior)

[Γραμματική. Αρσενικό Θηλυκό Ουδέτερο Αρσενικό Θηλυκό Ουδέτερο

Προγραμματισμός ΙI (Θ)

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΠΑΣΧΑ

Σχηματισμός Ευκτικής Παρακειμένου Ενεργητικής Φωνής. Στις σημειώσεις μας θα εστιάσουμε στον περιφραστικό τύπο, καθώς αυτός είναι ο πιο εύχρηστος.

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Βασίλειος Κοντογιάννης ΠΕ19

ΓΩΝΙΟΜΕΤΡΗΣΗ ΑΡΤΕΜΗΣ ΣΩΡΡΑΣ ΤΩΝ 27 ΣΥΜΒΟΛΩΝ ΤΗΣ ΕΛΛΑΝΙΑΣ ΑΙΘΕΡΙΚΗΣ ΓΡΑΦΗΣ ΤΩΝ ΚΑΙ ΑΡΙΘΜΗΤΙΚΑ ΜΑΘΗΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕΡΟΣ 7 Ο

Νέα ελληνικά-πανεπιστήμιο Stendhal Grenoble 3 Επίπεδο A2 Β εξάμηνο-επιλογή /επιμέλεια Μ. Ζουμπουλίδου Γραμματικό. Πηγές Πηγές περιεχόμενο

ΕΝΟΤΗΤΑ 20 - ΕΠΑΝΑΛΗΨΗ

Transcript:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΒΙΟΜΗΧΑΝΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «ΕΞΑΓΩΓΗ ΤΗΣ ΡΙΖΑΣ ΤΩΝ ΛΕΞΕΩΝ ΣΤΗΝ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ. ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΗΣ ΠΟΥ ΘΑ ΔΙΑΧΩΡΙΖΕΙ ΤΗΝ ΚΑΤΑΛΗΞΗ ΑΠΟ ΤΗ ΡΙΖΑ ΤΗΣ ΛΕΞΗΣ ΒΑΣΙΣΜΕΝΗ ΣΕ ΚΑΝΟΝΕΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΡΑΜΜΑΤΙΚΗΣ». Εισηγητής: Κος Θεόδωρος Αλεβίζος Σουλτάνα Αβραμίδου Χαρίκλεια Πολυμέρου Απρίλιος 2008

Περιεχόμενα Περιεχόμενα... 1 ΠΡΟΛΟΓΟΣ... 3 1. ΕΙΣΑΓΩΓΗ... 5 1.1 Περιγραφή θέματος... 5 1.2 Ορισμός... 5 1.3 Τι επακολουθεί... 6 2. ΑΝΑΔΡΟΜΗ... 7 2.1 Ιστορικά Στοιχεία... 7 2.2. Είδη Stemming... 8 2.2.1. Λεξικό-βασισμένη τεχνική ( Dictionary-Based Technique)... 8 2.2.2 Βασισμένη στους κανόνες τεχνική ( Rule-Based Technique)... 8 2.2.3 Ελαφρύ-Stemming τεχνική (Light-Stemming Technique)... 9 2.2.4. Corpus-Based Technique... 9 2.2.5. Stemming στις μη-αγγλικές γλώσσες...10 3. STEMMING ΣΤΗΝ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ... 12 3.1. Ελληνικοί Stemmers... 12 3.2. Ένας αλγόριθμος γδυσίματος επιθήματος ( A suffix stripping algorithm )...13 4. ΣΧΕΔΙΑΣΜΟΣ ΑΛΓΟΡΙΘΜΟΥ...16 4.1. Εισαγωγικά... 16 4.2. Στόχος... 17 4.3. Σκοπός... 17 4.4. Μεθοδολογία...17 4.5. Περιορισμοί... 19 5. ΝΕΟΕΛΛΗΝΙΚΗ ΓΡΑΜΜΑΤΙΚΗ... 21 5.1 Ιστορία των σύγχρονων ελληνικών... 21 5.2 Οι φθόγγοι και τα γράμματα της ελληνικής γλώσσας... 22 5.3. Οι τύποι και ο σχηματισμός των λέξεων... 23 5.4. Κλιτά μέρη του λόγου... 24 5.4.1 Τα Ουσιαστικά... 24 5.4.2 Τα Επίθετα... 25 5.4.3 Τα Ρήματα... 25 5.4.3.1. Διαθέσεις και φωνές... 25 5.4.3.2. Εγκλίσεις... 26 5.4.3.3. Χρόνοι του ρήματος... 26 5.4.3.4. Αριθμοί και πρόσωπα... 28 5.4.3.5. Οι συζυγίες... 28 6. ΑΝΑΛΥΣΗ... 30 6.1. Φάση 1 : Μελέτη Ουσιαστικών... 30 6.1.1. Η κλίση των αρσενικών - Γενικές παρατηρήσεις στα αρσενικά...30 6.1.2. Η κλίση των θηλυκών - Γενικές παρατηρήσεις στα θηλυκά... 31 6.1.3. Η κλίση των Ουδετέρων - Γενικές παρατηρήσεις στα ουδέτερα... 31 1

6.1.4. Συνοπτικοί Πίνακες Κλητικών Καταλήξεων Ουσιαστικών... 32 ΑΡΣΕΝΙΚΑ... 32 ΘΗΛΥΚΑ... 32 ΟΥΔΕΤΕΡΑ... 33 6.1.5. Συνοπτικοί Πίνακες Παραγωγικών Καταλήξεων Ουσιαστικών... 33 6.2. Φάση 2 : Μελέτη Επιθέτων... 33 6.2.1. Η κλίση των επιθέτων - Γενικές παρατηρήσεις στα επίθετα...33 6.2.2. Συνοπτικοί Πίνακες Κλητικών Καταλήξεων Επιθέτων... 33 6.2.3. Συνοπτικοί Πίνακες Παραγωγικών Καταλήξεων Επιθέτων... 34 6.3. Φάση 3 : Μελέτη Ρημάτων... 34 6.3.1. Κλίση Ρημάτων - Γενικές παρατηρήσεις στα ρήματα... 34 6.3.2. Συνοπτικοί Πίνακες Κλητικών Καταλήξεων Ρημάτων... 35 Α' ΣΥΖΥΓΙΑ... 35 Β' ΣΥΖΥΓΙΑ - 1η ΤΑΞΗ... 35 Β' ΣΥΖΥΓΙΑ - 2η ΤΑΞΗ... 36 6.3.3. Συνοπτικοί Πίνακες Παραγωγικών Καταλήξεων Ρημάτων... 36 6.4. Επιπλέον Κανόνες σχεδιασμού αλγορίθμου... 36 6.5. Εξαιρέσεις... 37 6.6. Παραδείγματα... 38 7. ΣΥΜΠΕΡΑΣΜΑΤΑ - ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ... 39 8. ΒΙΒΛΙΟΓΡΑΦΙΑ - ΑΝΑΦΟΡΕΣ... 40 Παράρτημα Ι : Γλωσσάριο... 43 Παράρτημα Ι Ι : Η ΕΦΑΡΜΟΓΗ... 46 2

ΠΡΟΛΟΓΟΣ Ένα από τα πιο γνωστά εργαλεία που χρησιμοποιούνται ευρύτατα στο χώρο του διαδικτύου σήμερα είναι σίγουρα αυτά της αναζήτησης και ανάκτησης πληροφοριών. Στις μέρες μας, ειδικά για το σκοπό αυτό παρέχονται πολλά εργαλεία και το διαθέσιμο λογισμικό ανάκτησης πληροφοριών αναμφισβήτητα παρουσιάζει αρκετό ενδιαφέρον. Έτσι, μπορούμε να βρούμε μία ποικιλία από μηχανές αναζήτησης διαδικτύου με προηγμένες παραμέτρους αναζήτησης, ειδικευμένες μηχανές αναζήτησης για την ανάκτηση εγγράφων από μια συλλογή εγγράφων, την ανάσυρση δεδομένων και τη συγκέντρωση εργαλείων, καθώς επίσης και άλλα εργαλεία ταξινόμησης. Ενδεικτικά αναφέρονται κάποιες γνωστές μηχανές αναζήτησης : WWW.ALTAVISTA.COM. WWW.DIRECTHIT.COM WWW.GOOGLE.COM WWW.METACRAWLER.COM WWW.ALLTHEWEB.COM WWW.ASKJEEVES.COM WWW.EXCITE.COM WWW.DOGPILE.COM WWW.INFOSEEK.COM WWW.HOTBOT.COM WWW.YAHOO.COM WWW.LYCOS.COM Αυτές οι μηχανές γίνονται όλο και περισσότερο περίπλοκες (σοφιστικέ) στην προσπάθεια να καλυφθούν οι απαιτήσεις του χρήστη για πρόσβαση σε συγκεκριμένες πληροφορίες. Οι μηχανές αναζήτησης διαθέτουν εξελιγμένες τεχνικές, οι οποίες μας επιτρέπουν να θέσουμε κάποιους περιορισμούς στις αναζητήσεις μας Για παράδειγμα: δίπλα στο πλαίσιο κειμένου παρατηρούμε την επιλογή "Σύνθετη αναζήτηση''-''advance Search. Ένα κλικ στο link μας οδηγεί σε νέο παράθυρο 3

επιλογών. Εδώ μπορούμε να ορίσουμε επιπρόσθετες πληροφορίες στην αναζήτηση ώστε να είναι πιο ακριβείς οι πληροφορίες που θα πάρουμε. Μια από τις προσπάθειες να καταστούν οι μηχανές αναζήτησης αποτελεσματικότερες στην ανάκτηση πληροφοριών ήταν η χρήση της ρίζας των λέξεων. Πολλές σύγχρονες μηχανές αναζήτησης χρησιμοποιούν το stemming για να καταστήσουν την αναζήτηση ευρύτερη, εξασφαλίζοντας έτσι ότι ο μέγιστος αριθμός σχετικών αντιστοιχιών συμπεριλαμβάνεται στα αποτελέσματα της αναζήτησης. Το stemming έχει επίσης εφαρμογές στην αυτόματη μετάφραση, την περιληπτική παρουσίαση της πληροφορίας εγγράφων (Orasan, Pekar & Hasler 2004, Dalianis 2000), και την ταξινόμηση κειμένων (Gaustad & Bouma 2002). 4

1.ΕΙΣΑΓΩΓΗ 1.1 Περιγραφή θέματος Στην παρούσα πτυχιακή εργασία θα ασχοληθούμε με το stemming για την Ελληνική Γλώσσα. Στο πλαίσιο αυτό θα παρουσιαστούν συνοπτικά σχετικές εργασίες πάνω σε αυτό το αντικείμενο καθώς επίσης η μελέτη και η ανάπτυξη ενός αλγορίθμου Stemming, ο οποίος θα χρησιμοποιηθεί σε μία εφαρμογή Stemmer. Ο κύριος σκοπός του Stemming είναι η μείωση του μεγέθους του ευρετηρίου μιας μηχανής αναζήτησης, μέσω της ελαχιστοποίησης της «παραμόρφωσης» των λέξεων όπως αυτή προκύπτει από την χρήση σε έγγραφα, με βάση τη γραμματική της γλώσσας. Ο Stemmer θα πρέπει να είναι σε θέση να παράγει την ετυμολογική ρίζα οποιασδήποτε λέξης ανεξάρτητα από την κλίση, πτώση, γένος και χρόνο στον οποίο συναντάται. Η μελέτη και η ανάπτυξη του αλγορίθμου βασίστηκε στους γραμματικούς κανόνες της Ελληνικής γλώσσας, όπως περιγράφονται στη γραμματική (1941) της νεοελληνικής γλώσσας του Μανώλη Τριανταφυλλίδη. Ο σκοπός της παρούσας πτυχιακής εργασίας είναι η υλοποίηση ενός stemmer για την ελληνική και μόνο γλώσσα. Με άλλα λόγια η υλοποίηση ενός αποδοτικού αλγόριθμου που να μπορεί να συμπεριλάβει ένα μεγάλο ποσοστό των ελληνικών λέξεων μέσα από κανόνες και αφαιρέσεις γενικών καταλήξεων χωρίς λεξικό. 1.2 Ορισμός Ένας stemming αλγόριθμος θα μπορούσαμε να πούμε ότι είναι η αντίθετη διαδικασία της παραγωγής των λέξεων. Με άλλα λόγια, η διαδικασία κατά την οποία μία λέξη, ύστερα από αφαίρεση της κλητικής κατάληξης, και εάν χρειάζεται και της παραγωγικής, καταλήγει στο μίσχο από τον οποίο προήλθε πριν από την διαδικασία παραγωγής, δηλαδή της προσθήκης σε αυτήν μίας κλητικής ή παραγωγικής κατάληξης. 5

1.3 Τι επακολουθεί Στη συνέχεια της παρούσας εργασίας και στο δεύτερο κεφάλαιο αναφέρουμε μια ιστορική αναδρομή. Έπειτα γίνεται μια αναφορά στα είδη stemming που έχουν μελετηθεί στο παρελθόν σε διάφορες γλώσσες. Στο τρίτο κεφάλαιο αναφέρουμε το stemming που έχει αναπτυχθεί για την ελληνική γλώσσα. Το επόμενο κεφάλαιο περιλαμβάνει το σχεδιασμό του αλγορίθμου. Παρακάτω παραθέτουμε στοιχεία της νεοελληνικής γραμματικής του Μανώλη Τριανταφυλλίδη. Φτάνοντας στο έκτο κεφάλαιο, ακολουθεί η αναλυτική μελέτη της κλίσης των ουσιαστικών, των επιθέτων και των ρημάτων. Η εργασία αυτή ολοκληρώνεται με τα τελικά συμπεράσματα και τις προτάσεις για τις μελλοντικές επεκτάσεις. Στο όγδοο κεφάλαιο αναφέρουμε τις πηγές από όπου αντλήσαμε τις πληροφορίες. Στο τέλος επισυνάπτονται δυο παραρτήματα : α) παράρτημα με γλωσσάριο και β) παράρτημα με την εφαρμογή. 6

2. ΑΝΑΔΡΟΜΗ 2.1 Ιστορικά Στοιχεία Πολλές θεωρίες και πειράματα έχουν αναπτυχθεί για να αξιολογήσουν την αποδοτικότητα και τη σταθερότητα της stemming διαδικασίας στην ανάκτηση πληροφοριών. Ο Lennon (1981) έκανε μια έρευνα αξιολόγησης για τις τεχνικές stemming και πώς αυτές έχουν επιπτώσεις στην ακρίβεια αναζήτησης, που καταδεικνύει ότι το stemming αυξάνει την αποτελεσματικότητα της ανάκτησης πληροφοριών. Αυτό ήταν αρκετό να παρακινήσει όλο και περισσότερους ερευνητές για τη βελτίωση του stemming. Ο Lovins (1968) προσδιόρισε έναν stemming αλγόριθμο ως «τη διαδικασία για να μειώσει όλες τις λέξεις με τον ίδιο μίσχο (θέμα) σε μία κοινή μορφή, συνήθως με την αφαίρεση από την κάθε λέξη των παραγωγικών και των κλιτικών επιθημάτων της». Ο κύριος στόχος της διαδικασίας stemming είναι να αφαιρεθούν όλες οι πιθανές προσθήκες και κατά συνέπεια να μειώσει (περιορίσει) τη λέξη στο μίσχο της (Dawson 1974). Υπάρχουν διάφορες τεχνικές που χρησιμοποιούνται για τη ρίζα της λέξης, που αναπτύσσονται μέσα στο χρόνο. Από την πρώτη βασική προσέγγιση, την Dictionary- Based τεχνική (λεξικό-βασισμένη τεχνική), μέχρι την πιο πρόσφατη, την Corpus- Based τεχνική, οι ερευνητές έχουν χρησιμοποιήσει εναλλακτικούς κανόνες και σχηματισμούς για κάθε γλώσσα για να αναπτύξουν έναν αξιόπιστο stemmer με την υψηλότερη ακρίβεια. 7

2.2. Είδη Stemming «Ιστορικά, οι stemmers έχουν συχνά θεωρηθεί είτε ως λεξικό-βασισμένοι είτε ως αλγοριθμικοί» (Porter 2001). 2.2.1. Λεξικό-βασισμένη τεχνική ( Dictionary-Based Technique) Οι λεξικό-βασισμένοι stemmers ταιριάζουν κάθε λέξη με μια λέξη σε ένα κατάλληλο ψηφιοθετημένο λεξικό, αντιστοιχίζοντας κάθε λέξη στο μίσχο της (Carlberger et Al 2001). Στα πειράματα με λεξικά του Krovetz (Krovetz 1995), αυτή η άμεση μέθοδος φαίνεται αποτελεσματική αλλά ανεπαρκής να εξετάσει-αντιμετωπίσει τις "απεριόριστες" λέξεις και το σχηματισμό τους, ειδικά στις κλιμένες γλώσσες με την ανυψωμένη μορφολογική δομή. Αυτός ήταν ο κύριος λόγος που τον οδήγησε να αξιολογήσει τους αλγοριθμικούς stemmers και να καταλήξει στο συμπέρασμα ότι «παρά τα λάθη μπορούν να φανούν ό,τι κάνουν, δίνουν ακόμα καλά πρακτικά αποτελέσματα». Επιπλέον «οι λεξικό-βασισμένοι stemmers απαιτούν τη συντήρηση λεξικών για να συμβαδίσουν με μια συνεχώς μεταβαλλόμενη γλώσσα, και αυτό είναι πραγματικά αρκετό πρόβλημα. Δεν είναι μόνο ότι ένα λεξικό που δημιουργείται για να βοηθήσει τη διαδικασία stemming σήμερα θα απαιτεί πιθανώς σημαντική ενημέρωση σε μερικά έτη, αλλά και ότι ένα λεξικό σε χρήση για αυτόν το λόγο σήμερα μπορεί ήδη να είναι αρκετά έτη μη εκσυγχρονισμένο». 2.2.2 Βασισμένη στους κανόνες τεχνική ( Rule-Based Technique) Αυτή είναι η ευρύτερα εφαρμοσμένη stemming τεχνική, με καλύτερο αντιπρόσωπο τον αλγόριθμο που εισάγεται από τον Porter (1980). Με συγκεκριμένους κανόνες για την αγγλική γλώσσα, αυτός ο αλγόριθμος αφαιρεί επαναληπτικά τα επιθήματα από μια δεδομένη λέξη, μειώνοντάς την στο μίσχο της. Ακόμα κι αν ο αλγόριθμος έχει τους περιορισμούς του, είναι ο πιο κοινά αποδεκτός για την υψηλή του ακρίβεια και την ανάκλησή του. 8

Του Lovin (1968) ο stemmer ακολουθεί την ίδια βασισμένη στους κανόνες τεχνική αλλά δεν εφαρμόζει τους κανόνες του επαναληπτικά και είναι πιο συντηρητικός (παραδοσιακός) από τον αλγόριθμο του Porter. Σε αυτήν την πορεία ο Paice & ο Husk (1990) έχουν επίσης εργαστεί εισάγοντας (παρουσιάζοντας) ένα πιο αγγλικό stemmer με διαφορετικούς κανόνες. Για τις Σκανδιναβικές γλώσσες έχουμε επίσης παρουσιάσεις stemmer βασισμένων στους κανόνες το 2001 (Dalianis & Jongejan 2006). Οι παραπάνω stemmers και οι αλγόριθμοί τους μπορούν να βρεθούν στο διαδίκτυο στην ιστοσελίδα του "Tartarus" ( http://snowball.tartaurus.org) και ακολουθούν τη SNOBOL (προσανατολισμένη προς το StriNg γλώσσα symbolic), μια μικρή γλώσσα επεξεργασίας σειράς που σχεδιάζεται για τη δημιουργία των προερχόμενων αλγορίθμων για τη χρήση στην ανάκτηση πληροφοριών. Οι stemmers που δημιουργήθηκαν με τη SNOBOL ονομάστηκαν "Snowball". 2.2.3 Ελαφρύ-Stemming τεχνική (Light-Stemming Technique) Σήμερα υπάρχει αφθονία σε αλγόριθμους βασισμένους σε κανόνες και σε stemmers, που αναπτύχθηκαν για διάφορες γλώσσες. Τις περισσότερες φορές, για κάθε γλώσσα, ένας διαφορετικός αλγόριθμος χρησιμοποιείται για να φθάσει μία υψηλότερη ακρίβεια στα αποτελέσματα. Έτσι, τελευταία έχουμε τους ελαφρύς-stemmers, που αναφέρονται στη διαδικασία διαχωρισμού από ένα μικρό σύνολο προθεμάτων ή και επιθημάτων χωρίς προσπάθεια να εξεταστούν τα επιθήματα ή να αναγνωριστούν τα σχέδια και να βρεθούν οι ρίζες (Sughaiyer & Kharashi 2004). 2.2.4. Corpus-Based Technique Σύμφωνα με τον Porter (2001) οι αλγοριθμικοί και οι λεξικό-βασισμένοι stemmers δεν είναι σαφώς ευδιάκριτοι. 9

Ένας αλγοριθμικός stemmer χρησιμοποιεί καταλόγους λέξεων είτε για την αφαίρεση του επιθήματος, είτε για τον αποκλεισμό. Όσο πιο προηγμένος είναι ο αλγόριθμος τόσο μεγαλύτεροι είναι αυτοί οι κατάλογοι. Ακόμη ένας λεξικό-βασισμένος stemmer πρέπει να αφαιρέσει μερικά βασικά επιθήματα πριν αρχίσει η επεξεργασία αναζήτησης στο εκτεταμένο λεξικό. Προσπαθώντας να βελτιώσουμε την αποτελεσματικότητα αυτών των stemmers οδηγούμαστε στη βασισμένη στους κανόνες τεχνική. Αυτή η υβριδική προοπτική εφαρμόστηκε σε πολλούς stemming αλγορίθμους νωρίτερα, με καλύτερο αντιπρόσωπο το βασισμένο στο σώμα stemming αλγόριθμο του Xu και του Croft (1998). Η υπόθεση εκείνης της εργασίας είναι ότι οι μορφές των λέξεων που πρέπει να συγχωνευθούν θα εμφανιστούν στα έγγραφα από το σώμα. Αρχίζει με ένα σύνολο γενικών προκαταρκτικών κατηγοριών μίσχων που δημιουργούνται από ένα άλλο stemmer, ίσως του Porter ή κάποιου άλλου που συγχωνεύει όλες τις λέξεις που αρχίζουν από τα ίδια τρία γράμματα. Έπειτα κάνει ανάλυση των λέξεων στην προκαταρκτική κατηγορία για να βρεί εκείνες που δεν φαίνονται να ανήκουν μαζί. Το βασισμένο στο σώμα stemming βρέθηκε ότι παρέχει μία μέτρια βελτίωση σε σχέση με τους βασισμένους στους κανόνες stemmers που υπάρχουν. Όπως αναφέρουν στην έρευνά τους "η βασική ιδέα πίσω από αυτήν την εργασία είναι ότι μπορούμε να χρησιμοποιήσουμε την ανάλυση που αναφέρθηκε παραπάνω σε παραλλαγές μίας λέξης μέσα σε ένα ιδιαίτερο σώμα για να εξακριβώσουμε ποιες παραλλαγές ανήκουν μαζί και ποιες όχι, όταν κάποιος stemmer όπως του Porter δημιουργεί τις αρχικές κατηγορίες παραλλαγής (μίσχος) της λέξης". 2.2.5. Stemming στις μη-αγγλικές γλώσσες Για τις γλώσσες εκτός από τα αγγλικά, υπάρχουν stemmers με διαφορετικούς εφαρμοσμένους κανόνες για κάθε γλώσσα. Ένας διάσημος stemmer με υψηλό ποσοστό ακρίβειας και ανάκλησης είναι ο stemmer για τα Σλοβενικά (Popovic & Wilett 1992) ενώ ο Savoy (1993) εισήγαγε έναν άλλο stemmer για τη γαλλική γλώσσα. Για τις Σκανδιναβικές γλώσσες υπάρχει μια σύγκριση μεταξύ των stemmers του CST s (κέντρο για τη γλωσσική τεχνολογία) και του Euroling, που παρουσιάζει την εξέλιξη των stemming αλγορίθμων και την αυξανόμενη απαίτηση 10

στον τομέα ανάκτησης πληροφοριών (Information Retrieval field) (Dalianis & Jongejan 2006). Η οικοδόμηση ενός βασισμένου στους κανόνες stemmer για μια νέα, αυθαίρετη γλώσσα είναι η σπατάλη του χρόνου και απαιτεί ειδικούς με τη γλωσσική γνώση σε εκείνη την ιδιαίτερη γλώσσα (Rogati et Al 2003). Για ένα νέο stemmer στην αραβική γλώσσα υπάρχει χρήση μιας παράλληλης τεχνικής σωμάτων για να εφαρμοστούν οι γνωστοί αγγλικοί αλγόριθμοι. Ένα παράλληλο σώμα είναι μια συλλογή ζευγαριών πρότασης με το ίδιο νόημα αλλά σε διαφορετικές γλώσσες (Rogati 2003). Συνήθως, ολόκληρα έγγραφα μεταφράζονται από ανθρώπους, και τα ζευγάρια πρότασης ευθυγραμμίζονται στη συνέχεια με αυτόματα μέσα. Ένα μικρό παράλληλο σώμα μπορεί να είναι διαθέσιμο όταν δεν είναι οι φυσικοί ομιλητές και οι μεταφραστές, το οποίο κάνει την οικοδόμηση ενός stemmer από τέτοιο σώμα μια προτιμητέα κατεύθυνση. Μια επισκόπηση της παράλληλης μεθόδου σωμάτων, που χρησιμοποιείται για έναν αραβικό stemmer (Rogati et Al 2003), παρουσιάζεται στο παρακάτω σχήμα. Ένα παράλληλο-σώμα stemmer είναι γλωσσικά ανεξάρτητο και έχει επιτυχώς χρησιμοποιηθεί από άλλους ερευνητές ( Yarowsky 2000, Diab & Resnik 2002). UNSTEMMED ARABIC PARALLEL CORPUS ARABIC ENGLISH TRAINING ARABIC STEMMER ENGLISH STEMMER STEMMED ARABIC Σχήμα 1: Παράλληλο σώμα Stemmer 11

3. STEMMING ΣΤΗΝ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ 3.1. Ελληνικοί Stemmers Το 2001 οι Ταμπουρατζής και Καραγιάννης παρουσίασαν ένα σύστημα που εκτελεί μια αυτοματοποιημένη μορφολογική κατηγοριοποίηση των ελληνικών λέξεων που εξάγονται από ένα σώμα, για το ίδρυμα για την επεξεργασία γλώσσας και του λόγου (Institute for Language and Speech Processing (ILSP)) στην Ελλάδα. Ο στόχος του αυτοματοποιημένου μορφολογικού επεξεργαστή (Automated Morphological Processor (AMP)), του οποίου η δομή περιγράφεται στο σχήμα 2, είναι να εκτελέσει την κατάτμηση ενός δεδομένου συνόλου λέξεων στους μίσχους και τις καταλήξεις με έναν αυτοματοποιημένο τρόπο. Ο αλγόριθμος χρησιμοποιεί τη βασισμένη στους κανόνες επαναληπτικής προσέγγισης ταιριάζω-και-καλύπτω (rule-based iterative matching-and-masking approach), η οποία στηρίζεται στο ταίριασμα των μερών των διαφορετικών τύπων/προτύπων/δειγμάτων. Εδώ η stemming διαδικασία είναι βασισμένη σε ένα αρχικό σύνολο έγκυρων μίσχων και καταλήξεων. Υπάρχει επίσης μια υπόθεση ότι κάθε λέξη αποτελείται από δύο μέρη, το μίσχο και το τελείωμα, αποκλείοντας τις σύνθετες λέξεις. Ακόμα κι αν αυτό το σύστημα δεν είναι ένας καθαρά βασισμένος στους κανόνες stemmer, εκτελεί επιτυχώς το stemming για τις ελληνικές λέξεις, με ακρίβεια που είναι περίπου 95 τοις εκατό. Μπορεί να διακρίνει το τελείωμα και το μίσχο για μια δεδομένη λέξη και η απόδοσή του εξαρτάται από το πόσο πλούσιο σε όρους είναι το γλωσσικό σώμα για τους μίσχους και για τις καταλήξεις. Ωστόσο, οι λίγοι γραμματικοί κανόνες που ακολουθούν την ταιριάζω-και-καλύπτω διαδικασία δεν είναι αρκετοί για να θεωρηθούν ως ένας πλήρης stemming αλγόριθμος για την ελληνική γλώσσα. Το AMP δεν σταματά στην ταιριάζω-και-καλύπτω διαδικασία. Κατά τη διάρκεια της λειτουργίας του συνεχίζει με τη σύνθεση των stemming αποτελεσμάτων και μετά από τέσσερα βήματα επιστρέφει διάφορες πιθανές λύσεις. Για να επιλέξει μία που 12

αντιπροσωπεύει τη σωστή κατάτμηση, υιοθετείται ένα κριτήριο ταξινόμησης, χρησιμοποιώντας το υπάρχον λεξικό ILSP για λόγους σύγκρισης. Περισσότερες πληροφορίες για εκείνο το σύστημα και την αξιολόγησή του παρουσιάζονται στη σχετική ερευνητική εργασία (Ταμπουρατζής και Καραγιάννης 2001). CORPUS 1 PREPROCESSING STEPS CORPUS 2 STATSTICAL INITIALIZATION SET OF WORDS MATCHING & MASKING A FEW GRAMMATICAL RULES MORPHOLOGICAL VALIDATION & PROCESSING SYNTHESS RESULTS Σχήμα 2: Αυτοματοποιημένη μορφολογική επισκόπηση επεξεργαστών (amp) 3.2. Ένας αλγόριθμος γδυσίματος επιθήματος ( A suffix stripping algorithm ) Το 1995 μια ακόμη σημαντική αλλά περισσότερο απλή εργασία σχετική με το ελληνικό stemming πραγματοποιήθηκε από τους Καλαμπούκη και Νικολαίδη στο ερευνητικό κέντρο του πανεπιστημίου της Αθήνας στα Οικονομικά και την Επιχείρηση (Research Center of the Athens University of Economics and Business). Το 1995 13

δημοσίευτηκε ο πρώτος αλγόριθμος γδυσίματος επιθήματος για την ελληνική γλώσσα. Εκείνος ο αλγόριθμος σχεδιάστηκε για την ανάκτηση πληροφοριών από ελληνικά κείμενα και εξετάζει τις κάμψεις και τις παραγωγές της ελληνικής γλώσσας. Χρησιμοποιούν μία λίστα επιθημάτων και έχουν εφαρμόσει ένα επαναληπτικό αλγόριθμο επιθήματος με δύο επίπεδα. Το πρώτο αντιστοιχεί στην κλιτική ανάλυση, και στο δεύτερο επίπεδο τα παραγωγικά επιθήματα αφαιρούνται σύμφωνα με τη γραμματική τους κατηγορία. Έχουν διαμορφώσει τρεις διαφορετικούς πίνακες επιθημάτων που αντιστοιχούν στις τρεις κύριες γραμματικές κατηγορίες: ουσιαστικό, επίθετο και ρήμα. Τα επιθήματα ελέγχονται σύμφωνα με τη γραμματική κατηγορία τους και αφαιρούνται σύμφωνα με το συγκεκριμένο πίνακα επιθήματος σε δύο βήματα. Μία επισκόπηση εκείνου του συστήματος δίνεται στο ακόλουθο σχήμα. Σχήμα 3: "Επισκόπηση αλγορίθμου TZK" Ο «αλγόριθμος TZK», όπως αναφέρεται σε σχετικό χαρτί, αφαιρεί συνολικά εξήντα πέντε επιθήματα και στα δύο επίπεδα και όπως έχουν αναγνωρίσει «έχουν περιελάβει μόνο ένα μικρό σύνολο επιθημάτων επειδή έχουν φτάσει σε ένα στάδιο όπου η προσθήκη περισσότερων κανόνων, για να αυξηθεί η απόδοση σε μια περιοχή, προκαλεί μια υποβάθμιση της απόδοσης αλλού». Αυτός ο κύριος περιορισμός καθιστά τον αλγόριθμο περιορισμένο, δεδομένου ότι στην ελληνική γλώσσα υπάρχουν τουλάχιστον εκατόν εξήντα έξι διαφορετικά κλιτικά επιθήματα (Τριανταφυλλίδης 1941). Επιπλέον, ο αλγόριθμος λειτουργεί μόνο με τα ελληνικά κεφαλαία γράμματα προκειμένου να 14

εξεταστεί το διακριτικό σημάδι (τόνος-σημάδι) που τοποθετείται πάνω από ένα φωνήεν στα μικρά, περίπτωση που έχει επιπτώσεις στην έννοια και την ορθογραφία της λέξης. Ένα άλλο κρίσιμο μέρος του αλγορίθμου είναι ότι η παραγωγική αφαίρεση επιθήματος λειτουργεί σύμφωνα με τη γραμματική κατηγορία της λέξης. Και δεδομένου ότι δεν υπάρχει κανένα μορφολογικό εργαλείο ανάλυσης για τη δεδομένη λέξη, ο πίνακας επιθημάτων στο πρώτο επίπεδο αφαίρεσης δεν είναι αρκετός να διακρίνει εάν μια λέξη είναι ουσιαστικό, επίθετο ή ρήμα. Σύμφωνα με την πρώτη αξιολόγηση, το 1995, ο αλγόριθμος εξετάστηκε σε δύο συλλογές εγγράφων σε ιατρικό και πληροφορική, με 7.959 ευδιάκριτες λέξεις συνολικά. Τα λάθη των stemmed λέξεων ήταν περίπου 10 τοις εκατό με ικανοποιητική ακρίβεια και ανάκληση. Το 1999 οι ίδιοι ερευνητές έκαναν μία αποτίμηση των stemming αλγορίθμων με τα σύγχρονα ελληνικά χρησιμοποιώντας μια διαφορετική προσέγγιση. Τη χρησιμοποίηση του συστήματος SMART (διαχείριση και ανάκτηση αποθήκευσης) (Storage Management and Retrieval) που αναπτύχθηκε στο πανεπιστήμιο του Cornell(Cornell University). Έχουν προσθέσει μερικές νέες και τροποποιημένες υπάρχουσες διαδικασίες του SMART προκειμένου αυτές να μεταχειρίζονται ελληνικά κείμενα, συμπεριλαμβανομένου ενός καταλόγου "stopword" των συχνότερων ελληνικών λέξεων και εξέτασαν τρεις αλγορίθμους στο σύνολο: τον «αλγόριθμο TZK» (Καλαμπούκης και Νικολαίδης 1995), τον "infl_only" αλγόριθμο, ο οποίος αφαιρεί μόνο 19 κλιτικά επιθήματα (inflectional suffixes) και μια νέα τροποποιημένη έκδοση του αλγορίθμου TZK. Η αξιολόγηση αυτών των αλγορίθμων έδειξε ότι «το stemming είναι μια διαδικασία συγκέντρωσης που εξαρτάται από το σώμα και επομένως για να αποφύγουμε τη μη κατάλληλη συγχώνευση πρέπει να ενσωματώσουμε τις βασισμένες στο σώμα στατιστικές προκειμένου να συλληφθεί η έννοια των όρων». Αυτή η εκτεταμένη αξιολόγηση καθώς επίσης και πιο συγκεκριμένες στατιστικές δοκιμές παρουσιάστηκαν σε δημοσίευσή τους το 1999. 15

4. ΣΧΕΔΙΑΣΜΟΣ ΑΛΓΟΡΙΘΜΟΥ 4.1. Εισαγωγικά Κάθε φυσική γλώσσα έχει τα χαρακτηριστικά της γνωρίσματα. Έτσι, φαίνεται αρκετά δύσκολο να ακολουθηθεί το ίδιο stemming μοτίβο και να εφαρμοστούν οι ίδιοι stemming κανόνες για όλες τις γλώσσες, δημιουργώντας ένα γενικό βασισμένο στους κανόνες αλγόριθμο. Τα διαφορετικά προθέματα και επιθήματα, καθώς επίσης και οι μεμονωμένες εξαιρέσεις, χρειάζονται ειδικό χειρισμό και έναν προσεκτικό σχηματισμό ενός πλαισίου με συγκεκριμένους κανόνες, που να εφαρμόζεται στη μελετημένη γλώσσα. Όπως προαναφέρθηκε, υπάρχουν μερικές stemming μέθοδοι για τα ελληνικά κείμενα, που παρουσιάζονται από τα μέσα της δεκαετίας του '90. Αυτές οι μέθοδοι είναι μέρη της πιο εκτεταμένης εργασίας για τη μορφολογική ανάλυση και ανάκτηση πληροφοριών από διάφορα κείμενα και δεν μπορούν να θεωρηθούν ως βασισμένοι στους κανόνες stemmers ακόμα κι αν ο «αλγόριθμος TZK» είναι ένα σύνολο κανόνων. Σύμφωνα με την έρευνα για το Ελληνικό stemming, και οι (Καλαμπούκης και Νικολαΐδης 1995) και ο (Ταμπουρατζής 2001), συμφωνούν ότι οι συγκεκριμένοι γραμματικοί κανόνες μπορούν να βελτιώσουν την αποτελεσματικότητα στην ανάκτηση πληροφοριών από τα ελληνικά κείμενα. Η ανάπτυξη ενός ελληνικού stemmer με τους εκτεταμένους γραμματικούς κανόνες θα έρθει να λύσει το υπάρχον πρόβλημα του προηγούμενου περιορισμένου αλγορίθμου. 16

4.2. Στόχος Στόχος της εργασίας είναι η ανάπτυξη ενός αλγορίθμου stemming για την ελληνική γλώσσα, καθώς και μια εφαρμογή (GreekStemmer) στην οποία θα χρησιμοποιείται. Ο αλγόριθμος αναπτύχθηκε σε γλώσσα C++ και η εφαρμογή σε C++ MFC περιβάλλον του Visual Studio 2005. Ο GreekStemmer χρησιμοποιεί και εφαρμόζεται μόνο σε κείμενα με κωδικοποίηση γραμμάτων Unicode. 4.3. Σκοπός Σκοπός είναι να δημιουργηθεί ένας αποτελεσματικός stemmer για τα ελληνικά. Ένας ακριβής ελληνικός stemmer μπορεί να χρησιμοποιηθεί για διάφορους λόγους στην ανάκτηση πληροφοριών και τη μορφολογική ανάλυση. Το προηγμένο χαρακτηριστικό γνώρισμα της διαδικασίας stemming είναι ότι έχει αναβαθμίσει τα πρότυπα αναζήτησης για όλες τις γλώσσες που έχει αναπτυχθεί, μειώνοντας το μέγεθος του ευρετηρίου μιας μηχανής αναζήτησης, μέσω της ελαχιστοποίησης της «παραμόρφωσης» των λέξεων όπως αυτή προκύπτει από την χρήση σε έγγραφα, με βάσει την γραμματική της γλώσσας. Ο τελικός stemmer θα πρέπει να είναι σε θέση να παράξει την ετυμολογική ρίζα, οποιασδήποτε λέξης ανεξάρτητα από την κλίση, πτώση, γένος και χρόνο στον οποίο συναντάται. 4.4. Μεθοδολογία Ένα από τα κύρια χαρακτηριστικά της ελληνικής γλώσσας είναι η πολυμορφικότητα. Η ελληνική γλώσσα είναι πλούσια σε παράγωγες λέξεις. Αυτό σημαίνει ότι μπορούμε να έχουμε πολλές λέξεις που προέρχονται από τον ίδιο μίσχο. Καταρχάς, είναι αναμφισβήτητη η αναγκαιότητα για θεματοποίηση της ελληνικής γλώσσας. Η ελληνική γλώσσα όμως χαρακτηρίζεται από πλήθος λέξεων. Από όλες σίγουρα κάποιες είναι περιττό να συμπεριληφθούν σε αυτή τη διαδικασία, όπως αυτές που ανήκουν στην κατηγορία των άκλιτων λέξεων. Προφανώς λοιπόν, εμείς θα 17

ασχοληθούμε με όσες ανήκουν στην κατηγορία των κλιτών. Εντούτοις, από τα έξι μέρη του λόγου που είναι και κλιτά μέρη, το άρθρο και η αντωνυμία παρουσιάζουν μηδαμινό ενδιαφέρον τόσο για τη διαδικασία της θεματοποίησης, όσο και για την ανάκτηση πληροφοριών στην οποία θα μπορούσε να χρησιμοποιηθεί αυτή. Συνεπώς, η μελέτη επικεντρώνεται στα υπόλοιπα τέσσερα μέρη του λόγου. Μπορεί τα τέσσερα μέρη από τα δέκα να φαντάζουν λίγα, ωστόσο το κύριο χαρακτηριστικό της γλώσσας ( πολυμορφικότητα ) βρίσκει σε αυτά τα τέσσερα μέρη τα ιδανικότερα παραδείγματά του. Οι δύο αριθμοί ενικός και πληθυντικός, οι τέσσερις πτώσεις σε κάθε αριθμό των ονομάτων (ουσιαστικά, επίθετα, μετοχές), τα τρία πρόσωπα σε κάθε αριθμό των ρημάτων, οι οκτώ χρόνοι των ρημάτων, οι εγκλίσεις των ρημάτων, οι δύο συζυγίες είναι ένα δείγμα μόνο του τι θα επακολουθήσει. Η όλη διαδικασία έχει ως σκοπό την εξαγωγή της κατάληξης από τη λέξη με αποτέλεσμα να απομείνει το θέμα της. Η πολυμορφικότητα περιέχει την έννοια της παραγωγής. Έτσι οι παραγωγικές καταλήξεις αποτελούν αντικείμενο μελέτης για να μπορεί να θεωρηθεί σωστή η παραπάνω διαδικασία. Η λογική της όλης διαδικασίας βασίζεται στην εξαγωγή πρώτα της κλητικής κατάληξης, αποτέλεσμα του χαρακτηριστικού των κλιτών λέξεων να αλλάζουν μορφή από τον ένα αριθμό στον άλλο και από τη μία πτώση (για τα ρήματα ένα πρόσωπο) στην άλλη (στο άλλο), και στη συνέχεια της παραγωγική κατάληξης, αποτέλεσμα του χαρακτηριστικού της ελληνικής γλώσσας για παραγωγή των λέξεων από άλλες αρχικές ή ήδη παραγωγικές. Μελετώντας την ελληνική γραμματική, διαπιστώσαμε σίγουρα ότι οι καταλήξεις είναι αρκετές ώστε να πούμε με σιγουριά ότι τις έχουμε καλύψει όλες. Επιπρόσθετα να τονίσουμε και την ύπαρξη αρχαιόκλιτων καταλήξεων κληρονομιά που δυσκολεύει περισσότερο την όλη διαδικασία και συμβάλλει αρνητικά στα ποσοστά επιτυχίας της όλης διαδικασίας. 18

Με βάση τα παραπάνω, μία πρώτη προσέγγιση του θέματος θα μπορούσε να είναι η συλλογή όλων των δυνατών καταλήξεων μαζί με τις παραγωγικές. Αυτό σίγουρα θα είχε ως αποτέλεσμα πολύ περισσότερες διακριτές καταλήξεις στον τελικό μας πίνακα. Μια πρώτη προσπάθεια έγινε με το να ξεχωρίσουμε τις κλιτικές από τις παραγωγικές καταλήξεις, μελετώντας ένα-ένα τα μέρη του λόγου. 4.5. Περιορισμοί Καταρχήν ο αλγόριθμος αφαιρεί τα κλιτικά επιθήματα (κλητικές καταλήξεις) και την παραγωγική κατάληξη μιας λέξης. Τα προθέματα στα ελληνικά μπορούν να αλλάξουν την έννοια της λέξης ριζικά και μερικές φορές τη σημασιολογία. Για αυτόν τον λόγο δεν έχουμε εξετάσει την αφαίρεση προθέματος σε αυτήν την έρευνα. Εκτός από τα γενικά προθέματα, υπάρχουν και μερικές περιπτώσεις αλλομορφίας στην ελληνική γλώσσα. Τα ρήματα που αρχίζουν από σύμφωνο, παίρνουν το γράμμα "ε " ως πρόθεμα στους αορίστους χρόνους (Τριανταφυλλίδης 1941). Σε αυτούς τους χρόνους ο μίσχος αλλάζει το σχηματισμό και αυτό γιατί υπάρχουν δύο μίσχοι για κάθε ρήμα. Ο αλγόριθμος διακρίνει μεταξύ του "παρελθόντος" και του "παρόντος" μίσχου για τα ρήματα, δεδομένου ότι οι μίσχοι στους διαφορετικούς χρόνους είναι διαφορετικοί και δεν μπορούμε να μειώσουμε ένα ρήμα από έναν παρόν και έναν αόριστο χρόνο στον ίδιο μίσχο. Αυτή η συμφωνία δεν είναι λογική σύμφωνα με τον ακριβή ορισμό του stemming, παράλληλα όμως είναι ιδιαίτερα δύσκολο να εξετάσουμε το συγκεκριμένο γραμματικό φαινόμενο για την ελληνική γλώσσα. Επίσης, δεν εξετάζουμε το διακριτικό σημάδι (τόνος) που αλλάζει συχνά τη θέση του μέσα σε μια λέξη. Με τον τρόπο αυτό, βέβαια, μερικές λέξεις μπορούν να προφερθούν με διαφορετικούς τρόπους και με διαφορετικές έννοιες κάθε φορά. Τέτοιες λέξεις εντούτοις, είναι μόνο ένας πολύ μικρός αριθμός χωρίς να έχουν σοβαρή επιρροή στα αποτελέσματα. 19

Πριν τη διαδικασία stemming, οι λέξεις φιλτράρονται σύμφωνα με κάποιους περιορισμούς εγκυρότητας. Λέξεις που περιέχουν έστω και έναν μη ελληνικό χαρακτήρα δεν εξετάζονται. Επιπρόσθετα, σε αυτό το σημείο αφαιρείται ο τόνος και τα γράμματα μεταφράζονται(εάν είναι κεφαλαία) στα αντίστοιχα μικρά γράμματα της αλφαβήτου. Βέβαια, το ότι χρησιμοποιήσουμε μόνο τα μικρά γράμματα είναι καθαρά τυχαία επιλογή, ωστόσο θα πρέπει όλα να μεταφράζονται είτε μόνο σε κεφαλαία είτε μόνο σε μικρά. Με αυτόν τον τρόπο, αποφεύγουμε τη διατήρηση μεγαλύτερων καταλόγων καταλήξεων και εξαιρέσεων. Τους ίδιους κανόνες πρέπει να ακολουθούν και οι λίστες των καταλήξεων που χρησιμοποιούνται (χωρίς τόνο και με μικρά γράμματα). Επιπλέον, οι έγκυρες λέξεις φιλτράρονται σύμφωνα με ένα κατάλογο stopwords, έτσι ώστε να μην εξετάζονται λέξεις άκλιτες. Να σημειώσουμε σε αυτό το σημείο ότι στους κανόνες εγκυρότητας των λέξεων για τη διαδικασία αποκλείονται όσες λέξεις έχουν μέγεθος μικρότερο των δύο γραμμάτων, καθώς δεχόμαστε ότι με την αφαίρεση έστω και κατάληξης μεγέθους ενός γράμματος δεν καταλήγουμε σε ορθό μίσχο. Συνεπώς, είτε η λέξη είναι άκλιτη είτε αποτελεί εξαίρεση. Οι λέξεις στον κατάλογο των stopwords ακολουθούν τους ίδιους κανόνες με τον ίδιο τρόπο, όπως οι καταλήξεις, χωρίς τόνο και με μικρά γράμματα. 20

5. ΝΕΟΕΛΛΗΝΙΚΗ ΓΡΑΜΜΑΤΙΚΗ 5.1 Ιστορία των σύγχρονων ελληνικών Η γλώσσα που μιλούν σήμερα οι Έλληνες δεν ήταν πάντα η ίδια. Είναι βασισμένη στην αρχαία ελληνική γλώσσα που καθιερώθηκε στην Αθήνα τον 5ο αιώνα Π.Χ. Δεδομένου ότι η Αθήνα εξουσίαζε με το πολιτικό και πνευματικό αποκορύφωμά της, όλο και περισσότερες φυλές που ζούσαν στην Ελλάδα υιοθέτησαν την ίδια γλώσσα. Μέχρι την εποχή του Μέγα-Αλέξανδρου, η αρχαία ελληνική γλώσσα μιλήθηκε από τους ανθρώπους που ζούσαν στην Ελλάδα, την Περσία, τη Μέση Ανατολή και την Αίγυπτο. Κατά τη διάρκεια αυτής της ελληνιστικής περιόδου, πολλά μίγματα πραγματοποιήθηκαν, προσθέτοντας τα νέα στοιχεία στην ελληνική γλώσσα, ειδικά προφορική. Κατά τη διάρκεια της βυζαντινής αυτοκρατορίας, η ελληνική γλώσσα αλλάζει πάλι στη σύνταξη και το γραμματικό σχηματισμό προσπαθώντας να καταστήσει το γραπτό σχηματισμό απλό όπως τον προφορικό. Μετά από την οθωμανική κατοχή (1453), η ελληνική γλώσσα είναι σχεδόν μόνο προφορική και παραμένει προφορική για σχεδόν 400 έτη. Οι άνθρωποι χρησιμοποιούσαν ένα είδος διαλέκτου συνολικά διαφορετικό από τα κλασσικά ελληνικά και προφανώς επηρεασμένοι από τους Οθωμανούς. Μετά από την απελευθέρωση (1821) το ελληνικό έθνος χρειάζεται μια νέα επίσημη γλώσσα, πριν να ακολουθήσει την εξέλιξη της υπόλοιπης Ευρώπης. Στις αρχές του 19ου αιώνα, υπήρχαν δύο διαθέσεις στην Ελλάδα, οι κλασσικοί που θέλησαν να καθιερωθεί μια ελληνική γλώσσα παρόμοια με την αρχαία ελληνική και άλλους μελετητές που θέλησαν μια απλουστευμένη έκδοση της ελληνικής γλώσσας περισσότερο κοντά στην προφορική γλώσσα εκείνης της περιόδου. Μετά από μακροχρόνιο διάστημα διαφωνιών η Ελλάδα καθιερώνει ως επίσημη γλώσσα την καθαρεύουσα, που συστήθηκε από τον Αδαμάντιο Κοραή. Η καθαρεύουσα 21

είναι κάτι μεταξύ των αρχαίων και σύγχρονων ελληνικών και χρησιμοποιήθηκε ως επίσημη ελληνική γλώσσα μέχρι το 1976, ακόμα κι αν οι περισσότεροι από τους ανθρώπους χρησιμοποιούσαν τα σύγχρονα ελληνικά στις περισσότερες από τις περιπτώσεις. Για λόγους απλότητας, το ελληνικό Κοινοβούλιο δέχτηκε το 1976 τη νεοελληνική γλώσσα, που ονομάστηκε δημοτική, ως επίσημη γλώσσα της Ελλάδας, η οποία είναι και η παρούσα ελληνική γλώσσα. 5.2 Οι φθόγγοι και τα γράμματα της ελληνικής γλώσσας Τα γράμματα του ελληνικού αλφαβήτου είναι 24 και γράφονται από τα παλιά χρόνια με την ακόλουθη σειρά, που ονομάζεται αλφαβητική σειρά : [Κεφαλαίο - Μικρό (Όνομα)] Α - α (άλφα) Η - η (ήτα) Ν - ν (νι) Τ - τ (ταφ) Β - β(βήτα) Θ - θ (θήτα) Υ - υ (ύψιλον) Γ - γ (γάμα) Ι - ι (γιώτα ) Ο - ο (όμικρον) Φ - φ (φι) Δ - δ (δέλτα) Κ - κ (κάπα) Π - π (πι) Χ - χ (χι) Ε - ε (έψιλον) Λ - λ (λάμδα) Ρ - ρ (ρο) Ψ - Ψ (ψι) Ζ - ζ (ζήτα) Μ - μ (μι) Σ - σ (σίγμα) Ω - ω (ωμέγα) Σημείωση : Η ελληνική γλώσσα έχει και το γράμμα «ς», το οποίο λέγεται τελικό σίγμα και χρησιμοποιείται αντί για το σ (σίγμα), όταν είναι τελικό γράμμα σε μια λέξη. [ I ] JA-P 1- ^ Οι φθόγγοι στην ελληνική γλώσσα είναι είκοσι πέντε (25). Αυτοί οι φθόγγοι παριστάνονται με τα γράμματα της αλφαβήτου ως εξής : α, ε, ι, ου, β, γ, δ, ζ, θ, κ, λ, μ, ν, π, ρ, σ, τ, φ, χ, μπ, ντ, γκ, τσ, τζ. Παρατηρούμε ότι δεν υπάρχει λογική αντιστοιχία φθόγγων και γραμμάτων, γεγονός που οφείλεται στην πολυπλοκότητα της γλώσσας. Έτσι, μπορούμε να έχουμε περισσότερα από ένα γράμματα που παριστάνουν τον ίδιο φθόγγο ή και ένα φθόγγο που παριστάνεται με ένα ζευγάρι γραμμάτων (δύο γράμματα-δίψηφα). Οι φθόγγοι και τα γράμματα χωρίζονται σε φωνήεντα και σε σύμφωνα. 22

Τα φωνήεντα είναι επτά (7) και είναι τα γράμματα α, ε, η, ι, ο, υ, ω. Τα σύμφωνα είναι δέκα επτά (17) και είναι τα γράμματα β, γ, δ, ζ, θ, κ, λ, μ, ν, ξ, π, ρ, σ, (-ςχτ φ, & ψ. Δίψηφα φωνήεντα είναι τα ου, αι, ει, οι, υι καθώς και δίψηφα σύμφωνα είναι τα μπ, ντ και γκ. 5.3. Οι τύποι και ο σχηματισμός των λέξεων Οι λέξεις στην ελληνική γλώσσα χωρίζονται σε δέκα(10) είδη, που ονομάζονται μέρη του λόγου. Αυτά είναι το άρθρο, το ουσιαστικό, το επίθετο, η αντωνυμία, το ρήμα, η μετοχή, το επίρρημα, η πρόθεση, ο σύνδεσμος και το επιφώνημα. Τα μέρη του λόγου χωρίζονται σε κλιτά και άκλιτα. Από αυτά εμάς θα μας απασχολήσουν τα κλιτά μέρη και κυρίως θα ασχοληθούμε με τα ουσιαστικά, τα επίθετα, τα ρήματα και οι μετοχές, καθώς και οι άκλιτες μετοχές σε - οντας και -ώντας, διότι καθένα από αυτά παρουσιάζεται με διαφορετικές μορφές, σε αντίθεση με τα άκλιτα μέρη που παρουσιάζονται πάντα με την ίδια μορφή. Οι διάφορες μορφές που παίρνει μία κλιτή λέξη λέγονται τύποι αυτής της λέξης. Οι τύποι των κλιτών λέξεων είναι αυτοί που παρουσιάζουν μεγάλο ενδιαφέρον. Αυτοί σχηματίζονται από το θέμα και την κατάληξη και έχουν σαν αποτέλεσμα την εμφάνιση των κλιτών λέξεων σε ακόμη περισσότερες μορφές. Επιπρόσθετα, το γεγονός ότι οι περισσότερες λέξεις της ελληνικής γλώσσας βγήκαν από άλλες με παραγωγή ή σύνθεση αποτελεί σημαντικό παράγοντα στο σχηματισμό όλο και περισσότερων μορφών, με χρήση παραγωγικών καταλήξεων. Συνεπώς, τα αποτελέσματα του stemming λαμβάνοντας υπόψη μόνο τις κλιτικές καταλήξεις θα μπορούσαμε να πούμε ότι αποκλίνουν αρκετά από τα αναμενόμενα αποτελέσματα. Βέβαια, βασιζόμενοι στις παραγωγικές καταλήξεις κινδυνεύουμε να οδηγηθούμε σε overstemming, καθώς πολλές φορές η παραγωγή οδηγεί σε αλλαγή της έννοιας των λέξεων. Με αυτή τη λογική, η σύνθεση των λέξεων δεν θα μας απασχολήσει καθότι σε 23

όλες τις περιπτώσεις σύνθεσης οδηγούμαστε σε άλλη έννοια από αυτή που αρχικά είχαν οι δύο λέξεις πριν τη σύνθεση. Παρακάτω θα μελετηθούν οι τύποι των διάφορων κλιτών λέξεων. 5.4. Κλιτά μέρη του λόγου 5.4.1 Τα Ουσιαστικά Τα ουσιαστικά ανήκουν στα πτωτικά μέρη του λόγου. Οι τύποι που σχηματίζουν λέγονται πτώσεις. Οι πτώσεις είναι τέσσερις : η ονομαστική, η γενική, η αιτιατική, και η κλιτική. Εκτός από τις πτώσεις τα πτωτικά έχουν γένος, αριθμό και κλίση. Τα γένη των πτωτικών είναι τρία : αρσενικό, θηλυκό και ουδέτερο. Αρσενικά είναι όσα παίρνουν το άρθρο ο : ο διαβάτης, ο καλός. Θηλυκά είναι όσα παίρνουν το άρθρο η : η Ελλάδα. Ουδέτερα είναι όσα παίρνουν το άρθρο το : το άλογο. Τα πτωτικά έχουν δύο αριθμούς, τον ενικό και τον πληθυντικό. Ο πληθυντικός αριθμός χρησιμοποιείται όταν αναφερόμαστε σε πολλούς ενώ ο ενικός αριθμός χρησιμοποιείται όταν θέλουμε να αναφερθούμε σε ένα. Ο καθένας από αυτούς τους αριθμούς έχει τους δικούς του τύπους κατά την κλίση τόσο για αυτό που αναφέρεται στο ένα, όσο και για αυτό που αναφέρεται στα πολλά. Κλίση είναι ο ιδιαίτερος τρόπος με τον οποίο σχηματίζονται οι πτώσεις ενός πτωτικού. Στα ουσιαστικά έχουμε την κλίση των αρσενικών, την κλίση των θηλυκών και την κλίση των ουδετέρων. 24

του. Η πτώση, το γένος, ο αριθμός και η κλίση ενός πτωτικού αποτελούν τα παρεπόμενά 5.4.2 Τα Επίθετα Τα επίθετα μοιάζουν πολύ με τα ουσιαστικά. Τα επίθετα δεν υπάρχουν μόνα τους στο λόγο, πάντα πηγαίνουν με ένα ουσιαστικό. Έτσι παίρνουν το γένος του ουσιαστικού που προσδιορίζουν, γι αυτό έχουν τρία γένη, με ξεχωριστή κατάληξη για το κάθε γένος. Ανήκουν και αυτά στα πτωτικά μέρη του λόγου και έχουν τα ίδια παρεπόμενα. ( Τις πτώσεις, το γένος, τον αριθμό και την κλίση.) Στα επίθετα λοιπόν έχουμε την κλίση των επιθέτων. 5.4.3 Τα Ρήματα Μια πρόταση είτε στο γραπτό, είτε στο προφορικό λόγο περιλαμβάνει και ένα ρήμα. Το οποίο κάνει το λόγο μας να έχει πιο ακέραιο νόημα. Βέβαια σε κάθε πρόταση εκτός από το ρήμα υπάρχει και ένα ουσιαστικό ή άλλη λέξη με σημασία ουσιαστικού, που φανερώνει για ποιον γίνεται λόγος. Τα Παρεπόμενα του ρήματος είναι η διάθεση και η φωνή, η έγκλιση και ο χρόνος, ο αριθμός και το πρόσωπο τα οποία παρουσιάζονται πάντοτε στους τύπους που σχηματίζει ένα ρήμα. Όλα αυτά θα αναλυθούν στη συνέχεια. 5.4.3.Ι. Διαθέσεις και φωνές Τα ρήματα διακρίνονται σε τέσσερις διαθέσεις την ενεργητική, την παθητική, την μέση και την ουδέτερη. Τα ρήματα, όπως και τα άλλα κλιτά μέρη του λόγου, σχηματίζουν πολλούς τύπους. Οι τύποι των ρημάτων έχουν δύο ομάδες, οι οποίες λέγονται φωνές. Ακολουθούν την ενεργητική φωνή ρήματα με διάθεση ενεργητική, και την παθητική φωνή ρήματα με διάθεση παθητική ή μέση. 25

Τα ουδέτερα ρήματα άλλοτε ακολουθούν την ενεργητική φωνή και άλλοτε την παθητική. Υπάρχουν όμως και πολλά ρήματα τα οποία έχουν και τις δύο φωνές. Υπάρχουν όμως και ρήματα που σχηματίζουν μόνο τη μία φωνή 5.4.3.2. Εγκλίσεις Τα ρήματα έχουν τρεις εγκλίσεις την οριστική, την υποτακτική και την προστακτική. Οι τρεις αυτές εγκλίσεις έχουν ξεχωριστούς τύπους για τα διάφορα πρόσωπα κάθε αριθμού, και έτσι ονομάζονται προσωπικές εγκλίσεις. Στις εγκλίσεις συμπεριλαμβάνονται και το απαρέμφατο και η μετοχή. Στην παρούσα εργασία δεν θα ασχοληθούμε με το απαρέμφατο καθώς είναι άκλιτος τύπος του ρήματος. Η μετοχή σχηματίζεται κι αυτή και στις δύο φωνές. Στην ενεργητική από τον ενεστώτα (δένοντας, τιμώντας), και είναι άκλιτη. Στην παθητική από τον ενεστώτα ή τον παρακείμενο, και είναι κλιτή με τρία γένη (εργαζόμενος, - η, -ο, δεμένος, -η, -ο). Το απαρέμφατο και η μετοχή ονομάζονται απρόσωπες εγκλίσεις, επειδή δεν έχουν ξεχωριστούς τύπους για τα διάφορα πρόσωπα. 5.4.3.3. Χρόνοι του ρήματος Οι χρόνοι ενός ρήματος έχουν τρία είδη: α) παροντικοί, β) παρελθοντικοί και γ) μελλοντικοί. Η σημασία των χρόνων στην οριστική Α. Παροντικοί χρόνοι 26

Παροντικοί χρόνοι είναι ο ενεστώτας και ο παρακείμενος. Β. Παρελθοντικοί χρόνοι Παρελθοντικοί χρόνοι είναι ο παρατατικός, ο αόριστος και ο υπερσυντέλικος. Γ. Μελλοντικοί χρόνοι Μελλοντικοί χρόνοι είναι ο εξακολουθητικός μέλλοντας, ο στιγμιαίος μέλλοντας και ο συντελεσμένος μέλλοντας. Σύμφωνα με τα παραπάνω μπορούμε να κάνουμε άλλη μια διάκριση των χρόνων. Η διάκριση αυτή αναφέρεται στον τρόπο με τον οποίο παρουσιάζεται αυτό που σημαίνει το ρήμα, αν δηλαδή γίνεται: α) εξακολουθητικά: γράφω, έγραψα, θα γράφω, β) στιγμιαία. έγραψα, θα γράψω ή γ) αν έχει πια τελειώσει (συντελεστεί): έχω γράψει, είχα γράψει, θα έχω γράψει. Έτσι έχουμε χρόνους : α) εξακολουθητικούς: ενεστώτας, παρατατικός, εξακολουθητικός μέλλοντας β) στιγμιαίους: αόριστος, στιγμιαίος μέλλοντας και γ) συντελεσμένους: παρακείμενος, υπερσυντέλικος, συντελεσμένος μέλλοντας. Μονολεκτικοί και περιφραστικοί χρόνοι Από τους χρόνους του ρήματος άλλοι σχηματίζονται με μια μόνο λέξη και λέγονται μονολεκτικοί και άλλοι με δυο ή τρεις λέξεις και λέγονται περιφραστικοί. 1. Οι μονολεκτικοί χρόνοι είναι ο ενεστώτας, ο παρατατικός και ο αόριστος. 2. Οι περιφραστικοί χρόνοι είναι ο εξακολουθητικός μέλλοντας, ο στιγμιαίος μέλλοντας, ο παρακείμενος, ο υπερσυντέλικος και ο συντελεσμένος μέλλοντας. Ο σχηματισμός της υποτακτικής και της προστακτικής 27

1. Η υποτακτική έχει ενεστώτα, αόριστο και παρακείμενο. 2. Η προστακτική έχει ενεστώτα, αόριστο και πολύ σπάνια παρακείμενο. Στην παθητική φωνή έχει ξεχωριστούς τύπους, μονολεκτικούς, στον αόριστο, στον ενεστώτα είναι σπάνιοι οι μονολεκτικοί τύποι. Η προστακτική έχει μόνο δύο πρόσωπα, το δεύτερο και το τρίτο. Το τρίτο πρόσωπο δεν έχει ξεχωριστό τύπο και συμπληρώνεται από την υποτακτική. 5.4.3.4. Αριθμοί και πρόσωπα Οι αριθμοί ενός ρήματος, όπως και στο όνομα, είναι δύο: ο ενικός και ο πληθυντικός. Τα πρόσωπα της ομιλίας είναι τρία : α) το πρώτο πρόσωπο: (εγώ) για τον ενικό αριθμό και (εμείς) για τον πληθυντικό αριθμό, β) το δεύτερο πρόσωπο: (εσύ) για τον ενικό αριθμό και (εσείς) για τον πληθυντικό αριθμό, γ) το τρίτο πρόσωπο: (αυτός) για τον ενικό αριθμό και (αυτοί) για τον πληθυντικό αριθμό. Ο αριθμός και το πρόσωπο του ρήματος φανερώνονται από τις ξεχωριστές καταλήξεις που παίρνει το ρήμα. 5.4.3.5. Οι συζυγίες Τα ρήματα που κλίνονται κατά τον ίδιο τρόπο αποτελούν μια συζυγία. Οι συζυγίες χωρίζονται σε δύο κατηγορίες: στην πρώτη συζυγία και στην δεύτερη συζυγία. Στην πρώτη συζυγία ανήκουν τα ρήματα που τονίζονται στην παραλήγουσα στο πρώτο πρόσωπο της οριστικής του ενεργητικού ενεστώτα, και στη προπαραλήγουσα στο πρώτο πρόσωπο της οριστικής του παθητικού ενεστώτα. Τα ρήματα αυτά τελειώνουν σε -ω στην ενεργητική φωνή και σε -ομαι στην παθητική. Στην πρώτη συζυγία ανήκουν τα περισσότερα ρήματα. 28

Στην δεύτερη συζυγία ανήκουν τα ρήματα που τονίζονται στη λήγουσα στο πρώτο πρόσωπο της οριστικής του ενεργητικού ενεστώτα, και στην παραλήγουσα στο πρώτο πρόσωπο της οριστικής του παθητικού ενεστώτα. Τα ρήματα αυτά σε -ω στην ενεργητική φωνή και σε -ιέμαι ή -ούμαι στην παθητική. Τα ρήματα της δεύτερης συζυγίας διαιρούνται σε δύο τάξεις για κάθε φωνή, ανάλογα με τις καταλήξεις που παίρνουν στον ενικό του ενεστώτα της οριστικής. Έτσι έχουμε την πρώτη τάξη και την δεύτερη τάξη τόσο στην ενεργητική φωνή όσο και στην παθητική. 29

6. ΑΝΑΛΥΣΗ Αναλύσεις της γραμματικής που μας οδήγησαν στα επιθυμητά αποτελέσματα. Η ανάλυση περιλαμβάνει τρεις φάσεις. 6.1. Φάση 1 : Μελέτη Ουσιαστικών 6.1.1. Η κλίση των αρσενικών - Γενικές παρατηρήσεις στα αρσενικά Ένα από τα χαρακτηριστικά που έχουν τα αρσενικά είναι ότι τελειώνουν στην ονομαστική του ενικού σε -ς. Έπειτα τα αρσενικά σχηματίζουν τη γενική, αιτιατική και κλητική του ενικού, χωρίς το -ς της ονομαστικής. Ομοιότητα πτώσεων έχουν και στον πληθυντικό, στην ονομαστική, την αιτιατική και την κλητική. Τα αρσενικά ουσιαστικά τα οποία είναι ισοσύλλαβα σχηματίζουν την ονομαστική, αιτιατική και κλητική του πληθυντικού σε -ες. Τα ανισοσύλλαβα σχηματίζουν την ονομαστική, αιτιατική και κλητική του πληθυντικού σε -δες. Τους παραπάνω κανόνες δεν τους ακολουθούν όσα αρσενικά τελειώνουν σε -ος, όπως για παράδειγμα ο δρόμος, ο οποίος σχηματίζεται : Δρόμος -δρόμου, δρόμο, δρόμε. Δρόμοι, δρόμους, δρόμοι. Επίσης τα αρσενικά σε -ος σχηματίζουν την κλιτική του ενικού σε -ε. Τη σχηματίζουν σε -ο : α) Τα παροξύτονα βαπτιστικά, β) Μερικά κοινά παροξύτονα ουσιαστικά καθώς γέρο, διάκο. Εκτός από το καμαρότος και το καπετάνιος που έχουν 30

την κλητική σε -ο και σε -ε. γ) Μερικά οξύτονα χαϊδευτικά βαφτιστικά και δ) Μερικά οικογενειακά ονόματα παροξύτονα. Τέλος η γενική πληθυντική όλων των αρσενικών τελειώνει σε -ων. 6.1.2. Η κλίση των θηλυκών - Γενικές παρατηρήσεις στα θηλυκά Όλα τα θηλυκά σχηματίζουν την γενική του ενικού με την προσθήκη ενός -ς στην ονομαστική. Όλα τα θηλυκά έχουν σε κάθε αριθμό τρεις πτώσεις όμοιες, την ονομαστική, την αιτιατική και την κλιτική. Τους παραπάνω κανόνες δεν ακολουθούν τα αρχαιόκλιτα σε -ος. Όπως τα αρσενικά έτσι και τα θηλυκά σχηματίζουν την γενική του πληθυντικού σε - ων (όταν σχηματίζεται). Τα ισοσύλλαβα σχηματίζουν την ονομαστική, την αιτιατική και κλητική του πληθυντικού σε -ες. Τα ανισοσύλλαβα σχηματίζουν την ονομαστική, την αιτιατική και κλητική του πληθυντικού σε -δες. Επίσης δεν ακολουθούν τους παραπάνω γενικούς κανόνες τα αρχαιόκλιτα θηλυκά που τελειώνουν στην ονομαστική του ενικού σε -ος και σε -η. Όπως για παράδειγμα η διάμετρος, η δύναμη όπου σχηματίζονται ως εξής : Η διάμετρος - της διαμέτρου, η δύναμη - οι δυνάμεις. 6.1.3. Η κλίση των Ουδετέρων Γενικές παρατηρήσεις στα ουδέτερα Τα ουδέτερα διαιρούνται σε ισοσύλλαβα και σε ανισοσύλλαβα. Τα ισοσύλλαβα ουδέτερα τελειώνουν την ονομαστική του ενικού σε -ο, -ι, -ος. Όλα τα ουδέτερα σε -ι γράφονται με (γιώτα) ι. Γράφονται με (ύψιλον) υ τα : βράδυ, δόρυ, 31

δάκρυ, δίχτυ, οξύ και στάχυ. Το βράδυ στη γενική του ενικού και σε όλες τις πτώσεις του πληθυντικού γράφεται με (γιώτα) ι : βραδιού - βράδια. Τα ανισοσύλλαβα τελειώνουν την ονομαστική του ενικού σε -μα, -σιμο, -ας. Μερικά αφηρημένα σε -μα και το άρματα συνηθίζονται μόνο στον πληθυντικό : γεράματα, τρεχάματα, χαιρετίσματα. Όμοια με το ουδέτερο φως σχηματίζονται το καθεστώς και το γεγονός, με τη διαφορά πως αυτά στη γενική του ενικού τονίζονται στην παραλήγουσα : του καθεστώτος, του γεγονότος. Όλα τα ουδέτερα έχουν και στους δύο αριθμούς τρεις πτώσεις όμοιες, την ονομαστική, την αιτιατική και την κλιτική: το μέρος - τα μέρη, το κύμα - τα κύματα. Τα ανισοσύλλαβα ουδέτερα στη γενική του πληθυντικού τονίζονται όλα στην παραλήγουσα: κυμάτων, δεσιμάτων, κρεάτων, φώτων. Όπως τα αρσενικά, τα θηλυκά έτσι και τα ουδέτερα σχηματίζουν την γενική του πληθυντικού σε -ων. 6.1.4. Συνοπτικοί Πίνακες Κλητικών Καταλήξεων Ουσιαστικών ΑΡΣΕΝΙΚΑ ΘΗΛΥΚΑ -ας -άς -ος -ός -ηδες -ήδες -τής -α -ά -ου -ού -η δ ω ν -ή δ ω ν -τή -ες -ές -ο -ό -ά δ ες -ούδες -τές -ω ν -ώ ν -ε -έ -ά δ ω ν -ο ύ δ ω ν -τώ ν -ης -ής -οι -ο ί -έδες -η -ή -ους -ούς -έδ ω ν -α -ά -ος -ός -ούδες -ας -άς -οι -ο ί -ο ύ δ ω ν -ες -ές -ου -ού -ά δ ες -ω ν -ώ ν -ους -ούς -ά δ ω ν -η -ή -ο -ό -εω ς -ης -ής -εις -εω ν 32

ΟΥΔΕΤΕΡΑ -ο -ό -ος -ιώ ν -ατα -ου -ού -ους -σ ιμο -ά τω ν -α -ά -η σ ίματος -ω ς -ω ν -ώ ν -μα -σ ίμ α τα -τός -ι -ί -μ α το ς σ ιμ ά τω ν -ώ τα -ιού -μ α τα -ας -ώ τω ν -ια -ιά -μ ά τω ν -α το ς 6.1.5. Συνοπτικοί Πίνακες Παραγωγικών Καταλήξεων Ουσιαστικών ιστ ητ οπ ούλ ίδικ ιώτ ιάρ ότητ άτορ ούρ όπ ουλ ώ ν α ν τζ ύτητ τορ τήρ αράκ ιώ ν ιαν α ιν ουρ σιμ άκ ουδάκ ίτ αδικ ίν άδ ξιμ ίτσ ίδ αίτ ιν ισμ οσ ύ ν ψιμ ούδ ίσκ ιάτη έζ λο ίλ ιδ ούλ αρ ώτ άρ λογ αρι 6.2. Φάση 2 : Μελέτη Επιθέτων 6.2.1. Η κλίση των επιθέτων Γενικές παρατηρήσεις στα επίθετα Τα επίθετα κλίνονται κατά τρόπο παρόμοιο με τα ουσιαστικά. Τα επίθετα δεν υπάρχουν μόνα τους στο λόγο, πάντα πηγαίνουν με ένα ουσιαστικό. Έτσι, παίρνουν το γένος του ουσιαστικού που προσδιορίζουν, γι αυτό έχουν τρία γένη με ξεχωριστή κατάληξη για κάθε γένος. 6.2.2. Συνοπτικοί Πίνακες Κλητικών Καταλήξεων Επιθέτων -ος -ης -ής -ου -ού -η -ή -ύ I θ ' I C> -ιά I Ω> -ικα -ικ ω ν -ο -ό -ες -ές -ιο ί -ιές -ικο -ε -έ -α -ά -ιώ ν -ί -ικου -οι -ο ί -ας I Ω> -ιούς -ηδες -ω ν -ώ ν -ους -ούς -ιού -η δ ω ν 33

6.2.3. Σ υ ν ο π τ ικ ο ί Π ίνα κ ες Π α ρ α γω γικ ώ ν Κ α τα λή ξεω ν Ε π ιθ έτω ν τικ ιάτικ έ ν ω π τέ ερ ίστικ ιν ιδερ ά τ ικ ίσ ω τ ο υ λ ο ύ τσ ικ τήρ λ έ α κ ια ν ά τικ σιμ ο ύ λ ιακ Q. Ό ιάρ 6.3. Φάση 3 : Μελέτη Ρημάτων 6.3.1. Κλίση Ρημάτων Γενικές παρατηρήσεις στα ρήματα Στην παρούσα εργασία δεν θα ασχοληθούμε με το απαρέμφατο καθώς είναι άκλιτος τύπος του ρήματος. Η μετοχή μελετήθηκε μαζί με τα ρήματα καθότι προέρχεται από ρήμα. Σχηματίζεται κι αυτή και στις δύο φωνές. Στην ενεργητική από τον ενεστώτα (δένοντας, τιμώντας), και είναι άκλιτη. Στην παθητική από τον ενεστώτα ή τον παρακείμενο, και είναι κλιτή με τρία γένη (εργαζόμενος, - η, -ο, δεμένος, -η, -ο). Τα ρήματα που κλίνονται κατά τον ίδιο τρόπο αποτελούν μια συζυγία. Οι συζυγίες χωρίζονται σε δύο κατηγορίες: στην πρώτη συζυγία και στην δεύτερη συζυγία. Στην πρώτη συζυγία ανήκουν τα ρήματα που τελειώνουν σε -ω στην ενεργητική φωνή και σε -ομαι στην παθητική. Στην πρώτη συζυγία ανήκουν τα περισσότερα ρήματα. Στην δεύτερη συζυγία ανήκουν τα ρήματα που τελειώνουν σε -ω στην ενεργητική φωνή και σε -ιέμαι ή -ούμαι στην παθητική. Τα ρήματα της δεύτερης συζυγίας διαιρούνται σε δύο τάξεις για κάθε φωνή, ανάλογα με τις καταλήξεις που παίρνουν στον ενικό του ενεστώτα της οριστικής. Έτσι έχουμε την πρώτη τάξη και την δεύτερη τάξη τόσο στην ενεργητική φωνή όσο και στην παθητική. 34

6.3.2. Σ υ ν ο π τ ικ ο ί Π ίν α κ ες Κ λη τικ ώ ν Κ α τα λή ξεω ν Ρ η μ ά τω ν Α' ΣΥΖΥΓΙΑ Ε Ν Ε Ρ ΓΗ Τ ΙΚ Η -ω -τε -ε -εις -οντα ς -α μ ε -ει -ο υ ν -α τε -ο υ μ ε,-ο μ ε -α -α ν -ετε -ες Π Α Θ Η Τ ΙΚ Η -ομαι -ήκα μ ε -ώ -εσαι -ήκα τε -είς -εται -η κα ν -εί -όμαστε -ό μ ο υ ν -ούμε -εσ τε -ό σ ο υ ν -είτε -ονται -ό τα ν -ο ύ ν -ηκα -ου -ό σ α σ τε -ηκες -ηκε -ο ν τα ν -μ ένος Β' ΣΥΖΥΓΙΑ - 1η ΤΑΞΗ Ε Ν Ε Ρ ΓΗ Τ ΙΚ Η -ώ -ήσ ω -ήσ α μ ε -άς -ήσ εις -ήσ α τε -ά/-άει -ήσ ει -η σ α ν -ούμε/- ά με -ή σ ο υ μ ε/-ή σ ο μ ε -ούσ α -άτε -ήσ ετε -ούσ ες -ούν/- άν(ε) -ή σ ο υ ν -ούσ ε -ησ α -ώ ντα ς ο ύσαμε -ησ ες -α ούσατε -ησ ε -ήσ τε -ο ύ σ α ν 35

Π Α Θ Η Τ ΙΚ Η -ιέμαι -ηθώ -ήθ ηκα -ιέσ αι -ηθείς -ήθ ηκες -ιέται -ηθ εί -ήθ ηκε ιόμαστε -ηθούμε η θήκαμε -ιέσ τε -ηθ είτε ηθήκατε -ιούνται -η θ ο ύ ν -ή θ η κα ν -ιό τα ν -ιό σ α σ τε -ιό μ ο υ ν -ήσ ου -ιό ντα ν/-ιο ύ ντα ν -ιό σ ο υ ν Β' ΣΥΖΥΓΙΑ - 2η ΤΑΞΗ Ε Ν Ε Ρ ΓΗ Τ ΙΚ Η -ώ -ώ ντα ς -ο ύ ν -είς -ούμ ε -εί -είτε Π Α Θ Η Τ ΙΚ Η -ούμαι/-ά μ α ι -ό μ ο υ ν -άσαι -ό σ ο υ ν -άται -ό τα ν -ο ύ μ α σ τε -όμαστε -ά σ τε -ό σ α σ τε -ούντα ι -ό ντα ν/-ο ύ ντα ν 6.3.3. Συνοπτικοί Πίνακες Παραγωγικών Καταλήξεων Ρημάτων άζ ιάζ ίζ εύ ώ ν α ίν ζ 6.4. Επιπλέον Κανόνες σχεδιασμού αλγορίθμου Μετά από εξέταση της ελληνικής γραμματικής, καταλήγουμε σε τρεις καταλόγους με διαφορετικά επιθήματα για τους τρεις κύριους κλιτικούς τύπους λέξης: ουσιαστικό, επίθετο και ρήμα. Η κύρια ιδέα είναι να φιλτραριστεί η λέξη μέσω ενός καταλόγου επιθημάτων που περιέχει όλες τις πιθανές καταλήξεις. Αυτός ο κατάλογος μπορεί εύκολα να δημιουργηθεί μετά από μια προσεκτική μελέτη της ελληνικής γραμματικής. 36

Το πρόβλημα σε αυτό το σημείο εμφανίζεται όταν μερικά από τα επιθήματα σε αυτόν τον κατάλογο μπορούν να έχουν επιπτώσεις στις λέξεις με έναν λανθασμένο τρόπο, αφαιρώντας ένα λανθασμένο μέρος της λέξης ως επίθημα. Παραδείγματος χάριν θέλουμε να αφαιρέσουμε τα επιθήματα "α" και "αδες " για τις λέξεις "μαμ-α" και "μαμ-αδες", έτσι θα έχουμε τον ίδιο μίσχο "μαμ" και σε περιπτώσεις πληθυντικού και ενικού αριθμού. Εφαρμόζοντας τον ίδιο γενικό κανόνα για ένα άλλο σύνολο λέξεων "ομαδ-α" και "ομαδες", μειώνουμε αυτές τις λέξεις στους διαφορετικούς μίσχους, ενώ ο αλγόριθμος θα μειώσει τη λέξη αριθμού πληθυντικού στο μίσχο "ομ" και όχι "ομαδ". Τέτοιου είδους προβλήματα αντιμετωπίστηκαν σε αρκετές περιπτώσεις με μικρές αλλαγές στις καταλήξεις ή με κανόνες. Επίσης, υπήρχαν περιπτώσεις που προτιμήθηκε να εξαιρεθούν κάποιες καταλήξεις καθώς επηρέαζαν με λανθασμένο τρόπο περισσότερες λέξεις από όσες επηρέαζαν σωστά. 6.5. Εξαιρέσεις Αναμφισβήτητα, ακόμα και αν υπήρχε χρόνος για διεξοδική μελέτη όλων των καταλήξεων της ελληνικής γλώσσας και όλων των περιπτώσεων παραγωγής, θα φάνταζε ουτοπία η περίπτωση όπου θα είχαμε ένα ικανοποιητικό stemmer που θα κάλυπτε όλες τις περιπτώσεις εξαιρέσεων. Για το λόγο αυτό όσες εξαιρέσεις είναι αδύνατο να αποτελέσουν κανόνα, αντιμετωπίστηκαν με τη βοήθεια ενός αρχείου εξαιρέσεων. Έτσι, πριν την διαδικασία stemming ελέγχεται πρώτα η περίπτωση κατά την οποία η λέξη αποτελεί ειδική εξαίρεση. 37