ΔΙΕΠΙΣΤΗΜΟΝΙΚΟ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΤΕΧΝΟΓΛΩΣΣΙΑ VIII» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάπτυξη Πολυεπίπεδου Λεξικού XLE

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΔΙΕΠΙΣΤΗΜΟΝΙΚΟ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΤΕΧΝΟΓΛΩΣΣΙΑ VIII» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάπτυξη Πολυεπίπεδου Λεξικού XLE"

Transcript

1 ΔΙΕΠΙΣΤΗΜΟΝΙΚΟ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΤΕΧΝΟΓΛΩΣΣΙΑ VIII» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάπτυξη Πολυεπίπεδου Λεξικού XLE Κεραμιτζή Χαρίκλεια Επιβλέπουσα: Δρ. Στέλλα Μαρκαντωνάτου Ινστιτούτο Επεξεργασίας Λόγου (ΙΕΛ) / Ερευνητικό Κέντρο «Αθηνά» Συνεπιβλέποντες: Γιάννης Μαΐστρος ΕΜΠ Χάρης Παπαγεωργίου ΙΕΛ ΑΘΗΝΑ ΙΟΥΝΙΟΣ 2016

2 2

3 Ευχαριστίες Για την υλοποίηση της παρούσας διπλωματικής εργασίας θα ήθελα να ευχαριστήσω μία σειρά ανθρώπων, οι οποίοι συνέβαλαν με τον ένα ή τον άλλο τρόπο. Αρχικά, την κύρια επιβλέπουσα της εργασίας, κα Στέλλα Μαρκαντωνάτου, για τη μέγιστη κατανόηση και υπομονή που επέδειξε στο διάστημα εκπόνησης της εργασίας αυτής. Η συμβολή της και τα εποικοδομητικά σχόλια ήταν καθοριστικά και αποτέλεσαν πηγή έμπνευσης σε αυτό το εγχείρημα. Επίσης, τον Παναγιώτη Μίνο, φοιτητή της Τεχνογλωσσίας VI, ο οποίος επέβλεπε το προγραμματιστικό κομμάτι. Η αμέριστη βοήθεια και οι συμβουλές του οδήγησαν στην επιτυχή ολοκλήρωση και δημιουργία ενός άρτιου λογισμικού. Επιπλέον, να ευχαριστήσω θερμά τους δύο συνεπιβλέποντες και καθηγητές μου, Γιάννη Μαΐστρο και Χάρη Παπαγεωργίου. Τέλος, δε θα ήθελα να παραλείψω την οικογένειά μου και τους συμφοιτητές μου, χάρη στους οποίους τα όνειρά μου είναι μεγάλα. 3

4 Περιεχόμενα Ευρετήριο Εικόνων...6 Ευρετήριο Πινάκων...8 Περίληψη Εισαγωγή Επεξεργασία Φυσικής Γλώσσας Γλωσσική Τεχνολογία Υπολογιστική Γλωσσολογία Σύνδεση Υπολογιστικής Γλωσσολογίας Γλωσσικής Τεχνολογίας Ανάλυση Γλωσσικού Συστήματος Επισημείωση Λέξεων Η χρήση επισημειωτή Τα Μέρη του Λόγου Τα κλιτά μέρη του λόγου Τα άκλιτα μέρη του λόγου Μορφολογική επεξεργασία της Ελληνικής Γλώσσας Λεξιφάνης Ωκύλημμα Κειμενοποιητής Ellogon Ο μορφολογικός αναλυτής του Ίωνα Ανδρουτσόπουλου Ο μορφολογικός αναλυτής του ΙΕΛ Η μονάδα τεμαχισμού Ο επισημειωτής Ο λημματοποιητής Η διαδικτυακή υπηρεσία Το πρότυπο PAROLE Το ParGram Project και οι στόχοι του Οι εφαρμογές, οι δυνατότητες και η πορεία του ParGram Οι συμβάσεις του ParGram Project Η πλατφόρμα XLE (Xerox Linguistic Environment) Ανάπτυξη γραμματικής στο XLE Το αρχείο γραμματικής Το αρχείο λεξικού

5 4.5 Αποτελέσματα συντακτικής ανάλυσης Η Λεξική Λειτουργική Γραμματική (LFG) Αρχή της Λεξικής Ακεραιότητας (Lexical Integrity Principle) Λεξικαλιστική Θεωρία Το Λεξικό (Lexicon) Η λεξικαλιστική προσέγγιση Σύντομη ιστορία Λεξικαλισμός Ο λεξικαλισμός σήμερα Συμπεράσματα Δομές αναπαράστασης της LFG Συστατική δομή Λειτουργική δομή Σχέση συστατικής και λειτουργικής δομής Γραμματικές συναρτήσεις Κυβερνώμενες γραμματικές συναρτήσεις Μη κυβερνώμενες γραμματικές συναρτήσεις Γραμματικές συναρτήσεις ομιλίας Αξιώματα της LFG Αρχή της Μοναδικότητας Αρχή της Πληρότητας Αρχή της Συνεκτικότητας Το μορφολογικό λεξικό για την ελληνική γραμματική LFG/XLE Η γλώσσα προγραμματισμού JAVA Το περιβάλλον NetBeans Ο μορφολογικός αναλυτής Εγχειρίδιο χρήστη Υλοποίηση Αξιολόγηση Μελλοντικές προεκτάσεις Βιβλιογραφία Παραρτήματα Παράρτημα 1: IEL tagset Παράρτημα 2: Parole tagset Παράρτημα 3: Το tagset του μορφολογικού αναλυτή μας

6 Ευρετήριο Εικόνων Εικόνα 1: Σύνδεση Υπολογιστικής Γλωσσολογίες με συναφή αντικείμενα Εικόνα 2: Παράδειγμα επισημείωσης Εικόνα 3: Παράδειγμα επισημείωσης ομώνυμων λέξεων Εικόνα 4: Παγκόσμιο tagset μερών του λόγου Εικόνα 5: Ρήμα Περίπτωση Εικόνα 6: Ρήμα Περίπτωση Εικόνα 7: Ρήμα Περίπτωση Εικόνα 8: Ρήμα Περίπτωση Εικόνα 9: Παράδειγμα κανόνων συμφραζομένων Εικόνα 10: ILSP NLP Web Services Εικόνα 11: Ο μορφολογικός αναλυτής (tagger) του ΙΕΛ Εικόνα 12: Μορφές εισόδου Εικόνα 13: Μορφές εξόδου Εικόνα 14: Αρχείο εξόδου Εικόνα 15: Οι ανά τον κόσμο συμμετέχοντες φορείς στο ParGram Project Εικόνα 16: Αρχείο XLE γραμματικής Εικόνα 17: Αρχικοί τύποι κανόνων στο Λεξικό Εικόνα 18: Επικοινωνία Μορφολογίας Συντακτικού Εικόνα 19: Μορφολογία - Φωνολογία - Συντακτικό Εικόνα 20: Η μορφολογία ως ξεχωριστό επίπεδο Εικόνα 21: Επικοινωνία μορφολογίας - συντακτικού Εικόνα 22: Αρχιτεκτονική παράλληλης προβολής LFG Εικόνα 23: Η σ-δομή στην LFG Εικόνα 24: Η λ-δομή στην LFG Εικόνα 25: Η σχέση μεταξύ συντακτικών δέντρων και λ-δομών (Wescoat 1985: 9) Εικόνα 26: Παραβίαση της αρχής της Μοναδικότητας Εικόνα 27: Παραβίαση της αρχής της Πληρότητας Εικόνα 28: Παράδειγμα μη συνεκτικής δομής Εικόνα 29: Παράδειγμα συνεκτικής δομής Εικόνα 30: Διάγραμμα ροής του λογισμικού Εικόνα 31: Κείμενο προς μορφολογική ανάλυση Εικόνα 32: Σύνολο παραχθέντων αρχείων Εικόνα 33: Το αρχείο example.xml Εικόνα 34: Το αρχείο example.tsv Εικόνα 35: Το αρχείο example.lfg Εικόνα 36: Γενικό Διάγραμμα Λειτουργίας του Λογισμικού Εικόνα 37: Η Δομή Δεδομένων Lexico Εικόνα 38: Η κλάση της Δομής Δεδομένων Lexico Εικόνα 39: Η κλάση main Εικόνα 40: H βοηθητική Δομή Δεδομένων libiel Εικόνα 41: Η κλάση createxml Εικόνα 42: Η κλάση tag Εικόνα 43: Η κλάση parsexml Εικόνα 44: Η κλάση XcesSaxParser Εικόνα 45: Η κλάση createtsv

7 Εικόνα 46: Η κλάση IELtoLFG Εικόνα 47: Μετατροπή των ΙΕΛ χαρακτηριστικών σε LFG Εικόνα 48: Οργανώνοντας τη Δομή Δεδομένων μας Εικόνα 49: Τελική μορφοποίηση και δημιουργία του LFG/XLE tag

8 Ευρετήριο Πινάκων Πίνακας 1: Αντιστοίχιση word-tag στην NLTK Πίνακας 2: Αντιστοίχιση word-tag σε πρόταση ομώνυμων λέξεων Πίνακας 3: Γλώσσες που διαθέτουν γραμματικές LFG στην XLE πλατφόρμα και το εύρος τους Πίνακας 4: Κοινά μοτίβα που ακολουθούν γραμματικές του ParGram Project

9 Περίληψη Η παρούσα διπλωματική εργασία ασχολείται με την ανάπτυξη ενός μορφολογικού αναλυτή, ο οποίος παράγει το αντίστοιχο λεξικό για την ελληνική γραμματική LFG/XLE. Για το σκοπό αυτό, πραγματοποιείται η σύνδεση του μορφολογικού αναλυτή του ΙΕΛ με την πλατφόρμα ανάπτυξης γραμματικών συντακτικής ανάλυσης XLE για την ελληνική γλώσσα. Το λεξικό που παράγεται, παρέχει μορφολογική πληροφορία. Είναι χωρισμένο σύμφωνα με τα μέρη του λόγου στην Ελληνική Γλώσσα και ταξινομημένο αλφαβητικά. Για την ανάπτυξη του μορφολογικού αναλυτή, χρειάστηκε η κατανόηση της λειτουργίας του FBT Tagger του ΙΕΛ, καθώς και η μελέτη των tagset που έχουν δοθεί από αντίστοιχους αναλυτές, με σκοπό την απόδοση ενός ολοκληρωμένου συνόλου χαρακτηριστικών. ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ), Λεξικό, Μορφολογικός Αναλυτής, Επισημειωτής (Tagger), Λεξική Λειτουργική Γραμματική (LFG), Πλατφόρμα XLE, Tagset 9

10 1. Εισαγωγή Η εξέλιξη της Επιστήμης και της Τεχνολογίας των Υπολογιστών αποτέλεσε έναυσμα για το σχεδιασμό τεχνητών γλωσσών επικοινωνίας ανθρώπου-μηχανής. Οι γλώσσες αυτές αναφέρονται ως γλώσσες προγραμματισμού ή τυπικές γλώσσες. Στις μέρες μας, η έρευνα εστιάζει στη χρήση της φυσικής γλώσσας ως μέσο επικοινωνίας του ανθρώπου με τη μηχανή. Σημαντικό κίνητρο αποτελεί η βελτιστοποίηση της ανθρώπινης επικοινωνίας σε εθνικό και διεθνές επίπεδο, σε μια κοινωνία που εισάγει ολοένα και περισσότερο τους υπολογιστές και τη γνώση στην παραγωγική διαδικασία. Παραδοσιακά, η Επεξεργασία της Φυσικής Γλώσσας ανήκε στο πεδίο της Επιστήμης της Πληροφορίας, ενώ αργότερα επεκτάθηκε στο πεδίο της Τεχνητής Νοημοσύνης. Έπειτα, επεκτάθηκε στο διεπιστημονικό πεδίο της Υπολογιστικής Γλωσσολογίας, αξιοποιώντας τη γλωσσολογική θεωρία και γνώση της Επεξεργασίας της Φυσικής Γλώσσας. Οι σύγχρονες απαιτήσεις για την αποδοτικότερη και πιο αξιόπιστη επικοινωνία ανθρώπουμηχανής απαιτούν σημαντική επεξεργασία των στοιχείων της γλώσσας κατά την εισαγωγή τους στο σύστημα και την εξαγωγή των παραγόμενων από αυτό. Έτσι, απαιτούνται σύνθετα υπολογιστικά εργαλεία για το χειρισμό της φυσικής γλώσσας. Συστήματα Επεξεργασίας Φυσικής Γλώσσας σχεδιάζονται προς εξυπηρέτηση της μελέτης των φυσικών γλωσσών από τους ερευνητές γλωσσολόγους και ακολουθούνται ποικίλοι φορμαλισμοί, ανάλογα με την εκάστοτε εφαρμόσιμη θεωρία. Σε κάθε τέτοιο σύστημα, απαραίτητη είναι και η συντακτική ανάλυση. Παράλληλα, η ανάπτυξη λεξικών με αυτόματο τρόπο έχει ευρύτατη εφαρμογή σε πολλά υπολογιστικά περιβάλλοντα και απαιτεί γλωσσολογική γνώση σε επίπεδο μορφολογίας και σύνταξης. Η λημματογράφηση, επιπλέον, ενός κειμένου αποτελεί βασική επεξεργασία στο λεξικογραφικό περιβάλλον. Φυσικές γλώσσες όπως η αγγλική, γερμανική, γαλλική, ιαπωνική ρωσική έχουν παράδοση στην υπολογιστική επεξεργασία. Αν και η ελληνική γλώσσα υστερεί σε αυτό τον τομέα λόγω των ιδιαιτεροτήτων της σε σχέση με τις παραπάνω φυσικές γλώσσες (διαφορετικό αλφάβητο και μορφολογία, μικρότερη διάδοση), έχουν γίνει κάποια πρώτα επιτυχημένα βήματα στη δημιουργία υποδομής. Έτσι, είναι εφικτές λεξικογραφικές εργασίες, μορφολογική ανάλυση, σημασιο-συντακτική επεξεργασία, εύρεση συμφραζομένων, κανονικοποίηση κειμένου, ολιστικό σύστημα παράστασης γλωσσολογικής γνώσης κ.ά. Όσον αφορά τη μορφολογική επεξεργασία της ελληνικής γλώσσας, έχουν εκπονηθεί αρκετές εργασίες και έχουν αντίστοιχα αναπτυχθεί αρκετοί μορφολογικοί επισημειωτές. Το ίδιο έχει απασχολήσει και την παρούσα εργασία. Απαραίτητη προϋπόθεση για να φτάσουμε στην ανάπτυξή του, όμως, ήταν η μελέτη και κατανόηση των πεδίων που σχετίζονται με τη μορφολογική ανάλυση και την επισημείωση, τα οποία παρουσιάζονται αναλυτικά στα επόμενα κεφάλαια. 10

11 2. Επεξεργασία Φυσικής Γλώσσας Με την πάροδο των ετών, παρατηρήθηκε μια αξιοσημείωτη εξέλιξη στο διεπιστημονικό πεδίο της Επεξεργασίας της Φυσικής Γλώσσας (Natural Language Processing-NLP) και πλέον έχουν αναπτυχθεί εφαρμογές τέτοιες ώστε να εξυπηρετείται και να διευκολύνεται η επικοινωνία ανθρώπου μηχανής μέσω της φυσικής γλώσσας. Παράλληλα με την Επεξεργασία Φυσικής Γλώσσας (NLP), ιδιαίτερη σημασία κατέχουν και οι επιστήμες της Γλωσσικής Τεχνολογίας (Human Language Technology-HLT) και της Υπολογιστικής Τεχνολογίας (Computation Linguistics-CL). Ας δούμε, λοιπόν, καθεμία από αυτές τις επιστήμες, αλλά και το πώς αυτές συνδέονται μεταξύ τους. 2.1 Γλωσσική Τεχνολογία Συστήματα πληροφορικής και επικοινωνιακής τεχνολογίας χρησιμοποιούν υπολογιστικές εφαρμογές, των οποίων οι γλωσσικές δυνατότητες είναι αποτέλεσμα των ερευνητικών και αναπτυξιακών δραστηριοτήτων που συναπαρτίζουν την επιστήμη της Γλωσσικής Τεχνολογίας. Η Γλωσσική Τεχνολογία εντοπίζεται σε οικείες, καθημερινές χρήσεις όπως ο ορθογραφικός διορθωτής επεξεργαστή κειμένων. Αποτελεί, όμως, και αναπόσπαστο κομμάτι πολύπλοκων δικτύων όπως οι μηχανές αυτόματης ανάγνωσης ταχυδρομικών διευθύνσεων. Από τη μηχανική μετάφραση έως την αναγνώριση φωνής, σκοπός της Γλωσσικής Τεχνολογίας είναι να παρέχει τη δυνατότητα φυσικής, αποτελεσματικής και ευρύτερης επικοινωνίας τόσο μεταξύ των ανθρώπων όσο και μεταξύ ανθρώπων και υπολογιστών. Η Γλωσσική Τεχνολογία παρέχει τη δυνατότητα να χρησιμοποιήσουμε την γνώση που κατέχουμε σχετικά με τη γλώσσα για την ανάπτυξη συστημάτων, τα οποία αναγνωρίζουν γραφή και ομιλία, κατανοούν κείμενα αρκετά καλά ώστε να μπορούν να επιλέγουν πληροφορίες, να μεταφράζουν από μία γλώσσα σε άλλες και να συνθέτουν ομιλία και κείμενα. 2.3 Υπολογιστική Γλωσσολογία Η Υπολογιστική Γλωσσολογία 1 έχει ως κύρια πεδία αναφοράς την Επιστήμη των Υπολογιστών, τα Μαθηματικά και τη Γλωσσολογία. Χρησιμοποιεί αναπαραστάσεις της γλωσσικής γνώσης, τις οποίες διαχειρίζεται με ένα μικρό αριθμό αλγορίθμων. Βρίσκει εξαιρετικές εφαρμογές, αποτελώντας κεντρικό άξονα μελλοντικών εφαρμογών στηριζόμενες στην έννοια του ρομπότ. Στην καθημερινότητα μπορεί κανείς να εντοπίσει ενέργειες, των οποίων η Υπολογιστική Γλωσσολογία αποτελεί καθοριστικό παράγοντα. Ακολουθούν μερικά χαρακτηριστικά παραδείγματα: 1 Kyriakopoulou, T., Markantonatou, S., Symeonidis, A. & Tantos, A Το παρόν και το μέλλον της Υπολογιστικής Γλωσσολογίας. Text book in Computational Linguistics. ( 11

12 1. Αναζήτηση στο Google: Η αναζήτηση γίνεται με λέξεις-κλειδιά (key words) τις οποίες δίνουμε στη μηχανή αναζήτησης του Google και η μηχανή κάνει αυτό που στην Υπολογιστική Γλωσσολογία αποκαλούμε «Ανάκτηση Πληροφορίας». 2. Ορθογραφικός έλεγχος: Καθώς συντάσσουμε ένα κείμενο στο Word, αυτόματα πραγματοποιείται ορθογραφικός έλεγχος (spelling checking), κοκκινίζοντας λέξεις και προτείνοντας λύσεις. Γίνεται αναγνώριση λέξεων, σύγκριση με αποθηκευμένα πρότυπα και ακολουθεί μια σειρά ενεργειών βάσει ομοιότητας και συγκειμενικών πληροφοριών. 3. Αυτόματη περίληψη κειμένου: Οι υπολογιστές ήδη καλούνται να κάνουν αυτόματες περιλήψεις κειμένων και να παράγουν νέο κείμενο από δεδομένα που δεν είναι απαραίτητα εξ ολοκλήρου κείμενα. Στην περίπτωση των δελτίων καιρού το κείμενο παράγεται από καθαρά αριθμητικά δεδομένα. 4. Δημοσκοπήσεις: Εταιρείες δημοσκοπήσεων καλούνται να εκτιμήσουν τον αντίκτυπο που έχουν στην κοινωνία διαφημίσεις, πολιτικά γεγονότα κτλ. Αυτό πραγματοποιείται με την ανάλυση τεράστιων ποσοτήτων κειμενικών, κυρίως, δεδομένων ώστε να εντοπίσουν και να αξιολογήσουν τις γνώμες που διατυπώνονται σχετικά με το θέμα που ενδιαφέρει κάθε φορά. Ωστόσο, υπάρχουν ακόμα αρκετά προβλήματα προς επίλυση όσον αφορά την Υπολογιστική Γλωσσολογία: 1. Μηχανική Μετάφραση (Machine Translation): Κάποιοι υποστηρίζουν ότι η Μηχανική Μετάφραση είναι το βασικό πρόβλημα της Υπολογιστικής Γλωσσολογίας. Η μετάφραση από γλώσσα σε γλώσσα έχει τεράστιο ενδιαφέρον, προσκρούει όμως στις μεγάλες διαφορές μεταξύ των γλωσσών. 2. Επίλυση Λεξικών Αμφισημιών (Word Sense Disambiguation): Για παράδειγμα, τι σημαίνει η λέξη «έφαγε» στο κείμενο «τον έφαγε η θάλασσα»; Αν το «τον» αναφέρεται σε βράχο, το «έφαγε» μάλλον αναφέρεται στη διάβρωση, αν το «τον» αναφέρεται σε ναυτικό, το «έφαγε» μπορεί να σημαίνει πνιγμό ή ακραία ταλαιπωρία με συνέπειες. Και αν θέλουμε να εφαρμόσουμε κάποια μηχανή μηχανικής μετάφρασης σε αυτό το κείμενο πώς ξέρουμε τι σημασία έχει το «έφαγε»; 3. Επίλυση Συντακτικών Αμφισημιών: Για παράδειγμα, πώς στο ακόλουθο κείμενο ξέρει η μηχανή ότι το «τον» αναφέρεται στο βράχο και όχι στο ναυτικό; «Ο ναυτικός ακουμπούσε στο βράχο που ήταν ετοιμόρροπος, γιατί τον είχε φάει τελείως η θάλασσα.» 4. Επίλυση αναφορών (anaphora resolution): Για παράδειγμα, σε τι αναφέρεται το αντωνυμικό «αυτό» στο κείμενο «Η οικονομία μας σημείωσε βελτίωση το τελευταίο εξάμηνο. Αυτό βελτίωσε το κλίμα στις σχέσεις μας με την Ευρώπη.»; 2.4 Σύνδεση Υπολογιστικής Γλωσσολογίας Γλωσσικής Τεχνολογίας Η Υπολογιστική Γλωσσολογία συνδέεται άμεσα με τη Γλωσσική Τεχνολογία καθώς η υλοποίηση προγραμμάτων ανάλυσης και παραγωγής φυσικού λόγου αξιοποιείται για τη δημιουργία εφαρμογών που βελτιώνουν την επικοινωνία ανθρώπου και υπολογιστή. Η Υπολογιστική Γλωσσολογία δεν περιορίζεται μόνο στη δημιουργία εφαρμογών γλωσσικής τεχνολογίας, αλλά επεκτείνεται και σε ένα ευρύ ερευνητικό πεδίο πάνω που αφορά την μελέτη των δομικών ιδιοτήτων της ανθρώπινης γλώσσας. Έτσι, στο αντικείμενο εμπλέκονται 12

13 ερευνητές που είτε σκοπεύουν να δημιουργήσουν εφαρμογές γλωσσικής τεχνολογίας και επομένως εστιάζουν σε ρηχές προσεγγίσεις που φέρνουν γρήγορα και όχι πάντα αξιόπιστα αποτελέσματα με στόχο τη βελτίωση της επίδοσης των υπαρχόντων συστημάτων γλωσσικής τεχνολογίας, είτε στοχεύουν στην αποκωδικοποίηση πτυχών της ανθρώπινης γλώσσας και επομένως ο υπολογιστής λειτουργεί ως εργαλείο ή και ως μεθοδολογικό μέσο για την ανάπτυξη γλωσσολογικών θεωριών. Επιπλέον, η Υπολογιστική Γλωσσολογία είναι ένα κατεξοχήν διεπιστημονικό γνωστικό αντικείμενο και εμπλέκεται στην εξέλιξη θεωριών σε γειτονικά αντικείμενα, όπως φαίνεται στην Eικόνα 1. Εικόνα 1: Σύνδεση Υπολογιστικής Γλωσσολογίες με συναφή αντικείμενα Συγκεκριμένα, η Υπολογιστική Γλωσσολογία επωφελείται από τα πορίσματα της Θεωρητικής Γλωσσολογίας σε όλα τα επίπεδα της γλωσσικής ανάλυσης. Ταυτόχρονα αξιοποιεί βασικές αρχές γλωσσικής επεξεργασίας από την Ψυχογλωσσολογία. Έτσι, για την επίλυση αναφορικών αμφισημιών και την αυτόματη αποκατάσταση των αναφορικών συνδέσεων σε ένα κείμενο μια μεγάλη μερίδα διαλογικών συστημάτων στηρίζεται σε ψυχογλωσσολογικές θεωρίες επεξεργασίας αναφορικών στοιχείων. Εκτός από προφανή σύνδεση με τη Θεωρητική Γλωσσολογία και την Επιστήμη των Υπολογιστών, η σύνδεσή της με τη Στατιστική και τη Θεωρία Πιθανοτήτων είναι εξίσου σημαντική, καθώς σε αυτή βασίζεται η ανάλυση των γλωσσικών δεδομένων. 2.5 Ανάλυση Γλωσσικού Συστήματος Η ανθρώπινη γλώσσα αποτελεί το πιο αναπτυγμένο από τα φυσικά συστήματα επικοινωνίας. Σύμφωνα με τον Bloom (1988), η γλώσσα είναι ένας κώδικας όπου οι ιδέες για τον κόσμο εκφράζονται μέσα από ένα συμβατικό σύστημα αυθαίρετων σημάτων επικοινωνίας. Τα απαραίτητα συστατικά γνωρίσματα κάθε γλώσσας είναι οι φθόγγοι και οι σημασίες. Οι φθόγγοι αποτελούν τη μορφή, την ύλη. Οι σημασίες είναι το περιεχόμενο. Οι φθόγγοι συγκροτούν ενότητες με ορισμένη μορφή και σύσταση. Οι συνδυασμοί αυτών των ενοτήτων συνιστούν ένα κώδικα σημείων. 13

14 Η γλώσσα αναπτύχθηκε ως επικοινωνιακό σύστημα και μετατράπηκε σε τρόπο έκφρασης της σκέψης, έγινε ένα όργανο της ίδιας της σκέψης. Η ανάλυση της αποκαλύπτει μια σειρά από επίπεδα, πάνω στα οποία είναι οργανωμένη. Τόσο από τους θεωρητικούς όσο και από τους υπολογιστικούς γλωσσολόγους, αναγνωρίζονται πέντε επίπεδα ανάλυσης του γλωσσικού συστήματος: 1. Φωνητική Φωνολογία: Η Φωνητική ασχολείται με την προφορά των λέξεων, καθεμιάς χωριστά ή συνδυασμένων μεταξύ τους, μέσα σε προτάσεις. Η Φωνολογία ασχολείται με τη λειτουργία των φθόγγων μέσα σε ένα συγκεκριμένο γλωσσικό σύστημα. 2. Μορφολογία: Η Μορφολογία ασχολείται με την εσωτερική δομή των λέξεων και το σχηματισμό τους από τα συστατικά του στοιχεία, δηλαδή τα μορφήματα. 3. Σύνταξη: Η Σύνταξη ασχολείται με τους τρόπους και τους κανόνες σύμφωνα με τους οποίους οι χρήστες μιας γλώσσας τοποθετούν τα μορφήματα έτσι ώστε να είναι κατανοητά από άλλους χρήστες της ίδιας γλώσσας. Είναι δηλαδή το σύστημα των κανόνων που διέπει τα μορφήματα της γλώσσας. 4. Σημασιολογία: Η Σημασιολογία ασχολείται με το περιεχόμενο της γλώσσας, τη σημασία της γλώσσας, τα αντικείμενα, τα γεγονότα και τις σχέσεις για τις οποίες μιλάμε. 5. Πραγματολογία: Η Πραγματολογία ασχολείται με τη χρήση της γλώσσας στο κοινωνικό περιβάλλον (γνώση του τι, πως, πότε θα πούμε κάτι ανάλογα με τις περιστάσεις). Η παρούσα εργασία αφορά την παροχή μορφολογικών πληροφοριών σε έναν συντακτικό αναλυτή της Ελληνικής ο οποίος αναπτύσσεται σε περιβάλλον XLE/LFG. Για να επεξεργαστούμε γραπτά κείμενα στις φυσικές γλώσσες, πρέπει πρώτα να μοντελοποιήσουμε τα φαινόμενα που εμφανίζονται σε τυπογραφικό και μορφολογικό επίπεδο. Όσον αφορά την τυπογραφική ανάλυση, ορίζουμε τον τρόπο με τον οποίο λειτουργεί κάθε χαρακτήρας μέσα στην πρόταση. Ωστόσο, οι τυπογραφικοί κανόνες κάθε γλώσσας είναι διαφορετικοί κι έτσι διαφέρει και η τυπογραφική ανάλυση κάθε γλώσσας. Έπειτα, ορίζουμε τις λεξικές μονάδες του κειμένου που θα επεξεργαστούμε (απλές ή σύνθετες), τις μετατρέπουμε στον λημματικό τους τύπο και τους αποδίδουμε μία μοροφολογική ανάλυση, δηλαδή ένα σύνολο μορφολογικών χαρακτηριστικών. H έννοια της Λημματοποίησης (Lemmatization) αφορά τον μηχανισμό εντοπισμού του λήμματος με αφετηρία μία συγκεκριμένη λέξη: ανθρώπινου -> ανθρώπινος ρώτησα -> ρωτάω αξιολογήσεις -> αξιολόγηση Σε μορφολογικό επίπεδο πρέπει κάθε λέξη να ενταχθεί σε μια γραμματική κατηγορία, π.χ. ουσιαστικό και να ενταχθεί σε μια κλιτική τάξη, εφόσον ανήκει στα κλιτά στοιχεία (π.χ. ουσιαστικά, επίθετα, ρήματα). Πολλοί ερευνητές έχουν ασχοληθεί τόσο από συγχρονική όσο και από διαχρονική σκοπιά με το ζήτημα της περιγραφής και ερμηνείας του συστήματος κλίσης των ουσιαστικών, των επιθέτων και των ρημάτων της ΝΕ και πληθώρα λεξικών έχουν κατασκευαστεί, τα οποία περιγράφονται εκτεταμένα στο επόμενο κεφάλαιο. 14

15 3. Επισημείωση Λέξεων Τα ουσιαστικά, τα ρήματα, τα επίθετα, τα επιρρήματα κι άλλα μέρη του υποστηρίζουν τόσο την γλωσσολογική ανάλυση όσο και την επεξεργασία της φυσικής γλώσσας. Τι είναι όμως οι λεξικές κατηγορίες και πώς χρησιμοποιούνται στην επεξεργασία φυσικής γλώσσας; Πώς μπορούμε να αποδώσουμε αυτόματα μία επισημείωση (tag) σε κάθε λέξη ενός κειμένου και να την κατηγοριοποιήσουμε σωστά; Η διαδικασία κατάταξης των λέξεων σε μέρη του λόγου και η ανάλογη σήμανσή 2 τους είναι γνωστή ως επισημείωση των μερών του λόγου (part-of-speech tagging), POS-tagging, ή απλώς επισημείωση. Τα μέρη του λόγου είναι επίσης γνωστά ως λεξικές τάξεις (word classes) ή λεξιλογικές κατηγορίες. Η συλλογή των ετικετών που χρησιμοποιούνται για μια συγκεκριμένη εργασία είναι γνωστή ως tagset. 3.1 Η χρήση επισημειωτή Ένας επισημειωτής μερών του λόγου, ή POS-tagger, επεξεργάζεται μία ακολουθία λέξεων και επισυνάπτει ένα μέρος του λόγου σε κάθε λέξη. Στην εικόνα 2 παρατίθεται ένα παράδειγμα επισημείωσης στην αγγλική γλώσσα που πραγματοποιείται στην πλατφόρμα NLTK: Εικόνα 2: Παράδειγμα επισημείωσης Παρατηρούμε λοιπόν σε κάθε λέξη (word) ότι αντιστοιχεί μία επισημείωση (tag). Αναλυτικά (Πίνακας 1): WORD TAG ΜΕΤΑΦΡΑΣΗ And (=και) CC (Coordinating Conjuction) Συμπλεκτικός Σύνδεσμος now (=τώρα) RB (Adverb) Επίρρημα for (=για) IN (Preposition) Πρόθεση something (=κάτι) NN (Noun) Ουσιαστικό completely (=τελείως) RB (Adverb) Επίρρημα different (=διαφορετικό) JJ (Adjective) Επίθετο Πίνακας 1: Αντιστοίχιση word-tag στην NLTK 2 Παραδείγματα tagset παρατίθενται στα: Παράρτημα 1, Παράρτημα 2, Παράρτημα 3. 15

16 Υπάρχουν όμως και πιο πλούσιες προτάσεις, στις οποίες μπορεί να συναντήσουμε ομώνυμα. Σε αυτή την περίπτωση, ο tagger θα πρέπει να αναγνωρίζει την λεξική κατηγορία στην οποία κάθε λέξη αντιστοιχίζεται, όπως φαίνεται και στην Εικόνα 3: Εικόνα 3: Παράδειγμα επισημείωσης ομώνυμων λέξεων Ας δούμε αναλυτικά στον Πίνακα 2, τα tags που αντιστοιχίζονται σε κάθε λέξη: WORD TAG They PRP (Personal Pronoun) refuse VBP (Present Tense Verb) to TO permit VB (Verb) us PRP (Personal Pronoun) to TO obtain VB (Verb) the DT (Determiner) refuse NN (Noun) permit NN (Noun) Πίνακας 2: Αντιστοίχιση word-tag σε πρόταση ομώνυμων λέξεων Οι λέξεις refuse και permit επισημειώθηκαν τόσο ως ρήμα Ενεστώτα (VBP) αλλά και ως ουσιαστικό (NN). Για να επιτευχθεί αυτό, πρέπει ο επισημειωτής να είναι ικανός να ξεχωρίζει ποια λέξη χρησιμοποιείται σε κάθε περίπτωση. Έχουν προταθεί διάφορα συστήματα για την επισημείωση των λέξεων με μέρη του λόγου. Στην εικόνα 4 αναφέρεται ένα απλοποιημένο, παγκοσμίως αποδεκτό tagset μερών του λόγου για την αγγλική γλώσσα. Εικόνα 4: Παγκόσμιο tagset μερών του λόγου 16

17 3.2 Τα Μέρη του Λόγου Κάθε γλώσσα αποτελείται από λέξεις, οι οποίες χωρίζονται σε κατηγορίες όπου ομαδοποιούνται ανάλογα με τα γνωρίσματά τους. Όταν μιλάμε για μέρη του λόγου, εννοούμε τις ομάδες στις οποίες χωρίζεται το πλήθος των λέξεων μίας γλώσσας βάσει της λειτουργίας των τελευταίων στη γλώσσα. Στην ελληνική γλώσσα τα μέρη του λόγου είναι τα εξής δέκα : 1. Τα άρθρα 2. Τα ουσιαστικά 3. Τα επίθετα 4. Οι αντωνυμίες 5. Τα ρήματα 6. Οι μετοχές 7. Τα επιρρήματα 8. Οι προθέσεις 9. Οι σύνδεσμοι 10. Τα επιφωνήματα Τα δέκα μέρη του λόγου χωρίζονται σε δύο ομάδες: Κλιτά μέρη του λόγου. Η λέξη αλλάζει (κλίνεται), δηλαδή έχει ενικό, πληθυντικό, αριθμό, πτώσεις, εγκλίσεις, χρόνους κλπ. Στην κατηγορία αυτή ανήκουν τα παρακάτω έξι μέρη του λόγου: 1. Τα άρθρα 2. Τα ουσιαστικά 3. Τα επίθετα 4. Οι αντωνυμίες 5. Τα ρήματα 6. Οι μετοχές Άκλιτα μέρη του λόγου είναι τα υπόλοιπα τέσσερα: 7. Τα επιρρήματα 8. Οι προθέσεις 9. Οι σύνδεσμοι 10. Τα επιφωνήματα Θα θέλαμε να σταθούμε στις τιμές που παίρνουν οι γραμματικές κατηγορίες γένος, αριθμός και πτώση οι οποίες ορίζονται μόνο για τα κλιτά μέρη του λόγου. Γένος : στα ελληνικά δέχεται τιμές αρσενικό, θηλυκό και ουδέτερο. Δεν έχουν όλες οι γλώσσες τρία γένη όπως η ελληνική. Για παράδειγμα, η ισπανική έχει δύο γένη, ενώ η αγγλική δεν έχει γένη. Γένος διακρίνουμε σε όλα τα κλιτά μέρη του λόγου εκτός από τα ρήματα. Αριθμός: στα ελληνικά δέχεται τιμές, Ενικός και Πληθυντικός. Αριθμό διακρίνουμε σε όλα τα κλιτά μέρη του λόγου. Πτώση : στα ελληνικά δέχεται τιμές ονομαστική, γενική, αιτιατική και κλητική. 17

18 Πτώσεις έχουν όσα κλιτά μέρη του λόγου εκτός από τα ρήματα Τα κλιτά μέρη του λόγου Άρθρα Άρθρα είναι μικρές λέξεις οι οποίες μπαίνουν μπροστά από άλλα μέρη του λόγου και συγκεκριμένα μπροστά από ουσιαστικά, επίθετα, αντωνυμίες και μετοχές. Τα άρθρα έχουν γένος, αριθμούς και πτώσεις. Υπάρχουν δύο κατηγορίες άρθρων, το οριστικό και το αόριστο Ουσιαστικά Ουσιαστικά είναι οι λέξεις αναφέρονται σε ανθρώπους, μέρη, αντικείμενα ή αφηρημένες έννοιες. Μπορεί να εμφανιστούν μετά από άρθρα και επίθετα και μπορεί να είναι το υποκείμενο ή το αντικείμενο του ρήματος Επίθετα Η λέξη «επίθετο» μας δείχνει ότι το «επιθέτουμε» δηλαδή το βάζουμε σε μία άλλη λέξη την οποία προσδιορίζει και συμπληρώνει. Οι λέξεις τις οποίες περιγράφουν τα επίθετα είναι τα ουσιαστιά. Τα επίθετα μπορούν να χρησιμοποιηθούν ως τροποποιητές ή κατηγορούμενα Αντωνυμίες Αντωνυμίες είναι λέξεις που παίρνουν τη θέση του ονόματος (ονόματος ουσιαστικού ή ονόματος επιθέτου). Δηλαδή μια αντωνυμία μπορεί να κρύβει και να αντικαθιστά ένα συγκεκριμένο ή αφηρημένο ουσιαστικό η ακόμη και κάποιο επίθετο. Υπάρχουν πολλές κατηγορίες αντωνυμιών: 1. Προσωπικές 2. Κτητικές 3. Αυτοπαθείς 4. Οριστικές 5. Δεικτικές 6. Αναφορικές 7. Ερωτηματικές 8. Αόριστες 1. Προσωπικές αντωνυμίες: φανερώνουν τα τρία πρόσωπα του λόγου Προσοχή στη διαφορά μεταξύ προσωπικής αντωνυμίας και άρθρου. π.χ. Της είπα να αγοράσει ψωμί. (προσωπική αντωνυμία συνοδεύει ρήμα) Η μαντίλα της γιαγιάς είναι καφετιά. (άρθρο συνοδεύει όνομα) 2. Κτητικές αντωνυμίες: φανερώνουν σε ποιον ανήκει κάτι 3. Αυτοπαθείς αντωνυμίες: δείχνουν ότι το ίδιο πρόσωπο ενεργεί (κάνει μια πράξη) και το ίδιο τη δέχεται 4. Οριστικές αντωνυμίες: ξεχωρίζουν κάτι από άλλα του είδους 5. Δεικτικές αντωνυμίες: εκείνες που χρησιμοποιούμε όταν δείχνουμε κάτι 6. Αναφορικές αντωνυμίες: εκείνες με τις οποίες ολόκληρη πρόταση αναφέρεται σε μια λέξη 7. Ερωτηματικές αντωνυμίες: εκείνες που χρησιμοποιούμε όταν ρωτάμε 8. Αόριστες αντωνυμίες: εκείνες που αόριστα (χωρίς δηλαδή να ονομάζουν) φανερώνουν ένα πρόσωπο ή ένα πράγμα 18

19 Ρήματα Τα ρήματα περιγράφουν γεγονότα και πράξεις. Στο πλαίσιο μίας πρότασης, τα ρήματα τυπικά εκφράζουν μία σχέση που περιλαμβάνει τους αναφερόμενους μίας ή περισσότερων ονοματικών φράσεων. Όπως δείχνουν και τα παρακάτω σχήματα έχουμε τις εξής περιπτώσεις. Εικόνα 5: Ρήμα Περίπτωση 1 1. Κάποιος ενεργεί (ρήμα) και η ενέργειά του αυτή ασκείται σε ένα άλλο πρόσωπο ή πράγμα έξω από αυτόν (Εικόνα 5). π.χ. Ο Κώστας ποτίζει τα λουλούδια. Εικόνα 6: Ρήμα Περίπτωση 2 2. Κάποιος ενεργεί (ρήμα) και η ενέργειά του αυτή ασκείται στον ίδιο του τον εαυτό (Εικόνα 6) π.χ. Η Μαρία χτενίζεται. 19

20 Εικόνα 7: Ρήμα Περίπτωση 3 3. Αυτό που κάνει το πρόσωπο είναι να βρίσκεται απλώς σε μια κατάσταση (Εικόνα 7) π.χ. Ο Θανάσης κοιμάται. Η γιαγιά χαίρεται. Εικόνα 8: Ρήμα Περίπτωση 4 4. Το πρόσωπο ενεργεί χωρίς η ενέργειά του να κατευθύνεται προς κάποιο άλλο πρόσωπο ή αντικείμενο (Εικόνα 8). π.χ. Το παιδί χαμογέλασε. Μπορούμε δηλαδή να πούμε ότι οι λέξεις οι οποίες δείχνουν ότι κάποιος ενεργεί ή παθαίνει κάτι ή βρίσκεται σε μια κατάσταση λέγονται ρήματα. ΠΡΟΣΩΠΑ Σύμφωνα με τον παραπάνω ορισμό του ρήματος είναι προφανές ότι ενεργεί, παθαίνει ή βρίσκεται σε μια κατάσταση ΚΑΠΟΙΟΣ δηλαδή ένα ΠΡΟΣΩΠΟ. Το ρήμα μας δείχνει από μόνο του για ποιο πρόσωπο πρόκειται. Τα πρόσωπα είναι τρία: το πρώτο πρόσωπο (α πρόσωπο) όταν μιλάω για το τι κάνω ΕΓΩ (στον ενικό αριθμό) ή τι κάνουμε ΕΜΕΙΣ (στον πληθυντικό αριθμό). 20

21 το δεύτερο πρόσωπο (β πρόσωπο) όταν μιλάω για το τι κάνεις ΕΣΥ (στον ενικό αριθμό) που βρίσκεσαι απέναντί μου και συνομιλούμε ή τι κάνετε ΕΣΕΙΣ (στον πληθυντικό αριθμό). το τρίτο πρόσωπο (γ πρόσωπο) όταν μιλάω για το τι κάνει ΑΥΤΟΣ-Η-Ο (στον ενικό αριθμό) που ΔΕΝ βρίσκεται απέναντί μου και ΔΕΝ συνομιλώ μαζί του ή τι κάνουν ΑΥΤΟΙ-ΕΣ-Α (στον πληθυντικό αριθμό). ΧΡΟΝΟΙ Τα ρήματα δείχνουν επίσης το χρόνο (πότε) γίνεται μια πράξη, ή τη σχέση της πράξης αυτής με το χρόνο και τη διάρκειά της. Δηλαδή δείχνουν αν η πράξη έγινε στο παρόν, στο παρελθόν ή θα γίνει στο μέλλον, δείχνουν αν κράτησε ή αν θα κρατήσει λίγο ή πολύ, αν επαναλαμβάνεται μέσα στο χρόνο κλπ. Οι χρόνοι των ρημάτων είναι οχτώ: ο Ενεστώτας (χρόνος του παρόντος). ο Αόριστος (χρόνος του παρελθόντος). ο Παρατατικός (χρόνος του παρελθόντος). ο Στιγμιαίος Μέλλοντας (χρόνος του μέλλοντος). ο Εξακολουθητικός Μέλλοντας (χρόνος του μέλλοντος). ο Παρακείμενος (χρόνος του παρόντος). ο Υπερσυντέλικος (χρόνος του παρελθόντος). ο Συντελεσμένος Μέλλοντας (χρόνος του μέλλοντος). ΦΩΝΕΣ Τα ρήματα έχουν δύο φωνές, την ενεργητική και την παθητική. Οι ονομασίες δείχνουν και τι διαφορετικό δηλώνει η κάθε φωνή. Στην ενεργητική φωνή, το πρόσωπο ενεργεί (Εικόνα 5 και Εικόνα 8). Στην παθητική φωνή, το πρόσωπο παθαίνει ή βρίσκεται σε μια κατάσταση (Εικόνα 6 και Εικόνα 7). ΕΓΚΛΙΣΕΙΣ Οι εγκλίσεις είναι μορφές του ρήματος οι οποίες δείχνουν αν αυτό που δηλώνει το ρήμα είναι κάτι που σίγουρα συμβαίνει, συνέβη ή θα συμβεί (οριστική), αν έχουμε σκοπό να συμβεί (υποτακτική), αν απαιτούμε να συμβεί (προστακτική), αν ευχόμαστε να συμβεί (ευκτική) Μετοχή Το τελευταίο από τα έξι κλιτά μέρη του λόγου είναι η μετοχή. Η μετοχή σχηματίζεται κατά την κλίση των ρημάτων. Για την ακρίβεια αποτελεί μέρος της κλίσης των ρημάτων. Η μετοχή είναι ουσιαστικά μια μορφή του ρήματος. Τα ρήματα της ενεργητικής φωνής σχηματίζουν ενεργητικές μετοχές, οι οποίες είναι άκλιτες. Τα ρήματα της παθητικής φωνής σχηματίζουν παθητικές μετοχές οι οποίες κλίνονται όπως τα επίθετα (έχουν δηλαδή τρία γένη) Τα άκλιτα μέρη του λόγου 21

22 Επιρρήματα Τα επιρρήματα είναι άκλιτες λέξεις οι οποίες συνοδεύουν ρήματα. Ο ρόλος τους είναι να συμπληρώνουν και να επεξηγούν τα ρήματα φανερώνοντας τον τρόπο, τον τόπο, το χρόνο κλπ κατά τον οποίο έγινε η πράξη που περιγράφει το ρήμα Προθέσεις Οι Προθέσεις είναι άκλιτες λέξεις οι οποίες μπαίνουν μπροστά από ουσιαστικά, επίθετα, αντωνυμίες, μετοχές. Σκοπός τους είναι, μαζί με τα άλλα μέρη του λόγου, να εκφράσουν επιρρηματικές σχέσεις (τόπο, χρόνο, τρόπο, αιτία, ποσό, κλπ). Οι προθέσεις μπαίνουν επίσης μπροστά από επιρρήματα π.χ. αύριο από αύριο, αλλά και πίσω από επιρρήματα π.χ. δίπλα δίπλα από. Οι προθέσεις είναι ανεξάρτητες λέξεις π.χ. χωρίς ζάχαρη, αλλά συμμετέχουν και στο σχηματισμό σύνθετων λέξεων π.χ. γεύμα απόγευμα, φέρνω καταφέρνω κλπ Σύνδεσμοι Οι σύνδεσμοι είναι άκλιτες λέξεις που συνδέουν (ενώνουν) λέξεις ή προτάσεις. Χρησιμοποιούνται στην παρατακτική σύνταξη (παρατακτικοί σύνδεσμοι) και στην υποτακτική σύνταξη (υποτακτικοί σύνδεσμοι) Επιφωνήματα Τα επιφωνήματα είναι λέξεις που μπορεί να εκφράζουν θαυμασμό, απορία, πόνο, λύπη ή στενοχώρια, ευχή, έπαινο, κάλεσμα, ειρωνεία, παρακίνηση και το αντίθετο, άρνηση, δυσπιστία, αβεβαιότητα. 3.4 Μορφολογική επεξεργασία της Ελληνικής Γλώσσας Η μορφολογική επεξεργασία της ελληνικής γλώσσας θεωρείται σημαντικό κεφάλαιο, λόγω της έντονης κλιτότητάς της. Μέσα από το πλήθος των φαινομένων που συνδέονται με τα κλιτικά μορφήματα αντλούνται σημαντικές γλωσσικές πληροφορίες, οι οποίες βοηθάνε στην αναπαράσταση της γλωσσολογικής γνώσης στον υπολογιστή και στη μελέτη της γλώσσας. Υπάρχουν αρκετές μορφολογικές αμφισημίες οι οποίες απαιτούν συγκειμενική πληροφορία για την επίλυσή τους και ενίοτε ούτε η συγκειμενική πληροφορία επαρκεί. Σχετικά με τη μορφολογική επεξεργασία της ελληνικής γλώσσας έχουν εκπονηθεί αρκετές εργασίες και έχουν αντίστοιχα αναπτυχθεί μορφολογικοί επισημειωτές. Παρακάτω αναφέρονται κάποιοι από αυτούς, ανάμεσα στους οποίους και ο μορφολογικός επισημειωτής του ΙΕΛ, τον οποίο αξιοποιήσαμε για την ανάπτυξη της εφαρμογής μας Λεξιφάνης Ο «Λεξιφάνης» είναι ένα σύστημα λογικού που σχεδιάστηκε και υλοποιήθηκε για τη μορφολογική ανάλυση της νεοελληνικής γλώσσας, βασιζόμενο στα πεπερασμένα αυτόματα. Αποτελεί τον πρώτο Λεκτικό Αναλυτή για την ελληνική γλώσσα και παρουσιάστηκε με τη δημοσίευση Y. Kotsanis, Y. Maistros, Lexifanis A Lexical Analyzer of Modern Greek, 2 nd Conference of the European Chapter of the ACL, Geneva Το σύστημα αποδίδει τη γραμματική κατηγορία (κλάση ή μέρος του λόγου) στο 80-90% των λέξεων που εισάγονται, ανάλογα με το είδος κειμένου. 22

23 Η βάση γνώσης του «Λεξιφάνη» αποτελείται από στοιχεία τονισμού του μονοτονικού συστήματος, τις άκλιτες λέξεις και τα άρθρα, καθώς και τις κλιτικές καταλήξεις (επιθήματα) της ελληνικής γραμματικής που αντιστοιχούν σε κανόνες σχηματισμού των λέξεων. Γνωρίζοντας αυτά τα στοιχεία, οποιαδήποτε λέξη της ελληνικής γλώσσας μπορεί να αναγνωριστεί και να γίνει ταυτοποίηση της γραμματικής της κατηγορίας. Οι εγγενείς αμφισημίες, στην εύρεση της γραμματικής κατηγορίας μιας λέξης, αίρονται με περιορισμένο έλεγχο των συμφραζομένων της μέσω απλών κανόνων επιφανειακής σύνταξης. Τέλος, αν ο «Λεξιφάνης» τροφοδοτηθεί με τα κατάλληλα κλιτικά μορφήματα και τις άκλιτες λέξεις μπορεί να αναγνωρίσει οποιαδήποτε ιδιωματική λέξη ή σύνολο λέξεων ενός κειμένου. Ο έλεγχος του συστήματος πραγματοποιήθηκε σε αρκετά κείμενα και προέκυψε ότι τα επιστημονικά κείμενα παρουσιάζουν τις λιγότερες αμφισημίες με αποτέλεσμα η επιτυχία του «Λεξιφάνη» να φτάνει στα ανώτερα επίπεδα. Το 90% των λέξεων αναγνωρίστηκαν, 8% των λέξεων παρουσίασαν αμφισημία και 2% των λέξεων παρέμειναν χωρίς κατηγορία. Αντίθετα, ο ποιητικός λόγος παρουσίασε μεγαλύτερες ασάφειες στην απόδοση γραμματικής κλάσης. Χάρη στον σπονδυλωτό σχεδιασμό του, το σύστημα αυτό μπορεί να λειτουργήσει ως ολοκληρωμένο σύστημα λογικού, να ενταχθεί σε άλλο σύστημα επεξεργασίας φυσικής γλώσσας ή γενικά να χρησιμοποιηθεί ως εργαλείο υποδομής για τη μηχανική επεξεργασία της Ελληνικής γλώσσας σε αρκετά περιβάλλοντα εφαρμογής Ωκύλημμα Το «Ωκύλημμα» 3 (Quicklem) βασίζεται σε ευριστικό αλγόριθμο που εφαρμόζεται στον προσδιορισμό της γραμματικής κατηγορίας πολλών λέξεων ενός γραμματικά ορθού κειμένου. Η αμφισημία που παρουσιάζεται στο κλιτό και το παραγωγικό μέρος των λέξεων της νεοελληνικής γλώσσας αίρεται κατά ένα μεγάλο μέρος με τη χρήση της αποκαλούμενης κάθετης ανάλυσης σε αντίθεση με την κλασική οριζόντια ανάλυση (επιθηματική ή μορφηματική). Οι εισαγόμενες λέξεις ομαδοποιούνται ανάλογα με το πιθανό θέμα τους σε κλάσεις «ισοδυναμίας», χρησιμοποιώντας πίνακες απόφασης. Η γραμματική κατηγορία αποδίδεται βάσει των κλιτικών μορφημάτων που βρίσκονται σε κάθε κλάση αφού συγκριθούν με τα αντίστοιχα (πλήρη) της ελληνικής γραμματικής. Η βάση γνώσης που διαθέτει το «Ωκύλημμα» καταλαμβάνει 10 KB περίπου, και περιλαμβάνει στοιχεία τονισμού, το σύνολο των κλιτικών μορφημάτων (καταλήξεων) και «περιττές» λέξεις (700 stopwords: λειτουργικές και μη κλιτές λέξεις). Προκειμένου να αναγνωρίσει ένα ορισμένο κείμενο μπορεί να περάσει δεύτερη και τρίτη φορά από τις κλάσεις ισοδυναμίας που σχημάτισε, αξιοποιώντας τη «γνώση» που αποκτά κάθε φορά από το προηγούμενο πέρασμα. Με μικρή τροποποίηση αυτή η λειτουργία μπορεί να επεκταθεί και σε νέο κείμενο, κι έτσι δημιουργείται ένα αυτοδίδακτο σύστημα (self learning). Ο αλγόριθμος «Ωκύλημμα» που χρησιμοποιείται στο σύστημα αυτό, μπορεί να επεξεργαστεί κάθε ελληνικό κείμενο εφόσον μετατραπεί σε ταξινομημένη λίστα πλήρων λεκτικών μορφών. Έως τώρα, περίπου στο 77% των λέξεων του εισαχθέντος κειμένου αποδίδεται ορθή 3 Kotsanis Yannis, Yanis Maistros, Alexios Zavras, Quicklem: A Software System for Greek Word-Class Determination, Literary and Linguistic Computing, Literary and Linguistics Computins, Vol. 2, No 4, Oxford Univ. Press,

24 γραμματική κατηγορία, λανθασμένη στο 3% και το εναπομένον 20% μένει δίχως γραμματική κατηγορία. Για το ανεπιτυχές 23% ευθύνη φέρει το γεγονός ότι το λεξικό δεν περιέχει επαρκές πλήθος κλιτών λέξεων. Περισσότερες εισαγόμενες λέξεις ή ακόμα και ένας απλός τρόπος διαχωρισμού των κλιτικών συνόλων θα έλυνε το πρόβλημα. Το σύστημα λειτουργεί με 65 λέξεις ανά δευτερόλεπτο, ενώ τόσο οι σύγχρονες μηχανές όσο και αλγόριθμοι βελτιστοποίησης των πινάκων απόφασης ολοένα και θα αυξάνουν την απόδοσή του. Η μέθοδος του Ωκυλήμματος για το χειρισμό των κλιτικών μορφημάτων κάλλιστα μπορεί να αναλύσει παραγωγικά επιθήματα και προθέματα. Περαιτέρω εξειδίκευση θα έκανε τον αλγόριθμο να επεκταθεί στον ορισμό κι άλλων κλάσεων ιδιοσυγκρασιακών του βασικού μορφήματος. Θα μπορούσε, για παράδειγμα, να ορίσει τον «αριθμό» για το κλιτικό μόρφημα ή το «βαθμό» για το παραγωγικό επίθημα. Το σύστημα αυτό, είναι δυνατόν να χρησιμοποιηθεί, με μικρή τροποποίηση, στη δημιουργία αυτόματου λημματογράφου, σε συνδυασμό κάποια οριζόντια λεκτική ανάλυση. Σε περιβάλλον φιλολογικής υπολογιστικής ανάλυσης θα μπορούσε να αποτελέσει χρήσιμο εργαλείο. Τέλος, να εφαρμοστεί σε ευρύτερα περιβάλλοντα, όπως Συστήματα Διαχείρισης Βάσεων Δεδομένων (DBMS) ως σύστημα διεπικοινωνίας (interface) Κειμενοποιητής Ο Κειμενοποιητής αποτελεί ένα αναπτυξιακό υπολογιστικό εργαλείο που επιτρέπει τη μελέτη και παράσταση του κειμένου στον υπολογιστή. Ο φορμαλισμός του είναι ισχυρός, καλά ορισμένος, ευέλικτος και σπονδυλωτός. Σχεδιάστηκε ως μέσο «ολιστικής» παράστασης γλωσσολογικής γνώσης, ανεξαρτήτως επιπέδου. Μπορεί, επομένως, να χρησιμοποιηθεί είτε μόνο στη μορφολογία ή τη σύνταξη, είτε σε περισσότερα σχηματικά επίπεδα γλωσσολογικής γνώσης, γι αυτό και χαρακτηρίζεται ως Ολιστικός Επεξεργαστής Φυσικής Γλώσσας και έχει αναδειχθεί σε έναν γενικό επεξεργαστή φυσικής γλώσσας. Έχει τη δυνατότητα επεξεργασίας οποιουδήποτε κειμένου, εφόσον δοθεί σε αυτό η κατάλληλη γραμματική, η οποία θα πρέπει να υπακούει στη λογική των Ενοποιητικών Γραμματικών. Ο φορμαλισμός της Ενοποιητικής Γραμματικής περιγράφει όχι μόνο μορφολογικά, συντακτικά και σημασιολογικά επίπεδα, αλλά φωνολογικά και πραγματολογικά επίσης. Το βασικό σύστημα του Κειμενοποιητή σχεδιάστηκε και υλοποιήθηκε στον Τομέα Πληροφορικής του Ε.Μ.Π. σε γλώσσα C και περιβάλλον UNIX. Απ όσο γνωρίζουμε, αποτελεί το ταχύτερο σύστημα επεξεργασίας κειμένου με βάση την ενοποίηση. Το σύστημα που αναπτύχθηκε μπορεί να χρησιμοποιηθεί στη μελέτη και την επεξεργασία της Ελληνικής γλώσσας σε σπουδαστήρια, σ χολεία ή ακόμα και σε απαιτητικό περιβάλλον αυτοματισμού γραφείου Ellogon Το Ellogon αναπτύχθηκε στο Ε.Κ.Ε.Φ.Ε. Δημόκριτος και είναι ένα πολύγλωσσο, ανεξάρτητο πλατφόρμας περιβάλλον, αναπτυγμένο με σκοπό να βοηθήσει τόσο τους ερευνητές της 24

25 υπολογιστικής γλωσσολογίας, όσο και τις εταιρίες που παράγουν και προωθούν συστήματα γλωσσικής μηχανικής. Προσφέρει μία εκτεταμένη ομάδα λειτουργιών, συμπεριλαμβανομένων εργαλείων για επεξεργασία και οπτικοποίηση κειμενικών/html/xml δεδομένων και σχετικών γλωσσολογικών πληροφοριών, υποστήριξη σε λεξικολογικές πηγές (όπως η δημιουργία και η ενσωμάτωση λεξικών), εργαλεία για τη δημιουργία επισημειωμένων σωμάτων κειμένων, προσπέλαση βάσεων δεδομένων, σύγκριση επισημειωμένων δεδομένων ή μετασχηματισμό γλωσσολογικών πληροφοριών σε φορείς για χρήση με διάφορους αλγόριθμους εκμάθησης μηχανής. Ως πλατφόρμα βασίζεται σε αναφορές ή επισημειώσεις, όπου η γλωσσολογική πληροφορία αποθηκεύεται ξεχωριστά από τα κειμενικά δεδομένα, έχοντας αναφορές προς το αυθεντικό κείμενο. Βασισμένο στο μοντέλο δεδομένων TIPSTER, παρέχει υποδομή για: Διαχείριση, αποθήκευση και ανταλλαγή κειμενικών δεδομένων όσο και σχετικής γλωσσολογικής πληροφορίας. Δημιουργία, ενσωμάτωση και διαχείριση γλωσσολογικών επεξεργαστικών συστατικών. Διευκόλυνση επικοινωνίας μεταξύ των διαφόρων γλωσσολογικών συστατικών ορίζοντας την κατάλληλη προγραμματιστική διεπαφή (API). Οπτικοποίηση κειμενικών δεδομένων και σχετικών γλωσσολογικών πληροφοριών. Το Ellogon μπορεί να χρησιμοποιηθεί είτε ως ένα ολοκληρωμένο περιβάλλον ανάπτυξης Επεξεργασίας Φυσικής Γλώσσας (NLP) (IDE) είτε ως μια βιβλιοθήκη που μπορεί να ενσωματωθεί σε ξένες εφαρμογές. Οι χρήστες του Ellogon μπορούν να κατηγοριοποιηθούν σε τρεις μεγάλες κατηγορίες: υπολογιστικοί γλωσσολόγοι, μηχανικοί γλώσσας και οι τελικοί χρήστες. Όσον αφορά τους υπολογιστικούς γλωσσολόγους, το Ellogon προσπαθεί να διευκολύνει πολλές πλευρές των εργασιών που συνήθως εκτελούνται εντός της πλατφόρμας. To Ellogon παρέχει ένα ευρύ φάσμα υψηλά προσαρμόσιμων και εύχρηστων εργαλείων και για αυτό τον λόγο είναι ένα ιδανικό περιβάλλον για την κατασκευή επισημειωμένων σωμάτων κειμένου. Μια άλλη συχνή εργασία είναι η προσαρμογή της επεξεργασίας γλωσσολογικών συστατικών σε ένα νέο τομέα. Συνήθως περιλαμβάνει τροποποιήσεις σε συγκεκριμένες πηγές που χρησιμοποιούνται εσωτερικά από τα επεξεργαστικά συστατικά. Το Ellogon διευκολύνει τη διαδικασία προσαρμογής αφού το τροποποιημένο συστατικό μπορεί να εφαρμοστεί αμέσως και ο χρήστης μπορεί πολύ εύκολα να αναγνωρίσει τη συνέπεια των τροποποιήσεών του, μέσω των λειτουργιών σύγκρισης που προσφέρονται από την πλατφόρμα. Επιπλέον, παρέχει σημαντική υποδομή για τη σύγκριση της γλωσσολογικής πληροφορίας που συνδέεται με τα κειμενικά δεδομένα. Το εργαλείο Collection Comparison μπορεί να χρησιμοποιηθεί για τη σύγκριση των γλωσσολογικών πληροφοριών που είναι αποθηκευμένες σε μια ομάδα (ή μια συλλογή) εγγράφων. Διάφοροι περιορισμοί που αφορούν στην προς σύγκριση πληροφορία μπορούν να προσδιοριστούν μέσω της γραφικής διεπαφής του εργαλείου σύγκρισης και τα αποτελέσματα παρουσιάζονται χρησιμοποιώντας πρότυπα σχήματα. Επιπροσθέτως, το εργαλείο σύγκρισης μπορεί να παρουσιάσει ένα αρχείο καταγραφής της σύγκρισης. Αυτό το αρχείο είναι μια γραφική αναπαράσταση των διαφορών που βρέθηκαν κατά τη συγκριτική διαδικασία και μπορεί να αποτελέσει πολύτιμη βοήθεια για το χρήστη ώστε εκείνος να εντοπίσει και πιθανώς να διορθώσει τα σφάλματα. 25

26 Για τους περισσότερους χρήστες του Ellogon, το κεντρικό σημείο ενδιαφέροντος είναι η γλωσσολογική επεξεργασία που μπορεί να εκτελεστεί εντός του καθώς παρέχει ένα γενικό πλαίσιο εργασίας όπου τα εξωτερικά χαρακτηριστικά μπορούν να ενσωματωθούν εύκολα Ο μορφολογικός αναλυτής του Ίωνα Ανδρουτσόπουλου Ο tagger που αναπτύχθηκε από τον Ίωνα Ανδρουτσόπουλο και παρουσιάζεται στην εργασία Ανδρουτσόπουλος, Ι., Κατασκευή Λεκτικού και Συντακτικού Αναλυτή της Νέας Ελληνικής Γλώσσας, αποτελεί ένα ακόμα αξιόλογο εργαλείο μορφολογικής ανάλυσης. 3.5 Ο μορφολογικός αναλυτής του ΙΕΛ Ο μορφολογικός αναλυτής FBT Tagger του Ινστιτούτου Επεξεργασίας Λόγου (ΙΕΛ) βρίσκεται διαθέσιμος με μορφή webservices. Η υπηρεσία αναπτύχθηκε στα πλαίσια του έργου PANACEA (ICT ). Το έργο αυτό αποβλέπει στην ανάπτυξη υποδομών για τον συνδυασμό γλωσσικών πόρων που απαιτούν σύγχρονα συστήματα Μηχανικής Μετάφρασης και Επεξεργασίας Φυσικής Γλώσσας. 4 Αποτελεί μετεξέλιξη του Brill Tragger και είναι εκπαιδευμένος σε ελληνικά κείμενα. Με τη χρήση ενός συνόλου μορφολογικών επισημειώσεων αποτελούμενων από 584 διαφορετικούς συνδυασμούς ετικετών, καταφέρνει να καλύψει το σύνολο των μορφολογικών ιδιαιτεροτήτων της ελληνικής γλώσσας (Papageorgiou et al., 2000). Η λειτουργία του έγκειται: α) στο διαχωρισμό ενός κειμένου σε λεκτικές μονάδες (tokenization) και β) στην απόδοση ετικετών μορφολογικής πληροφορίας (tag), αλλά και στον καθορισμό του λήμματος (lemma) Συνίσταται από τη μονάδα τεμαχισμού παραγράφων, προτάσεων και λεκτικών μονάδων (tokenizer), τον μορφολογικό επισημειωτή (pos tagger) και τον λημματοποιητή (lemmatizer) Η μονάδα τεμαχισμού Στο πρώτο στάδιο της μορφολογικής ανάλυσης, το κείμενο εισόδου διαχωρίζεται σε παραγράφους, προτάσεις και λεκτικές μονάδες (tokens). Ο τεμαχισμός γίνεται σε μηχανή που βασίζεται στα Αυτόματα Πεπερασμένων Καταστάσεων (Finite State Automata). Αρχικά, πραγματοποιείται ο διαχωρισμός των παραγράφων: ανιχνεύοντας τους χαρακτήρες αλλαγής γραμμής όταν η είσοδος είναι απλό κείμενο βάσει των ετικετών παραγράφων όταν η είσοδος είναι ιστοσελίδες Οι προτάσεις χωρίζονται μέσα στα όρια των παραγράφων με τη χρήση των διαχωριστικών συμβόλων των προτάσεων (. ;! κλπ). Οι λεκτικές μονάδες που περιέχουν τα σύμβολα αυτά (πχ αριθμοί, ημερομηνίες, ηλεκτρονικές διευθύνσεις, συντομογραφίες κ.ά.) αναγνωρίζονται με τη χρήση κανονικών εκφράσεων. Τέλος, χρησιμοποιούνται ευρετικές μέθοδοι για την αναγνώριση τεμαχίων που έχουν χωριστεί λανθασμένα κι ενώνονται σε προτάσεις. Η αναγνώριση των λεκτικών μονάδων γίνεται εντός των ορίων κάθε πρότασης. Όμοια με τη διαδικασία διαχωρισμού των προτάσεων, λαμβάνονται υπόψιν τα προφανή σημάδια ορίων των λεκτικών μονάδων (κενά, σημεία στίξης και άλλα σύμβολα)

27 Έπειτα αναγνωρίζεται το είδος κάθε λεκτικής μονάδας και αποδίδεται σε αυτήν η αντίστοιχη ετικέτα όπως DATE για τις ημερομηνίες, ABBR για τις συντομογραφίες, PTERM για τα τερματικά σύμβολα, TOK για τις λέξεις (Prokopidis et. al, 2011) Ο επισημειωτής Στο δεύτερο στάδιο, ο επισημειωτής μερών του λόγου (POS tagger) λαμβάνει ως είσοδο τις λεξικές μονάδες και σε κάθε μία αποδίδει: το μέρος του λόγου στο οποίο ανήκει μια σειρά μορφολογικών χαρακτηριστικών (αριθμός, πτώση, χρόνος κλπ) το βασικό τύπο (λήμμα) στον οποίο αντιστοιχεί Φέρει την ονομασία FBT από τη μέθοδο μετασχηματισμού που χρησιμοποιεί και η οποία βασίζεται στα χαρακτηριστικά (Feature Based Transformation). Ο επισημειωτής του ΙΕΛ είναι εκπαιδευμένος σε ελληνικά σώματα κειμένων τα οποία έχουν αρχικά επισημειωθεί αυτόματα και έπειτα διορθωθεί χειρωνακτικά, με αποτέλεσμα να προκύψει ένα λεξικό λεκτικών μονάδων. Ο αριθμός των ετικετών που χρησιμοποιεί είναι αρκετά μεγαλύτερος από εκείνον άλλων γλωσσών και φτάνει τους 584 συνδυασμούς βασικών ετικετών, καθώς η ελληνική είναι μια γλώσσα με ιδιαίτερα πλούσια μορφολογία. Οι συνδυασμοί αυτοί αποτελούν το σετ μορφολογικών ετικετών του ΙΕΛ (ILSP PAROLE Tagset), μια προσαρμογή του προτύπου PAROLE για την επισημείωση ελληνικών σωμάτων κειμένων, το οποίο περιγράφεται αργότερα. Οι ετικέτες για τα μέρη του λόγου βρίσκονται αναλυτικά στο Παράρτημα 1, όπως ακριβώς δίδονται από την ηλεκτρονική διεύθυνση: Η διαδικασία ξεκινά με την απόδοση αρχικής ετικέτας στη λεκτική μονάδα. Στην περίπτωση που η λέξη είναι καταχωρημένη στο λεξικό, αποδίδεται η ετικέτα με τη μεγαλύτερη συχνότητα για τη συγκεκριμένη λέξη. Αν η λέξη δεν είναι καταχωρημένη, γίνεται χρήση λεξικού καταλήξεων. Το λεξικό έχει προκύψει από σώμα εκπαίδευσης και έχει συμπληρωθεί με καταχωρήσεις από το Μορφολογικό Λεξικό του ΙΕΛ. Μετά την αρχική επισημείωση, εφαρμόζονται μια σειρά από 800 περίπου κανόνες συμφραζομένων για τη διόρθωση της ετικέτας. Οι κανόνες αυτοί είναι αποτέλεσμα χειρωνακτικής διόρθωσης των ετικετών που αποδόθηκαν κατά τη διαδικασία της αυτόματης επισημείωσης. Η ετικέτα μπορεί να αλλαχθεί μόνο στην περίπτωση που αυτή συμπεριλαμβάνεται σε καταχώρηση του λεξικού. Εικόνα 9: Παράδειγμα κανόνων συμφραζομένων 27

28 Στην Εικόνα 9, παρατίθενται δύο παραδείγματα. Το πρώτο αντιστοιχεί στην αλλαγή της επισημείωσης μιας λεκτικής μονάδας από άρθρο σε αντωνυμία όταν ακολουθεί ρήμα και το δεύτερο, στην αλλαγή του γένους ενός αριθμητικού από ουδέτερο σε αρσενικό όταν ακολουθεί αρσενικό ουσιαστικό. Η ακρίβεια του επισημειωτή αγγίζει το 97.49% όσον αφορά μόνο το μέρος του λόγου, και το 92.54% όταν λαμβάνονται υπόψιν όλα τα μορφολογικά χαρακτηριστικά (Prokopidis et al.,2011) Ο λημματοποιητής Στο τρίτο και τελευταίο στάδιο της επεξεργασίας, ο λημματοποιητής ανακτά τα λήμματα από το Μορφολογικό Λεξικό, το οποίο περιλαμβάνει λήμματα που στην κλιτή τους μορφή δίνουν ένα σύνολο καταχωρήσεων. Σε περίπτωση αμφισημίας στο λεξικό, ο λημματοποιητής χρησιμοποιεί την πληροφορία του επισημειωτή. Έτσι, στην περίπτωση της λέξης γρήγορα δίνει γρήγορος αν είναι επίθετο ή γρήγορα αν είναι επίρρημα (Prokopidis et al., 2011) Η διαδικτυακή υπηρεσία Ο μορφολογικός αναλυτής του ΙΕΛ (ILSP tagger) βρίσκεται διαθέσιμος στη διαδικτυακή διεύθυνση (Εικόνα 10). Εικόνα 10: ILSP NLP Web Services Επιλέγουμε την υπηρεσία ilsp_nlp (WSDL) και κατευθυνόμαστε στον αναλυτή (Εικόνα 11): 28

29 Εικόνα 11: Ο μορφολογικός αναλυτής (tagger) του ΙΕΛ Δέχεται ως είσοδο απλό κείμενο ή XCES αρχεία, με το κείμενο χωρισμένο σε παραγράφους (Εικόνα 12): Εικόνα 12: Μορφές εισόδου Η έξοδος της υπηρεσίας είναι ένα αρχείο σε μορφή XCES, ενώ υποστηρίζει και μορφές UIMA, GATE και GrAF. Το πρότυπο XCES αποτελεί μετεξέλιξη του CES, βασίζεται στο πρότυπο XML και χρησιμοποιείται ευρέως στις εφαρμογές επεξεργασίας φυσικής γλώσσας (Εικόνα 13). Εικόνα 13: Μορφές εξόδου 29

30 Η έξοδος του μορφολογικού αναλυτή του ΙΕΛ περιέχει καταχωρήσεις με τις λεκτικές μονάδες του κειμένου εισόδου, επισημειωμένες με ετικέτες μορφολογικής πληροφορίας, καθώς και τα λήμματα στα οποία αντιστοιχούν. Η Εικόνα 14 που ακολουθεί παρουσιάζει το αρχείο εξόδου του αναλυτή. Εικόνα 14: Αρχείο εξόδου Κάθε λεκτική μονάδα καταχωρείται με την ετικέτα <t /> και περιέχει τις εξής πληροφορίες: id: αύξων αριθμός word: λεκτική μονάδα tag: μορφολογική επισημείωση lemma: λήμμα Όσον αφορά τη μορφολογική επισημείωση, αποτελείται από ετικέτες καθεμία από τις οποίες συμβολίζεται με δύο χαρακτήρες. Η πρώτη ετικέτα αναφέρεται στο μέρος του λόγου και οι επόμενες στα μορφολογικά χαρακτηριστικά. Ας πάρουμε για παράδειγμα τη λέξη το της οποίας η επισημείωση είναι: AtDfMaSgAc. Το μέρος του λόγου είναι οριστικό άρθρο (At) και ακολουθούν τα μορφολογικά χαρακτηριστικά: αρσενικό γένος (Ma), ενικός αριθμός (Sg), πτώση αιτιατική (Ac). Τέλος, το λήμμα είναι ο. Σε ορισμένες περιπτώσεις μπορεί να δίνεται κενή τιμή (Xx) σε κάποιο χαρακτηριστικό: <t id="t7" word="συλλέξουν" tag="vbmnidxx03plxxpeavxx" lemma="συλλέγω"/> Για παράδειγμα, το ρήμα (να) συλλέξουν δεν έχει χρόνο, γένος και πτώση. Στην περίπτωση των διαχωριστικών λεκτικών μονάδων (tokenizers), αυτές επισημειώνονται με μια μόνο ετικέτα η κάθε μία, χωρίς επιπλέον χαρακτηριστικά. Έτσι, πχ τα σημεία στίξης έχουν τις ετικέτες PUNCT, P_TERM κλπ, οι συντομογραφίες ABBR και INIT, οι ημερομηνίες DATE, οι αριθμοί DIG και οι αριθμήσεις ENUM. 30

31 3.6 Το πρότυπο PAROLE Παραπάνω αναφερθήκαμε στο πρότυπο PAROLE για την επισημείωση ελληνικών σωμάτων κειμένων. Στην ενότητα αυτή, θα μιλήσουμε πιο ειδικά γι αυτό. Το ελληνικό λεξικό PAROLE έχει δύο επίπεδα, το μορφολογικό και το συντακτικό και κατασκευάστηκε βάσει του μορφολογικού λεξικού του ΙΕΛ και του corpus του ΙΕΛ. Περιλαμβάνει τις πιο συχνές λέξεις που βρίσκει κανείς σε ένα σώμα 9 εκατομμυρίων λέξεων, κωδικοποιημένων σύμφωνα με τις προδιαγραφές PAROLE. Το μορφολογικό επίπεδο περιέχει ένα σύνολο μορφολογικών μονάδων, εκ των οποίων οι είναι ουσιαστικά (κοινά και κύρια) (common and proper), ρήματα, επίθετα, 106 αριθμητικά, 45 αντωνυμίες, 2 άρθρα, επιρρήματα, 48 προθέσεις, 51 συνδέσμους, 21 επιφωνήματα, 19 «μοναδικές» κατηγορίες. Το συντακτικό επίπεδο περιέχει συντακτικές μονάδες, εκ των οποίων είναι ουσιαστικά, 5397 ρήματα, 3558 επίθετα, 1410 επιρρήματα, 73 προθέσεις και 106 αριθμητικά. Στόχος του PAROLE project ήταν η συλλογή μεγάλων, γενετικών και επαναχρησιμοποιήσιμων Πηγών Γραπτής Γλώσσας για όλες τις γλώσσες της ΕΕ, συγκροτούμενης από ένα σώμα κειμένων με αρχεία γενικής γλώσσας μεγέθους λέξεων σε 14 γλώσσες (Βελγική Γαλλική, Καταλανική, Δανική, Ολλανδική, Αγγλική, Γαλλική, Φινλανδική, Γερμανική, Ελληνική, Ιρλανδική, Ιταλική, Νορβηγική, Πορτογαλική και Σουηδική) και από υπολογιστικά λεξικά με λήμματα σε 12 γλώσσες (Καταλανική, Δανική, Ολλανδική, Αγγλική, Φινλανδική, Γαλλική, Γερμανική, Ελληνική, Ιταλική, Πορτογαλική, Ισπανική, Σουηδική). Η αξία αυτών των πηγών έγκειται τόσο στο μέγεθος και τον αριθμό των γλωσσών που καλύπτει το project όσο και στο γεγονός ότι στην πραγματικότητα είναι κατασκευασμένες σύμφωνα με τα κοινά πρότυπα και προδιαγραφές. Όσον αφορά τα TEXT CORPORA, τα κείμενα έχουν επιλεγεί βάσει συγκεκριμένων κοινών παραμέτρων για το χρόνο παραγωγής τους (μετά το 1970) και ανάλογης αναπαράστασης του κειμενικού υλικού σύμφωνα με το μέσο δημοσίευσης (βιβλίο, εφημερίδα, περιοδικός τύπος και άλλα). Επίσης, όλα τα κείμενα έχουν επισημειωθεί χρησιμοποιώντας το ίδιο πρότυπο σήμανσης (mark-up format ) (PAROLE DTD) όσον αφορά τις βιβλιογραφικές πληροφορίες και τη δομή κειμένου (επισημείωση στο επίπεδο παραγράφου). Τέλος, ένα υποσύνολο του σώματος (250,000 λέξεις) έχει επισημειωθεί μορφοσυντακτικά σύμφωνα με ένα κοινό πυρήνα σύνολο ετικετών PAROLE, εκτεταμένο με ένα σύνολο ειδικών χαρακτηριστικών της γλώσσας. Όσον αφορά τα λεξικά, έχει αναπτυχθεί ένα κοινό μοντέλο (το μοντέλο PAROLE) το οποίο καλύπτει την κωδικοποίηση των μορφολογικών και συντακτικών πληροφοριών σε όλες τις γλώσσες επομένως, όλα τα λεξικά έχουν κατασκευαστεί σύμφωνα με τις ίδιες αρχές σχεδίασης και τις ίδιες γλωσσολογικές προδιαγραφές και είναι κωδικοποιημένα με την ίδια φόρμα αναπαράστασης. Η ομάδα πηγών για κάθε γλώσσα είναι διαθέσιμη στην ερευνητική κοινότητα είτε μέσω της European Language Resources Association (ELRA), είτε απευθείας μέσω των συμμετεχόντων στο Project. 31

32 Στο Παράρτημα 2, παρατίθεται μία περιορισμένη έκδοση tagset σύμφωνα με το Parole για την Ισπανική και Καταλανική γλώσσα, όπως παρουσιάζεται στο σύνδεσμο 4. Το ParGram Project και οι στόχοι του Από το έτος λειτουργίας του, 1994, και ως προϊόν της συνεργασίας των κέντρων ερευνών PARC και XEROX, το ParGram Project χρησιμοποιεί το συντακτικό αναλυτή XLE (που αποτελείται από έναν αναλυτή, έναν γεννήτορα (generator) και ένα γραφικό περιβάλλον προς όφελος της εργονομίας του στη σύνταξη των γραμματκών και στον εντοπισμό των σφαλμάτων (Maxwell και Kaplan, 1993)). Στόχο του αποτελεί η ανάπτυξη γραμματικών βαθιάς ανάλυσης (deep grammars), δηλαδή γραμματικές οι οποίες παρέχουν μια λεπτομερή και σε βάθος ανάλυση της δομής της πρότασης. Δια της χρήσης του γραμματικού φορμαλισμού της LFG, το ParGram Project στοχεύει στην παράλληλη κάλυψη γραμματικών φαινομένων σε διάφορες γλώσσες και, κατά συνέπεια, στη δημιουργία παράλληλων γραμματικών, δηλαδή γραμματικών με κοινές γλωσσολογικές συμβάσεις. Ως υπολογιστική γραμματική, το ParGram δίνει τη δυνατότητα για χρήση των δεδομένων σε μια κοινή εφαρμογή που στοχεύει στη μηχανική μετάφραση (machine translation), ελαχιστοποιώντας τα προβλήματά της (Frank, 1999). Οι δυσκολίες πραγματοποίησης του έργου κάμπτονται από τα ενθαρρυντικά αποτελέσματα του παραλληλισμού μεταξύ αρκετών γλωσσών. Το ParGram Project (Butt et al., 1999; Butt et al., 2002) στην αρχή επικεντρωνόταν σε τρεις βασικές γλώσσες: αγγλικά, γαλλικά και γερμανικά, μέχρι την ενσωμάτωση των ιαπωνικών, νορβηγικών αλλά και των Ούρντου, της εθνικής γλώσσας του Πακιστάν. Αποσκοπεί, σε θεωρητικό επίπεδο, στην εξέταση της καθολικότητας της θεωρίας της LFG και, σε τεχνικό, στη δημιουργία γλωσσικών πόρων για την ανάπτυξη διάφορων εφαρμογών, όπως η μηχανική μετάφραση (Frank, 1999). Πέραν των βασικών στόχων, κάθε γραμματικό project είχε ορίσει και έναν δευτερεύοντα επιμέρους στόχο, καθώς οι διαφορετικές ομάδες που εργάστηκαν στο πλαίσιο του ParGram προέρχονταν από διαφορετικούς επιστημονικούς κύκλους και είχαν, ως εκ τούτου, διαφορετικές δεξιότητες. 4.1 Οι εφαρμογές, οι δυνατότητες και η πορεία του ParGram Οι επιστήμονες, προερχόμενοι από διαφορετικές χώρες (Εικόνα 15) και με διαφορετικές δεξιότητες, απέδειξαν το εύρος αλλά και τις δυνατότητες του ParGram, με αποτέλεσμα τα διαφορετικά αυτά δεδομένα να οδηγήσουν στα εξής αποτελέσματα: Οι γραμματικές των αγγλικών, γερμανικών και ιαπωνικών στόχευαν στη δημιουργία μιας γραμματικής ευρείας κάλυψης των βασικών γραμματικών φαινομένων της εκάστοτε γλώσσας. 32

33 Η νορβηγική γραμματική διαθέτει σημασιολογικές προεκτάσεις (semantic projection), δηλαδή πέρα από τη δομή συστατικών και τη λειτουργική δομή δίδει και σημασιολογικές δομές. Η γραμματική για τα Ούρντου εφαρμόζει ένα είδος ορισματικής δομής (argument structure) και δοκιμάζει διάφορες γλωσσολογικές θεωρίες/ιδέες. Εικόνα 15: Οι ανά τον κόσμο συμμετέχοντες φορείς στο ParGram Project Παρά τις διαφορές τους, οι γραμματικές αυτές κατάφεραν να διατηρήσουν το βασικό άξονα παραλληλισμού και να ακολουθήσουν κοινές γραμματικές και τεχνολογικές δομές και χαρακτηριστικά, την πρόοδο και την εξέλιξη των οποίων παρουσιάζει ο Πίνακας 3. Πίνακας 3: Γλώσσες που διαθέτουν γραμματικές LFG στην XLE πλατφόρμα και το εύρος τους Γραμματικές που αναπτύχθηκαν στο ParGram έχουν ενσωματωθεί σε άλλα ερευνητικά προγράμματα, όπως: Το PARTRANS project, το οποίο χρησιμοποιεί τις γραμματικές για μηχανική μετάφραση. Το COMET project, το οποίο ερευνά τη στατιστική επίλυση αμφισημίας με τη χρήση του σώματος κειμένων από τη Wall Street Journal και την αγγλική γραμματική. 33

34 Το TIGER project, το οποίο χρησιμοποιεί τη γραμματική σε ημιαυτόματη παραγωγή τράπεζας δένδρων από κείμενα γερμανικών εφημερίδων. Οι γραμματικές αυτές, όπως φαίνεται, μπορούν να έχουν ποικίλες εφαρμογές, όπως: Μηχανική μετάφραση (machine translation) Τράπεζες δένδρων (tree banking) Έξυπνη επισημείωση κειμένων (smart text annotation) Robust Parsing Εξαγωγή πληροφοριών (information extraction) Εκπαιδευτικά εργαλεία (teaching tools) 4.2 Οι συμβάσεις του ParGram Project Στις συνταχθείσες στο πλαίσιο του ParGram γραμματικές αναπτύχθηκαν εκτεταμένες συμβάσεις και αφορούν όχι μόνο τη μορφή των χαρακτηριστικών που χρησιμοποιούνται στις γραμματικές αλλά και τον τρόπο ανάλυσης των εκάστοτε γραμματικών φαινομένων. Πέραν τούτων, η ίδια πλατφόρμα XLE θέτει περιορισμούς στον τρόπο ανάπτυξης των γραμματικών. Όπως φαίνεται και στην Εικόνα 16, ένα τυπικό αρχείο γραμματικής XLE περιλαμβάνει: Configuration section (CONFIG), με αναφορές σε άλλες ενότητες (ή και σε άλλα αρχεία) και διευκρινίσεις για γενικά δεδομένα, όπως ROOTCAT, GOVERNABLERELATIONS κτλ. Κανόνες/Rules section (RULES), όπου δίδονται οι γραμματικοί κανόνες. Υποδείγματα / Templates section (TEMPLATES), όπου δίδονται οι προδιαγραφές των υποδειγμάτων που χρησιμοποιούνται στους κανόνες και στο λεξικό Lexicon section (LEXICON), με τα λήμματα και τα χαρακτηριστικά που τους έχουν δοθεί Εικόνα 16: Αρχείο XLE γραμματικής 34

35 Πέραν της τυπικής μορφής που διαθέτει ένα αρχείο γραμματικής XLE υπάρχουν και κάποια κοινά χαρακτηριστικά (COMMON FEATURES) και κοινά υποδείγματα (COMMON TEMPLATES) που χρησιμοποιούνται από όσους σχεδιάζουν γραμματικές που φέρουν τις προδιαγραφές του ParGram. Έτσι, έχει δημιουργηθεί μια λίστα από χαρακτηριστικά που απαντώνται σε όσο το δυνατόν περισσότερες γλώσσες. Ενδεικτικά: η παθητική φωνή (PASSIVE) που παίρνει το πρόσημο + (Πίνακας 4 (1)) ο αριθμός (NUM) που μπορεί να είναι είτε ενικός είτε πληθυντικός (Πίνακας 4 (2)) Πέραν αυτών, έχει δημιουργηθεί μια λίστα με Υποδείγματα (Templates), όπως το «NPL» που δηλώνει ότι η λέξη που δίδεται στο λεξικό και φέρει αυτό το υπόδειγμα είναι ουσιαστικό (NOUN) και βρίσκεται σε πληθυντικό αριθμό (PLURAL) (Πίνακας 4 (3)). Πίνακας 4: Κοινά μοτίβα που ακολουθούν γραμματικές του ParGram Project 4.3 Η πλατφόρμα XLE (Xerox Linguistic Environment) Η πλατφόρμα Xerox Linguistic Environment (XLE) επιτυγχάνει μία πλήρη ανάλυση στο πλαίσιο της LFG. Πρόκειται για μια πλατφόρμα που σχεδιάστηκε από το Palo Alto Research Center (PARC), με σκοπό την ανάπτυξη γραμματικών ευρείας κλίμακας, κάνοντας χρήση των αρχών της LFG (Kaplan & Bresnan, 1982). Πιο αναλυτικά, υλοποιήθηκε στα πλαίσια του ParGram project που ξεκίνησε το 1994 με συνεργασία του κέντρου ερευνών PARC και του ευρωπαϊκού κέντρου ερευνών της XEROX. Στόχος είναι η χρήση του γραμματικού φορμαλισμού της LFG να καλύψει με παράλληλο τρόπο γραμματικά φαινόμενα σε διάφορες γλώσσες, δηλαδή να παραχθούν παράλληλες αναλύσεις για ίδιες δομές σε διαφορετικές γλώσσες. Με την ανάπτυξη παράλληλων γραμματικών θα μπορούσε να απλοποιηθεί και η διαδικασία της αυτόματης μετάφρασης (Frank 1999). H XLE έχει ισχυρή υπολογιστική δύναμη και μεγάλες εκφραστικές δυνατότητες, επιτρέποντας την ανάπτυξη γραμματικών μεγάλης κλίμακας (βλ. Butt et all 1999). Παρέχει στους γλωσσολόγους τη δυνατότητα ανάλυσης της φυσικής γλώσσας σε επίπεδο πρότασης ή φράσης, με την ανάπτυξη γραμματικών βαθείας ανάλυσης (deep grammars), ενώ ταυτόχρονα προσφέρει αναλυτικές πληροφορίες, π.χ. για τη δομή των προτάσεων/φράσεων (c-structures), τις λειτουργικές εξαρτήσεις (f-structures) και τη μορφολογία κάθε λεξικής καταχώρισης. 35

36 Ο συντακτικός αναλυτής του XLE αποτελείται από έναν αναλυτή (parser), έναν γεννήτορα (generator) και ένα γραφικό περιβάλλον διεπαφής (graphical user interface) και παρέχει τη δυνατότητα στο χρήστη να αναλύσει μία πρόταση βάσει κάποιων συγκεκριμένων βημάτων. Αρχικά, αναλύει μορφολογικά την πρόταση, αναζητώντας κάθε μόρφημα στο λεξικό και φτιάχνοντας ένα διάγραμμα με τα μορφήματα και τους περιορισμούς τους. Στη συνέχεια, ο συντακτικός αναλυτής γραφημάτων (chart parser) χτίζει τα πιθανά συστατικά (constituents) βάσει των κανόνων φραστικής δομής (c-structure) που συνιστούν τη γραμματική και επεξεργάζεται τους περιορισμούς (constraints). Ο ενοποιητής (unifier) επεξεργάζεται τους περιορισμούς από κάτω προς τα πάνω (bottom up), προσεγγίζοντας μόνο εκείνα τα συστατικά που αποτελούν μέρος μιας δενδρικής δομής με τη σωστή ριζική κατηγορία (root category). Έτσι, για κάθε δενδρική δομή δημιουργείται ένας γράφος περιορισμών συνδεόμενος με ορθές αλλά και μη ορθές αναλύσεις της συγκεκριμένης δομής. Οι γράφοι αυτοί γίνονται και πάλι αντικείμενο επεξεργασίας για να εντοπιστούν οι ελλιπείς αναλύσεις (incomplete), με αποτέλεσμα να εμφανίζονται κι άλλες μη ορθές αναλύσεις (Maxwell and Kaplan 96). 4.4 Ανάπτυξη γραμματικής στο XLE Μια γραμματική XLE μπορεί να περιέχεται σε ένα ή περισσότερα αρχεία. Ωστόσο, όταν υλοποιούνται μεγάλες γραμματικές, φαίνεται ευχερέστερο η γραμματική να είναι χωρισμένη σε διάφορους επιμέρους φακέλους. Παρακάτω περιγράφονται δύο βασικά αρχεία της πλατφόρμας XLE: 1. Το αρχείο της γραμματικής, το οποίο περιλαμβάνει τους κανόνες φραστικής δομής, τους υπολεκτικούς κανόνες (sublexical rules), τα υποδείγματα (templates) και τις μακροεντολές (macros). 2. Το αρχείο του λεξικού, το οποίο περιλαμβάνει καταχωρίσεις μορφολογικής και λεξικής πληροφορίας (morphological and lexical entries) Το αρχείο γραμματικής Ένα αρχείο τυπικής γραμματικής του XLE περιλαμβάνει πληροφορίες που δομούνται σε ενότητες, οι βασικότερες των οποίων είναι οι ακόλουθες: Η Ενότητα Ρυθμίσεων (Configuration Section). Περιλαμβάνει αναφορές σε άλλα τμήματα της γραμματικής ή στα αρχεία που χρησιμοποιούνται καθώς και τις προδιαγραφές για τη λειτουργία της, όπως τις γραμματικές κατηγορίες (Grammatical Functions). Η Ενότητα Χαρακτηριστικών (DEMO GREEK FEATURES). Περιλαμβάνει τα χαρακτηριστικά (features) που χρησιμοποιούνται για τη σύνταξη των γραμματικών κανόνων. Η Ενότητα της Μορφολογίας (DEMO GREEK MORPHOLOGY). Περιέχει το αρχείο (default-parse-tokenizer.fsmfile) με κανόνες μορφολογίας. Η Ενότητα των Κανόνων (DEMO GREEK RULES). Περιλαμβάνει τους γραμματικούς κανόνες (syntactic and sublexical rules). 36

37 Η Ενότητα των Υποδειγμάτων (DEMO GREEK TEMPLATES). Περιλαμβάνει τα μοτίβα χαρακτηριστικών που χρησιμοποιούνται στους συντακτικούς κανόνες και στο λεξικό Το αρχείο λεξικού Στο αρχείο λεξικού εντοπίζεται η ενότητα DEMO GREEK LEXICON, η οποία περιλαμβάνει τις υπολεκτικές ετικέτες (sublexical tags) και τις λεξικές καταχωρίσεις (lexical entries). Οι υπολεκτικές ετικέτες (sublexical tags). Αφορούν τα μορφολογικά χαρακτηριστικά που διακρίνουν κάθε μέρος του λόγου και αλληλεπιδρούν με τους υπολεκτικούς κανόνες (sublexical rules) που υπάρχουν στο αρχείο της Γραμματικής. Οι λεξικές καταχωρίσεις (lexical entries). Αφορούν όλα τα λήμματα των συμβολοακολουθιών (strings) που μπορούν να εισαχθούν στη γραμματική. Για να λειτουργήσει η γραμματική του XLE είναι χρήσιμα, επίσης, τα παρακάτω αρχεία: Το αρχείο default-parse-tokenizer.fsmfile. Με το αρχείο αυτό, το ΧLE δεν παρέχει μόνο τη δυνατότητα ενσωμάτωσης στη γραμματική ενός αυτόματου λημματοποιητή (tokenizer), αλλά επιπλέον προσφέρει τη δυνατότητα σύνδεσης κάθε επιφανειακής φόρμας (surface form) με τα λήμματα (stem) και τα μορφολογικά χαρακτηριστικά (set of tags). Το αρχείο εντολών (xlerc). Πρόκειται για ένα αρχείο τύπου.txt που περιλαμβάνει εντολές οι οποίες μπορούν να φανούν χρήσιμες για κάθε χρήστη της Γραμματικής. 4.5 Αποτελέσματα συντακτικής ανάλυσης O συντακτικός αναλυτής του XLE παράγει μετά την συντακτική ανάλυση κάθε πρότασης τέσσερις πίνακες: Chart 1: Ο πρώτος πίνακας απεικονίζει το συντακτικό δέντρο (parse tree) μιας πρότασης ή φράσης, ανεξαρτήτως του αν υπάρχουν έγκυρες λειτουργικές δομές. Chart 2: Ο δεύτερος πίνακας απεικονίζει τη λειτουργική δομή (F-structure chart), ανεξαρτήτως του αν τηρούνται ή όχι όλες οι συνθήκες ορθού σχηματισμού. Chart 3: Ο τρίτος πίνακας απεικονίζει την επιλεγόμενη ως ορθή από τον συντακτικό αναλυτή ως ορθή λειτουργική δομή (f-structure). Το XLE επεξεργάζεται αρχικά σε έναν πίνακα (chart) όλους τους περιορισμούς της φραστικής δομής κι έπειτα χρησιμοποιεί τα αποτελέσματα για να αποφασίσει ποιους λειτουργικούς περιορισμούς θα επεξεργαστεί. Μετά την ολοκλήρωση της διαδικασίας συγχωνεύει τις λειτουργικές δομές σε ένα κοινό πίνακα. Chart 4: Ο τέταρτος πίνακας περιλαμβάνει τις πιθανές λύσεις (Solutions) που μπορούν να προκύψουν από τη συντακτική ανάλυση εξαιτίας αμφισημιών. Τέλος, το XLE δίνει τη δυνατότητα εμφάνισης και ενός πίνακα μορφολογίας (Morphology), ο οποίος εμφανίζει όλες τις πιθανές μορφολογικές αναλύσεις για κάθε λεξική καταχώρηση. 37

38 5. Η Λεξική Λειτουργική Γραμματική (LFG) Η Λεξική Λειτουργική Γραμματική (ΛΛΓ) ή αλλιώς Lexical Functional Grammar (LFG) αναπτύχθηκε αρχικά στα τέλη του 1970 από τους Joan Bresnan και Ronald Kaplan και αποτελεί έναν φορμαλισμό για την αντιπροσώπευση της συντακτικής γνώσης του μητρικού ομιλητή μιας γλώσσας (Kaplan & Bresnan 1982: 174). Σχεδιασμένη στο πλαίσιο του γενικού προγράμματος γενετικής γλωσσολογίας (generative linguistics), η LFG διαφέρει από άλλες παρόμοιες προσεγγίσεις σε πολλά σημεία. Αντίθετα με τις κυρίαρχες προσεγγίσεις στο πλαίσιο της γενετικής γλωσσολογίας, η LFG εντάσσεται σε ένα λεξικαλιστικό, μη παραγωγικό, μη-μετασχηματιστικό πλαίσιο. Σε αντίθεση με ακόμη περισσότερα άλλα μη-παραγωγικά πλαίσια, η LFG χρησιμοποιεί ως βασική έννοια για την συντακτική ανάλυση τις Γραμματικές Συναρτήσεις και όχι την Συντακτική Δομή, αν και η δομή συστατικών είναι επίσης μέρος της LFG σύνταξης. Έτσι, η κατά LFG σύνταξη περιλαμβάνει δύο διακριτές διαστάσεις αναπαράστασης: την c- structure και την f-structure (τις οποίες θα δούμε αναλυτικότερα παρακάτω). Η LFG έχει εφαρμοστεί για την ανάλυση ενός ευρέος φάσματος Συντακτικών Κατασκευών σε μια ευρεία ποικιλία γλωσσών. Επιπλέον, έχει ένα καλά ανεπτυγμένο φορμαλισμό και έχει χρησιμοποιηθεί εκτενώς σε εργασίες Υπολογιστικών Υλοποιήσεων. Η LFG παρέχει πληροφορίες για τη δομή της γλώσσας και, όπως δηλώνει το όνομά της, θεωρεί τη γλωσσική γνώση που φέρουν οι λέξεις ως άκρως σημαντική για την αρχιτεκτονική της Γραμματικής. Αναλυτικά 56 η σημασία των συστατικών στοιχείων της θεωρίας: Λεξική (Lexical): παρέχονται πλούσιες λεξικές πληροφορίες που έχουν καθοριστικό ρόλο στην ανάπτυξη των γλωσσολογικών φαινομένων. Το Λεξικό αναπτύσσεται ως ξεχωριστή συνιστώσα της Γραμματικής, η οποία είναι αδιαφανής για τους συντακτικούς κανόνες, δηλαδή οι συντακτικοί κανόνες δεν μπορούν να αλλάξουν την πληροφορία που έρχεται από το Λεξικό. Λειτουργική (Functional): χρησιμοποιούνται γραμματικές λειτουργικές κατηγορίες/γραμματικές συναρτήσεις (grammatical functions), όπως Υποκείμενο (SUBJ), Αντικείμενο (OBJ). Οι γραμματικές λειτουργικές κατηγορίες θεωρούνται η βάση για το σχηματισμό της λειτουργικής δομής (f-structure) Γραμματική (Grammar): αποτελεί ένα είδος γενετικής γραμματικής, μια προσέγγιση στη μελέτη της γλώσσας που έχει τις απαρχές της στις θεωρίες του Noam Chomsky. Παρακάτω παρατίθενται οι κυριότεροι στόχοι της Γενετικής Γραμματικής (Generative Grammar) (Falk, 2001: 27-31): Η εύρεση των γλωσσολογικών αρχών για τον καθορισμό της φύσεως της Καθολικής Γραμματικής (Universal Grammar). 5 Falk, Y. N., Lexical-Functional Grammar: An Introduction to Parallel Constraint-Based Syntax. Stanford, CA: CSLI Publications. 6 Kyriakopoulou, T., Markantonatou, S., Symeonidis, A. & Tantos, A Το παρόν και το μέλλον της Υπολογιστικής Γλωσσολογίας. Text book in Computational Linguistics. ( 38

39 Ο καθορισμός ενός ρεαλιστικού ψυχολογικού μοντέλου με γλωσσολογική και μαθηματική επάρκεια Η τυπική και σαφής περιγραφή του μηχανισμού της θεωρίας της γλώσσας και των κανόνων σε συγκεκριμένες γλώσσες. Η LFG αποτελεί έναν γραμματικό φορμαλισμό που βασίζεται στην ιδέα πως η γλωσσική πληροφορία προκύπτει και αποτελείται από διαφορετικές δομές (structures) ή προβολές (projections), με δικούς της κανόνες και τρόπους συμβολισμού. Αναγνωρίζει τρεις τύπους συντακτικής πληροφορίας: Μορφοσυντακτική (Morphosyntactic Info-FS) Πληροφορία Φραστικής Δομής (Phrase Structure Info-PS rules) Πληροφορία Λειτουργικής Δομής (Functional Info-FS) 5.1 Αρχή της Λεξικής Ακεραιότητας (Lexical Integrity Principle) Οι λέξεις είναι «άτομα». Η συντακτική δομή χτίζεται έξω από αυτά. Οι συντακτικοί κανόνες δεν μπορούν να δημιουργήσουν λέξεις ή να αναφερθούν στις εσωτερικές δομές των λέξεων, και κάθε τερματικός κόμβος (ή «φύλλο» του δέντρου) είναι μία λέξη (Falk 2001: 4). Πίσω από αυτόν τον ορισμό, εμπεριέχεται η θέση πως η σύνταξη δεν μπορεί να ερμηνεύσει την εσωτερική δομή των λέξεων (Falk 2001). Για αυτό τον λόγο η σύνταξη ασχολείται με την δομή των φράσεων ενώ η μορφολογία είναι ο κλάδος που ασχολείται με την δομή των λέξεων. Οι Bresnan & McHombo αναφέρουν πως ο κανόνας της Λεξικής Ακεραιότητας δηλώνει ότι οι λέξεις είναι δομημένες με διαφορετικά δομικά στοιχεία και με διαφορετικούς κανόνες σύνθεσης από τις συντακτικές φράσεις. Ειδικότερα, τα μορφολογικά συστατικά των λέξεων είναι λεξικές και υπολεξικές κατηγορίες (θέματα και προθήματα-επιθήματα), ενώ τα συντακτικά συστατικά των φράσεων έχουν τις λέξεις ως ελάχιστες, μη αναλύσιμες περαιτέρω μονάδες. Οι συντακτικοί κανόνες δεν έχουν εφαρμογή στις δομές των μορφημάτων. (Bresnan & McHombo 1995: 181). Ο Falk (2001) αναφέρει δύο από τους λόγους που εξηγούν την διαφορά μεταξύ των δομών των λέξεων αφενός και των φράσεων και προτάσεων αφετέρου. Πρώτον, ενώ διαγλωσσικά στη σύνταξη υπάρχει πολύ μεγάλη ευλυγισία στη σειρά των συστατικών (με διαφορές βέβαια ανάλογα με τις διάφορες γλώσσες, π.χ. στην αγγλική η σειρά είναι περιορισμένη, αλλά και πάλι υπάρχουν κάποιες ελευθερίες), αντίθετα, στη μορφολογία η σειρά είναι αυστηρά καθορισμένη. Δεν υπάρχει ελευθερία στη διάταξη των μορφημάτων. Δεύτερον, η σειρά μεταξύ συντακτικών και μορφολογικών μοτίβων μπορεί να διαφέρει ακόμη και μέσα στην ίδια γλώσσα. 39

40 5.2 Λεξικαλιστική Θεωρία Ο όρος Λεξικαλισμός αναφέρεται στη θεωρητική άποψη της μοντέρνας γενετικής γλωσσολογίας (generative linguistics) σύμφωνα με την οποία οι διαδικασίες που σχηματίζουν σύνθετες λέξεις δικαιολογούνται από μια σειρά Λεξικολογικών Κανόνων, που είναι ανεξάρτητοι και διαφορετικοί από τους αντίστοιχους συντακτικούς κανόνες της γραμματικής (ο σχηματισμός της λέξης δεν εκτελείται από συντακτικές μετατροπές). Τέτοιοι Λεξικολογικοί Κανόνες λειτουργούν σε ένα προσυντακτικό συστατικό, το Λεξικό Το Λεξικό (Lexicon) Η έννοια του Λεξικού στη γενετική Γραμματική έχει υποστεί μία σύνθετη διαδικασία ανάπτυξης. Το Λεξικό δε θεωρούταν ένα αυτόνομο στοιχείο της γραμματικής. Οι κανόνες που εισήγαγαν τα λεξικά στοιχεία ήταν οι τελευταίοι κανόνες των κατηγορηματικών συστατικών και υπήρχε μόνο ένας τύπος κανόνα τόσο για την επέκταση κατηγορηματικών συμβόλων (Εικόνα 17, Ι-ΙΙΙ) όσο και για την εισαγωγή λεξικών στοιχείων (Εικόνα 17, V-VII). Έτσι, μόνο απλές λέξεις μπορούσαν να εισαχθούν με αυτούς τους κανόνες. Εικόνα 17: Αρχικοί τύποι κανόνων στο Λεξικό Ο διαχωρισμός, όμως, του Λεξικού από την επανεγγραφή των κανόνων υπήρξε η πιο σημαντική τροποποίηση. Αυτή η κίνηση επέτρεψε μία σπουδαία απλοποίηση της γραμματικής. Οι λέξεις δε χρειαζόταν πλέον να αντιμετωπιστούν με την επανεγγραφή κανόνων, ενώ συγκεκριμένα χαρακτηριστικά κωδικοποιούνται στο Λεξικό. Σύμφωνα με τον Halle (1973), οι βασικές μονάδες του Λεξικού είναι μορφήματα. Το Λεξικό αποτελεί ένα ανεξάρτητο σύστημα και έχει τους δικούς του κανόνες σχηματισμού λέξεων Η λεξικαλιστική προσέγγιση Η λεξικαλιστική προσέγγιση στο σχηματισμό λέξεων μπορεί κανείς να πει ότι ξεκινά στις αρχές τις δεκαετίας του 70 με δυο θεμελιώδη άρθρα: Το Remarks on Nominalizations (1970) του Chomsky και το Prolegomena to a Theory of Word Formation (1973) του Halle. Έκτοτε, ο Λεξικαλισμός αναπτύχθηκε με ένα γραμμικό και σταθερό τρόπο επιδεικνύοντας μια εντυπωσιακή σειρά εργασιών που συνεισέφεραν στο σχηματισμό ενός μοντέλου το οποίο, στις βασικές του αρχές, έχει υπάρχει πάνω από 30 χρόνια. Ο Siegel (1974) σχεδίασε ένα levelbased μορφολογικό μοντέλο ενώ ο Jackendoff (1975) εξερεύνησε τη σχέση μεταξύ τυπικών και εννοιολογικών μερών των μορφολογικών διαδικασιών μέσω των Redundancy Rules. Λίγο αργότερα, ο Aronoff (1976) έβαλε τα θεμέλια της μορφολογίας ως ειδικού κλάδου της γενετικής γλωσσολογίας. Εστιάζοντας σε πηγαίες διαδικασίες, ο Aronoff βελτίωσε την αντίληψη του κανόνα και ανέπτυξε ένα αρθρωμένο σύστημα περιορισμών προκειμένου να περιοριστεί η υπέρμετρη ισχύς των Κανόνων Σχηματισμού Λέξεων (Word Formation Rules 40

41 (WFRs)) επίσης οραματίστηκε τη σχετικότητα της αντίληψης της παραγωγικότητας και πρότεινε μια μορφολογία βασισμένη στη λέξη. Ακολούθησαν πολλές μελέτες που επέκτειναν τη λεξικαλιστική προσέγγιση σε μια συνεχώς αναπτυσσόμενη ποικιλία γλωσσών και θεμάτων: Booij (1977) στην Ολλανδική, Allen (1978) στην Αγγλική, Pesetsky (1979) στη Ρωσική και Scalise (1980) στην Ιταλική. Πέραν τούτων, πολυάριθμες εργασίες παρουσίασαν νέες θεμελιώδεις απόψεις που συνεισέφεραν στο να δημιουργηθεί μια ολοκληρωμένη και σταθερή μορφολογική θεωρία. Επί παραδείγματι, ο Lieber (1980) πρότεινε το μηχανισμό «φιλτραρίσματος γνωρισμάτων», ο Williams (1981) διατύπωσε μια σημαντική γενίκευση στις μορφολογικές κεφαλές, η Selkirk (1982) βελτιστοποίησε τη «level ordering hypothesis», ο Anderson (1982) έφερε την κλητική (inflectional) μορφολογία στο προσκήνιο. Η προσέγγιση σταδιακά μετατράπηκε σε μια σαφή ομάδα υποθέσεων, ένα αυτόνομο λεξιλόγιο και σε συγκεκριμένες αναλυτικές τεχνικές Σύντομη ιστορία Στην οργάνωση της γλωσσολογικής θεωρίας, η μορφολογία είναι ένα επίπεδο ανάλυσης ανάμεσα στη φωνολογία και το συντακτικό. Με το πέρασμα των χρόνων, η σχέση της μορφολογίας με τα δύο αυτά πεδία έρευνας έχει αλλάξει σημαντικά αρκετές φορές. Στην ευρωπαϊκή συγκριτική γλωσσολογία του 19 ου αιώνα, η μορφολογία βρίσκεται στην καρδιά της ανοικοδόμησης των ινδοευρωπαϊκών γλωσσών. Η μορφολογία ήταν επίσης βασική στην αμερικανική στρουκτουραλιστική γλωσσολογία, παρότι το επίκεντρο της έρευνας ήταν η φωνολογική προσέγγιση. Η μορφολογία ήταν πάντοτε παρούσα στην αμερικανική παράδοση ιδωμένη είτε ως γραμματική διαδικασία (Sapir 1921) είτε ως διάταξη μορφημάτων (Bloomfield 1933). Με την έλευση της πρώιμης Παραγωγικής Γραμματικής (Chomsky 1957), η μορφολογία έχασε κάθε σχέση με τη γενική οργάνωση της θεωρητικής γλωσσολογίας. Μέσα σε αυτό το πλαίσιο εργασίας, το Λεξικό περιείχε μόνο απλές λέξεις ούτε οι συνδυασμοί ούτε οι παράγωγες λέξεις είχαν θέση εκεί. Η μόνη τοποθεσία που θα μπορούσαν να δημιουργηθούν ήταν το μετασχηματιστικό συστατικό που τότε ήταν το μόνο θεωρητικό μέσο ικανό να εκφράσει γραμματικούς συσχετισμούς. Οι κανόνες δομής φράσεων και οι μετασχηματισμοί τους επιτρεπόταν να χειριστούν λέξεις και μορφήματα, επομένως καθιστούσαν περιττή κάθε επιπλέον προδιαγραφή που δικαιολογούσε τη δομή των λέξεων. Την ίδια στιγμή, όλες οι πιθανές μεταβλητές της φόρμας που μπορούσαν να έχουν οι λέξεις και τα μορφήματα (αλλομορφία) είχαν ανατεθεί στο φωνολογικό στοιχείο. Για παράδειγμα, στο Aspects (1965: 184) ο Chomsky πρότεινε να χρησιμοποιούνται μετασχηματισμοί ονοματοποίησης (nominalization transformations) ως υπεύθυνοι για τη σύνδεση μεταξύ ζευγών λέξεων όπως καταστρέφω/καταστροφή (destroy/destruction), υποστηρίζοντας ότι «οι φωνολογικοί κανόνες θα καθορίζουν ότι ουσιαστικό+καταστρέφω σημαίνει καταστροφή». Επιπλέον, διαχειρίστηκαν την κλιτική φωνολογία με παρόμοιο τρόπο: οι Chomsky και Halle (1968) ανέλυσαν τόσο τις ομαλές όσο και τις ανώμαλες ρηματικές μορφές όπως τα αγγλικά sang και mended ως sing+παρελθόν και mend+παρελθόν αντίστοιχα, όπου «παρελθόν είναι μια μορφή με μια δομή αυθαίρετων γνωρισμάτων που χαρακτηρίζεται από συντακτικούς κανόνες» (Chomsky & Halle 1968: 11). 41

42 Η παραγωγική γλωσσολογία εκείνης της εποχής δε διέθετε επαρκείς μηχανισμούς για τέτοια φαινόμενα: η θεωρία δεν προϋπέθετε καν μορφολογικούς κανόνες. Ωστόσο, οι μετασχηματισμοί δεν ήταν κατάλληλοι να εξηγήσουν μορφολογικά γεγονότα: είχαν δημιουργηθεί για να χειρίζονται συντακτικά φαινόμενα, δηλαδή εντελώς παραγωγικά, κοινά και ομαλά φαινόμενα. Οι λέξεις, από την άλλη μεριά, τείνουν να είναι λιγότερο ομαλές (πχ destroy δεν δίνει destroy-ation) και, μερικές φορές, υφίστανται ιδιαίτερες λεξικοποιήσεις (lexicalization) (για παράδειγμα transmission ως «η πράξη του transmitting σε αντίθεση με transmission ως το κιβώτιο ταχυτήτων ενός αυτοκινήτου) επιπλέον, οι περισσότερες λεκτικές διαδικασίες δεν είναι πλήρως παραγωγικές (το ρήμα read δεν δίνει read-ation). Μερικά χρόνια αργότερα, στο Remarks on Nominalization, ο Chomsky πρότεινε ότι αυτά τα γεγονότα μπορούν να εξηγηθούν καλύτερα από τους λεξικολογικούς κανόνες: «χαρακτηριστικοί μορφολογικοί κανόνες θα καθορίζουν τη φωνολογική μορφή των refuse, destroy κτλ, όταν αυτά τα αντικείμενα εμφανίζονται σε θέση ουσιαστικού» (Chomsky 1970: 271). Οι γλωσσολόγοι σταδιακά πείστηκαν ότι οι κανόνες που διαφέρουν από τους μετασχηματισμούς θα πρέπει να χρησιμοποιούν το Λεξικό για να σχηματίσουν σύνθετες λέξεις Λεξικαλισμός Στο Remarks on Nominalization ο Chomsky ξεκίνησε μια εντελώς διαφορετική οπτική στα μορφολογικά φαινόμενα, προτείνοντας ότι τουλάχιστον κάποιες σύνθετες λέξεις εξηγούνται καλύτερα ως λεκτικοί σχηματισμοί παρά ως μετασχηματισμοί: οι παραγόμενες σύνθετες λέξεις (derived complex words) χτίζονται στο Λεξικό και οι κλιτές σύνθετες λέξεις (inflected complex words) παράγονται από τους συντακτικούς μετασχηματισμούς. Αυτή η ιδέα έθεσε τα θεμέλια για μια πιο δυναμική οπτική του Λεξικού Ο λεξικαλισμός σήμερα Η λεξικαλιστική υπόθεση σε μια ισχυρή της εκδοχή είναι μάλλον δύσκολο να διατηρηθεί με σεβασμό σε μια σειρά αντιπαραδειγμάτων που χαρακτηρίζονται από εμπειρική έρευνα. Αυτά τα αντιπαραδείγματα οδηγούν κάποιους γλωσσολόγους να συλλάβουν το μορφολογικό επίπεδο σαν να έχει κάποια αναγκαστική διάδραση με το συντακτικό. Η διάδραση αυτή, όπως εννοείται σε διάφορες μελέτες, εκτείνεται από τη λεγόμενη Αδύναμη Λεξικαλιστική Υπόθεση (Weak Lexicalist Hypothesis) (που αναθέτει την κλιτική μορφολογία στο συντακτικό επίπεδο) στο άνοιγμα κάποιων συστηματικών περιοχών όπου η μορφολογία και το συντακτικό «συνομιλούν», στο χειρισμό όλων των μορφολογικών φαινομένων μέσω συντακτικών διαδικασιών (το αντίθετο δηλαδή του λεξικαλισμού). Ισχυρά λεξικαλιστικά μοντέλα είναι απαραιτήτως γραμμικά: το μορφολογικό επίπεδο (Λεξικό + Κανόνες Σχηματισμού Λέξεων) παρέχει απλές και σύνθετες λέξεις, τροφοδοτώντας τις δομές που δημιουργούνται από το συντακτικό. Το μοναδικό σημείο επαφής μεταξύ των δύο επιπέδων σε αυτά τα μοντέλα είναι η λεκτική εισαγωγή, ο μηχανισμός με τον οποίο τερματικοί κόμβοι σε ένα συντακτικό δέντρο είναι «γεμάτοι» με λέξεις. Το ακόλουθο είναι ένα απλοποιημένο διάγραμμα αυτής της σχέσης: 42

43 Εικόνα 18: Επικοινωνία Μορφολογίας Συντακτικού Στην εικόνα 18, η επικοινωνία μεταξύ μορφολογίας και συντακτικού ελαχιστοποιείται όσο το δυνατό περισσότερο. Το Λεξικό τροφοδοτεί το αρχικό σημείο των συντακτικών προελεύσεων, αφήνοντας τη φωνολογική και την εννοιολογική ερμηνεία να λάβουν χώρα αφού ο συντακτικός υπολογισμός έχει γίνει ήδη Συμπεράσματα Η ανάπτυξη της λεξικαλιστικής προσέγγισης στη μορφολογία που περιγράφεται σε αυτή την ενότητα μπορεί να συνοψιστεί στις ακόλουθες φράσεις: 1. Ο λεξικαλισμός προήλθε αφαιρώντας το υπολογιστικό κενό της γραμματικής τόσο στη φωνολογία όσο και στο συντακτικό (Εικόνα 19): Εικόνα 19: Μορφολογία - Φωνολογία - Συντακτικό 2. Η λεξικαλιστική προσέγγιση οδήγησε στην ανάπτυξη μιας θεωρίας όπου η μορφολογία θεωρείται ξεχωριστό επίπεδο με τη δική του ομάδα αρχών (διαφορετικά από τις αρχές του συντακτικού)(εικόνα 20): Εικόνα 20: Η μορφολογία ως ξεχωριστό επίπεδο 43

44 3. Η ανακάλυψη νέων δεδομένων, βαθύτερων αναλύσεων και ερευνών πάνω σε οριακά φαινόμενα καθώς και η μελέτη σχετικών γλωσσών, έφεραν στο φως γεγονότα που δεν μπορούσαν να απαντηθούν υπό ένα αυστηρώς διαχωριστικό περιβάλλον, μελετώντας την αυτονομία της μορφολογίας στην αρχιτεκτονική της γραμματικής (με σεβασμό στο συντακτικό). 4. Υπό το φως των παραπάνω, εμφανίστηκαν διάφορες αντιδράσεις: ανάμεσα σε αυτές, η ενδιάμεση επαναδιατύπωση της λεξικαλιστικής υπόθεσης γνωστής ως Αδύναμος Λεξικαλισμός (Weak Lexicalism), αλλά και το άκρως αντίθετο του λεξικαλισμού, δηλαδή η επαναπορρόφηση όλων των μορφολογικών φαινομένων στον τομέα της συντακτικής θεωρίας. Όπως απορρέει από τα παραπάνω, σήμερα υπάρχει μια γενικότερη συμφωνία ότι στη μορφολογία και το συντακτικό πρέπει να επιτρέπεται να αλληλεπιδρούν, παρά να αλληλοαγνοούνται (Εικόνα 21). Εικόνα 21: Επικοινωνία μορφολογίας - συντακτικού Ο βαθμός επικοινωνίας μεταξύ μορφολογίας και συντακτικού που πρέπει να καθοριστεί πλήρως, ωστόσο, δεν είναι απόλυτος. Υπάρχουν κάποια ξεκάθαρα πεδία αλληλεπίδρασης, συγκεκριμένα, μορφολογικά φαινόμενα που μπορούν να πάρουν συντακτικά αντικείμενα ως βάση, αλλά όχι το αντίστροφο. Αυτό σηματοδοτεί ως ένα βαθμό την ανεξαρτησία της μορφολογίας και του συντακτικού ως ξεχωριστές μονάδες της γραμματικής. 5.3 Δομές αναπαράστασης της LFG Η κατά LFG γλωσσική ανάλυση περιλαμβάνει μία σειρά από παράλληλες προβολές όπου η γλωσσική πληροφορία αναπαρίσταται με την παράλληλη χρήση πολλών, διαφορετικών δομών ή αλλιώς προβολών (projections). Κάθε προβολή έχει διαφορετικούς κανόνες και τρόπο συμβολισμού. Οι δομές αυτές σχετίζονται με συναρτήσεις αντιστοίχισης (correspondence functions) ή συναρτήσεις προβολών (projection functions) (Εικόνα 22). 44

45 Εικόνα 22: Αρχιτεκτονική παράλληλης προβολής LFG Η δομή της ΛΛΓ είναι αρκετά απλή: υπάρχουν δύο δομές συντακτικής αντιπροσώπευσης των προτάσεων, η δομή συστατικών (constituent structure ή c-structure) και η λειτουργική δομή (functional structure ή f- structure) (στο εξής θα αναφερόμαστε σε αυτές ως σ-δομή και λ- δομή). Η σ-δομή ορίζει την ιεραρχική σύνθεση των λέξεων σε ευρύτερες μονάδες ή φραστικά συστατικά, ενώ η λ-δομή είναι μία απεικόνιση των γραμματικών συναρτήσεων όπως το υποκείμενο, το αντικείμενο κ.α. (Wescoat 1985: 1), καθώς και αφηρημένων χαρακτηριστικών όπως ο χρόνος και η πτώση (Dalrymple 2001). Αναλυτικότερα: Συστατική δομή Η σ-δομή αποτελεί ένα επίπεδο ανάλυσης στο οποίο παρέχονται πληροφορίες για τη σειρά των όρων της πρότασης (word order), τη φραστική κατηγορία στην οποία ανήκει κάθε συστατικό και την ιεράρχηση των φραστικών συστατικών. Η σ-δομή αναπαρίσταται με δενδροδιαγράμματα. Στην εικόνα 23, η πρόταση «η Δανάη διαβάζει ένα βιβλίο» αναπαρίσταται σε δ-δομή, με μορφή δεντροδιαγράμματος. Εικόνα 23: Η σ-δομή στην LFG Λειτουργική δομή Η λ-δομή αποτελεί ένα πεπερασμένο σύνολο ζευγών χαρακτηριστικού-τιμής, τα οποία απεικονίζονται με τη μορφή πίνακα, τους λεγόμενους πίνακες χαρακτηριστικών-τιμών. Κάθε χαρακτηριστικό αντιστοιχεί σε μία συμβολοσειρά (symbol). Οι τιμές μπορούν να είναι 45

46 σταθερές ή και λ-δομές. Συνήθως, τα χαρακτηριστικά που αναπαριστούν γραμματικές συναρτήσεις δέχονται ως τιμές λ-δομές. Εκτός αυτών, τα χαρακτηριστικά μπορεί να έχουν ως τιμές, σύνολα (sets) ή σημασιολογικούς τύπους (semantic forms). Ο σημσιολογικός τύπος είναι μία συμβολοσειρά που εμφανίζεται σε μονά εισαγωγικά (π.χ. Μαρία, παγωτό ) και δηλώνει τη σημασιολογική ερμηνεία της λέξης. Επίσης, ένας σημσιολογικός τύπος(π.χ. ρήμα) μπορεί να φέρει ορίσματα που τοποθετούνται μέσα σε τριγωνικές αγκύλες (π.χ. θέλω <SUBJ, OBJ> ). Το ζεύγος χαρακτηριστικό-τιμή, στο οποίο η τιμή είναι ο σημασιολογικός τύπος ονομάζεται σημασιολογικό χαρακτηριστικό (semantic feature) και χρησιμοποιείται συνήθως ως τιμή για την ιδιότητα PRED. Στην εικόνα 24, η πρόταση «η Δανάη διαβάζει ένα βιβλίο» αναπαρίσταται σε λ-δομή. Εικόνα 24: Η λ-δομή στην LFG Οι γλώσσες διαφέρουν ιδιαίτερα στη σειρά των λέξεων και στη φραστική δομή. H θεωρία της συστατικής δομής επιτρέπει αυτή την ποικιλία μέσα από κάποιες οικουμενικά καθορισμένες παραμέτρους. Αντίθετα, όλες οι γλώσσες μοιράζονται το ίδιο λειτουργικό λεξιλόγιο. Σύμφωνα με τη θεωρία της λειτουργικής δομής της LFG, η αφηρημένη συντακτική δομή κάθε γλώσσας οργανώνεται με όρους υποκειμένου, αντικειμένου, και άλλων γραμματικών συναρτήσεων, οι περισσότεροι από τους οποίους είναι γνώριμοι από παραδοσιακές αντιμετωπίσεις της γραμματικής (Dalrymple 2001). Η ύπαρξη δύο ανεξάρτητων δομών, σ-δομή και λ-δομή, οι οποίες αναπαριστούν σαφώς διακεκριμένη γνώση, είναι ιδιαίτερα χρήσιμη για την αντιπροσώπευση όλων των γλωσσών. 46

47 5.3.3 Σχέση συστατικής και λειτουργικής δομής Η συστατική και η λειτουργική δομή συνδέονται μεταξύ τους με τη χρήση λειτουργικών εξισώσεων, οι οποίες αποτελούν τις μετα-μεταβλητές της λειτουργικής δομής. Σε κάθε κανόνα υπάρχουν τα σύμβολα και. Το ανοδικό βέλος τοποθετείται στον τερματικό κόμβο και ενοποιεί την πληροφορία που έρχεται από τον υποκείμενο κόμβο ή το λεξικό με την πληροφορία που συνεισφέρει ο υπερκείμενος κόμβος. Το καθοδικό βέλος είναι αυτό που επιτρέπει σε κάθε κόμβο να διατηρήσει τα χαρακτηριστικά του. Η διαδικασία αυτή ονομάζεται από τη βιβλιογραφία «πραγμάτωση» (instantiation). Τα δύο αυτά σύμβολα λέγονται και μετα-μεταβλητές (metavariables) στη σχετική βιβλιογραφία, καθότι αντικαθίστανται από τις μεταβλητές των λ-δομών (Wescoat 1985) Στην Εικόνα 25 απεικονίζεται γραφικά αυτή η διαδικασία: Εικόνα 25: Η σχέση μεταξύ συντακτικών δέντρων και λ-δομών (Wescoat 1985: 9) 47

48 Όπως φαίνεται και από την Εικόνα 25, τα χαρακτηριστικά (π.χ. τα χαρακτηριστικά PRED (κατηγόρημα), NUM (αριθμός), PERS (πρόσωπο)) αρχικά ανεβαίνουν από το επίπεδο του λεξικού με τη χρήση του ανοδικού βέλους. Στη συνέχεια, στο συντακτικό δέντρο, το καθοδικό δηλώνει στον εκάστοτε κόμβο να κρατήσει την πληροφορία που έχει λάβει, και στη συνέχεια το ανοδικό τη μεταφέρει στον υπερκείμενο κόμβο. Αυτό το απλό σύστημα επιτρέπει την εύκολη σύνδεση μεταξύ των δύο δομών (λειτουργικών και συστατικών). 5.4 Γραμματικές συναρτήσεις Στην LFG οι γραμματικές συναρτήσεις δεν έχουν το ρόλο που έχουν στη μετασχηματιστική σύνταξη. Οι γραμματικές συναρτήσεις είναι στοιχεία συντακτικής αντιπροσώπευσης, αλλά ένα είδος αντιπροσώπευσης που βρίσκεται σε παραλληλία με την συστατική δομή (Falk 2001). Δεν αναπαρίστανται ως δενδροδιαγράμματα, αλλά ως χαρακτηριστικά στις λειτουργικές δομές. Οι γραμματικές συναρτήσεις χωρίζονται σε δύο κατηγορίες, τις κυβερνώμενες (governable) και τις μη κυβερνώμενες (non- governable) Κυβερνώμενες γραμματικές συναρτήσεις Οι γραμματικές συναρτήσεις που μπορεί να κυβερνά ένα κατηγόρημα, ονομάζονται κυβερνώμενες γραμματικές συναρτήσεις (Dalrymple 2001). Οι γραμματικές συναρτήσεις είναι καθολικές, αν και ίσως μία γλώσσα να μην τις περιλαμβάνει όλες. Συνολικά, οι κυβερνώμενες γραμματικές συναρτήσεις είναι οι εξής: SUBJ, OBJ, COMP, XCOMP, OBJ2, OBLθ Παρακάτω περιγράφονται εν συντομία: Υποκείμενο (SUBJ): το υποκείμενο Αντικείμενο (OBJ): το αντικείμενο Ελεύθερο προτασιακό συμπλήρωμα (COMP): προτασιακό συμπλήρωμα (δευτερεύουσα πρόταση), του οποίου το υποκείμενο είναι ανεξάρτητο από το υποκείμενο ή αντικείμενο του ρήματος της κύριας. Δεσμευμένο προτασιακό συμπλήρωμα (XCOMP): ένα ανοιχτό (κατηγορηματικό) συμπλήρωμα (για τα ελληνικά δευτερεύουσα πρόταση ή κατηγορούμενο), το οποίο ελέγχεται από το υποκείμενο ή το αντικείμενο του ρήματος της κύριας πρότασης. Για να προσδιοριστεί η πληροφορία που φέρει το ελεγχόμενο υποκείμενο, χρησιμοποιούνται οι λεγόμενες λειτουργικές εξισώσεις (functional-equations), οι οποίες γενικά χρησιμοποιούνται για να ορίσουν την απεικόνιση από την σ-δομή στη λ-δομή και να «φορτώσουν» με πληροφορία τη λ-δομή. Έμμεσο αντικείμενο (OBJ2): πρόκειται για ένα θεματικά περιορισμένο αντικείμενο. Στα ελληνικά αναφέρεται ως έμμεσο αντικείμενο και πιθανόν να είναι το δεύτερο αντικείμενο σε δομές δίπτωτων ρημάτων: π.χ. παίρνω του Κώστα ένα δώρο. Το αντικείμενο αυτό δεν μπορεί 48

49 στα ελληνικά να έρθει σε θέση υποκειμένου σε περίπτωση παθητικοποίησης (* Ο Κώστας πάρθηκε ένα δώρο από μένα). Πλάγια ορίσματα (OBLθ): πρόκειται για πλάγια ορίσματα τα οποία προϋποθέτει το ρηματικό κατηγόρημα. Είναι είτε σημασιολογικές πτώσεις είτε προθετικές φράσεις, και έχουν έναν συγκεκριμένο θεματικό ρόλο. Ο θεματικός ρόλος αντλείται από μία ομάδα θεματικών ρόλων, η οποία ενδεικτικά περιλαμβάνει τα OBLSOURCE, OBLAGENT, OBLINSTRUMENT, OBLBENEFACTIVE κ.α Μη κυβερνώμενες γραμματικές συναρτήσεις Πρόκειται για γραμματικές συναρτήσεις, οι οποίες δεν επιλέγονται από την κεφαλή της φράσης και των οποίων η απουσία δεν επηρεάζει τη σημασία της φράσης. Συνολικά, οι κυβερνώμενες γραμματικές συναρτήσεις είναι οι εξής: ADJ, XADJ Παρακάτω περιγράφονται εν συντομία: Ανεξάρτητο Προσάρτημα (ADJ): σε μία πρόταση αποτελεί στοιχείο προαιρετικό, μη ελεγχόμενο, και δύναται να απουσιάζει χωρίς να διαστρεβλώνεται η βασική σημασία του ρήματος, ούτε να επηρεάζεται η γραμματικότητα της δομής. Δεν ανήκει στα ορίσματα του ρηματικού κατηγορήματος, και πραγματώνεται -μεταξύ άλλων- από επίθετα, επιρρήματα, μετοχές, προθετικές φράσεις κ.α. Εξαρτημένο προσάρτημα (XADJ): το εξαρτημένο (ή δεσμευμένο) προσάρτημα, είναι προαιρετικό στοιχείο, το οποίο όμως ελέγχεται από ένα από τα ορίσματα του ρηματικού κατηγορήματος (π.χ. υποκείμενο, αντικείμενο), από όπου παίρνει και την τιμή του Γραμματικές συναρτήσεις ομιλίας Πρόκειται για μία τρίτη κατηγορία γραμματικών συναρτήσεων, οι οποίες σχετίζονται με τον συνεχή λόγο (discourse). Σε αυτές ανήκουν τρεις συναρτήσεις: οι TOPIC, FOCUS, SUBJ. Το υποκείμενο (SUBJ) είναι η μόνη κυβερνώμενη γραμματική συνάρτηση ομιλίας (Asudeh & Toivonen 2009). Σε πολλές γλώσσες το SUBJ ορίζεται εξ ορισμού ως TOPIC. Όσον αφορά τα άλλα δύο, το TOPIC και το FOCUS δεν επιλέγονται ευθέως, αλλά μάλλον ενσωματώνονται στη λειτουργική δομή μέσω της εκτεταμένης αρχής της συνεκτικότητας (Extended Coherence Condition) (Asudeh & Toivonen 2009). Όπως γράφει η Dalrymple: Όταν μία λειτουργική δομή περιέχει μία συνάρτηση TOPIC ή FOCUS, τότε η αρχή της εκτεταμένης συνεκτικότητας απαιτεί (η συνάρτηση) να ενσωματωθεί στην λειτουργική δομή είτε αναφορικά είτε λειτουργικά δεσμεύοντας μια (binding) άλλη λειτουργική δομή στην πρόταση (Dalrymple 2001: 390). 49

50 Το θέμα (TOPIC) αναδεικνύει ό,τι βρίσκεται υπό συζήτηση, είτε αν αυτό αναφέρθηκε προηγουμένως, είτε αν υποτέθηκε στην ομιλία (discourse) (Chafe 1976). Το FOCUS αναπαριστά την εστίαση σε αυτό που γίνεται λόγος. Και οι δύο αυτές συναρτήσεις τοποθετούνται στην αρχή της πρότασης, και προτάσσονται για να δοθεί έμφαση, ή νέα πληροφορία. 5.5 Αξιώματα της LFG Μία λειτουργική δομή για να είναι ορθώς σχηματισμένη πρέπει να τηρούνται τρεις αρχές/αξιώματα, η αρχή της Μοναδικότητας (Uniqueness), της Πληρότητας (Completeness), και της Συνεκτικότητας (Coherence). Η αρχή της Μοναδικότητας σχετίζεται με τις τιμές των χαρακτηριστικών, ενώ οι άλλες δύο σχετίζονται με τις γραμματικές συναρτήσεις που βρίσκονται μέσα στις λειτουργικές δομές. Στην Λεξική Λειτουργική Γραμματική τα αξιώματα της Πληρότητας (Completeness) και της Συνεκτικότητας (Coherence) εξασφαλίζουν ότι οι κυβερνώμενες γραμματικές συναρτήσεις μπορούν να βρίσκονται στη λειτουργική δομή μίας γραμματικά αποδεκτής πρότασης μόνο όταν επιλέγονται από ένα κατηγόρημα (predicate) (Dalrymple 2001). Παρακάτω περιγράφονται κάπως αναλυτικότερα οι τρεις αρχές: Αρχή της Μοναδικότητας Η αρχή της Μοναδικότητας (Uniqueness/Consistency) απαιτεί κάθε χαρακτηριστικό κάθε λειτουργικής δομής να έχει μία μόνο τιμή (Asudeh & Toivonen 2009), και όχι παραπάνω. Δεν είναι επιτρεπτή η ανάθεση πολλών τιμών σε ένα χαρακτηριστικό. Εικόνα 26: Παραβίαση της αρχής της Μοναδικότητας Στο Εικόνα 26 παραβιάζεται η Μοναδικότητα, γιατί το χαρακτηριστικό του αριθμού φαίνεται να παίρνει δύο τιμές: και ενικό και πληθυντικό, κάτι που δεν είναι δυνατό. 50

51 5.5.2 Αρχή της Πληρότητας Η αρχή της Πληρότητας σημαίνει ότι εάν μία γραμματική συνάρτηση αναφέρεται στην ορισματική δομή ενός κατηγορήματος, τότε αυτή πρέπει να αντιπροσωπεύεται στη λ-δομή (Wescoat 1985) (Asudeh & Toivonen 2009). Το παρακάτω παράδειγμα είναι κατατοπιστικό του αξιώματος αυτού: Ο Νίκος μετράει. Αν υποτεθεί ότι η λεξική πληροφορία για το ρήμα μετράει είναι η παρακάτω: μετράει V ( PRED) = ΜΕΤΡΑΩ <( SUBJ)( OBJ)> ( SUBJ NUM) = SG ( SUBJ PERS) = 3 Η λ-δομή που θα δημιουργηθεί με βάση την λεξική πληροφορία του ρήματος και την παραπάνω πρόταση αναπαρίσταται στην Εικόνα 27: Εικόνα 27: Παραβίαση της αρχής της Πληρότητας Αυτή όμως η δομή είναι ελλιπής γιατί δεν ικανοποιεί την ανάγκη που υπαγορεύεται από το πλαίσιο υποκατηγοριοποίησης του ρήματος. Έτσι το όρισμα OBJ, για το οποίο απαιτείται μία τιμή, δεν ικανοποιείται και συνεπώς παραβιάζεται η αρχή της Πληρότητας. 51

52 5.5.3 Αρχή της Συνεκτικότητας Η αρχή της Συνεκτικότητας (Coherence) όπως σχολιάζει ο Wescoat (1985) θα μπορούσε να ιδωθεί ως το αντίστροφο της αρχής της Πληρότητας. Αυτή η αρχή περιορίζει τις κυβερνώμενες γραμματικές συναρτήσεις που μπορούν να υπάρχουν μέσα στις λ-δομές (Wescoat 1985). Κατά την αρχή της Συνεκτικότητας λοιπόν, μία λειτουργική δομή είναι συνεκτική μονάχα εάν όλες οι κυβερνώμενες γραμματικές συναρτήσεις που περιέχει, αποτελούν απαίτηση ενός κατηγορήματος (Asudeh & Toivonen 2009). Παρακάτω παρατίθενται μία μη συνεκτική (Εικόνα 28) και μία συνεκτική (Εικόνα 29) λ-δομή, προκειμένου να παρουσιαστεί πιο εύληπτα η αρχή αυτή: Εικόνα 28: Παράδειγμα μη συνεκτικής δομής Όπως φαίνεται στην παραπάνω δομή, η δομή OBJ δεν κυβερνάται από το κατηγόρημα του ρήματος, και παραβιάζεται έτσι η αρχή της Συνεκτικότητας. Αντίθετα, στην παρακάτω εικόνα, το κατηγόρημα έχει δύο ορίσματα, όσα και οι κυβερνώμενες γραμματικές συναρτήσεις που περιέχονται στην λ-δομή του, και έτσι τηρείται η αρχή: 52

53 Εικόνα 29: Παράδειγμα συνεκτικής δομής 53

54 6. Το μορφολογικό λεξικό για την ελληνική γραμματική LFG/XLE Σκοπός της παρούσας εργασίας είναι η ανάπτυξη ενός μορφολογικού αναλυτή, ο οποίος παράγει το αντίστοιχο λεξικό για την ελληνική γραμματική LFG/XLE. Το παρόν λογισμικό υλοποιεί τη σύνδεση του μορφολογικού αναλυτή (επισημειωτή) του ΙΕΛ με την πλατφόρμα ανάπτυξης γραμματικών συντακτικής ανάλυσης XLE για την ελληνική γλώσσα. Συγκεκριμένα, το πρόγραμμα λαμβάνει ως είσοδο ένα οποιοδήποτε αρχείο κειμένου, και αφού συνδεθεί με τον server του ΙΕΛ (ILSP Server) λαμβάνει τις επισημειωμένες λεκτικές μονάδες ως απάντηση και δημιουργεί λεξικό χωρισμένο σύμφωνα με τα μέρη του λόγου στην Ελληνική Γλώσσα και ταξινομημένο αλφαβητικά. Το λεξικό αυτό παρέχει μορφολογική πληροφορία. Η ανάπτυξη του λογισμικού έγινε σε περιβάλλον NetBeans IDE 8.0 με τη χρήση της γλώσσας προγραμματισμού Java. 6.1 Η γλώσσα προγραμματισμού JAVA Η ανάπτυξη του λογισμικού έγινε με τη χρήση της γλώσσας προγραμματισμού Java. Η Java είναι μια αντικειμενοστρεφής (object oriented) γλώσσα προγραμματισμού, η οποία σχεδιάστηκε από τη Sun Microsystems (πλέον Oracle Corporation). Ένα από τα βασικά πλεονεκτήματα της Java έναντι των περισσότερων άλλων γλωσσών είναι η ανεξαρτησία από το λειτουργικό σύστημα και την πλατφόρμα. Επί του παρόντος, υποστηρίζονται τα λειτουργικά συστήματα Linux, OS X, Solaris και Windows. Ένα ακόμα χαρακτηριστικό της Java, σε σχέση με άλλες γλώσσες προγραμματισμού είναι η εγγενής υποστήριξη του Unicode. Το Unicode είναι ένα διεθνές πρότυπο κωδικοποίησης χαρακτήρων που έχει τη δυνατότητα αναπαράστασης χαρακτήρων για τις περισσότερες γλώσσες. Έχει καθιερωθεί ως η προτιμότερη κωδικοποίηση για χρήση σε πολυγλωσσικά υπολογιστικά συστήματα και εφαρμογές. Βασικές έννοιες της Java είναι το αντικείμενο (object) και η κλάση (class). Η Java χρησιμοποιεί κλάσεις για να οργανώσει τον κώδικα σε λογικές ενότητες. Ουσιαστικά πρόκειται για κάποιο αρχείο πηγαίου κώδικα (source code) ή εκτελέσιμου κώδικα (object code). Ένα αντικείμενο είναι στιγμιότυπο (instance) μίας κλάσης, υπάρχει δε η δυνατότητα να υπάρχουν περισσότερα του ενός αντικείμενα που να είναι στιγμιότυπα της ίδιας κλάσης. Μία κλάση μπορεί να περιέχει μεθόδους (methods) και πεδία (fields). Οι μέθοδοι καθορίζουν τη συμπεριφορά ενός αντικειμένου. Τα πεδία περιέχουν δεδομένα σχετικά με την κατάσταση αυτού του αντικειμένου. 6.2 Το περιβάλλον NetBeans Το NetBeans 7 είναι ένα επιτυχημένο ερευνητικό έργο ανοιχτής πηγής (open source) με μεγάλο αριθμό χρηστών, μια αναπτυσσόμενη κοινωνία, κοντά στους 100 (και πλέον) συνεργάτες παγκοσμίως. Η Sun Microsystems ίδρυσε το ερευνητικό έργο ανοιχτής πηγής NetBeans τον Ιούνιο του 2000 και συνεχίζει να είναι ο κύριος ανάδοχος. Σήμερα υπάρχουν δύο ερευνητικά έργα: Το NetBeans IDE και το NetBeans Platform

55 Το NetBeans IDE είναι ένα περιβαλλοντικό ανάπτυγμα IDE - ένα εργαλείο που παρέχεται στους προγραμματιστές για να γράψουν, να κάνουν compile, debug και να αναπτύξουν προγράμματα. Είναι γραμμένο σε Java - αλλά μπορεί να υποστηρίξει όλες τις γλώσσες προγραμματισμού. Υπάρχει επίσης ένας μεγάλος αριθμός υπομονάδων (modules) που βοηθάνε στην επέκταση της λειτουργικότητας του NetBeans IDE. Το NetBeans IDE είναι ένα ελεύθερο προϊόν δίχως περιορισμούς στον τρόπο χρήσης του. Διαθέσιμο επίσης είναι το NetBeans Platform, ένα εκτατό θεμέλιο αποτελούμενο από υπομονάδες (modular) που χρησιμοποιείται σαν βάση λογισμικού για τη δημιουργία μεγάλων επιτραπέζιων (desktop) εφαρμογών. Οι ISV συνεργάτες διαθέτουν προσθήκες, επιπρόσθετα προγράμματα (plug-ins) που εύκολα συνενώνονται στο Platform και μπορούν επίσης να χρησιμοποιηθούν για την ανάπτυξη άλλων εργαλείων και λύσεων. Και τα δύο τα προϊόντα είναι ανοιχτής πηγής (open source) και ελεύθερα για εμπορική ή μη χρήση. Ο κώδικας πηγής (source code) είναι διαθέσιμος για επαναχρησιμοποίηση κάτω από το Common Development and Distribution License (CDDL). Το NetBeans IDE αποτελεί ένα ενσωματωμένο περιβάλλον ανάπτυξης (Integrated Development Environment - IDE) εφαρμογών. Αρχικά χρησιμοποιήθηκε για την ανάπτυξη εφαρμογών Java αλλά πλέον χρησιμοποιείται και για άλλες γλώσσες όπως PHP, C/C++, και HTML5. Με τις τελευταίες εκδόσεις έχει εξελιχθεί σε ένα ισχυρό πρόγραμμα επεξεργασίας για web scripting. Συγκεκριμένα υποστηρίζει: Java SE, JavaFX Web & Java EE Java ME HTML και XHTML CSS Javascript PHP (Έκδοση 6.5 και μετά) C/C++ Ruby και άλλα 6.3 Ο μορφολογικός αναλυτής Με το πρόγραμμα που αναπτύχθηκε πραγματοποιείται η ανταλλαγή δεδομένων με τον ILSP server και η επεξεργασία τους ώστε να παραχθεί αρχείο λεξικού LFG/XLE. O μορφολογικός αναλυτής ακολουθεί την εξής διαδικασία: Αρχικά, γίνεται έλεγχος στον φάκελο corpus, στον οποίο έχουμε αποθηκεύσει τα προς ανάλυση txt αρχεία. Για κάθε ένα ξεχωριστά, πραγματοποιείται σύνδεση με τον server του ΙΕΛ, αποστέλλεται το txt αρχείο και λαμβάνεται η μορφολογική ανάλυση σε XML μορφή, η οποία αποθηκεύεται σε ένα xml αρχείο στον φάκελο xml. Ακολούθως, δημιουργείται το TSV αρχείο που περιλαμβάνει αταξινόμητη και καθαρή την πληροφορία της τριπλέτας που εξάγαμε από το xml. Οι εγγραφές είναι οργανωμένες κατά στήλες word, lemma, tag. 55

56 Στην αρχή του προγράμματος έχει πραγματοποιηθεί η φόρτωση της βιβλιοθήκης, η οποία έχει δημιουργηθεί για την αντιστοίχηση IEL και LFG/XLE χαρακτηριστικών, τα οποία συνθέτουν τα tags. Τα χαρακτηριστικά αυτά αποτελούν προσαρμογή γενικότερων προδιαγραφών για την LFG/XLE στις ανάγκες της Ελληνικής. Η προσαρμογή αυτή έχει γίνει από την Ερασμία Κωλέττη (προσωπική επικοινωνία). Χαρακτηριστικά που δεν περιλαμβάνονταν στην πιο πάνω λίστα ακολουθούν το tagset του ΙΕΛ. Αναλυτικά παρατίθενται στο Παράρτημα 3. Ακολούθως, δημιουργείται το τελικό αρχείο λεξικού LFG, το οποίο περιλαμβάνει τη μορφολογική ανάλυση όλων των λέξεων οι οποίες απαντώνται στο αρχικό αρχείο txt που δώσαμε προς επεξεργασία. Η γενική μορφή της συντακτικής εγγραφής είναι η ακόλουθη: word part-of-speech @tagn lemma }. Κάθε λήμμα μπορεί να αντιστοιχεί σε περισσότερες της μίας λέξης, αφού μια λέξη μπορεί να εμφανίζεται πολλές φορές στο κείμενο σε διαφορετικούς γραμματικούς τύπους. Οι διαφορετικές γραμματικές εμφανίσεις του ιδίου λήμματος καταγράφονται ως ζεύγος, το ένα μέλος του οποίου είναι το λήμμα και το άλλο μία διάζευξη με μέλη τα αντίστοιχα tags (η διάζευξη δίνεται μέσα σε αγκύλες όπως φαίνεται παραπάνω). Η μορφή του λεξικού πληροί τις παρακάτω προδιαγραφές: Κάθε λέξη του κειμένου (word) αντιστοιχίζεται σε tag(s) και lemma. Ο διαχωρισμός των λέξεων γίνεται σύμφωνα με τα μέρη του λόγου. Μέσα σε κάθε μέρος του λόγου, πραγματοποιείται αλφαβητική ταξινόμηση. Γίνεται αφαίρεση των διπλών όρων (duplicates). Γίνεται συνένωση των λέξεων που έχουν το ίδιο lemma (concatenation). Στην επόμενη ενότητα, 6.4 Εγχειρίδιο χρήστη, μπορεί κανείς να δει βήμα-βήμα τη διαδικασία που ακολουθεί ο χρήστης ώστε να λάβει τη μορφολογική ανάλυση ενός κειμένου. Ακολουθεί το διάγραμμα ροής του λογισμικού (Εικόνα 30): 56

57 Εικόνα 30: Διάγραμμα ροής του λογισμικού 57

58 6.4 Εγχειρίδιο χρήστη ΣΚΟΠΟΣ ΕΦΑΡΜΟΓΗΣ: Η παρούσα εφαρμογή αναπτύχθηκε με σκοπό την ανάπτυξη ενός μορφολογικού αναλυτή, ο οποίος παράγει το αντίστοιχο πολυεπίπεδο λεξικό για την ελληνική γραμματική LFG/XLE ΠΕΡΙΒΑΛΛΟΝ ΑΝΑΠΤΥΞΗΣ: Έχει αναπτυχθεί σε περιβάλλον Netbeans και αξιοποιεί το online service του ΙΕΛ, παρέχοντας τη δυνατότητα στο χρήστη, με έναν εύκολο τρόπο, να δώσει σαν είσοδο ένα αρχείο κειμένου και να λάβει στην έξοδο ένα ολοκληρωμένο λεξικό. ΤΕΧΝΙΚΑ ΜΕΡΗ: Χωρίζεται στα παρακάτω τεχνικά μέρη: Εισαγωγή δεδομένων από το χρήστη Αποστολή δεδομένων στο service του ΙΕΛ Λήψη απαντήσεων και αποθήκευση σε XML αρχείο Επεξεργασία απάντησης Παραγωγή TSV και LFG αρχείων Παρακάτω περιγράφονται τα βήματα που καλείται να κάνει ο χρήστης καθώς και οι φάκελοι που δημιουργούνται αντίστοιχα. Βήμα 1: Εισαγωγή αρχείου ΤΧΤ Εισάγουμε κείμενο σε καθαρή μορφή (raw text), για παράδειγμα το example.txt (Εικόνα 31). Εικόνα 31: Κείμενο προς μορφολογική ανάλυση Η κωδικοποίηση είναι σε UTF-8 για την υποστήριξη της ελληνικής γλώσσας. Αποθηκεύουμε το αρχείο στον φάκελο corpus. 58

59 Το όνομα του txt αρχείου αποτελεί το βασικό συστατικό για όλα τα αρχεία που θα παραχθούν στα επόμενα βήματα (Εικόνα 32). Εικόνα 32: Σύνολο παραχθέντων αρχείων Στο σημείο αυτό εκτελούμε το πρόγραμμα, το οποίο αναγνωρίζει όσα αρχεία έχουμε εισάγει στο φάκελο corpus και τα φορτώνει στη μνήμη. Βήμα 2: Δημιουργία XML Αποστέλλεται το περιεχόμενο κάθε αρχείου ξεχωριστά στον ILSP server και το πρόγραμμα περνά σε κατάσταση αναμονής της απάντησης του server. Μόλις λάβει την απάντηση, σε μορφή XML, την αποθηκεύει στο αντίστοιχο αρχείο. Σε περίπτωση που ο server αδυνατεί να απαντήσει (λόγω φόρτου ή κακής σύνδεσης στο διαδίκτυο), το πρόγραμμα τερματίζει και πρέπει να επανεκτελεστεί έως ότου επιτευχθεί η σύνδεση. Για κάθε λέξη (word) της εισόδου, επιστρέφεται ως απάντηση η μορφολογική πληροφορία (tag) και το λήμμα (lemma) (Εικόνα 33). Εικόνα 33: Το αρχείο example.xml 59

60 Βήμα 3: Δημιουργία TSV TSV: Tab Seperated Values Πρόκειται για ένα αρχείο καθαρού κειμένου όπου οι τιμές μεταξύ τους διαχωρίζονται με στηλοθέτες (tabs) (Εικόνα 34). Εικόνα 34: Το αρχείο example.tsv Βήμα 4: Δημιουργία LFG Επεξεργαζόμαστε την πληροφορία του XML αρχείου προκειμένου να αναπτύξουμε το λεξικό. Ουσιαστικά μετατρέπουμε τη κάθε λέξη σε μία γραμμή (Εικόνα 35): word part-of-speech @tagn lemma }. Χαρακτηριστικά του προγράμματος είναι: Η ομαδοποίηση ανάλογα με το μέρος του λόγου (άρθρα, ουσιαστικά, επίθετα κλπ) Η ταξινόμηση μέσα σε κάθε μέρος του λόγου με κριτήριο την αλφαβητική σειρά Η απαλοιφή διπλότυπων (duplicate) H συνένωση των λέξεων που έχουν το ίδιο lemma (concatenation) 60

ΡΗΜΑΤΑ. Στην πρώτη περίπτωση κάποιος ενεργεί (ρήμα) και η ενέργειά του αυτή ασκείται σε ένα άλλο πρόσωπο ή πράγμα έξω από αυτόν.

ΡΗΜΑΤΑ. Στην πρώτη περίπτωση κάποιος ενεργεί (ρήμα) και η ενέργειά του αυτή ασκείται σε ένα άλλο πρόσωπο ή πράγμα έξω από αυτόν. ΡΗΜΑΤΑ Τα ρήματα είναι η δεύτερη μεγαλύτερη σε πλήθος ομάδα λέξεων μετά τα ουσιαστικά. Τα ρήματα δείχνουν πράξεις. Όπως δείχνουν και τα παρακάτω σχήματα έχουμε τις εξής περιπτώσεις. Στην πρώτη περίπτωση

Διαβάστε περισσότερα

ΤΑ ΜΕΡΗ ΤΟΥ Βασίλης Αναστασίου

ΤΑ ΜΕΡΗ ΤΟΥ Βασίλης Αναστασίου ΤΑ ΜΕΡΗ ΤΟΥ ΛΟΓΟΥ Η γλώσσα μας αποτελείται από λέξεις. Λέξεις μικρές ή και μεγάλες, συνηθισμένες ή ασυνήθιστες. Ο αριθμός των λέξεων της γλώσσας μας είναι τεράστιος. Η ελληνική γλώσσα είναι η πλουσιότερη

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) «Διερμηνεία και Μετάφραση» Tων Τμημάτων: Φιλολογίας, Αγγλικής Γλώσσας και Φιλολογίας, Γαλλικής Γλώσσας και

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Η Γραμματική εντάσσεται στα ευρύτερα πλαίσια του γλωσσικού μαθήματος. Δε διδάσκεται χωριστά, αλλά με βάση την ενιαία προσέγγιση της γλώσσας, όπου έμφαση δίνεται στη λειτουργική χρήση της. Διδάσκεται

Διαβάστε περισσότερα

ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές.

ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές. ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές. Οι αντωνυμίες δίνουν στον λόγο μας συντομία και σαφήνεια. Μας βοηθούν να μιλάμε πιο εύκολα για

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας Σύνοψη Στο τελευταίο αυτό κεφάλαιο του βιβλίου, αρχικά θα ανακαλέσουμε συνοπτικά το υλικό των προηγούμενων κεφαλαίων και θα δούμε τις συνδέσεις

Διαβάστε περισσότερα

ΑΡΘΡΑ. Μικρές λέξεις που μπαίνουν μπροστά από ουσιαστικά, επίθετα, τις κλιτές μετοχές και ορισμένες αντωνυμίες. ΟΥΣΙΑΣΤΙΚΑ

ΑΡΘΡΑ. Μικρές λέξεις που μπαίνουν μπροστά από ουσιαστικά, επίθετα, τις κλιτές μετοχές και ορισμένες αντωνυμίες. ΟΥΣΙΑΣΤΙΚΑ ΑΡΘΡΑ Μικρές λέξεις που μπαίνουν μπροστά από ουσιαστικά, επίθετα, τις κλιτές μετοχές και ορισμένες αντωνυμίες. Μας δείχνουν για τη λέξη που τα ακολουθεί: Το γένος: αρσενικό, θηλυκό ουδέτερο Τον αριθμό:

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

Η πρόταση. Πρόταση λέγεται ένα σύντομο κομμάτι του λόγου, που περιλαμβάνει μια σειρά από λέξεις με ένα τουλάχιστον ρήμα και έχει ολοκληρωμένο νόημα.

Η πρόταση. Πρόταση λέγεται ένα σύντομο κομμάτι του λόγου, που περιλαμβάνει μια σειρά από λέξεις με ένα τουλάχιστον ρήμα και έχει ολοκληρωμένο νόημα. Η πρόταση Πρόταση λέγεται ένα σύντομο κομμάτι του λόγου, που περιλαμβάνει μια σειρά από λέξεις με ένα τουλάχιστον ρήμα και έχει ολοκληρωμένο νόημα. Ορθογραφικές παρατηρήσεις 1. Το πρώτο γράμμα κάθε πρότασης

Διαβάστε περισσότερα

Ρήματα λέγονται οι λέξεις που φανερώνουν ότι ένα πρόσωπο, ζώο ή πράγμα ενεργεί ή παθαίνει κάτι ή βρίσκεται σε μία κατάσταση.

Ρήματα λέγονται οι λέξεις που φανερώνουν ότι ένα πρόσωπο, ζώο ή πράγμα ενεργεί ή παθαίνει κάτι ή βρίσκεται σε μία κατάσταση. Τι είναι ρήμα; Παραδείγματα: α) Ο εργάτης δουλεύει β) Ο ήλιος σκεπάστηκε από τα σύννεφα γ) Το μωρό κοιμάται Οι λέξεις «δουλεύει», «σκεπάστηκε», «κοιμάται», λέγονται ρήματα γιατί φανερώνουν ότι ο εργάτης

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ Ονοµατικά σύνολα της Νέας Ελληνικής: Εξάλειψη µορφολογικών αµφισηµιών

Διαβάστε περισσότερα

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας Θέµατα Μορφολογίας της Νέας Ελληνικής Ι Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας Η παρουσίαση επιλεγµένα θέµατα µορφολογίας της νέας ελληνικής µορφολογικά χαρακτηριστικά της ΝΕ, η λέξη στη νέα

Διαβάστε περισσότερα

403 3. Μορφολογία ουσιαστικών στη γενική ενικού 3.1 134 3.2 135 3.3 136 3.4 137 3.5 138 3.6 139 3.7 140 3.8 141 3.9 142 4. Μορφολογία ουσιαστικών στη γενική ενικού 4.1 143 4.2 144 4.3 145 4.4 146 4.5 147

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία. Βασιλική Σιμάκη

Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία. Βασιλική Σιμάκη 1 Γλωσσική Τεχνολογία Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία 2 Επεξεργασία Φυσικής Γλώσσας Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος Η έννοια του προβλήματος 1. Αναφέρετε μερικά από τα προβλήματα που συναντάτε στην καθημερινότητά σας. Απλά προβλήματα Ποιο δρόμο θα ακολουθήσω για να πάω στο σχολείο; Πως θα οργανώσω μια εκδρομή; Πως θα

Διαβάστε περισσότερα

Τα ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός

Τα ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός Τα ουσιαστικά Ανισοσύλλαβα ουσιαστικά λέµε τα ουσιαστικά που στον πληθυντικό έχουν µια παραπάνω συλλαβή, ενώ ισοσύλλαβα αυτά που έχουν στον ενικό και στον ενικό και τον πληθυντικό τον ίδιο αριθµό συλλαβών.τα

Διαβάστε περισσότερα

ΤΑ ΠΑΡΕΠΟΜΕΝΑ ΤΟΥ ΡΗΜΑΤΟΣ ΦΩΝΗ ΣΥΖΥΓΙΑ ΔΙΑΘΕΣΗ ΧΡΟΝΙΚΗ ΒΑΘΜΙΔΑ ΠΟΙΟΝ ΕΝΕΡΓΕΙΑΣ

ΤΑ ΠΑΡΕΠΟΜΕΝΑ ΤΟΥ ΡΗΜΑΤΟΣ ΦΩΝΗ ΣΥΖΥΓΙΑ ΔΙΑΘΕΣΗ ΧΡΟΝΙΚΗ ΒΑΘΜΙΔΑ ΠΟΙΟΝ ΕΝΕΡΓΕΙΑΣ ΤΑ ΠΑΡΕΠΟΜΕΝΑ ΤΟΥ ΡΗΜΑΤΟΣ ΦΩΝΗ ΣΥΖΥΓΙΑ ΔΙΑΘΕΣΗ ΧΡΟΝΙΚΗ ΒΑΘΜΙΔΑ ΠΟΙΟΝ ΕΝΕΡΓΕΙΑΣ Α. ΣΤΟΙΧΕΙΑ ΠΟΥ ΕΧΟΥΝ ΣΧΕΣΗ ΜΕ ΤΗ ΜΟΡΦΗ ΤΟΥ ΡΗΜΑΤΟΣ Α.1. ΦΩΝΗ Τα ρήματα σχηματίζουν δύο φωνές. α. Ενεργητική Φωνή β. Παθητική

Διαβάστε περισσότερα

ΦΩΝΗΤΙΚΗ-ΦΩΝΟΛΟΓΙΑ (Ι)

ΦΩΝΗΤΙΚΗ-ΦΩΝΟΛΟΓΙΑ (Ι) ΦΩΝΗΤΙΚΗ-ΦΩΝΟΛΟΓΙΑ (Ι) Βασικά σηµεία Η φωνητική µελετά τους φθόγγους Οι φθόγγοι διακρίνονται: κατά τον τόπο (διχειλικά, οδοντικά κτλ.) κατά τον τρόπο άρθρωσης (κλειστά, τριβόµενα κτλ.) Η Φωνολογία µελετά

Διαβάστε περισσότερα

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ Η γλώσσα ως σύστημα και ως χρήση Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ 2009-10 Τι είναι γλώσσα; Γλώσσα είναι το σύστημα ήχων ( φθόγγων ) και εννοιών που χρησιμοποιούν οι ανθρώπινες κοινότητες για

Διαβάστε περισσότερα

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ Όνομα μαθητή/μαθήτριας:... Ισχύουσα Διάγνωση:... Στήριξη από ειδικό εκπαιδευτικό προσωπικό (ψυχολόγο, λογοθεραπευτή, εργοθεραπευτή, κτλ.):... Σχολικό Έτος:... Σχολείο:.... Τάξη/Τμήμα:...

Διαβάστε περισσότερα

Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο

Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο 1.1 Στόχοι Οι σπουδαστές στο Επίπεδο 1 του ICCLE είναι ικανοί να κατανοούν βασικά γλωσσικά στοιχεία που σχετίζονται με συνήθη καθημερινά θέματα. Είναι ικανοί

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6 πρώτο δεύτερο ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος ΓΑΛ 103 Γραπτός λόγος I ΓΑΛ 170 e-french ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής ΓΑΛ 104 Γραπτός λόγος II ΓΑΛ 111 Φωνητική ΓΑΛ 1 Από

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

ΕΝΗΜΕΡΩΤΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

ΕΝΗΜΕΡΩΤΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΕΣΠΑ 2007 2013, Ε.Π. ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΟΥ ΔΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΑ ΕΚΜΑΘΗΣΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΣΕ ΠΙΣΤΟΠΟΙΗΜΕΝΑ ΚΕΝΤΡΑ ΕΠΑΓΓΕΛΜΑΤΙΚΗΣ ΚΑΤΑΡΤΙΣΗΣ, ΓΙΑ ΑΝΕΡΓΟΥΣ ΜΕΤΑΝΑΣΤΕΣ ΠΑΛΙΝΝΟΣΤΟΥΝΤΕΣ ΠΡΟΣΦΥΓΕΣ ΚΑΙ ΛΟΙΠΟΥΣ

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Αναπτυξιακά ορόσημα λόγου

Αναπτυξιακά ορόσημα λόγου Αναπτυξιακά ορόσημα λόγου 0-6 μηνών 7-12 μηνών 13-18 μηνών 19-24 μηνών 2-3 ετών 3-4 ετών 4-5 ετών 5-6 ετών 6-7 ετών 0-6 μηνών Επαναλαμβάνει τους ίδιους ήχους Συχνά μουρμουρίζει, γελά και παράγει ευχάριστους

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Νέα ελληνικά Επίπεδο A1-Εξάμηνο Α Κοινωνικοπολιτιστικά Βιβλία. Πηγές

Νέα ελληνικά Επίπεδο A1-Εξάμηνο Α Κοινωνικοπολιτιστικά Βιβλία. Πηγές Μάθημα Περιεχόμενο Επικοινωνιακός στόχος Λεξιλόγιο 1 Δ1 Ελληνικό αλφάβητο Γραφή-προφοράτονισμός Δ2 Ανάγνωση ασκήσεις γραφής. Δ3 Απλοί χαιρετισμοί. 2 Δ1 Εμπέδωση της γραφής της ανάγνωσης. Ορθογραφία απλών

Διαβάστε περισσότερα

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΣΚΟΠΟΣ Σκοπός της άσκησης είναι ο σχεδιασμός και η υλοποίηση συστήματος διόρθωσης

Διαβάστε περισσότερα

Στάδια Ανάπτυξης Λόγου και Οµιλίας

Στάδια Ανάπτυξης Λόγου και Οµιλίας Στάδια Ανάπτυξης Λόγου και Οµιλίας Το παιδί ξεδιπλώνει τις γλωσσικές ικανότητες του µε το χρόνο. Όλα τα παιδιά είναι διαφορετικά µεταξύ τους και το κάθε ένα έχει το δικό του ρυθµό. Τα στάδια ανάπτυξης

Διαβάστε περισσότερα

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: 013-014 ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Β ΓΥΜΝΑΣΙΟΥ Προγραμματισμός κατά ενότητα 1 η ΕΝΟΤΗΤΑ Από τον τόπο μου σ όλη την Ελλάδα Ταξίδια, περιηγήσεις, γνωριμία

Διαβάστε περισσότερα

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: 202-203 ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ Προτεινόμενος Προγραμματισμός κατά ενότητα η Ενότητα Οι πρώτες μέρες σε ένα σχολείο Διδακτικές : 9

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε

Διαβάστε περισσότερα

ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ

ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΥΛΗ ΕΞΕΤΑΣΕΩΝ 2007 ΥΠΟΨΗΦΙΩΝ ΥΠΟΤΡΟΦΩΝ ΚΑΘΙΔΡΥΜΑΤΟΣ ΑΘΑΝΑΣΙΟΥ ΜΑΤΑΛΑ Α ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Μετά την αλλαγή των σχολικών εγχειριδίων το σχολικό έτος 2006-2007 και επειδή, λόγω της εφαρμογής κύκλων συνδιδασκαλίας

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - Τάξη Δείκτες Επιτυχίας Κατανόηση Γραπτού Λόγου Δείκτες Επάρκειας Γ Τα παιδιά 1. Τοποθετούν ένα κείμενο σε πλαίσιο (θεματικό,

Διαβάστε περισσότερα

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ

ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ Βασισμένο στην ύλη του σχολικού βιβλίου ΓΙΑΝΝΗΣ ΖΑΧΑΡΟΠΟΥΛΟΣ Γρήγορα τεστ Γλώσσα Στ Δημοτικού Στ 3 ΕΚ ΟΣΕΙΣ ΠΑΠΑ ΟΠΟΥΛΟΣ Βασικό λεξιλόγιο Ενότητα 13η Τρόποι ζωής και επαγγέλματα νησί,

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Μαλούτα Θεανώ Σελίδα 1

Μαλούτα Θεανώ Σελίδα 1 ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Α. ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΦΥΛΛΑΔΙΟ 6 ο ( Ενότητες 2.3 ) 1.Τι είναι πρόγραμμα; 2. Ποια είναι τα πλεονεκτήματα των γλωσσών υψηλού επιπέδου σε σχέση με τις γλώσσες

Διαβάστε περισσότερα

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - Τάξη Δείκτες Επιτυχίας Κατανόηση Γραπτού Λόγου Δείκτες Επάρκειας Β Τα παιδιά 1. Τοποθετούν ένα κείμενο σε πλαίσιο (θεματικό,

Διαβάστε περισσότερα

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Διπλωματική Εργασία με θέμα: Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού Καραγιάννης Ιωάννης Α.Μ.

Διαβάστε περισσότερα

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - Τάξη Δείκτες Επιτυχίας Κατανόηση Γραπτού Λόγου Δείκτες Επάρκειας Στ Τα παιδιά 1. Τοποθετούν ένα κείμενο σε πλαίσιο (θεματικό,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Οδηγός Εκπόνησης Διπλωματικής Εργασίας ΣΠΑΡΤΗ 2010-11 Περιεχόμενα 1.ΔΟΜΗ ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΟ Της ΔΙΠΛΩΜΑΤΙΚΗΣ

Διαβάστε περισσότερα

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΕΝΔΕΙΚΤΙΚΟΣ ΕΤΗΣΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ 2015-2016 Α ΤΑΞΗ ΓΥΜΝΑΣΙΟΥ

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΕΝΔΕΙΚΤΙΚΟΣ ΕΤΗΣΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ 2015-2016 Α ΤΑΞΗ ΓΥΜΝΑΣΙΟΥ ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΕΝΔΕΙΚΤΙΚΟΣ ΕΤΗΣΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ 2015-2016 Α ΤΑΞΗ ΓΥΜΝΑΣΙΟΥ Το μάθημα της Νέας Ελληνικής Γλώσσας στην Α Γυμνασίου διδάσκεται τρεις (3) περιόδους την εβδομάδα. Συνεπώς, το σύνολο

Διαβάστε περισσότερα

Φυλλάδιο Εργασίας 1. Ενδεικτικές Απαντήσεις. Αξιολόγηση Διδακτικών Δραστηριοτήτων από τα διδακτικά εγχειρίδια

Φυλλάδιο Εργασίας 1. Ενδεικτικές Απαντήσεις. Αξιολόγηση Διδακτικών Δραστηριοτήτων από τα διδακτικά εγχειρίδια Φυλλάδιο Εργασίας 1 Ενδεικτικές Απαντήσεις Αξιολόγηση Διδακτικών Δραστηριοτήτων από τα διδακτικά εγχειρίδια Κωνσταντίνος Κακαρίκος, Ευφροσύνη Κοντοκώστα k_kakarikos@hotmail.com efkodok@yahoo.gr Δραστηριότητα

Διαβάστε περισσότερα

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου Ελένη Γαλιώτου Τμήμα Πληροφορικής, ρ ΤΕΙ Αθήνας 1-10-2010 1 Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου Σκιάθου Ψηφιοποίηση Το ερευνητικό έργο «ΠΟΛΥΤΙΜΟ» Πρόσβαση στο περιεχόμενο των ιστορικών βιβλίων

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Βασικά ζητήματα μιας βάσης δεδομένων

Βασικά ζητήματα μιας βάσης δεδομένων Τριαντάφυλλος Πριμηκύρης* Βασικά ζητήματα μιας βάσης δεδομένων Τι είναι μια βάση δεδομένων; Ας ξεκινήσουμε με κάτι πολύ απλό! Όλοι έχετε έναν τηλεφωνικό κατάλογο. Ο κατάλογος αυτός είναι μια χειροκίνητη

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΣΥΝΤΑΚΤΙΚΟ ΠΡΟΤΑΣΗ. Η οργανωμένη ομάδα λέξεων που εκφράζει μόνο ένα νόημα, με σύντομη συνήθως διατύπωση, λέγεται πρόταση.

ΣΥΝΤΑΚΤΙΚΟ ΠΡΟΤΑΣΗ. Η οργανωμένη ομάδα λέξεων που εκφράζει μόνο ένα νόημα, με σύντομη συνήθως διατύπωση, λέγεται πρόταση. ΣΥΝΤΑΚΤΙΚΟ ΠΡΟΤΑΣΗ Η οργανωμένη ομάδα λέξεων που εκφράζει μόνο ένα νόημα, με σύντομη συνήθως διατύπωση, λέγεται πρόταση. Ως προς το περιεχόμενό τους 1) κρίσεως ο ομιλητής θέλει να πληροφορήσει, να δηλώσει

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου Επαναληπτικές Ασκήσεις Κάτια Κερμανίδου kerman@ionio.gr Διαδίκτυο Tι από τα παρακάτω αποτελεί χαρακτηριστικό της web 2.0 φάσης της εξέλιξης του ιστού, και δεν υπήρχε στην φάση web 1.0 ιστοσελίδες με δυνατότητες

Διαβάστε περισσότερα

Σταυρούλα Τσιπλάκου Μεταπτυχιακό Πρόγραμμα Ελληνική Γλώσσα και Λογοτεχνία Ανοικτό Πανεπιστήμιο Κύπρου stavroula.tsiplakou@ouc.ac.

Σταυρούλα Τσιπλάκου Μεταπτυχιακό Πρόγραμμα Ελληνική Γλώσσα και Λογοτεχνία Ανοικτό Πανεπιστήμιο Κύπρου stavroula.tsiplakou@ouc.ac. Σταυρούλα Τσιπλάκου Μεταπτυχιακό Πρόγραμμα Ελληνική Γλώσσα και Λογοτεχνία Ανοικτό Πανεπιστήμιο Κύπρου stavroula.tsiplakou@ouc.ac.cy 2 ο Π α γ κ ύ π ρ ι ο Σ υ ν έ δ ρ ι ο, 29 Ν ο ε μ β ρ ί ο υ 2 0 1 4,

Διαβάστε περισσότερα

Κεφάλαιο 6 ο Εισαγωγή στον Προγραμματισμό 1

Κεφάλαιο 6 ο Εισαγωγή στον Προγραμματισμό 1 Κεφάλαιο 6 ο Εισαγωγή στον Προγραμματισμό 1 Ποιες γλώσσες αναφέρονται ως φυσικές και ποιες ως τεχνητές; Ως φυσικές γλώσσες αναφέρονται εκείνες οι οποίες χρησιμοποιούνται για την επικοινωνία μεταξύ ανθρώπων,

Διαβάστε περισσότερα

Γραμματική και Συντακτικό Γ Δημοτικού ανά ενότητα - Παρασκευή Αντωνίου

Γραμματική και Συντακτικό Γ Δημοτικού ανά ενότητα - Παρασκευή Αντωνίου Ενότητα 1η: «Πάλι μαζί!» Σημεία στίξης: τελεία ερωτηματικό...4 Η δομή της πρότασης: ρήμα υποκείμενο αντικείμενο...5 Ουσιαστικά: αριθμοί γένη...6 Ονομαστική πτώση ουσιαστικών...6 Οριστικό άρθρο...7 Ερωτηματικές

Διαβάστε περισσότερα

Πρόσεξε τα παρακάτω παραδείγματα:

Πρόσεξε τα παρακάτω παραδείγματα: 1 Το άρθρο, γενικά Πρόσεξε τα παρακάτω παραδείγματα: Αυτός είναι ο Γιάννης, αυτή είναι η Έλσα και αυτό είναι το σκυλάκι τους. Οι μπαμπάδες και οι μαμάδες καμιά φορά είναι αυστηροί με τα παιδιά τους. Γιωργάκη,

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Γραμματική της Νέας Ελληνικής

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Γραμματική της Νέας Ελληνικής ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΦΙΛΟΣΟΦΙΚΗ ΤΜΗΜΑ ΦΙΛΟΛΟΓΙΑΣ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΦΥ6755 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ ΣΤ ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Γραμματική της Νέας Ελληνικής ΑΥΤΟΤΕΛΕΙΣ ΔΙΔΑΚΤΙΚΕΣ

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Καθηγητής Πληροφορικής ΠΕ19 1 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΚΕΦΑΛΑΙΟ 6 ο : ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΙΣΤΟΣΕΛΙΔΑ ΜΑΘΗΜΑΤΟΣ: http://eclass.sch.gr/courses/el594100/ Η έννοια του προγράμματος

Διαβάστε περισσότερα

3ο Νηπ/γείο Κορδελιού Τμήμα Ένταξης

3ο Νηπ/γείο Κορδελιού Τμήμα Ένταξης ΠΡΟΓΡΑΜΜΑ ΔΙΔΑΣΚΑΛΙΑΣ ΠΡΟΦΟΡΙΚΟΥ ΛΟΓΟΥ Περιεχόμενα Α ΕΠΙΠΕΔΟ (λεξιλόγιο) 1 ο ΣΤΑΔΙΟ : Ονοματοποίηση αντικειμένων και προσώπων 2 Ο ΣΤΑΔΙΟ: Ονοματοποίηση πράξεων 3 ο ΣΤΑΔΙΟ : Καθημερινές εκφράσεις και χαιρετισμοί

Διαβάστε περισσότερα

Η ύλη για τις εξετάσεις υποτροφιών: (για οποιαδήποτε διευκρίνιση μπορείτε να απευθύνεστε στις γραμματείες των φροντιστηρίων).

Η ύλη για τις εξετάσεις υποτροφιών: (για οποιαδήποτε διευκρίνιση μπορείτε να απευθύνεστε στις γραμματείες των φροντιστηρίων). Η ύλη για τις εξετάσεις υποτροφιών: (για οποιαδήποτε διευκρίνιση μπορείτε να απευθύνεστε στις γραμματείες των φροντιστηρίων). ΑΛΓΕΒΡΑ: από το βιβλίο Άλγεβρα και στοιχεία πιθανοτήτων της Α Γενικού Λυκείου.

Διαβάστε περισσότερα

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Προγραμματισμός Η/Υ Προτεινόμενα θέματα εξετάσεων Εργαστήριο Μέρος 1 ό ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Ιανουάριος 2011 Καλογιάννης Γρηγόριος Επιστημονικός/ Εργαστηριακός

Διαβάστε περισσότερα

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4 Επιστήμη της Πληροφορικής Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4 Η πληροφορική είναι η επιστήμη που ερευνά την κωδικοποίηση, διαχείριση και μετάδοση συμβολικών αναπαραστάσεων πληροφοριών. Επίσης

Διαβάστε περισσότερα

Λογισμικό: Αρχαία με Νόημα Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Αρχαία Ελληνικά Τάξη/εις: Α, Β Γυμνασίου

Λογισμικό: Αρχαία με Νόημα Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Αρχαία Ελληνικά Τάξη/εις: Α, Β Γυμνασίου Λογισμικό: Αρχαία με Νόημα Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Αρχαία Ελληνικά Τάξη/εις: Α, Β Γυμνασίου Παρουσίαση Λογισμικού: Κατερίνα Αραμπατζή Προμηθευτής: Ινστιτούτο Επεξεργασίας Λόγου Προσβασιμότητα

Διαβάστε περισσότερα

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ -

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ - ΔΗΜΟΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ - ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ ΚΑΙ ΕΠΑΡΚΕΙΑΣ - Τάξη Δείκτες Επιτυχίας Κατανόηση Γραπτού Λόγου Δείκτες Επάρκειας A Τα παιδιά 1. Τοποθετούν ένα κείμενο σε πλαίσιο (θεματικό,

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el Σαράντος Καπιδάκης 1, Στέλιος Πιπερίδης 2, Πένυ Λαμπροπούλου 2, Μαρία Γαβριηλίδου 2 ( 1 Ιόνιο Πανεπιστήμιο, 2 Ε.Κ. Αθηνά / ΙΕΛ)

Διαβάστε περισσότερα

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ Περιεχόμενα ΠΡΟΛΟΓΟΣ 13 1. ΛΕΞΙΛΟΓΙΟ: ΕΙΣΑΓΩΓΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΚΑΙ ΔΙΔΑΚΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ 17 ΣΗΜΑΝΤΙΚΗ ΟΡΟΛΟΓΙΑ ΚΕΦΑΛΑΙΟΥ 17 1.1 Η αξία του λεξιλογίου και η θέση του στο γλωσσικό μάθημα 18 1.2 Εμπόδια στη

Διαβάστε περισσότερα

Ανάλυση ποιοτικών δεδομένων

Ανάλυση ποιοτικών δεδομένων Ανάλυση ποιοτικών δεδομένων Σύνοψη κεφαλαίου Σύνδεση θεωρίας και ανάλυσης Επεξεργασία ποιοτικών δεδομένων Δεοντολογία και ανάλυση ποιοτικών δεδομένων Αξιολογώντας την ποιότητα των ποιοτικών ερευνών Εισαγωγή

Διαβάστε περισσότερα

Πώς Διηγούμαστε ή Αφηγούμαστε ένα γεγονός που ζήσαμε

Πώς Διηγούμαστε ή Αφηγούμαστε ένα γεγονός που ζήσαμε ΔΙΑΘΕΣΙΜΟ ΣΤΗ: http //blgs.sch.gr/anianiuris ΥΠΕΥΘΥΝΟΣ: Νιανιούρης Αντώνης (email: anianiuris@sch.gr) Πώς Διηγούμαστε ή Αφηγούμαστε ένα γεγονός που ζήσαμε Διηγούμαστε ή αφηγούμαστε ένα γεγονότος, πραγματικό

Διαβάστε περισσότερα

Διδακτική Γλωσσικών Μαθημάτων (ΚΠΒ307)

Διδακτική Γλωσσικών Μαθημάτων (ΚΠΒ307) ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Διδακτική Γλωσσικών Μαθημάτων (ΚΠΒ307) Ενότητα #4: Λειτουργικός και Κριτικός Γραμματισμός Διδάσκων: Κατσαρού Ελένη ΤΜΗΜΑ ΦΙΛΟΣΟΦΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΣΠΟΥΔΩΝ ΦΙΛΟΣΟΦΙΚΗ

Διαβάστε περισσότερα

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: 2012-2013 ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: 2012-2013 ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: 2012-2013 ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Γ ΓΥΜΝΑΣΙΟΥ Προτεινόμενος Προγραμματισμός κατά ενότητα Ενότητα 15 Α. Κείμενο Η Αθήνα προπύργιο της Ευρώπης

Διαβάστε περισσότερα

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Εθνική Ερευνητική Υποδομή Υποέργο 3 Κατασκευή αποθετηρίου και διεπαφή με διαδικτυακές γλωσσικές υπηρεσίες Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Συγγραφείς: Διαθεσιμότητα:

Διαβάστε περισσότερα

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19 Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών Κεφ. 2 Θεωρητική Επιστήμη Υπολογιστών 2.3.1.1 Έννοια προγράμματος Τι είναι πρόγραμμα και τι προγραμματισμός; Πρόγραμμα είναι το σύνολο εντολών που χρειάζεται

Διαβάστε περισσότερα

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να:

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να: Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να: Ο ΑΝΘΡΩΠΟΣ ΚΑΙ Η ΤΑΥΤΟΤΗΤΑ ΤΟΥ ΠΟΛΥΤΡΟΠΙΚΑ ΚΕΙΜΕΝΑ ΜΑΘΗΣΙΑΚΟΙ ΣΤΟΧΟΙ Ανταποκρίνονται στην ακρόαση του προφορικού

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ Μεταγλωττιστές Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

5. Λόγος, γλώσσα και ομιλία

5. Λόγος, γλώσσα και ομιλία 5. Λόγος, γλώσσα και ομιλία Στόχοι της γλωσσολογίας Σύμφωνα με τον Saussure, βασικός στόχος της γλωσσολογίας είναι να περιγράψει τις γλωσσικές δομές κάθε γλώσσας με στόχο να διατυπώσει θεωρητικές αρχές

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Εισαγωγή στον προγραµµατισµό Η έννοια του προγράµµατος Ο προγραµµατισµός ασχολείται µε τη δηµιουργία του προγράµµατος, δηλαδή του συνόλου εντολών που πρέπει να δοθούν στον υπολογιστή ώστε να υλοποιηθεί

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ Κεφάλαιο 7 ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ Ερωτήσεις 1. Να αναφέρετε διαφορές μεταξύ γλωσσών μηχανής και γλωσσών χαμηλού επιπέδου. Οι γλώσσες μηχανής κωδικοποιούν τις εντολές τους με ομάδες

Διαβάστε περισσότερα

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ 2 Ο Εργαστηριακό Μάθημα Λεξική Ανάλυση Σκοπός: Το μάθημα αυτό αναφέρεται: Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση Στη δήλωση ορισμό κανονικών εκφράσεων Θεωρία Πρόλογος

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

ΕΜΠΛΟΥτΙΣΜΟΣ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΥΣ ΚΑΙ ΥΠΟΣτΗΡΙΞΗ

ΕΜΠΛΟΥτΙΣΜΟΣ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΥΣ ΚΑΙ ΥΠΟΣτΗΡΙΞΗ ΕΜΠΛΟΥτΙΣΜΟΣ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ ΜΕ ΟΡΟΥΣ ΚΑΙ ΥΠΟΣτΗΡΙΞΗ ΚΕΙΜΕΝΩΝ ΕΝΤΑΣΕΩΣ ΟΡΩΝ ΣΕ ΔΙΑΔΙΚΑΣΙΕΣ ΔΙΟΡΘΩΣΗΣ ΛΑΘΩΝ Χ. Στάθης, Γ. Καραγιάvvης ΠΕΡΙΛΗΨΗ Στην εργασία αυτή παρουσιάζεται το υποσύστημα εμπλουτισμού

Διαβάστε περισσότερα

Προσόντα με υψηλή αξία για τους εργοδότες σε σχέση με την αναπηρία

Προσόντα με υψηλή αξία για τους εργοδότες σε σχέση με την αναπηρία Προσόντα με υψηλή αξία για τους εργοδότες σε σχέση με την αναπηρία Απρίλιος 2013 Χαρακτηριστικά που ζητούν οι εργοδότες αναπηρία Πως θα όριζες τη λέξη προσόν ή τη λέξη δεξιότητα ; Και τι εννοούν οι εργοδότες

Διαβάστε περισσότερα

ΑΡΧΕΣ ΟΡΘΟΓΡΑΦΙΑΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ. E-learning. Οδηγός Σπουδών

ΑΡΧΕΣ ΟΡΘΟΓΡΑΦΙΑΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ. E-learning. Οδηγός Σπουδών ΑΡΧΕΣ ΟΡΘΟΓΡΑΦΙΑΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ E-learning Οδηγός Σπουδών Το πρόγραμμα εξ αποστάσεως εκπαίδευσης ( e-learning ) του Πανεπιστημίου Πειραιά του Τμήματος Οικονομικής Επιστήμης, σας καλωσορίζει στο

Διαβάστε περισσότερα

Πρόλογος της γαλλικής έκδοσης

Πρόλογος της γαλλικής έκδοσης Πρόλογος της γαλλικής έκδοσης Η Λατινική γραμματική της σειράς Bescherelle είναι μια εύκολη και πλήρης γραμματική της λατινικής γλώσσας, με αντικειμενικό στόχο να δι ευκολύνει τη μελέτη, τη μετάφραση και

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

Ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός

Ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός Ουσιαστικά Ανισοσύλλαβα ουσιαστικά λέµε τα ουσιαστικά που στον πληθυντικό έχουν µια παραπάνω συλλαβή, ενώ ισοσύλλαβα αυτά που έχουν στον ενικό και τον πληθυντικό τον ίδιο αριθµό συλλαβών. Τα ουδέτερα ανισοσύλλαβα

Διαβάστε περισσότερα

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών ΕΠΛ362: Τεχνολογία Λογισμικού ΙΙ (μετάφραση στα ελληνικά των διαφανειών του βιβλίου Software Engineering, 9/E, Ian Sommerville, 2011) Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών Οι διαφάνειες αυτές

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

Βασίλειος Κοντογιάννης ΠΕ19

Βασίλειος Κοντογιάννης ΠΕ19 Ενότητα2 Προγραμματιστικά Περιβάλλοντα Δημιουργία Εφαρμογών 5.1 Πρόβλημα και Υπολογιστής Τι ονομάζουμε πρόβλημα; Πρόβλημα θεωρείται κάθε ζήτημα που τίθεται προς επίλυση, κάθε κατάσταση που μας απασχολεί

Διαβάστε περισσότερα

Συστήματα κ Τεχνολογίες Γνώσης Εργασίες στην Επεξεργασία Φυσικής Γλώσσας

Συστήματα κ Τεχνολογίες Γνώσης Εργασίες στην Επεξεργασία Φυσικής Γλώσσας Συστήματα κ Τεχνολογίες Γνώσης Εργασίες στην Επεξεργασία Φυσικής Γλώσσας 1. Διορθωτής Λέξεων Αντικείμενο Στόχος Σκοπός της άσκησης είναι ο σχεδιασμός και η υλοποίηση συστήματος διορθωτή λέξεων βασισμένου

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ 2013 ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ Περιήγηση στις δυνατότητες του λογισμικού και στον τρόπο χρήσης του ΟΜΑΔΑ ΕΡΓΟΥ ΔΙΕΥΘΥΝΣΗΣ

Διαβάστε περισσότερα

ΤΑ ΡΗΜΑΤΑ Τα ρήματα Έχουν δύο φωνές: την ενεργητική και την παθητική Ενεργητική φωνή: ω. Παθητική φωνή: -μαι. Οι καταλήξεις των ρημάτων, ω, -άβω

ΤΑ ΡΗΜΑΤΑ Τα ρήματα Έχουν δύο φωνές: την ενεργητική και την παθητική Ενεργητική φωνή: ω. Παθητική φωνή: -μαι. Οι καταλήξεις των ρημάτων, ω, -άβω 1 ΤΑ ΡΗΜΑΤΑ Τα ρήματα ανήκουν στα κλιτά μέρη του λόγου και φανερώνουν ότι κάποιο πρόσωπο, ζώο ή πράγμα κάνει κάτι (κάποια ενέργεια), ή παθαίνει κάτι από κάποιον άλλον, ή από τον εαυτό του ή βρίσκεται σε

Διαβάστε περισσότερα