ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΑΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΑΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΤΗΣ ΓΛΩΣΣΑΣ ΚΑΙ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΜΑΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ ΈΝΑ ΣΥΣΤΗΜΑ ΑΥΤΟΜΑΤΗΣ ΑΝΑΛΥΣΗΣ ΚΕΙΜΕΝΩΝ ΤΗΣ ΝΕΑΣ ΕΛΛΗΝΙΚΗΣ. ΜΕΘΟΔΟΙ ΑΝΑΠΑΡΑΣΤΑΣΗΣ ΤΩΝ ΚΥΡΙΩΝ ΟΝΟΜΑΤΩΝ ΠΡΟΣΩΠΩΝ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Επιβλέπουσα καθηγήτρια: Κυριακοπούλου Παναγιώτα Μέλη της τριμελούς συμβουλευτικής επιτροπής: Αναστασιάδη-Συμεωνίδη Α. Χρυσουλίδης Δ. ΘΕΣΣΑΛΟΝΙΚΗ

2 ΠΕΡΙΕΧΟΜΕΝΑ Ευχαριστίες... 5 Πίνακας Συμβόλων και Συντομογραφιών... 6 ΕΙΣΑΓΩΓΗ Αντικείμενο και σκοπός της παρούσας μελέτης Εργαλεία Πηγές και σώματα κειμένων (corpora) Τμήματα της εργασίας ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ Ορισμός και κατηγοριοποίηση των κυρίων ονομάτων και των ονοματικών οντοτήτων Ορισμός και σημασία των κυρίων ονομάτων Προτάσεις κατηγοριοποίησης Ορισμός των ονοματικών οντοτήτων Κατηγοριοποίηση των ονοματικών οντοτήτων ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ Παρουσία των κύριων ονομάτων στη Νέα Ελληνική Τα κύρια ονόματα στα έντυπα λεξικά της Νέας Ελληνικής Μέθοδοι καταγραφής και Πληρότητα λεξικών Τα κύρια ονόματα στα ειδικά/εξειδικευμένα λεξικά Τα κύρια ονόματα στη μετάφραση Προβληματική των κυρίων ονομάτων Οριοθέτηση των μορφολογικών άκρων των κυρίων ονομάτων Αμφισημία στη σύνταξη των κυρίων ονομάτων Εσωτερικοί και εξωτερικοί ενδείκτες Σημασιολογική αμφισημία στα κύρια ονόματα Λεξική περιγραφή των κυρίων ονομάτων Τυπογραφική ανάλυση Μορφολογική ανάλυση Τυπολογία των απλών κυρίων ονομάτων Τυπολογία των σύνθετων και πολλαπλών βαπτιστικών και επωνύμων KΕΦΑΛΑΙΟ ΤΡΙΤΟ Θεωρητικό πλαίσιο Περιορισμός της έρευνας Μεθοδολογία της έρευνας Αυτόματη κλίση των ονομάτων GenereFlexion GrFlex Μορφολογικά χαρακτηριστικά Σημασιολογικά χαρακτηριστικά Κατάρτιση των κωδικών κλίσης Επεξεργασία του γλωσσικού υλικού και δυσκολίες Λεξικό σύνθετων ονομάτων Διαδικασία κωδικοποίησης Αποτελέσματα κλίσης

3 ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ Συστήματα εξαγωγής ονοματικών οντοτήτων και συνέδρια MUC (Message Understanding Conference) Συνέδρια MUC (Message Understanding Conference) Συστήματα προ MUC MUC και ονοματικές οντότητες Μετά MUC εποχή μέχρι σήμερα Συνάρτηση F (F-measure) ως μέσο αξιολόγησης των συστημάτων Διαφορετικές προσεγγίσεις στην ανάκτηση ονοματικών οντοτήτων Γλωσσολογικές μέθοδοι Το σύστημα των Paik et al Το σύστημα Exoseme των Wolinski et al Το σύστημα LaSIE των Wakao et al Το σύστημα Nominator των Wacholder et al Το σύστημα GIE των Καρκαλέτσης et al Στατιστικές μέθοδοι Το σύστημα Balie των Nadeau et al Το σύστημα του Gallippi Το σύστημα Nymble των Bikel D. M. et al Υβριδικές μέθοδοι Το σύστημα LTG των Mikheev et al Το σύστημα Nemesis των Fourour et al Το σύστημα των Cucchiarelli et al Συμπεράσματα ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ Αυτόματη αναγνώριση κυρίων ονομάτων Μεθοδολογία αυτόματης αναγνώρισης κυρίων ονομάτων Γλωσσολογικά εργαλεία Συστήματα Το σύστημα NOOJ Το σύστημα UNITEX Η ελληνική έκδοση Μεθοδολογία αυτόματης αναγνώρισης κυρίων ονομάτων Τεμαχισμός του κειμένου σε προτάσεις Χρήση εσωτερικών και εξωτερικών ενδεικτών α. Χρήση σημασιολογικών χαρακτηριστικών β. Χρήση συντακτικών χαρακτηριστικών και ομοιόπτωτων προσδιορισμών Χρήση μορφολογικών χαρακτηριστικών Χρήση Τοπικών γραμματικών Χρήση γράφων αυτόματης αναγνώρισης ως εξαιρέσεις Εμπλουτισμός του λεξικού μέσω της ανατροφοδότησης Περιγραφή των δομών εκφοράς των προς αναγνώριση κυρίων ονομάτων Εξωτερικοί ενδείκτες: επαγγέλματα, τίτλοι και αξιώματα Εξωτερικοί ενδείκτες: τοπικές γραμματικές Εξωτερικοί ενδείκτες: εξαιρέσεις Λογικές εκφράσεις Παραγωγή - Σύνθεση επωνύμων Παραγωγή επωνύμων Σύνθεση επωνύμων

4 Μορφολογία των επωνύμων με το πρόθημα Παπα Μορφολογία των επωνύμων με το πρόθημα Χατζη Μορφολογία των επωνύμων με άλλα προθήματα Αυτόματη ανάκτηση των κυρίων ονομάτων ΚΕΦΑΛΑΙΟ ΕΚΤΟ Αποτελέσματα αυτόματης αναγνώρισης Αναγνώριση μέσω των λεξικών Αυτόματη ανάκτηση μέσω UNITEX Αποτελέσματα ΕΠΙΛΟΓΟΣ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ

5 Ευχαριστίες Πολύτιμοι αρωγοί στην ολοκλήρωση του παρόντος πονήματος στάθηκαν πολλά πρόσωπα, τα οποία θα ήθελα να μνημονεύσω από τον ειδικό αυτό χώρο και να τα ευχαριστήσω εκ βαθέων και δημοσίως. Από καρδίας ευχαριστώ την επιβλέπουσα καθηγήτριά μου κ. Τίτα Κυριακοπούλου, η συμβολή της οποίας υπήρξε καθοριστική και ανεκτίμητη από την αρχή μέχρι το τέλος αυτής της μελέτης: δεν ήταν μόνον οι επιστημονικές της υποδείξεις, οι συζητήσεις και η πολύπλευρη κριτική της, αλλά και η υπομονή και η ηθική συμπαράστασή της. Θερμότατες και αμέριστες ευχαριστίες εκφράζω στην καθηγήτρια κ. Άννα Αναστασιάδη-Συμεωνίδη, για το χρόνο που διέθεσε για τη διόρθωση της εργασίας και της οποίας οι υποδείξεις και οι διορθωτικές επεμβάσεις στο ολοκληρωμένο σώμα του κειμένου συνέβαλαν σε μια ασφαλώς πιο βελτιωμένη μορφή της. Επίσης ευχαριστώ τον καθηγητή κ. Δημήτρη Χρυσουλίδη για την πολύτιμη βοήθειά του, αφού μέσα από τις συζητήσεις μας έλαβε η μελέτη την τελική της μορφή. Ιδιαίτερη μνεία και ευχαριστίες οφείλονται στον καθηγητή Χ.Π. Συμεωνίδη που μου διέθεσε το αρχείο του των κυρίων ονομάτων, από το οποίο προήλθε το μεγαλύτερο μέρος των γλωσσικών πόρων που χρησιμοποίησα. Θα ήθελα επιπλέον να ευχαριστήσω τον Claude Martineau, ερευνητή του πανεπιστημίου Paris-Est MLV για την πολύτιμη βοήθειά του στον εκσυγχρονισμό και στην οριστικοποίηση της τελικής μορφής των πεπερασμένων αυτομάτων στα οποία βασίστηκε αυτή η έρευνα. Οφείλω να εκφράσω τις θερμές ευχαριστίες μου στο συνάδελφο και φίλο Νίκο Μπαρτζιώκα, ο οποίος με βοήθησε στον υπολογισμό των αποτελεσμάτων της έρευνας, όπως επίσης και σε οποιοδήποτε τεχνικής υφής θέμα προέκυψε. Ανεκτίμητη υπήρξε η συνδρομή όλων των συναδέλφων και φίλων του Εργαστηρίου Μετάφρασης και Επεξεργασίας του : μέσα από τις πολυάριθμες συζητήσεις και τις παρουσιάσεις που πραγματοποιήθηκαν στο χώρο του εργαστηρίου μπόρεσα να διαμορφώσω το σύνολο της έρευνας. Ένα μεγάλο ευχαριστώ στους: Ιωνά Μιχαηλίδη, Στέλλα Μπακούρα, Αναστασία Γιαννακοπούλου, Ολυμπία Τσακνάκη, Σταυρούλα Βογιατζή, Ράνια Βοσκάκη, Βάσω Σφέτσιου, Ελένη Τζιάφα, Χρήστο Νασιάδη. Ευχαριστώ ιδιαιτέρως την Εύα Φίστα για την ανάγνωση της πρώτης μορφής της εργασίας, όπως και την Κέλλη Ιωαννίδου και τη Βάσω Φούφη για την εγκάρδια συνδρομή τους στην κάθε απρόοπτη ερώτηση ή συναδερφική εξυπηρέτηση. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου για τη στήριξη και την ενθάρρυνση που δε σταμάτησαν ποτέ να μου προσφέρουν. Ιδιαίτερα ευχαριστώ τη σύζυγό μου, Σοφία, που όλο αυτό το διάστημα έδειξε τεράστια υπομονή και μου παρείχε αμέριστη κατανόηση και συνεχή παρότρυνση, βασικές προϋποθέσεις για την ολοκλήρωση αυτής της διατριβής. 5

6 Πίνακας Συμβόλων και Συντομογραφιών ΚΩΔΙΚΟ ΣΥΜΒΟΛΟ ΣΗΜΑΣΙΑ ΣΥΜΒΟΛΟΥ Σύμβολα σε γενική χρήση [Fn] Βαπτιστικό (σημασιολογικό χαρακτηριστικό) [Ln] Επώνυμο (σημασιολογικό χαρακτηριστικό) <DIC> Λέξη που υπάρχει στο λεξικό <E> Κενή λέξη <MAJ> Ακολουθία κεφαλαίων γραμμάτων <MIN> Ακολουθία πεζών γραμμάτων <MOT> Οποιαδήποτε ακολουθία γραμμάτων <PNC> Σημεία στίξης <PRE> Ακολουθία γραμμάτων που αρχίζει με κεφαλαίο γράμμα <ΜΙΧ> Λέξη που περιέχει κεφαλαία και μικρά γράμματα <ΝΒ> Αριθμός A Επίθετο ADV Επίρρημα CONJ Σύνδεσμος DET Προσδιοριστής Hum Έμψυχο ουσιαστικό (σημασιολογικό χαρακτηριστικό) LetMaj Κεφαλαίο γράμμα N Ουσιαστικό Nprop Κύριο όνομα (σημασιολογικό χαρακτηριστικό) PREP Πρόθεση PREPDET Πρόθεση + προσδιοριστής V Ρήμα στην ενεργητική φωνή κπ. Κάποιο(ν) κτλ. Και τα λοιπά π.χ. Παραδείγματος χάριν Σύμβολα σε χρήση μορφολογικών χαρακτηριστικών A Αιτιατική f Θηλυκό G Γενική m Αρσενικό 6

7 n N p s V Ουδέτερο Ονομαστική Πληθυντικός Ενικός Κλητική 7

8 ΕΙΣΑΓΩΓΗ 1. Αντικείμενο και σκοπός της παρούσας μελέτης Τα περισσότερα κείμενα που παράγονται σήμερα γράφονται συνήθως ευθύς εξ αρχής από τον ίδιο τον δημιουργό τους σε ηλεκτρονική μορφή. Όσα ακολουθούν την παραδοσιακή οδό, οδηγούνται κι αυτά υποχρεωτικά στη μεταγραφή τους σε ηλεκτρονική μορφή, όταν χρειαστεί να ακολουθήσουν κάποια εκδοτική διαδικασία. Πολλά επίσης έντυπα κείμενα του παρελθόντος έχουν ήδη ψηφιοποιηθεί ή έχουν προγραμματιστεί για ψηφιοποίηση από διάφορες βιβλιοθήκες, επίσημους φορείς ή δικτυακούς τόπους. Αυτή είναι η νέα τάση, η αλλαγή κατεύθυνσης που βιώνουμε κυρίως την τελευταία δεκαπενταετία ως προς τον τρόπο καταγραφής και διαχείρισης της πληροφορίας. Όλα λοιπόν οδηγούν με γοργούς ρυθμούς στην ψηφιοποίηση της πληροφορίας, στην ψηφιοποίηση της εν γένει πνευματικής παραγωγής του ανθρώπου, και αντιλαμβάνεται κανείς πόσο επιτακτική είναι σήμερα η ανάγκη δημιουργίας ψηφιακών εργαλείων και προγραμμάτων κατάλληλων τόσο για την αρχειοθέτηση όσο και κυρίως για την επεξεργασία αυτού του τεράστιου όγκου πληροφοριών και δεδομένων των φυσικών γλωσσών. Κυρίως ενδιαφερόμενοι, αλλά όχι και μοναδικοί, είναι βεβαίως όσοι ασχολούνται με τις επιστήμες της γλώσσας και ειδικά με την υπολογιστική γλωσσολογία. Μέσα στο νέο και προκλητικό ερευνητικό πεδίο βασικό και ουσιαστικό λόγο και ρόλο έχει βεβαίως η γλωσσική διδασκαλία και η εκπαίδευση, η οποία αξιολογώντας τις πρωτοποριακές δυνατότητες του internet, των οπτικών μέσων (Blu-ray, Dvd-rom, Cd-rom) και γενικότερα των πολυμεσικών εφαρμογών, κατάφερε όχι μόνο να διατηρήσει αλλά και να αυξήσει το αρχικό ενδιαφέρον, ειδικών και μη, για τις εξελίξεις στους διάφορους τομείς της. Έτσι, παρατηρούμε την εμφάνιση διαδικτυακών τόπων που έχουν ως αντικείμενό τους την ελληνική γλώσσα και τείνουν να καταστούν από τους πιο «προσφιλείς προορισμούς», ακόμη και για το ευρύτερο κοινό, στην ηλεκτρονική πλοήγηση 1. Στο παραπάνω πλαίσιο διαχείρισης ψηφιακού υλικού εντάσσεται και η παρούσα έρευνα, αντικείμενο της οποίας είναι η αυτόματη αναγνώριση των ανθρωπωνυμίων, δηλαδή των κυρίων ονομάτων προσώπων που απαντούν στα ελληνικά κείμενα. Η απόφασή μας να μελετήσουμε την παρουσία των κυρίων ονομάτων στα κείμενα της Νέας Ελληνικής, προήλθε από τη διαπίστωση ότι οι προσπάθειες που έχουν γίνει ως σήμερα 2 επικεντρώθηκαν 1 Ενδεικτικά, μια τέτοια προσπάθεια αποτελεί η ιστοσελίδα «Πύλη για την Ελληνική Γλώσσα», 2 Βλ. Καρκαλέτσης et al και Petasis et al

9 κυρίως σε στατιστικές / μαθηματικές προσεγγίσεις της γλώσσας, οι οποίες δεν χρησιμοποίησαν γλωσσικούς πόρους παρά μόνον σε πολύ περιορισμένο βαθμό. Από τις μελέτες αυτές απουσιάζει μια στοχευμένη γλωσσολογική ανάλυση των ανθρωπωνυμίων, όταν γνωρίζουμε ότι ειδικά αυτή η παράμετρος είναι πολύ σημαντική και ουσιαστική για μια ολοκληρωμένη περιγραφή των ανθρωπωνυμίων, η οποία συγχρόνως προσφέρει και το πλεονέκτημα να βελτιώνει αισθητά και τα ποσοστά επιτυχούς ανάκτησής τους. Βεβαίως οι στόχοι των ερευνητών αυτών ήταν να περιορίσουν τις χρονικές δεσμεύσεις που απαιτεί η επεξεργασία των δεδομένων ενός τέτοιου συστήματος, έτσι προτίμησαν τα μαθηματικά μοντέλα περιγραφής της γλώσσας. Θα προτείνουμε λοιπόν μια μέθοδο που συνδυάζει τη χρήση ενός ηλεκτρονικού λεξικού με τη σύνταξη γλωσσολογικών κριτηρίων αυτόματης αναπαράστασης των ελληνικών βαπτιστικών και επωνύμων και θα εξετάσουμε την ποιότητα των αποτελεσμάτων ανάκτησης. Στην έρευνα αυτή θα ακολουθήσουμε τις μεθοδολογικές αρχές του Εργαστηρίου Αυτόματης Τεκμηρίωσης και Γλωσσολογίας (LADL) 3 και θα βασιστούμε σε ένα σύνολο κυρίων ονομάτων που ανέρχονται στις Από το σύνολο αυτό θα δημιουργήσουμε ένα λεξικό κωδικοποιημένων κυρίων ονομάτων, το οποίο θα συμπληρωθεί μέσω της χρήσης γλωσσολογικών κριτηρίων που θα αναγνωρίζουν αυτόματα μεγάλο όγκο ονομάτων που δεν θα υπάρχουν στο λεξικό μας. Είναι φυσικό και αναμενόμενο να μην μπορούμε να εξασφαλίσουμε απόλυτη πληρότητα στη συλλογή των κυρίων ονομάτων από τα διάφορα λεξικά, αφού η καταγραφή του συνόλου των κυρίων ονομάτων σε ένα λεξικό είναι από τη φύση της έργο ανέφικτο, καθώς καθημερινά παρουσιάζονται νέα ονόματα. Ταυτόχρονα, θα κατηγοριοποιηθούν και θα προταθούν λύσεις στα προβλήματα αναπαράστασης και αμφισημιών που εντοπίζονται στα κύρια ονόματα προσώπων της Νεοελληνικής. Τα λεξικά κυρίων ονομάτων εκτός από την προφανή διευκόλυνση που προσφέρουν στην ανάλυση των φυσικών γλωσσών και στην αυτόματη μετάφραση, είναι σαφές ότι μπορούν να έχουν επίσης μια πληθώρα τεχνολογικών εφαρμογών. Ενδεικτικά αναφέρουμε εδώ ορισμένους τομείς, όπου μπορούν να αξιοποιηθούν ή ήδη αξιοποιούνται: στους αυτόματους διορθωτές σε προγράμματα επεξεργασίας κειμένου, στην αυτόματη περίληψη κειμένων, στη μετατροπή greeklish σε ελληνικά, στην αυτόματη ευρετηρίαση εγγράφων. Αυτό συμβαίνει καθώς τα κύρια ονόματα έχουν εξέχουσα θέση και εμφανή παρουσία στα κείμενα, ακόμη και μέσα σε παγιωμένες εκφράσεις 4 ή σε παροιμίες 5 και από τη στιγμή 3 Laboratoire d Automatique Documentaire et Linguistique. 4 Βλ. Χιώτη (2010: ). 9

10 που δεν εμφανίζονται σε μια λεξιλογική βάση, θεωρούνται από τα προγράμματα μορφοσυντακτικής κατηγοριοποίησης και τους αναλυτές ως άγνωστες λέξεις. Όπως αναφέρει η Daille (2001:602) σχετικά με τις έρευνες των Spriet et al. (1996), ένα πρόγραμμα συντακτικής κατηγοριοποίησης παρουσιάζει ένα ποσοστό λαθών της τάξης του 6%, από το οποίο το 58% οφείλεται στην μη αναγνώριση των κυρίων ονομάτων 6. Σε τέτοιες περιπτώσεις, τα συστήματα αυτόματης ανάλυσης βρίσκονται αντιμέτωπα με ένα από τα πιο δυσεπίλυτα προβλήματα, δεδομένου ότι η ορθή ερμηνεία των κυρίων ονομάτων μπορεί να εξαχθεί μόνο με βάση το συγκείμενο (context). Η συστηματική μελέτη ανάλογων περιπτώσεων και ακολούθως η εξεύρεση τρόπων που θα μπορoύσαν να οδηγήσουν στον περιορισμό ή και την εξάλειψη αυτού του προβλήματος αποτελούν έναν από τους βασικούς στόχους της παρούσας έρευνας, ο οποίος θα μπορούσε να επιτευχθεί μέσω της κατασκευής των κατάλληλων γράφων 7 και τοπικών γραμματικών που θα επιτρέπουν την αναγνώριση των ονοματεπωνύμων. Το μοντέλο των πεπερασμένων αυτομάτων επιτρέπει αφενός την επίλυση ορισμένων προβλημάτων αμφισημίας που συνδέονται με τις γραμματικές λέξεις και αφετέρου την αναπαράσταση κάποιων γλωσσικών φαινομένων που παρουσιάζουν κανονικότητες. Συνεπώς η εφαρμογή των ηλεκτρονικών λεξικών (μονολεκτικών λεξικών μονάδων αλλά και ονοματικών λεξικών φράσεων 8 ) σε συνδυασμό με την κατασκευή πολυάριθμων τοπικών γραμματικών θα καταστήσει δυνατή μια όλο και πιο λεπτομερή λεξική ανάλυση, έτσι ώστε μεγάλο μέρος των αμφισημιών που υπάρχουν στα γραπτά κείμενα να μπορούν να επιλυθούν αυτόματα. 2. Εργαλεία Τα εργαλεία που χρησιμεύουν στην αυτόματη ανάλυση των κειμένων αποτελούν ουσιαστικά τη βάση από την οποία μπορεί να ξεκινήσει η δημιουργία ενός συστήματος αυτόματης μετάφρασης. Θα επιχειρήσουμε μια σύντομη παρουσίαση του τρόπου με τον οποίο πραγματοποιείται η αυτόματη ανάλυση, ώστε να διαπιστωθεί η ανάγκη χρήσης των κατάλληλων εργαλείων στα διάφορα στάδιά της. 5 Βλ. Τσακνάκη (2005:150). 6 Σε ανάλογη μελέτη του Maurel D., (2004) οι άγνωστες λεξικές μονάδες που συναντά στο σώμα κειμένων που επεξεργάζεται είναι της τάξης του 4% του συνόλου, από τις οποίες το 87% αποτελείται από κύρια ονόματα. 7 Βλ Βλ. Αναστασιάδη-Συμεωνίδη (1986: ). 10

11 Στο πρώτο στάδιο της ανάλυσης γίνεται κατάτμηση του κειμένου 9 με σκοπό την αναγνώριση των μικρότερων δυνατών λεξικών μονάδων (μονολεκτικών αλλά και ονοματικών λεξικών φράσεων). Το αρχικό αυτό στάδιο ονομάζεται μορφολογική ανάλυση 10, όπου παρατηρούμε πως οι λειτουργίες των λεξικών μονάδων, αν και ελέγχονται σε ένα ή και περισσότερα λεξικά, παρουσιάζουν πολλές αμφισημίες. Για να αρθούν αυτές οι αμφισημίες απαιτείται η συνδρομή, πέραν του μορφολογικού αναλυτή, ενός επιπρόσθετου αναλυτή, είτε συντακτικού είτε σημασιολογικού. Έτσι, ενώ ο μορφολογικός αναλυτής παρουσιάζει όλες τις λεξικές πιθανότητες, οι δύο επόμενοι αναλαμβάνουν την αποσαφήνιση και κατηγοριοποίηση των λεξικών μονάδων με βάση το συγκείμενό τους. Υπάρχουν δηλαδή δύο διαφορετικές καταστάσεις δεδομένων. Αφενός, το απλό, καθαρό κείμενο που για τον υπολογιστή δεν είναι τίποτα περισσότερο από μία χωρίς δομή ακολουθία τυπογραφικών χαρακτήρων, αφετέρου τα λεξικά, που είναι ένα δομημένο σύνολο γλωσσικών δεδομένων απόλυτα κατανοητό από τον άνθρωπο αλλά τελείως άγνωστο για τον υπολογιστή. Η μορφολογική ανάλυση λοιπόν μπορεί να θεωρηθεί ως το εργαλείο που δίνει τη δυνατότητα ενοποίησης των δύο καταστάσεων, με σκοπό τη δημιουργία μιας τρίτης, δηλαδή μιας ακολουθίας λεξικών μονάδων συσχετισμένων με τις γλωσσικές τους ιδιότητες (όπως περιγράφονται στα λεξικά). Όπως γίνεται κατανοητό από τα παραπάνω, απαραίτητη προϋπόθεση για την πραγματοποίηση της αυτόματης μορφολογικής ανάλυσης είναι η ύπαρξη εξαντλητικών λεξικών προσαρμοσμένων σε μορφή κατάλληλη ώστε να είναι δυνατή η χρήση τους από ηλεκτρονικούς υπολογιστές, όπως επίσης και η κατασκευή προγραμμάτων ανάλυσης κειμένων. Όπως σημειώνει ο M. Gross (1989), σκοπός της δημιουργίας ενός όσο το δυνατόν πληρέστερου λεξικού κυρίων ονομάτων είναι να χρησιμοποιείται από τον ηλεκτρονικό υπολογιστή κατά τη διαδικασία της αυτόματης ανάλυσης κειμένων. Έτσι, είναι απαραίτητο να υπόκειται σε λογική και κανόνες διαφορετικούς από αυτούς των συμβατικών έντυπων λεξικών που έχουν τελικό αποδέκτη ανθρώπινο χρήστη 11. Το σύνολο αυτών των λεξικών και των εργαλείων ανάλυσης απαρτίζουν ένα σύστημα αυτόματης ανάλυσης κειμένων. Ένα από τα συστήματα αυτά είναι το UNITEX 12 (Paumier, 2003, 2008, 2011), ένα γλωσσικό περιβάλλον που επιτρέπει την τυποποιημένη περιγραφή των φυσικών γλωσσών και την εφαρμογή τους σε σώματα κειμένων πολλών 9 Κριτήριο για το διαχωρισμό του κειμένου σε μονολεκτικές λεξικές μονάδες είναι η ύπαρξη κενού, παύλας ή αποστρόφου μπροστά και πίσω από μία ακολουθία γραμμάτων. 10 Πραγματοποιείται μέσω ενός προγράμματος που ονομάζεται ανάλογα : μορφολογικός αναλυτής. 11 Για τη διαφοροποίηση έντυπων και ηλεκτρονικών λεξικών βλ. Gross (1989), Silberztein (1990), Courtois (1994), (2003), Φίστα (2003)

12 εκατομμυρίων λέξεων, με σκοπό την αυτόματη επεξεργασία τους σε πραγματικό χρόνο. Η τυποποιημένη περιγραφή επιτυγχάνεται με τα ηλεκτρονικά λεξικά, τα λεξικά-γραμματικές 13 και τις τυποποιημένες γραμματικές, δηλαδή γραμματικές που αναπαριστούν με γράφους πεπερασμένων αυτομάτων μορφολογικές και συντακτικές πληροφορίες 14. Επιλέξαμε να χρησιμοποιήσουμε το συγκεκριμένο λογισμικό στην έρευνά μας, κυρίως επειδή είναι το περισσότερο διαδεδομένο (το χρησιμοποιεί περίπου το 75% των ερευνητών που ασχολούνται με υπολογιστική γλωσσολογία), διατίθεται δωρεάν 15, ενώ υπάρχει άμεση υποστήριξη και αμφίδρομη συνεργασία με τους δημιουργούς του για τον εμπλουτισμό και τη βελτίωσή του. Ασφαλώς το συγκεκριμένο γεγονός οδήγησε στη διευκόλυνση της εκπόνησης της μελέτης μας, τόσο μέσω της δημιουργίας και παροχής προσωπικών εξειδικευμένων εργαλείων, όσο και μέσω της πρόσβασης και αξιοποίησης του συνόλου των γλωσσικών πόρων της Νέας Ελληνικής. Ειδικότερα για τα κύρια ονόματα που είναι το αντικείμενο της παρούσας εργασίας, γενικότερος στόχος μας ήταν να αυξήσουμε την ταχύτητα επεξεργασίας τους μέσω της αυτοματοποίησης, όπου αυτό ήταν δυνατό, των διαδικασιών της αναγνώρισης και της ανάκτησής τους. Για να το επιτύχουμε αυτό, χρησιμοποιήθηκαν αποτελεσματικές τεχνικές και κατάλληλα προγράμματα, τα οποία έχουν υιοθετηθεί και χρησιμοποιηθεί επιτυχώς για την επεξεργασία και άλλων γραμματικών κατηγοριών. Τα προγράμματα αυτά είναι τα εξής: Genere flexion ( ) 16 Grflex ( ) Unitex ( ) 3. Πηγές και σώματα κειμένων (corpora) Ως πηγές άντλησης των κυρίων ονομάτων του λεξικού χρησιμοποιήσαμε το αρχείο του καθηγητή Χαράλαμπου Συμεωνίδη, ένα σώμα κειμένων από το CIS (του καθηγητή Guenthner Franz από το Πανεπιστήμιο του Μονάχου), ένα σώμα κειμένων της εφημερίδας «Τα Νέα», ένα σώμα κειμένων της εφημερίδας «Μακεδονία», ένα σώμα κειμένων από 13 Περισσότερα για τις έρευνες που πραγματοποιήθηκαν στο πλαίσιο του λεξικού γραμματικής βλ. C. Leclère, C. Subirats-Rüggeberg (1991), Μ. Gross (1975), (1982), (1988), (1997), Boons & Guillet (1986), Boons et al. (1976), Guillet & Leclère (1992). 14 Βλ. κεφάλαιο Η δωρεάν έκδοση του προγράμματος περιέχει τους γλωσσικούς πόρους σε ποσοστό 30% του συνόλου της κάθε γλώσσας. 16 Τα εντός παρένθεσης στοιχεία παραπέμπουν στο αντίστοιχο υποκεφάλαιο, όπου παρουσιάζονται τα σχετικά προγράμματα. 12

13 ορισμένα βιβλία του Παιδαγωγικού Ινστιτούτου, το εορτολόγιο της Ελληνικής Ορθόδοξης Εκκλησίας, το πόνημα του Συμεωνίδη «Εισαγωγή στην Ελληνική Ονοματολογία», ενώ παράλληλα αρκετοί όροι συγκεντρώθηκαν από διάφορες πηγές προσωπικά από τον γράφοντα. Θεωρούμε πως το σώμα κειμένων που χρησιμοποιούμε είναι αρκετά μεγάλο σε έκταση, ώστε να είναι αντιπροσωπευτικό των περισσότερων γλωσσικών φαινομένων που εμφανίζουν τα κύρια ονόματα στη Νέα Ελληνική. Φυσικά δεν αποκλείεται κάποια φαινόμενα να μένουν απ έξω και να μην εκπροσωπούνται. Δανειζόμαστε τις σκέψεις της Αναστασιάδη-Συμεωνίδη 17, η οποία αναφέρει πως «σε ένα τεράστιο corpus, προïόν ομαδικής δουλειάς και αυτοματοποίησης, υπάρχουν πολλές πιθανότητες ακόμη και σπάνια φαινόμενα να εκπροσωπούνται επαρκώς. Έτσι η έκταση του corpus παίζει συγκεκριμένο ρόλο στο κατά πόσο οι κανόνες που προτείνονται διακρίνονται ή όχι για τη γενικότητα εφαρμογής τους. Ωστόσο με τη μέθοδο αυτή δεν μπορεί ο ερευνητής να βεβαιώσει ότι κάποιο γλωσσικό φαινόμενο δεν υπάρχει καθόλου στη γλώσσα που μελετά το μόνο που μπορεί να πει είναι ότι το φαινόμενο αυτό δεν εμφανίζεται καθόλου στο συγκεκριμένο corpus. Και αυτό γίνεται γιατί εξ ορισμού το corpus είναι ένα πεπερασμένο σύνολο, ένα μέρος του άπειρου συνόλου δυνατών φράσεων». 4. Τμήματα της εργασίας Στο πρώτο κεφάλαιο διασαφηνίζεται η σχέση εξάρτησης που έχουν τα κύρια ονόματα και οι ονοματικές οντότητες. Παρουσιάζεται ο τρόπος ορισμού των δύο εννοιών, ενώ παραθέτουμε επίσης ορισμένες από τις προτάσεις κατηγοριοποίησής τους που έχουν προταθεί τα τελευταία είκοσι πέντε χρόνια. Στο δεύτερο κεφάλαιο αναλύεται η παρουσία των κυρίων ονομάτων στη Νέα Ελληνική. Πιο συγκεκριμένα, αρχικά γίνεται αναφορά στην αντιμετώπιση που τυγχάνουν από τα έντυπα λεξικά, στη συνέχεια εντοπίζονται οι μορφολογικές, συντακτικές και σημασιολογικές ιδιαιτερότητες που παρουσιάζουν τα κύρια ονόματα, ενώ, τέλος, δίνεται ένας ορισμός των εσωτερικών και εξωτερικών ενδεικτών 18, όρων που θα μας απασχολήσουν αρκετά στην έρευνά μας. Στο τρίτο κεφάλαιο παρουσιάζεται το θεωρητικό πλαίσιο που υιοθετούμε, ενώ επιχειρούμε να προσδιορίσουμε το ακριβές αντικείμενο μελέτης της εργασίας και να παρουσιάσουμε τη μεθοδολογία της έρευνάς μας. Πραγματοποιείται επίσης ανάλυση του 17 Βλ. Αναστασιάδη-Συμεωνίδη (1986:15-16). 18 Βλ

14 τρόπου σύνταξης του ηλεκτρονικού λεξικού κυρίων ονομάτων, των εργαλείων κλίσης που χρησιμοποιήθηκαν και των προβλημάτων που αντιμετωπίστηκαν. Στο τέταρτο κεφάλαιο μας απασχολούν τα συνέδρια MUC, τα οποία καθόρισαν την εξέλιξη της έρευνας στον τομέα της αυτόματης αναγνώρισης, ενώ γίνεται παρουσίαση των πιο αντιπροσωπευτικών συστημάτων εξαγωγής ονοματικών οντοτήτων. Τα συστήματα που σχολιάζονται ανήκουν σε τρεις διακριτές κατηγορίες. Έτσι, με βάση την προσέγγιση που υιοθετούν χωρίζονται σε γλωσσολογικές, στατιστικές / μαθηματικές και υβριδικές μεθόδους. Το πέμπτο κεφάλαιο είναι αφιερωμένο στην αυτόματη αναγνώριση των κυρίων ονομάτων της Νέας Ελληνικής, όπου παρουσιάζουμε τον τρόπο εργασίας μας και των πρακτικών που σταδιακά χρησιμοποιήσαμε για να βελτιώσουμε τα αποτελέσματα ανάκτησης. Παραθέτουμε επίσης σχολιασμό των γλωσσολογικών εργαλείων και συστημάτων που επιστρατεύτηκαν για να πραγματοποιηθεί η μελέτη. Στο έκτο, και τελευταίο, κεφάλαιο παραθέτουμε τα αποτελέσματα της αυτόματης αναγνώρισης, όπως αυτά προέκυψαν μετά την εφαρμογή, αρχικά, μόνο των ηλεκτρονικών λεξικών και στη συνέχεια και των γλωσσολογικών κριτηρίων στα κείμενα του corpus μας. Ακολουθεί το παράρτημα, όπου δίνoνται δείγματα των λημμάτων του ηλεκτρονικού λεξικού που επεξεργαστήκαμε, τα αντίστοιχα πεπερασμένα αυτόματα, καθώς και αποσπάσματα των συμφραστικών πινάκων. 14

15 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ 1. Ορισμός και κατηγοριοποίηση των κυρίων ονομάτων και των ονοματικών οντοτήτων Ορισμός και σημασία των κυρίων ονομάτων Η παρουσία κυρίων ονομάτων στην πλειονότητα των κειμένων θεωρείται ασφαλώς και δεδομένη και πληθωρική. Για παράδειγμα, στη γλώσσα των Μέσων Μαζικής Ενημέρωσης γίνεται ευρύτατη χρήση κυρίων ονομάτων, ακριβώς λόγω της μεγάλης ποικιλίας που παρουσιάζουν τα θέματα της επικαιρότητας που καλύπτονται ειδησεογραφικά 19, οπότε οι αναφορές σε ονόματα προσώπων, τόπων κτλ. είναι συχνές και απαραίτητες 20. Όμως κατά την επεξεργασία των κειμένων από τα συστήματα αυτόματης ανάλυσης τα κύρια ονόματα χαρακτηρίζονται ως «άγνωστες λέξεις», λόγω της έλλειψης ενός λεξικού που να μπορεί τα αναγνωρίζει και να τα κατηγοριοποιεί. Μάλιστα, όπως προαναφέραμε, οι Spriet T. et al. (1996) υποστηρίζουν ότι κατά τη χρήση ενός τέτοιου προγράμματος συντακτικής ανάλυσης παράγεται μια ποσοστιαία αναλογία λαθών 6% (το ελάχιστο), από τα οποία το 58% οφείλεται στη μη αναγνώριση των κυρίων ονομάτων. Η λύση για την εξάλειψη αυτών των σφαλμάτων είναι η δημιουργία ενός πλήρους λεξικού κυρίων ονομάτων, το οποίο θα είναι εξαιρετικά σαφές και προσαρμοσμένο σε μορφή κατάλληλη για χρήση από ηλεκτρονικό υπολογιστή. Για την πραγματοποίηση αυτού του εγχειρήματος απαιτείται βεβαίως προσπάθεια αρκετών χρόνων, αφού τα κύρια ονόματα ανήκουν σε μια κατηγορία ουσιαστικών που διέπεται από ιδιαίτερους κανόνες, κυρίως λόγω των κεφαλαίων γραμμάτων με τα οποία αρχίζουν, του μεγάλου αριθμού τους και της συνεχούς ανανέωσής τους, όπως επίσης και λόγω των ποικίλων μορφών που παίρνουν κατά τη γραφή τους. Σημαντικότατο ρόλο στην ποικιλομορφία αυτή έπαιξαν οι επιδράσεις των διαφόρων γλωσσών και πολιτισμών, με τους οποίους έχει έρθει και έρχεται σε επαφή η ελληνική γλώσσα. Αποτέλεσμα όλων των παραπάνω είναι να δημιουργούνται πολλαπλά προβλήματα στην προσπάθεια θέσπισης κανόνων και κριτηρίων που θα αποτελέσουν τη βάση δημιουργίας του εν λόγω λεξικού. Το 19 Βλ. Αναστασιάδη-Συμεωνίδη (1986:17). 20 Χαρακτηριστικό της ποικιλίας πληροφοριών που συναντά ο ενδιαφερόμενος στα κύρια ονόματα είναι πως ακόμη και οι τίτλοι των εφημερίδων παρουσιάζουν γλωσσολογικό ενδιαφέρον. Βλ. Hidiroglou-Zahariades (2008). 15

16 θέμα δεν ενδείκνυται για ολιγοχρόνιες εργασίες, εφόσον «ο ερευνητής κινείται σε ένα χώρο, στον οποίο κανόνας είναι η έλλειψη οποιουδήποτε κανόνα». 21 Όσον αφορά την περιγραφή ή τον ορισμό του όρου «κύριο όνομα», οι προσεγγίσεις που συναντήσαμε διαφέρουν αρκετά μεταξύ τους, και ενδεικτικά παραθέτουμε ορισμένες από αυτές: Onomastique : «Étude, science des noms propres, et spécialement des noms de personnes (anthroponymie) et de lieux (toponymie)» 22 : Αυτός είναι ο κλασικός διαχωρισμός που βρίσκουμε στον ορισμό της ονοματολογίας στο Dictionnaire de linguistique και στο Petit Robert σε Cd-rom. Με τον παραπάνω ορισμό συμφωνεί και ο Συμεωνίδης (1992:11), ο οποίος σημειώνει πως «η επιστημονική έρευνα των τοπωνυμίων και ανθρωπωνυμίων ή προσωπωνυμίων αποτελεί σήμερα αντικείμενο ενός ιδιαίτερου κλάδου της γλωσσολογίας, της ονοματολογίας». Το Petit Robert (Cd-rom) επίσης στο λήμμα κύριο όνομα δίνει τον εξής ορισμό : «Mot ou groupe de mots servant à désigner un individu et à le distinguer des êtres de la même espèce» 23. Ακόμη, οι Grevisse et al. (1993) σημειώνουν πως: «Le nom propre n a pas de signification véritable, de définition; il se rattache à ce qu il désigne par un lien qui n est pas sémantique, mais par une convention qui lui est particulière» 24. Το αγγλικό λεξικό του Longman στο λήμμα proper noun το περιγράφει ως «a noun that is the name of a single particular thing or person, and is spelt with a capital letter: James, London, and China are proper nouns in English» 25. Το Λεξικό της Κοινής Νεοελληνικής (1998) 26 αναγράφει στο επίθετο «κύριος-α-ο»: «Κύριο όνομα, το ουσιαστικό που δηλώνει ορισμένο πρόσωπο, ζώο ή πράγμα», ενώ στο ουσιαστικό «όνομα» συμπληρώνει στην προηγούμενη περιγραφή τα εξής: «Οι λέξεις Γιάννης, Ντορής, Τιτανικός είναι κύρια ονόματα, γι αυτό αρχίζουν με κεφαλαίο γράμμα», δηλώνοντας το κυρίαρχο μορφολογικό χαρακτηριστικό τους που τα διαχωρίζει από τις απλές λεξικές μονάδες. 21 Βλ. Ταχινοσλής (1991:175). 22 Η μετάφραση είναι δική μας : Ονοματολογία : «Η μελέτη, επιστήμη των κυρίων ονομάτων, και ειδικά των ονομάτων προσώπων (ανθρωπωνυμία) και των τόπων (τοπωνυμία). Βλ. Dubois, J. et al. (1994). 23 Η μετάφραση είναι δική μας: «Λέξη ή σύνολο λέξεων που χρησιμεύει για να δηλώσει ένα άτομο και να το ξεχωρίσει από τα άλλα όντα του ίδιου είδους». 24 Η μετάφραση είναι δική μας: «Το κύριο όνομα δεν έχει πραγματική σημασία, δεν έχει ορισμό. Συνδέεται με αυτό το οποίο δηλώνει με ένα δεσμό που δεν είναι σημασιολογικός, αλλά με μια ιδιαίτερη σύμβαση». 25 Η μετάφραση είναι δική μας: «ένα ουσιαστικό που είναι το όνομα ενός και μόνο συγκεκριμένου πράγματος ή ανθρώπου και γράφεται με κεφαλαίο γράμμα: τα «James», «London» και «China» είναι κύρια ονόματα στα αγγλικά». 26 Στο εξής ΛΚΝ. 16

17 Τέλος, στο Λεξικό της Νέας Ελληνικής Γλώσσας (Μπαμπινιώτης, 1998) 27 στο λήμμα «κύριος-α-ο» βρίσκουμε: «ΓΛΩΣΣ. κύριο όνομα το ιδιαίτερο όνομα με το οποίο συγκεκριμένο πρόσωπο, ζώο ή πράγμα διακρίνεται από τα άλλα, προσφωνείται με αυτό και το πρώτο γράμμα του οποίου γράφεται πάντοτε με κεφαλαίο». Αναζητώντας το ουσιαστικό «όνομα» βρίσκουμε : «Η λέξη με την οποία δηλώνεται, με την οποία είναι γνωστό συγκεκριμένο πράγμα, ζώο ή πρόσωπο, ώστε να ξεχωρίζει από τα ομοειδή του». Στη συνέχεια, συμπληρώνουμε στις παραπάνω ερμηνείες των λεξικών, τις αντίστοιχες που συναντάμε σε δύο ελληνικές γραμματικές. Έτσι, στη Νεοελληνική Γραμματική (Τσοπανάκης, 1998) βρίσκουμε: «Κύρια θεωρούμε αυτά που όλοι εννοούμε ως κύρια, όπως είναι τα βαφτιστικά, αυτά με τα οποία ξεχωρίζει ο κάθε άνθρωπος από τον άλλον: Αριστέα, Ασπασία, η Γεωργίτσα, το Μαράκι, Μαρία, Νικόλας, Περικλής, ή αυτά που εμείς θέλουμε να προσωποποιήσουμε: ο Καρνάβαλος, ο Εξαποδώ». Η Νεοελληνική Γραμματική (της δημοτικής) (Τριανταφυλλίδης, 1941:459) περιγράφει: «Λέγονται κύρια ονόματα τα ουσιαστικά που σημαίνουν ένα ορισμένο πρόσωπο, ζώο ή πράμα. Τα κυριότερα είδη των κυρίων ονομάτων είναι τα ονόματα των ανθρώπων και τα ονόματα των τόπων, που λέγονται και τοπωνυμίες. Τα ονόματα των ανθρώπων (ανθρωπωνυμίες) είναι βαφτιστικά ονόματα ή οικογενειακά». Από τους παραπάνω ορισμούς προκύπτει πως τα κύρια ονόματα είναι μια ξεχωριστή κατηγορία ουσιαστικών αλλά με «ειδική», προσδιοριστική αναφορικότητα 28. Συμπεριφέρονται όπως τα απλά ουσιαστικά και διέπονται επίσης από τους ίδιους κανόνες παραγωγής και σύνθεσης, τους οποίους θα περιγράψουμε στο κεφάλαιο για την αυτόματη αναγνώριση. Από τα όσα γράφουν οι Grevisse et al. 29 παρουσιάζεται μία ακόμη σημαντική διάσταση στη φύση του κυρίου ονόματος, την οποία συναντάμε πολύ συχνά σε γλωσσολογικές συζητήσεις, και η οποία συνίσταται στην ύπαρξη ή την απουσία νοήματος στα κύρια ονόματα. Όπως αναφέρει η Leroy (2004) είναι ένα από τα σημασιολογικά κριτήρια που μαζί με την μοναδική αναφορικότητα τα διαχωρίζει από τα απλά ουσιαστικά. Η διαμάχη για αυτό το θέμα είναι πολύχρονη και ανάγκασε πολλούς ερευνητές που ασχολούνται με τη μελέτη των κυρίων ονομάτων να αποστασιοποιηθούν, λαμβάνοντας μια 27 Στο εξής ΛΝΕΓ. 28 Περισσότερα για τη λειτουργία της αναφοράς στα κύρια ονόματα βλ. Κλαίρης & Μπαμπινιώτης (2004:21-28). 29 Βλ. Grevisse (1993). 17

18 ουδέτερη στάση 30. Όπως χαρακτηριστικά αναφέρει η Garry-Prieur (1994) 31 στην εισαγωγή του πρώτου μέρους του βιβλίου της: «Επέλεξα να σχηματίσω τον καθαρά περιγραφικό όρο «σημασιολογική λειτουργία» για να αποφύγω την λέξη «έννοια», και να δηλώσω πως θέλω να τοποθετηθώ έξω από το τόσο πολυσυζητημένο ερώτημα : έχουν έννοια τα κύρια ονόματα;». Σύμφωνα με τη Jonasson (1994) το ζήτημα οδήγησε στη διαμόρφωση τριών «παραδοσιακών» θεωριών. Η πρώτη θεωρία υποστηρίζει πως δεν υπάρχει καμία έννοια στα κύρια ονόματα (le nom est vide de sens), και πως αυτά λειτουργούν απλώς αναφορικά. Η δεύτερη, η οποία στηρίζεται με σθένος από τους φιλοσόφους και είναι λιγότερο σχετική με τη γλωσσολογία, δηλώνει πως η έννοια του κυρίου ονόματος είναι μια περιγραφή του αντικειμένου αναφοράς (le sens est une description du référent). Πως έχει δηλαδή το όνομα μια περιγραφική έννοια που του επιτρέπει να αναγνωρίζει κάτι. Τέλος, η τρίτη θεωρία υποστηρίζει πως η έννοια είναι ένα κατηγόρημα της ονομασίας. Δηλαδή πως τα κύρια ονόματα έχουν μια έννοια πιο γενική, πως δεν περιγράφουν κάτι, αλλά απλά του δίνουν ένα όνομα (le sens est un prédicat de dénomination) 32. Κανένας όμως από τους παραπάνω ορισμούς δεν περιλαμβάνει ονόματα εταιριών, ποταμών και εθνικά επίθετα. Έτσι, για μία περισσότερο ολοκληρωμένη εικόνα για το τι είναι το κύριο όνομα ανατρέχουμε σε προτάσεις κατηγοριοποίησής του, ώστε να διαπιστωθεί η φύση του μέσα από το περιεχόμενό του. Οι προτάσεις αυτές παρουσιάζονται αμέσως παρακάτω Προτάσεις κατηγοριοποίησης Υπάρχουν πολλές προτάσεις κατηγοριοποίησης των κυρίων ονομάτων, οι οποίες διαφοροποιούνται ανάλογα με το αντικείμενο που επιθυμεί να περιγράψει ο ερευνητής. Ορισμένες από αυτές συντάσσονται με βάση το υπό μελέτη κείμενο (Wolinski et al, 1995), άλλες υιοθετούν μορφο-συντακτικές προσεγγίσεις και είναι γενικότερες (Allerton, 1987), ενώ εμφανίζονται επίσης και ορισμένες αναφορικές ή γραφικές κατηγοριοποιήσεις (Fourour και Morin, 2003a) 33. Συνήθως οι νεότερες προτάσεις αποτελούν εξέλιξη κάποιων παλαιότερων, όπως χαρακτηριστικά συμβαίνει με τη σημασιολογική πρόταση 30 Η διαφωνίες επεκτείνονται ακόμη και στη λειτουργία των τίτλων πινάκων ζωγραφικής. Περισσότερα βλ. Bosredon, B. (1997). 31 Η μετάφραση είναι δική μας. Garry-Prieur (1994:11). 32 Βλ. Jonasson (1994). 33 Βλ. επίσης Garcia-Fernandez (2010:57). 18

19 κατηγοριοποίησης του Grass (2000) 34, την οποία βελτίωσαν οι Fourour και Morin (2003a) προσθέτοντας κατηγορίες. Το 1985 πραγματοποιήθηκε μία πραγματολογική κατηγοριοποίηση των κυρίων ονομάτων, εστιασμένη στη μετάφραση, από το Γερμανό γλωσσολόγο G. Bauer. Η πρότασή του περιγράφει 5 κύριες κατηγορίες ονομάτων, η καθεμία των οποίων χωρίζεται σε υποενότητες. Αυτές είναι : Τα Ανθρωπωνύμια (Anthroponymes), που εμπεριέχουν τα πατρώνυμα, τα βαπτιστικά, τα ψευδώνυμα, τα υποκοριστικά, τα «μοντέρνα» μουσικά σχήματα, τις κλασικές ορχήστρες/ καλλιτεχνικά σχήματα, τα ουσιαστικά και επίθετα που δηλώνουν εθνικότητα, τα ονόματα που δίνονται στα ζώα και τα ονόματα αθλητικών συλλόγων. Τα Τοπωνύμια (Toponymes), που περιλαμβάνουν τα ονόματα πόλεων, χωρών, μικροτοπωνύμια (μικρότερες περιοχές, όπως επαρχίες), υδροτοπωνύμια (Δούναβης), ορωνύμια (Άνδεις), ονόματα στρατιωτικών εγκαταστάσεων (Πεντάγωνο), και μνημείων. Τα Εργωνύμια (Ergonymes), που περιέχουν, τις μάρκες, τις επιχειρήσεις, τα ιδρύματα έρευνας και διδασκαλίας, τους τίτλους βιβλίων, ταινιών, εκδόσεων και έργων τέχνης, καθώς και μυθικών αντικειμένων (Εξκάλιμπερ). Τα Πραξωνύμια (Praxonymes), που σκιαγραφούν τα ιστορικά γεγονότα, τις ασθένειες, τους νόμους και τα πολιτιστικά συμβάντα. Τα Φαινώνυμα (Phénonymes) (Ετυμολογικά ο όρος προέρχεται από τον ελληνικό «φαινόμενο», δηλαδή αυτό που φαίνεται), όπου εντάσσονται οι φυσικές καταστροφές, οι ζώνες υψηλής και χαμηλής πίεσης, τα άστρα και οι κομήτες. Η Jonasson (1994) υιοθετώντας μια πιο μορφοσυντακτική προσέγγιση, διαχωρίζει δύο κατηγορίες κυρίων ονομάτων : (1) τα «καθαρά» κύρια ονόματα (noms propres purs) και (2) τα «περιγραφικά» ή «μικτά» κύρια ονόματα (noms propres à base descriptive ou mixte). Τα πρώτα περιλαμβάνουν κυρίως τα ονόματα τόπων (πόλεις, χώρες, νησιά, ποτάμια) και τα ονόματα προσώπων, όπως : Πέτρος, Κώστας, Μαρία. Αυτά τα «καθαρά» κύρια ονόματα είναι δυνατόν να παρουσιαστούν και σε πιο σύνθετες μορφές όπως : Άννα-Μαρία Παπαχαραλάμπους, Γιάννα Αγγελοπούλου-Δασκαλάκη. Όσον αφορά τα περιγραφικά κύρια ονόματα, αυτά αποτελούνται από ένα ή περισσότερα κοινά ουσιαστικά όπως : Μέγαρο Μουσικής, Πολεμική Αεροπορία, Νέα Δημοκρατία. Η κατηγορία των μικτών περιλαμβάνει τα κύρια ονόματα που αποτελούνται από συνδυασμό καθαρών και κοινών ονομάτων : Μέγας Αλέξανδρος, Νέα Ορλεάνη, η οδός Καυταντζόγλου, η Ακαδημία Αθηνών. Τα περιγραφικά και 34 Έχει σαν αντικείμενο τη μετάφραση και περιλαμβάνει μόνο κύρια ονόματα. 19

20 μικτά ονόματα χρησιμοποιούνται συνήθως σε οδούς, πλατείες, πάρκα, κτήρια καθώς επίσης και σε κοινωνικούς οργανισμούς, ιδρύματα και εταιρίες. Μία τρίτη προσπάθεια, στατιστικής κατηγοριοποίησης κυρίων ονομάτων στην οποία παρατηρούμε αρκετές ομοιότητες με την αντίστοιχη του Bauer, έγινε, επίσης το 1993, από τους W. Paik et al. για μια μελέτη του Wall Street Journal. Βέβαια, η συγκεκριμένη μελέτη δεν αναζητούσε κύρια ονόματα πλέον, αλλά αυτό που ονόμαζε «οντότητες κυρίων ονομάτων» (proper noun entities) και περιελάμβανε χρονικές εκφράσεις, ασθένειες κτλ. Σύμφωνα με τη συγκεκριμένη μελέτη τριάντα κατηγορίες οντοτήτων, χωρίζονται σε εννέα διαφορετικές «τάξεις», όπως φαίνεται παρακάτω: 1. Γεωγραφικές: πόλεις, λιμάνια, αεροδρόμια, νησιά, χώρες, διαμερίσματα, επαρχίες, ήπειροι, περιοχές, υγρές (θάλασσες, λίμνες, ποτάμια), άλλες γεωγραφικές οντότητες 2. Θεσμοί: εθνικότητες, θρησκείες 3. Οργανισμοί: εταιρίες, είδη εταιριών, κυβερνήσεις, ιδρύματα, οργανισμοί 4. Άνθρωποι: πρόσωπα, αξιώματα 5. Έγγραφα: έγγραφα 6. Εξοπλισμός: λειτουργικά, μηχανήματα, υλικά 7. Επιστημονικές: ασθένειες, ναρκωτικά, φάρμακα 8. Χρονικές: ημερομηνίες και ώρες 9. Διάφορες: άλλα κύρια ονόματα Δεν πρόκειται για μια προσπάθεια κατηγοριοποίησης που να κατατάσσεται ξεκάθαρα στην περιγραφή των κυρίων ονομάτων, αλλά βοηθάει στην κατανόηση πως τα κύρια ονόματα αποτελούν ένα υποσύνολο της ευρύτερης κατηγορίας των ονοματικών οντοτήτων, όπως αυτές αναλύονται παρακάτω. Ουσιαστικά με τον όρο οντότητες κυρίων ονομάτων αντιλαμβανόμαστε ότι το περιγραφόμενο αντικείμενο βρίσκεται κάπου ανάμεσα στις δύο κατηγορίες. Το 2000 οι Daille et al. 35 πραγματοποιούν στο «Cahiers de Grammaire» μια κατηγοριοποίηση διπλής φύσης για τα κύρια ονόματα της γαλλικής, μιας αναφορικής, εμπνευσμένη από τις αντίστοιχες μελέτες των Bauer (1985) και Paik et al. (1994), και μιας γραφικής, εμπνευσμένη από τις μελέτες της Jonasson (1994). Η αναφορική κατηγοριοποίηση προέκυψε συνδυαστικά από την ανάγκη δημιουργίας ενός περισσότερο αντιπροσωπευτικού καταλόγου ταξινόμησης από τους αντίστοιχους που 35 Βλ. Daille et al. (2000) "Catégorisation des noms propres : une étude en corpus". 20

21 είχαν συνταχθεί στο παρελθόν. Συμπληρώνουν τις κατηγορίες του Bauer (1985) με τις αντίστοιχες των Paik et al. (1993) όπου κρίνουν απαραίτητο, ώστε οι κατηγορίες να καλύπτουν ολόκληρο το εύρος των ονοματικών οντοτήτων. Η τελική μορφή είναι η παρακάτω, όπου με αστεράκι σημειώνεται η κατηγορία που προήλθε από τη μελέτη των Paik et al. (1993): Τα Ανθρωπωνύμια (Anthroponymes), που περιέχουν τα πατρώνυμα, τα βαπτιστικά, τα ουσιαστικά και επίθετα που δηλώνουν εθνικότητα, *τα πολιτικά κόμματα και άλλους οργανισμούς, *τα μουσικά σχήματα, *τα θεατρικά σχήματα, *τα καλλιτεχνικά σχήματα, τα ψευδώνυμα και τα ονόματα που δίνονται στα ζώα. Τα Τοπωνύμια (Toponymes), που περιλαμβάνουν τα ονόματα πόλεων, *περιοχών μεγαλύτερων σε έκταση από τις χώρες (Ευρώπη), χωρών, *περιοχών μεγαλύτερων σε έκταση από τις πόλεις αλλά μικρότερες από χώρες (Καταλονία), μικροτοπωνύμια (μικρότερες περιοχές, όπως επαρχίες), υδροτοπωνύμια (Σηκουάνας), ορωνύμια (Άλπεις), ονόματα οδών, ονόματα μνημείων και ονόματα ερήμων. Τα Εργωνύμια (Ergonymes), που περιέχουν τις γραμμές παραγωγής, τις μάρκες, τις επιχειρήσεις, τα ιδρύματα έρευνας και διδασκαλίας, τις στρατιωτικές εγκαταστάσεις και *τα πνευματικά έργα. Τα Πραξωνύμια (Praxonymes), που περιέχουν τα ιστορικά γεγονότα, τις ασθένειες, τα πολιτιστικά, αθλητικά, εμπορικά γεγονότα (φεστιβάλ κινηματογράφου του Βερολίνου) και τις *ιστορικές περιόδους (Εποχή του σιδήρου). Τα Φαινώνυμα (Phénonymes), όπου εντάσσονται οι φυσικές καταστροφές, τα άστρα και οι κομήτες. Ακολουθεί το δεύτερο είδος κατηγοριοποίησης, η γραφική, που στηρίχθηκε στην αντίστοιχη της Jonasson (1994), ενώ αναφέρεται πλέον σε ονοματικές οντότητες 36 και είναι ιδιαίτερα χρήσιμη στην αυτόματη αναγνώριση: 1. «Καθαρές» Ονοματικές Οντότητες απλές: οι μονολεκτικές λεξικές μονάδες που ξεκινάνε από κεφαλαίο (Γαλλία, Αριστοτέλης) 2. «Καθαρές» Ονοματικές Οντότητες σύνθετες: ονοματικές οντότητες που αποτελούνται από μη μονολεκτικές λεξικές μονάδες που ξεκινάνε από κεφαλαίο. Έχει δημιουργηθεί επίσης η υποκατηγορία «Βαπτιστικό Επώνυμο» (Prénom Nom), που περιλαμβάνει τις ονοματικές οντότητες που αποτελούνται από ένα ή 36 Βλ. κεφάλαιο

22 περισσότερα βαπτιστικά και μιας λεξικής μονάδας που ξεκινάει με κεφαλαίο και αναφέρεται σε πρόσωπο, όπως «Παύλος Σιδηρόπουλος». 3. Ονοματικές Οντότητες ελαφρώς μικτές: ονοματικές οντότητες που αποτελούνται από πολλές λεξικές μονάδες που ξεκινούν με κεφαλαίο και περιέχουν επίσης συνδετικές λεξικές μονάδες με μικρό, όπως «ο Κήπος της Εδέμ». Οι συνδετικές λεξικές μονάδες είναι ένα πεπερασμένο σύνολο που περιλαμβάνει τα άρθρα, τις προθέσεις, τους συνδέσμους. 4. Ονοματικές Οντότητες μικτές: ονοματικές οντότητες που αποτελούνται από πολλές λεξικές μονάδες, από τις οποίες τουλάχιστον μία ξεκινάει από κεφαλαίο, όπως «Κίνημα ενάντια στο μνημόνιο». 5. Αρκτικόλεξα: ονοματικές οντότητες που αποτελούνται από μία μόνο λεξική μονάδα που αποτελείται από περισσότερα του ενός κεφαλαία γράμματα και τα οποία μεμονωμένα αναφέρονται σε μια άλλη, ξεχωριστή, λεξική μονάδα, όπως «ΗΠΑ» Ορισμός των ονοματικών οντοτήτων Η εμφάνιση του όρου «ονοματική οντότητα» είναι αρκετά πρόσφατη, με συνέπεια να μην έχει διαμορφωθεί ακόμη ένας κοινά αποδεκτός και σαφής ορισμός της. Έχει προκύψει από τα συνέδρια MUC 37, σκοπός των οποίων ήταν η «αναγνώριση ονοματικών οντοτήτων» (NER 38 ), και όπου οι συμμετέχοντες καλούνταν να αναγνωρίσουν κύρια ονόματα σε κείμενα και να τα κατατάξουν σε τρεις διακριτές κατηγορίες: ονομασίες προσώπων και οργανισμών, εκφράσεις χρόνου και εκφράσεις αριθμών. Η επιστημονική κοινότητα ακόμη και σήμερα δε φαίνεται να έχει συμφωνήσει στα ακριβή όρια που καθορίζουν το περιεχόμενο του όρου, ενδεικτικό των πολλών διαφορετικών προτάσεων κατηγοριοποίησης που εμφανίζονται. Συνήθως η φύση της αναφοράς είναι περιγραφική, όπου ο ερευνητής αναλύει τι περιλαμβάνει η κάθε κατηγορία ονοματικών οντοτήτων. Μάλιστα το γεγονός πως κάτω από τον τίτλο «ονοματικές οντότητες» περιέχονται εκφράσεις και μονολεκτικές λεξικές μονάδες με μεγάλη σημασιολογική απόκλιση μεταξύ τους, μας οδηγεί στο συμπέρασμα πως η δημιουργία του όρου μάλλον ήταν μια σύμβαση των ερευνητών για να υπάρχει ένα κοινό σημείο αναφοράς. 37 Message Understanding Conference Βλ. κεφ Named Entity Recognition. 22

23 Το 2002 δίνεται ένας ορισμός, μέσω του συνεδρίου CoNLL 39, όπου σημειώνεται πως «Named entities are phrases that contain the names of persons, organizations, locations, times and quantities 40». Γίνεται εμφανές πλέον γιατί η κατηγοριοποίηση των Paik et al. (1993) που ήδη παρουσιάσαμε δεν είναι σαφής. Το θεωρούμε ίσως σαν το μεταβατικό στάδιο που φέρνει σε επαφή τον Bauer και τα συνέδρια MUC και κατ επέκταση τις πιο σύγχρονες θεωρίες. Παραθέτουμε παρακάτω ένα σχέδιο που συναντάμε στους Daille et al. (2000), το οποίο επιχειρεί με επιτυχία να αναπαραστήσει γραφικά τις σχέσεις των ονοματικών οντοτήτων με τα κύρια ονόματα. Όπου «Entités Nommées» περιέχονται ενδεικτικά παραδείγματα ονοματικών οντοτήτων, όπου «Noms Propres» περιέχονται ενδεικτικά παραδείγματα κυρίων ονομάτων και τέλος όπου «Classes MUC» (ENAMEX, TIMEX, NUMEX) περιέχονται ενδεικτικά παραδείγματα της κατηγοριοποίησης που προτάθηκε από τα συνέδρια MUC Κατηγοριοποίηση των ονοματικών οντοτήτων Η κατηγοριοποίηση προκύπτει αυτόματα μέσω των κριτηρίων διαχωρισμού που έχουν θεσπίσει τα εκάστοτε στατιστικά συστήματα ανάλυσης. Μια πρόσφατη πρόταση 39 Conference on Computational Natural Language Learning Βλ. ενότητα Η μετάφραση είναι δική μας: «Οι ονοματικές οντότητες είναι φράσεις που περιέχουν τα ονόματα προσώπων, οργανισμών, τοποθεσιών, χρόνου και ποσότητας». 23

24 (2002) από την τεχνολογική εταιρία BBN Technologies ομαδοποιεί τις ονοματικές οντότητες που είδαμε παραπάνω σε είκοσι εννέα κύριες κατηγορίες και εξήντα τέσσερις υποκατηγορίες 41. Οι κατηγορίες καθορίστηκαν με βάση τις έρευνες που πραγματοποίησε η εταιρία για μία από τις υποεργασίες των συνεδρίων MUC, συγκεκριμένα αυτήν της απάντησης ερωτήσεων (question answering). Στις είκοσι εννέα κατηγορίες, εκτός από τα καθαρά κύρια ονόματα, όπως ονόματα τόπων ή ανθρώπων, περιλαμβάνονται και αυτά που ονομάζονται περιγραφητές (descriptors) 42. Πρόκειται δηλαδή για τίτλους ή λεξικές μονάδες που χαρακτηρίζουν ένα κύριο όνομα. Για παράδειγμα η λεξική μονάδα πρόεδρος πριν από το όνομα προσώπου στην ακολουθία πρόεδρος Ομπάμα ή η λεξική μονάδα βρετανική στην ακολουθία Η βρετανική εφημερίδα Ακολουθεί η παράθεση των κατηγοριών και υποκατηγοριών που προτείνει η BBN Technologies: 1. Ονόματα προσώπων: χωρίς υποκατηγορίες 2. Περιγραφητές προσώπων: χωρίς υποκατηγορίες 3. NORP 43 : εθνικότητες, θρησκείες, πολιτικοί τίτλοι, άλλοι σχετικοί τίτλοι 4. Ονόματα εγκαταστάσεων (facilities): κτηρίων, γεφυρών, αεροδρομίων, μεγάλων δρόμων, αξιοθέατα, άλλα σχετικά ονόματα 5. Περιγραφητές εγκαταστάσεων: ό,τι χαρακτηρίζει μια από τις παραπάνω κατηγορίες (κτήρια, γέφυρες, αεροδρόμια, μεγάλους δρόμους, αξιοθέατα, άλλοι σχετικοί τίτλοι) 6. Ονόματα οργανισμών: κρατικών, εταιρικών, εκπαιδευτικών, θρησκευτικών, πολιτικών, μουσείων, ξενοδοχείων, νοσοκομείων, άλλα σχετικά ονόματα 7. Περιγραφητές οργανισμών: ό,τι χαρακτηρίζει μια από τις παραπάνω κατηγορίες 8. Ονόματα GPE 44 : χώρες, πόλεις, νομοί/διαμερίσματα, άλλα σχετικά ονόματα 9. Περιγραφητές GPE: ό,τι χαρακτηρίζει μια από τις παραπάνω κατηγορίες 10. Ονόματα τοποθεσιών: τοποθεσίες που δεν περιλαμβάνονται στα GPE, όπως τα ονόματα ποταμών, λιμνών, θαλασσών, ωκεανών, κόλπων, συνόρων, ευρύτερων περιοχών, ηπείρων, άλλα σχετικά ονόματα 11. Ονόματα προϊόντων: όπλα, οχήματα, άλλα σχετικά ονόματα 12. Περιγραφητές προϊόντων: ό,τι χαρακτηρίζει μια από τις παραπάνω κατηγορίες 13. Ημερομηνία: ημερομηνίες/χρονολογίες, διάρκεια, ηλικία, άλλες χρονικές εκφράσεις Η απόδοση του όρου είναι δική μας. 43 Πρόκειται για τα αρχικά των υποκατηγοριών: N(ationality), O(ther), R(eligion), P(olitical). 44 Ονόματα γεωπολιτικών οντοτήτων: G(eo-)P(olitical) E(ntities). 24

25 14. Χρόνος: χρονική έκφραση που τελειώνει με a.m., ή p.m. (π.μ. ή μ.μ.) και εκφράσεις που δηλώνουν περιόδους μικρότερες μιας ημέρας 15. Ποσοστά: οποιοδήποτε ποσοστό 16. Χρήματα: οποιοδήποτε ποσό μαζί με το όνομα ή σύμβολο του νομίσματος 17. Ποσότητα: μονάδες μέτρησης μήκους/απόστασης, εμβαδού, όγκου, ενέργειας, ταχύτητας, θερμοκρασίας, επιτάχυνσης, βάρους, άλλων σχετικών ποσοτήτων 18. Αρίθμηση: χωρίς υποκατηγορίες 19. Αριθμοί: αριθμοί και κλάσματα 20. Ονόματα γεγονότων: πόλεμοι, τυφώνες, άλλα ονόματα γεγονότων (όπως αθλητικές διοργανώσεις) 21. Φυτά: ονόματα και περιγραφητές φυτών 22. Ζώα: είδη, περιγραφητές ζώων και ονόματα που έχουμε δώσει σε ζώα 23. Ουσία: ονόματα και περιγραφητές φαγητών και ποτών, φαρμάκων και ναρκωτικών, πυρηνικής ύλης, χημικών, όπως τα στοιχεία του περιοδικού πίνακα και τα πετρώματα, άλλες σχετικές ουσίες 24. Ασθένειες: ονόματα και περιγραφητές ασθενειών 25. Ονόματα Έργων τέχνης: τίτλοι βιβλίων, θεατρικών έργων, τραγουδιών, έργων ζωγραφικής, έργων γλυπτικής, τίτλοι από τηλεοπτικές σειρές, ταινίες, βραβεία 26. Ονόματα νομικών κειμένων: χωρίς υποκατηγορίες 27. Ονόματα γλωσσών: χωρίς υποκατηγορίες 28. Στοιχεία επικοινωνίας: διευθύνσεις, τηλέφωνα, διευθύνσεις ηλεκτρονικού ταχυδρομείου και διευθύνσεις ιστοσελίδων 29. Ονόματα και περιγραφητές παιχνιδιών: χωρίς υποκατηγορίες Τα πρότυπα των συναντήσεων MUC φαίνεται να ακολουθεί και ο Sekine (10/2010) με τον ανανεωμένο πίνακα ENE 45, ο οποίος έχει αρκετά κοινά στοιχεία με τις δύο προηγούμενες προτάσεις κατηγοριοποίησης. Ο πίνακας αυτός είναι συνδυαστικός και προκύπτει από τις προσπάθειες κατηγοριοποίησης που καθορίστηκαν το 1996 από τον Grishman για το MUC 46, το 2000 από τον ίδιο για το IREX 47 και το 2002 επίσης από τον ίδιο 48. Ακολουθεί τον διαχωρισμό των οντοτήτων σε ονόματα, χρόνο και αριθμούς και 45 E(xtended) N(amed) E(ntity) Hierarchy ονομάζει ο Sekine την δική του «τεχνητή κατάταξη των ονομάτων», όπως ο ίδιος αναφέρει. (στο 46 Βλ. Grishman et al Βλ. Sekine et al. 2000, ενώ ΙREX= Information Retrieval and Extraction Exercise Βλ. ενότητα Βλ. Sekine et al

26 προτείνει έντεκα, τρεις και δεκατέσσερις κατηγορίες αντίστοιχα, καθεμία με τις υποκατηγορίες της, που συνολικά ανέρχονται σε διακόσιες. Αναλυτικότερα: Για τα ονόματα παραθέτει τα παρακάτω: 1. Άλλο όνομα: ό,τι δεν υπάγεται στις υπόλοιπες κατηγορίες, συνήθως ονόματα κατοικιδίων ή αλόγων κούρσας 2. Πρόσωπα: ονόματα πραγματικών προσώπων 3. Θεοί: ονόματα θεών ή θεοτήτων 4. Οργανισμοί: διεθνείς οργανισμοί, οργανισμοί θεάματος (συγκροτήματα, ορχήστρες), εθνοτικές ομάδες, αθλητικοί οργανισμοί (ομάδες, διοργανώτριες αρχές, αθλητικά κέντρα), εταιρίες (εταιρίες, όμιλοι εταιριών, συντεχνίες, ενώσεις), πολιτικοί οργανισμοί (κυβερνητικοί οργανισμοί, πολιτικά κόμματα, στρατιωτικοί οργανισμοί, υπουργικά συμβούλια) 5. Τοποθεσία: Σπα, GPE (χώρες, πόλεις, νομοί/διαμερίσματα), περιοχές (ηπειρωτικές αλλά και μικρότερης κλίμακας), γεωλογικές περιοχές (βουνά, νησιά, ποτάμια, θάλασσες, κόλποι, γενικότερες όπως φαράγγια, σπηλιές), αστρικά σώματα (αστερισμοί, πλανήτες, αστέρια, γαλαξίες, κομήτες), διευθύνσεις (συμβατικού ταχυδρομείου, ηλεκτρονικού ταχυδρομείου, ηλεκτρονικές διευθύνσεις ιστοσελίδων, ταχυδρομικοί κώδικες) 6. Εγκαταστάσεις: τμήμα εγκαταστάσεων, αρχαιολογικό μνημείο ή χώρος, GOE 49 (δημόσιο ίδρυμα, σχολείο, ερευνητικό κέντρο, αγορά μεγάλης κλίμακας, πάρκα, αθλητικές εγκαταστάσεις, μουσεία, ζωολογικοί κήποι, θεματικά πάρκα, θέατρα, μέρη θρησκευτικής λατρείας, σταθμοί αυτοκινήτων, τερματικοί σταθμοί, αεροδρόμια, λιμάνια, άλλες GOE), γραμμές μεταφορών (σιδηρόδρομοι, δρόμοι, κανάλια, ναυτικές γραμμές, τούνελ, γέφυρες, άλλες παρόμοιες γραμμές), άλλες παρόμοιες εγκαταστάσεις 7. Προϊόντα: υλικά, υφάσματα, μορφές χρημάτων, φάρμακα, όπλα, μετοχές, βραβεία, βραβεύσεις, παραβάσεις ποινικού κώδικα, όνομα αεροπορικής πτήσης ή υπηρεσίας, αθλητική κατηγορία ή κατηγορία διαγωνισμού, ονόματα φανταστικών χαρακτήρων, αριθμός ταυτότητας, είδη ή ονομασίες και μάρκες οχημάτων, είδη και ονομασίες φαγητού, ονομασίες έργων τέχνης, έντυπες εκδόσεις, ιδεολογίες και πνευματικά κινήματα, συνθήκες και νομικές συμβάσεις, τίτλοι ή θέσεις ή επαγγέλματα, γλώσσες ή προφορές ή διάλεκτοι, νομίσματα και άλλες μονάδες μέτρησης, άλλα παρόμοια προϊόντα 49 GOE= Geological and Organizational Entity. 26

27 8. Γεγονότα: φυσικά φαινόμενα, περιστατικά όπως πόλεμοι ή καταστροφές, φεστιβάλ ή αθλητικές διοργανώσεις και διασκέψεις, άλλα παρόμοια γεγονότα 9. Φυσικά αντικείμενα: στοιχεία του περιοδικού πίνακα, χημικές ενώσεις, ορυκτά, ζωντανοί οργανισμοί, τμήματα ζωντανών οργανισμών, άλλα φυσικά αντικείμενα 10. Ασθένεις: ασθένειες γενικότερα, ασθένειες ζώων, ασθένειες φυτών 11. Χρώματα: βασικά χρώματα και γενικότερα λέξεις που χαρακτηρίζουν χρώμα Για τον χρόνο παραθέτει τα παρακάτω: 1. Timex: ώρα, ημερομηνία, ημέρα εβδομάδας, εποχή (γενικότερα), άλλες παρόμοιες χρονικές εκφράσεις 2. Periodx: περίοδος σε επίπεδο ώρας, σε επίπεδο ημέρας, σε επίπεδο εβδομάδας, σε επίπεδο μήνα, σε επίπεδο έτους, άλλες παρόμοιες περιοδικές εκφράσεις 3. Άλλες χρονικές εκφράσεις Για τους αριθμούς παραθέτει τα παρακάτω: 1. Εκφράσεις χρηματικού ποσού 2. Εκφράσεις χρηματιστηριακών δεικτών 3. Εκφράσεις σκορ ή διαφοράς πόντων 4. Εκφράσεις ποσοστών 5. Εκφράσεις πολλαπλασιασμού 6. Εκφράσεις συχνότητας 7. Εκφράσεις ηλικίας 8. Εκφράσεις σχολικής ηλικίας 9. Τακτικά αριθμητικά 10. Εκφράσεις κατάταξης 11. Γεωγραφικές συντεταγμένες: γεωγραφικά μήκη και πλάτη 12. Εκφράσεις μέτρησης: μήκους, εμβαδού, όγκου, βάρους, ταχύτητας, έντασης, θερμοκρασίας, θερμίδων, σεισμικής δραστηριότητας, σεισμικού μεγέθους, άλλες εκφράσεις μέτρησης 13. Countx (εκφράσεις αρίθμησης): αρίθμηση ανθρώπων, αρίθμηση οργανισμών, αρίθμηση τοποθεσιών, αρίθμηση εγκαταστάσεων, αρίθμηση προϊόντων, αρίθμηση γεγονότων, αρίθμηση φυσικών αντικειμένων 14. Άλλου είδους αρίθμηση 27

28 Κάνοντας λοιπόν χρήση του όρου κύρια ονόματα, αναφερόμαστε σε διάφορες κατηγορίες, όπως πρόσωπα, τοποθεσίες, ονόματα εταιριών κτλ. Στην παρούσα εργασία θα υιοθετήσουμε την πρόταση της Jonasson (1994) για τα καθαρά κύρια ονόματα σε συνδυασμό με την προσπάθεια του Bauer (1985). Ειδικότερα θα εστιάσουμε στην πρώτη κατηγορία, δηλαδή των ανθρωπωνυμίων, επειδή ο διαχωρισμός σε πατρώνυμα, σε βαπτιστικά, σε ψευδώνυμα και σε υποκοριστικά βρίσκεται πιο κοντά στο αντικείμενο της μελέτης μας, που δεν είναι άλλο από τα κύρια ονόματα προσώπων. Εφεξής η κάθε αναφορά της έρευνάς μας στους όρους κύρια ονόματα ή ονοματικές οντότητες θα περιγράφει τη γενικότερη έννοια των ανθρωπωνυμίων, εκτός αν το δηλώνουμε διαφορετικά. 28

29 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ 2. Παρουσία των κύριων ονομάτων στη Νέα Ελληνική 2.1 Τα κύρια ονόματα στα έντυπα λεξικά της Νέας Ελληνικής Η αντιμετώπιση που έχουν τα κύρια ονόματα στα έντυπα λεξικά του εμπορίου ποικίλλει από λεξικό σε λεξικό, ενώ είναι προφανής η διαφορετική προσέγγιση και η εικόνα που εμφανίζουν τα γενικά/ εγκυκλοπαιδικά λεξικά σε σχέση με τα πιο εξειδικευμένα λεξικά του χώρου της φιλολογίας ή της γλωσσολογίας. Χαρακτηριστικό είναι το κείμενο που συναντά ο αναγνώστης στην εισαγωγή του Λεξικού της Κοινής Νεοελληνικής (ΛΚΝ) 50 όπου αναφέρεται πως: «Το ΛΚΝ καταγράφει το σύγχρονο νεοελληνικό λεξιλόγιο του γραπτού και του προφορικού λόγου. Βασικό κριτήριο για τον καταρτισμό του λημματολογίου υπήρξε η χρήση της λέξης. Λέξεις που η χρήση τους είναι αυστηρά περιορισμένη και ειδική δεν περιλαμβάνονται στο ΛΚΝ, που δεν φιλοδοξεί να γίνει «θησαυρός» της νεοελληνικής. Στο λημματολόγιο ειδικότερα περιλαμβάνονται: Από τα εθνικά ουσιαστικά και τα κύρια ονόματα, όσα δίνουν επιπλέον γλωσσικές πληροφορίες, π.χ. εβραίος, τούρκος, Γιάννης, Θωμάς». Συνοπτική η περιγραφή και στο «Ελληνικό Λεξικό» των Τεγόπουλου - Φυτράκη: «Στο λεξικό των κυρίων ονομάτων περιλαμβάνονται ονόματα, από τους αρχ. χρόνους μέχρι σήμερα, που παρουσιάζουν ορθογραφικό, ερμηνευτικό και πληροφοριακό ενδιαφέρον» 51. Στο συγκεκριμένο έντυπο βρίσκεται στη διάθεση του αναγνώστη κατάλογος κυρίων ονομάτων 90 περίπου σελίδων. Στο «Λεξικό της Νέας Ελληνικής Γλώσσας» του Γ. Μπαμπινιώτη ο αναγνώστης συναντά μια εκτενέστερη περιγραφή σε σχέση με τα υπόλοιπα λεξικά όσον αφορά τα κύρια ονόματα. Κατά την ανάλυση της δομής του λεξικού στο τμήμα που αναφέρεται στη συγκρότηση του λημματολογίου, αναγράφεται πως: «Εντός του κυρίου σώματος του Λεξικού, δηλ, ως λήμματα, σύμφωνα με τις σύγχρονες απόψεις της λεξικογραφίας για τη συγκρότηση του λημματολογίου, έχουν συμπεριληφθεί τα σπουδαιότερα κύρια ονόματα (ανθρωπωνύμια, ελληνικά και ξένα τοπωνύμια), καθώς και οι συντομογραφικές δηλώσεις των αρχικών γραμμάτων των επωνυμιών διαφόρων οργανισμών, σωματείων, εταιριών, φορέων κ.λπ., τα γνωστά ακρωνύμια (π.χ. Ο.Τ.Ε., Ο.Η.Ε. κ.λπ.). Σε παλαιότερες περί 50 Βλ. σελ ια. 51 Βλ. Ελληνικό Λεξικό 1992 σελ. XI. 29

30 λεξικογραφήσεως των λημμάτων απόψεις τόσο τα κύρια ονόματα όσο και τα ακρωνύμια αποτελούσαν ιδιαίτερους πίνακες στο τέλος του λεξικού και εκτός του κυρίου σώματος του λεξικού, γιατί δεν θεωρούνταν «κανονικά» λήμματα! Τα κύρια ονόματα στο παρόν Λεξικό αποτελούν βασικό συστατικό του λημματολογίου με πληροφορίες υπό μορφή ερμηνευμάτων και για πρώτη φορά σε ελληνικό λεξικό- με ετυμολογικές πληροφορίες για την προέλευση κάθε κυρίου ονόματος, ελληνικού ή ξένου» 52. Παρακάτω η περιγραφή γίνεται αναλυτικότερη για κάθε είδος ξεχωριστά: «Στα κυρίως λήμματα έχουν συμπεριληφθεί επίσης: κύρια ονόματα (ανθρωπωνύμια, τοπωνύμια κ.ά.) διευκρινίζουμε ότι στα ανθρωπωνύμια περιλαμβάνονται, για πρώτη φορά σε ελληνικό λεξικό, τα κυριότερα βαπτιστικά ονόματα (δεν περιλάβαμε τα επώνυμα σπουδαίων προσώπων της ιστορίας, της τέχνης κλπ.) στα τοπωνύμια συμπεριλάβαμε κυρίως αυτά που έχουν ξεχωριστό ενδιαφέρον για την ιστορία του ελληνισμού (π.χ. Θερμοπύλες, Αλεξάνδρεια, Κωνσταντινούπολη, Δερβενάκια, Σμύρνη κ.ά.), τα ονόματα ελληνικών νησιών, των πρωτευουσών των νομών της χώρας, των γεωγραφικών διαμερισμάτων και ορισμένων μεγάλων περιοχών, των κυριοτέρων βουνών, λιμνών και ποταμών από τα ξένα τοπωνύμια συμπεριλάβαμε τα ονόματα των κρατών του Ο.Η.Ε., των πρωτευουσών των κρατών-μελών της Ε.Ε. και μερικών άλλων γνωστών πόλεων από όλο τον κόσμο. Προτιμήσαμε κυρίως πόλεις και περιοχές που εμφανίζονται στα ελληνικά με εξελληνισμένη μορφή, πράγμα που έχει γλωσσικό και ιστορικό ενδιαφέρον, π.χ. Νυρεμβέργη (Nürnberg), Νέα Υόρκη (New York), Τεργέστη (Trieste), Προβηγκία (Provence) κ.ά. Έχουν επίσης περιληφθεί τα ονόματα των ωκεανών και των κυριότερων θαλασσών, βουνών, λιμνών και ποταμών του κόσμου (με έμφαση, όμως, στα ονόματα που απαντούν με εξελληνισμένο ή προσαρμοσμένο στα Ελληνικά τύπο, π.χ. Δούναβης, Αμαζόνιος, Βαïκάλη, Μισσισσιππής) 53». Επίσης, άξιο αναφοράς, αν και όχι τόσο δημοφιλές όσο τα προηγούμενα, είναι το «Λεξικόν Κλίσεως Ονομάτων» (Κοντέος, 1973), το οποίο δεν πραγματεύεται αποκλειστικά κύρια ονόματα. Είναι όμως το μοναδικό εμπορικό λεξικό που έχει διττό ρόλο, καθώς περιλαμβάνει την κλίση των λημμάτων μαζί με τις ερμηνευτικές πληροφορίες για μεγάλο αριθμό κυρίων ονομάτων Μέθοδοι καταγραφής και Πληρότητα λεξικών Τα κύρια ονόματα στα λεξικά που μελετήσαμε δεν αντιμετωπίζονται με τον ίδιο τρόπο, αλλά το καθένα καταχωρίζει τα λήμματα με διαφορετικό τρόπο, ανάλογα με το είδος του. Έτσι, 52 ΛΝΕΓ (2008:23). 53 ΛΝΕΓ (2008:24). 30

31 στο «Ελληνικό Λεξικό» των Τεγόπουλου Φυτράκη, το οποίο είναι μερικώς εξειδικευμένο στα κύρια ονόματα, συναντάμε ξεχωριστό πίνακα με τα κύρια ονόματα στο τέλος του εντύπου, μετά τα απλά λήμματα. Αντιθέτως, στο ΛΝΕΓ τα κύρια ονόματα δίνονται ως αυτόνομα λήμματα, τα οποία παρεμβάλλονται ανάμεσα στα απλά και ξεχωρίζουν από αυτά χάρη στο κεφαλαίο γράμμα με το οποίο ξεκινούν. Την ίδια αντιμετώπιση με το ΛΝΕΓ συναντάμε και στο ΛΚΝ, με τα κύρια ονόματα να βρίσκονται καταχωρισμένα αλφαβητικά μαζί με τα απλά ονόματα. Όσον αφορά το ζήτημα της πληρότητας των λεξικών στην καταγραφή των κυρίων ονομάτων, όπως είναι αναμενόμενο, τα γενικά λεξικά δεν έχουν τη δυνατότητα συνολικής καταγραφής τους, ενώ ακόμη και τα εξειδικευμένα αποποιούνται της εξαντλητικότητας. Χαρακτηριστικά διαβάζουμε στον Τομπαïδη (1990): «Με όλα αυτά έχει συναχθεί ένας αριθμός ονομάτων σημαντικός. Φυσικά δε διεκδικείται πληρότητα κάτι τέτοιο θα ήταν, και σαν επιδίωξη, αφελές» Τα κύρια ονόματα στα ειδικά/εξειδικευμένα λεξικά Τα εξειδικευμένα λεξικά κυρίων ονομάτων που απαντούν στο εμπόριο ποικίλλουν σε χαρακτήρα, αλλά και σε τρόπο μετάδοσης της πληροφορίας. Έτσι βρίσκουμε συγγράμματα που κυμαίνονται από μελέτες για τα επώνυμα τουρκικής προέλευσης, ετυμολογικά λεξικά, λεξικά κλίσεως ονομάτων, μέχρι μελέτες για τα επώνυμα που προέρχονται από επαγγέλματα και λεξικά ονομάτων αναφερόμενων στην αρχαία ελληνική γραμματεία. Εξάλλου, ο τρόπος παρουσίασης του λήμματος εξαρτάται από την προσέγγιση του συγγραφέα και το σημείο όπου αυτός επιθυμεί να εστιάσει ή να δώσει έμφαση. Παρακάτω παραθέτουμε ενδεικτικά τον τρόπο εμφάνισης των λημμάτων σε ορισμένα λεξικά από αυτά. Το Λεξικό Κυρίων Ονομάτων (Κωνσταντινίδης, 1997) περιέχει μυθολογικής, ιστορικής και γεωγραφικής προέλευσης λήμματα τα οποία ταξινομούνται αλφαβητικά: Αγλαονίκη ή Αλανίκη (η) θ. του β. της Θεσσαλίας Ηγήτορος, δεινή αστρονόμος προλέγουσα και τας εκλείψεις της σελήνης. Αγλαόπη (η), μία των Σειρήνων Το Ετυμολογικό Λεξικό Κυρίων Ονομάτων (Αλεξιάδης, 2000) πραγματεύεται την ετυμολογία 6209 λημμάτων, ενώ και εδώ ο συγγραφέας επιλέγει την αλφαβητική ταξινόμηση: 31

32 Κάβειρος (φοιν.) = μεγάλος. // θεότητα των Πελασγών. Κάδια (αραβ.) = κυκλαδίτικος τύπος του Κάντιω. Κάδμος (φοιν.) = άγιος, ιερός. // ανατολικός. Σημ.: Στα εβραϊκά kadmon = αρχαίος, πρώτος άνθρωπος, πρόγονος. Στο ετυμολογικό σύγγραμμα του Τομπαΐδη (1990) που ονομάζεται Ελληνικά Επώνυμα Τουρκικής Προέλευσης τα λήμματα είναι ταξινομημένα αλφαβητικά, ενώ μετά το λήμμα ακολουθούν τα ονόματα ίδιας ετυμολογίας: Μανέντης manent όμοιος Μαντάς manda βούβαλος/μαντάτο Μανδάς Μαντζούρης mancur φανερός, ορατός Μαντζούρας, Μαντζουράτος, Μαντζουρίδης Ματζούρης Στο ετυμολογικού χαρακτήρα έργο Τα Νεοελληνικά Κύρια Ονόματα Ιστορικώς και Γλωσσικώς Ερμηνευόμενα (Μπούτουρας, 1993) το σύστημα κατάταξης των λημμάτων διαφοροποιείται ελαφρώς, καθώς αφενός διατηρεί την αλφαβητική δομή, αφετέρου η παράθεσή τους δεν είναι συνεχής. Αντίθετα, τα λήμματα συγκεντρώνονται σε ομάδες ανάλογα με τη θεματική και την προέλευσή τους: Αριστέα. = Ηπ. Υπ. +ούλα Αριστούλα αυτ. Υπ. Σγκ. Αρ. Τούλα αυτ. Αριστείδης. = Κν. Μετά τροπής του δ εις ρ Αριστείρης Τριφ. Μετ αφαιρέσεως του α και τροπής του ρ εις λ κατ ανομοίωσιν Λιστείρης Μεγ. Σγκ. τελ. +ος Αρίστος Κυμ. Σγκ. τελ. μετά παρετυμολογίας ίσως (χαρίζω)+ής Χαριστής Κυπ- Αθην. Μτβ. Τίτσης Ηπ. Τέλος, το σύγγραμμα Επώνυμα και Συντεχνίες, Εσνάφια (Μολινός, 1992) έχει λαογραφικό χαρακτήρα και πραγματεύεται επώνυμα των οποίων οι ρίζες εντοπίζονται σε επαγγελματική δραστηριότητα και χαρακτηρίζονται από την τούρκικη κατάληξη τζής. Εξαιτίας της λαογραφικής φύσης της μελέτης, η δομή της διαφέρει από την τυπική δομή των ερμηνευτικών ή ετυμολογικών λεξικών. Η παρουσίαση των επωνύμων έχει τη μορφή κανονικού κειμένου, όπου παρέχονται πληροφορίες για το κάθε επάγγελμα, ενώ η 32

33 ταξινόμηση πραγματοποιείται θεματικά, ανάλογα με την τέχνη από την οποία αυτό εμπνεύστηκε. 2.2 Τα κύρια ονόματα στη μετάφραση Η προσέγγιση των κυρίων ονομάτων εκ μέρους των μεταφραστών και κυρίως το θέμα της έννοιάς τους αποτελεί αντικείμενο προβληματισμού που χρονολογείται από τις πρώτες ακόμη μεταφράσεις μέχρι και σήμερα. Στο προηγούμενο κεφάλαιο έγινε ήδη αναφορά στην αντιπαράθεση φιλοσόφων και γλωσσολόγων σχετικά με την έννοια των κυρίων ονομάτων. Η επιστήμη της μετάφρασης συμμετέχει επίσης ενεργά σ αυτή τη διαμάχη, καθώς τα κύρια ονόματα είναι στα άμεσα ενδιαφέροντά της. Η άποψη που διατυπώνουν πολλοί μεταφραστές είναι πως τα κύρια ονόματα δεν μεταφράζονται, πως απλά μεταγράφονται από την αρχική γλώσσα στη γλώσσα στόχο. Δέχονται πως αυτά λειτουργούν ως ετικέτες που χαρακτηρίζουν ένα συγκεκριμένο αντικείμενο ή άτομο, άποψη που συμπίπτει με αυτήν του Vendler, όταν υποστηρίζει πως «τα κύρια ονόματα δεν έχουν νόημα (με την έννοια του «sense» και όχι του «reference»), πράγμα που αποδεικνύεται από το γεγονός ότι δεν απαιτείται η μετάφρασή τους σε άλλες γλώσσες» (Vendler 1971:117). Παρόλα αυτά υπάρχει καταγεγραμμένη και η αντίθετη άποψη που εκφράζεται από τον Searle (1958: ), ο οποίος μνημονεύοντας τον Frege υποστηρίζει πως τα κύρια ονόματα ανεξάρτητα από τη λειτουργία τους ως αναγνωριστικές ετικέτες, δύνανται να μεταφέρουν «εννοιολογικό φορτίο», γεγονός που περιπλέκει την αντιμετώπισή τους από κάποιο μεταφραστή. Αναζητώντας τη χρήση των κυρίων ονομάτων σε μεταφράσεις κειμένων αποκαλύπτεται η σύγχυση στην οποία βρίσκονται οι μεταφραστές, καθώς συναντώνται περιπτώσεις που ποικίλλουν από την απλή μεταγραφή των κυρίων ονομάτων, τη μετάφρασή τους, την παράθεσή τους στην αρχική ξενική μορφή, τη μεταγραφή τους με βάση τη φωνητική τους απόδοση, μέχρι την μορφολογική προσαρμογή στη γλώσσα στόχο: Ιβάν ο Τρομερός (Ivan=Ιωάννης), αλλά Ριχάρδος ο Λεοντόκαρδος (Richard) ο Racine γίνεται Ρακίνας, αλλά ο Baudelaire γίνεται Μπωντλαίρ 54 Άμστερνταμ, αλλά και Αμστελόδαμο (παλαιότερος τύπος) Γεωργία Σάνδη 55, αλλά και 54 Βλ. Holton, Mackridge, Φιλιππάκη-Warburton (1997:33). 33

34 Γεωργία Σάνδ Η προβληματική περί των κυρίων ονομάτων ενισχύεται ακόμη περισσότερο στη λογοτεχνική μετάφραση, όπου τα ονόματα εκτός της αναφορικής τους λειτουργίας είναι φορτισμένα με επιπλέον πληροφορίες για τους χαρακτήρες που προσδιορίζουν 56. Αυτή η πολυτυπία που τόσο δυσχεραίνει το έργο των μεταφραστών, έχει αντίστοιχες επιπτώσεις και στις προσπάθειες που γίνονται για την αυτόματη αναγνώριση των κυρίων ονομάτων και κατά συνέπεια την αυτόματη μετάφρασή τους. Με την παρούσα έρευνα, λοιπόν, θα επιχειρήσουμε να καταγράψουμε σε λεξικά όσα κύρια ονόματα (διαχρονικά) απαντούν συχνότερα και να προβλέψουμε, όσο είναι εφικτό με τη μέθοδο των γράφων, αυτά που θα υποστούν εξελληνισμένη μεταγραφή. 2.3 Προβληματική των κυρίων ονομάτων Υπάρχει πληθώρα λεξικών μονάδων που εμφανίζονται στα κείμενα γραμμένες είτε με κεφαλαίο αρχικό γράμμα είτε με μικρό. Αναφερόμαστε σε περιπτώσεις λεξικών μονάδων που με το πέρασμα των ετών μετασχηματίστηκαν από κύρια ονόματα σε απλά ουσιαστικά. Κυρίως πρόκειται για πρωτοπόρα προϊόντα που καθόρισαν τμήμα της αγοράς με την εμφάνισή τους, όπως π.χ. το «τζιπ», που από μάρκα αυτοκινήτου έγινε συνώνυμο της κατηγορίας αυτοκινήτων εκτός δρόμου ή το «μπικ» που από μάρκα στυλογράφου έγινε συνώνυμο του στυλογράφου 57. Πλέον αντιμετωπίζονται ως απλά ουσιαστικά και γράφονται με μικρό πρώτο γράμμα, εκτός αν περιγράφουν το συγκεκριμένο προϊόν, οπότε γράφονται με κεφαλαίο. Επίσης το γεγονός ότι μία ακολουθία χαρακτήρων είναι δυνατό να αντιστοιχεί σε πολλαπλές αναλύσεις, συντελεί σε ένα από τα μεγαλύτερα προβλήματα κατά την επεξεργασία και ανάλυση κειμένων φυσικών γλωσσών, αυτό της αμφισημίας. Το φαινόμενο αυτό συναντάται και στα κύρια ονόματα και δεν περιορίζεται φυσικά μόνο στο μορφολογικό επίπεδο, που είναι το συνηθέστερο, αλλά παρατηρείται επίσης στο συντακτικό, σημασιολογικό, ακόμη και τυπογραφικό επίπεδο 58, όπου η πολλαπλή χρήση ορισμένων χαρακτήρων όπως η τελεία (στο τέλος πρότασης, μέσα σε αρκτικόλεξα κτλ.) περιπλέκει την αυτόματη διαδικασία. 55 Μετάφραση του γαλλικού ονόματος «George Sand». 56 Επεκτείνονται στο θέμα οι Cummins, S. (2002), Pieciul, E. (2003), Turner, A. (2005). 57 Περισσότερα βλ. Rey-Debove, J. (1994). 58 Κυριακοπούλου et al. (2007) και Βλ. κεφ

35 Έχουν πραγματοποιηθεί πολυσέλιδες, εξαντλητικές μελέτες στο παρελθόν για την αναφορικότητα και την ερμηνεία των κυρίων ονομάτων 59, ώστε να μη χρειάζεται να αναφερθούμε διεξοδικά στην παρούσα έρευνα στο σύνολο των περιπτώσεων. Αντίθετα, θα προσπαθήσουμε να εστιάσουμε σε εκείνες που για την ελληνική παρουσιάζουν προβλήματα ή επηρεάζουν άμεσα τη διαδικασία της αυτόματης αναγνώρισης Οριοθέτηση των μορφολογικών άκρων των κυρίων ονομάτων Η ορθή αναγνώριση και κατηγοριοποίηση των ονοματικών οντοτήτων προϋποθέτει την ύπαρξη κριτηρίων που επιτρέπουν την αναγνώριση των μορφολογικών τους ορίων. Σε διαφορετική περίπτωση η αναγνώριση των λημμάτων θεωρείται βέβαιο πως θα είναι μερική. Όπως αναφέρει η Friburger (2002), υπερθεματίζοντας τους Jacquemin και Bush (2000), ορισμένα προβλήματα που παρουσιάζονται στην εξαγωγή των κυρίων ονομάτων οφείλονται στην ανάκτηση μέρους μόνο των υπό εξέταση λημμάτων. Η συγγραφέας στη συνέχεια διακρίνει δύο ξεχωριστές περιπτώσεις και τις ορίζει χρησιμοποιώντας τις έννοιες της υπεραναγνώρισης και υπο-αναγνώρισης. Η υπερ-αναγνώριση συμβαίνει όταν η ακολουθία που ανακτούμε περιέχει περισσότερες λεξικές μονάδες από όσες αποτελούν το ονοματικό σύνολο, όπως φαίνεται από τα παραδείγματα των προτάσεων (1), (2) παρακάτω. Αντιθέτως η υπο-αναγνώριση καλύπτει τις περιπτώσεις που το σύστημα αναγνωρίζει ένα μέρος μόνο της συνολικής ακολουθίας που απαρτίζει την ονοματική οντότητα. Στην πρόταση (3), όπου περιγράφεται το σύνθετο ονοματεπώνυμο «Οσάμα Μπιν Λάντεν», έχουμε υπο-αναγνώριση αν αναγνωρίζονται μόνο τα δύο συνθετικά «Οσάμα Μπιν» από το σύνολο των τριών. (1) Η παράσταση είναι παραγωγή του υπό την καλλιτεχνική διεύθυνση του Σπύρου Μαβίδη ΔΗΠΕΘΕ Βόλου. (2) Το ταξίδι στο Μάντσεστερ έκανε πάντως και ο αρχηγός της Γιούβε Αλεσάντρο Ντελ Πιέρο, προκειμένου να τονώσει ψυχολογικά τους συμπαίκτες του. (3) Ο Αιγύπτιος γιατρός Αϊμάν αλ-ζαουάχρι, που αναμένεται να διαδεχθεί τον Οσάμα Μπιν Λάντεν στην ηγεσία της αλ Κάιντα, θα είναι ο νέος εχθρός Νο 1 της Αμερικής. Το αριστερό όριο των υπό αναγνώριση ακολουθιών μπορεί να οριστεί χωρίς πρόβλημα μέσω της αξιοποίησης του κεφαλαίου γράμματος από το οποίο ξεκινούν όλα τα κύρια ονόματα στην Νέα Ελληνική 60. Εντοπίζεται έτσι η αρχή της ακολουθίας και στη 59 Κυρίως από τους Kleiber (1981, 1983, 1991), Jonasson (1994) και Garry-Prieur (1994). 60 Για τις λεξικές μονάδες που γράφονται με κεφαλαίο στην αρχή, βλ. Χατζηβασιλείου (1995:27). 35

36 συνέχεια διαπιστώνεται αν πρόκειται για ένα μόνο κύριο όνομα ή περισσότερα τους ενός που βρίσκονται σε παράταξη, όπως συμβαίνει στις προτάσεις (1), (2). Η συντριπτική πλειονότητα των προβλημάτων αυτού του τύπου δημιουργούνται από την κακή χρήση στίξης και σύνταξης του κειμένου. Γενικότερα, η αποτελεσματικότητα της αυτόματης ανάλυσης εξαρτάται σε μεγάλο βαθμό από την κατάσταση στην οποία βρίσκεται το υπό εξέταση κείμενο. Όσο καλύτερα δομημένο είναι και με σεβασμό στους μορφο-συντακτικούς κανόνες, τόσο περισσότερο αυξάνονται οι σωστές ανακτήσεις λημμάτων. Εξακολουθεί όμως να προβληματίζει το δεξί άκρο των ακολουθιών, καθώς απουσιάζει κάποιο σημάδι αντίστοιχο των κεφαλαίων, που να δηλώνει με βεβαιότητα το τέλος των ονοματικών οντοτήτων. Οι παραπάνω υποθέσεις ισχύουν περισσότερο για την περιγραφή των δομών εκφοράς αρκετών, ξενικών κυρίως, κυρίων ονομάτων που έχουν μεταγραφεί στα ελληνικά, όπως τα «Ντε λα Ρόσα» και «Ο Νήλ» και λιγότερο των ελληνικών, στα οποία συναντάμε συνήθως αναμενόμενες διαφοροποιήσεις. Επίσης, το γεγονός ότι σε όλες τις εκφάνσεις των ανθρωπωνυμίων συναντάμε κεφαλαίο αρχικό γράμμα στο σύνολο των μονάδων τους, διευκολύνει τη διαδικασία αναγνώρισης σε αντίθεση με τις υπόλοιπες κατηγορίες κυρίων ονομάτων όπου η αναγνώριση δυσχεραίνεται από την παρουσία στο εσωτερικό τους άρθρων, συνδετικών ή προθέσεων: (4) Για την κατασκευή του "Τοurbot" συνεργάστηκαν το Ίδρυμα Τεχνολογίας και Έρευνας Κρήτης, τα Πανεπιστήμια Βόννης και Φράιμπουργκ, η εταιρεία Θέων, το Ίδρυμα Μείζονος Ελληνισμού, το Βυζαντινό Μουσείο και το Μουσείο Βόννης. (5) Μάλλον ο Ντε λα Ρόσα θα πάρει τη θέση του Αλόνσο. (6) Ο Έντβιν φαν ντερ Σαρ δεν αγωνίστηκε ποτέ στην Μπαρτσελόνα, ωστόσο η µοίρα του είναι άρρηκτα συνδεδεµένη µε την πρωταθλήτρια Ευρώπης. Οι ελάχιστες φορές που κάποια λεξική μονάδα ξεκινάει με μικρό μέσα σε κάποιο ανθρωπωνύμιο αφορούν σύνθετα ξενικά ονόματα τα οποία έχουν στο εσωτερικό τους προθέσεις, όπως στα παραδείγματα (5) και (6). Οι παρεμβαλλόμενες προθέσεις έχουν ήδη καταγραφεί και υπάρχει πρόβλεψη αντιμετώπισής τους και στη μέθοδό μας. Για τις παραπάνω δομές υπάρχουν αναφορές σχεδόν σε όλες τις μελέτες ονοματικών οντοτήτων, ενώ ενδεικτικά θα αναφέρουμε το έργο της Daille et al. (2000) και των Wacholder et al. (1997). 36

37 2.3.2 Αμφισημία στη σύνταξη των κυρίων ονομάτων Το πρόβλημα της αμφισημίας σε συντακτικό επίπεδο, λόγω των ομοιοτήτων της κλίσης των κυρίων ονομάτων με τα απλά ουσιαστικά, εκδηλώνεται με αναμενόμενο τρόπο, όπως για παράδειγμα παρατηρείται στους ομόγραφους τύπους των λημμάτων που υπάρχουν καταχωρισμένοι στα λεξικά. Το πρόγραμμα της μορφολογικής ανάλυσης, το οποίο περιγράφεται στο κεφάλαιο 3, αναζητεί την ταυτοποίηση των τύπων όπως εμφανίζονται στα κείμενα. Αυτοί οι τύποι απομονωμένοι, συχνά είναι αμφίσημοι. Ωστόσο, εξετάζοντας το συγκείμενο της λέξης, δηλαδή του ονόματος στην περίπτωσή μας, φανερώνονται κάποιες λεξιλογικές του πληροφορίες και κατ αυτό τον τρόπο πραγματοποιείται η εξάλειψη ορισμένων αμφισημιών. Στην περίπτωση, για παράδειγμα, του επωνύμου «Λαζαρίδη» στην φράση «του Λαζαρίδη», το οποίο μόνο του θα μπορούσε να είναι είτε γενική πτώση, είτε αιτιατική, είτε κλητική αρσενικού, είτε οποιαδήποτε πτώση του θηλυκού, συνυπολογίζουμε τα μορφολογικά χαρακτηριστικά του άρθρου για να διαπιστώσουμε τη σωστή πτώση. Όπως χαρακτηριστικά αναφέρει ο Θηλυκός (2000:42): «Αν λοιπόν ληφθεί υπόψη η ύπαρξη του τύπου του της γενικής του άρθρου, που μορφολογικά διαφέρει από τον τύπο το ή τον της αιτιατικής, ενώ παράλληλα, όπως είναι γνωστό, στην κλητική το ουσιαστικό δεν παίρνει άρθρο, με βάση τον κανόνα της συμφωνίας μεταξύ άρθρου και ουσιαστικού ως προς το γένος, τον αριθμό και την πτώση, είναι δυνατό να λυθούν προβλήματα αμφισημίας αυτού του είδους και το σύστημα απορρίπτοντας τις «λανθασμένες» αναλύσεις να οδηγηθεί στη σωστή επιλογή». Τα κύρια ονόματα, όπως και να εμφανίζονται στη Νέα Ελληνική, τις περισσότερες φορές συνοδεύονται από το άρθρο που τα συνδέει με το συγκείμενο και κυρίως με τους εξωτερικούς τους ενδείκτες 61. Στις ακόλουθες προτάσεις ενδεικτικά παραθέτουμε ορισμένες από τις χρήσεις τους: ως υποκείμενα (7), αντικείμενα (8), κατηγορούμενα (9), σε παράθεση 62 (10) ή σε επεξήγηση 63 (10α), σε γενική κτητική 64 (11), σε σύγκριση υπεροχής 65 (12) όπου το άρθρο διασαφηνίζει την πτώση τους: (7) Ο Μπομπ Τράα επισημαίνει ότι η ελληνική κυβέρνηση έχει ήδη λάβει δραστικά μέτρα και συνιστά υπομονή. 61 Βλ. κεφ Βλ. Κλαίρης & Μπαμπινιώτης (2004: 5). 63 Βλ. Κλαίρης & Μπαμπινιώτης (2004: 5). 64 Βλ. Κλαίρης & Μπαμπινιώτης (2004: 71). 65 Βλ. Κλαίρης & Μπαμπινιώτης (2004: 137). 37

38 (8) Από την χαρά του που πέρασε στη σχολή της επιλογής του, σήκωσε τη Μαρία στον αέρα. (9) Ο νομάρχης είναι ο «Ζορό» της νέας εποχής. (10) Ο Γεωργιάδης, ο καθηγητής μαθηματικών, επιλέχθηκε για φέτος από τους μαθητές ως ο «εκπαιδευτικός της χρονιάς». (10α) Από τον αφρό της θάλασσας βγήκε η θεά της ομορφιάς, η Αφροδίτη. (11) Το κότερο του Αμπράμοβιτς έφτασε στη Ρόδο. (12) Ο Carlos Slim είναι πλέον πλουσιότερος του Bill Gates, σύμφωνα με στοιχεία του περιοδικού Forbes για το έτος Εσωτερικοί και εξωτερικοί ενδείκτες Ο D.D. McDonald σε άρθρο του που δημοσίευσε το 1996 για να περιγράψει τη λειτουργία του εργαλείου αναγνώρισης και κατηγοριοποίησης κυρίων ονομάτων του συστήματος SPARSER, αναφέρεται για πρώτη φορά στους εσωτερικούς ενδείκτες (internal evidence) και στους εξωτερικούς ενδείκτες (external evidence) 66. Είναι δύο όροι που στη συνέχεια θα καθιερωθούν και θα χρησιμοποιηθούν από το σύνολο της επιστημονικής κοινότητας για την περιγραφή των σχέσεων των κυρίων ονομάτων με το συγκείμενό τους. Οι εσωτερικοί ενδείκτες είναι στοιχεία που βοηθούν στην κατηγοριοποίηση των κυρίων ονομάτων και προέρχονται μέσα από την ακολουθία των λεξικών μονάδων που το απαρτίζουν. Παράδειγμα εσωτερικού ενδείκτη είναι το ακρωνύμιο «ΑΒΕΕ/Α.Β.Ε.Ε.» στην ακολουθία «Ελληνικές Ιχθυοκαλλιέργειες Α.Β.Ε.Ε.» που φανερώνει ύπαρξη εταιρίας, ή επίσης το βαπτιστικό «Θεόδωρος» στην ακολουθία «Θεόδωρος Κολοκοτρώνης» που φανερώνει πρόσωπο. Οι εσωτερικοί ενδείκτες, σε αντίθεση με τους εξωτερικούς, χρησιμοποιούνταν ήδη από σχεδόν όλα τα συστήματα, χωρίς ωστόσο να κατονομάζονται με αυτό τον όρο. Η μελέτη του συγκειμένου και των σχέσεων των κυρίων ονομάτων με αυτό φανερώνει ό,τι ο McDonald αποκαλεί εξωτερικό ενδείκτη. Έχοντας ως δεδομένη την αναφορική ιδιότητα των ονομάτων προς ένα συγκεκριμένο πρόσωπο, χώρο, αντικείμενο κ.ά. παρατηρεί τις χαρακτηριστικές ιδιότητες που παρουσιάζει αυτό το πρόσωπο, χώρος, αντικείμενο κ.ά., όταν συμμετέχει στο λόγο. Κατόπιν, αξιοποιεί την παρουσία του στο άμεσο συγκείμενο ενός κυρίου ονόματος για να αξιολογήσει την κατηγορία στην οποία αυτό ανήκει. Θεωρεί πως χωρίς τη μελέτη του συγκειμένου του ονόματος, ένα σύστημα που 66 Βλ. McDonald (1996:32-33). 38

39 βασίζεται κυρίως σε καταλόγους κυρίων ονομάτων θα έχει πάντα δυσκολία να κατηγοριοποιήσει σωστά π.χ. ως εταιρία την εταιρία τροφοδοσίας φαγητού «Γρηγόρης» ή ως νοσηλευτική μονάδα την κλινική «Λητώ». Παραδείγματα εξωτερικών ενδεικτών είναι τα κύριος, νοσοκομείο, εταιρία, όμιλος. Στη βιβλιογραφία συναντάμε συνεχώς την έννοια των ενδεικτών ακόμη και με διαφορετικά ονόματα, που προσδιορίζουν όμως τα ίδια γλωσσικά στοιχεία. Θα αναφέρουμε ενδεικτικά ορισμένες από αυτές τις περιπτώσεις. Χαρακτηριστικά είναι τα όσα υποστηρίζει ο Gallippi (1996:425) 67 για τους τρόπους αναγνώρισης κυρίων ονομάτων, γράφοντας πως: «Είναι ποικίλα τα στοιχεία που αποκαλύπτουν ότι μια λεξική μονάδα είναι κύριο όνομα. Εκτός αυτών στα οποία έχει ήδη γίνει αναφορά που προέρχονται από την μορφολογία, τη σύνταξη και τη σημασία- υπάρχουν και οι ενδείκτες (Designators). Οι ενδείκτες είναι χαρακτηριστικά που από μόνα τους παρέχουν σημαντικά στοιχεία υπέρ ή κατά μιας κατηγορίας κυρίων ονομάτων. Επίσης στο συγκείμενο συναντούνται λέξεις κλειδιά ή εκφράσεις, όπως τα «είπε», «φώναξε» που προδίδουν την παρουσία ενός κύριου ονόματος». Οι Bodenreider και Zweigenbaum (2000) μιλώντας για τους εξωτερικούς ενδείκτες σημειώνουν: «Ορισμένα λεξιλογικά γνωρίσματα των λεξικών μονάδων, τα οποία λειτουργούν ως πολύτιμοι ενδείκτες της παρουσίας κυρίων ονομάτων στην πρόταση, αποτελούν σημαντικό βοήθημα στην αυτόματη μορφολογική αναγνώρισή τους. Ονομάζονται γενικότερα ταξινομητές (classifieurs / désignateurs) και συγκεκριμενοποιούν τον τύπο των κυρίων ονομάτων» 68. Τα στοιχεία «κ.», «κα» για τα κύρια ονόματα προσώπων ή και οι λεξικές μονάδες που δηλώνουν προσωπικό τίτλο ή επάγγελμα ανήκουν σε αυτή την κατηγορία. Η Friburger (2002:34) σημειώνει: «Τα συστήματα ανάκτησης ονοματικών οντοτήτων χρησιμοποιούν καταλόγους που περιέχουν λέξεις που συχνά ονομάζονται «mots déclencheurs» (trigger words), που ανήκουν στους εξωτερικούς ή εσωτερικούς ενδείκτες των κυρίων ονομάτων (π.χ. η έρημος της Σαχάρα, British Airways)» 69. Τον ίδιο όρο χρησιμοποιoύν και οι Wakao et al. στην περιγραφή του συστήματός τους Σημασιολογική αμφισημία στα κύρια ονόματα Όσον αφορά τη σημασιολογική αμφισημία, αυτή σχετίζεται τόσο στενά με την αναφορικότητά τους, που δεν σπανίζουν οι περιπτώσεις κατά τις οποίες τίθεται σε 67 Η μετάφραση είναι δική μας. 68 Βλ. T.A.L., τόμος 41, αριθμός 3, σελ 731. Η μετάφραση είναι δική μας. 69 Η μετάφραση είναι δική μας. 70 Βλ. ενότητα του παρόντος κειμένου. 39

40 αμφιβολία το κριτήριο του αναγνώστη σχετικά με τη φύση ενός κυρίου ονόματος. Χαρακτηριστικό παράδειγμα κυρίου ονόματος που έχει υποστεί «αλλοίωση» της αρχικής του σημασίας αποτελεί η χρήση της λεξικής μονάδας «Βατερλό / Βατερλώ», που πλέον αντί για τοποθεσία ερμηνεύεται ως συνώνυμο καταστροφής ή σημαντικής ήττας. (13) «Βατερλώ» υπέστη η ταινία Αληθινό Θράσος των αδελφών Κοέν, που ενώ είχαν 10 υποψηφιότητες δεν κέρδισαν κανένα βραβείο Όσκαρ. (14) Οι πρόσφατες εκλογές ήταν το Βατερλό της πολιτικής του σταδιοδρομίας. Μέσα από προτάσεις, όπως αυτές που ακολουθούν, γίνεται έκδηλη η συμμετοχή των κυρίων ονομάτων σε όλα σχεδόν τα σχήματα λόγου που χρησιμοποιεί η ελληνική με σημασία διαφορετική της αρχικής τους: (15) Κάθε φορά που διαβάζω Όμηρο νιώθω να είμαι ξανά στο σχολείο. (Αναφορά στο έργο του Ομήρου) (16) Μη μου το παίζεις Δον Ζουάν, ξέρω τι είσαι πραγματικά. (Μη μου το παίζεις εραστής ) (17) Ξαφνικά ξύπνησαν όλες οι Αντουανέτες και αντιλήφθηκαν πως η χώρα ξεσηκώθηκε. (Οι αριστροκράτες/όσοι δεν έχουν επαφή με την πραγματικότητα) (18) Έγινε Λούης όταν έμαθε για τους τρεις προηγούμενους γάμους της. («Εξαφανίστηκε» όταν έμαθε ) (19) Η Ευρώπη περνάει από το Περιστέρι για την ομάδα του Ηρακλή. (Από το γήπεδο της ομάδας του Ατρομήτου που βρίσκεται στον Δήμο Περιστερίου) Η αμφισημία παρουσιάζεται ακόμη, μέσω της χρήσης του οριστικού και αόριστου άρθρου. Σύμφωνα με τον ορισμό που δίνεται από τους γλωσσολόγους για τα κύρια ονόματα -πως το κύριο όνομα είναι το ιδιαίτερο όνομα, με το οποίο συγκεκριμένο πρόσωπο, ζώο ή πράγμα διακρίνεται από τα άλλα- το άρθρο που θεωρητικά θα αντιστοιχούσε σε ένα κύριο όνομα, από τη στιγμή που μιλάμε για συγκεκριμένη οντότητα, είναι το οριστικό 71. Παρόλα αυτά η παρουσία του αόριστου άρθρου ως συνοδεία ονόματος είναι συχνή στο λόγο, συνήθως μέσω του φαινομένου της μεταφοράς. Το ίδιο συμβαίνει και με τις αόριστες αντωνυμίες, με αποτέλεσμα το κύριο όνομα να μην αντιστοιχεί στην αρχική αναφερόμενη 71 Περισσότερα για τη λειτουργεία του άρθρου και τα κύρια ονόματα βλ. Matushansky (2006). 40

41 οντότητα. Όπως παρουσιάζεται από τα ακόλουθα ενδεικτικά παραδείγματα, μπορεί να χρησιμοποιείται μετωνυμικά 72 (20α) ή μεταφορικά/αλληγορικά (21α): (20) Δε μου αρέσει ο Πικάσο, προτιμώ τον Νταλί. (20α) Η τεχνική ενός Πικάσο δεν έχει καμιά σχέση με τα σημερινά σκουπίδια. (21) Eνα από τα μικρότερα νησιά του Ιονίου, η κοσμοξάκουστη Ιθάκη, απλώνει τη φήμη της στα πέρατα του κόσμου χάρη στις περιπέτειες του πολυμήχανου Οδυσσέα. (21α) Σα βγεις στον πηγαιμό για την Ιθάκη, να εύχεσαι νάναι μακρύς ο δρόμος, γεμάτος περιπέτειες, γεμάτος γνώσεις. Επίσης, ειδικότερα για τα επώνυμα, δύο περιπτώσεις όπου συναντάμε ένα είδος σημασιολογικού προβληματισμού είναι όταν δημιουργείται σύγχυση του επωνύμου με μία μονολεκτική λεξική μονάδα ή με ένα βαπτιστικό. Όσον αφορά την πρώτη περίπτωση, η αμφισημία προκύπτει συνήθως, όταν το επώνυμο βρίσκεται στην αρχή ερωτηματικής πρότασης ή πρότασης σε προστακτική, αλλά και σε τίτλους εφημερίδων ή ειδήσεων. Το κριτήριο ύπαρξης του άρθρου πριν το επώνυμο δεν καλύπτει τις περιπτώσεις αυτές. Η διάκριση του κύριου ονόματος από την μονολεκτική λεξική μονάδα δυσκολεύει ακόμη και τον ανθρώπινο μελετητή. Έτσι η δημιουργία κριτηρίων ικανών να κάνουν τον ηλεκτρονικό υπολογιστή να αντιληφθεί τη διαφορά αποτελεί εξαιρετικά δύσκολο εγχείρημα. Για παράδειγμα στην πρόταση (22) είναι αδύνατο να γνωρίζουμε χωρίς το υπόλοιπο κείμενο, αν η λεξική μονάδα Παπά προσδιορίζει κάποιον ιερωμένο ή κάποιον με το επώνυμο Παπάς. Το ίδιο συμβαίνει και με την πρόταση (23), όπου η λεξική μονάδα Δράκος μπορεί να είναι είτε επώνυμο, είτε εμφατικός χαρακτηρισμός για κάποιον κακοποιό, είτε ακόμη και χαρακτηρισμός για κάποιο ζώο μεγάλου μεγέθους: (22) Παπά, πρόσεχε το σκαλοπάτι. (23) Δράκος εμφανίστηκε στο Σέιχ Σου. Η σύγχυση του επωνύμου με κάποιο βαπτιστικό δε θα μας απασχολήσει ιδιαίτερα, γιατί δεν επηρεάζει την ανάλυση της πρότασης. Στα παρακάτω παραδείγματα οι λεξικές μονάδες «Πλούταρχος» και «Μάρκος» θα μπορούσαν να είναι είτε βαπτιστικά είτε επώνυμα. 72 Βλ. Holton, Mackridge, Φιλιππάκη-Warburton (1997:253). 41

42 (24) Με πήρε ο Πλούταρχος στο τηλέφωνο. Γιάννης Πλούταρχος (τραγουδιστής) (25) Ο Χαριστέας ψάχνει να βρει το Μάρκο. Δημήτρης Μάρκος (ποδοσφαιριστής) αλλά επίσης Δημήτρης Μάρκος (δημοσιογράφος). Εκτός των επωνύμων, προβληματική είναι και η διαδικασία ορθής αναγνώρισης ορισμένων βαπτιστικών που βρίσκονται στην αρχή πρότασης. Η σύγχυση με απλά ουσιαστικά είναι δεδομένη, όταν πρόκειται για λεξικές μονάδες όπως αυτές των παραδειγμάτων (26) και (27) : (26) Αγάπη, γιατί με προσπερνάς; (27) Ελευθερία στην Ακρόπολη. Φυσικά η ομωνυμία ανάμεσα σε διαφορετικούς τύπους ονοματικών οντοτήτων δεν μπορεί να παραβλεφθεί. Μια λεξική μονάδα δηλαδή, που μπορεί να αντιστοιχεί σε δύο ξεχωριστές κατηγορίες. Το φαινόμενο συνήθως παρουσιάζεται με βαπτιστικά που προέρχονται από ονόματα τοποθεσιών, όπως είναι τα «Ιθάκη», «Ελλάδα» ή «Ευρώπη». (28) Η Ιθάκη μας πρότεινε ένα καταπληκτικό καινούργιο εστιατόριο. (29) Μαμά, να πάω στις κούνιες με την Ελλάδα; Θα είμαστε προσεκτικές. (30) Η Ευρώπη πέρασε πέντε μαθήματα αυτό το εξάμηνο. Μια ιδιομορφία της ελληνικής, την οποία δε συναντάμε στην ίδια κλίμακα στις μεγάλες ινδοευρωπαϊκής προέλευσης γλώσσες, είναι η παρουσία των υποκοριστικών επιθημάτων στα κύρια ονόματα. Λόγω της ποικιλομορφίας τους, όπως προκύπτει από την παραγωγή τους μέσω των επιθημάτων, δημιουργούνται αμφισημίες σημασιολογικής φύσης. Υπάρχουν περιπτώσεις, όπου είναι δυνατόν το υποκοριστικό να αντικαθιστά το βαπτιστικό ή το αντίθετο, και υπάρχουν περιπτώσεις όπου αυτό είναι αδύνατο να συμβεί. Για παράδειγμα, όσον αφορά τα πολιτικά πρόσωπα, το ονοματεπώνυμο Κωστάκης Καραμανλής δε δημιουργεί πρόβλημα, όταν αναφερόμαστε στον ανιψιό, αλλά είναι αδύνατο το υποκοριστικό να πάρει τη θέση του Κώστας όταν αναφερόμαστε στον θείο. (31) Κωστάκης ή Κώστας Καραμανλής 42

43 *Κωστάκης ή Κωνσταντίνος Καραμανλής (32) Γιωργάκης ή Γιώργος Παπανδρέου * Γιωργάκης ή Γεώργιος Παπανδρέου Σε αυτό το σημείο θα μας απασχολήσει το φαινόμενο της αντονομασίας 73. Υπάρχει πληθώρα προσώπων, ιδιαίτερα αυτά που συνδέονται με το καλλιτεχνικό στερέωμα, που είναι γνωστότερα με τα βαπτιστικά τους παρά με τα επώνυμα. Το ίδιο συμβαίνει και με τα ψευδώνυμα και τα παρατσούκλια, τα οποία αποτελούν επιπρόσθετες μορφές βασικού λήμματος και αντιμετωπίζονται διαφορετικά. Στην πρώτη περίπτωση δεχόμαστε ως λήμμα όχι το επώνυμο αλλά το βαπτιστικό με το οποίο είναι γνωστότερος ο καλλιτέχνης, ενώ όσον αφορά τα δύο τελευταία, προσθέτουμε τις επιπλέον μορφές στο βασικό λήμμα. (33) Κωνσταντίνα, Πασχάλης, Γλυκερία, Σαμπρίνα (34) Γέρος του Μοριά, αντί Θεόδωρος Κολοκοτρώνης (35) Κοκός, αντί τέως βασιλιάς Κωνσταντίνος Στην αυτόματη ανάλυση των κειμένων τα αρχικά των βαπτιστικών, εξαιτίας των ποικίλων μορφών που παίρνουν, χρήζουν ιδιαίτερης προσοχής. Η αναγνώρισή των αρχικών ως βαπτιστικών είναι μια ομαλή διαδικασία. Ο ηλεκτρονικός υπολογιστής καταλαβαίνει ότι πρόκειται για ακρωνύμιο βαπτιστικού, για πατρώνυμο και όχι για διπλό βαπτιστικό, εφόσον δεν υπάρχει παύλα. Προβλήματα θα μπορούσαν να παρουσιαστούν κατά την αντιστοίχιση του αρχικού με το κατάλληλο βαπτιστικό. Στο παρακάτω, πρώτο, παράδειγμα το αρχικό γράμμα «Χ» θα μπορούσε να ανήκει είτε στο ένα, είτε στο άλλο βαπτιστικό. Το ίδιο συμβαίνει και με το αρχικό «Ν» του δευτέρου παραδείγματος. Και εδώ όμως δε μας απασχολεί η αμφισημία, αφού δε θα μπορούσε να το γνωρίζει ούτε ο ανθρώπινος μελετητής. (36) Γιώργος Χ. Γεωργιάδης (του Χαράλαμπου ή του Χαρίλαου) (37) Γιώργος Ν. Γεωργιάδης (του Νικολάου ή του Νικήτα) 73 Σύμφωνα με το ΛΚΝ είναι το «σχήμα λόγου κατά το οποίο αντί για ένα κύριο ή προσηγορικό όνομα χρησιμοποιείται κάποια συνώνυμη ή ισοδύναμη λέξη ή κάποια περίφραση». 43

44 2.3.4 Λεξική περιγραφή των κυρίων ονομάτων. Σύμφωνα με την Kyriakopoulou (2005), η αυτόματη ανάλυση των κειμένων χωρίζεται σε δύο στάδια: τη λεξική (τυπογραφική και μορφολογική) ανάλυση και τη συντακτικοσημασιολογική ανάλυση. Αμέσως παρακάτω παρουσιάζουμε τα στοιχεία των δύο σταδίων που είναι άμεσα συνυφασμένα με τα κύρια ονόματα Τυπογραφική ανάλυση Στην αυτόματη ανάλυση κειμένων ενδιαφέρει η λειτουργία κάθε χαρακτήρα ξεχωριστά μέσα στην πρόταση, καθώς από αυτή εξαρτάται η ορθότητα της διαδικασίας τεμαχισμού του κειμένου. Η τυπογραφική ανάλυση, παρά την ύπαρξη κοινών στοιχείων σε όλες τις γλώσσες, διαφέρει από γλώσσα σε γλώσσα. Έτσι υποχρεούμαστε να μελετήσουμε τα διακριτικά και το σύνολο των σημείων στίξης του γραφικού συστήματος της Νέας Ελληνικής ξεχωριστά από τις τυπογραφικές νόρμες των άλλων γλωσσών. Από τα τρία συνολικά διακριτικά του μονοτονικού μας συστήματος, ο τόνος και τα διαλυτικά χρησιμοποιούνται στην αυτόματη ανάλυση των κυρίων ονομάτων χωρίς να προκαλούν κάποια δυσλειτουργία. Αντίθετα, η χρήση του τρίτου διακριτικού, του σημείο της αποστρόφου, παρουσιάζει ορισμένες ιδιαιτερότητες. Όσον αφορά τη στίξη, στις περισσότερες περιπτώσεις, η ελληνική στίξη ακολουθεί την κανονική ευρωπαϊκή πρακτική όσον αφορά την τελεία «.», το κόμμα «,», την άνω και κάτω τελεία «:», το θαυμαστικό «!» και τις παρενθέσεις «()». Χαρακτηριστική της Ελληνικής είναι η χρήση της άνω τελείας, η οποία χρησιμοποιείται εκεί που οι άλλες ευρωπαϊκές γλώσσες χρησιμοποιούν το ημίκολο. Το ελληνικό ερωτηματικό «;» έχει την ίδια μορφή με το λατινικό ημίκολο (Holton D., P. Mackridge, I. Φιλιππάκη-Warburton, 1999: 31-43) 74. Τα σημεία στίξης που συναντάμε στα κύρια ονόματα είναι το ενωτικό (-), τα εισαγωγικά (, αλλά και ), η τελεία (.) ενώ τέλος, συναντάμε και το σύμβολο της καθέτου (/). Είναι πιθανό επίσης να συναντήσουμε κύριο όνομα που να περιλαμβάνει αριθμό, αλλά αυτό θα συμβεί σε ξενικά ονόματα που προέρχονται από νουβέλες ή ταινίες επιστημονικής φαντασίας (C3PO, R2D2) ή που προσδιορίζουν προϊόντα, αλλά και παρατσούκλια προσώπων (Fatal1ty). Η χρήση αυτών γίνεται συνήθως σε δωμάτια συζητήσεων του διαδικτύου. Ωστόσο, η γραφή τους είναι με λατινικό αλφάβητο, γεγονός που τις καθιστά περιπτώσεις εκτός του αντικειμένου τις συγκεκριμένης μελέτης. Η 74 Βλ. Κυριακοπούλου et al. (2007). 44

45 παρουσία των παραπάνω σημείων στίξης και συμβόλων στα ανθρωπωνύμια της Νέας Ελληνικής προβάλλονται μέσα από παραδείγματα στις αμέσως επόμενες παραγράφους. Τελεία Τοποθετείται μετά τα αρχικά βαπτιστικών που ακολουθούνται από επώνυμα (Α. Παπαδόπουλος), αλλά και μετά από κεφαλαίο γράμμα που αποτελεί το αρχικό βαπτιστικού ονόματος και παρεμβάλλεται μεταξύ του πρώτου βαπτιστικού και του επωνύμου (Γιώργος Χ. Γεωργιάδης). Εμφανίζεται ακόμη και στις σύντομες μορφές γραφής σύνθετων βαπτιστικών και επωνύμων 75 : Μαρία-Λουίζα, Μ.Λ., Αγγελοπούλου-Δασκαλάκη, Α.-Δασκαλάκη, Ζαν Ζακ, Ζαν Ζ. Ενωτικό Συναντάμε το ενωτικό είτε όταν έχουμε περίπτωση σύνθετων επωνύμων ή βαπτιστικών, είτε όταν υπάρχει ένα προτακτικό 76 που προσδιορίζει το κύριο όνομα, βαφτιστικό ή επώνυμο που ακολουθεί. Άννα-Μαρία Άι -Νικόλας, γερο-σταμάτης, μαστρο-κώστας, μπαρμπα-θωμάς, Αγια-Σοφιάς Εισαγωγικά Η παρουσία των εισαγωγικών είναι απαραίτητη σε δύο περιπτώσεις. Μπορούν να υπάρχουν στο μέσο ενός ονοματεπωνύμου ως ενδεικτικά ενός παρωνυμίου περικλείοντάς το: Νίκος «Φαντομάς» Παλαιοκώστας Για το σκοπό αυτό αναζητά τον υπεύθυνο Γουίλιαμ Κάτινγκ, γνωστό κυρίως ως Μπιλ ο "Χασάπης", ο οποίος είναι ο απόλυτος κυρίαρχος των Πέντε Σημείων εξουσιάζοντας τις συμμορίες τόσο των ντόπιων αμερικάνων όσο και των ιρλανδών μεταναστών. Είναι όμως πιθανό να υπάρχουν και λατινικά εισαγωγικά στο μέσο της λέξης όταν θέλουμε να γράψουμε το επώνυμο με συντομία 77. Χ τζηνάσιος, Χ ζήσης, Χ κυριάκος 75 Για περισσότερα βλ. στο κεφ για την τυπολογία των ανθρωπωνυμίων. 76 Προτακτικά είναι λέξεις όπως: Άι-, Αγια-, γερο-, γρια-, θεια-, κυρα-, μαστρο-, μπαρμπα-, παπα-, χατζη- (Τριανταφυλλίδης 1941:106). 77 Για περισσότερα βλ. στο κεφ

46 Στα λεξικά η χρήση του χαρακτήρα στο εσωτερικό ενός λήμματος δημιούργησε δυσκολίες κατά τη διαδικασία της αυτόματης κλίσης του, καθώς είναι χαρακτήρας που υπάρχει και στο πρόγραμμα αυτόματης κλίσης που χρησιμοποιούμε (grflex) και δηλώνει τη μετατόπιση του τόνου. Απόστροφος Η χρήση της αποστρόφου στα κύρια ονόματα χρειάζεται μόνο στις περιπτώσεις που έχουμε ξενικά βαπτιστικά ή επίθετα τα οποία τα μεταγράφουμε στα ελληνικά ή σπανιότερα, όταν θέλουμε να γράψουμε το επώνυμο με συντομία. Ο Τουλ, Ο Χάρα, Ο Νηλ. Χ Γεώργης 78 Κάθετος Χρησιμοποιείται επίσης η κάθετος για να συμπτύσσει βαπτιστικά και επώνυμα. Οι συμπτυγμένοι αυτοί τύποι συναντώνται πολύ συχνά στα κείμενα: Κων/νίδης Κων/νος Μορφολογική ανάλυση Ενώ η λειτουργία των κυρίων ονομάτων στη Νέα Ελληνική ακολουθεί την κλίση και τους γραμματικοσυντακτικούς κανόνες που διέπουν και τα απλά ουσιαστικά, βασικό τους χαρακτηριστικό που τα διαφοροποιεί από τις άλλες γλωσσικές κατηγορίες στο γραπτό λόγο, όπως είπαμε είναι το κεφαλαίο αρχικό γράμμα. Φέρεται ακόμη και ως καθοριστικό γνώρισμα της κατηγορίας για ορισμένες μελέτες κυρίων ονομάτων που αρκούνται σ αυτό. Οι περιπτώσεις όπου συναντάμε ύπαρξη κεφαλαίου σε λεξική μονάδα που δεν είναι κύριο όνομα, όπως προαναφέραμε, εντοπίζεται στην αρχή πρότασης 79, όπου λόγω απουσίας του συνοδευτικού άρθρου οι ιδιότητές τους δεν διαφέρουν από τις ιδιότητες που έχουν οι απλές 78 Για περισσότερα βλ. στο κεφ Δεν λαμβάνονται υπόψη τα λογοτεχνικά κείμενα, όπου πολύ συχνά εμφανίζονται αόριστες έννοιες προσωποποιημένες όπως ο Έρωτας και η Ελευθερία. Επίσης, οι μάρκες και οι οργανισμοί (που στην πλειονότητά τους δηλώνονται με ακρώνυμα) θεωρούνται ως υποκατηγορίες των κυρίων ονομάτων, οι οποίες δεν εξετάζονται στην παρούσα μελέτη. 46

47 μονολεκτικές λεξικές μονάδες και επίσης σε τίτλους ή αξιώματα προσώπων (Δήμαρχος, Υπουργός), τα οποία αποτελούν ένα πεπερασμένο σύνολο, που είναι εύκολο να καταγραφεί πλήρως. Επιπλέον, αξίζει να σημειωθεί ότι για υφολογικούς ή εμφατικούς λόγους υπάρχουν τμήματα κειμένων γραμμένα εξ ολοκλήρου με κεφαλαιογράμματη γραφή (π.χ. Επιλέγει τις ταινίες του ΔΙΕΘΝΟΥΣ ΦΕΣΤΙΒΑΛ ΚΙΝΗΜΑΤΟΓΡΑΦΟΥ και καθορίζει την ημέρα προβολής τους) 80. Σύμφωνα με τον Silberztein (1993) 81 τα κεφαλαία χρησιμοποιούνται για συντακτικούς λόγους (στην αρχή της φράσης ή για να δηλώσουν κύριο όνομα) ή για υφολογικούς λόγους (έμφαση). Όσον αφορά την υπολογιστική αντιμετώπιση του φαινομένου της μορφολογίας στο σύνολό της, υπάρχει μια εκτενής αναφορά εισαγωγικού χαρακτήρα στον Sproat R. (1992), όπου παρουσιάζονται οι κύριοι προβληματισμοί πάνω στο θέμα. Εξάλλου, ο Bodenreider 83, που υιοθετεί την άποψη της Thielen (1995), σημειώνει για την αγγλική γλώσσα πως, όταν μια λεξική μονάδα εμφανίζεται γραμμένη με μικρά έστω και μία φορά μέσα στο κείμενο, τότε δεν είναι κύριο όνομα. Προσθέτει μάλιστα πως κάθε λεξική μονάδα που αποτελείται από δύο ή λιγότερους χαρακτήρες, δεν θεωρείται κύριο όνομα. Η πρωτοτυπία 84 αυτή των κεφαλαίων αρχικών διευκολύνει σε μεγάλο βαθμό την αναγνώριση των κυρίων ονομάτων, καθώς επίσης και κάποιες άλλες ιδιότητές τους, όπως συγκεκριμένες καταλήξεις (π.χ. όπουλος 85, στα ελληνικά) και συγκεκριμένα λεξικά «σημάδια» 86. Πρόκειται για τους ταξινομητές (classifieurs/ désignateurs) (ή εξωτερικούς ενδείκτες κατά τον McDonald 87 ), στους οποίους αναφερθήκαμε προηγουμένως, που προσδιορίζουν τον τύπο του κυρίου ονόματος, όπως είναι τα : «Καθ.», «Δρ», «Κος», «Κα» κτλ. Ωστόσο, ακόμη και με τη συνδρομή των παραπάνω ταξινομητών δεν επιτυγχάνεται η αναγνώρισή τους σε όλες τις περιπτώσεις. Για το λόγο αυτό, ανατρέχουμε στο ευρύτερο συγκείμενο, του οποίου η βοήθεια είναι πολύτιμη όσο και καθοριστική. Σύμφωνα με τον McDonald (1996) η ανάλυση της εσωτερικής δομής μιας ονοματικής οντότητας δεν επιτρέπει πάντα την εξάλειψη της αμφισημίας της, οπότε αναγκαστικά στρεφόμαστε στην ανάλυση του συγκειμένου της, εάν επιθυμούμε να 80 Βλ. Κυριακοπούλου et al. (2007). 81 Βέβαια, υπάρχουν περιπτώσεις, ειδικά σε τεχνικά κείμενα, όπου κάποιοι όροι αναγράφονται με κεφαλαίο το αρχικό γράμμα. Μια πρόταση ικανή ίσως να δώσει λύση στο ζήτημα αυτό συναντάται στην Thielen (1995) που διατυπώνει πως «un mot qui possède au moins une occurrence en minuscules dans le corpus n est pas un nom propre». 83 Βλ. Bodenreider, σποράδην σσ Περισσότερα για τα κεφαλαία αρχικά βλ. Kleiber (1990). 85 Βλ. Νεοελληνική Γραμματική (1998:648). 86 Βλ. Bodenreider Olivier & Zweigrnbaum Pierre (2000). 87 Βλ. McDonald, D.D. (1996). 47

48 αυξήσουμε την απόδοση του συστήματός μας ή να βελτιστοποιήσουμε τη διαδικασία κατηγοριοποίησής της. Η πλειονότητα των ερευνητών συμφωνούν πως η εκμετάλλευση του συγκειμένου είναι καθοριστικής σημασίας στην ανάλυση των φυσικών γλωσσών. Ο Bodenreider (2000: 735) υποστηρίζει επίσης πως, δυστυχώς, το κριτήριο των κεφαλαίων δεν είναι πάντοτε ακλόνητο, ειδικότερα σε ιατρικά κείμενα, όπου ορισμένες λέξεις εκτός των κυρίων ονομάτων είναι επίσης γραμμένες με κεφαλαία κατ έθιμον. Πιο συγκεκριμένα, σε ορισμένες ορολογίες η πρώτη λεξική μονάδα κάποιων σύνθετων όρων ξεκινά με κεφαλαίο γράμμα. Δεν σπανίζουν βέβαια οι περιπτώσεις, όπου παρατηρείται να ισχύει το αντίθετο 88. Ο Bodenreider αναφέρεται σε όρους οι οποίοι συναντώνται σε κείμενα βιολογίας, όπου τα ονόματα των μικροοργανισμών ή ασθενειών δεν είναι πάντοτε γραμμένα με κεφαλαία, για παράδειγμα «βακτήριο Pfeiffer» (=bacille de Pfeiffer), «ιός Ross River» (=virus Ross River), «πυρετός της Λάσσα» (=fièvre de Lassa), «σύνδρομο Lambert-Eaton» (syndrome de Lambert-Eaton), «ασθένεια Pfeiffer» (=maladie de Pfeiffer). Γίνεται λοιπόν άμεσα κατανοητό πως κάθε προσπάθεια σύνταξης κανόνων μόνο γύρω από αυτό το χαρακτηριστικό, χωρίς να υπάρχει κάποιο άλλο διευκρινιστικό στοιχείο, είναι καταδικασμένη σε αποτυχία. Στα κύρια ονόματα προσώπων της Νέας Ελληνικής όμως αυτό δεν ισχύει, καθώς κάθε κύριο όνομα είναι γραμμένο με αρχικό γράμμα κεφαλαίο. Επίσης, όπως θα συμπεράνουμε από το τέταρτο κεφάλαιο της παρούσας έρευνας, πολλές γλωσσολογικές προσεγγίσεις λαμβάνουν ως κριτήριο για τη φύση μιας υποψήφιας ως κύριο όνομα λεξικής μονάδας, την ύπαρξη ή μη στο κείμενο ομόγραφων λεξικών μονάδων με μικρά γράμματα. Επιχειρείται, για παράδειγμα, αναζήτηση στο κείμενο μιας λεξικής μονάδας με κεφαλαίο αρχικό που έχει ανακτηθεί ως όνομα εταιρίας, με στόχο τον συσχετισμό της με λεξική μονάδα ομόγραφη αλλά γραμμένη με μικρό αρχικό γράμμα. Εάν υπάρχει, τότε και η πρώτη χαρακτηρίζεται ως απλή λεξική μονάδα και όχι ως κύριο όνομα. Διαπιστώνουμε πως για τα κύρια ονόματα προσώπων δεν ισχύει αυτό το κριτήριο. Έχουμε το παράδειγμα (38), όπου δεν είναι εύκολο να αντιληφθεί κάποιος αν η λεξική μονάδα «Πέτρα» είναι κύριο όνομα ή όχι, αφού η μεταφορική της χρήση μπερδεύει τον αναγνώστη, ενώ στο παράδειγμα (39) είναι ξεκάθαρη η χρήση της ως απλό ουσιαστικό: (38) Πέτρα που «κατρακυλάει» δεν με τρομάζει. (39) Πέτρα πέτρα κτίζουν ξανά τους τοίχους των γειτονικών σπιτιών 88 Ειδικότερα στον τομέα της ιατρικής, η χρήση των κεφαλαίων και η γενικότερη λειτουργία των όρων στην εξαγωγή πληροφοριών από κείμενα παρουσιάζει ιδιαιτερότητες, όπως διαπιστώνουμε από το άρθρο των: Hliaoutakis, A., K. Zervanou and E.G.M. Petrakis (2009). The AMTEx Approach in the Medical Indexing and Retrieval Environment. Data and Knowledge Engineering journal, vol. 68(3), March 2009, pp , Elsevier. 48

49 Η παραπάνω περίπτωση δεν είναι η μοναδική που θέτει μια προβληματική στην αντιμετώπιση των κυρίων ονομάτων. Ορισμένα ακόμη στοιχεία που προκύπτουν από την πολυτυπία τους είναι τα υποκοριστικά, τα σύνθετα και πολλαπλά επώνυμα και βαπτιστικά, τα αρχικά που δηλώνουν πατρωνυμικό, τα παρατσούκλια, τα ψευδώνυμα, όπως και η πιθανότητα ένα βαπτιστικό να είναι γνωστότερο του επωνύμου, αφού παρουσιάζεται διαφορετική η δομή τους ανάλογα με το είδος τους. Στη συνέχεια θα περιγράψουμε ορισμένα από αυτά τα φαινόμενα και θα παρουσιάσουμε τον τρόπο που τα αντιμετωπίζουμε, όταν χρειάζεται Τυπολογία των απλών κυρίων ονομάτων Στην έρευνά μας θεωρούμε ως βάση την ακολουθία βαπτιστικό-αρχικό-επώνυμο, που εμφανίζεται στις εξής μορφές: Σάκης Ρουβάς ή Ρουβάς Σάκης, Σ. Ρουβάς ή Ρουβάς Σ., Ρουβάς, Σάκης, Γιώργος Χ. Γεωργιάδης Οι παραλλαγές της παραπάνω ακολουθίας είναι αυτές που εμφανίζονται συχνότερα στο λόγο. Το κύριο όνομα αντιμετωπίζεται ως μια ενότητα, η οποία περιέχει τρεις ξεχωριστές υποενότητες. Πιο συγκεκριμένα, η πρώτη είναι το βαπτιστικό, το οποίο ακολουθείται πιθανώς από κάποιο αρχικό κεφαλαίο γράμμα, το οποίο δηλώνει την ύπαρξη πατρωνυμικού και καταλήγει στην τρίτη υποενότητα, το επώνυμο. Το σχήμα 2.1 παρουσιάζει τα παραπάνω, διευκολύνοντας την περαιτέρω ανάλυση των επιμέρους τμημάτων. Φυσικά διαφοροποιούνται μονομερώς ως προς το κάθε συστατικό τους, εφόσον εκτός των απλών μορφών τους οφείλουμε να περιγράψουμε και τις σύνθετες. Σχήμα

50 Τυπολογία των σύνθετων και πολλαπλών βαπτιστικών και επωνύμων Σε αυτή την κατηγορία συναντάμε όλα τα διπλά επώνυμα ή βαπτιστικά που ενώνονται με παύλα ή με κενό. Τα βαπτιστικά που έχουν παύλα ανάμεσά τους υπάρχουν σε 4 παραλλαγές και τα επώνυμα σε 5 παραλλαγές: Συγκεκριμένα τα σύνθετα βαπτιστικά εμφανίζονται στις ακόλουθες 4 μορφές: Άννα-Μαρία, Άννα-Μ., Ά.Μ., Ά.-Μ. Μαρία-Λουίζα, Μαρία-Λ., Μ.Λ., Μ.-Λ. Τα σύνθετα επώνυμα εμφανίζονται σε 5 μορφές: Αγγελοπούλου-Δασκαλάκη, Αγγελοπούλου, Δασκαλάκη, Αγγελοπούλου-Δ. (σπάνια), Α.-Δασκαλάκη (σπάνια). Πάλλη-Πετραλιά, Πάλλη, Πετραλιά, Πάλλη-Π. (σπάνια), Π.-Πετραλιά (σπάνια). Αυτά που έχουν κενό ανάμεσα τους είναι ξένα βαπτιστικά - γιατί στην ελληνική απαντούν μόνο με παύλα - και υπάρχουν σε 6 παραλλαγές: Πολλαπλά βαπτιστικά σε 6 μορφές: Ζαν Ζακ, Ζαν Ζ., Ζαν, Ζ. Ζακ, Ζ.Ζ., 50

51 Ζ. Έτσι, μελετώντας εκ νέου το σχήμα 2.1 και λαμβάνοντας υπόψη τη δομή των σύνθετων ονομάτων, στη θέση του βαπτιστικού είναι πολύ πιθανό να συναντήσουμε ένα διπλό βαπτιστικό, όπως είναι το «Άννα-Μαρία» και στη θέση του επωνύμου, ένα διπλό επώνυμο, όπως το «Πάλλη-Πετραλιά». Στο σχήμα 2.2 παραθέτουμε τις πιθανές μορφολογικές διαφοροποιήσεις για το βαπτιστικό και το επώνυμο. Οι περιπτώσεις του επωνύμου με την ασυνήθιστη δομή «Αγγελοπούλου-Δ.» και «Α.-Δασκαλάκη», όταν δηλαδή εμφανίζεται το ένα επώνυμο ολόκληρο και το άλλο μόνο με το αρχικό του είναι λιγότερο συχνές, αλλά τις έχουμε συναντήσει. Σχήμα 2.2 Σύμφωνα με τα παραπάνω, είναι πιθανό να συναντήσουμε στο λόγο ένα αρκετά πλούσιο σε πραγματολογικές πληροφορίες ονοματεπώνυμο, όπως είναι το «Χριστίνα-Σοφία Ε. Καρατζόγλου-Ζαφειροπούλου». Πρακτικά, πρόκειται για μια αρκετά σπάνια ακολουθία, η οποία ελάχιστες φορές θα μας απασχολήσει. Όλοι οι υπόλοιποι συνδυασμοί που προκύπτουν από το πρώτο και τρίτο κουτάκι, όπως φαίνεται στο σχήμα 2.2, συναντώνται συχνότερα, είτε με κάποιο αρχικό κεφαλαίο γράμμα ενδιάμεσα, είτε χωρίς αυτό. Επίσης, τα αρχικά στον τύπο «Ά.Μ. Αγγελοπούλου» ενδεχομένως προσδιορίζουν κάποιο σύνθετο βαπτιστικό, ή απλό βαπτιστικό που ακολουθείται από πατρωνυμικό. 51

52 KΕΦΑΛΑΙΟ ΤΡΙΤΟ 3. Θεωρητικό πλαίσιο, περιορισμός της έρευνας και ηλεκτρονικό λεξικό 3.1 Θεωρητικό πλαίσιο Στο παρόν, πρώτο μέρος της έρευνάς μας περιγράφεται η αναγνώριση των κυρίων ονομάτων που βασίζεται στα λεξικά, ενώ στο δεύτερο τμήμα της, που αναλύεται στο 5 ο κεφάλαιο, περιγράφεται η αυτόματη αναγνώριση όπως προκύπτει από την εφαρμογή μεθόδων που λαμβάνουν υπόψη το συγκείμενο. Οι διαφορές των διαφόρων θεωριών, γλωσσολογικών και στατιστικών, όπως θα τις παρουσιάσουμε στο 4 ο κεφάλαιο, ξεκινούν ακόμη και από το επίπεδο μελέτης του κειμένου. Έτσι, βρίσκουμε προσεγγίσεις που ξεκινούν την ανάλυση από το επίπεδο λέξης, φράσης, πρότασης, παραγράφου ή κειμένου. Στην παρούσα μελέτη υιοθετούμε το μεθοδολογικό πλαίσιο του LADL που βασίζεται στη θεωρία του M. Gross για τη γλώσσα 89. Σύμφωνα με τα όσα αναφέρει ο M. Gross, η ελάχιστη μονάδα για τη μελέτη της σημασίας είναι η πρόταση μέσα στην οποία εμφανίζεται η λέξη και όχι η απομονωμένη λέξη. Υποστηρίζει πως, μόνο μέσα σε αυτό το πλαίσιο μπορούμε να καθορίσουμε τις συντακτικές και σημασιολογικές ιδιότητες των στοιχείων που μελετούμε, καθώς οι διαφορετικές σημασίες μιας λέξης μελετώνται μόνο μέσα από τις διαφορετικές χρήσεις της μέσα στην απλή πρόταση». Ο M. Gross υπήρξε μαθητής του Z. S. Harris, κατά συνέπεια ακολουθεί την μετασχηματιστική θεωρία του τελευταίου 90, η οποία έχει μαθηματικό υπόβαθρο και διαφέρει από τις αρχές τις παραδοσιακής γραμματικής. Στηρίζεται σε αλγεβρικούς τύπους για την συστηματική περιγραφή του γλωσσικού συστήματος, επομένως προϋποθέτει την τυποποιημένη και ακριβή καταγραφή του συνόλου των γλωσσικών δεδομένων. Η συμπαγής αυτή προσέγγιση εδραιώνει ως απόλυτα εφαρμόσιμη στην επεξεργασία των φυσικών γλωσσών τη θεωρία των πεπερασμένων αυτομάτων, την οποία ασπαζόμαστε για την περιγραφή των γλωσσολογικών και λειτουργικών ιδιοτήτων των κυρίων ονομάτων και την περιγράφουμε στο 5 ο κεφάλαιο. 89 Βλ. Gross, M. (1975, 1982, 1988, 1989, 1993). 90 Βλ. Harris (1951, 1964, 1968, 1976). 52

53 Ηλεκτρονικό λεξικό κυρίων ονομάτων Το σημείο έναρξης για τη δημιουργία μιας εφαρμογής που σέβεται τα χαρακτηριστικά μιας φυσικής γλώσσας είναι η κατάρτιση ενός ηλεκτρονικού λεξικού, εξαντλητικού τόσο ως προς τον αριθμό των λημμάτων όσο και ως προς την ακρίβεια των μορφολογικών χαρακτηριστικών που το συνοδεύουν 91. Για το λόγο αυτό τα περισσότερα συστήματα ανάκτησης κυρίων ονομάτων εξαρτώνται σε μεγάλο ποσοστό από τα λεξικά κυρίων ονομάτων που ενσωματώνουν. Η ελληνική, σε αντίθεση με την πλειονότητα των ευρωπαϊκών γλωσσών ινδοευρωπαϊκής προέλευσης, παρουσιάζει κλίση σχεδόν σε όλα τα κύρια μέρη της. Ο καλύτερος δυνατός τρόπος περιγραφής των ιδιοτήτων τους είναι η κωδικοποίηση των επιμέρους συστατικών της, η δομή των οποίων περιγράφεται περιληπτικά στη συνέχεια, και η συγκέντρωσή τους σε λεξικά/βάσεις δεδομένων. Για το λόγο αυτό χρησιμοποιούμε το σύστημα ηλεκτρονικών λεξικών DELA 92 του LADL που ενσωματώθηκε στο ηλεκτρονικό περιβάλλον Unitex 93 και το οποίο επιτρέπει την αυτόματη μετατροπή κειμένων σε πίνακες αναζήτησης (lookup tables). Η ιδέα ανάπτυξης της ελληνικής έκδοσης του DELA (DelaGr 94 ) ξεκίνησε από τις έρευνες της Κυριακοπούλου (1989, 1990) για την αυτόματη παραγωγή των ρηματικών τύπων, και τις αντίστοιχες της Σκλαβούνου (1997) για την αυτόματη κλίση των επιθέτων και των ουσιαστικών. Η δημιουργία του ηλεκτρονικού λεξικού ακολουθεί ορισμένες συμβάσεις ως προς την λημματογράφηση των όρων του, οι οποίες θα προκαλούσαν έκπληξη σε κάποιον που την προσεγγίζει σκεπτόμενος μόνο την παραδοσιακή γραμματική της Νέας Ελληνικής. Η πολυλεκτική σύνθετη μονάδα θεωρείται από τον M. Gross 95 ως μια ακολουθία λεξικών μονάδων που συμπεριφέρεται στο συντακτικό επίπεδο σαν απλή λεξική μονάδα, ενώ δεν έχουν συνθετική σημασία. Σύμφωνα με τον Silberztein (1989) η έννοια της απλής λέξης ορίζεται ως μία σειρά από γράμματα που περικλείεται ανάμεσα σε δύο κενά, ενώ η έννοια της σύνθετης λέξης ως μια ακολουθία χαρακτήρων που χωρίζεται με κενό, παύλα ή 91 Βλ. Courtois (1995). 92 Dictionnaire Electronique du LADL, Βλ. Courtois (1990). 93 Βλ. Κεφάλαιο 5 και 94 Για το ηλεκτρονικό λεξικό της Νέας Ελληνικής (DelaGr), βλ. Kyriacopoulou (1990), Constant & Yannacopoulou (2002), Voyatzi (2002), (2006), Καζαντζή & al. (2003), Καζαντζή (2003), Μαυρόπουλος και Μπακούρα (2002), Mavropoulos & Bakoura (2003), Φίστα (2007). 95 Βλ. Gross, M. (1975, 1982, 1986, 1988, 1989, 1990, 1993). 53

54 απόστροφο 96. Ο παραπάνω διαχωρισμός είναι απαραίτητος εφόσον αναφερόμαστε σε υλικό, το οποίο θα χρησιμοποιηθεί στην αυτόματη ανάλυση των κειμένων. Το ηλεκτρονικό λεξικό περιλαμβάνει ένα λεξικό απλών λεξικών μονάδων, το DELAS (οι κλιτοί τύποι εμφανίζονται στο DELAF), ένα φωνητικό / φωνημικό λεξικό, το DELAP (οι κλιτοί τύποι εμφανίζονται στο DELAPF) (1990), και τέλος, ένα λεξικό σύνθετων λεξικών μονάδων, το DELAC (οι κλιτοί τύποι συγκεντρώνονται στο DELACF). Τα μορφολογικά λεξικά πλαισιώνονται επίσης από συντακτικά που αποτελούν το λεξικό-γραμματική 97, αλλά και επιπλέον γραμματικές σε μορφή πεπερασμένων αυτομάτων. Ειδικότερα για την αντιμετώπιση των κυρίων ονομάτων προσώπων βασιζόμαστε σε 23 κλιτικά παραδείγματα για τα επώνυμα, λόγω της ιδιαιτερότητας του θηλυκού επωνύμου, ενώ για τα βαπτιστικά υιοθετούμε τα κλιτικά παραδείγματα που χρησιμοποιούνται για την κλίση των κοινών ουσιαστικών και για την περιγραφή της μορφολογίας τους. Σύμφωνα με την περιγραφή του Kruchkov (2001:713-4) κάθε κλιτικό παράδειγμα αντιπροσωπεύεται από έναν μοναδικό κωδικό αριθμό που το συνοδεύει και λειτουργεί ως αναγνωριστικό στοιχείο των γραμματικών χαρακτηριστικών του. Όταν δύο κύρια ονόματα εμφανίζουν τον ίδιο κωδικό αριθμό σημαίνει πως μοιράζονται κοινά χαρακτηριστικά, άρα και κοινή κλίση. Έτσι, μια έτοιμη προς λημματοποίηση λεξική μονάδα έχει τη μορφή ζεύγους, όταν εισάγεται στο ηλεκτρονικό λεξικό => Λημματικός τύπος στη θεωρητική του μορφή 98 + κωδικός: Κερασαρίδης.N42020,N Κεράσης.N42004,N Κερασίας.N42012,N Κερασίδης.N42020,N Κερασιλίδης.N42020,N Παρατηρούμε την ύπαρξη του κοινού κωδικού «.N42020,N» στα επώνυμα «Κερασαρίδης», «Κερασίδης», «Κερασιλίδης», στοιχείο που προσδιορίζει την κοινή κλίση. Το «.Ν» δηλώνει τη γραμματική του κατηγορία, ότι πρόκειται δηλαδή για ουσιαστικό (noun), ενώ ο αριθμός «42020» παραπέμπει στο ανάλογο κλιτικό παράδειγμα. Ανάλογα με το μέρος του λόγου που περιγράφεται χρησιμοποιείται και το αντίστοιχο σύμβολο και οι κατάλληλοι κωδικοί. Ενδεικτικά: 96 Περισσότερα για τις πολυλεκτικές σύνθετες μονάδες βλ. Φούφη (2009). 97 Gross, M. (1988), Βοσκάκη, Ρ. & Καζαντζή, Δ. (2006). 98 Η θεωρητική μορφή (forme canonique) είναι η ονομαστική ενικού αριθμού για τα ουσιαστικά. 54

55 δυνατός.a10 %δια"βάζω,.v4 Όπου το σύμβολο «A» δηλώνει πως η λεξική μονάδα που προηγείται είναι επίθετο (adjective), ενώ το σύμβολο «V» χαρακτηρίζει τα ρήματα (verb). Έτσι, με αυτή τη διαδικασία για κάθε λεξική μονάδα παράγονται αυτόματα, από το «δεύτερο μέρος» της (τον κωδικό αριθμό δηλαδή), όλοι οι κλιτοί τύποι της, οι οποίοι τοποθετούνται στο λεξικό DELAF 99. Το σύστημα αυτόματης ανάλυσης, όταν πραγματεύεται ένα κείμενο και συναντήσει μια λεξική μονάδα, ανατρέχει με βάση τη μορφολογία της στο λεξικό DELAF. Αν την βρει εκεί, αντλεί από αυτό όλες τις συντακτικο-σημασιολογικές πληροφορίες που περιέχονται και βοηθούν στην ανάλυση του κειμένου. Στα παραδείγματα που ακολουθούν, παραθέτουμε το φορμαλισμό ενός επωνύμου όπως περιέχεται στο DELAF: Κεντριανός,Κεντριανός.N+Hum+Nprop+[Ln]:Nms Κεντριανού,Κεντριανός.N+Hum+Nprop+[Ln]:Gms:Nfs:Gfs:Afs:Vfs Κεντριανό,Κεντριανός.N+Hum+Nprop+[Ln]:Ams Κεντριανέ,Κεντριανός.N+Hum+Nprop+[Ln]:Vms Κεντριανοί,Κεντριανός.N+Hum+Nprop+[Ln]:Nmp:Vmp Κεντριανών,Κεντριανός.N+Hum+Nprop+[Ln]:Gmp Κεντριανούς,Κεντριανός.N+Hum+Nprop+[Ln]:Amp Για μια εκτενή περιγραφή των πληροφοριών που φέρουν τα λήμματα του DELAF ανατρέχουμε στο υποκεφάλαιο 3.3.2, όπου υπάρχει πίνακας με τα κωδικά σύμβολα της κλίσης των ονομάτων και επεξήγηση αυτών. Η μεθοδολογία είναι κοινή για τα επώνυμα και για τα βαπτιστικά, τόσο στην απλή όσο και στην σύνθετη μορφή τους. Η ύπαρξη βαπτιστικών και επωνύμων, και όχι αποκλειστικά μίας μορφής ονομάτων, δημιουργεί την ανάγκη να απαρτίζεται το ηλεκτρονικό λεξικό από τρία «υπολεξικά». Ένα λεξικό μονολεκτικών λεξικών μονάδων (DELASG), όπου περιλαμβάνονται μόνα τους τα επώνυμα και τα βαπτιστικά, για παράδειγμα: Αλεξόπου λος.n42011, Σάκης.N171, Άννα.N247. Ένα λεξικό σύνθετων λέξεων (DELACG), όπου περιλαμβάνονται ολόκληρα ονοματεπώνυμα, για παράδειγμα : Σάκης.N171 Ρουβάς.N42004, Άννα.N247 Βίσση. N Τέλος, υπάρχει και ένα σύνολο πεπερασμένων αυτομάτων, για τις περιπτώσεις όπου 99 Βλ. Kyriacopoulou, Mrabti & Yannacopoulou (2002). 55

56 υπάρχουν προβλήματα αμφισημίας (λόγω συνωνυμίας ή ύπαρξης συντομογραφιών, π.χ. Α.Μ. Παπαχαραλάμπους). Τα παραπάνω ισχύουν για τις περιπτώσεις γνωστών κυρίων ονομάτων που ήδη υπάρχουν καταγεγραμμένα στα λεξικά μας. Όσο όμως πλούσιοι και να είναι οι κατάλογοι δεν είναι ποτέ εξαντλητικοί, καθώς είναι αδύνατο να καταγραφούν όλα τα πιθανά κύρια ονόματα. Προσαρμόζοντας στην περίπτωσή μας τα λόγια της Αναστασιάδη (1986:18) για τη νεολογία γενικότερα: «Γιατί περισσότερο από τη συλλογή ΟΛΩΝ των νεολογισμών κυρίων ονομάτων της ΝΕ πράγμα ανέφικτο, και από τη φύση του, αφού καθημερινά γεννιούνται κύρια ονόματα ενδιαφέρει το ίδιο το φαινόμενο της νεολογίας, δηλαδή τα μοντέλα στα οποία καταφεύγει η ΝΕ προκειμένου να πλουτίσει το λεξικό της απόθεμα». Έτσι, εκτός του λεξικού με τα ονόματα, στην προσέγγισή μας κάνουμε χρήση και τεχνικών αναγνώρισης των άγνωστων κυρίων ονομάτων με κριτήρια κυρίως μορφολογικής αναγνώρισης, στα οποία αναφερόμαστε εκτενέστερα στο 5 ο κεφάλαιο. Πρόκειται για άποψη που συμμερίζονται και οι Daille & Morin (2000:610) υποστηρίζοντας πως ο ερευνητής μέσω των ηλεκτρονικών λεξικών των κυρίων ονομάτων και με τη συνδρομή ορισμένων μεταβιβαστών είναι σε θέση να εντοπίσει εύκολα και γρήγορα τα κύρια ονόματα ενός corpus. Ο Senellart J. (1998) ημι-αυτοματοποιεί την κατασκευή τέτοιων μεταβιβαστών σε πεπερασμένα αυτόματα με σκοπό την αναγνώριση των κυρίων ονομάτων, των παραγώγων τους και των συγκειμένων τους σε ένα σώμα κειμένων. 3.2 Περιορισμός της έρευνας Στο σημείο αυτό της μελέτης μας θα προχωρήσουμε στην περιγραφή της διαδικασίας κωδικοποίησης των λημμάτων που θα εισαχθούν στα λεξικά μέσω του συστήματος DELA. Θα μας απασχολήσουν τα βαπτιστικά και τα επώνυμα που, όπως είπαμε στην εισαγωγή, προμηθευτήκαμε από το Αρχείο κυρίων ονομάτων του Χ.Π. Συμεωνίδη, από το σώμα κειμένων του CIS, από το σώμα κειμένων των εφημερίδων «Τα Νέα» και «Μακεδονία», από το σώμα κειμένων των βιβλίων του Παιδαγωγικού Ινστιτούτου, από το εορτολόγιο της εκκλησίας, από το βιβλίο «Εισαγωγή στην Ελληνική Ονοματολογία» του καθ. Χ.Π. Συμεωνίδη και από την καθημερινότητα του υπογράφοντος. Η κωδικοποίηση του συνολικού όγκου των επωνύμων που έχουμε στη διάθεσή μας ( ) δεν ολοκληρώθηκε, καθώς θεωρούμε πως βρισκόμαστε σε ένα σημείο που τα επιπλέον λήμματα δεν έχουν να προσφέρουν κάτι επιπλέον σε επίπεδο αντιμετώπισης γλωσσικών φαινομένων. Εξάλλου, ο υπάρχον αριθμός κωδικοποιημένων λημμάτων 56

57 ( ) επαρκεί για την ανίχνευση πιθανών περιπτώσεων αμφισημιών και άλλων προβλημάτων που δημιουργούνται από την πολυτροπία των κυρίων ονομάτων. Περιοριζόμαστε στη μελέτη των φαινομένων γύρω από τα ανθρωπωνύμια χωρίς να καλύπτουμε το σύνολο των λεξικών μονάδων που γράφονται με κεφαλαίο αρχικό γράμμα, όπως για παράδειγμα οι τοποθεσίες ή τα ονόματα αθλητικών σωματείων. Οδηγηθήκαμε σε αυτή την επιλογή με στόχο να περιγράψουμε διεξοδικά και όσο το δυνατό πληρέστερα τις ιδιότητες των βαπτιστικών και οικογενειακών ονομάτων, εφόσον πρόκειται για ένα μη πεπερασμένο σύνολο λεξικών μονάδων, όπως είναι ως ένα βαθμό οι υπόλοιπες ονοματικές οντότητες. Κατά συνέπεια, αντιμετωπίζονται με προτεραιότητα, καθώς αποτελούν το σημείο εκκίνησης για την αναγνώριση άλλων κυρίων ονομάτων, όπως αυτών των εταιριών ή των συγκροτημάτων (κτηριακών ή μουσικών), τα οποία συχνά περιέχουν στα συστατικά τους στοιχεία κάποιο ανθρωπωνύμιο 100. Το δεύτερο κριτήριο που μας απέτρεψε από την ενασχόληση με άλλες κατηγορίες κυρίων ονομάτων ήταν ο χρόνος που θα απαιτούνταν για να δημιουργηθούν τα αντίστοιχα λεξικά. Θέτουμε ως περιορισμό να μελετήσουμε κυρίως τα ελληνικά ανθρωπωνύμια, ενώ αρχικά υπήρξε η πρόβλεψη να χρησιμοποιηθεί ένα επιπλέον σύντομο λεξικό με τα συνηθέστερα ξένα. Κατά τη διάρκεια της μελέτης του σώματος κειμένου που έχουμε στη διάθεσή μας και της εφαρμογής σε αυτό των λεξικών, προέκυψε η ανάγκη αναγνώρισης πολλών περισσότερων ξένων βαπτιστικών και οικογενειακών ονομάτων. Η διείσδυσή τους στην ελληνική γλωσσική καθημερινότητα είναι αρκετά μεγάλη, ώστε να μας αναγκάζει να επιδιώξουμε, μέσω της αυτόματης αναγνώρισης, την ανάκτηση του μεγαλύτερου ποσοστού όσων εμφανίζονται στα κείμενα, κυρίως όταν είναι γραμμένα με το ελληνικό αλφάβητο. Το γεγονός πως τα ξένα ονόματα που συναντάμε προέρχονται από πολλές διαφορετικές γλώσσες, με ιδιαιτερότητες της καθεμιάς στο μορφολογικό σχηματισμό των ονομάτων της, καθιστά σαφές πως δεν μπορεί να υπάρξει μόνον ένας φορμαλισμός αναγνώρισης. Καθώς όμως δεν είναι πρωταρχικός μας στόχος, αλλά ούτε και εφικτός, να ανακτήσουμε όλα τα ξένα ανθρωπωνύμια που έχουν μεταγραφεί στα ελληνικά, προχωρήσαμε στην περιγραφή των βασικότερων δομών τους, όπως τις συναντήσαμε στο σώμα κειμένων που έχουμε στη διάθεσή μας. Έτσι επιτύχαμε να ανακτούμε, σε μεγάλο ποσοστό, ονόματα όπως αυτά που έχουμε σημάνει με έντονα γράμματα στα παρακάτω παραδείγματα: Ειδικότερα για τη «συμμετοχή» των ανθρωπονυμίων στην ονοματολογία κτηρίων βλ. Χιδίρογλου- Ζαχαριάδη (1996). 57

58 (1) Ο επτάχρονος Φόρεστ Γουίλσον - Τζένινγκς προσπαθεί να διαπιστώσει αν το νεαρό μαυροδέλφινο της φωτογραφίας είναι ακόμη ζωντανό. (2) Η 59χρονη Ντόρα Κάρμεν Βιγιάμπα, πρόκειται να οδηγηθεί σήμερα στον εισαγγελέα Πειραιά. (3) Οι κινηματογράφοι των ΗΠΑ ήδη προβάλλουν τη νέα του ταινία "Catch me if you can", με τους Τομ Χανκς και Λεονάρντο Ντι Κάπριο. Παρόλο που αντικείμενο της μελέτης μας είναι τα κύρια ονόματα προσώπων, η δυνατότητα συστηματοποίησης ορισμένων κανόνων αυτόματης αναγνώρισης μας επέτρεψε να συντάξουμε βασικούς κανόνες ανάκτησης για οντότητες, όπως τοπωνύμια, εταιρίες, αθλητικά σωματεία, ιδρύματα, τα οποία λειτουργούν επικουρικά με την αναγνώριση των ανθρωπωνυμίων, με σκοπό την εξαγωγή ακριβέστερων αποτελεσμάτων. Όπου δηλαδή δεν ήταν αρκετή η ύπαρξη των κριτηρίων αναγνώρισης για τα ανθρωπωνύμια, κατασκευάσαμε γράφους που εκμεταλλεύονταν τους ενδείκτες των άλλων οντοτήτων και τους χρησιμοποιήσαμε σαν εξαιρέσεις στα αποτελέσματα των ανθρωπωνυμίων. Έτσι επιτυγχάνεται ο διαχωρισμός ανάμεσα σε γενικές ονοματικές οντότητες και ανθρωπωνύμια σε προτάσεις όπως οι ακόλουθες: (4) "Οι προοπτικές μιας διεθνούς σταδιοδρομίας είναι μεγάλες", λέει ο πρόεδρος του ομίλου Μπουτάρη, κ. Κωνσταντίνος Μπουτάρης. (5) Ο 33χρονος Α. Γκαρέτσος, που οδηγούσε ανυποψίαστος στην οδό Δουκίσσης Πλακεντίας, βρέθηκε ξαφνικά να κάνει βουτιά στο κενό. (6) Η 30χρονη Λίλα Μπεζέρα, οργάνωσε πρόσφατα ένα πάρτι στη γκαλερί Φρίντριχ Πέτζελ. Το σύστημα DELA, όπως είδαμε, είναι ένα μορφολογικό λεξικό, που εκτός από ορισμένες συντακτικές και σημασιολογικές πληροφορίες, δεν διαθέτει τρόπο περιγραφής των συντακτικών και σημασιολογικών χαρακτηριστικών των λεξικών μονάδων. Αυτά κατά κανόνα καταγράφονται στους συντακτικούς πίνακες του λεξικού-γραμματικής, που μπορεί να θεωρηθεί ως ένα ηλεκτρονικό συντακτικό λεξικό (Kyriakopoulou, 1992), αλλά δεν είναι το προτεινόμενο για την παρούσα μελέτη. Το επίπεδο σύνταξης που θα εκμεταλλευθούμε περιορίζεται στη χρήση του άμεσου συγκειμένου που περιβάλλει τα κύρια ονόματα και θα 58

59 περιγραφεί με τη μέθοδο των πεπερασμένων αυτομάτων στο κεφάλαιο της αυτόματης αναγνώρισης Μεθοδολογία της έρευνας Όπως αναφέρθηκε στην εισαγωγή, το πρώτο στάδιο επεξεργασίας των κυρίων ονομάτων είναι αυτό της κωδικοποίησής τους. Κατά την επικοινωνιακή διαδικασία οι φυσικοί ομιλητές της γλώσσας, χωρίς να το αντιλαμβάνονται, έχουν την ικανότητα σωστής ερμηνείας κάθε ακολουθίας λέξεων που συναντούν (είτε στο γραπτό είτε στον προφορικό λόγο). Οι παράγοντες που επηρεάζουν το επικοινωνιακό γεγονός (το συγκείμενο, ο συνομιλητής, ο τόνος της φωνής 102 ) και δίνουν στο φυσικό ομιλητή τη δυνατότητα αντίληψης του γεγονότος, αποτελούν στοιχεία μη αντιληπτά για τους ηλεκτρονικούς υπολογιστές που δε διαθέτουν καμία από τις δυνατότητες αυτές. Έτσι, η κωδικοποίηση όλων των εισαγόμενων στοιχείων είναι μία διαδικασία απαραίτητη, ώστε να είναι δυνατή η αναγνώριση των κυρίων ονομάτων από τον ηλεκτρονικό υπολογιστή. Τα κύρια ονόματα προσώπων (περίπου ) που αποτέλεσαν το υλικό της παρούσας έρευνας, και τα οποία προμηθευτήκαμε από το αρχείο Συμεωνίδη (Α.Π.Θ.), ήταν σε μορφή Microsoft Excel με γραφή κεφαλαιογράμματη, ακριβώς όπως αυτή των τηλεφωνικών καταλόγων. Εξαίρεση αποτελούν τα περίπου πρώτα λήμματα που είχαν την τυπική μορφή τους, δηλαδή το αρχικό γράμμα με κεφαλαίο και τα υπόλοιπα με μικρά. Από αυτά, όσα περιείχαν το γράμμα «σ» στη σύνθεσή τους, το είχαν ως «ς» και όχι ως «σ» ακόμη και εάν αυτό βρισκόταν στο κέντρο του ονόματος. Να επισημανθεί σ αυτό το σημείο ότι το σύνολο των κυρίων ονομάτων προσώπων, τα πρώτα λήμματα, καθώς και τα υπόλοιπα με κεφαλαιογράμματη γραφή, ήταν ατονικά. Τα παραπάνω στοιχεία αναφέρονται στα επώνυμα που επεξεργαζόμαστε και όχι στα βαπτιστικά. Αυτά συγκεντρώθηκαν από τον γράφοντα με πηγή το εορτολόγιο της εκκλησίας και εμπλουτίστηκαν στη συνέχεια με άλλα που συγκεντρώθηκαν από διάφορες passim πηγές, είτε αυτά είναι υποκοριστικά, ψευδώνυμα, παρατσούκλια είτε ξενόφερτα βαπτιστικά που δεν περιλαμβάνονται στο εορτολόγιο, όπως π.χ. Γουσταύος. Τα ονόματα αυτά ανέρχονται σε 1500 ελληνικά (περίπου 1000 ανδρών και 500 γυναικών) και 1200 ξενικά, ενώ η καταγραφή συνεχίζεται καθημερινά μέσω ειδησεογραφικών διαδικτυακών πυλών ενημέρωσης και διαδικτυακών διευθύνσεων με χαρακτήρα εορτολογίου. 101 Βλ. κεφάλαιο Ολόκληρο το μοντέλο Speaking του Hymes. 59

60 Για τη σύνταξη των κανόνων υιοθετήσαμε και πάλι το θεωρητικό πλαίσιο και τη μέθοδο που προτείνουν η Blandine Courtois και ο Max Silberztein (1990) για την αυτόματη παραγωγή των κλιτικών τύπων των γραμματικών κατηγοριών του μορφολογικού ηλεκτρονικού λεξικού της γαλλικής, όπου ο κωδικός αριθμός που συνοδεύει το λήμμα, αντιπροσωπεύει το κλιτικό παράδειγμα με συγκεκριμένους κανόνες κλίσης Αυτόματη κλίση των ονομάτων Πριν αναφερθούμε στον τρόπο κωδικοποίησης των ονομάτων, θα παρουσιάσουμε εν συντομία τα λογισμικά τα οποία χρησιμοποιήθηκαν για να παραχθούν με αυτόματο τρόπο οι κλιτοί τύποι των λημμάτων που καταχωρήθηκαν στο ηλεκτρονικό λεξικό GenereFlexion Το πρώτο από τα προγράμματα αυτόματης κλίσης που χρησιμοποιήσαμε είναι το «GenereFlexion», που αναπτύχθηκε όπως και το σύνολο των υπολοίπων εργαλείων που σχετίζονται με το IΝTEX 103, από την Safia Mrabti 104 (στο Université de Marne La Vallée). Η μορφή στην οποία παραλαμβάνουμε τα δεδομένα μπορεί να χρησιμοποιηθεί χωρίς κανένα πρόβλημα και στο σύστημα UNITEX. Η «ιδιαιτερότητα» των συστημάτων τύπου INTEX/UNITEX είναι πως αυτά δέχονται προς επεξεργασία αρχεία μόνο σε μορφή απλού κειμένου (.txt) 105. Το συγκεκριμένο γεγονός μας αναγκάζει να σώσουμε σε κωδικοποίηση «Ascii» ως «Μόνο κείμενο» τους καταλόγους, πριν δοκιμάσουμε να τους χρησιμοποιήσουμε, τους οποίες αρχικά επεξεργαστήκαμε ως «Κείμενο του Word». Κάθε γραμμή του καταλόγου πρέπει να έχει την ακόλουθη μορφή : Λέξη1.Κωδικός1,Κατηγορία (λ.χ. Αλεξόπου λος.n42011,n)*(το σύμβολο δηλώνει μετατόπιση του τόνου κατά την κλίση) Το πρόγραμμα λειτουργεί σε περιβάλλον Windows μέσω ενός παραθύρου DOS ή σε περιβάλλον γραμμής εντολών για συστήματα που βασίζονται στο UNIX. Η μορφή της γραμμής εντολών είναι η ακόλουθη, όπως περιγράφει η S. Mrabti (2001): 103 Βλ. ενότητα Βλ. Mrabti S. (2001). 105 Η «ιδιαιτερότητα» της χρήσης.txt αρχείων στην πραγματικότητα είναι η νόρμα όταν αναφερόμαστε σε εργαλεία που χρησιμοποιούνται από τους ερευνητές στην ανάλυση των φυσικών γλωσσών. Με αυτό τον τρόπο εξασφαλίζεται πως το κείμενο δεν είναι εμπλουτισμένο με μη γλωσσικά στοιχεία όπως σημάδια οπτικής μορφοποίησης, τα οποία μπορούν να προκαλέσουν δυσλειτουργία των εργαλείων. 60

61 GenereFlexion fichier1 fichier2 fichier3. Όπου fichier1, είναι το αρχείο «delas.txt» που περιέχει την λίστα των κωδικοποιημένων ονομάτων στη μορφή που εισάγονται στο λεξικό (θεωρητική μορφή + κωδικός κλίσης). Όπου fichier2, είναι το αρχείο που περιέχει το γένος και τον κατάλογο των καταλήξεων της πλήρους κλίσης κάθε κωδικού που χρησιμοποιήθηκε. Τέλος, όπου fichier3, είναι το αρχείο που δημιουργείται με τα αποτελέσματα της αυτόματης κλίσης. Στο ακόλουθο παράδειγμα, το αρχείο «Vaptistika.txt» που περιέχει τον κατάλογο ονομάτων θα κλιθεί με βάση τα κλιτικά διανύσματα που περιέχονται στο αρχείο «Decl.txt», και τα δεδομένα από τη διαδικασία θα τοποθετηθούν στο αρχείο «Vaptistika_me_klisi.txt»: GenereFlexion Vaptistika.txt Decl.txt Vaptistika_me_klisi.txt. Τα ονόματα των αρχείων καθορίζονται από εμάς, χωρίς να υπάρχει κάποιος ονομαστικός περιορισμός. Κατά την κωδικοποίηση των λημμάτων απαιτείται ιδιαίτερη προσοχή στην επιλογή των σωστών γλωσσικών ρυθμίσεων, για να εξασφαλιστεί η ομαλή και απρόσκοπτη λειτουργία του προγράμματος. Η ελληνική χρησιμοποιείται αποκλειστικά για τα γράμματα των ονομάτων, ενώ τα σύμβολα κωδικοποίησης είναι επιβεβλημένο να γράφονται με λατινικούς χαρακτήρες. Για παράδειγμα, στο λήμμα : «Αλεξόπου λος.n42011,n» Οι ελληνικοί χαρακτήρες περιορίζονται στα γράμματα του ελληνικού αλφαβήτου που είναι ως την τελεία. Από την τελεία ως το τέλος της ακολουθίας, η επιλεγμένη γλώσσα πρέπει να έχει λατινικούς χαρακτήρες, ώστε να είναι δυνατή η αναγνώρισή τους από το σύστημα. Φυσικά με λατινικούς χαρακτήρες πρέπει να είναι γραμμένο και το σημάδι που βρίσκεται ανάμεσα στα γράμματα «υ» και «λ» του επωνύμου «Αλεξόπου λος» και δηλώνει τη μετατόπιση του τόνου GrFlex Το δεύτερο από τα προγράμματα αυτόματης κλίσης που χρησιμοποιήσαμε ονομάζεται «Grflex» και αναπτύχθηκε από τους Martineau C. και Yannacopoulou A. (2005 στο 61

62 Université de Marne La Vallée) 106. Ουσιαστικά πρόκειται για μια περισσότερο εξελιγμένη εκδοχή του «GenereFlexion» η οποία εστιάζει στη Νέα Ελληνική προσφέροντας επιπλέον επιλογές για την κλίση των ουσιαστικών, επιθέτων και ρημάτων. Ισχύει και για το «Grflex» η σύμβαση της χρήσης αρχείων απλού κειμένου (.txt) συνταγμένων με κωδικοποίηση Ascii. Ο φορμαλισμός του «delas.txt» που υιοθετήθηκε για το «GenereFlexion» διατηρείται, με αποτέλεσμα το αρχείο να διαμορφώνεται με τα λήμματα να έχουν κοινή μορφή: «Αλεξόπου λος.n42011,n» Το κυρίαρχο χαρακτηριστικό που ενσωματώνει και που το ξεχωρίζει από το «GenereFlexion» είναι η δυνατότητα που μας δίνεται να παράγουμε αυτόματα τους συγκριτικούς βαθμούς ενός επιθέτου. Μια ακόμη σημαντική διαφοροποίηση είναι η δυνατότητα μετατροπής της γραμμής εντολών σε αρχείο «batch» (με κατάληξη.bat) που επιτρέπει τη χρήση μεταβλητών με στόχο την μερική αυτοματοποίηση της διαδικασίας και την αποφυγή της χρήσης της πλήρους μορφής της γραμμής εντολών. Έτσι, υπάρχουν τέσσερα διαφορετικά παραμετροποιημένα, εκτελέσιμα αρχεία του «Grflex», ανάλογα με τη χρήση που χρειαζόμαστε. Με παρόμοιο τρόπο πραγματοποιείται και η εκτέλεση του προγράμματος, εμπλουτισμένη όμως με τις επιπλέον πληροφορίες για την παραγωγή και κλίση των συγκριτικών μορφών των επιθέτων. Επιπλέον, υπάρχει επιλογή προσθήκης σχολίων του συντάκτη στα λεξικά, τα οποία εμφανίζονται μετά το σύμβολο «/» και λειτουργούν ως επεξηγήσεις, χωρίς να έχουν λειτουργική αξία. Για την παραγωγή των τύπων που μας ενδιαφέρουν, αρκεί να επιλεγεί το αντίστοιχο αρχείο «.bat» και να συνταχθεί η δομή με την παρακάτω μορφή: flex1 decl.txt delas.txt delaf.txt Όπου «flex1» είναι το γενικό αρχείο κλίσης, το οποίο ανάλογα με τα επιδιωκόμενα αποτελέσματα μπορεί να αντικατασταθεί από τα πιο εξειδικευμένα «flex2-sv.bat», «flex3- cs.bat» και «flex4.bat». Ο ερευνητής μέσω της δυνατότητας επιλογής ανάμεσα στα διαφορετικά αρχεία «.bat» διατηρεί την ευχέρεια να λαμβάνει τις γλωσσολογικές 106 Περισσότερα στο «Martineau, C., Yannacopoulou, A., Le programme de flexion du Grec Moderne, Grflex, Manuel d utilisation». 62

63 πληροφορίες που τον ενδιαφέρουν, ενώ ταυτόχρονα αποφεύγει να συντάσσει μακριές δομές, περιορίζοντας σημαντικά τις πιθανότητες λάθους πληκτρολόγησης. Η γραμμή εντολών, όπως θα εμφανιζόταν στην πλήρη μορφή της μέσα σε ένα γενικό αρχείο με κατάληξη «.bat», θα διαμορφωνόταν με τις εξής εννέα παραμέτρους: grflex {-cs [0,1,2]} {-sf} {-com} -class fic1 -dic fic2 > fic3 2> fic4 Από την παραπάνω σύνταξη, η παράμετρος «-sf» δηλώνει την μη εμφάνιση των απαρχαιωμένων λημμάτων που υπάρχουν στα λεξικά, με τη σήμανση «-sv». Με την προσθήκη της παραμέτρου «-com» στην γραμμή εντολών, από τα αποτελέσματα που λαμβάνουμε έχουν αφαιρεθεί τυχόν σχόλια που πιθανόν να είχαμε προσθέσει στα λεξικά. Έπειτα, όπου -class fic1, «fic1» είναι το αρχείο «decl.txt» που περιέχει τον κατάλογο με τα κλιτικά διανύσματα, ενώ όπου dic fic2, «fic2» είναι το αρχείο «delas.txt» που περιέχει τα κωδικοποιημένα ονόματα στην μορφή που εισάγονται στο λεξικό. Τέλος, όπου > fic3, «fic3» είναι το αρχείο «delaf.txt» που δημιουργείται με τα αποτελέσματα της αυτόματης κλίσης, ενώ όπου 2> fic4, «fic4» είναι το αρχείο «error.txt» όπου καταγράφονται αναφορές πιθανών σφαλμάτων. Η χρήση των παραμέτρων «{-cs [0,1,2]}», «{-sf}», «{-com}», που βρίσκονται μέσα σε αγκύλες, είναι προαιρετική. Με την παράμετρο «{-cs [0,1,2]}» καθορίζουμε την εμφάνιση των τύπων του βαθμού σύγκρισης που μας ενδιαφέρει. Η χρήση του «-cs 0» εμφανίζει μόνο τον θετικό βαθμό, το «-cs 1» προσθέτει τον συγκριτικό, ενώ με το «-cs 2» εμφανίζονται και οι τρεις βαθμοί σύγκρισης, θετικός, συγκριτικός, υπερθετικός Μορφολογικά χαρακτηριστικά Σε αυτό το σημείο κρίνεται σκόπιμο να δοθούν ορισμένες συνοπτικές εξηγήσεις σχετικά με τον φορμαλισμό που έχουν και τον τρόπο που εμφανίζονται ορισμένες μεταγλωσσικές πληροφορίες στα λεξικά του UNITEX, αλλά και στην πλειονότητα των συστημάτων NLP (Natural Language Processing). Με γνώμονα την οικονομία χώρου και της επεξεργαστικής ισχύος, οι πληροφορίες που προστίθενται στα λήμματα είναι σε κωδικοποιημένη μορφή. Συγκεκριμένα, εισάγονται μετά το λήμμα προκαθορισμένα σύμβολα και αρχικά, τα οποία αντιστοιχούν στα σημασιολογικά και μορφολογικά χαρακτηριστικά του. Για παράδειγμα, οι πτώσεις των ονομάτων συμβολίζονται με κεφαλαίο λατινικό γράμμα* (μόνο τα γράμματα του λατινικού αλφαβήτου αναγνωρίζονται και είναι αποδεκτά από τα εργαλεία και τα προγράμματα του συστήματος), ενώ με μικρά γράμματα συμβολίζονται το γένος και ο αριθμός. Αναλυτικά: 63

64 Πίνακας συντομογραφιών μορφολογικών χαρακτηριστικών ΚΩΔΙΚΟ ΣΥΜΒΟΛΟ ΣΗΜΑΣΙΑ ΣΥΜΒΟΛΟΥ ΠΑΡΑΔΕΙΓΜΑΤΑ m Αρσενικό (Masculin) Αγαθόνικος.:Nms f Θηλυκό (Féminin) Αγαθή.:Nfs n Ουδέτερο (Neutre) τέλος.n:ns s Ενικός (Singulier) Ειρήνη.:Nfs p Πληθυντικός (Pluriel) Στέφανοι.:Nmp N Ονομαστική (Nominatif) Δομετιανός.:Nms G Γενική (Génitif) Αθανασίας.:Gfs A Αιτιατική (Accusatif) Μίλτο.:Ams V Κλητική (Vocatif) Χριστίνα.:Vfs Για παράδειγμα, για το όνομα «Αγαθή.:Nfs», το πρώτο γράμμα, - εδώ το Ν=Ονομαστική -, δηλώνει την πτώση, το δεύτερο, - εδώ το f=θηλυκό - αναφέρεται στο γένος, ενώ το τρίτο στον αριθμό, - εδώ το s=ενικός -. Παρακάτω παρατίθεται ένα τυχαίο κομμάτι του καταλόγου ορισμένων επωνύμων, όπως είναι καταχωρισμένα στο ηλεκτρονικό λεξικό κλίσης των απλών επωνύμων. Γιβραλάκης,.N:Nms Γιβραλάκη,Γιβραλάκης.N:Gms:Ams:Vms:Nfs:Gfs:Afs:Vfs Γιβραλάκηδες,Γιβραλάκης.N:Nmp:Amp:Vmp Γιβραλάκηδων,Γιβραλάκης.N:Gmp Γιβρόπουλος,.N:Nms Γιβρόπουλου,Γιβρόπουλος.N:Gms Γιβρόπουλο,Γιβρόπουλος.N:Ams Γιβρόπουλε,Γιβρόπουλος.N:Vms Γιβρόπουλοι,Γιβρόπουλος.N:Nmp:Vmp Γιβρόπουλων,Γιβρόπουλος.N:Gmp Γιβρόπουλους,Γιβρόπουλος.N:Amp Γιβροπούλου,Γιβρόπουλος.N:Nfs:Gfs:Afs:Vfs Γίγαλος,.N:Nms Γίγαλου,Γίγαλος.N:Gms:Nfs:Gfs:Afs:Vfs Γίγαλο,Γίγαλος.N:Ams Γίγαλε,Γίγαλος.N:Vms Γίγαλοι,Γίγαλος.N:Nmp:Vmp Γίγαλων,Γίγαλος.N:Gmp Γίγαλους,Γίγαλος.N:Amp 64

65 Πολλά από τα παραπάνω λήμματα συνοδεύονται από περισσότερα κωδικά σύμβολα λόγω του συγκρητισμού 107 των πτώσεων κατά την κλίση οι συγκεκριμένοι τύποι παραμένουν ίδιοι στις πτώσεις του γένους και του αριθμού των ονομάτων που αναφέρονται. Έτσι, το πρόγραμμα ομαδοποιεί τους κοινούς τύπους. Για παράδειγμα, στο πρώτο λήμμα «Γιβραλάκης», ο τύπος «Γιβραλάκη» παραμένει ίδιος στην γενική, αιτιατική και κλητική ενικού του αρσενικού, όπως επίσης και σε όλες τις πτώσεις του ενικού του θηλυκού Σημασιολογικά χαρακτηριστικά Για την αυτόματη ανάλυση των κειμένων, εξίσου σημαντική με τα παραπάνω κρίνεται η παρουσία σε κάθε λήμμα συγκεκριμένων σημασιολογικών χαρακτηριστικών, με βάση τα οποία γίνεται η κατηγοριοποίηση σε ομάδες. Αποτέλεσμα της συγκεκριμένης προσθήκης είναι να χρησιμοποιούνται οι λεξικές μονάδες των λεξικών με μεγαλύτερη ακρίβεια και να περιορίζεται η δημιουργία αμφισημιών. Ο G. Gross (1994), με τη θεωρία του για τις τάξεις αντικειμένων (classes d objets), προτείνει τη μελέτη του κειμένου μέσω του συνδυασμού των κατηγοριοποιημένων σε τάξεις ουσιαστικών και των συμβατών με αυτά ρημάτων. Η συμβατότητα των ρημάτων προκύπτει από αναλυτικούς «πίνακες λεξικού-γραμματικής», όπως τους ονόμασε ο M. Gross (1984), στους οποίους περιγράφονται όλες οι συντακτικές τους δομές. Τις βάσεις της έρευνας των σημασιολογικών χαρακτηριστικών έθεσε για τη γαλλική γλώσσα η μελέτη της Courtois (1994), ενώ για την ελληνική ξεχωρίζουμε την μελέτη της Κωνσταντάρα (2003), και την αναλυτική παρουσίαση που συναντάμε στην Φούφη (2005). Από το σύνολο των κατηγοριών σημασιολογικών χαρακτηριστικών που περιέχονται στα λεξικά του ΕΜΕΛ 108, θα περιοριστούμε για την παρούσα μελέτη στην περιγραφή των σχετικών με τα κύρια ονόματα. Η προσθήκη τους στα λήμματα πραγματοποιείται ταυτόχρονα με την προσθήκη των μορφολογικών χαρακτηριστικών, ενώ τοποθετούνται αμέσως μετά από τον κωδικό κλίσης. Πιο συγκεκριμένα, πριν εισαχθούν στο λεξικό, τα λήμματα έχουν την εξής μορφή: Μπασινάς.N42004,N+Hum+Nprop+[Ln] Μπαχαριάν.N42000,N+Hum+Nprop+[Ln] Μπαχράμης.N42004,N+Hum+Nprop+[Ln] 107 Για το συγκρητισμό βλ. The Encyclopedia Of Language And Linguistics (1994:4453) και Baerman et al. (2005). 108 Βλ κεφάλαιο (Εργαστήριο Μετάφρασης και Επεξεργασίας του Λόγου). 65

66 Μπελογιάννης.N42004,N+Hum+Nprop+[Ln] Μπεράτης.N42004,N+Hum+Nprop+[Ln] Ακολουθεί η μορφή που έχουν, όταν είναι καταχωρισμένα στο ηλεκτρονικό λεξικό: Τρικούπη,Τρικούπης.N+Hum+Nprop+[Ln]:Gms:Ams:Vms:Nfs:Gfs:Afs:Vfs Τρικούπηδες,Τρικούπης.N+Hum+Nprop+[Ln]:Nmp:Amp:Vmp Τρικούπηδων,Τρικούπης.N+Hum+Nprop+[Ln]:Gmp Τρικούπης,.N+Hum+Nprop+[Ln]:Nms Τριφό,.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs :Vfs Οι σημασιολογικές πληροφορίες εκφράζονται με τις συντομογραφίες Hum, Nprop και [Ln]. Παρεμβάλλονται ανάμεσα στο σύμβολο «Ν» που δηλώνει τη γραμματική κατηγορία του λήμματος και τις συντομογραφίες «Gms», «:Ams», «:Vms» που δηλώνουν τα μορφολογικά χαρακτηριστικά τους, ενώ το σύμβολο «+» χρησιμοποιείται για να δηλώσει κάθε νέα προσθήκη. Συγκεκριμένα, για το παράδειγμα «Τρικούπηδων», το χαρακτηριστικό «Hum» προσδιορίζει πως πρόκειται για ανθρώπινο ουσιαστικό, το χαρακτηριστικό «Nprop» πως πρόκειται για κύριο όνομα και το χαρακτηριστικό «[Ln]» πως πρόκειται για επώνυμο. Τις βασικές κατηγορίες χαρακτηριστικών, όπως προέκυψαν άμεσα από τις συντακτικές ιδιότητες με τις οποίες συνδέονται, συναντάμε στη Φούφη (2005) και είναι οι εξής: - Ανθρώπινα ουσιαστικά (Hum) - Συγκεκριμένα ουσιαστικά (Conc) - Αφηρημένα ουσιαστικά (Abst) - Ζώα (Anl) Όπως προαναφέραμε, θα μας απασχολήσουν για την περιγραφή των ανθρωπωνυμίων μόνο τα χαρακτηριστικά που προσδιορίζουν ανθρώπινα ουσιαστικά, ενώ κατά την αυτόματη κατηγοριοποίηση 109 θα αξιοποιηθούν και όσα προσδιορίζουν τόπο ([Lieu]) ή εθνικά 109 Βλ. κεφάλαιο 5. 66

67 ονόματα ([Topo]), λειτουργώντας ως εξαιρέσεις στους κανόνες ανάκτησης. Τα ανθρώπινα ουσιαστικά ταξινομούνται στις ακόλουθες υποκατηγορίες 110 : Υποκατηγορίες του ανθρώπινου σημασιολογικού χαρακτηριστικού (Hum) ΣΗΜΑΣΙΟΛΟΓΙΚΟ ΚΑΤΗΓΟΡΙΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΠΑΡΑΔΕΙΓΜΑΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟ [Bouch] Σχετικά με πώληση κρεοπώλης.n45100,n+hum+[bouch] κτηνοτροφικών προϊόντων [Dr] Σχετικά με τη νομική επιστήμη αντίκλη"τος.n125,n+hum+[dr] [Edu] Σχετικά με το χώρο της παιδείας αναπληρω"τής.n44500 δάσκα"λος.n44100,n+hum+[edu] [Elev] Σχετικά με την εκτροφή και αναπαραγωγή ζώων εκτροφέας.n42101 προβάτων.n301,n,- GP2+Hum+[Elev] [Hist] Σχετικά με κάποια ιστορική αρματoλός.n122,n+hum+[hist] περίοδο [Marine] Σχετικά με το χώρο της ναυτιλίας ναυτικός.a10 πράκτο"ρας.n43400,n+hum+[marine] [Meca] Σχετικά με την επιστήμη των αερομηχανικός.n43102,n+hum+[meca] μηχανικών [Med] Τα ιατρικά επαγγέλματα νευρολόγος.n44300 ψυχία"τρος.n43100,n+hum+[med] [Milit] Σχετικά με το στρατό στρατιώτης.ν194,n+hum+[milit] [Mus] Σχετικά με το χώρο της μουσικής ροκ.a5 τραγουδι"στής.n44500,n+hum+[mus] [Pol] Σχετικά με την πολιτική αναπληρω"τής.n44500 υπουργός.n43102,n+hum+[pol] [Qual] Όσα εκφράζουν ανθρώπινη αγροίκος.n121,n+hum+[qual] ιδιότητα [Relig] Σχετικά με το χώρο της βουδι"στής.n44500,n+hum +[Relig] θρησκείας [Scien] Σχετικά με κάποια επιστήμη σπηλαιολόγος.n44300 εξερευνη"τής.n44500,n+hum+[scien] [Socio] Όσα εκφράζουν ιδιότητα που ριζοσπάστης.n194 σοσιαλιστής.n190,n έχει κοινωνική χροιά [Sport] Σχετικά με αθλητές και αεραθλη"τής.n44500,n Hum+[Sport] παράγοντες του αθλητισμού [Techn] Σχετικά με τον τομέα των ηχολήπτης.n43222+hum+[techn] τεχνολογιών [Textil] Σχετικά με τον τομέα της υφαντουργός.n43102,n+hum+[textil] υφαντουργίας [Tit] Τίτλοι και αξιώματα ανώτατος.a20 άρχοντας.n106+hum+[tit] 110 Βλ. Φούφη (2005). 67

68 3.3.4 Κατάρτιση των κωδικών κλίσης Κατά την κλίση των οικογενειακών (επωνύμων) γεννιούνται διάφορες δυσκολίες, που πηγάζουν είτε από την πολυτυπία τους, π.χ. παρουσιάζουν κατά τόπους σημαντικά ανόμοιους πληθυντικούς, είτε «με τον ανεξομάλιστο μορφολογικά τύπο-τους, είτε γιατί είναι ξένες λέξεις είτε γιατί είναι λόγιες ή εξελληνισμένες» 111. Στην προσπάθεια λοιπόν δημιουργίας αντιπροσωπευτικών κωδικών για τα κλιτικά παραδείγματα του συνόλου των ονομάτων, έπρεπε να θεσπιστούν ισχυρά και αδιαμφισβήτητα κριτήρια, η συνδρομή των οποίων θα διευκόλυνε τον μελετητή και θα του άνοιγε το δρόμο για την απρόσκοπτη επεξεργασία του υλικού του. Τα κριτήρια αυτά είναι καθιερωμένα εδώ και δεκαετίες από τις πολύχρονες εργασίες του Μανόλη Τριανταφυλλίδη και αναλύονται στο έργο του «Τα οικογενειακά-μας ονόματα» 112. Αντλούμε από το κείμενό του τόσο τον συγκεντρωτικό πίνακα σχετικά με το σχηματισμό του πληθυντικού των οικογενειακών, όσο και ό,τι αναφέρει για τα επιθήματα αυτών που είναι απαραίτητα για το επόμενο στάδιο της έρευνάς μας. Παραθέτουμε τον πίνακα σχηματισμού του πληθυντικού : 1. Σε άς οξύτονα, πληθ. άδες : Παλαμάδες, Σκουφάδες. 2. Σε ας παροξύτονα, πληθ. ηδες, αλλά και -αίοι : Καράβηδες, Λάπηδες Λαπαίοι, Δρίτσηδες, Γρίβηδες και συχνότερα Γριβαίοι, Δούκηδες Δουκαίοι, Κουγέηδες, Καββαδίηδες κτλ. 3. Σε ας προπαροξύτονα, συνήθως πληθ. αίοι : Ζουζουλαίοι, Μπουκουραίοι. 4. Σε ης οξύτονα και παροξύτονα, πληθ. ηδες : Ραγκαβήδες, Φραντζήδες. Δραγούμηδες, Μιαούληδες. 5. Σε ης προπαροξύτονα, συνήθως πληθ. αίοι : Κατσιμπαλαίοι, Μποτσαραίοι, Μπουμπουλαίοι. 6. Σε ές οξύτονα, πληθ. έδες : Τσελεμεντέδες. 7. Σε ες παροξύτονα, πληθ. ηδες, ή -αίοι : Δαπόντηδες, Δεδαίοι. 8. Σε -ου(ς) παροξύτονα και προπαροξύτονα, πληθ. αίοι ή οι : Καμπουρογλαίοι Καμπούρογλοι, Μποσταντζόγλοι. Έτσι και τα πατρωνυμικά από γενική σε ου : Σταύρου Σταυραίοι, Οικονομαίοι. 111 Τριανταφυλλίδης (1995:129). 112 Τριανταφυλλίδης (1995). 68

69 9. Σε ος πληθ. οι : Βραχνοί, Αντρούτσοι, Ζαμπέλιοι. Κάποτε λαϊκότερα, και αίοι : Αγγελόπουλοι Αγγελοπουλαίοι. Στα παραπάνω προστίθενται επίσης και : 1) Ξενικά ονόματα ασυμμόρφωτα στην ενική ονομαστική : Σκέντερ, Ρακτιβάν. 2) Λόγια ονόματα ασυμμόρφωτα στην ονομαστική : Λέων, Προυσαεύς. 3) Ονόματα που εκφέρονται στη γενική και μένουν άκλιτα : Οικονόμου, Χαραλάμπους. 4) Ονόματα σε ος προπαροξύτονα που κατεβάζουν συνήθως τον τόνο στην παραλήγουσα στην ενική γενική, τουλάχιστον ή προπάντων όταν λέγονται επίσημα ή με το «κύριος» του κ. Πετροκοκκίνου. Με αυτά τα δεδομένα ορίσαμε τους κανόνες κλίσης είκοσι τριών κλιτικών παραδειγμάτων που καλύπτουν το σύνολο των οικογενειακών ονομάτων που υπάρχει στη διάθεσή μας 113. Τα λήμματα εμφανίζονται στη θεωρητική τους μορφή, δηλαδή στο γένος του ουσιαστικού στην ονομαστική ενικού. Σε συνδυασμό με τους κωδικούς για τα βαπτιστικά που περιγράφουν τα κλιτικά διανύσματά τους και οι οποίοι είναι όμοιοι με των ουσιαστικών 114, αποτελούν το αρχείο «decl.txt», το δεύτερο στη σειρά δηλαδή της διαδικασίας του προγράμματος αυτόματης κλίσης Επεξεργασία του γλωσσικού υλικού και δυσκολίες Όπως σε όλες τις διαδικασίες μιας έρευνας, έτσι και εδώ δεν έλειψαν τα προβλήματα κατά τη διάρκεια της κωδικοποίησης. Τα συναντήσαμε στην προσπάθεια επεξεργασίας του καταλόγου μορφής Microsoft Excel των επωνύμων που προμηθευτήκαμε από το αρχείο Συμεωνίδη. Υπήρχαν περίπου εγγραφές ταξινομημένες αλφαβητικά, οι οποίες έπρεπε να μεταφερθούν στο Microsoft Word. Λαμβάνοντας υπόψη πως ο μέγιστος αριθμός εγγραφών στο Word είναι περίπου εγγραφές, χωρίσαμε τον κατάλογο σε ομάδες και κατόπιν αντιγράψαμε και επικολλήσαμε μία ομάδα κάθε φορά, ώσπου να εξαντληθεί ο κατάλογος. Έτσι δημιουργήθηκαν περίπου 20 αρχεία επωνύμων, το καθένα των οποίων 113 Υπάρχουν οι καταλήξεις για το αρσενικό, καθώς και μία κατάληξη για το άκλιτο θηλυκό. 114 Δεν υπάρχει ανάγκη για δημιουργία νέων, γιατί αρσενικά και θηλυκά έχουν διαφορετικούς κωδικούς. Ισχύει και για τις πιο «ιδιαίτερες» περιπτώσεις, όπως των ουσιαστικών σε ω. Βλ. Holton, Mackridge, Φιλιππάκη- Warburton (1997:64). 69

70 περιείχε περί τα λήμματα, τα οποία έπρεπε να «διορθωθούν» και στη συνέχεια να κωδικοποιηθούν. Με την επιλογή της λέξης «διορθωθούν» γίνεται αναφορά σε τρία βασικά στοιχεία, που χρειάστηκε να αλλάξουν. Το πρώτο ήταν να μετατραπούν όλα τα κεφαλαία γράμματα σε μικρά (εκτός φυσικά από το αρχικό γράμμα του επωνύμου). Όταν αυτό έγινε αυτοματοποιημένα 115, άλλαξε την πλειονότητα των λημμάτων, αλλά όχι όλων. Δεν επηρέασε το δεύτερο μέλος των σύνθετων επωνύμων, όσων δηλαδή βρίσκονταν μετά την παύλα, θεωρώντας πως είναι μία ενιαία λέξη. Η διόρθωσή τους έγινε χειρωνακτικά, το ένα μετά το άλλο σε ένα μετέπειτα στάδιο. Το επόμενο βήμα είναι η αλλαγή των «ς» που συναντήσαμε στο εσωτερικό των πρώτων λημμάτων του καταλόγου μας σε «σ». Εδώ, ενώ στην αρχή είχε επιλεγεί η λύση της μίας προς μία αντικατάστασης, στη συνέχεια για εξοικονόμηση χρόνου, αφού αποδείχτηκε πολύ χρονοβόρα, έγινε προσπάθεια να αυτοματοποιηθεί η διαδικασία. Όταν επιχειρήθηκε 116, αντικαταστάθηκαν όλα τα «ς», τελικά και κανονικά, σε «σ», διότι το Word δεν διαχωρίζει τους δύο χαρακτήρες θεωρώντας τους όμοιους. Χρειάσθηκε έτσι ένα ακόμη βήμα, όπου όλα τα τελικά που είχαν γίνει κανονικά, επανήλθαν στη σωστή μορφή, δηλαδή σε «ς» 117. Εκτός φυσικά από το πρώτο μέλος (πριν από την παύλα) των σύνθετων επωνύμων, που, όπως και πριν, θα διορθωθεί «διά χειρός». Με τον ίδιο τρόπο, χειρωνακτικά δηλαδή, θα αντιμετωπιστεί και το τελευταίο στοιχείο που χρειαζόταν διόρθωση, αυτό του τονισμού. Αναφέρθηκε νωρίτερα στην ενότητα 3.3 πως το σύνολο των επωνύμων που είχαμε στη διάθεσή μας ήταν ατονικό. Δεν υπάρχει, δυστυχώς, τρόπος αυτοματοποίησης του συγκεκριμένου σταδίου, διότι το υλικό μας είναι άγνωστο στον επεξεργαστή κειμένου και έτσι δεν είναι δυνατή η διόρθωσή του. Ο χειρωνακτικός έλεγχος και η διόρθωση κάθε λήμματος αποτελεί τον μοναδικό αποτελεσματικό τρόπο που είναι σε θέση να χρησιμοποιήσει ο ερευνητής, αν και χρονοβόρος βέβαια και επίπονος 118. Τα προβλήματα που παρουσιάστηκαν, όταν κληθήκαμε να τονίσουμε τα άτονα επώνυμα, ήταν γραμματικής φύσης, καθώς ένα σεβαστό ποσοστό των λημμάτων μπορούσε εν δυνάμει να δεχτεί τον τόνο σε περισσότερες της μίας συλλαβής, γεγονός που μας 115 Από την επιλογή του word «Αλλαγή πεζών-κεφαλαίων» από το μενού «Μορφή». 116 Κάνοντας χρήση της επιλογής «Αντικατάσταση» από το μενού «Επεξεργασία» και τοποθετώντας : όπου «ς», να γίνει «σ». 117 Μέσω της επιλογής «Αντικατάσταση» από το μενού «Επεξεργασία» και τοποθετώντας : όπου «σ ^p (σημάδι παραγράφου)», να γίνει «ς». 118 Περισσότερα για τις δυσκολίες μετατροπής της μεγαλογράμματης γραφής βλ. Πετρούνιας (1984:573) και Ανδριώτη, Αντιχάρισμα (1976). 70

71 ανάγκασε να διπλασιάζουμε ή και να τριπλασιάζουμε τις εγγραφές ορισμένων επωνύμων στο λεξικό. Εισαγάγαμε ακολουθίες με κοινή μορφολογία που είχαν ως μοναδική διαφοροποίηση το τονούμενο φωνήεν. Για να φτάσουμε στο τι είναι γραμματικό και στο τι δεν είναι, βασιστήκαμε στο γλωσσικό μας κριτήριο ως φυσικοί ομιλητές της Νέας Ελληνικής. Δημιουργήσαμε επίσης καταλόγους με επώνυμα, δισύλλαβα στην πλειονότητά τους, τη μορφολογία των οποίων αδυνατούσαμε να επαληθεύσουμε σε λεξικογραφημένες πηγές ή με αναζήτηση μέσω της δημοφιλούς διαδικτυακής μηχανής αναζήτησης Ακολουθώντας τη μέθοδο του γλωσσικού αισθήματος διαφορετικών πληροφορητών, την οποία εμπνευστήκαμε από το ερευνητικό έργο της Αναστασιάδη (1986:19-20), υποβάλαμε τους καταλόγους που συντάξαμε αποκλειστικά για το σκοπό αυτό στην κρίση των ατόμων που επιλέξαμε να μας βοηθήσουν. Τα είδη των πληροφορητών που χρησιμοποιήσαμε επιλέχθηκαν με κριτήριο την ευκολία άμεσης ανατροφοδότησης. Έτσι, οι πληροφορητές ήταν μέλη του άμεσου κοινωνικού μας κύκλου, ηλικίας χρόνων, με πανεπιστημιακή μόρφωση. Μια ομάδα αποτελείται από τους ερευνητές του ΕΜΕΛ και μια δεύτερη από συνεργάτες εκπαιδευτικούς Λεξικό σύνθετων ονομάτων Έχουμε αναφέρει ήδη πως το σύστημά μας διαθέτει, εκτός του λεξικού των μονολεκτικών λεξικών μονάδων, ένα δεύτερο λεξικό, αυτό των σύνθετων ονομάτων (DELACG), μέσα στο οποίο περιλαμβάνονται ολόκληρα ονοματεπώνυμα. Η ανάγκη ύπαρξης του εν λόγω λεξικού γίνεται αντιληπτή όταν συναντάμε στα κείμενα ονοματεπώνυμα προσώπων όπως είναι το «Κωστής Παλαμάς», τα οποία αναφέρονται σε συγκεκριμένα πολύ γνωστά άτομα ή διασημότητες. Ο σημασιολογικός «δεσμός» που υπάρχει ανάμεσα στο βαπτιστικό και το επώνυμο επιτάσσει την από κοινού καταχώρηση των λημμάτων στο λεξικό, ως μίας εγγραφής. Με αυτό τον τρόπο, εισάγοντας δηλαδή, με τη μορφή ζεύγους τα ονοματεπώνυμα, μας δίνεται η δυνατότητα να εμπλουτίσουμε συγκεκριμένα λήμματα με επιπρόσθετες πληροφορίες, οι οποίες κρίνονται ως απαραίτητες προϋποθέσεις για την αξιοποίηση του λεξικού σε σημασιολογικό επίπεδο. Φυσικά η παρούσα εργασία δεν επεκτείνεται στη σημασιολογική ανάλυση των κυρίων ονομάτων, αλλά αποφασίσαμε τη δημιουργία του λεξικού, ώστε να υπάρχει μια βάση για μελλοντικές μελέτες. Τα λήμματα που αποτέλεσαν την πηγή του λεξικού προμηθευτήκαμε από το βιβλίο «Νεοελληνικά φιλολογικά ψευδώνυμα» του Ντελόπουλου (2005). Επειδή η αξιοποίηση του συνολικού υλικού του συγκεκριμένου πονήματος απαιτεί την κωδικοποίηση μεγάλου 71

72 αριθμού κυρίων ονομάτων και κατά συνέπεια απαιτεί αρκετό χρόνο, αποφασίσαμε να εκμεταλλευτούμε μέρος μόνο του συνόλου των ονομάτων που περιέχει. Το κριτήριο που επιστρατεύσαμε για την επιλογή του τμήματος των λημμάτων που θα επεξεργαζόμασταν αποφασίσαμε να είναι η χρονική περίοδος που δραστηριοποιούνται οι συγγραφείς, έτσι εστιάσαμε στα πιο πρόσφατα πρόσωπα, αυτά του 20 ού αιώνα. Η ιδιαιτερότητα του κειμένου του Ντελόπουλου (2005) είναι πως τα κύρια ονόματα προσώπων που περιέχει προσδιορίζουν συγγραφείς που δεν υπέγραφαν τα κείμενά τους με το κανονικό τους όνομα, αλλά χρησιμοποιούσαν ψευδώνυμα. Έτσι, κάθε κύριο όνομα που εμφανίζεται στο κείμενο συνοδεύεται από τουλάχιστον μια λεξική μονάδα που λειτουργεί ως ψευδώνυμο. Αξιοποιώντας τις δυνατότητες και την ευελιξία των προγραμμάτων κλίσης που περιγράψαμε στην ενότητα 3.3.1, συνδέσαμε τα ψευδώνυμα με τον θεωρητικό τύπο των αντίστοιχων ονοματεπωνύμων με τον τρόπο που φαίνεται από τα ακόλουθα παραδείγματα: Βασίλης Κωσταλεξιώτης,Βασίλης Αλεξίου.N:Nms Βασίλη Κωσταλεξιώτη,Βασίλης Αλεξίου.N:Gms:Ams:Vms Βασίληδες Κωσταλεξιώτηδες,Βασίλης Αλεξίου.N:Nmp:Amp:Vmp Βασίληδων Κωσταλεξιώτηδων,Βασίλης Αλεξίου.N:Gmp Αλέκος Βασιλείου,Βασίλης Αλεξίου.N:Nms Αλέκου Βασιλείου,Βασίλης Αλεξίου.N:Gms Αλέκο Βασιλείου,Βασίλης Αλεξίου.N:Ams:Vms Αλέκοι Βασιλείου,Βασίλης Αλεξίου.N:Nmp:Vmp Αλέκων Βασιλείου,Βασίλης Αλεξίου.N:Gmp Αλέκους Βασιλείου,Βασίλης Αλεξίου.N:Amp Αντιστοιχίζονται με αυτό τον τρόπο τα ψευδώνυμα «Βασίλης Κωσταλεξιώτης» και «Αλέκος Βασιλείου» με το κανονικό όνομα του προσώπου, που στην προκειμένη περίπτωση είναι το «Βασίλης Αλεξίου», με αποτέλεσμα να αντιλαμβάνεται το σύστημά μας πως πρόκειται για το ίδιο πρόσωπο. Οι Paik et al. (1994:311), χρησιμοποιούν επεκτάσεις των λεξικών τους, ώστε συλλογικά κύρια ονόματα να περιέχουν τα υποσύνολά τους, για παράδειγμα το κύριο όνομα «Ευρωπαϊκή Ένωση» να περιέχει τις χώρες που την αποτελούν. Μάλιστα υποστηρίζουν πως η πρακτική αυτή αποτελεί ένα ιδιαίτερα ισχυρό εργαλείο σε συστήματα εξαγωγής πληροφοριών. Κατά τον ίδιο τρόπο ένα κύριο όνομα προσώπου είναι δυνατόν να περιέχει τα ψευδώνυμα/παρατσούκλια του. 72

73 Παραπλήσιες τεχνικές χρησιμοποιούν τα συστήματα στατιστικής ανάλυσης, τα οποία πραγματεύονται τα κείμενα σε επίπεδο κειμένου για να επιτύχουν σωστή ταξινόμηση των λεξικών μονάδων που ανακτούν. Αρχικά εντοπίζουν τα ονοματεπώνυμα μέσα στο κείμενο, στη συνέχεια αναζητούν τα επιμέρους τμήματά τους, το όνομα και το επώνυμο μεμονωμένα και τα σημαίνουν αναλόγως με βάση την αρχική ανάκτηση. Αν για παράδειγμα το σύστημα ανακτήσει το «Κώστας Σεφέρης» στην αρχή του κειμένου, στη συνέχεια όπου βρίσκει το «Κώστας» και το «Σεφέρης» μεμονωμένα, θα τα θεωρεί κύρια ονόματα προσώπου, εκτός φυσικά αν υπάρχουν εξωτερικοί ενδείκτες που μαρτυρούν το αντίθετο Διαδικασία κωδικοποίησης Έχοντας λοιπόν την τελική, επεξεργασμένη μορφή του καταλόγου των επωνύμων και έχοντας λάβει υπόψη όλα τα παραπάνω, περάσαμε στο τελικό στάδιο της διαδικασίας, δηλαδή στην ίδια την κωδικοποίηση. Για την ευκολότερη και ταχύτερη ολοκλήρωσή της κρίνεται απαραίτητο να πραγματοποιηθεί μερική αυτοματοποίησή της στον μεγαλύτερο εφικτό βαθμό. Τα εναπομένοντα λήμματα θα τα επεξεργαστεί ο ερευνητής «διά χειρός» το ένα μετά το άλλο. Αντλήσαμε από το έργο «Τα οικογενειακά μας ονόματα» 119 επιθήματα 120 από εθνικά, επαγγελματικά, παρατσούκλια και άλλα ονόματα, και με αυτά δημιουργήσαμε τον κατάλογο που θα χρησιμοποιηθεί στη συνέχεια για την αυτοματοποίηση. Σ αυτά προστίθενται και αρκετά τέρματα 121 λεξικών μονάδων που βρέθηκαν σε μεγάλη συχνότητα κατά την επεξεργασία του υλικού στη δεύτερη φάση της κωδικοποίησης (τη χειρωνακτική). Στην πρώτη στήλη του παρακάτω πίνακα δίνονται οι συνδυασμοί τερμάτων και κωδικών που χρησιμοποιήθηκαν με κάθε κατάλογο επωνύμων και στη δεύτερη ένα παράδειγμα μετά την εφαρμογή για την κάθε περίπτωση: 119 Βλ. Τριανταφυλλίδης (1995). 120 Κλαίρης & Μπαμπινιώτης (2004:76-94). 121 Με τον όρο «τέρμα» δεν εννοούμε τα κλιτικά ή παραγωγικά μορφήματα που συνδυάζονται με το θέμα μίας λεξικής μονάδας κατά την διαδικασία της παραγωγής, αλλά ακολουθίες γραμμάτων που δεν περιορίζονται από το θέμα της λεξικής μονάδας στην οποία ανήκουν. Επιλέγουμε ακολουθίες που εξυπηρετούν την ακριβέστερη αντικατάσταση των κυρίων ονομάτων ακόμη και αν περιλαμβάνουν τμήμα του θέματος αυτών. Στην περίπτωση του τέρματος «άλης» που μετατρέπει το οικογενειακού «Καρτάλης» σε «Καρτάλης.N42004,N», χρησιμοποιούμε το τέρμα χωρίς να μας απασχολεί αν το θέμα της λεξικής μονάδας που θα αντικαταστήσει είναι το «Καρτ» ή το «Καρτάλ». 73

74 74 ΠΙΝΑΚΑΣ ΚΩΔΙΚΩΝ ΑΥΤΟΜΑΤΗΣ ΑΝΤΙΚΑΤΑΣΤΑΣΗΣ -άδας.n42006,n Παράδας.N42006,N -άδης.n42004,n Νικητιάδης.N42004,N -αίος.n42001,n Μυτιληναίος.N42001,N -άκας.n42006,n Αγγελάκας.N42006,N -άκης.n42004,n Πρατσινάκης.N42004,N -άκος.n42001,n Μπακάκος.N42001,N -άλας.n42006,n Μπουκουβάλας.N42006,N -άλης.n42004,n Καρτάλης.N42004,N -άνης.n42004,n Τσιτσάνης.N42004,N -άννης.n42004,n Χαραλαμπογιάννης.N42004,N -άνος.n42001,n Δάνος.N42001,N -άρας.n42006,n Νταλάρας.N42006,N -άρης.n42004,n Κανάρης.N42004,N -άρος.n42001,n Κορνάρος.N42001,N -άς.n42004,n Μπαλτιμάς.N42004,N -άσης.n42004,n Βαλάσης.N42004,N -άσκος.n42001,n Βαλάσκος.N42001,N -άτης.n42004,n Μανιάτης.N42004,N -άτος.n42001,n Τάτος.N42001,N -άτσης.n42004,n Γκαγκάτσης.N42004,N -άτσος.n42001,n Γκανάτσος.N42001,N -έας.n42006,n Κεραμέας.N42006,N -έζος.n42001,n Γλέζος.N42001,N -έκας.n42004,n Γκέκας.N42004,N -έκης.n42004,n Βασδέκης.N42004,N -έκος.n42001,n Τζεβελέκος.N42001,N -έλας.n42006,n Τζαβέλας.N42006,N -έλης.n42004,n Κουβέλης.N42004,N -έλλης.n42004,n Καμπανέλλης.N42004,N -έλλος.n42001,n Κανέλλος.N42001,N -έλος.n42001,n Μπακατσέλος.N42001,N -ένης.n42004,n Μακρυγένης.N42004,N -ένος.n42001,n Καμμένος.N42001,N -έρης.n42004,n Λυμπέρης.N42004,N -έρος.n42001,n Νέρος.N42001,N -έσκος.n42001,n Πανέσκος.N42001,N -έτης.n42004,n Μαλαβέτης.N42004,N -ής.n42004,n Μακρής.N42004,N -ιάν.n42000,n Αλεξιάν.N42000,N -ίας.n42012,n Χατζηλίας.N42012,N -ίδας.n42012,n Μαρίδας.N42012,N -ίδης.n42004,n Γιαννακίδης.N42004,N -ίκας.n42012,n Γκίκας.N42012,N -ίκης.n42004,n Σπορίκης.N42004,N -ίκος.n42001,n Πανίκος.N42001,N

75 -ίλας.n42012,n -ίλης.n42004,n -ίνας.n42006,n -ίνης.n42004,n -ίνος.n42001,n -ίτης.n42004,n -ίτσας.n42006,n -ίτσης.n42004,n -όπου"λος.n42011,n -ός.n42002,n -ού.n42000,n -ούδας.n42006,n -ούδης.n42004,n -ούζης.n42004,n -ούκης.n42004,n -ούκος.n42001,n -ούλας.n42006,n -ούλιας.n42006,n -ούνης.n42004,n -ούρας.n42006,n -ούρης.n42004,n -ους.n42000,n -ούσας.n42006,n -ούσης.n42004,n -ούτας.n42006,n -ούτης.n42004,n -ούτσας.n42006,n -ούτσος.n42001,n -ώνης.n42004,n -ώτης.n42004,n Δαβίλας.N42012,N Παφίλης.N42004,N Μαγκίνας.N42006,N Κατρίνης.N42004,N Μίνος.N42001,N Καπανδρίτης.N42004,N Καρδαμίτσας.N42006,N Κυρίτσης.N42004,N Παπαδόπου"λος.N42011,N Ναστός.N42002,N Παραγυιού.N42000,N Μαρούδας.N42006,N Κωστούδης.N42004,N Βούζης.N42004,N Κουτσιούκης.N42004,N Κουτσούκος.N42001,N Παντούλας.N42006,N Παπούλιας.N42006,N Φορτούνης.N42004,N Βαβούρας.N42006,N Μπούρης.N42004,N Θεοφάνους.N42000,N Γιαννούσας.N42006,N Κούσης.N42004,N Μπαμπαλιούτας.N42006,N Μπαρούτης.N42004,N Δρούτσας.N42006,N Πανούτσος.N42001,N Μελιδώνης.N42004,N Χιώτης.N42004,N Η διαδικασία χρήσης των συγκεκριμένων κωδικών είναι όμοια με αυτήν του «ς» και «σ». Μέσω δηλαδή της επιλογής «Αντικατάσταση» από το μενού «Επεξεργασία» του Word τοποθετούμε για παράδειγμα : όπου «ός ^p (σημάδι παραγράφου)», να γίνει «ός.n42002,n^p». Το βήμα αυτό επαναλαμβάνεται για καθένα από τα επιθήματα. Με τον τρόπο αυτό, σχεδόν το ήμισυ, ίσως και περισσότερο, των δεδομένων έχει κωδικοποιηθεί αυτόματα, αφήνοντας περίπου το υπόλοιπο 45-50% για κωδικοποίηση με το χέρι Φυσικά στη συνέχεια είναι απαραίτητο να γίνει επαλήθευση του συνόλου των δεδομένων. 75

76 3.3.8 Αποτελέσματα κλίσης Έχοντας τελειώσει την προηγούμενη διαδικασία, υπάρχει στη διάθεσή μας ένας κατάλογος κωδικοποιημένων ονομάτων, ο οποίος βρίσκεται σε έτοιμη προς χρήση μορφή από το πρόγραμμα αυτόματης κλίσης «GenereFlexion». Το αρχείο «fichier3.txt» 123 που δημιουργείται και που περιέχει τα αποτελέσματα της κλίσης των ονομάτων είναι αυτό που θα εισαχθεί στο σύστημα UNITEX και από το οποίο θα κατασκευαστεί το ηλεκτρονικό λεξικό των κυρίων ονομάτων. Απόσπασμα του ηλεκτρονικού αρχείου παρατίθεται στο παράρτημα. Συνολικά, όπως αναφέρθηκε σε προηγούμενη ενότητα 124, δημιουργούνται τρία λεξικά. Το λεξικό των απλών λέξεων (βαπτιστικά + απλά επίθετα), το λεξικό των σύνθετων ονομάτων (λεξικό ψευδωνύμων), καθώς και ένα σύνολο πεπερασμένων αυτομάτων που λειτουργεί ως λεξικό για τις περιπτώσεις αμφισημίας. Τα λεξικά υπάρχουν σε συμπιεσμένη μορφή για λόγους οικονομίας χώρου, αλλά και χρόνου πρόσβασης. Τα αποτελέσματα που ελήφθησαν 125 ήταν τα επιθυμητά, εκτός ελαχίστων εξαιρέσεων, όπου παρουσιάστηκαν σφάλματα, που οφείλονταν σε εισαγωγή λανθασμένου τυπογραφικού χαρακτήρα από τον ανθρώπινο μελετητή. Αντικαθιστώντας με λατινικούς χαρακτήρες τους αντίστοιχους ελληνικούς, όπου ήταν απαραίτητο 126, ολοκληρώνεται επιτυχώς το στάδιο λήψης των αποτελεσμάτων της αυτόματης κλίσης. Ακολουθεί το τελευταίο στάδιο, αυτό της αναγνώρισής τους μέσα από το σύστημα αυτόματης ανάλυσης, το οποίο παρουσιάζουμε στο 5 ο κεφάλαιο, που θα καθορίσει σε μεγάλο βαθμό τον βαθμό επιτυχίας του ερευνητικού έργου. 123 Βλ. σελ. 23. Όπου «fichier3.txt», το οποιοδήποτε όνομα που δίδεται από τον μελετητή. Για παράδειγμα : «ResultNomPropres.txt». 124 Βλ. ενότητα Δείγμα των αποτελεσμάτων παραθέτουμε στο 6 ο κεφάλαιο. 126 Το «GenereFlexion» παράγει ένα αρχείο μορφής απλού κειμένου (.txt) με την ονομασία «ERR», όπου τοποθετεί όσα λήμματα παρουσιάζουν κάποιο λάθος, ως διευκόλυνση του ερευνητή. 76

77 ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ 4. Συστήματα εξαγωγής ονοματικών οντοτήτων και συνέδρια MUC (Message Understanding Conference) Αφού αναλύσαμε το θεωρητικό μας πλαίσιο και τον τρόπο δημιουργίας των ηλεκτρονικών λεξικών, στη συνέχεια θα παρουσιάσουμε τις θεωρητικές προσεγγίσεις που κρίνουμε αντιπροσωπευτικές για την αυτόματη αναγνώριση των ονοματικών οντοτήτων και κατ επέκταση των ανθρωπωνυμίων, καθώς και τις μεθόδους περιγραφής αυτών των θεωριών, τόσο των γλωσσολογικών όσο και των στατιστικών, αλλά και των υβριδικών. 4.1 Συνέδρια MUC (Message Understanding Conference) Από τα μέσα της δεκαετίας του 1960 υπήρξαν μελέτες γύρω από τα κύρια ονόματα, οι οποίες, ενώ ήταν επιστημονικές, δεν παρουσιάζονταν με οργανωμένο τρόπο, και δεν διέπονταν από συγκεκριμένους κοινούς κανόνες ώστε να είναι εφικτή η αξιολόγησή τους. Όλα άλλαξαν μέσω των συνεδρίων MUC (Message Understanding Conference), στα οποία το 1995 για πρώτη φορά έγινε αναφορά στον όρο «ονοματική οντότητα» και προτάθηκαν τρόποι εξαγωγής της. Έτσι για πρώτη φορά υπάρχει ένα συγκεκριμένο σώμα κειμένων κοινό για όλους και αντίστοιχα συγκεκριμένη μεθοδολογία για την αξιολόγηση των αποτελεσμάτων των διαφόρων συστημάτων Συστήματα προ MUC Οι έρευνες που επικεντρώνονται στα κύρια ονόματα υιοθετώντας μια υπολογιστική προσέγγιση φαίνεται να ξεκινούν το 1967 από την αγγλική γλώσσα με τον C. Borkowski (1967), ο οποίος χρησιμοποίησε ένα σώμα κειμένων από εφημερίδες και πρότεινε ένα σύστημα αυτόματης ανάλυσης που αναγνωρίζει τα κύρια ονόματα και τους τίτλους τους. Συγκέντρωσε τίτλους, όπως «κύριος», «γερουσιαστής» κτλ., σε καταλόγους και με συνδυασμούς μεταξύ αυτών δημιούργησε κανόνες αναγνώρισης τίτλων. Το επόμενο βήμα ήταν η χρήση αυτών των τίτλων με συγκεκριμένα κριτήρια για να δημιουργήσει κανόνες αναγνώρισης κυρίων ονομάτων. Το ενδιαφέρον για τα κύρια ονόματα φαίνεται να αναθερμαίνεται και μάλιστα όχι μόνο σε υπολογιστικό επίπεδο, όπως προκύπτει από τις δημοσιεύσεις του Kripke (1972) (το 77

78 βιβλίο του βασίστηκε σε διαλέξεις του ίδιου το 1970) ή του Kleiber (1981) στη γαλλική. Σταδιακά εμφανίζονται περισσότερα υπολογιστικά συστήματα που ενδιαφέρονται για την αναγνώριση των κυρίων ονομάτων, την οποία βελτιώνουν προσθέτοντας χαρακτηριστικά όπως η αναγνώριση με λέξεις-κλειδιά, και η αναγνώριση ονομάτων εταιριών 127. Το 1993 ο Coates-Stephens (1993) παρουσιάζει σε ένα άρθρο του, μέρος της διδακτορικής του διατριβής, το σύστημα FUNES, το οποίο εκμεταλλεύεται την εσωτερική δομή των ονομάτων και τις περιγραφικές πληροφορίες που τα συνοδεύουν, για να αναγνωρίσει άγνωστα κύρια ονόματα. Ουσιαστικά πραγματοποιεί μια συντακτικοσημασιολογική μελέτη βασιζόμενος στη μορφολογία τους, και το FUNES φαίνεται να αποτελεί το πιο ολοκληρωμένο σύστημα στην προ MUC εποχή MUC και ονοματικές οντότητες Το 1987 πραγματοποιείται το πρώτο από τα επτά συνέδρια MUC (MUC-1), με χορηγία του τμήματος αμύνης (έρευνας και ανάπτυξης) των Η.Π.Α. (DARPA), με στόχο τη βελτίωση των μεθόδων εξαγωγής πληροφοριών από κείμενα. Για το λόγο αυτό, στα MUC-1 (1987) και MUC-2 (1989) τα προς επεξεργασία κείμενα προέρχονταν από μηνύματα του ναυτικού στόλου. Στη συνέχεια, για τα MUC-3 (1991) και MUC-4 (1992) το σώμα κειμένων προέρχεται πλέον από κείμενα ειδήσεων σχετικά με τρομοκρατικές ενέργειες στη Λατινική Αμερική. Τα συνέδρια αποτελούν μέρος του αμερικάνικου προγράμματος TIPSTER 128, έτσι οι απαιτήσεις εξαγωγής πληροφοριών έχουν αυξηθεί σε μεγάλο βαθμό και έχει προστεθεί επίσης και η αναγνώριση στην ιαπωνική γλώσσα. Το MUC-5 (1993) πραγματεύεται κείμενα ειδήσεων στην αγγλική και ιαπωνική, τα οποία αναφέρονται σε εταιρικές κοινοπραξίες και την παραγωγή μικροηλεκτρονικών κυκλωμάτων. Το επόμενο MUC-6 είναι το πιο σημαντικό συνέδριο όσον αφορά τα κύρια ονόματα, καθώς επηρεάζει καθοριστικά τον τρόπο που θα αντιμετωπίζονται εφεξής. Πραγματοποιείται το 1995 και πραγματεύεται κείμενα της Wall Street Journal με περιεχόμενο σχετικά με την πολιτική διαδοχής εταιρικής διαχείρισης, καθώς και την διαπραγμάτευση εταιρικών διαφορών. Εδώ γεννιούνται οι ονοματικές οντότητες και μαζί με την αναγνώρισή τους απαιτείται από τους συμμετέχοντες μια πληθώρα επιπρόσθετων «καθηκόντων», ώστε να γίνουν τα συστήματα εξαγωγής πληροφοριών πιο ευέλικτα όσον αφορά τους τομείς των κειμένων που επεξεργάζονται. Για 127 Περισσότερες πληροφορίες για τα συστήματα υπάρχουν στη Friburger, N. (2002). 128 Το πρόγραμμα TIPSTER το οποίο ξεκίνησε το 1991 από την DARPA στόχευε στην βελτίωση των τεχνικών εξαγωγής πληροφορίας και στην ανάπτυξη αντίστοιχου λογισμικού. Εκτός από τα συνέδρια MUC παρείχε την αρχική χρηματοδότηση και για τα πρώτα συνέδρια TREC, τα οποία διοργανώνονται μέχρι σήμερα ( ) με χορηγία πλέον του υπουργείου εμπορίου των Η.Π.Α. Επικεντρώνονται περισσότερο σε γενικότερο IR (Information Retrieval), σε σχέση με τα MUC που ήταν προσανατολισμένα στις ονοματικές οντότητες. 78

79 να προχωρήσουν σε «βαθύτερη κατανόηση» της γλώσσας, τα συστήματα θα έπρεπε να διαθέτουν πλέον και σημασιολογικές πληροφορίες, ώστε να αντιμετωπίζονται προβλήματα αμφισημιών έως κάποιο βαθμό. Το MUC-7, το οποίο ήταν το τελευταίο της σειράς, είχε ως αντικείμενό του δημοσιογραφικά κείμενα με πληροφορίες για αεροπορικά δυστυχήματα και για εκτοξεύσεις πυραύλων, ενώ στις γλώσσες προστέθηκαν και τα κινέζικα. Από το MUC-2 ο τρόπος παρουσίασης των αποτελεσμάτων προτυποποιείται και ολοκληρώνεται στο MUC-6 με το ENAMEX (ENtity NAMe EXpression) για τις τοποθεσίες και τα κύρια ονόματα ανθρώπων και οργανισμών, τα TIMEX για εκφράσεις χρόνου και ημερομηνίες, και NUMEX για αριθμούς γενικότερα όπως νομισματικές μονάδες και ποσοστά. Ο προτεινόμενος τρόπος σήμανσης βασίζεται στο SGML 129 και προέρχεται από το TEI (Text Encoding Initiative). Η αξιολόγηση των συστημάτων βασίστηκε στη συνάρτηση F-measure 130, που προτάθηκε πρώτη φορά από τον van Rijsbergen το 1979 και η οποία προκύπτει από τη συνδυαστική σχέση ανάμεσα σε «recall» (αναγνώριση) και «precision» (ακρίβεια). Οι Grishman και Sundhaim (1996) περιγράφουν με λεπτομέρειες τα αντικείμενα και τους στόχους του κάθε συνεδρίου MUC, όπως και τον τρόπο επεξεργασίας και αξιολόγησης των δεδομένων. Μετά το MUC-6 έκαναν την εμφάνισή τους πολλά συστήματα παρουσιάζοντας αποτελέσματα στα στάνταρτ και με τη μεθοδολογία που πλέον είχε καθιερωθεί. Όπως ήταν αναμενόμενο από την υιοθέτηση διαφορετικών τεχνικών βελτίωσης, η συνάρτηση F- measure, τα recall και precision παρουσίαζαν ποικιλία. Η εκμετάλλευση των ποικίλων τεχνικών που σταδιακά εμφανίζονται και ενσωματώνονται, οδηγούν στη δημιουργία πιο ολοκληρωμένων συστημάτων. Παραθέτουμε παρακάτω επιγραμματικά κάποια από αυτά τα επιμέρους χαρακτηριστικά που επισημαίνουν οι ερευνητές, ενώ ορισμένα από τα συστήματα θα τα περιγράψουμε αναλυτικότερα στην επόμενη ενότητα. Οι Wakao T. et al. επισημαίνουν πως η μελέτη του συγκείμενου, δηλαδή των εξωτερικών ενδεικτών (=external evidence 131 ) είναι απαραίτητη για την αναγνώριση ενός κυρίου ονόματος, προσώπου ή οργανισμού, ενώ για την αναγνώριση ενός κυρίου ονόματος τόπου μπορεί να περιοριστεί η μελέτη στο πρώτο επίπεδο επεξεργασίας, δηλαδή στους εσωτερικούς ενδείκτες (=internal evidence 132 ). 129 Standard Generalized Markup Language. Πρόκειται για διεθνές πρότυπο τυποποίησης ISO για τη χρήση σήμανσης σε έγγραφα. Περισσότερα στον ιστότοπο: Βλ. ενότητα Βλ. ενότητα Βλ. ενότητα

80 Στο σύστημα του Trouilleux F. (1997) αναγνωρίζονται μόνον οι ονοματικές οντότητες που περιέχουν τουλάχιστον ένα κεφαλαίο γράμμα. Στην αρχή γίνεται σήμανση του κειμένου και στη συνέχεια εφαρμόζονται ειδικά λεξικά (προσώπων, τόπων, οργανισμών, αξιωμάτων, τίτλοι κοινωνικοί και στρατιωτικοί κτλ.), ώστε να βελτιωθεί η σήμανση αυτή. Κατόπιν, μελετάται το δεξί και αριστερό συγκείμενο των λεξικών μονάδων που ξεκινούν από κεφαλαίο για να περιοριστεί και να κατηγοριοποιηθεί το κύριο όνομα. Η επεξεργασία του αριστερού συγκείμενου γίνεται μέσω εξειδικευμένων λεξικών που επιτρέπουν την περιγραφή του κυρίου ονόματος με κεφαλαίο: «φυσικός Eugene Wigner», «αυτοκράτορας Shen Nung», «ηφαίστειο Tindaya». Για την πραγματοποίηση της επεξεργασίας του δεξιού συγκείμενου εκτός των εξειδικευμένων λεξικών, χρειάζεται επίσης μια μορφο-συντακτική σήμανση 133. Για τα κύρια ονόματα προσώπων όμως δεν γίνεται επεξεργασία του δεξιού συγκειμένου 134. Το σύστημα Exoseme των Wolinski F. et al. (1995) αποτελείται από πολλά υποσύνολα: έναν μορφολογικό αναλυτή, ένα εργαλείο για την αναγνώριση των ονοματικών οντοτήτων, έναν συντακτικό αναλυτή και ένα εργαλείο για θεματικό φιλτράρισμα. Το εργαλείο για την αναγνώριση των ονοματικών οντοτήτων λειτουργεί σε δύο βήματα: πρώτα τεμαχίζει και στη συνέχεια κατηγοριοποιεί. Η διαδικασία τεμαχισμού των κυρίων ονομάτων βασίζεται σε ένα συντακτικό αναλυτή. Η διαδικασία κατηγοριοποίησης εξαρτάται από το αν η ονοματική οντότητα είναι γνωστή ή όχι. Όταν είναι γνωστή, η κατηγοριοποίηση πραγματοποιείται με απλή αντιπαράθεση των λημμάτων του κειμένου με τα αντίστοιχα που υπάρχουν στο λεξικό και είναι ήδη κατηγοριοποιημένα. Για τις άγνωστες ονοματικές οντότητες, η κατηγοριοποίηση πραγματοποιείται μέσω κριτηρίων που βασίζονται στην εκμετάλλευση του συγκειμένου της ονοματικής οντότητας αλλά και των λεξικών μονάδων που την απαρτίζουν. Το σύστημα Exoseme αναγνωρίζει το 90% (αναγνώριση) των ονοματικών οντοτήτων που εμφανίζονται στα κείμενα του AFP 135 και τα αναγνωρίζει σωστά σε ποσοστό 85% (ακρίβεια). Σύμφωνα με τον McDonald D. D. (1996), το κάθε κύριο όνομα περνάει από τρία διαφορετικά στάδια κατά τη διαδικασία ανάλυσής του, τον περιορισμό του, την αναγνώριση και την καταγραφή του. Για κάθε βήμα της διαδικασίας ο McDonald έχει αναπτύξει ένα ξεχωριστό εργαλείο που είναι ενσωματωμένο σε ένα σύστημα που ονομάζεται Sparser. Συγκεκριμένα, ο περιορισμός πραγματοποιείται σε κειμενικές ακολουθίες που συμπεριλαμβάνουν κεφαλαία. Η αναγνώριση χωρίζεται σε δύο στάδια: (1) στην ανάλυση 133 Για την αντίστοιχη διαδικασία που ακολουθήθηκε από το ΕΜΕΛ βλ. Ιωαννίδου, Κ. (2006). 134 Βλ. Daille (2000:613). 135 Agence France Presse 80

81 της εσωτερικής δομής ώστε να αναγνωριστούν τα όρια του κυρίου ονόματος και η κατηγορία του, και (2) στην ανάλυση του συγκείμενου από τη στιγμή που το προηγούμενο στάδιο απέτυχε να καθορίσει μια μη αμφίσημη κατηγορία στο κύριο όνομα. Τέλος, η καταγραφή πραγματοποιείται με τη βοήθεια ενός σημασιολογικού μοντέλου, όπου το κύριο όνομα συσχετίζεται με έναν μοναδικό ενδείκτη που συγκεντρώνει τις διαφορετικές του ερμηνείες 136. Το αποδοτικότερο NER (Named Entity Recognition) σύστημα των συνεδρίων MUC παρουσιάστηκε το 1998 στα πλαίσια του MUC-7 από τους Mikheev, Grover και Moens (1998) με το όνομα LTG (Language Technology Group). Τα αποτελέσματα με βάση την F- measure έδιναν ποσοστό 93.39%, όταν ο ανθρώπινος ερευνητής αναγνώρισε 97.60%. Τα συστήματα που αναπτύχθηκαν για το MUC είναι περιοριστικά, αφού έχουν κατασκευαστεί για να λειτουργούν σε συγκεκριμένους τομείς, όπως είναι τα τεχνικά κείμενα με ειδικό λεξιλόγιο. Η χρήση τους σε τομείς γενικότερους και όχι τόσο κλειστούς δεν απορρίπτεται, αλλά σαφώς χρειάζονται κάποιες τροποποιήσεις για να βελτιωθεί η αποτελεσματικότητά τους. Επίσης πάντα είναι απαραίτητη η ανθρώπινη συμμετοχή σε διάφορα στάδια της λειτουργίας τους για να διορθώσει ή να περιορίσει. Για να αυτοματοποιηθεί η όλη διαδικασία της αναγνώρισης και να συγκεκριμενοποιηθεί η κατηγοριοποίηση των κυρίων ονομάτων, είναι απαραίτητη η ύπαρξη πολλών καταλόγων με trigger words (π.χ. οι λεξικές μονάδες κόλπος, ωκεανός δηλώνουν τόπο κτλ.), καθώς και λεξικών που να περιέχουν κοινές λεξικές μονάδες ή κύρια ονόματα που να βοηθούν στην κατηγοριοποίηση (κατάλογοι επιθέτων, επαγγελμάτων κτλ). Αυτή η διαδικασία χωλαίνει από τη μη πληρότητα των καταλόγων κυρίων ονομάτων. Πρέπει συνεχώς να ανανεώνονται με υλικό που θα προέρχεται από αυτοματοποιημένες μεθόδους εξαγωγής τους από το κείμενο. Άλλο στοιχείο που δυσχεραίνει τη διαδικασία κατηγοριοποίησης είναι η ιδιότητα που έχουν ορισμένα κύρια ονόματα να ανήκουν σε περισσότερες από μία κατηγορίες: για παράδειγμα η λεξική μονάδα «Ζωή» είναι βαπτιστικό στο «Ζωή Χρηστίδου» αλλά είναι και μέρος του κυρίου ονόματος που δηλώνει εταιρία στο περιοδικό «Πνευματική Ζωή» Μετά MUC εποχή μέχρι σήμερα Τα συστήματα αναγνώρισης των ονοματικών οντοτήτων που αναπτύχθηκαν στο πλαίσιο των συνεδρίων MUC δεν είναι τέλεια και ούτε επεξεργάζονται ολόκληρο το φάσμα των 136 Βλ. Daille (2000:614). 137 Βλ. Daille (2000:617). 81

82 υπαρκτών οντοτήτων έτσι το επιστημονικό ενδιαφέρον εξακολουθεί να παραμένει ισχυρό, όπως επίσης και το ενδιαφέρον της DARPA, γεγονός που οδηγεί στον προγραμματισμό περισσότερων παρόμοιων συνεδρίων. Στα αμέσως επόμενα χρόνια διοργανώνονται συνέδρια όπως τα MET, IREX, CoNLL, ACE, τα οποία πραγματεύονται κείμενα διαφορετικής θεματικής από τα αντίστοιχα του MUC καλύπτοντας συγχρόνως περισσότερες γλώσσες. Το πρώτο MET (Multilingual Entity Task Conference), που επίσης πραγματοποιείται με χορηγία της DARPA, καθώς αποσκοπεί στην ανάπτυξη του TIPSTER, ξεκινάει το 1996 προσθέτοντας υλικό για την ισπανική, την ιαπωνική και την κινέζικη γλώσσα. Οι οδηγίες προς τους συμμετέχοντες, όπως και η μεθοδολογία είναι κοινές με του MUC. Το δεύτερο και τελευταίο συνέδριο MET γίνεται το 1998 και ουσιαστικά πρόκειται για εξέλιξη του πρώτου, ενώ προτείνεται η αναγνώριση μιας επιπλέον κατηγορίας οντοτήτων, των artifacts. Το 1998 διοργανώνεται και το συνέδριο IREX (Information Retrieval and Extraction Exercise) που έχει ως αποκλειστικό αντικείμενο έρευνας την ιαπωνική. Η επόμενη δεκαετία έχει να επιδείξει πλούσια δραστηριότητα στο χώρο της ανάκτησης πληροφορίας (Information Retrieval). Τη σκυτάλη της χρηματοδότησης, μετά την DARPA, έχει πάρει το NIST (National Institute of Standards and Technology), με την οργάνωση αρχικά των συνεδρίων ACE (Automatic Content Extraction, ), όπου μελετάται και ο προφορικός λόγος εκτός από τον γραπτό, και στη συνέχεια των συνεδρίων TAC (Text Analysis Conference, 2009-). Φυσικά το ακαδημαϊκό ενδιαφέρον δεν περιορίστηκε μόνο στην κατασκευή συστημάτων για τους παραπάνω συγκεκριμένους σκοπούς. Πλέον η επιστήμη της υπολογιστικής γλωσσολογίας έχει ωριμάσει και πραγματεύεται ποικίλα θέματα, όπως φαίνεται ξεκάθαρα από τα συνέδρια CoNLL (Conference on Natural Language Learning), τα οποία από το 1997 ως σήμερα διοργανώνει το SIGNLL (Special Interest Group on Natural Language Learning) 138. Πρόκειται για ένα τμήμα της διεθνούς επιστημονικής και επαγγελματικής κοινότητας ACL (Association for Computational Linguistics) 139. Οι χρονιές που μας ενδιαφέρουν άμεσα είναι το 2002 και το , που έχουν ως αντικείμενο μελέτης τις ονοματικές οντότητες, ενώ η τάση της εποχής δείχνει μια προτίμηση στις στατιστικές μεθόδους ανάλυσης και επεξεργασίας των φυσικών γλωσσών. Το αποδοτικότερο σύστημα του CoNLL-2003 ονομάζεται FIJZ, το παρουσίασαν οι Florian, Ittycheriah, Jing και Το 2002 οι γλώσσες-στόχοι για αναγνώριση ήταν τα ισπανικά και τα ολλανδικά, ενώ το 2003 τα αγγλικά και γερμανικά. 82

83 Zhang 141 και το ποσοστό επιτυχούς αναγνώρισης έφτασε το 88.76%. Το χαμηλότερο ποσοστό σε σχέση με το αντίστοιχο, υβριδικό, LTG των Mikheev et al., από την MUC-7, οφείλεται στην διαφορετική προσέγγιση, αφού πρόκειται για σύστημα εποπτευόμενης μάθησης (supervised learning). Τα συνέδρια που διοργανώνονται κάθε χρόνο από εκπαιδευτικά ιδρύματα είναι πολλά και επιτρέπουν την εξειδίκευση, όπως φαίνεται από το πρόγραμμα των ετήσιων διεθνών συνεδρίων International Conference on Lexis and Grammar 142 που σταδιακά άλλαξε την παραδοσιακά γλωσσολογική δομή του, ώστε να λειτουργεί πλέον υποστηρικτικά στην υπολογιστική γλωσσολογία Συνάρτηση F (F-measure 144 ) ως μέσο αξιολόγησης των συστημάτων Όπως αναφέραμε νωρίτερα, η πληθώρα των συστημάτων και διαφορετικών προσεγγίσεων δημιούργησε την ανάγκη καθιέρωσης μιας κοινής μεθοδολογίας για την αξιολόγηση των αποτελεσμάτων τους. Η Chinchor (1992) σημειώνει πως για να αξιολογηθούν τα συστήματα, υπάρχουν τέσσερις διαφορετικές μετρήσιμες παράμετροι, οι recall, precision, over-generation, fallout, καθώς και μια πέμπτη, η συνάρτηση F (F-measure), η οποία λειτουργεί συγκεντρωτικά. Η αξιολόγηση βασίζεται κυρίως στις δύο πρώτες, δηλαδή στην αναγνώριση (recall) και στην ακρίβεια (precision), από τη συνδυαστική σχέση των οποίων προκύπτει η F-measure. Η αναγνώριση είναι το ποσοστό των σωστά αναγνωρισμένων οντοτήτων σε σχέση με όσες υπάρχουν συνολικά στο κείμενο, ενώ η ακρίβεια το ποσοστό αυτών που σωστά αναγνωρίστηκε από το σύνολο των όσων προηγουμένως ανακτήθηκαν. Η συνάρτηση F είναι η αρμονική συνάρτηση μεταξύ των δύο, αφού συνήθως όταν η μία ανεβαίνει, η άλλη μειώνεται και το αντίθετο. Όσο πιο υψηλά είναι τα ποσοστά της αναγνώρισης και της ακρίβειας, τόσο πιο υψηλή είναι και η συνάρτηση F, που λειτουργεί σαν μέσος όρος των δύο. Με τον παρακάτω τύπο αποτυπώνεται και γραφικά η σχέση αυτών των συνιστωσών μεταξύ τους. Όπου R είναι η αναγνώριση, όπου P είναι η ακρίβεια και όπου β είναι το ποσοστό βαρύτητας που λαμβάνει η αναγνώριση σε σχέση με την ακρίβεια. 141 Florian, R., Ittycheriah, A., Jing, H. and Zhang, T. (2003) Named Entity Recognition through Classifier Combination. Proceedings of CoNLL Edmonton, Canada Για μια εξαιρετική εποπτική μελέτη για τα συστήματα NERC μέχρι το 2007 βλ. Nadeau & Sekine (2007). 144 Βλ. van Rijsbergen (1979). Τη συναντάμε επίσης και ως F-1 score ή F-score, ιδιαίτερα στον τομέα της στατιστικής. 83

84 Σχήμα 4.1, συνάρτηση F Από το σχήμα 4.1, όπου παρουσιάζεται η συνάρτηση F, γίνεται αντιληπτό πως ανάλογα με τα αποτελέσματα που επιδιώκει ένα σύστημα, αλλάζοντας την τιμή του β δίνεται διαφορετική βαρύτητα είτε στην αναγνώριση είτε στην ακρίβεια. Έτσι όταν το β ισούται με 1, αναγνώριση και ακρίβεια αντιμετωπίζονται ισόνομα. Όταν η παράμετρος β ισούται με 0,5, η ακρίβεια έχει τη μισή σημασία της αναγνώρισης, ενώ, αν το β ισούται με 2,0, η ακρίβεια έχει διπλάσια σημασία από την αναγνώριση. Για την αξιολόγηση των συστημάτων ανάκτησης ονοματικών οντοτήτων η τιμή του β καθορίζεται στη μονάδα (1). Η συνάρτηση F διατηρείται μέχρι σήμερα ως το μέσο αξιολόγησης των συστημάτων επεξεργασίας φυσικών γλωσσών, παρόλο που πρόσφατα είχε υπάρξει μια σύντομη περίοδος αμφισβήτησής της από ορισμένους ερευνητές Διαφορετικές προσεγγίσεις στην ανάκτηση ονοματικών οντοτήτων Οι ομάδες εργασίας και ανάπτυξης των συστημάτων επεξεργασίας φυσικών γλωσσών μέσα από τους διαγωνισμούς στους οποίους συμμετείχαν, διαμόρφωσαν τρεις κυρίαρχες μεθοδολογικές προσεγγίσεις. Οι πρώτες που εμφανίστηκαν χρονικά ήταν οι γλωσσολογικές μέθοδοι, και ακολούθησαν σχεδόν αμέσως οι στατιστικές μέθοδοι και ακολούθως οι υβριδικές. Παρουσίαση των διαφορετικών χαρακτηριστικών τους συναντάμε σε αρκετές μελέτες, όπως των Sekine & Eriguchi (2000), Daille & Morin (2000), Mansouri et al. (2008). Οι γλωσσολογικές μέθοδοι κάνουν χρήση κανόνων, τους οποίους δημιουργεί ο ερευνητής λαμβάνοντας υπόψη τα εσωτερικά και εξωτερικά χαρακτηριστικά των ονοματικών οντοτήτων. Περιλαμβάνουν γραμματικές, συντακτικές, σημασιολογικές και μορφολογικές πληροφορίες, οι οποίες σε συνδυασμό με λεξικά κυρίων ονομάτων παρουσιάζουν μεγαλύτερη ακρίβεια από τις άλλες μεθόδους, αλλά συνήθως λίγο μικρότερη 145 Αναρτήσεις σε blogs περιεχομένου NLP από σημαντικούς ερευνητές. Περισσότερο reflections (2006-7) 84

85 αναγνώριση. Όπως παρατηρεί η Daille (2000:610), «η αναγνώριση ή όχι μιας ονοματικής οντότητας στις γλωσσολογικές θεωρίες εξαρτάται από τέσσερις παραμέτρους: (1) 146 Από τη χρήση ή (2) μη ενός λεξικού, και (3) από τη χρήση της εσωτερικής δομής του, και τέλος, (4) από την ανάλυση του συγκειμένου στο οποίο εμφανίζεται». Τα συστήματα που βασίζονται σε γλωσσολογικές θεωρίες είναι πιο εύρωστα, αλλά απαιτείται μεγάλο χρονικό διάστημα για την προετοιμασία των κανόνων και λεξικών από ομάδα γλωσσολόγων, ειδικά αν επιχειρηθεί να εφαρμοστούν σε κάποιο εξειδικευμένο είδος κειμένων, γεγονός που μειώνει την ευελιξία τους. Φυσικά η λεπτομερής γλωσσολογική περιγραφή των κανόνων που περιέχουν επιτρέπει την αναγνώριση μεγάλου ποσοστού οντοτήτων, τις οποίες αδυνατούν να ανακτήσουν τα συστήματα μηχανικής μάθησης, λόγω της πολυπλοκότητάς τους. Οι στατιστικές μέθοδοι, ή αλλιώς μέθοδοι μηχανικής μάθησης, χωρίζονται σε δύο ευρύτερες κατηγορίες, με κριτήριο την ύπαρξη ή μη ανθρώπινης εποπτείας σε κάποιο στάδιο της λειτουργίας τους. Τα συστήματα εποπτευόμενης μάθησης βασίζονται σε κείμενα τα οποία έχουν ήδη υποστεί επεξεργασία, όπου δηλαδή έχουν σημανθεί με το χέρι οι ονοματικές οντότητες με ετικέτες κατηγοριών για να λειτουργούν ως εκπαιδευτικά δεδομένα. Αντίθετα, τα συστήματα που λειτουργούν χωρίς εποπτεία και δεν διαθέτουν την προσημασμένη πληροφορία προχωρούν σε κατηγοριοποίηση των οντοτήτων με βάση τα κοινά χαρακτηριστικά τους. Η επιπλέον διαδικασία σήμανσης που περιλαμβάνουν τα συστήματα εποπτευόμενης μάθησης τα καθιστά πολύ πιο αποτελεσματικά, αλλά σαφώς απαιτείται και περισσότερος χρόνος για την προετοιμασία τους. Αναλυτικότερα, τα στατιστικά συστήματα αναζητούν σχέσεις και μοτίβα στο εκπαιδευτικό κείμενο που θα οδηγήσουν στη δημιουργία ενός μοντέλου ανάκτησης, το οποίο θα ορίζεται από στατιστικές μεθόδους, αλλά και αλγόριθμους. Έτσι με βάση αυτούς τους αλγόριθμους επιχειρούν να κατηγοριοποιήσουν τις οντότητες που ανακτούν σε κατηγορίες όπως τοποθεσία, πρόσωπο, χρονική έκφραση, εταιρία. Φαινομενικά ο τρόπος λειτουργίας τους δείχνει πανομοιότυπος, όμως η κάθε υλοποίηση είναι ριζικά διαφορετική, γεγονός που αιτιολογεί τις μεγάλες αποκλίσεις στα ποσοστά αποτελεσματικότητάς τους. Οι Sekine & Eriguchi (2000) αναφέρουν πως κάποια συστήματα εποπτευόμενης μάθησης χρησιμοποιούν μια μέθοδο η οποία «οδηγείται από το λάθος» (error driven method), όπου μοτίβα φτιαγμένα με το χέρι εφαρμόστηκαν στα προσημασμένα εκπαιδευτικά δεδομένα και το σύστημα μάθαινε από τα λάθη του. Άλλα συστήματα μαθαίνουν, από τα εκπαιδευτικά δεδομένα, μοτίβα για ένα ευρύ φάσμα πληροφοριών, όπως η σύνταξη, η λειτουργία και τα όρια των ρημάτων. Υπάρχουν, τέλος, τα συστήματα που χρησιμοποιούν το κοντινό 146 Η μετάφραση, όπως και η προσθήκη της αρίθμησης, είναι δική μας. 85

86 συγκείμενο των προσημασμένων δεδομένων σε συνδυασμό με αρκετά φίλτρα για να «εκμαιεύσουν» πιο ακριβή μοτίβα. Επομένως, στο σύνολό τους, για να δημιουργήσουν ένα στατιστικό μοντέλο, χρειάζονται προσημασμένο κείμενο, το οποίο επιβάλλεται να είναι εκτενές για να ανατροφοδοτήσει με μεγάλο όγκο πληροφοριών το σύστημα, ώστε αυτό να μπορέσει να επιτύχει καλά αποτελέσματα αναγνώρισης. Όσον αφορά τα τελείως αυτοματοποιημένα συστήματα, ο μηχανισμός μάθησης βασίζεται σε δέντρα αποφάσεων (decision trees) 147, ή σε μοντέλα μέγιστης εντροπίας (Maximum Entropy models) 148 ή σε κρυφά Μαρκοβιανά μοντέλα (HMM=Hidden Markov Model) 149. Επειδή όμως ακόμη και τα τελείως αυτοματοποιημένα συστήματα δεν λειτουργούν αποδοτικά στην ανάκτηση ονοματικών οντοτήτων χωρίς ένα είδος εποπτείας, δεν είναι πολλές οι ερευνητικές ομάδες που τα χρησιμοποιούν. Τα υβριδικά συστήματα επιχειρούν να συνδυάσουν τα καλύτερα χαρακτηριστικά των δύο προηγούμενων, δοκιμάζοντας λεξικά και κανόνες σε παράλληλη λειτουργία με μεθόδους μηχανικής μάθησης, όπως τα κρυφά Μαρκοβιανά μοντέλα και τα μοντέλα μέγιστης εντροπίας. Τα αποτελέσματά τους εμφανίζονται ως πιο αποδοτικά συγκριτικά με τις προηγούμενες προσεγγίσεις, αλλά φυσικά εξαιτίας της «προέλευσής» τους από τα γλωσσολογικά θεωρήματα και τη χρήση κανόνων, παρουσιάζουν μειωμένη ευελιξία κατά την αλλαγή κειμενικής θεματικής. Οι ίδιες δυσκολίες που συναντά ένας ερευνητής μελετώντας ένα είδος κειμένου, το οποίο βρίσκεται σχετικά μακριά από το γνωστικό του πεδίο, και οι ιδιαιτερότητες που το διέπουν, είναι αυτές που δυσχεραίνουν και ένα σύστημα NLP. Ανεξάρτητα από το πόσο αποτελεσματικό είναι και ανεξάρτητα από τη μέθοδο στην οποία βασίζεται, είναι απαραίτητο να υποστεί κάποια επεξεργασία πριν εφαρμοστεί σε ένα νέο πεδίο. Χαρακτηριστικό είναι το γεγονός πως τα συστήματα που συμμετείχαν στα συνέδρια MUC παρουσίασαν μεγαλύτερη συνάρτηση F στο MUC-6 σε σχέση με το MUC-7. Δεν πρόκειται για παράδοξο, αλλά αιτιολογείται σε μεγάλο βαθμό από το είδος του διαπραγματευόμενου κειμένου. Το σώμα κειμένων στο MUC-6, που πραγματεύεται θέματα εταιρικής πολιτικής και εταιρικών διαφορών, είναι πιο «περιορισμένο» και συγκεκριμένο όσον αφορά την ποικιλότητα σε σχέση με το αντίστοιχο του MUC-7, που δημιουργήθηκε από ειδησεογραφικά κείμενα τα οποία περιγράφουν αεροπορικά δυστυχήματα και τρομοκρατικές ενέργειες. 147 Βλ. Orphanos G. et al. (1999) και Schmid, H. (2010). 148 Βλ. Schmid, H. (2010). 149 Βλ. Church, K. (1988), Rabiner., L. (1989) και McCallum, A. (2000). 86

87 Στη συνέχεια του κεφαλαίου θα προχωρήσουμε στην παρουσίαση των πιο αντιπροσωπευτικών συστημάτων κάθε κατηγορίας, με κριτήριο τη διαφορετικότητά τους και την καινοτομία που το καθένα εμφάνισε. Η καταγραφή των χαρακτηριστικών τους δεν θα αναπτυχθεί στον ίδιο βαθμό για όλες τις μεθόδους, καθώς αισθανόμαστε αφενός πως δεν διαθέτουμε την επιστημονική κατάρτιση για να εξηγήσουμε επαρκώς τα μαθηματικά μοντέλα των στατιστικών θεωριών, και αφετέρου, δεδομένου πως η μεθοδολογία μας προέρχεται από τα γλωσσολογικά μοντέλα, θα επιχειρήσουμε να εστιάσουμε περισσότερο σε πρακτικές που επηρέασαν την παρούσα έρευνα. Προσαρμόσαμε τα παραδείγματα των μεθόδων στα ελληνικά, όπου αυτό ήταν εφικτό, ενώ διατηρήσαμε τα αρχικά ξενικά στα υπόλοιπα Γλωσσολογικές μέθοδοι Το σύστημα των Paik et al. Σύμφωνα με τους Paik et al. (1994:309) τα κύρια ονόματα ευθύνονται για ένα σημαντικό ποσοστό μη αναγνωρισμένων λέξεων στα συστήματα επεξεργασίας των φυσικών γλωσσών. Όμως αποτελούν και ένα από τα πλέον ευδιάκριτα κριτήρια κατηγοριοποίησης κειμένων, καθώς έχοντας ως βάση τα κύρια ονόματα και ιδιαίτερα αυτά των εταιριών, διευκολύνεται σε μεγάλο βαθμό η κατηγοριοποίηση κειμένων. Στο κεφάλαιο αναφερθήκαμε στην κατηγοριοποίηση ονοματικών οντοτήτων που προτείνει η συγκεκριμένη ερευνητική ομάδα, κατατάσσοντάς τες σε εννέα κύριες ενότητες, οι οποίες χωρίζονται περαιτέρω σε ακόμη τριάντα. Σύμφωνα με την προσέγγισή τους, τα βήματα για τη σωστή μορφολογική ανάκτηση και κατηγοριοποίηση, συμπεριλαμβανομένου και του συγκειμένου, είναι τα εξής: 1. Σύγκριση με καταλόγους γνωστών προθημάτων και επιθημάτων για κάθε κατηγορία κυρίων ονομάτων. 2. Έλεγχος σε βάσεις δεδομένων με παρατσούκλια, όπου περιέχονται εναλλακτικά ονόματα για ορισμένα κύρια ονόματα. 3. Έλεγχος σε βάση γνώσεων (Knowledge base) κυρίων ονομάτων και εξαγωγή των κατηγοριών τους από online λεξικούς πόρους (π.χ. World Factbase, Gazetteer), και τέλος 4. Εφαρμογή κριτηρίων συγκειμένου, τα οποία αναπτύχθηκαν μετά από ανάλυση του συγκειμένου που προδίδει την παρουσία κυρίου ονόματος σε ένα σώμα κειμένου. Το σύστημα των Paik et al. δεν λειτουργεί με προκατασκευασμένους καταλόγους λημμάτων. Όταν όμως δεν υπάρχει ταυτοποίηση με προθήματα, επιθήματα ή δεν υπάρχουν 87

88 στοιχεία στο συγκείμενο για την ταυτότητα ενός κυρίου ονόματος, τότε γίνονται δοκιμές με καταλόγους βαπτιστικών που ενσωματώνονται σε ένα ειδικό λεξικό. Στόχος αυτής της επιπλέον μεθόδου αποσαφήνισης είναι να επιτυγχάνεται διόρθωση στα λάθη κατηγοριοποίησης των κυρίων ονομάτων προσώπων 150. Το σύστημα Exoseme των Wolinski et al. Το σύστημα των Wolinski et al. (1995) ονομάζεται Exoseme και δημιουργήθηκε με σκοπό να αναλύει συνεχώς και αδιάκοπα την οικονομική ροή του Agence France Presse (AFP). Τα περιεχόμενα του τελευταίου είναι γραμμένα με δημοσιογραφικό τρόπο και το Exoseme τροφοδοτεί διάφορους χρήστες με πληροφορίες ανάλογα με τις ανάγκες του καθενός, οι οποίες κυμαίνονται από παρακολούθηση του ανταγωνισμού έως αποτελέσματα συγχώνευσης εταιριών. Είναι απαραίτητο, λοιπόν, να γίνεται ταχύτατο «φιλτράρισμα» των κειμένων και να επισημαίνονται ορισμένες προτάσεις, ώστε να είναι βελτιστοποιημένες για γρήγορο διάβασμα. Το σύστημα αποτελείται από υποεργαλεία και περιλαμβάνει ένα μορφολογικό αναλυτή, ένα συντακτικό αναλυτή, ένα σημασιολογικό αναλυτή, ένα εργαλείο κυρίων ονομάτων και ένα εργαλείο «φιλτραρίσματος». Το εργαλείο των κυρίων ονομάτων έχει διττό ρόλο: α) να τεμαχίζει και β) να κατηγοριοποιεί τα κύρια ονόματα. Το πρώτο το επιχειρεί κατά τη διαδικασία της μορφολογικής ανάλυσης και το δεύτερο κατά τη διαδικασία της σημασιολογικής. Να σημειωθεί ότι ακολουθούνται διαφορετικές τεχνικές για τις δύο λειτουργίες, ανάλογα με τον αν το κύριο όνομα είναι γνωστό ή άγνωστο. Τέλος, επικοινωνεί με το εργαλείο «φιλτραρίσματος» και διοχετεύει κάποιες επιπρόσθετες πληροφορίες που είναι απαραίτητες, πριν τροφοδοτηθεί το κείμενο στο χρήστη. Το ποσοστό των κυρίων ονομάτων στα κείμενα του AFP αγγίζει περίπου το ένα τρίτο των ουσιαστικών και οι μισές από αυτές τις λέξεις δεν ανήκουν στο γαλλικό λεξιλόγιο. Ο τεμαχισμός των κυρίων ονομάτων και η εύρεση των «ορίων» τους, «ανακουφίζει» σε μεγάλο βαθμό τον συντακτικό αναλυτή, ειδικότερα στις περιπτώσεις των πολυλεκτικών κυρίων ονομάτων που περιέχουν γραμματικούς ενδείκτες, όπως είναι οι προθέσεις ή τα σημεία στίξης, μειώνοντας τον αριθμό των άσκοπων αναλύσεων 151. Τον τεμαχισμό ακολουθεί η κατηγοριοποίησή τους, η οποία είναι απαραίτητη ώστε να είναι ομαλή η λειτουργία του σημασιολογικού αναλυτή. Οι Wolinski et al. υποστηρίζουν ότι η ίδια η φύση των κυρίων ονομάτων συνεισφέρει στην κατανόηση του είδους του κειμένου που πραγματευόμαστε. Ο σημασιολογικός αναλυτής 150 Βλ. Paik (1994:312). 151 Βλ. Wolinski (1995:23). 88

89 πρέπει να είναι σε θέση να χρησιμοποιεί τις κατηγορίες των κυρίων ονομάτων ως σημασιολογικούς περιορισμούς. Γίνεται χρήση ενός συστήματος αναπαράστασης παρόμοιου με τα conceptual graphs, των οποίων η ευελιξία επιτρέπει να έχουν εκφραστικότητα, να επαναχρησιμοποιούνται και να έχουν δυνατότητες περαιτέρω ανάπτυξης. Τα conceptual graphes επιτρέπουν σε ετερογενή, αλλά απαραίτητα, στοιχεία να αποθηκευτούν στη μνήμη και να χρησιμοποιηθούν στην επεξεργασία των κυρίων ονομάτων. Το πρώτο βήμα της επεξεργασίας των λημμάτων περιλαμβάνει τη σήμανση των ονοματικών οντοτήτων που μας ενδιαφέρουν με επιπλέον πληροφορίες. Προστίθενται σημασιολογικά χαρακτηριστικά και αποθηκεύονται σε βάσεις δεδομένων που έχουν την εξής μορφή: «New» + «York» PN (proper noun) location Στη συνέχεια αναγνωρίζονται στο κείμενο με απλές τεχνικές pattern matching. Το σύστημα περιλαμβάνει επίσης ένα εργαλείο/λεξικό με «εναλλακτικές» μορφές των λημμάτων. Αυτή η τεχνική αναπτύχθηκε στο σύστημα NameFinder του Hayes (1994), και στον όρο «εναλλακτικές» λεξικές μονάδες περιλαμβάνει διαφορετικές μορφές με τις οποίες είναι δυνατό να εμφανιστούν οι ονοματικές οντότητες. Για να αποφευχθεί η άσκοπη καταλογογράφηση όλων των απαραίτητων κυρίων ονομάτων, οι μορφές των «συνώνυμων» κυρίων ονομάτων ομαδοποιούνται γύρω από το λήμμα με τη μορφή που αυτό εισάγεται στο λεξικό, στο οποίο προστίθενται τα σημασιολογικά χαρακτηριστικά. Έτσι συνδυάζοντας τις επιπλέον πληροφορίες που αποκτά το κύριο όνομα με το συγκείμενο στο οποίο απαντά, σε ορισμένες περιπτώσεις επιλύει κάποιες αμφισημίες και γίνεται επιλογή μεταξύ των πολλών «εναλλακτικών» μορφών. Εκτός των διαφόρων μορφών κυρίων ονομάτων που πρέπει να υπάρχουν στο παραπάνω λεξικό, κρίνεται επιβεβλημένη και η ύπαρξη πολλών σημασιολογικών χαρακτηριστικών, ώστε να είναι εφικτή η χρήση και κάποιων «αρνητικών» χαρακτηριστικών και μέσω της ατόπου απαγωγής να είναι αποτελεσματικότερη η αναγνώριση 152. Εκτός του λεξικού των ονομάτων, η προσέγγιση αυτή κάνει χρήση και τεχνικών αναγνώρισης των άγνωστων κυρίων ονομάτων με κριτήρια κυρίως μορφολογικής αναγνώρισης. Ορισμένα κύρια ονόματα κατηγοριοποιούνται από την εμφάνισή τους και μόνο, όπως όταν υπάρχει γνωστό βαπτιστικό, το οποίο ακολουθείται από άγνωστη λεξική μονάδα 152 Βλ. Wolinski (1995:26). 89

90 που ξεκινά με κεφαλαίο. Τότε πρόκειται για κύριο όνομα προσώπου (Γιάννης Κυριακού). Ορισμένες άλλες κατηγορίες κυρίων ονομάτων δέχονται παραδοσιακές προεκτάσεις που είναι δυνατό να εντοπιστούν. Για παράδειγμα, όταν υπάρχει γνωστό κύριο όνομα ανθρώπου που ακολουθείται από τίτλο που ταιριάζει σε άνθρωπο, τότε σίγουρα πρόκειται για άνθρωπο (Kennedy Jr). Αντίστοιχα η ονοματική οντότητα ανήκει σε εταιρία, όταν υπάρχει γνωστό κύριο όνομα ανθρώπου που ακολουθείται από δραστηριότητα εταιρίας (Bernard Tapie Finance). Όμως, ακόμη και αυτοί οι κανόνες δεν είναι απολύτως ορθοί ( για παράδειγμα το «Guy Laroche» είναι εταιρία, παρόλο που φαίνεται για πρόσωπο), αλλά δίνουν σωστά αποτελέσματα στην πλειονότητα των περιπτώσεων. Ένα κύριο όνομα, όμως, δεν μπορεί πάντα να κατηγοριοποιείται άμεσα από την εμφάνισή του και μόνον. Οι Wolinski et al. αναρωτιούνται για το ποιος θα μπορούσε να αποφασίσει με βεβαιότητα ότι το «Peskine» είναι ανθρωπωνύμιο, το «Fibaly» εταιρία και το «Gisenyi» τοπωνύμιο από την εμφάνισή τους και μόνο. Ωστόσο, πολύ συχνά στο κείμενο περιλαμβάνονται στοιχεία που επιτρέπουν σε κάποιον να συμπεράνει την κατηγορία ενός κυρίου ονόματος. Για το λόγο αυτό επιβάλλεται η χρήση κανόνων που να χρησιμοποιούν το συγκείμενο για να εκμεταλλευθούν αυτά τα στοιχεία και να υπάρξουν καλύτερα αποτελέσματα. Για να λειτουργήσουν σωστά αυτοί οι κανόνες, θα πρέπει και πάλι να προστεθούν σημασιολογικά χαρακτηριστικά σε ορισμένες λεξικές μονάδες της βάσης δεδομένων. Το λήμμα «mayor», για παράδειγμα, λαμβάνει δύο τέτοια χαρακτηριστικά: 1) παράθεση ανθρώπινου όντος 153 (Chirac, mayor of the town), και 2) συμπλήρωμα τοπωνυμίου 154 (the mayor of Royan). Οι Wolinski et al. προσθέτουν ακόμη ότι το συγκείμενο ενός κύριου ονόματος δεν δίνει απαραίτητα και τη δυνατότητα συναγωγής της κατηγορίας του. Για παράδειγμα, συχνά χρησιμοποιείται ένα μέρος μόνον του κυρίου ονόματος και όχι ολόκληρο στη συνέχεια του κειμένου για οικονομία λόγου. Η απόδοση του συστήματος που περιγράψαμε ανέρχεται στο 90% όσον αφορά την αναγνώριση των κυρίων ονομάτων των κειμένων του AFP, και στο 85% όσον αφορά τη σωστή κατηγοριοποίηση αυτών. Οι Wolinski et al. υποστηρίζουν πως αυτή η επίδοση μπορεί να βελτιωθεί με μια καλύτερη διαχείριση του συγκειμένου, τόσο σε γραμματικό, όσο και σε σημασιολογικό επίπεδο. 153 human-being-apposition. 154 location-name-complement. 90

91 Το σύστημα LaSIE των Wakao et al. Οι Wakao et al. (1996:418), συμφωνούν με την πλειονότητα των ερευνητών στο θέμα της χρησιμότητας της ανάλυσης των κυρίων ονομάτων, αναφέροντας πως για κάποιες εφαρμογές όπως είναι η εξαγωγή πληροφοριών (IE), η σωστή διαχείριση των κυρίων ονομάτων είναι προϋπόθεση για την επιτυχημένη πραγματοποίηση διαφόρων άλλων ενεργειών. Το σύστημα LaSIE που κατασκεύασαν εξάγει ονοματικές οντότητες, όπως αυτές έχουν καθοριστεί από τα συνέδρια MUC-6. Συμπεριλαμβάνουν οργανισμούς, πρόσωπα, τοποθεσίες, εκφράσεις χρόνου, ποσοστιαίες εκφράσεις και εκφράσεις που περιγράφουν χρηματικά ποσά. Οι τρεις πρώτες κατηγορίες θεωρούνται κύρια ονόματα, η τέταρτη περιλαμβάνει εκφράσεις που κάποιοι γλωσσολόγοι θα τις κατηγοριοποιούσαν ως κύρια ονόματα και κάποιοι όχι, ενώ οι δύο τελευταίες κατηγορίες ονοματικών οντοτήτων δεν θεωρούνται κύρια ονόματα. Η προσέγγισή τους στην αναγνώριση των κυρίων ονομάτων είναι ετερογενής. Για να επιτύχει το στόχο του, το σύστημα εκμεταλλεύεται μορφολογικές, συντακτικές, σημασιολογικές πληροφορίες, καθώς και πληροφορίες επιπέδου κειμένου και «γνώσης του κόσμου» (world knowledge). Κατά τη διαδικασία αξιολόγησης των υποσυστημάτων του εργαλείου LaSIE, τα οποία εφαρμόζονται σε κάθε κατηγορία κυρίων ονομάτων ξεχωριστά, καταλήγουν στα ακόλουθα συμπεράσματα: (1) υποστηρίζουν ως ορθές τις παρατηρήσεις του McDonald (1993) πως και τα εξωτερικά και τα εσωτερικά στοιχεία είναι ουσιώδη για την επίτευξη υψηλού ποσοστού ακρίβειας και αναγνώρισης για την ανάκτηση και κατηγοριοποίηση. Εξετάζουν όχι μόνο την τυπογραφική ακολουθία που συνθέτει το κύριο όνομα, αλλά χρησιμοποιούν και άλλες πληροφορίες που συναντώνται στο κείμενο. (2) δείχνουν ότι στην ετερογενή τους προσέγγιση όλα τα στοιχεία συμβάλλουν σημαντικά. (3) δείχνουν ότι δεν «επωφελούνται» εξίσου όλες οι κατηγορίες κυρίων ονομάτων από τις διεργασίες που επιτελούνται από τα διαφορετικά υποσυστήματα του εργαλείου τους. Στη συγκεκριμένη μέθοδο, τα κύρια ονόματα εταιριών είναι αυτά που ευνοούνται περισσότερο από τη χρήση εξωτερικών στοιχείων. Οι Wakao et al. περιγράφουν ότι το LaSIE σχεδιάστηκε ως ένα ερευνητικό σύστημα εξαγωγής πληροφοριών γενικού σκοπού (general purpose IE research system), το οποίο αρχικά στόχευε στην επίλυση των εργασιών που έθεσε το έκτο συνέδριο MUC, αλλά δεν περιοριζόταν μόνο σ αυτήν. Οι εργασίες είχαν ως αντικείμενο την αναγνώριση ονοματικών 91

92 οντοτήτων, την επίλυση του συγκειμένου τους, την κατηγοριοποίηση με βάση τις τυποποιημένες φόρμες, και το scenario template filling. Επιπλέον, το σύστημα μπορεί να παραγάγει μια σύντομη αναφορά φυσικής γλώσσας για την κάθε περίπτωση οντότητας που συναντά στο κείμενο. Όλες οι παραπάνω ενέργειες πραγματοποιούνται με την κατασκευή μιας πλούσιας σε πληροφορίες έκδοσης του κειμένου, του κειμένου-μοντέλου από όπου προέρχονται όλα τα αποτελέσματα. Το LaSIE επεξεργάζεται το κείμενο σε επίπεδο πρότασης και βασίζεται σε τρία βασικά στάδια επεξεργασίας: λεξιλογική προεπεξεργασία, συντακτική ανάλυση (parsing), ανάλυση του λόγου (discourse interpretation). Στο πρώτο στάδιο πραγματοποιείται η σήμανση του κειμένου, κατά το οποίο οι άγνωστες λεξικές μονάδες που ξεκινούν με κεφαλαίο γράμμα θεωρούνται ως κύρια ονόματα. Είναι σημαντικές για την αυτόματη ανάλυση οι τεχνικές που χρησιμοποιούνται σε αυτό το σημείο. Πριν γίνει χρήση του συντακτικού αναλυτή, προηγείται απόπειρα αναγνώρισης και κατηγοριοποίησης ακολουθιών κυρίων ονομάτων. Για την ταυτοποίηση του κάθε λεκτικού τύπου που συναντάται, γίνεται σύγκριση με ήδη υπάρχοντες καταλόγους κυρίων ονομάτων (εταιριών, τοπωνυμίων, ανθρωπωνυμίων, τίτλων, ενδεικτών). Σε αυτό το στάδιο της ανάλυσης, εκτός από την ταυτοποίηση των ονοματικών προτάσεων, χρησιμοποιείται και μία ακόμη τεχνική. Αυτή βασίζεται στις λεξικές μονάδες που υπάρχουν μέσα σε κάποια ακολουθία κυρίων ονομάτων και που μπορούν να λειτουργήσουν ως trigger words. Ουσιαστικά με την παρουσία τους και μόνο δηλώνουν ότι το συγκείμενο μιας λεξικής μονάδας είναι κατά πάσα πιθανότητα κύριο όνομα που είναι δυνατόν να κατηγοριοποιηθεί με ασφάλεια. Στο παρακάτω παράδειγμα είναι περισσότερο εμφανές: στο «Ολυμπιακές Αερογραμμές», είναι σχεδόν σίγουρο πως πρόκειται για εταιρία κρίνοντας από την παρουσία της λεξικής μονάδας «Αερογραμμές». Φυσικά οι κατάλογοι που περιλαμβάνουν τις trigger words συντάσσονται με το χέρι 155. Κατά το στάδιο της ανάλυσης του λόγου χρησιμοποιούνται τεχνικές που εκμεταλλεύονται το συγκείμενο με σκοπό να αποσαφηνιστεί περισσότερο η κατηγορία της κάθε ονοματικής οντότητας. Για παράδειγμα, σε σύνθετα κύρια ονόματα όπως είναι το «μετοχές Λαμπρόπουλου» ο σημασιολογικός αναλυτής θα αναγνωρίσει τη σχέση ανάμεσα στο «μετοχές» και το κύριο όνομα, και, αφού ανατρέξει στους ήδη κατασκευασμένους καταλόγους με λέξεις κλειδιά, όπου η λεξική μονάδα εμφανίζεται άμεσα συνυφασμένη με εταιρίες, θα την κατηγοριοποιήσει ανάλογα. 155 Βλ. Wakao et al. (1996: ). 92

93 Για τη «συναναφορά» των κυρίων ονομάτων με λεξικές μονάδες που αποτελούν παραλλαγές αυτών στο ίδιο κείμενο, αναπτύχθηκαν 31 κριτήρια/κανόνες για τις εταιρίες, 11 για τα κύρια ονόματα προσώπων και 3 για τα τοπωνύμια. Για να αποφασιστεί λοιπόν αν δύο συγκεκριμένα κύρια ονόματα ταυτίζονται, το ΚΟ1 (κύριο όνομα 1) και το ΚΟ2 (κύριο όνομα 2), έχουμε: (1) εάν το ΚΟ2 περιέχει ένα μέρος της αρχικής ακολουθίας των λεξικών μονάδων του ΚΟ1, τότε το ΚΟ2 ταυτίζεται με το ΚΟ1. Π.χ. «American Airlines Co» και «American Airlines». (2) εάν το ΚΟ1 είναι πρόσωπο και το ΚΟ2 είναι είτε το βαπτιστικό, το επώνυμο, ή και τα δύο ονόματα του ΚΟ1, τότε το ΚΟ2 ταυτίζεται με το ΚΟ1. Π.χ. «John J. Major Jr.» και «John Major». Κάποια σημασιολογικού περιεχομένου κριτήρια που αναφέρονται στο συγκείμενο των κυρίων ονομάτων, όσον αφορά τη διαδικασία αυτόματης κατανομής του LaSie, αναλύονται παρακάτω: (1) Όταν ένα μη κατηγοριοποιημένο κύριο όνομα μπορεί να δεχτεί ως συμπλήρωμα μια λεξική μονάδα που ανήκει στην κατηγορία των εταιριών, τότε το κύριο όνομα θεωρείται ως εταιρία. Π.χ. στο «μετοχές Λαμπρόπουλου» χαρακτηρίζουμε το κύριο όνομα ως κύριο όνομα εταιρίας, επειδή η λεξική μονάδα «μετοχές» σημασιολογικά έχει σήμανση εταιρίας. (2) Όταν ένα μη κατηγοριοποιημένο κύριο όνομα βρίσκεται σε κτητική θέση ως προς ένα αξίωμα οργανισμού, τότε το όνομα κατηγοριοποιείται ως οργανισμός, π.χ. «vice president of ABC», «ABC s vice president». (3) Όταν ένα μη κατηγοριοποιημένο κύριο όνομα βρίσκεται δίπλα δίπλα σε ένα γνωστό τοπωνύμιο, τότε και αυτό κατηγοριοποιείται ως τοπωνύμιο. Π.χ. στο «Fort Lauderdale, Fla.» αν γνωρίζουμε πως το «Fla.» είναι όνομα τοποθεσίας, τότε το ίδιο συμβαίνει και με το «Fort Lauderdale». (4) Όταν ένα μη κατηγοριοποιημένο κύριο όνομα βρεθεί σε θέση υποκειμένου σε ρηματική φράση της οποίας είναι γνωστές οι σημασιολογικές ιδιότητες, τότε το όνομα κατηγοριοποιείται αναλόγως, π.χ. στο «Smith retired from his position as» συμπεραίνεται πως το «Smith» είναι κύριο όνομα προσώπου, καθώς λογικά το υποκείμενο του «retire» είναι ανθρώπινο 156. Συμπερασματικά, οι Wakao et al. υποστηρίζουν ότι: (1) τεχνικές που βασίζονται μόνο σε επεξεργασία των εσωτερικών στοιχείων μιας λεξικής μονάδας δεν είναι αρκετές για να επιτευχθεί η αναγνώριση και η κατηγοριοποίηση 156 Βλ. Wakao et al. (1996: ). 93

94 των κυρίων ονομάτων οργανισμών. Είναι εμφανές πως για να υπάρξει υψηλός βαθμός αναγνώρισής τους (recall), είναι απαραίτητο να μπορέσουμε να χρησιμοποιήσουμε και εξωτερικά στοιχεία αυτών που μας δίνονται από το συγκείμενό τους. (2) Αντίθετα, για τα κύρια ονόματα προσώπων και τοπωνυμίων, όπως και για τις εκφράσεις χρόνου, υπάρχουν τεχνικές που βασίζονται μόνο στην ανάλυση των εσωτερικών στοιχείων μιας λεξικής μονάδας και παρουσιάζουν υψηλό βαθμό τόσο αναγνώρισης (recall), όσο και ακρίβειας (precision). Γίνεται εύκολα κατανοητό δηλαδή πως η συνεισφορά των διαφόρων επιμέρους συστατικών του συστήματός τους διαφέρει σε αποτελεσματικότητα για κάθε κύριο όνομα ξεχωριστά. (3) Παρόλα αυτά, βλέποντας πως το 46% των κυρίων ονομάτων ενός μεγάλου αριθμού κειμένων επιχειρηματικού περιεχομένου είναι ονόματα οργανισμών, γίνεται εμφανές πως στην προσπάθεια επιτυχούς αναγνώρισης και κατηγοριοποίησης τέτοιων κειμένων, ο ρόλος του συγκείμενου είναι εξίσου σημαντικός με την αξιοποίηση των εσωτερικών στοιχείων. Διαφορετικά ένα σύστημα ανάλυσης δεν μπορεί να επιτύχει υψηλό βαθμό αναγνώρισης (recall) και ακρίβειας (precision). Το σύστημα Nominator των Wacholder et al. Κατά τους Wacholder et al. (1997), όταν ένα σύστημα μηχανικής μετάφρασης (machine translation system) συναντά σε ένα κείμενο την ακολουθία «Mrs. Candy Hill», δεν θα πρέπει να αναζητήσει μεταφράσεις του «candy» και του «hill», αλλά να μεταφράσει το «Mrs.» στον αντίστοιχο τίτλο της γλώσσας-στόχου και να διατηρήσει το υπόλοιπο του ονόματος άθικτο 157. Παρομοίως, ένα σύστημα εξαγωγής πληροφοριών όταν συναντά το «Candy» δε θα πρέπει να αναζητήσει όλες τις εναλλακτικές του μορφές ή να αναζητήσει συνώνυμά του 158. Σύμφωνα με τους Wacholder et al (1994:202)., κατά τη διαδικασία ανάλυσης κυρίων ονομάτων έχουμε δύο στόχους: την αναγνώριση γνωστών κυρίων ονομάτων και την εύρεση νέων. Θεωρούν ότι η δημιουργία και «συντήρηση» μιας βάσης δεδομένων απαιτεί σημαντική προσπάθεια, και για αυτό το λόγο υπάρχουν πολλές εφαρμογές που λειτουργούν χωρίς αυτό το εργαλείο. Σε αυτή την περίπτωση τα ονόματα πρέπει να αναγνωρίζονται από το κείμενο και να συνδέονται με τις οντότητες στις οποίες αναφέρονται. Ακόμη όμως και στα συστήματα όπου υπάρχουν βάσεις δεδομένων ονομάτων, η σάρωση του κειμένου είναι 157 Στα ελληνικά, π.χ. κος Χάρης Παππάς. Δεν πρέπει να ψάχνει πέρα από το «κος» για «παππάς» ή για «χάρη». 158 Βλ. Wacholder (1994:202). 94

95 απαραίτητη, ώστε να αναγνωρίζονται καινούργια ονόματα τα οποία έχουν δημιουργηθεί από ονοματικές οντότητες, όπως χώρες ή εμπορικές εταιρίες, ή άγνωστα ονόματα τα οποία γίνονται σημαντικά όταν οι οντότητες στις οποίες αναφέρονται γίνονται επίκαιρες 159. Όσον αφορά τα κύρια ονόματα, αυτά παρουσιάζουν δομικές αμφισημίες, ακριβώς όπως και τα κοινά ουσιαστικά, όταν βρίσκονται σε προτάσεις με εμπρόθετα συμπληρώματα 160 και όταν κοντά τους υπάρχει σύνδεσμος. Οι Wacholder et al. παραθέτουν το διάσημο παράδειγμα: Είδα το κορίτσι στο πάρκο με το τηλεσκόπιο για να τονίσουν ότι υπάρχουν περιπτώσεις άλυτης αμφισημίας, οι οποίες ισχύουν ακόμη και για τον άνθρωπο μελετητή. Γίνονται αναφορές και σε άλλα γνωστά προβλήματα που καλούνται να αντιμετωπίσουν οι ερευνητές της υπολογιστικής γλωσσολογίας και για τα οποία είναι λίγες οι λύσεις που προτείνονται, όπως για παράδειγμα η αμφισημία που σχετίζεται με τη χρήση συνδέσμων μέσα σε ένα κύριο όνομα. Για παράδειγμα, στην ακολουθία λεξικών μονάδων «Victoria and Albert Museum» και «IBM and BELL Laboratories» οι περιπτώσεις φαίνονται όμοιες. Στην πρώτη περίπτωση όμως το and είναι μέρος του ονόματος του μουσείου, ενώ στη δεύτερη αποτελεί απλά το σύνδεσμο που ενώνει δύο εταιρίες. Αναλογικά, στα ελληνικά συναντάμε το «Λαμπρόπουλος και Σία» και το «Δίκτυο Καταστημάτων Γερμανός και Πλαίσιο Computers» 161. Υπάρχουν βεβαίως και περιπτώσεις παρόμοιας δομικής αμφισημίας, οι οποίες δεν απαντούν στην ελληνική γλώσσα με την ίδια μορφή. Παράδειγμα αποτελεί η συντακτική δομή της αγγλικής με το μόριο «s» που δηλώνει κτήση, η οποία στα «Israel s Shimon Peres» και «Donoghue s Money Fund Report» έχει διαφορετικούς ρόλους. Στην πρώτη απλά συνδέει δύο ονόματα, ενώ στη δεύτερη αποτελεί συστατικό ενός ενιαίου ονοματικού συνόλου. Οι Wacholder et al. συνεχίζουν επισημαίνοντας την αναγκαιότητα επίλυσης αυτού του είδους των δομικών αμφισημιών, ώστε να επιτυγχάνεται αυτόματα η αναγνώριση των ακριβών ορίων των κυρίων ονομάτων. Μόνον όταν γίνουν γνωστά τα ακριβή τους όρια, μπορούμε να περάσουμε στο επόμενο στάδιο επίλυσης δομικών αμφισημιών, τα οποία σχετίζονται με τα εσωτερικά όρια των κυρίων ονομάτων. Τα κύρια ονόματα παρουσιάζουν επίσης σημασιολογικές αμφισημίες. Το πρόβλημα της αναγνώρισης του τύπου του κυρίου ονόματος μοιάζει με το αντίστοιχο πρόβλημα της σημασίας των κοινών ουσιαστικών, όπου, 159 Πολύ συχνά συναντάται το φαινόμενο αυτό σε υπηρεσίες παροχής ειδήσεων ή στις υπηρεσίες καταλογογράφησης του διαδικτύου, όπως είναι οι μηχανές αναζήτησης. 160 Prepositional phrases, PP. 161 Βλ. Wacholder et al. (1997:203). 95

96 για παράδειγμα, η λεξική μονάδα «state» εκτός συγκειμένου μπορεί να αναφέρεται είτε στο κυβερνητικό σώμα είτε στην κατάσταση ενός ανθρώπου ή οντότητας. Κατ αναλογία και η λεξική μονάδα «νάρκη» στα ελληνικά μπορεί να σημαίνει «βαθύς και βαρύς ύπνος» αλλά και «εκρηκτικός μηχανισμός». Το ίδιο ισχύει και για τα κύρια ονόματα, όταν τα βγάλουμε από το συγκείμενό τους, π.χ. λέγοντας απλά «Ford» γίνεται παραλληλισμός με τον άνθρωπο (Gerald Ford), τον οργανισμό (Ford Motors), τη μάρκα αυτοκινήτων (Ford), ή την τοποθεσία (Ford, Michigan). Στην ελληνική γλώσσα έχουμε τα παραδείγματα του «Μαρινόπουλος» ή του «Γρηγόρης» (Γρηγόρης Μάτης (πρόσωπο), Γρηγόρης Μικρογεύματα (κατάστημα), Γρηγόρης Μικρογεύματα ΑΒΕΕ (εταιρία). Είναι πολύ συχνό λοιπόν το φαινόμενο της αμφισημίας μεταξύ των ονοματικών οντοτήτων, καθώς τοποθεσίες ονομάζονται από διάσημους ανθρώπους και εταιρίες από τοποθεσίες ή από τους ιδιοκτήτες τους. Επιπρόσθετα, οι «συμβάσεις» της ονοματολογίας δεν τηρούνται πάντα, καθώς πολλοί επιδιώκουν να δημιουργούν «περίεργες ονοματικές κατασκευές», παρατσούκλια και ασυνήθιστα ονόματα, με στόχο την πρωτοτυπία. Ενδεικτικά, παραθέτουμε τα ονόματα «Mr. Tall» για κατάστημα και «April Wednesday» για γυναίκα. Είχαμε τη δυνατότητα να διαπιστώσουμε πως κάτι αντίστοιχο ισχύει και για την ελληνική γλώσσα, μελετώντας τα λογοτεχνικά ψευδώνυμα τα οποία συμπεριλάβαμε στο σύνθετο ηλεκτρονικό λεξικό 162. Όπως ακριβώς συμβαίνει και με τα απλά ουσιαστικά, έτσι και τα κύρια ονόματα παρουσιάζουν το φαινόμενο της συστημικής μετωνυμίας: λέγοντας «United States» αναφερόμαστε στην γεωγραφική τοποθεσία ή στο κράτος που κυβερνά αυτή την τοποθεσία. Ομοίως, λέγοντας «Wall Street Journal» μπορούν να δοθούν τρεις διαφορετικές ερμηνείες: το τυπωμένο αντικείμενο, τα περιεχόμενά του και η εμπορική οντότητα/εταιρία που το παράγει. Πολύ συχνό φαινόμενο είναι και η σημασιολογική αμφισημία στα κύρια ονόματα, κυρίως λόγω της συνήθειας να χρησιμοποιούνται πολλές φορές αντί των πλήρων τύπων, συντομότεροι τύποι, όπως υποκοριστικά, αρχικά βαπτιστικών, παρωνύμια. Έτσι, το όνομα «J. Smith» μπορεί να αντιστοιχεί σε οποιοδήποτε από τα ακόλουθα πρόσωπα: Joseph Smith, John Smith, Jane Smith κτλ. Το ίδιο ισχύει φυσικά και για την ελληνική γλώσσα, όπως είναι εμφανές από το ονοματεπώνυμο «Φανούρης Χ. Ιωάννου», όπου το αρχικό «Χ.» μπορεί να αντιστοιχεί σε ποικίλα βαπτιστικά. Σε αυτές τις περιπτώσεις, και γενικότερα όπου προκύπτουν προβλήματα σχετικά με τη σημασιολογία, καθοριστικό ρόλο στην απάλειψή της διαδραματίζει το συγκείμενο. Λέγοντας «Παρίσι», συνήθως αναφερόμαστε στην πρωτεύουσα της Γαλλίας και όχι στην πόλη του Τέξας, αλλά σε ένα διαφορετικό και ίσως 162 Βλ

97 πιο συγκεκριμένο συγκείμενο, το αντικείμενο αναφοράς μπορεί να αλλάξει. Ορισμένοι τύποι αμφισημιών βεβαίως παρουσιάζονται αποκλειστικά στα κύρια ονόματα, καθώς εκ φύσεως δεν είναι δυνατό να παρουσιαστούν σε απλά ουσιαστικά. Έτσι, κάποιες λεξικές μονάδες παρουσιάζονται είτε ως κύρια ονόματα είτε ως απλά ουσιαστικά, όπως η περίπτωση «Candy» που από μόνη της θα μπορούσε να είναι είτε πρόσωπο, είτε φαγητό αν δεν υπήρχε το κεφαλαίο αρχικό γράμμα. Η ύπαρξη κεφαλαίου συνήθως αποσαφηνίζει την κατάσταση, αλλά όχι όταν βρισκόμαστε στην αρχή πρότασης. Στην αρχή πρότασης, μόνο η «γνώση του κόσμου» (world knowledge) μας αποκαλύπτει εάν πρόκειται για κύριο όνομα ή απλό ουσιαστικό 163. Στην ελληνική γλώσσα η κατάσταση είναι ακόμη πιο ιδιαίτερη, καθώς τα κύρια ονόματα σε αντίθεση με πολλές ξένες γλώσσες, συντάσσονται με άρθρα και έχουν και πλήρως ανεπτυγμένο πληθυντικό αριθμό. Σε ορισμένες περιπτώσεις τα άρθρα βοηθούν σαφώς στην εξάλειψη αμφισημιών όμως σε άλλες την δυσχεραίνουν. Για παράδειγμα, όταν ένα κύριο όνομα προσώπου στην αγγλική εισάγει πρόταση, τότε η απουσία άρθρου δείχνει ξεκάθαρα πως πρόκειται για κύριο όνομα, σε αντίθεση με την ελληνική όπου το άρθρο υπάρχει ανεξάρτητα από το είδος του ουσιαστικού. Οι Wacholder et al., (1997:203) συμπληρώνουν πως ακόμη και το κεφαλαίο γράμμα δεν είναι αρκετό ως κριτήριο για τη σήμανση ενός ουσιαστικού ως κύριου ονόματος, καθώς σύμφωνα με την περιγραφή των Quirk et al.(1972) λεξικές μονάδες όπως τα «Egyptian» και «Frenchmen» δεν είναι κύρια ονόματα. Παρομοίως, ανοικτό αφήνουν και το ενδεχόμενο για ακολουθίες που περιλαμβάνουν κεφαλαία όπως τα «Minimum Alternative Tax», «Annual Report» και «Chairman». Επίσης, σύμφωνα με τους Wacholder et al., οι δύο μέθοδοι εξάλειψης αμφισημίας που εφαρμόζονται, εξαρτώνται από τους διαθέσιμους πόρους. Με το σύστημα Nominator έγινε προσπάθεια να επιτευχθεί ισορροπία ανάμεσα στη υψηλή ευστοχία (accuracy) και στην ταχύτητα υιοθετώντας ένα μοντέλο που να εκμεταλλεύεται στο ελάχιστο γνώσεις συγκειμένου και γνώσης του κόσμου (world knowledge) (το Nominator δεν λαμβάνει υπόψη του πληροφορίες όπως «πρόεδρος» ή την κλίση ρημάτων π.χ. του λέω, σχεδιάζω κτλ.). Υποστηρίζουν επίσης ότι κάνοντας χρήση συντακτικών κριτηρίων επιβαρύνεται το σύστημα σε υπολογιστική ισχύ, χάνοντας μ αυτό τον τρόπο σε ταχύτητα και γι αυτό στρέφεται σε άλλα κριτήρια όπως είναι τα κεφαλαία, η στίξη, η θέση στην πρόταση και στο κείμενο. Το σύστημα βασίζεται στη συχνή πρακτική του να εμφανίζεται μια ονοματική οντότητα σε σχετικά πλήρη μορφή στην αρχή ενός κειμένου, του οποίου έχει προηγηθεί 163 Wacholder (1997:203). 97

98 σήμανση, ενώ στη συνέχεια γίνεται αναφορά σε αυτήν με πιο σύντομες και φυσικά περισσότερο αμφίσημες μορφές της. Το Nominator χρησιμοποιεί τα κύρια ονόματα στην πλήρη μορφή τους και κατόπιν μέσω σύγκρισης με μικρούς καταλόγους ονομάτων τα ταυτίζει με τα αντίστοιχα στη σύντομη μορφή. Έχει δηλαδή τη δυνατότητα να εκμεταλλεύεται μια βάση δεδομένων, αλλά έχει σχεδιαστεί να λειτουργεί χωρίς αυτήν. Μια τέτοια βάση διευκολύνει σε μεγάλο βαθμό στη λύση συντακτικών αμφισημιών, ενώ προσφέρει τόσο σε ακρίβεια όσο και σε αποτελεσματικότητα, αρκεί να υπάρχουν γρήγορες μέθοδοι αναζήτησης (look-up). Μπορεί να βοηθήσει ακόμη και σε επίλυση μορφολογικών αμφισημιών. Αν υπάρχει ξεχωριστή καταχώρηση των λεξικών μονάδων «IBM» και «Apple Computers», αλλά όχι του «IBM and Apple Computers» ως σύνολο, ίσως φανερώνει πως αποτελούν δύο διαφορετικά λεξικά σύνολα που απλά βρέθηκαν σε γειτνίαση. Μια βάση δεδομένων σπάνια είναι πλήρης, ακόμη και όταν θεωρείται αξιόπιστη. Πάντα υπάρχουν λήμματα τα οποία λείπουν και θα πρέπει να προστεθούν ή να αντικαταστήσουν τα παλαιότερα, όταν αυτό κρίνεται απαραίτητο. Όταν νέες μορφές ονομάτων εμφανίζονται σε ένα κείμενο και δεν υπάρχουν στη βάση, θα πρέπει αυτομάτως να «μπλοκάρονται» τα παλαιότερα λήμματα και να χρησιμοποιούνται τα νέα 164. Πολλές ακολουθίες λεξικών μονάδων που αναγνωρίζονται με ευκολία από τον ανθρώπινο μελετητή ως κύριο όνομα, δημιουργούν πρόβλημα στα συστήματα ανάλυσης φυσικών γλωσσών. Το σύστημα Nominator στις περιπτώσεις που δεν είναι σε θέση να επιλύσει με μεγάλη σιγουριά μια αμφισημία, είναι ρυθμισμένο να αναγνωρίζει το λήμμα ή την ακολουθία λεξικών μονάδων, έστω και με αμφιβολία, παρά να αφήσει να χαθεί τελείως η πληροφορία. Το Nominator πριν επεξεργαστεί το εκάστοτε κείμενο, το τεμαχίζει σε κομμάτια (προτάσεις, λέξεις, σήμανση, στίξη). Το πρώτο βήμα που ακολουθεί για να αναγνωρίσει και να κατηγοριοποιήσει τα κύρια ονόματα είναι να κατασκευάσει έναν κατάλογο «υποψηφίων» ονομάτων του κειμένου. Στη συνέχεια εφαρμόζει κριτήρια τεμαχισμού των ονομάτων σε όσο το δυνατό μικρότερα τμήματα (λεξικές μονάδες), πριν αυτά συγκεντρωθούν τελικά σε ένα κατάλογο, όπου το καθένα είναι συσχετισμένο με τις ποικιλίες του, και μετατραπούν σε λεξικό ή σε βάση δεδομένων. Φυσικά για τον αλληλοσυσχετισμό των λεξικών μονάδων ακολουθούνται οι σχετικές με τα κύρια ονόματα συμβάσεις τις αγγλικής γλώσσας. Οπότε το «Mr. Jordan» και το «Robert Jordan» συνδέονται, όπως επίσης και το «ABA» με το «American Bar Association» ως πιθανή συντόμευση του δεύτερου. Κάθε «ομάδα» κατηγοριοποιείται με μια ετικέτα, όπως οργανισμός, τοπωνύμιο, ανθρωπωνύμιο κτλ. και έχει 164 Βλ. Wacholder (1997:204). 98

99 έναν «απαρεμφατικό» τύπο, που είναι ο μεγαλύτερος και ο λιγότερο αμφίσημος. Έτσι, εάν εμφανίζεται σε ένα κείμενο το όνομα «President Clinton» ως «ποικιλία» του «William Clinton», ενώ σε ένα άλλο εμφανίζεται και το «Governor Clinton» ως «ποικιλία» του «William Clinton», και τα δύο θεωρούνται «ποικιλίες» της ομάδας «William Clinton». Τρεις είναι οι πιθανοί ενδείκτες για τη δημιουργία δομικών (μορφολογικών) αμφισημιών: οι προθέσεις, οι σύνδεσμοι και οι κτητικές αντωνυμίες 165. Μια λεξική μονάδα που περιλαμβάνει ένα τέτοιο ενδείκτη, για να διαπιστωθεί εάν θα πρέπει να τεμαχιστεί, χωρίζεται σε τρία κομμάτια, την ακολουθία στα αριστερά του ενδείκτη, τον ενδείκτη και την ακολουθία στα δεξιά του. Οι Wacholder et al. υποστηρίζουν πως ό,τι υπάρχει δεξιά (σε περίπτωση που υπάρχουν δύο ενδείκτες σε μια ακολουθία, δίνει μεγαλύτερη βαρύτητα στον δεύτερο) συνήθως είναι ισχυρότερο και επηρεάζει περισσότερο, οπότε εξετάζει τις λεκτικές ακολουθίες από τα δεξιά προς τα αριστερά. Τα κριτήρια που επηρεάζουν τον εν λόγω τεμαχισμό είναι τα ακόλουθα: (1) τεμαχισμός μιας ακολουθίας εάν περιλαμβάνει ένα ακρωνύμιο ακριβώς δίπλα, δεξιά ή αριστερά του αμφίσημου ενδείκτη. (2) τεμαχισμός υπό συνθήκη του ενδείκτη «and» όταν προηγείται κεφαλαιογράμματη λεξική μονάδα, και (3) τεμαχισμός του κτητικού «s» όταν αναγνωρίζει τοπωνύμιο στα αριστερά του. Ακόμη περιλαμβάνονται και κριτήρια για τον τυπογραφικό έλεγχο του συγκειμένου. Ενώ τα ονόματα διέπονται από γλωσσικούς κανόνες και τα κριτήρια τεμαχισμού τους συντάσσονται ακολουθώντας τους, τα κριτήρια για τη διαχείριση των κυρίων ονομάτων στην αρχή πρότασης βασίζονται στις εμφανίσεις τους στο έγγραφο. Όταν τελειώσει η συλλογή και ο τεμαχισμός όλων των ονομάτων, τότε όσα ξεκινούν από κεφαλαίο συγκρίνονται με τα ονόματα του καταλόγου που έχει συνταχθεί από τα κύρια ονόματα του κειμένου. Αν το κύριο όνομα που ξεκινάει με κεφαλαίο στην αρχή της πρότασης συναντηθεί ξανά μέσα στο κείμενο αλλά με μικρό, το απορρίπτει. Σε διαφορετική περίπτωση, το διατηρεί. Στην δυσκολότερη περίπτωση, όταν υπάρχει μια ακολουθία δύο λεξικών μονάδων που ξεκινούν με κεφαλαίο στην αρχή πρότασης και η δεύτερη από αυτές είναι κύριο όνομα, τότε απορρίπτεται εύκολα η πρώτη, εάν η γραμματική της κατηγορία είναι επίρρημα (επιρρηματικός προσδιορισμός), αντωνυμία, ρήμα ή πρόθεση. Για τις υπόλοιπες κατηγορίες δεν υπάρχει λύση, και το Nominator τα δέχεται ως κύρια ονόματα 166. Το σύστημα Nominator αντιμετωπίζει τις αμφίσημες λεξικές μονάδες συνδέοντάς τες με τις αντίστοιχες μη αμφίσημες που υπάρχουν στο ίδιο έγγραφο. Τα καλογραμμένα κείμενα συνήθως δεν παρουσιάζουν δυσκολίες λόγω του ότι αποφεύγεται η χρήση αμφίσημης λέξης 165 Το ίδιο σχεδόν ισχύει και για την ελληνική γλώσσα με τις λεξικές μονάδες Ντελ, Ο, Ντε. 166 Βλ. Wacholder (1997:206). 99

100 και σύνδεσή της και με τα δύο «προβληματικά» λήμματα. Τα κύρια ονόματα «Paris» και «Washington» είναι ιδιαιτέρως αμφίσημα εκτός συγκειμένου, αλλά σε καλά επεξεργασμένα έγγραφα η άρση αποδεικνύεται αρκετά εύκολη, όταν υπάρχει επίσης στο κείμενο μια μη αμφίσημη «ποικιλία» τους. Η λεξική μονάδα «Washington» μπορεί να συσχετιστεί με το «President Washington» ή με το «Washington D.C.), αλλά όχι και με τα δύο. Για να γίνει η άρση λοιπόν, το συνδέουμε με μια μη αμφίσημη μορφή του που εμφανίζεται σε κάποιο σημείο του ίδιου κειμένου 167. Ορισμένοι απλοί ενδείκτες, λοιπόν, μειώνουν αισθητά την περίπτωση αμφισημίας, καθορίζοντας ξεκάθαρα την κατηγορία ενός κυρίου ονόματος, όπως είναι το «Mr.» για ένα πρόσωπο και το «Inc.» για ένα οργανισμό. Στο Nominator έχει ενσωματωθεί μια ομάδα από κανόνες που αφορούν τέτοιου είδους ενδείκτες, όπου ανάλογα με την περίπτωση και τον τύπο του κυρίου ονόματος λειτουργούν βοηθητικά στη μορφολογική αναγνώριση των ονομάτων. Για κύριο όνομα προσώπου το αρμόδιο εργαλείο περιλαμβάνει επαγγελματικούς τίτλους (π.χ. Εισαγγελέας), προσωπικούς τίτλους (π.χ. Δόκτωρ), βαπτιστικά, μεσαία ονόματα 168, παρατσούκλια, επώνυμα και καταλήξεις (π.χ. Jr). Με συνδυασμούς των παραπάνω επιτυγχάνεται υψηλή/χαμηλή αρνητική βαθμολογία ή υψηλή/χαμηλή θετική βαθμολογία για κάποιο κύριο όνομα. Όταν κάποιο έχει λάβει υψηλή αρνητική βαθμολογία, όπως συμβαίνει όταν το δεύτερο συνθετικό του είναι καταχωρισμένο στον κατάλογο ως οργανισμός, για παράδειγμα «Πολυκατάστημα», είναι σχεδόν σίγουρο πως δεν πρόκειται για κύριο όνομα προσώπου. Ανάλογα με τις συνθήκες δηλαδή, δίνεται στα κύρια ονόματα υψηλή ή χαμηλή, θετική ή αρνητική πιθανότητα να αποτελούν κύριο όνομα προσώπου. Για παράδειγμα, η παρουσία προσωπικού τίτλου δίνει υψηλά θετική πιθανότητα. Η απουσία προσωπικού τίτλου αλλά η παρουσία βαπτιστικού δίνει χαμηλά θετική πιθανότητα, ενώ η παντελής απουσία τίτλου και ένα άγνωστο βαπτιστικό δίνει σχεδόν μηδενικά θετική βαθμολογία. Όταν παρόλα αυτά δεν καταστεί δυνατή η αναγνώριση της ονοματικής οντότητας ως κύριο όνομα προσώπου, είναι προτιμότερο να σημαίνεται ως τέτοιο, παρά ως κύριο όνομα τόπου, καθώς τις περισσότερες φορές είναι η σωστότερη επιλογή. Ενδιαφέρον παρουσιάζει η δυνατότητα του Nominator να διασταυρώνει το υπό μελέτη λήμμα με αντίστοιχα λήμματα άλλων εγγράφων, όπου πιθανότατα να εμφανίζεται και μια μη αμφίσημη μορφή του ονόματος. Φυσικά υπάρχουν και κύρια ονόματα που δεν γνωρίζουμε αν μπορούν να κατηγοριοποιηθούν, αφού ακόμη και ο ανθρώπινος μελετητής τα αγνοεί. Το Nominator δεν ασχολείται με αυτά τα κύρια ονόματα. 167 Βλ. Wacholder (1997: ). 168 Είτε πρόκειται για δεύτερο βαπτιστικό είτε δεύτερο οικογενειακό όνομα. 100

101 Το φαινόμενο της αμφισημίας παραμένει μία από τις σημαντικότερες αιτίες δυσκολιών στην επεξεργασία των κειμένων φυσικών γλωσσών. Παραδοσιακά οι μέθοδοι που ακολουθούνταν για την άρση των αμφισημιών εστίαζαν στην ανάπτυξη εκτεταμένων καταλόγων, εξαντλητικών λεξικών και τεράστιων βάσεων με «γνώση του κόσμου». Βεβαίως στην πορεία αναπτύχθηκαν και τεχνικές που εστίαζαν περισσότερο σε όσο το δυνατό μικρότερη χρήση των παραπάνω και καθόλου σε συντακτικές πληροφορίες. Ένα από τα πλεονεκτήματα μιας τέτοιας μεθόδου που κάνει χρήση ελάχιστων εργαλείων είναι και η ταχύτητα επεξεργασίας των κειμένων, που αποτελεί ιδιαίτερα σημαντικό παράγοντα, ειδικότερα σε μεγάλης έκτασης έγγραφα (καθώς και σε όχι τόσο ισχυρά μηχανήματα, όπως είναι τα netbooks). Είναι δύσκολο να υιοθετηθούν κριτήρια που να ισχύουν για όλες τις κατηγορίες κυρίων ονομάτων (επειδή συνήθως είναι σχετικά με τον τομέα των κυρίων ονομάτων που επεξεργάζεται σε κάθε στιγμή) ή που να καθιστούν την ανθρώπινη παρέμβαση περιττή. Σε μεγάλο βαθμό ευθύνεται ο ταχύτατος ρυθμός με τον οποίο αλλάζουν τα περιεχόμενα των κυρίων ονομάτων και γενικότερα τα δεδομένα στον τομέα. Η ανθρώπινη παρέμβαση θα είναι απαραίτητη, όσο θα εμφανίζονται διαρκώς στην καθημερινή μας πραγματικότητα νέα ονόματα, με νέες πρακτικές (για παράδειγμα, χρήση σημείων στίξης στο εσωτερικό του κυρίου ονόματος ή ακόμη και αριθμών, Fatal1ty ). Το σύστημα GIE των Καρκαλέτσης et al. Το σύστημα παρουσιάστηκε το 1999 από τους Καρκαλέτσης et al. και έχει ως στόχο την ελληνική γλώσσα. Βασίζεται στον ίδιο αλγόριθμο εποπτευόμενης εκπαίδευσης που χρησιμοποιήθηκε στο σύστημα NYU από τον Sekine (1998) και ενσωματώνει τα παρακάτω υποεργαλεία: ένα διαχωριστή του κειμένου σε λογικές μονάδες (tokenizer), ένα διαχωριστή προτάσεων (sentence splitter), ένα εργαλείο σήμανσης των μερών του λόγου (part-of-speech tagger), έναν κατάλογο ονοματικών οντοτήτων και έναν συντακτικό αναλυτή (parser) ονοματικών οντοτήτων, όλα προσαρμοσμένα στα δεδομένα της ελληνικής. Τα αποτελέσματα για τα πρόσωπα ήταν 77% αναγνώριση και 88,8% ακρίβεια, σαφώς χαμηλότερη επίδοση από την αντίστοιχη της αγγλικής. Οφείλεται στους περιορισμένους γραμματικούς κανόνες του συντακτικού αναλυτή αλλά και στο μικρό μέγεθος του καταλόγου ονοματικών οντοτήτων. 101

102 4.2.2 Στατιστικές μέθοδοι Το σύστημα Balie των Nadeau et al. Το 2006 οι Nadeau et al. παρουσίασαν ένα σύστημα μη εποπτευόμενης εκπαίδευσης με το όνομα Balie 169. Για την ανάπτυξή του επηρεάστηκαν από τις εργασίες των Collins και Singer (1999), και των Etzioni et al. (2005). Το σύστημά τους αποτελείται από δύο εργαλεία. Το πρώτο χρησιμεύει για τη δημιουργία μεγάλων καταλόγων οντοτήτων, ενώ το δεύτερο ακολουθώντας απλά κριτήρια επιχειρεί να αναγνωρίσει και να κατατάξει τις οντότητες του κάθε κειμένου. Για την αυτόματη δημιουργία των καταλόγων με ονόματα πόλεων, εφάρμοσαν σε σελίδες διαδικτύου έναν αλγόριθμο αναζήτησης που περιέχει τέσσερα τυχαία ονόματα πόλεων, του τύπου «Μόντρεαλ» ΚΑΙ «Βοστόνη» ΚΑΙ «Παρίσι» ΚΑΙ «Πόλη του Μεξικό». Οι ιστοσελίδες που εμφανίζονται περιέχουν σε παράταξη τις παραπάνω πόλεις και πολλές ακόμη που ακολουθούν με την ίδια σύνταξη του «ΚΑΙ». Το σύστημα, αφού ανακτήσει τα ονόματα των πόλεων από το προηγούμενο βήμα, μελετά τη δομή HTML 170 των ιστοσελίδων και εκπαιδεύεται στο άμεσο συγκείμενο των οντοτήτων που προηγουμένως είχε ανακτήσει. Στην ίδια ιστοσελίδα που εκπαιδεύεται ο αλγόριθμος, εφαρμόζεται και το μοντέλο κατηγοριοποίησης που δημιουργήθηκε από αυτή τη διαδικασία, όσες φορές είναι απαραίτητο, ώστε μαθαίνοντας τις δομές τους να μπορέσει να εφαρμοστεί σε ανάλογα κείμενα. Για να αντιμετωπιστούν τα προβλήματα των αμφισημιών που προκύπτουν από την αυτοματοποιημένη εκπαίδευση και για να μειωθεί ο θόρυβος γίνεται χρήση ορισμένων κριτηρίων, τα οποία στο παρελθόν εφαρμόστηκαν με επιτυχία σε άλλα συστήματα, όπως του Mikheev για την αμφισημία οντοτήτων που είναι ομόγραφες με απλά ουσιαστικά. Η επίδοση του Balie φτάνει το 55.98% F-measure. Το σύστημα του Gallippi Σύμφωνα με τον Gallippi (1996) η ανάγκη για την αυτόματη αναγνώριση των κυρίων ονομάτων ενισχύθηκε από την εξέλιξη συστημάτων ανάλυσης φυσικών γλωσσών (NLP 171 ) 169 Balie = Baseline information extraction. Πλέον το σύστημα έχει εξελιχθεί και έχει γίνει αλλαγή του ονόματός του σε Yooname. 170 HTML= HyperText Markup Language. Πρόκειται για μια υπολογιστική γλώσσα σήμανσης που προτυποποιεί τον τρόπο δημιουργίας ιστοσελίδων. 171 Natural Language Processing. 102

103 και συστημάτων ανάκτησης πληροφοριών (IR 172 ). Ο Gallippi επισημαίνει πως τα κύρια ονόματα αποτελούν πρόκληση για αυτά τα συστήματα, καθώς δεν υπάρχουν σε λεξικά, είναι πολύ μεγάλα σε αριθμό, εξαφανίζονται τα παλαιά αλλά και δημιουργούνται συνεχώς νέα, και παρουσιάζονται με ποικίλες μορφές, όπως, για παράδειγμα, τα παρατσούκλια. Αυτοί είναι και οι λόγοι, όπως υποστηρίζει, που τα συστήματα που βασίζονται σε ταυτοποίηση καταλόγων ονομάτων, δεν επιτυγχάνουν επιθυμητά επίπεδα απόδοσης. Για να γίνει αυτό πρέπει να συνοδεύονται από κριτήρια και κανόνες που αναπτύσσονται με το χέρι από ανθρώπινο μελετητή και όχι αυτόματα. Εκεί εντοπίζεται και η δυσκολία προσαρμογής τους σε άλλες γλώσσες με ελάχιστη ανθρώπινη παρέμβαση. Βέβαια δεν συμμεριζόμαστε απόλυτα τις θέσεις του, ειδικότερα την τοποθέτησή του ότι τα παλαιά κύρια ονόματα εξαφανίζονται. Τα κείμενα που χρησιμοποιούνται σε τέτοιες μελέτες προέρχονται από διάφορες χρονικές περιόδους και έχουν θεματολογία τόσο ευρεία που είναι πολύ πιθανή η εμφάνιση ενός σπανιότερου/ παλαιότερου κυρίου ονόματος ανά πάσα στιγμή. Η ύπαρξη λοιπόν προκατασκευασμένων καταλόγων κυρίων ονομάτων λειτουργεί ευεργετικά σε αυτές τις περιπτώσεις, γιατί περιορίζει αισθητά την πιθανότητα λάθους αναγνώρισης ή κατηγοριοποίησης. Ωστόσο, η ύπαρξη αυτών των καταλόγων δεν είναι τίποτα περισσότερο από ένα πρώτο βήμα, γιατί σε περιπτώσεις νεολογισμών, οι οποίες επηρεάζουν την παραγωγή ακόμη και των κυρίων ονομάτων, δεν είναι σε θέση η ήδη κατασκευασμένη βάση να αναγνωρίσει τις καινούργιες δομές. Τότε γίνεται χρήση των κριτηρίων τα οποία χρησιμοποιεί ο Gallippi. Αυτός είναι και ο λόγος που «ο τεμαχισμός και η σήμανση των κυρίων ονομάτων είναι πολύ σημαντικοί για τα συστήματα επεξεργασίας των φυσικών γλωσσών, ειδικότερα για τεχνικές IR και MT 173». Έτσι αναγκάζεται ο μελετητής να στραφεί εκτός από την εσωτερική δομή μιας φράσης και στο άμεσο συγκείμενο για να αναγνωρίσει αν η φράση είναι κύριο όνομα και σε ποια κατηγορία ανήκει (όνομα εταιρίας, τοποθεσία, ημερομηνία, όνομα προσώπου κτλ.). Στη διαδικασία αυτή η θεωρία του Gallippi συμφωνεί με τη θεωρία του McDonald (1994). Η μέθοδος του Gallippi βασίζεται στην ανάκτηση των οντοτήτων μέσω δέντρων αποφάσεων, ενώ δεν είναι τελείως αυτοματοποιημένη, γιατί και σε αυτήν κρίνεται απαραίτητη η επέμβαση του ερευνητή, τουλάχιστον κατά την περίοδο εκπαίδευσης του συστήματος. Ο αλγόριθμος εμπλουτίζεται με το χέρι με νέα στοιχεία που προκύπτουν από τα αποτελέσματα μιας πρώτης σάρωσης του κειμένου. Τα στοιχεία αυτά λοιπόν που προέρχονται από την χειρωνακτική ανάλυση του δέντρου αποφάσεων και τα αποτελέσματα 172 Information Retrieval. 173 Machine Translation. 103

104 της σάρωσης προστίθενται στο ήδη «σημαδεμένο» με ετικέτες (tags) κείμενο, και η διαδικασία επαναλαμβάνεται μέχρι να προκύψουν ικανοποιητικά αποτελέσματα. Όσον αφορά τη διαδικασία της αναγνώρισης μιας λεξικής μονάδας ως κύριο όνομα, ο Gallippi (1996:426) περιγράφει ότι αυτή χωρίζεται σε δύο ενέργειες: α. την Οριοθέτηση που είναι η εξακρίβωση των ορίων του κυρίου ονόματος, και β. την Κατηγοριοποίηση που την τοποθετεί σε μια πιο συγκεκριμένη κατηγορία, όπως κύριο όνομα προσώπου, κύριο όνομα τόπου κτλ. Το σύστημα Nymble των Bikel D. M. et al. Το Μάρτιο του 1998, στα πλαίσια του MUC-7, έγινε η παρουσίαση του συστήματος Nymble 174 από τους Bikel D.M. et al., μελών της εταιρίας «BBN Corporation». Η στατιστική μέθοδος περιγραφής που επιλέχθηκε από τους ερευνητές βασίστηκε σε μια ελαφρώς επεξεργασμένη έκδοση κρυφών Μαρκοβιανών μοντέλων και εφαρμόστηκε σε κείμενα της αγγλικής και ισπανικής γλώσσας 175. Το μοντέλο κατά το πρώτο στάδιο της διαδικασίας εκπαίδευσης αντιμετωπίζει κάθε λεξική μονάδα που συναντά ως μονάδα με διττή οντότητα, ως ζεύγος λέξης - λεξικού χαρακτηριστικού (word feature). Τα λεξικά χαρακτηριστικά που συνοδεύουν την κάθε λέξη είναι ένας απλός υπολογισμός της κατηγορίας της, καθώς αναζητείται ή προστίθεται στο λεξικό του συστήματος. Αριθμεί δεκατέσσερις κατηγορίες λεξικών χαρακτηριστικών, του τύπου «αριθμός με δύο ψηφία», «αριθμός με τέσσερα ψηφία», «όλα κεφαλαία», «κεφαλαίο αρχικό που ακολουθείται από τελεία», κατηγορίες τις οποίες έχει καταχωρήσει σε κατάλογο με βάση τη σειρά προτεραιότητας με την οποία τις εφαρμόζει. Τις αποδίδει, δηλαδή, στις λεξικές μονάδες, ξεκινώντας από τον «αριθμό με δύο ψηφία», και αφού έχει απορρίψει την πιθανότητα η λεξική μονάδα να ανήκει στην προηγούμενη κατηγορία του καταλόγου, φτάνει στην κατηγορία «άλλη», που συνήθως είναι τα σημεία στίξης. Στη συνέχεια, μέσα από μια διαδικασία στατιστικών πιθανοτήτων διαχωρίζει αρχικά οκτώ τάξεις ονομάτων, όπως «πρόσωπο», «οργανισμός», «όχι όνομα», και προσθέτει και άλλες δύο, τις εξής: «αρχή πρότασης», «τέλος πρότασης», τις οποίες υπολογίζει κυρίως λαμβάνοντας υπόψη το συγκείμενο πριν και μετά την υποψήφια λεξική μονάδα. Στο 174 Στη συνέχεια, το σύστημα, αφού βελτιώθηκε αρκετά, μετονομάστηκε σε BBN IdentiFinder, όνομα με το οποίο είναι γνωστό μέχρι σήμερα ( 175 Η επεξεργασία της ισπανικής έγινε για το MET (multi-lingual entity task). 104

105 εσωτερικό καθεμιάς από αυτές τις τάξεις χρησιμοποιείται ένα στατιστικό γλωσσικό μοντέλο διγράμμων (bigrams 176 ), με τη συνηθισμένη αντιστοίχιση μίας λεξικής μονάδας ανά τάξη. Το σύστημα «χτίζει» το λεξιλόγιό του κατά τη διαδικασία εκπαίδευσής του, οπότε γνωρίζει όσες λέξεις έχει ήδη καταχωρίσει με τα λεξικά χαρακτηριστικά τους. Όταν όμως συναντά άγνωστες λέξεις, παρουσιάζονται δυσκολίες ως προς τον τρόπο αντιμετώπισής τους. Για να συγκεντρώσουν οι Bikel D.M. et al. στατιστικά στοιχεία για τις άγνωστες λέξεις που εμφανίζονται ανάμεσα στις γνωστές, εκπαίδευσαν ένα μοντέλο άγνωστων λέξεων, το οποίο καλείται μόνο όταν το αρχικό εργαλείο δεν επαρκεί για την αναγνώρισή τους. Ακόμη και όταν κανένα από τα δύο συστήματα δεν καταφέρει να αναγνωρίσει ένα δίγραμμα, επειδή δεν το είχε συναντήσει κατά την εκπαίδευσή του, υπάρχει ένα λιγότερο περιγραφικό στατιστικό μοντέλο που αναλαμβάνει σ αυτό το σημείο. Ακολούθως εφαρμόζεται ένας αλγόριθμος, ο οποίος «αποκωδικοποιεί» την αρχική ακολουθία των τάξεων, ώστε να επιτύχει τη βέλτιστη αναγνώριση. Τα αποτελέσματα που πέτυχε το Nymble είναι F-measure της τάξης του 93% για την αγγλική γλώσσα και 90% για την ισπανική. Ο Bikel προχωρά σε μια σημαντική παρατήρηση, τονίζοντας πως τα αποτελέσματα της F-measure διαφοροποιούνται ανάλογα με το μέγεθος του κειμένου που χρησιμοποιείται για την εκπαίδευση του συστήματος. Έτσι, ενώ το κείμενο πρέπει να έχει μέγεθος περίπου λέξεων για να αποδώσει F-measure 93%, τα αποτελέσματα είναι αξιοπρεπή και με το μισό αυτού του αριθμού. Επίσης, η προσθήκη επιπλέον κειμένων δεν κρίνεται απαραίτητη, γιατί το περισσότερο κείμενο δεν ανταποκρίνεται σε πολύ καλύτερα αποτελέσματα Υβριδικές μέθοδοι Το σύστημα LTG των Mikheev et al. Το 1998 οι Mikheev et al. παρουσίασαν το σύστημα LTG στα πλαίσια του συνεδρίου MUC- 7, που ήταν και το τελευταίο της σειράς. Κάνοντας συνδυαστική χρήση τεχνικών που ήταν χαρακτηριστικές είτε των γλωσσολογικών, είτε των στατιστικών θεωριών, παρουσίασαν αποτελέσματα ακρίβειας και αναγνώρισης ανώτερα των άλλων συστημάτων. Η ευελιξία που παρουσίασε το LTG στη σήμανση και κατηγοριοποίηση των οντοτήτων, οφείλεται στην 176 Δίγραμμα αποκαλείται η ακολουθία δύο γραμμάτων, δύο συλλαβών ή δύο λέξεων. 105

106 αποτελεσματικότητα των επιμέρους εργαλείων, τα οποία αναπτύχθηκαν στη διάρκεια αρκετών χρόνων και παρουσιάζουμε παρακάτω. Ο διαχωριστής σε λογικές μονάδες (tokeniser) «lttok», που είναι υπεύθυνος για την κατάτμηση του κειμένου, χρησιμοποιεί για τη διαχείριση αμφισημιών σχετικών με τη χρήση των σημείων στίξης, και άρα του καθορισμού του τέλους πρότασης, το πρόγραμμα «ltstop», το οποίο βασίζεται σε μοντέλα μέγιστης εντροπίας που έχουν ήδη εκπαιδευτεί σε κάποιο σώμα κειμένου. Με αυτό τον τρόπο ο lttok μπορεί να διαχωρίσει πότε μια τελεία σημαίνει τέλος περιόδου ή είναι τμήμα ενός αρτικόλεξου που ακολουθείται από νέα πρόταση. Οπότε προσθέτει στο κείμενο σαν σήμανση τέλους πρότασης μια εικονική τελεία μετά το αρτικόλεξο, η οποία δεν είναι ορατή, αλλά εμφανίζεται ως ετικέτα. Ένα ακόμη εργαλείο που χρησιμοποιεί το LTG είναι ένας part-of-speech tagger με την ονομασία «LT POS». Ο tagger είναι ικανός να «διαβάσει» μια σειρά από SGML στοιχεία 177, και για να τοποθετήσει τις σωστές ετικέτες στις οντότητες εφαρμόζει τεχνικές που βασίζονται σε κρυφά Μαρκοβιανά μοντέλα, τα οποία αντλούν τους υπολογισμούς τους από τριγραμμικά μοντέλα μέγιστης εντροπίας. Επίσης, πραγματοποιήθηκε προεργασία και σε επίπεδο λεξικών μονάδων με την προσθήκη επιπλέον πληροφοριών σήμανσης σε όσες ξεκινούν με κεφαλαίο αρχικό γράμμα και εμφανίζονται επίσης στο λεξικό με μικρό ή εμφανίζονται μέσα στο ίδιο κείμενο αλλά σε άλλο σημείο με μικρό. Πρόσθετες «σημασιολογικές» σημάνσεις, όπως επάγγελμα ή επίθετο που δηλώνει εθνικότητα, προστέθηκαν επίσης σε λεξικές μονάδες που εμφανίζονταν σε συγκεκριμένους καταλόγους (διευθυντής, εκπρόσωπος) ή σε λεξικές μονάδες που είχαν συγκεκριμένες καταλήξεις, ( yst, ist => analyst, geologist), οι οποίες «πρόδιδαν» αυτές τις ιδιότητές τους. Εκτός από τα παραπάνω υποσυστήματα, στο σύστημα LTG έχουν ενσωματωθεί επιπλέον εργαλεία για να πραγματοποιούνται προσθήκες ή αφαιρέσεις ετικετών σήμανσης από το κείμενο. Το σημαντικότερο όμως υποσύστημά του λέγεται «fsgmatch» και πρόκειται για ένα SGML μετασχηματιστή (transducer). Χρησιμοποιείται για να ενώνει ορισμένα στοιχεία (elements 178 ) που έχουν SGML σήμανση σε μεγαλύτερα SGML στοιχεία. Η χρήση του μπορεί να συνδυαστεί με διάφορα λεξικά, ανάλογα με τις ανάγκες του ερευνητή. Σε περίπτωση, για παράδειγμα, που ο ερευνητής αναζητά ονόματα οργανισμών, μπορεί να επιλέξει να χρησιμοποιήσει το συνδυασμό του «fsgmatch» και το ανάλογο λεξικό οργανισμών. Στη συνέχεια να τα εφαρμόσει στο κείμενο (το οποίο έχει ήδη γενική σήμανση 177 Είναι η σήμανση όπως ακριβώς καθορίστηκε από τα MUC με το ENAMEX. 178 Ό,τι υπάρχει ανάμεσα στις εκάστοτε SGML ετικέτες. 106

107 με προηγούμενη χρήση του «lttok») και να λάβει ως αποτέλεσμα το αρχικό κείμενο με μοναδικές προσθήκες νέων ετικετών αυτές των οργανισμών. Στο ακόλουθο παράδειγμα η πρόταση παρουσιάζεται στο 2α στην αρχική της μορφή, στο 2β μετά το πέρασμα του «lttok», και στο 2γ, αφού έχει υποστεί την παραπάνω επεξεργασία. Με τις ετικέτες «<W>» και «</W>» έγινε η σήμανση των ορίων των απλών λεξικών μονάδων, ενώ με την ετικέτα <ENAMEX TYPE="ORGANIZATION"> δηλώνεται πως το στοιχείο που ακολουθεί είναι οντότητα που ανήκει στην κατηγορία «οργανισμός». (2α) said the director of Russian Bear Ltd. (2β) <W>said</W> <W>the</W> <W>director</W> <W>of</W> <W>Russian</W> <W>Bear</W> <W>Ltd.</W> <W C=. > </W> (2γ) <W>said</W> <W>the</W> <W>director</W> <W>of</W> <ENAMEX TYPE="ORGANIZATION"> <W>Russian</W> <W>Bear</W> <W>Ltd.</W> </ENAMEX> <W C=. > </W> Ο ερευνητής, λοιπόν, με την συνδυαστική χρήση των «lttok» και «fsgmatch» έχει στη διάθεσή του ένα ιδιαίτερα ευέλικτο εργαλείο που του επιτρέπει να διαμορφώσει ένα κείμενο όπως ακριβώς το θέλει. Οι Miκheev et al (1998:4) παραθέτουν ένα χαρακτηριστικό παράδειγμα αυτής της ελευθερίας που αφορά τη σήμανση ως οντοτήτων SGML, ακολουθιών της μορφής «5th (=5 ος )» ή «1st (=1 ος )». Υπάρχει η δυνατότητα να σημανθούν με δύο τρόπους. Είτε σε επίπεδο χαρακτήρων κάνοντας χρήση του «lttok» και λογικών εκφράσεων, δηλώνοντας στο πρόγραμμα να αναζητήσει και να σημάνει ως <W C=ORD> ακολουθίες που προκύπτουν εφαρμόζοντας το [0-9]+[ -]?((st) (nd) (rd) (th)) 179. Είτε σε επίπεδο SGML, με παρόμοια τεχνική αλλά εκμεταλλευόμενοι αυτή τη φορά τις SGML ετικέτες. Αν το «lttok» με το πρώτο πέρασμα σήμανε τους αριθμούς όπως το «5» με την ετικέτα <W C=NUM>, τότε ο ερευνητής μπορεί να τους μετατρέψει σε ετικέτες <W C=ORD> με ένα κανόνα τύπου «fsgmatch». Αυτός θα δηλώνει πως, όταν συναντηθεί ένα στοιχείο μέσα σε ετικέτα <W C=NUM> και ακολουθείται από άλλο με ετικέτα <W> που περιέχει «st», «nd», «rd» ή «th», τότε να ενώσει τα περιεχόμενα του <W C=NUM> και του <W> σε ένα μόνο στοιχείο με ετικέτα <W C=ORD>. Οι μετασχηματιστικοί κανόνες στο «fsgmatch» μπορούν να χρησιμοποιήσουν όλες τις πληροφορίες που περιέχονται σε 179 Λογική έκφραση που ταυτοποιεί οτιδήποτε που ξεκινάει με ένα ή περισσότερα ψηφία, ίσως να ακολουθεί ένα κενό διάστημα και κατόπιν κολλημένο ενωτικό, και στη συνέχεια ένα από τα st, nd, rd, th. 107

108 ετικέτες, ανεξάρτητα από το βάθος τους, όπως επίσης και το αριστερό και δεξί συγκείμενο αυτών. Στο LTG η ανάκτηση των χρονικών (TIMEX) και αριθμητικών εκφράσεων (NUMEX) δεν ακολουθεί την προηγούμενη μεθοδολογία που χρησιμοποιείται για τα κύρια ονόματα (ENAMEX), αλλά πραγματοποιείται με τη χρήση γραμματικών κανόνων, καθώς στις αγγλικές εφημερίδες οι χρονολογίες και οι αριθμοί εμφανίζονται με σχετικά σταθερή δομή. Έτσι η ετικετοποίησή τους βασίστηκε στο συνδυασμό γραμματικών όπως και καταλόγων χρονικών εκφράσεων και νομισμάτων, τα οποία το υποσύστημα «fsgmatch» χρησιμοποίησε για να σημάνει το κείμενο. Η ανάλυση και αναγνώριση του συγκειμένου θεωρείται από τους Mikheev et al ως σημαντικότερη από τη χρήση καταλόγων και γραμματικών για την ανάκτηση των ονοματικών οντοτήτων. Η μέθοδός τους περιλαμβάνει πέντε στάδια στατιστικής επεξεργασίας του κειμένου που συνδυάζονται με το μετασχηματισμό των SGML στοιχείων, όπως περιγράφηκε νωρίτερα, για την αναγνώριση κυρίων ονομάτων. Στο πρώτο στάδιο γίνεται εφαρμογή «αλάνθαστων» κανόνων (sure-fire rules) για την κατηγοριοποίηση των ονοματικών οντοτήτων, οι οποίοι ενεργοποιούνται με βάση το συγκείμενο. Λεξικές μονάδες ή αρκτικόλεξα που χαρακτηρίζουν πάντα εταιρίες, όπως είναι τα «Ltd.» και «Inc.» ή τίτλοι που χαρακτηρίζουν πρόσωπα όπως είναι τα «Mr.» «Dr.» «Sen.», επηρεάζουν τους «αλάνθαστους» κανόνες. Σε αυτό το στάδιο μόνον τα παραπάνω λαμβάνονται υπόψη, ενώ, ακόμη και αν βρεθούν ονόματα που υπάρχουν στα λεξικά, δεν σημαίνονται αν δεν έχουν συγκείμενο που να πιστοποιεί το ρόλο τους ως κυρίου ονόματος. Στο δεύτερο στάδιο το σύστημα προχωρά σε ταυτοποίηση πιθανού τμήματος των οντοτήτων που αναγνωρίζονται στο κείμενο μέσω της χρήσης δύο εργαλείων. Το πρώτο εργαλείο συλλέγει όσες οντότητες αναγνωρίστηκαν στο κείμενο και προχωράει σε παραγωγή όλων των πιθανών μορφών που μπορεί καθεμιά από αυτές να έχει, διατηρώντας τη σειρά εμφάνισής τους. Παράλληλα σημειώνει τις θέσεις που αυτά κατέχουν στο κείμενο. Αν δηλαδή η ονοματική οντότητα «Στέλιος Κανάκης ΑΒΕΕ» του παραδείγματος 3 σημανθεί λόγω συγκειμένου ως οργανισμός, θα τεμαχιστεί σε όλες τις πιθανές μορφές της: «Στέλιος Κανάκης ΑΒΕΕ», «Στέλιος Κανάκης», «Στέλιος ΑΒΕΕ», «Κανάκης ΑΒΕΕ», «Στέλιος», «Κανάκης». Επειδή όμως λεξικές μονάδες όπως είναι τα «Κανάκης» ή «Στέλιος» μπορεί να αναφέρονται σε άλλες οντότητες του κειμένου, η σήμανση δεν είναι μόνιμη σ αυτό το στάδιο. 108

109 (3) Σε διπλασιασμό του τζίρου της στη Βόρεια Ελλάδα στοχεύει η Στέλιος Κανάκης ΑΒΕΕ με τη λειτουργία του νέου κέντρου αποθήκευσης και διανομής, που δημιούργησε στη Σίνδο Θεσσαλονίκης. Το δεύτερο εργαλείο που αναλαμβάνει την επεξεργασία των αναγνωρισμένων οντοτήτων είναι ένα ήδη εκπαιδευμένο μοντέλο μέγιστης εντροπίας που υπολογίζει πληροφορίες του συγκειμένου, όπως τη θέση της οντότητας στο κείμενο, αν οι λεξικές μονάδες που την απαρτίζουν υπάρχουν και με μικρό αρχικό γράμμα αλλού στο κείμενο κ.ά. Στη συνέχεια το μοντέλο με βάση αυτές τις πληροφορίες, που τις διαχειρίζεται ως χαρακτηριστικά των οντοτήτων, αποφασίζει αν θα προσθέσει επιπλέον σήμανση και τι είδους χαρακτηρισμό θα προσαρτήσει. Αφού ολοκληρωθεί η προηγούμενη διαδικασία, ακολουθεί το τρίτο στάδιο επεξεργασίας, όπου εφαρμόζονται μετασχηματιστικοί κανόνες που πλέον λαμβάνει υπόψη το σύστημα, γιατί μπορεί να τους χρησιμοποιήσει σε συνδυασμό με τις πληροφορίες που συγκέντρωσε στα δύο πρώτα στάδια, αλλά και με τα λεξικά που διαθέτει. Για παράδειγμα, αν συναντήσει μια ακολουθία λεξικών μονάδων που ξεκινούν από κεφαλαίο γράμμα και μοιάζουν με κύριο όνομα προσώπου, θα ανατρέξει στο λεξικό των βαπτιστικών. Σε περίπτωση που η πρώτη λεξική μονάδα υπάρχει καταχωρισμένη εκεί και οι υπόλοιπες είναι άγνωστες, θα σημανθεί το σύνολο ως ανθρωπωνύμιο. Η περίπτωση να είναι το κύριο όνομα τμήμα ονόματος εταιρίας δεν απασχολεί πλέον, καθώς θα υπήρχε ήδη αυτή η σήμανση από τα προηγούμενα στάδια. Το τέταρτο βήμα είναι ανάλογο του δεύτερου. Αρχικά εφαρμόζεται η μέθοδος μερικής ταυτοποίησης των τμημάτων μιας οντότητας και έπεται η εφαρμογή ενός μοντέλου μέγιστης εντροπίας. Με αυτό τον τρόπο χαρακτηρίζονται οντότητες όπως η «Κανάκης» του παραδείγματος 3, ως εταιρίες ακόμη και όταν βρίσκονται μόνες τους στην πρόταση, με την προϋπόθεση να έχει ήδη αναγνωριστεί ως εταιρία η ακολουθία «Στέλιος Κανάκης ΑΒΕΕ». Το τελικό στάδιο σήμανσης ασχολείται αποκλειστικά με τους τίτλους των δημοσιογραφικών άρθρων που είναι κεφαλαιογράμματοι. Χρησιμοποιώντας ένα μοντέλο μέγιστης εντροπίας εκπαιδευμένο σε τίτλους εγγράφων σημαίνει τις πιθανές οντότητες με κριτήριο την παρουσία τους στο κυρίως κείμενο. Εφαρμόζοντας λοιπόν τις παραπάνω τεχνικές στα κείμενα του MUC-7 και κάνοντας συνδυαστική χρήση λεξικών και στατιστικών κανόνων, το LTG πέτυχε να ξεπεράσει τα υπόλοιπα διαγωνιζόμενα συστήματα κυρίως λόγω της επίδοσής του στην κατηγορία της σήμανσης ονοματικών οντοτήτων οργανισμών. 109

110 Το σύστημα Nemesis των Fourour et al. Το 2002 οι Fourour et al. παρουσιάζουν για τη γαλλική γλώσσα το σύστημα Nemesis δίνοντας πολύ μεγάλη σημασία στη βοήθεια που μπορεί να αντλήσει ένα σύστημα από τους εσωτερικούς και εξωτερικούς ενδείκτες. Τα κριτήρια που χρησιμοποιούν για την αναγνώριση των ονοματικών οντοτήτων και την κατηγοριοποίησή τους βασίζονται στο συγκείμενο, το οποίο το Nemesis χρησιμοποιεί για να εντοπίσει τα όριά τους, μελετώντας την σύνταξη και τη μορφολογία τους. Αρχικά τεμαχίζεται το κείμενο, στη συνέχεια σημαίνονται σημασιολογικά οι οντότητες με βάση τα λεξικά και το συγκείμενο, και τέλος, όσες ακολουθίες δεν σημαίνονται από τα λεξικά και αρχίζουν με κεφαλαίο, λαμβάνουν τη σήμανση «NP 180». Μετά την εφαρμογή των λεξικών, γίνεται εφαρμογή των γλωσσικών κανόνων μέσω της χρήσης λογικών εκφράσεων σε επίπεδο εσωτερικών ενδεικτών. Κατόπιν, για να ενημερωθούν τα λεξικά με όσες λεξικές μονάδες δεν έχουν σημανθεί μέχρι αυτό το στάδιο, επειδή δεν είχαν χαρακτηριστικό συγκείμενο, εφαρμόζεται μια μέθοδος που βασίζεται σε ορισμένα γλωσσολογικά κριτήρια. Η ακρίβεια του Nemesis είναι 95%, ενώ η αναγνώριση 90%. Το σύστημα των Cucchiarelli et al. Οι Cucchiarelli et al. (1998) παρουσιάζουν ένα σύστημα για την ιταλική γλώσσα που συνδυάζει τις γλωσσολογικές και στατιστικές προσεγγίσεις για να κατηγοριοποιήσει τα άγνωστα κύρια ονόματα, κάνοντας χρήση του συγκειμένου που προηγουμένως έχει ανακτηθεί από το σώμα κειμένων που χρησιμοποιεί. Μέσω αυτής της μεθόδου μπορεί να ξεπεραστεί ο περιορισμός των μικρών καταλόγων λέξεων και των ανεπαρκών κανόνων. Χρησιμοποιείται ένα σώμα κειμένων για την εκπαίδευση της μεθόδου, ένας συντακτικός αναλυτής, ένα λεξικό συνωνύμων, ένας κατάλογος με τις κατηγορίες των ονομάτων για να χαρακτηριστούν οι οντότητες που θα ανακτηθούν, και, τέλος, ένας κατάλογος ονομάτων και περίπου 250 κανόνες, ώστε το σύστημα να σχηματίσει ένα αρχικό μοντέλο για τη μορφή του συγκειμένου των κυρίων ονομάτων. 180 NP=noun phrase (ονοματική φράση). 110

111 4.3 Συμπεράσματα Μέσα από τις περιγραφές γίνεται αντιληπτό πως ανεξάρτητα από το είδος προσέγγισης, εξακολουθεί να απαιτείται «χειρωνακτική εργασία», είτε για να δημιουργηθούν οι κανόνες και τα λεξικά στις γλωσσολογικές θεωρίες, είτε για να αποκτήσει σήμανση το κείμενο με το οποίο θα τροφοδοτηθούν τα συστήματα μηχανικής μάθησης 181. Ο αριθμός των κυρίων ονομάτων που επιδιώκουν να αναγνωρίσουν τα περισσότερα συστήματα του MUC είναι άμεσα εξαρτημένος από το είδος κειμένου ανά περίπτωση. Σε ένα κείμενο οικονομικού περιεχομένου είναι συγκεκριμένες οι κατηγορίες που θα απασχολήσουν τους αναλυτές, ενώ σε περίπτωση που ενδιαφερόμαστε για τη μετάφρασή του, η αναγνώριση πρέπει να είναι η πλέον εξαντλητική. Έτσι, ανάλογα με το κείμενο, διαφέρουν και οι τεχνικές που χρησιμοποιούνται. Τα αποτελέσματα, ενώ ποικίλλουν ανάλογα με τις συνθήκες, φαίνεται να συγκλίνουν στο γεγονός πως οι γλωσσολογικές μέθοδοι, κάνοντας χρήση καταλόγων ονομάτων, του συγκειμένου και λογικών εκφράσεων, είναι αποδοτικότερες από τις μεθόδους μηχανικής μάθησης. Δανειζόμαστε τα λόγια των Palmer και Day (1997:193) που υποστηρίζουν πως «τα αποτελέσματα της ανάλυσης αυτής δείχνουν πως είναι δυνατό να πραγματοποιηθεί ένα μεγάλο μέρος του έργου της αναγνώρισης ονοματικών οντοτήτων με μια πολύ απλή ανάλυση των ακολουθιών που συνθέτουν τις φράσεις ακόμη περισσότερο είναι δυνατό με μια πρόσθετη επιθεώρηση του κοινού φραστικού συγκειμένου. Η βασική αρχή είναι ο νόμος του Zipf λόγω της επικράτησης πολύ συχνών φαινομένων, πολύ υψηλή βαθμολογία, με ελάχιστη προσπάθεια, μπορεί να επιτευχθεί απευθείας από τα εκπαιδευτικά δεδομένα. Ωστόσο, σύμφωνα με τον ίδιο νόμο που μας δίνει την αρχικά υψηλή βαθμολογία, η σταδιακή πρόοδος πάνω από τη γραμμή βάσης μπορεί να είναι επίπονη και ιδιαίτερα εξαρτημένη από τη συγκεκριμένη γλώσσα. Τέτοιου είδους βελτίωση μπορεί σίγουρα να επιτευχθεί μόνο μέσω της γλωσσολογικής διαίσθησης» 182. Τα αποτελέσματα της ανάκτησης βελτιώνονται ακόμη περισσότερο, όταν πραγματοποιείται συνδυασμός των δύο προηγούμενων μεθόδων στις υβριδικές προσεγγίσεις, με μειονέκτημα την οικονομία χρόνου, αφού η προετοιμασία των απαραίτητων δεδομένων ξεπερνάει το χρόνο των «καθαρών» συστημάτων. 181 Η αναγκαιότητα της ανθρώπινης επέμβασης, έστω και οριακής, δεν περιορίζεται στο πεδίο της εξαγωγής ονοματικών οντοτήτων, αλλά επεκτείνεται στο σύνολο των συστημάτων εξαγωγής πληροφοριών. Το διαπιστώνουμε από τις θέσεις ερευνητών που διατυπώνουν ότι ακόμη και για τις υβριδικές μεθόδους: «Η μέθοδος λειτουργεί με ένα αρκετά απλό τρόπο. Είναι ημι-αυτόματη επειδή απαιτείται η ύπαρξη του "ειδήμονα στον τομέα" και του λεξικογράφου. Πιστεύουμε πως είναι απαραίτητοι, ώστε η μέθοδος να αποδώσει υψηλό βαθμό ακρίβειας και ολοκλήρωσης» (Frantzi K. 2003:225) 182 Η μετάφραση είναι δική μας. 111

112 ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ 5. Αυτόματη αναγνώριση κυρίων ονομάτων Η Αναστασιάδη-Συμεωνίδη (1986:18) αναφέρει πως «πραγματικά οι απαιτήσεις της σύγχρονης λεξικογραφικής έρευνας υποχρεώνουν τον ερευνητή να ξεπεράσει το αποδελτιωμένο corpus του, όσο μεγάλο και να είναι, γιατί ο ερευνητής πέρα από τις πραγματώσεις στο λόγο (discours) πρέπει να ερευνήσει τους μηχανισμούς, τις δυνατότητες του συστήματος και να διατυπώσει κανόνες που να ερμηνεύουν το γλωσσικό φαινόμενο που αναλύεται». Στην έρευνα που διεξάγουμε, στην έννοια του corpus αντιστοιχούν τα λεξικά που δημιουργούμε για να αναγνωρίσουμε τα κύρια ονόματα. Οφείλουμε να αποδεχτούμε πως όσο ενημερωμένα και να διατηρούνται τα λεξικά μας, είναι δύσκολο να ανταγωνιστούν τη Νέα Ελληνική νεολογία, όπως αυτή λειτουργεί μέσω της παραγωγής και της σύνθεσης. Προκύπτει λοιπόν η ανάγκη ύπαρξης εργαλείων που να διαθέτουν την ικανότητα να ανακτούν αυτόματα ως κύρια ονόματα τις λεξικές μονάδες που πληρούν συγκεκριμένα κριτήρια που έχουν οριστεί a priori από τον ανθρώπινο αναλυτή. Η διαδικασία έχει δύο στάδια, πρώτα πρέπει να αναγνωριστούν τα κύρια ονόματα και μετά να κατηγοριοποιηθούν. Όπως αναφέρει και ο Kruchkov (2001:722) 183 : «ο στόχος της αυτόματης μορφολογικής ανάλυσης είναι να πραγματοποιεί αυτόματα τη μορφολογική κατηγοριοποίηση μιας αυθαίρετης λεξικής μονάδας. Περιλαμβάνει την αναγνώριση της βασικής μορφής της λεξικής μονάδας, των γραμματικών της χαρακτηριστικών και σε ποιο κλιτικό παράδειγμα ανήκει». Αναφερθήκαμε, στο 2 ο κεφάλαιο της παρούσας μελέτης, σε μία από τις σημαντικότερες συνιστώσες της μορφολογικής ανάλυσης, τα ηλεκτρονικά λεξικά. Τα ηλεκτρονικά λεξικά που κατασκευάζουμε αποτελούν την ιδανική βάση στην οποία μπορούμε να στηρίξουμε τη δημιουργία ενός μορφολογικού αναλυτή. Πρόκειται για ένα απαραίτητο εργαλείο για την υπολογιστική γλωσσολογία, καθώς αποτελεί το μέσο με το οποίο πραγματοποιείται η πρώτη προσέγγιση ενός γραπτού κειμένου. Σκοπός του αναλυτή είναι η αυτόματη μορφολογική ανάλυση και σύνθεση λεξικών μονάδων, έχοντας ως αφετηρία τον «θεωρητικό τύπο» τους, τον οποίο αντλεί από τα λεξικά μας. Είναι φυσικά εμφανές πως για τη δημιουργία και εξέλιξη ενός τέτοιου εργαλείου θεωρείται δεδομένη μια προϋπάρχουσα διεξοδική μελέτη των μορφολογικών φαινομένων της υπό μελέτη γλώσσας. 183 Η μετάφραση είναι δική μας. 112

113 Σημειώσαμε πως η έρευνα που απαιτείται για την κατασκευή τους είναι μακροχρόνια, γι αυτό επιχειρούμε να επιτύχουμε μείωση αυτού του απαιτούμενου χρόνου κάνοντας χρήση εξειδικευμένων τεχνικών και εργαλείων. Πριν παρουσιάσουμε τις τεχνικές και τη μεθοδολογία που ακολουθήσαμε για την αυτόματη αναγνώριση, κρίνουμε απαραίτητο να αναφερθούμε αρχικά στα εργαλεία που χρησιμοποιήθηκαν. 5.1 Μεθοδολογία αυτόματης αναγνώρισης κυρίων ονομάτων Εφαρμόζοντας φυσικά σε ένα σώμα κειμένων τις μεθόδους αυτόματης αναγνώρισης, τα λήμματα που ανακτούνται ανήκουν σε διαφορετικές κατηγορίες ονοματικών οντοτήτων, όχι μόνο στα ανθρωπωνύμια στα οποία εστιάζει η παρούσα μελέτη. Θα περιγράψουμε στο παρόν υποκεφάλαιο τις ενέργειες στις οποίες προβήκαμε για την ορθή κατηγοριοποίηση των αυτόματα ανακτημένων λημμάτων, ενώ αμέσως παρακάτω θα παραθέσουμε την περιγραφή δύο βασικών γλωσσολογικών εργαλείων για την αυτόματη αναγνώριση, των πεπερασμένων αυτομάτων και των μεταβιβαστών Γλωσσολογικά εργαλεία Τα Αυτόματα πεπερασμένων καταστάσεων (Finite state automata) 184 Τον ορισμό του όρου Finite state automata δίνει ο Silberztein (1993:8) λέγοντας: «Ένα πεπερασμένο αυτόματο είναι ένας γράφος που περιέχει κόμβους και βέλη που συνδέουν αυτούς τους κόμβους. Ανάμεσα στους κόμβους ξεχωρίζουν δύο: ο αρχικός κόμβος και ο τελικός κόμβος. Οι κόμβοι έχουν ετικέτες (εκτός από τον τελικό). Δηλαδή τους συσχετίζουμε με την κενή λέξη (<E>) ή με ένα σύμβολο» 185. Έναν πιο περιγραφικό και ίσως αναλυτικό ορισμό βρίσκουμε και στη Σκλαβούνου Ε. (1995) : «Τα πεπερασμένα αυτόματα (automates finis) είναι γραμμικά γραφήματα με αρχή και τέλος που χρησιμοποιούνται ως εργαλεία αναπαράστασης γλωσσικών φαινομένων σε διάφορα επίπεδα περιγραφής των φυσικών γλωσσών: ορθογραφικές παραλλαγές, φωνολογική αναπαράσταση, αναπαράσταση κλιτικών παραδειγμάτων, κατάρτιση τοπικών γραμματικών, άρση λανθασμένων επιλογών και μετάφραση δίγλωσσων πληροφοριών». 184 Για μια πιο ολοκληρωμένη περιγραφή βλ. Silberztein, M. (1993) Dictionnaires électroniques et analyse automatique de textes - Le système INTEX, Masson, Paris. 185 Η μετάφραση είναι δική μας από: Un automate fini est un graphe, qui contient des nœuds et des flèches qui relient les nœuds. Parmi les nœuds, on en distingue deux : le nœud initial et le nœud terminal. Les nœuds sont étiquetés (sauf le nœud terminal), c est-à-dire qu on leur associe le mot vide (<E>), ou un symbole. 113

114 Τα πεπερασμένα αυτόματα επιτρέπουν τη γρήγορη, αποτελεσματική και πιστή αναπαράσταση φυσικών γλωσσικών δεδομένων (λεξιλογικών και συντακτικών). Αυτά είναι τα σύνολα των ακολουθιών που χαρακτηρίζονται με τον όρο «αναγνωρισμένα» (reconnues) από το αυτόματο. Για να γνωρίζουμε αν μία ακολουθία είναι αναγνωρισμένη ή όχι από ένα αυτόματο, εφαρμόζουμε τον αλγόριθμο αναγνώρισης (algorithme de reconnaissance) 186. Η δυνατότητα ενσωμάτωσης ενός προγράμματος σύνταξης πεπερασμένων αυτομάτων στον πυρήνα ενός συστήματος υπήρξε ένα από τα σημαντικότερα κριτήρια για την επιλογή του εργαλείου που θα χρησιμοποιήσουμε. Το συγκεκριμένο χαρακτηριστικό συναντάμε στα συστήματα αυτόματης ανάλυσης τα οποία θα παρουσιάσουμε παρακάτω, στην ενότητα Οι μεταβιβαστές Τα πεπερασμένα αυτόματα είναι ένας μηχανισμός πεπερασμένων καταστάσεων που, εφόσον δεν εμπλουτιστεί με επιπλέον γλωσσικές πληροφορίες, λειτουργεί μόνον ως μηχανισμός εισόδου και περιορίζεται στην αναγνώριση του φαινομένου που περιγράφουμε μέσα από τις διαδρομές του. Υπάρχει όμως η επιλογή, στην έξοδο του αυτομάτου να προστεθούν πληροφορίες που θα μεταβιβάζονται στα αποτελέσματα που αυτός αναγνώρισε. Σε αυτή την περίσταση, το αυτόματο ονομάζεται μεταβιβαστής πεπερασμένων καταστάσεων, λόγω της δυνατότητάς του να προσδιορίζει τα αποτελέσματα με τις συγκεκριμένες δηλωμένες ιδιότητες. Εξάλλου, ο M. Gross (1993) αναφέρει πως κάθε μεταβιβαστής στο σύστημά μας αντιπροσωπεύει μια τοπική γραμματική που είναι αφιερωμένη στην περιγραφή ενός μέρους μιας πρότασης, δηλαδή μια τοπική γλωσσική έκφραση 187. Εφαρμόζοντας μάλιστα τους μεταβιβαστές στο σώμα κειμένων που επεξεργαζόμαστε, μπορούμε να το μετατρέψουμε από ένα απλό κείμενο, σε ένα πλούσιο σε συντακτικο-σημασιολογικές πληροφορίες εργαλείο εμπλουτισμού των λεξικών μας. Σύμφωνα με την αναφορά που βρίσκουμε στους Nouvel et al. (2010:523) 188, «οι μεταβιβαστές περιγράφουν γλωσσικές κατασκευές, οι οποίες αναζητούνται σε κείμενα και περιέχουν μορφολογικά, λεξιλογικά και συντακτικά μοτίβα. Επίσης ορίζουν ενέργειες (εισαγωγές ή αντικαταστάσεις) που πραγματοποιούνται στο κείμενο που προκύπτει». 186 Silberztein (1993). 187 Βλ. Gross M

115 5.1.2 Συστήματα Για την εφαρμογή στα σώματα κειμένων των γλωσσικών πόρων που δημιουργήσαμε, χρησιμοποιήθηκαν τα υπολογιστικά προγράμματα INTEX (πλέον NOOJ) και UNITEX. Πρόκειται για λογισμικά που ακολουθούν κοινή μεθοδολογική προσέγγιση για την αυτόματη ανάλυση των φυσικών γλωσσών, η οποία πηγάζει από το θεωρητικό πλαίσιο του LADL. Χρησιμοποιήσαμε επίσης και τα δύο λογισμικά έχοντας ως βασικό κριτήριο για την επιλογή μεταξύ τους τη διαθεσιμότητα που υπήρχε στην εκάστοτε χρονική στιγμή. Έτσι, ενώ η ανάπτυξη των γλωσσικών μας πόρων ξεκίνησε στο περιβάλλον του INTEX, ολοκληρώθηκε στο αντίστοιχο του UNITEX. Παρακάτω θα επιχειρήσουμε μια σύντομη περιγραφή των υποεργαλείων τους και του τρόπου λειτουργίας τους Το σύστημα NOOJ Η δημιουργία του INTEX (αρχική έκδοση του NOOJ) πραγματοποιήθηκε από τον Max Silberztein, που ήταν ο πρώτος που έθεσε τις βάσεις για τη σταδιακή εξέλιξη του συστήματος στη σημερινή του μορφή. Η ανάπτυξη και επεξεργασία πραγματοποιήθηκε στο LADL 189 από τα τέλη της δεκαετίας του 80, αρχικά κάτω από την εποπτεία του Maurice Gross και στη συνέχεια του Eric Laporte του Πανεπιστημίου Paris 7 με το όνομα INTEX. Τα πρώτα μορφολογικά ηλεκτρονικά λεξικά κατασκευάστηκαν από τη Blandine Courtois και τον Max Silberztein το Το λεξικό-γραμματική σχεδιάστηκε και αναπτύχθηκε από τον Maurice Gross και την ερευνητική του ομάδα στο Πανεπιστήμιο Paris 7. Σήμερα, παράλληλα με τη γαλλική έκδοση, το σύστημα λειτουργεί επίσης και σε άλλες γλώσσες, όπως τα ελληνικά, ισπανικά, αγγλικά και από το 2002 έχει μετονομαστεί σε NOOJ 190. Το περιβάλλον αυτόματης αναγνώρισης και επεξεργασίας γλωσσικών δεδομένων NOOJ, που είναι σχετικά σύνθετο στη λειτουργία του, χρησιμοποιείται για τον αυτόματο εντοπισμό και την αναγνώριση συντακτικο-σημασιολογικών μονάδων και πολυλεξικών ακολουθιών μέσα στα σώματα κειμένων, για την άρση των λεξικών και συντακτικών αμφισημιών, τη δημιουργία συμφραστικών πινάκων, τη στατιστική επεξεργασία των γλωσσικών πληροφοριών καθώς και για την ημι-αυτόματη μετάφραση. 189 Laboratoire d Automatique Documentaire et Linguistique

116 Βασίζεται στη χρήση ηλεκτρονικών λεξικών μεγάλου μεγέθους, χωρισμένων σε δύο βασικές κατηγορίες, των απλών και σύνθετων λέξεων 191 και τα οποία συμπληρώνονται από τοπικές γραμματικές (grammaires locales). Η δημιουργία τους γίνεται μέσω δύο ισοδύναμων μοντέλων αναπαράστασης λεξικών μονάδων, των Λογικών Εκφράσεων (Expressions rationnelles) και των Πεπερασμένων Αυτομάτων (Automates Finis). «Οι λογικές εκφράσεις και τα πεπερασμένα αυτόματα αποτελούν ηλεκτρονικά μέσα περιγραφής γλωσσικών δεδομένων που επιτρέπουν την παραγωγή γλωσσικών τύπων με άριστα αποτελέσματα, τόσο στην πιστή γλωσσολογική περιγραφή, όσο και στην επίλυση πολύπλοκων προβλημάτων κλίσης και στην οικονομική και γρήγορη παραγωγή μεγάλου αριθμού μορφολογικών τύπων» 192. Παρά την πολυπλοκότητα της λειτουργίας του, το πεπερασμένο αυτόματο είναι πολύ ευέλικτο και δίνει τη δυνατότητα στο χρήστη με φυσικό και κατανοητό τρόπο 193 να δημιουργεί και να εισάγει καινούργιες γραμματικές και λεξικά. Κάτι τέτοιο είναι εφικτό λόγω της ανοιχτής δομής του, αφού αποτελείται από ανεξάρτητα υποσυστήματα. Ο λεξιλογικός αναλυτής του NOOJ είναι ένα πολύπλοκο σύστημα που αποτελείται από πολυάριθμα προγράμματα, ορισμένα από τα οποία έχουν άμεση εφαρμογή στην επεξεργασία των κειμένων. Παρατίθενται στη συνέχεια τρία εξ αυτών: Ο ορθογραφικός επαληθευτής (vérificateur orthographique) εξακριβώνει την ορθογραφία κάθε λέξης ξεχωριστά, καθώς και ορισμένες γραμματικές συμφωνίες και παράγει μηνύματα λάθους που βρίσκονται μέσα σε παρενθέσεις, με στόχο την εξάλειψη αμφισημιών. Το πρόγραμμα αυτόματης δημιουργίας πινάκων-ευρετηρίων (indexation automatique) κατασκευάζει ένα ευρετήριο περιεχομένων του κειμένου, κάνοντας χρήση ενός λεξικού με εκ των προτέρων καταγεγραμμένους όρους. Πραγματοποιεί μια μορφολογική ανάλυση, ώστε να αναγνωρίσει τους όρους που κλίνονται ή όχι, μέσα στα κείμενα 194. Έτσι, συγκεντρώνει όλους τους κλιτούς τύπους μιας λ.μ. (απλής ή σύνθετης) κάτω από το ίδιο λήμμα στον πίνακα περιεχομένων. Τα προγράμματα επεξεργασίας του corpus (traitement de corpus) αναζητούν στα κείμενα τις ζητούμενες μορφοσυντακτικές δομές και τις παρουσιάζουν με μορφή 191 Ως απλές λέξεις, εννοούνται οι μονολεκτικές λεξικές μονάδες και ως σύνθετες, εννοούνται οι ονοματικές λεξικές φράσεις. 192 Βλ. Σκλαβούνου Ε. (1998:461). 193 Είτε μέσω ενός ειδικού Editor που διαθέτει το πρόγραμμα, είτε με μορφή Λογικών Εκφράσεων (Expressions rationnelles). 194 Για παράδειγμα, αν συναντήσει το σύνθετο μαύρα κουτιά, θα κατασκευάσει αυτόματα στον πίνακα περιεχομένων το λήμμα : μαύρο κουτί. 116

117 συμφραστικών πινάκων (concordance). Οι ακολουθίες που είναι πιθανό να εμφανιστούν, μπορούν να περιέχουν γραμματικές πληροφορίες, όπως ρήμα στον ενικό, μορφή του ρήματος «τρώγω» κτλ. Τα αποτελέσματα των πινάκων χρησιμοποιούνται σε υφολογικές μελέτες κλασικών κειμένων, σε μελέτη εγγράφων (επεξεργασία τεχνικών κειμένων), όπως επίσης και στον εμπλουτισμό των λεξικών του συστήματος Το σύστημα UNITEX 195 Το UNITEX (Paumier 2003, 2008, 2011) 196, όπως και το NOOJ, έχει ως θεωρητικό υπόβαθρο τις γλωσσολογικές προσεγγίσεις του LADL, όπως αυτές διαμορφώθηκαν από τον M. Gross. Είναι αναμενόμενο λοιπόν να μοιράζονται πολλά στοιχεία όσον αφορά την αρχιτεκτονική του συστήματος και τον τρόπο που πρέπει να είναι δομημένα τα γλωσσικά δεδομένα πριν τροφοδοτήσουν το σύστημα. Η ανάπτυξη του λογισμικού ξεκίνησε το 2002 από τον Sébastien Paumier και συνεχίζεται μέχρι σήμερα σε πολλές γλώσσες με συνεχείς βελτιώσεις αλλά και προσθήκες νέων υποεργαλείων. Ουσιαστικά πρόκειται για μια συλλογή προγραμμάτων που επεξεργάζονται τις διαφορετικές εκφάνσεις των φυσικών γλωσσών και παρουσιάζονται κάτω από ένα κοινό σύστημα διεπαφής. Υπάρχει φυσικά η δυνατότητα αξιοποίησης ηλεκτρονικών λεξικών, γραμματικών και πινάκων λεξικού-γραμματικής, ενώ και ο τρόπος λειτουργίας του ακολουθεί την περιγραφή που δώσαμε για το NOOJ. Η προετοιμασία των λημμάτων που περιέχονται στα λεξικά ακολουθεί το φορμαλισμό DELA, ενώ η εγγενής δυνατότητα να ενσωματώνει στον πυρήνα του εγκιβωτισμένους γράφους 197 αποτελεί ένα σημαντικότατο χαρακτηριστικό που παρέχει ιδιαίτερη ευελιξία στη σύνταξη κανόνων ή εξαιρέσεων για την αναγνώριση λημμάτων κατά την επεξεργασία του σώματος κειμένων. Το δύο αυτά συστήματα αποτελούν απαραίτητα εργαλεία για κάθε μελετητή κειμένων και κυρίως για τους γλωσσολόγους, στα χέρια των οποίων δίνεται ένα ισχυρό και αξιόπιστο μέσο επεξεργασίας κειμένων. Όπως αναφέρει ο Kruchkov (2001:712) για το Unitex: «είναι ένα σύστημα, που δίνει τη δυνατότητα στον ερευνητή να δημιουργήσει και να Βλ. M. Silberztein (1993). 117

118 διατηρήσει προσωπικά ηλεκτρονικά λεξικά μέσω των οποίων μελετά όλες τις παραμέτρους μιας φυσικής γλώσσας» Η ελληνική έκδοση Για την ελληνική έκδοση του UNITEX, στο πλαίσιο ανάπτυξης της οποίας εντάσσεται και η παρούσα εργασία, εργάζεται ήδη η ερευνητική ομάδα ΕΜΕΛ 198, περίπου δεκαπέντε ατόμων, η οποία συνεχώς εμπλουτίζει με νέα λήμματα όλες τις κατηγορίες των λεξικών του συστήματος. Ενδεικτικά αναφέρω μερικούς αριθμούς: ΠΙΝΑΚΑΣ ΓΛΩΣΣΙΚΩΝ ΠΟΡΩΝ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΜΟΡΦΟΛΟΓΙΚΩΝ ΛΕΞΙΚΩΝ Delas Delaf επίθετα επίθετα 62 συντομογραφίες 62 συντομογραφίες επιρρήματα επιρρήματα 48 σύνδεσμοι 48 σύνδεσμοι 47 προσδιοριστές 503 προσδιοριστές 28 επιφωνήματα 28 επιφωνήματα ουσιαστικά (συμπεριλαμβανομένων των κυρίων ονομάτων) ουσιαστικά (συμπεριλαμβανομένων των κυρίων ονομάτων) 34 μόρια 34 μόρια 48 προθέσεις 48 προθέσεις 9 εμπρόθετοι προσδιοριστές 9 εμπρόθετοι προσδιοριστές 52 αντωνυμίες 564 αντωνυμίες ρήματα ενεργητικής φωνής ρήματα ενεργητικής φωνής ρήματα μεσοπαθητικής φωνής ρήματα μεσοπαθητικής φωνής Delac επίθετα (συμπεριλαμβανομένων των αριθμητικών) 183 ακρωνύμια 183 ακρωνύμια 22 επιρρήματα 22 επιρρήματα ουσιαστικά (συμπεριλαμβανομένων των κυρίων ονομάτων) Delacf επίθετα (συμπεριλαμβανομένων των αριθμητικών) ουσιαστικά (συμπεριλαμβανομένων των κυρίων ονομάτων) αρκτικόλεξα αρκτικόλεξα 198 Εργαστήριο Μετάφρασης Και Επεξεργασίας του Λόγου. 118

119 5.2 Μεθοδολογία αυτόματης αναγνώρισης κυρίων ονομάτων Επιχειρήσαμε να αναπαραστήσουμε τις σχέσεις των κυρίων ονομάτων προσώπων στη Νέα Ελληνική περιγράφοντας ανεξάρτητα τα βαπτιστικά και ανεξάρτητα τα επώνυμα και κατόπιν συνδυάζοντάς τα μεταξύ τους. Παράλληλα προσθέσαμε σταδιακά στο αριστερό και δεξί τους συγκείμενο οποιοδήποτε γλωσσικό στοιχείο φαινόταν πως είναι σε θέση να λειτουργήσει επικουρικά για τη λεπτομερέστερη και πιο εκτενή περιγραφή τους. Έχουμε ήδη αναφέρει σταδιακά σε προηγούμενα σημεία της παρούσας έρευνας πως η αυτόματη αναγνώριση πραγματοποιείται σε δύο στάδια. Αρχικά στηριζόμαστε στους ενδείκτες που βρίσκονται στο συγκείμενο των υποψήφιων προς αναγνώριση λημμάτων για να τα εντοπίσουμε. Στη συνέχεια συνδυάζουμε τους ενδείκτες αυτούς με λογικές εκφράσεις, οι οποίες βασίζονται σε μορφολογικού επιπέδου ανάλυση, για να βελτιώσουμε τα αποτελέσματα ανάκτησης. Βέβαια απαραίτητη προϋπόθεση για τη λειτουργία ενός τέτοιου μορφολογικού αναλυτή είναι να έχει προηγηθεί ο τεμαχισμός του κειμένου σε προτάσεις, βήμα χωρίς το οποίο είναι αδύνατη η γλωσσική του ανάλυση Τεμαχισμός του κειμένου σε προτάσεις Ο τεμαχισμός του κειμένου αποτελεί το «προπαρασκευαστικό» στάδιο, μέσα από το οποίο αναγνωρίζονται οι λεξικές μονάδες που απαρτίζουν το κείμενο. Ειδικότερα για την αναγνώριση των κυρίων ονομάτων αντιλαμβανόμαστε πόσο σημαντικό είναι να ολοκληρωθεί ορθά η διαδικασία, αν αναλογιστούμε πως δύο από τα κυρίαρχα κριτήρια για το διαχωρισμό των προτάσεων είναι η ύπαρξη της τελείας και το κεφαλαίο γράμμα που την ακολουθεί. Οι αμφισημίες που μπορούν να δημιουργηθούν είναι πάρα πολλές από τη στιγμή που η τελεία χρησιμοποιείται εκτός από το τέλος πρότασης και μέσα σε αρκτικόλεξα ή συντομογραφίες, ενώ η χρήση του κεφαλαίου δεν είναι σπάνια επίσης σε αρκτικόλεξα. Την ίδια προβληματική, με βάση τα τυπολογικά χαρακτηριστικά τους, παρατηρούμε και με τα υπόλοιπα σημεία στίξης που εμπλέκονται στη μορφολογία των κυρίων ονομάτων 199. Ο διαχωρισμός των προτάσεων γίνεται αυτόματα μέσω του UNITEX, εφαρμόζοντας το πεπερασμένο αυτόματο που ονομάζεται «Sentence.grf», το οποίο περιέχει όλες τις απαραίτητες γλωσσολογικές πληροφορίες και τους κανόνες για τον τεμαχισμό του κειμένου. Η ελληνική του έκδοση δημιουργήθηκε από την Kyriacopoulou (1990) 200, με σκοπό να 199 Βλ. Κυριακοπούλου et al. (2007). 200 Βλ. επίσης Kyriacopoulou (2005). 119

120 εντοπίζει στο κείμενο τα κατάλληλα σημεία και να τα εμπλουτίζει με ειδική σήμανση η οποία καταδεικνύει τα όρια των προτάσεων. Οι ετικέτες κοπής, που αναπαριστώνται με το σύμβολο «{S}», τοποθετούνται με μεγάλη ακρίβεια, εξαλείφοντας παράλληλα ορισμένες από τις ποικίλες αμφίσημες δομές που υπάρχουν στα κείμενα, όπως είναι τα αρκτικόλεξα. Το σχήμα 5.1 απεικονίζει τον τρόπο με τον οποίο οριοθετούνται οι προτάσεις και εμπλουτίζεται το κείμενο με την ετικέτα {S} στο τέλος κάθε πρότασης, ενώ το σχήμα 5.2 απεικονίζει τη μορφή του κειμένου μετά την προσθήκη της ετικέτας {S}. Σχήμα 5.1: Γράφος Sentence.grf Στη συνέχεια θα παρουσιάσουμε συνοπτικά τον τρόπο λειτουργίας του αυτομάτου «Sentence.grf», το οποίο διατηρεί τέσσερις διακριτές διαδρομές, που αντιστοιχούν σε αντίστοιχους κανόνες, για να τεμαχίσει το κείμενο ανάλογα με τις ιδιαιτερότητες των λεξικών μονάδων και δομών που συναντά. Ο πρώτος κανόνας-διαδρομή τοποθετεί το σύμβολο κοπής {S} μετά από τελεία, ερωτηματικό ελληνικό ή λατινικό, θαυμαστικό, αποσιωπητικά, άνω-κάτω τελεία που ακολουθείται από κενό (space). Ανάμεσα σε αυτά τα σημεία στίξης και το σύμβολο {S} μπορεί να παρεμβάλλεται το σημάδι «<^>» που δηλώνει την αρχή της περιόδου. Πρόκειται ουσιαστικά για τον γενικό κανόνα που λειτουργεί ως βάση για την τοποθέτηση της τελείας, ενώ οι υπόλοιπες διαδρομές του γράφου λειτουργούν ως εξαιρέσεις σε αυτόν. 120

121 Ο δεύτερος κανόνας-διαδρομή περιγράφει τις περιπτώσεις που συναντάμε τις προσφωνήσεις «κ.», «κκ.», «καθ.», «Δρ.» και ακολουθεί μια λεξική μονάδα που ξεκινάει με κεφαλαίο. Σε αυτή την περίπτωση, δεν τοποθετείται σημάδι τέλους μετά την τελεία των προσφωνήσεων. Ο δεύτερος κανόνας-διαδρομή περιγράφει επίσης τα αρκτικόλεξα και τα εξαιρεί από την τοποθέτηση συμβόλου κοπής περιόδου μετά από τις τελείες που αυτά περιέχουν. Ο τρίτος κανόνας-διαδρομή (που ονομάζεται ProvS) προβλέπει και εξαιρεί από την κοπή την ύπαρξη παροιμιών στο κείμενο που αποτελούνται από δύο διαφορετικές προτάσεις (π.χ. «Τι έχεις Γιάννη; Τι είχα πάντα;»), τις οποίες χρειαζόμαστε να επεξεργαστούμε ολόκληρες. Τέλος, η τέταρτη διαδρομή πραγματεύεται ορισμένες μεμονωμένες περιπτώσεις, όπως είναι τα σημεία του ορίζοντα, στα οποία δεν τοποθετείται σημάδι κοπής, ή οι συντομογραφίες, στις οποίες τοποθετείται ανάλογα με τα συμφραζόμενα, ή η άνω τελεία, την οποία ακολουθεί πάντα το σύμβολο {S}. Σχήμα 5.2: Κείμενο μετά τον τεμαχισμό σε προτάσεις μέσω του γράφου Sentence.grf 121

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) «Διερμηνεία και Μετάφραση» Tων Τμημάτων: Φιλολογίας, Αγγλικής Γλώσσας και Φιλολογίας, Γαλλικής Γλώσσας και

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ Ονοµατικά σύνολα της Νέας Ελληνικής: Εξάλειψη µορφολογικών αµφισηµιών

Διαβάστε περισσότερα

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής: Τρόπος εξέτασης των πανελλαδικά εξεταζόμενων μαθημάτων Τα θέματα των πανελλαδικά εξεταζόμενων μαθημάτων λαμβάνονται από την ύλη που ορίζεται ως εξεταστέα για κάθε μάθημα κατά το έτος που γίνονται οι εξετάσεις.

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6 πρώτο δεύτερο ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος ΓΑΛ 103 Γραπτός λόγος I ΓΑΛ 170 e-french ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής ΓΑΛ 104 Γραπτός λόγος II ΓΑΛ 111 Φωνητική ΓΑΛ 1 Από

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΟΛΙΤΙΣΜΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΚΑΙ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΙΜΕΛΕΙΑ: ΘΕΟΔΩΡΟΥ ΕΛΕΝΗ ΑΜ:453 ΕΞ.: Ζ ΕΙΣΗΓΗΤΗΣ: ΔΡ. ΔΗΜΗΤΡΗΣ ΤΣΩΛΗΣ ΚΟΛΟΜΒΟΥ ΑΦΡΟΔΙΤΗ

Διαβάστε περισσότερα

Τα σχέδια μαθήματος 1 Εισαγωγή

Τα σχέδια μαθήματος 1 Εισαγωγή Τα σχέδια μαθήματος 1 Εισαγωγή Τα σχέδια μαθήματος αποτελούν ένα είδος προσωπικών σημειώσεων που κρατά ο εκπαιδευτικός προκειμένου να πραγματοποιήσει αποτελεσματικές διδασκαλίες. Περιέχουν πληροφορίες

Διαβάστε περισσότερα

ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ ΤΗΣ ΥΠΟΧΡΕΩΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΣΤΟ ΠΛΑΙΣΙΟ ΤΟΥ ΜΑΘΗΜΑΤΟΣ

ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ ΤΗΣ ΥΠΟΧΡΕΩΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΣΤΟ ΠΛΑΙΣΙΟ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Τ.Ξ.Γ.Μ.Δ. ΕΙΣΑΓΩΓΗ ΣΤΗ ΓΕΝΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΙΙ ΔΙΔΑΣΚΟΥΣΑ : Μ. ΤΣΙΓΚΟΥ ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ ΤΗΣ ΥΠΟΧΡΕΩΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΣΤΟ ΠΛΑΙΣΙΟ ΤΟΥ ΜΑΘΗΜΑΤΟΣ 1. Γενικά για την εργασία: Η εργασία

Διαβάστε περισσότερα

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: 202-203 ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ Προτεινόμενος Προγραμματισμός κατά ενότητα η Ενότητα Οι πρώτες μέρες σε ένα σχολείο Διδακτικές : 9

Διαβάστε περισσότερα

Μεθοδολογία 2014 (για το Σεμινάριο Όπερες του Μότσαρτ)

Μεθοδολογία 2014 (για το Σεμινάριο Όπερες του Μότσαρτ) Μεθοδολογία 2014 (για το Σεμινάριο Όπερες του Μότσαρτ) Όταν κάνουμε μια επιστημονική εργασία πρέπει α/ να βασιζόμαστε σε αυτά που έχουν γραφτεί από άλλους πριν από εμάς, για να αντλήσουμε πληροφορίες β/

Διαβάστε περισσότερα

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες:

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες: Πρόταση Διδασκαλίας Ενότητα: Τάξη: 7 η - Τέχνη: Μια γλώσσα για όλους, σε όλες τις εποχές Γ Γυμνασίου Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος Α: Στόχοι Οι μαθητές/ τριες: Να

Διαβάστε περισσότερα

Ψηφίδες για τη Νεοελληνική Γλώσσα

Ψηφίδες για τη Νεοελληνική Γλώσσα [1] Ψηφίδες για τη Νεοελληνική Γλώσσα Παρουσίαση και ενδεικτικά παραδείγματα εκπαιδευτικής αξιοποίησης Συντάκτρια: Μαρία Αλεξίου (εκπαιδευτικός ΠΕ02, ΜΔΕ Θεωρητικής Γλωσσολογίας, συντονίστρια του ψηφιακού

Διαβάστε περισσότερα

Δημιουργία ανοικτών μαθημάτων- ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ- ΕΚΚΛΗΣΙΑΣΤΙΚΗ ΑΚΑΔΗΜΙΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΝΗΜΕΡΩΣΗ ΕΞΩΤΕΡΙΚΩΝ ΣΥΝΕΡΓΑΤΩΝ- ΠΝΕΥΜΑΤΙΚΑ ΔΙΚΑΙΩΜΑΤΑ

Δημιουργία ανοικτών μαθημάτων- ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ- ΕΚΚΛΗΣΙΑΣΤΙΚΗ ΑΚΑΔΗΜΙΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΝΗΜΕΡΩΣΗ ΕΞΩΤΕΡΙΚΩΝ ΣΥΝΕΡΓΑΤΩΝ- ΠΝΕΥΜΑΤΙΚΑ ΔΙΚΑΙΩΜΑΤΑ Δημιουργία ανοικτών μαθημάτων- ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ- ΕΚΚΛΗΣΙΑΣΤΙΚΗ ΑΚΑΔΗΜΙΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΝΗΜΕΡΩΣΗ ΕΞΩΤΕΡΙΚΩΝ ΣΥΝΕΡΓΑΤΩΝ- ΠΝΕΥΜΑΤΙΚΑ ΔΙΚΑΙΩΜΑΤΑ ΠΕΡΙΕΧΟΜΕΝΑ 1. ΠΝΕΥΜΑΤΙΚΑ ΔΙΚΑΙΩΜΑΤΑ 2. ΑΔΕΙΕΣ Creative

Διαβάστε περισσότερα

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου Ελένη Γαλιώτου Τμήμα Πληροφορικής, ρ ΤΕΙ Αθήνας 1-10-2010 1 Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου Σκιάθου Ψηφιοποίηση Το ερευνητικό έργο «ΠΟΛΥΤΙΜΟ» Πρόσβαση στο περιεχόμενο των ιστορικών βιβλίων

Διαβάστε περισσότερα

Πράξη «Ζώνες Εκπαιδευτικής Προτεραιότητας-Άξονας Προτεραιότητας 2», Επιχειρησιακό Πρόγραμμα «Εκπαίδευση και Δια Βίου Μάθηση»

Πράξη «Ζώνες Εκπαιδευτικής Προτεραιότητας-Άξονας Προτεραιότητας 2», Επιχειρησιακό Πρόγραμμα «Εκπαίδευση και Δια Βίου Μάθηση» 4.1 Τίτλος 4ης Επιμέρους Δράσης: Αξιοποίηση του Stop Motion Animation (χειροποίητη κινούμενη εικόνα ) στην αναπαράσταση ιστορικών γεγονότων ΤΑΞΗ ΣΥΝΟΛΟ ΜΑΘΗΤΩΝ ΤΑΞΗΣ : : Δ 39 ΣΥΝΟΛΟ ΣΥΜΜΕΤΕΧΟΝΤΩΝ ΜΑΘΗΤΩΝ

Διαβάστε περισσότερα

ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας

ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας Ομιλία με θέμα: ΕΡΕΥΝΗΤΙΚΕΣ ΕΡΓΑΣΙΕΣ & ΦΥΣΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΕΝΩΣΗ ΕΛΛΗΝΩΝ ΦΥΣΙΚΩΝ Εκδήλωση αριστούχων μαθητών: Οι μαθητές συναντούν τη Φυσική και η Φυσική

Διαβάστε περισσότερα

Λεξικός δανεισμός και ειδικά λεξιλόγια Πρόταση για διαθεματική διδασκαλία

Λεξικός δανεισμός και ειδικά λεξιλόγια Πρόταση για διαθεματική διδασκαλία Λεξικός δανεισμός και ειδικά λεξιλόγια Πρόταση για διαθεματική διδασκαλία ΠΕΡΙΕΧΟΜΕΝΑ 1. Εισαγωγικό μέρος 2. Ειδικά λεξιλόγια και λεξικός δανεισμός 2.1.Διδακτικές προτάσεις 3. Παράδειγμα διδακτικής εφαρμογής

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Η Γραμματική εντάσσεται στα ευρύτερα πλαίσια του γλωσσικού μαθήματος. Δε διδάσκεται χωριστά, αλλά με βάση την ενιαία προσέγγιση της γλώσσας, όπου έμφαση δίνεται στη λειτουργική χρήση της. Διδάσκεται

Διαβάστε περισσότερα

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ Η γλώσσα ως σύστημα και ως χρήση Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ 2009-10 Τι είναι γλώσσα; Γλώσσα είναι το σύστημα ήχων ( φθόγγων ) και εννοιών που χρησιμοποιούν οι ανθρώπινες κοινότητες για

Διαβάστε περισσότερα

Τι είναι το αρχείο Γεωργακά;

Τι είναι το αρχείο Γεωργακά; Τι είναι το αρχείο Γεωργακά; 0 Είναι ένα λεξικογραφικό αρχείο δυόμιση εκατομμυρίων δελτίων, προϊόν συστηματικής και ακαταπόνητης αποδελτίωσης της νέας ελληνικής γλώσσας που πραγματοποιήθηκε υπό την εποπτεία

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Περί της Ταξινόμησης των Ειδών

Περί της Ταξινόμησης των Ειδών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Tel.: +30 2310998051, Ιστοσελίδα: http://users.auth.gr/theodoru Περί της Ταξινόμησης

Διαβάστε περισσότερα

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας Θέµατα Μορφολογίας της Νέας Ελληνικής Ι Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας Η παρουσίαση επιλεγµένα θέµατα µορφολογίας της νέας ελληνικής µορφολογικά χαρακτηριστικά της ΝΕ, η λέξη στη νέα

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε επίσης ότι η ομοιότητα βασικών λέξεων οδήγησε στην

Διαβάστε περισσότερα

ΔΙΑΦΟΡΟΠΟΙΗΣΗ ΚΑΙ ΔΙΑΘΕΜΑΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΘΕΩΡΙΑ ΚΑΙ ΠΡΑΞΗ ΙΩΑΝΝΑ ΚΟΥΜΗ ΚΥΠΡΙΑΚΗ ΕΚΠΑΙΔΕΥΤΙΚΗ ΑΠΟΣΤΟΛΗ ΟΚΤΩΒΡΙΟΣ 2016

ΔΙΑΦΟΡΟΠΟΙΗΣΗ ΚΑΙ ΔΙΑΘΕΜΑΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΘΕΩΡΙΑ ΚΑΙ ΠΡΑΞΗ ΙΩΑΝΝΑ ΚΟΥΜΗ ΚΥΠΡΙΑΚΗ ΕΚΠΑΙΔΕΥΤΙΚΗ ΑΠΟΣΤΟΛΗ ΟΚΤΩΒΡΙΟΣ 2016 ΔΙΑΦΟΡΟΠΟΙΗΣΗ ΚΑΙ ΔΙΑΘΕΜΑΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΘΕΩΡΙΑ ΚΑΙ ΠΡΑΞΗ ΙΩΑΝΝΑ ΚΟΥΜΗ ΚΥΠΡΙΑΚΗ ΕΚΠΑΙΔΕΥΤΙΚΗ ΑΠΟΣΤΟΛΗ ΟΚΤΩΒΡΙΟΣ 2016 ΘΕΩΡΗΤΙΚΟ ΠΛΑΙΣΙΟ Το κάθε παιδί είναι ξεχωριστή προσωπικότητα.

Διαβάστε περισσότερα

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΣΗ

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΣΗ ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ Επώνυμο: Όνομα: Ηλεκτρονική Διεύθυνση: ΜΑΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ mavrathan@gmail.com ΕΚΠΑΙΔΕΥΣΗ 2012: Μεταπτυχιακές Σπουδές Β Κύκλου στο Διατμηματικό Πρόγραμμα «Νέες Τεχνολογίες στις Επιστήμες

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β ) ΣΚΟΠΟΣ Σκοπός της άσκησης είναι ο σχεδιασμός και η υλοποίηση συστήματος διόρθωσης

Διαβάστε περισσότερα

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el Σαράντος Καπιδάκης 1, Στέλιος Πιπερίδης 2, Πένυ Λαμπροπούλου 2, Μαρία Γαβριηλίδου 2 ( 1 Ιόνιο Πανεπιστήμιο, 2 Ε.Κ. Αθηνά / ΙΕΛ)

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Μάθηση και γνώση: μια συνεχής και καθοριστική αλληλοεπίδραση Αντώνης Λιοναράκης Στην παρουσίαση που θα ακολουθήσει θα μιλήσουμε

Διαβάστε περισσότερα

ΘΕΜΑ: «Ωρολόγιο Πρόγραμμα των μαθημάτων των Α, Β και Γ τάξεων Καλλιτεχνικού Γυμνασίου και των Α, Β και Γ τάξεων Γενικού Καλλιτεχνικού Λυκείου»

ΘΕΜΑ: «Ωρολόγιο Πρόγραμμα των μαθημάτων των Α, Β και Γ τάξεων Καλλιτεχνικού Γυμνασίου και των Α, Β και Γ τάξεων Γενικού Καλλιτεχνικού Λυκείου» ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΠΟΛΙΤΙΣΜΟΥ, ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ----- ΓΕΝΙΚΗ ΔΙΕΥΘΥΝΣΗ ΣΠΟΥΔΩΝ Π/ΘΜΙΑΣ ΚΑΙ Δ/ΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ ΔΙΕΥΘΥΝΣΗ ΣΠΟΥΔΩΝ, ΠΡΟΓΡΑΜΜΑΤΩΝ ΚΑΙ ΟΡΓΑΝΩΣΗΣ ΔΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ

Διαβάστε περισσότερα

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος Καπιδάκης 1 1 Εργαστήριο Ψηφιακών Βιβλιοθηκών και

Διαβάστε περισσότερα

Λογισμικό: Ταξίδι στον Κόσμο με Νόημα Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Γεωγραφία Τάξη/εις: Ε και Στ Δημοτικού

Λογισμικό: Ταξίδι στον Κόσμο με Νόημα Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Γεωγραφία Τάξη/εις: Ε και Στ Δημοτικού Λογισμικό: Ταξίδι Κατηγορία αναπηρίας: Κώφωση Βαρηκοΐα Μάθημα: Γεωγραφία Τάξη/εις: Ε και Στ Δημοτικού Παρουσίαση Λογισμικού: Κατερίνα Αραμπατζή Μαριάννα Χατζοπούλου Προμηθευτής: Hyper Systems Προσβασιμότητα

Διαβάστε περισσότερα

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος Η έννοια του προβλήματος 1. Αναφέρετε μερικά από τα προβλήματα που συναντάτε στην καθημερινότητά σας. Απλά προβλήματα Ποιο δρόμο θα ακολουθήσω για να πάω στο σχολείο; Πως θα οργανώσω μια εκδρομή; Πως θα

Διαβάστε περισσότερα

Πέντε Προτάσεις Αντιμετώπισης των υσκολιών στην Ανάγνωση

Πέντε Προτάσεις Αντιμετώπισης των υσκολιών στην Ανάγνωση Πέντε Προτάσεις Αντιμετώπισης των υσκολιών στην Ανάγνωση Tο φαινόμενο της ανάγνωσης προσεγγίζεται ως ολική διαδικασία, δηλαδή ως λεξιλόγιο, ως προφορική έκφραση και ως κατανόηση. ημήτρης Γουλής Πρώτη Πρόταση

Διαβάστε περισσότερα

III_Β.1 : Διδασκαλία με ΤΠΕ, Γιατί ;

III_Β.1 : Διδασκαλία με ΤΠΕ, Γιατί ; III_Β.1 : Διδασκαλία με ΤΠΕ, Γιατί ; Eρωτήματα ποιες επιλογές γίνονται τελικά; ποιες προκρίνονται από το Π.Σ.; ποιες προβάλλονται από το εγχειρίδιο; ποιες υποδεικνύονται από το ίδιο το αντικείμενο; με

Διαβάστε περισσότερα

ΥΛΗ ΥΠΟΤΡΟΦΙΩΝ ΓΙΑ ΥΠΟΨΗΦΙΟΥΣ Α ΓΥΜΝΑΣΙΟΥ. Από το βιβλίο μαθητή και το τετράδιο εργασιών της ΣΤ Δημοτικού:

ΥΛΗ ΥΠΟΤΡΟΦΙΩΝ ΓΙΑ ΥΠΟΨΗΦΙΟΥΣ Α ΓΥΜΝΑΣΙΟΥ. Από το βιβλίο μαθητή και το τετράδιο εργασιών της ΣΤ Δημοτικού: ΓΙΑ ΥΠΟΨΗΦΙΟΥΣ Α ΓΥΜΝΑΣΙΟΥ Μαθηματικά Από το βιβλίο μαθητή και το τετράδιο εργασιών της ΣΤ Δημοτικού: 1 η Θεματική Ενότητα: Αριθμοί και Πράξεις Κεφάλαιο 1 (Φυσικοί αριθμοί) Κεφάλαιο 24 (Προβλήματα με πολλαπλασιασμό

Διαβάστε περισσότερα

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ Περιεχόμενα ΠΡΟΛΟΓΟΣ 13 1. ΛΕΞΙΛΟΓΙΟ: ΕΙΣΑΓΩΓΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΚΑΙ ΔΙΔΑΚΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ 17 ΣΗΜΑΝΤΙΚΗ ΟΡΟΛΟΓΙΑ ΚΕΦΑΛΑΙΟΥ 17 1.1 Η αξία του λεξιλογίου και η θέση του στο γλωσσικό μάθημα 18 1.2 Εμπόδια στη

Διαβάστε περισσότερα

Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου

Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου Γλωσσική επιμέλεια // Διαμόρφωση και οργάνωση κειμένου Η γλωσσική επιμέλεια αφορά τη γλωσσική μορφή και το περιεχόμενο, ενώ η διαμόρφωση και

Διαβάστε περισσότερα

Πόλη και πολιτισμός Πόλη και διασκέδαση

Πόλη και πολιτισμός Πόλη και διασκέδαση 28 Πόλη και πολιτισμός Πόλη και διασκέδαση Η πολιτιστική ζωή της Θεσσαλονίκης Έντονη είναι η πολιτιστική ζωή της Θεσσαλονίκης ολόκληρο τον χρόνο. Εκδηλώσεις του Μακεδονικού Μουσείου της Σύγχρονης Τέχνης,

Διαβάστε περισσότερα

Ναπολέων Μήτσης: Αποσπάσματα κειμένων για τη σχέση γλώσσας και πολιτισμού

Ναπολέων Μήτσης: Αποσπάσματα κειμένων για τη σχέση γλώσσας και πολιτισμού 5 ο ΔΙΕΘΝΕΣ ΘΕΡΙΝΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Ναπολέων Μήτσης: Αποσπάσματα κειμένων για τη σχέση γλώσσας και πολιτισμού Κείμενο A. Με τον όρο ευρύτερο κοινωνικό-πολιτισμικό περιβάλλον εννοούμε μια σειρά αρχών και δεδομένων

Διαβάστε περισσότερα

Τύπος Εκφώνηση Απαντήσεις

Τύπος Εκφώνηση Απαντήσεις Α/ Α Τύπος Εκφώνηση Απαντήσεις Απλή Αν κάνετε αναζήτηση µιας λέξης σε ένα αρχαιοελληνικό σώµα κειµένων, αυτό που θα λάβετε ως αποτέλεσµα θα είναι: Μια καταγραφή όλων των εµφανίσεων της λέξης στο συγκεκριµένο

Διαβάστε περισσότερα

Παιδαγωγοί και παιδαγωγική σκέψη στον ελληνόφωνο χώρο (18ος αιώνας Μεσοπόλεμος)

Παιδαγωγοί και παιδαγωγική σκέψη στον ελληνόφωνο χώρο (18ος αιώνας Μεσοπόλεμος) ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Παιδαγωγοί και παιδαγωγική σκέψη στον ελληνόφωνο χώρο (18ος αιώνας Μεσοπόλεμος) Ενότητα 2: Ιστορική-ερμηνευτική μέθοδος Βασίλειος Φούκας

Διαβάστε περισσότερα

Ηλεκτρονικό Εργαστήριο Φυσικής. ρακόπουλος Γρηγόρης, ΠΕ04, Ελληνογαλλική Σχολή Καλαµαρί,

Ηλεκτρονικό Εργαστήριο Φυσικής. ρακόπουλος Γρηγόρης, ΠΕ04, Ελληνογαλλική Σχολή Καλαµαρί, P P Μαθητής/τρια Ηλεκτρονικό Εργαστήριο Φυσικής ρακόπουλος Γρηγόρης, ΠΕ04, Ελληνογαλλική Σχολή Καλαµαρί, drakopoulos@kalamari.gr Τίκβα Χριστίνα, ΠΕ19, Ελληνογαλλική Σχολή Καλαµαρί, christinatikva@gmail.com

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ του Εθνικού Αρχείου Διδακτορικών Διατρίβων

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ του Εθνικού Αρχείου Διδακτορικών Διατρίβων ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ του Εθνικού Αρχείου Διδακτορικών Διατρίβων Το Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) είναι βάσει Νόμου (άρθρο 70, παρ. 15 του Ν. 1566/1985) ο υπεύθυνος φορέας για τη δημιουργία και τήρηση του

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα (Τ.Ε.Ι.) ΑΜΘ ΕΤΑΙΡΙΚΗ ΕΥΘΥΝΗ ΚΑΙ ΗΘΙΚΗ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα (Τ.Ε.Ι.) ΑΜΘ ΕΤΑΙΡΙΚΗ ΕΥΘΥΝΗ ΚΑΙ ΗΘΙΚΗ Τεχνολογικό Εκπαιδευτικό Ίδρυμα (Τ.Ε.Ι.) ΑΜΘ Τμήμα Διοίκησης Επιχειρήσεων ΕΤΑΙΡΙΚΗ ΕΥΘΥΝΗ ΚΑΙ ΗΘΙΚΗ Γεώργιος Θερίου ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ (ακολουθώντας το σύστημα του Πανεπιστημίου Harvard) Τι είναι

Διαβάστε περισσότερα

H γλώσσα θεωρείται ιδιαίτερο σύστηµα,

H γλώσσα θεωρείται ιδιαίτερο σύστηµα, Δοµιστική µέθοδος διδασκαλίας - Δοµιστικά Προγράµµατα Γλωσσικής Διδασκαλίας Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας 20ός αιώνας: δοµισµός, F. de Saussure (1916) επιστηµονικό κίνηµα - το όνοµά

Διαβάστε περισσότερα

ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ

ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΣΤΟ ΕΛΛΗΝΙΚΟ ΠΑΡΟΙΚΙΑΚΟ ΣΧΟΛΕΙΟ (ΕΠΣ) Μαρία Παντελή-Παπαλούκα Επιθεωρήτρια σχολείων Προϊστάμενη Κυπριακής Εκπαιδευτικής Αποστολής Σύμβουλος Εκπαίδευσης Κυπριακής Υπάτης Αρμοστείας

Διαβάστε περισσότερα

ΠΡΑΞΗ: «ΜΟ.ΔΙ.Π» (Μονάδα Διασφάλισης Ποιότητας) του Πανεπιστημίου Μακεδονίας» Κωδικός MIS ΥΠΟΕΡΓΟ:

ΠΡΑΞΗ: «ΜΟ.ΔΙ.Π» (Μονάδα Διασφάλισης Ποιότητας) του Πανεπιστημίου Μακεδονίας» Κωδικός MIS ΥΠΟΕΡΓΟ: ΠΡΑΞΗ: «ΜΟ.ΔΙ.Π» (Μονάδα Διασφάλισης Ποιότητας) του Πανεπιστημίου Μακεδονίας» Κωδικός MIS 299516 ΥΠΟΕΡΓΟ: «ΜΟΔΙΠ του ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ» και α/α «01» ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ: «Εκπαίδευση και Δια

Διαβάστε περισσότερα

ΣΤΟΙΧΕΙΑ ΔΙΔΑΣΚΑΛΙΑΣ ΜΕ ΤΗ ΧΡΗΣΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ

ΣΤΟΙΧΕΙΑ ΔΙΔΑΣΚΑΛΙΑΣ ΜΕ ΤΗ ΧΡΗΣΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΟΙΧΕΙΑ ΔΙΔΑΣΚΑΛΙΑΣ ΜΕ ΤΗ ΧΡΗΣΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ Ονοματεπώνυμο εκπαιδευτικού: Γκουντέλα Βασιλική Ειδικότητα: Φιλόλογος (ΠΕ2) Σχολείο: 4 ο Γυμνάσιο Κομοτηνής Μάθημα: Αρχαία Ελληνικά Διάρκεια: 1 διδακτική

Διαβάστε περισσότερα

ΚΕΙΜΕΝΑ - ΛΕΞΙΛΟΓΙΟ - ΑΣΚΗΣΕΙΣ. -από πού είσαι; Ο Αλέξανδρος γνωρίζει μια κοπέλα...

ΚΕΙΜΕΝΑ - ΛΕΞΙΛΟΓΙΟ - ΑΣΚΗΣΕΙΣ. -από πού είσαι; Ο Αλέξανδρος γνωρίζει μια κοπέλα... ΕΝΟΤΗΤΑ 2 Από πού είσαι; A ΜΕΡΟΣ ΚΕΙΜΕΝΑ - ΛΕΞΙΛΟΓΙΟ - ΑΣΚΗΣΕΙΣ Α. ΔΙΑΛΟΓΟΣ Αλέξανδρος: Από πού είσαι; Πηνελόπη: Είμαι από την Ελλάδα. Από πού είσαι; Σοφία: Πολ: Εσείς από πού είστε; Είμαι από το Βέλγιο.

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Νερό, η πηγή του πολιτισμού!!!

Νερό, η πηγή του πολιτισμού!!! Στην αρχή του σχολικού έτους οι εκπαιδευτικοί των δύο τμημάτων της Δ τάξης αποφάσισαν, στα πλαίσια του μαθήματος της Ευέλικτης Ζώνης & μετά από σχετική ενημέρωση της υπεύθυνης πολιτιστικών θεμάτων της

Διαβάστε περισσότερα

ΙΙΙ. ΙΔΙΑΙΤΕΡΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΩΝ ΞΕΝΩΝ ΜΑΘΗΤΩΝ.

ΙΙΙ. ΙΔΙΑΙΤΕΡΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΩΝ ΞΕΝΩΝ ΜΑΘΗΤΩΝ. ΙΙΙ. ΙΔΙΑΙΤΕΡΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΩΝ ΞΕΝΩΝ ΜΑΘΗΤΩΝ. Είδαμε πως το 4.2% των μαθητών στο δείγμα μας δεν έχουν ελληνική καταγωγή. Θα μπορούσαμε να εξετάσουμε κάποια ειδικά χαρακτηριστικά αυτών των ξένων μαθητών

Διαβάστε περισσότερα

ΠΡΟΣΟΜΟΙΩΣΗ ΑΠΟΛΥΤΗΡΙΩΝ ΕΞΕΤΑΣΕΩΝ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΣΑΒΒΑΤΟ 1 ΑΠΡΙΛΙΟΥ 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

ΠΡΟΣΟΜΟΙΩΣΗ ΑΠΟΛΥΤΗΡΙΩΝ ΕΞΕΤΑΣΕΩΝ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΣΑΒΒΑΤΟ 1 ΑΠΡΙΛΙΟΥ 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΠΡΟΣΟΜΟΙΩΣΗ ΑΠΟΛΥΤΗΡΙΩΝ ΕΞΕΤΑΣΕΩΝ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΣΑΒΒΑΤΟ 1 ΑΠΡΙΛΙΟΥ 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Κείμενο Η γλώσσα ως αξία Μιλώντας για τη γλώσσα ως αξία-πρέπει

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Εισαγωγή στη Γλωσσολογία Ι

Εισαγωγή στη Γλωσσολογία Ι ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή στη Γλωσσολογία Ι Εισαγωγικά: τι είναι γλώσσα, τι είναι γλωσσολογία Διδάσκοντες: Επίκ. Καθ. Μαρία Λεκάκου, Λέκτορας Μαρία Μαστροπαύλου Άδειες

Διαβάστε περισσότερα

ΕΞΕΤΑΣΕΙΣ ΣΤΟ ΜΑΘΗΜΑ ΤΗΣ ΞΕΝΗΣ ΓΛΩΣΣΑΣ: ΤΟ ΝΕΟ Π.Δ.

ΕΞΕΤΑΣΕΙΣ ΣΤΟ ΜΑΘΗΜΑ ΤΗΣ ΞΕΝΗΣ ΓΛΩΣΣΑΣ: ΤΟ ΝΕΟ Π.Δ. ΕΞΕΤΑΣΕΙΣ ΣΤΟ ΜΑΘΗΜΑ ΤΗΣ ΞΕΝΗΣ ΓΛΩΣΣΑΣ: ΤΟ ΝΕΟ Π.Δ. 1. Για την αξιολόγηση της γλωσσομάθειας των μαθητών κατά τη διάρκεια των τετραμήνων ελέγχονται οι ικανότητες των μαθητών/τριών: α) να κατανοούν γραπτό

Διαβάστε περισσότερα

14 Δυσκολίες μάθησης για την ανάπτυξη των παιδιών, αλλά και της εκπαιδευτικής πραγματικότητας. Έχουν προταθεί διάφορες θεωρίες και αιτιολογίες για τις

14 Δυσκολίες μάθησης για την ανάπτυξη των παιδιών, αλλά και της εκπαιδευτικής πραγματικότητας. Έχουν προταθεί διάφορες θεωρίες και αιτιολογίες για τις ΠΡΟΛΟΓΟΣ Οι δυσκολίες μάθησης των παιδιών συνεχίζουν να απασχολούν όλους όσοι ασχολούνται με την ανάπτυξη των παιδιών και με την εκπαίδευση. Τους εκπαιδευτικούς, οι οποίοι, μέσα στην τάξη τους, βρίσκονται

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου Επαναληπτικές Ασκήσεις Κάτια Κερμανίδου kerman@ionio.gr Διαδίκτυο Tι από τα παρακάτω αποτελεί χαρακτηριστικό της web 2.0 φάσης της εξέλιξης του ιστού, και δεν υπήρχε στην φάση web 1.0 ιστοσελίδες με δυνατότητες

Διαβάστε περισσότερα

Κείµενο [Οι διαδικτυακές επαφές στο περιβάλλον του Facebook]

Κείµενο [Οι διαδικτυακές επαφές στο περιβάλλον του Facebook] 41 Διαγώνισµα 41 Διαδίκτυο & Κοινωνική Δικτύωση Κείµενο [Οι διαδικτυακές επαφές στο περιβάλλον του Facebook] Το συµπέρασµα στο οποίο καταλήγουν ερευνητικές µελέτες για τις αναπαραστάσεις της φιλίας στην

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων 1.1. Εισαγωγή Γενικότερα δεν υπάρχει κάποια ταξινόμηση των πιθανών δικτύων κάτω από την οποία να ταιριάζουν όλα τα δίκτυα. Παρόλα αυτά η ταξινόμηση τους είθισται να γίνεται

Διαβάστε περισσότερα

Επαγγελματικές κάρτες

Επαγγελματικές κάρτες Επαγγελματικές κάρτες Αφροδίτη Οικονόμου Νηπιαγωγός afoikon@uth.gr Η παρουσίαση αναπτύχθηκε για την πλατφόρμα Ταξίδι στον γραμματισμό Θεματική: Τα επαγγέλματα των γονιών της τάξης μας ΤΙΤΛΟΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ:

Διαβάστε περισσότερα

Εισαγωγικές εξετάσεις 2019

Εισαγωγικές εξετάσεις 2019 Εισαγωγικές εξετάσεις 2019 I. Εισαγωγή και γενικές οδηγίες Η εισαγωγική εξέταση της Γερμανικής Σχολής Αθηνών είναι μια ενδοσχολική εξέταση στο μάθημα των Γερμανικών για μαθητές και μαθήτριες. Η εισαγωγική

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΕΜΠΕΙΡΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΔΑΠΑΝΩΝ ΥΓΕΙΑΣ ΚΑΙ ΤΩΝ ΦΑΡΜΑΚΕΥΤΙΚΩΝ ΔΑΠΑΝΩΝ ΣΤΗΝ ΕΛΛΑΔΑ ΚΑΙ ΣΕ ΑΛΛΕΣ ΧΩΡΕΣ ΤΗΣ ΕΥΡΩΠΗΣ

ΕΜΠΕΙΡΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΔΑΠΑΝΩΝ ΥΓΕΙΑΣ ΚΑΙ ΤΩΝ ΦΑΡΜΑΚΕΥΤΙΚΩΝ ΔΑΠΑΝΩΝ ΣΤΗΝ ΕΛΛΑΔΑ ΚΑΙ ΣΕ ΑΛΛΕΣ ΧΩΡΕΣ ΤΗΣ ΕΥΡΩΠΗΣ Ι [1+31 \Ι 111 ΝΙ \ε. \(t ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΕΜΠΕΙΡΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΔΑΠΑΝΩΝ ΥΓΕΙΑΣ ΚΑΙ ΤΩΝ ΦΑΡΜΑΚΕΥΤΙΚΩΝ ΔΑΠΑΝΩΝ ΣΤΗΝ ΕΛΛΑΔΑ ΚΑΙ ΣΕ ΑΛΛΕΣ ΧΩΡΕΣ ΤΗΣ ΕΥΡΩΠΗΣ ΛΑΜΠΡΕΛΛΗ ΔΗΜΗΤΡΑ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ

Διαβάστε περισσότερα

Η διαπολιτισμική διάσταση των φιλολογικών βιβλίων του Γυμνασίου: διδακτικές προσεγγίσεις

Η διαπολιτισμική διάσταση των φιλολογικών βιβλίων του Γυμνασίου: διδακτικές προσεγγίσεις Έργο: «Ένταξη παιδιών παλιννοστούντων και αλλοδαπών στο σχολείο - για τη Δευτεροβάθμια Εκπαίδευση (Γυμνάσιο)» Επιμορφωτικό Σεμινάριο Η διαπολιτισμική διάσταση των φιλολογικών βιβλίων του Γυμνασίου: διδακτικές

Διαβάστε περισσότερα

Τμήμα Βιβλιοθηκονομίας & Συστημάτων Πληροφόρησης από το 1984

Τμήμα Βιβλιοθηκονομίας & Συστημάτων Πληροφόρησης από το 1984 ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ Τμήμα Βιβλιοθηκονομίας & Συστημάτων Πληροφόρησης από το 1984 Γιώργος Χριστοδούλου Καθηγητής Εφαρμογών gchrist@libd.teithe.gr Βιβλιοθήκες σήμερα Το παραδοσιακό μοντέλο της

Διαβάστε περισσότερα

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Ενότητα 3: Η επιστημονική έρευνα Αναστασία Χριστοδούλου, αναπλ. Καθηγήτρια Dr.

Διαβάστε περισσότερα

«DARIAH-ΚΡΗΤΗ Ανάπτυξη της ελληνικής ερευνητικής υποδομής για τις ανθρωπιστικές επιστήμες ΔΥΑΣ»

«DARIAH-ΚΡΗΤΗ Ανάπτυξη της ελληνικής ερευνητικής υποδομής για τις ανθρωπιστικές επιστήμες ΔΥΑΣ» «DARIAH-ΚΡΗΤΗ Ανάπτυξη της ελληνικής ερευνητικής υποδομής για τις ανθρωπιστικές επιστήμες ΔΥΑΣ» ΑΚΑΔΗΜΙΑ ΑΘΗΝΩΝ ΕΚ ΑΘΗΝΑ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΑΝΩΤΑΤΗ ΣΧΟΛΗ

Διαβάστε περισσότερα

ΣΥΝΤΑΚΤΙΚΟΙ ΟΡΟΙ. Η σύνταξη μιας πρότασης

ΣΥΝΤΑΚΤΙΚΟΙ ΟΡΟΙ. Η σύνταξη μιας πρότασης ΣΥΝΤΑΚΤΙΚΟΙ ΟΡΟΙ Η σύνταξη μιας πρότασης Τα δύο πιο βασικά στοιχεία σε κάθε πρόταση είναι το ρήμα και το ουσιαστικό. Το κομμάτι της πρότασης που αναφέρεται στο ρήμα το λέμε ρηματικό σύνολο (ΡΣ) ή ρηματικό

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. E. Αναστασίου Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α ΕΝΑΡΞΗ ΜΑΘΗΜΑΤΟΣ Βόλος, 2015-2016 1 ΓΕΝΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΜΑΘΗΜΑ: ΠΙΣΤΩΤΙΚΕΣ ΜΟΝΑΔΕΣ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Οδηγός Εκπόνησης Διπλωματικής Εργασίας ΣΠΑΡΤΗ 2010-11 Περιεχόμενα 1.ΔΟΜΗ ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΟ Της ΔΙΠΛΩΜΑΤΙΚΗΣ

Διαβάστε περισσότερα

Σχετικά με τη διδακτική προσέγγιση του γλωσσικού δανεισμού

Σχετικά με τη διδακτική προσέγγιση του γλωσσικού δανεισμού Σχετικά με τη διδακτική προσέγγιση του γλωσσικού δανεισμού Περιεχόμενα 1. Εισαγωγικά στοιχεία 1.1 Η τρέχουσα αντιμετώπιση του γλωσσικού δανεισμού 1.2 Η προσέγγιση του θέματος μέσα από το σχολείο 1.3 Σχετικά

Διαβάστε περισσότερα

Συνέδριο Μαθηματικών ΠΠΣ Πνευματικό Κέντρο Δήμου Αθηναίων 11-12 / 4 / 2014. Μαθηματικά και ζητήματα πραγματικότητας διάκριση και σύνδεση

Συνέδριο Μαθηματικών ΠΠΣ Πνευματικό Κέντρο Δήμου Αθηναίων 11-12 / 4 / 2014. Μαθηματικά και ζητήματα πραγματικότητας διάκριση και σύνδεση Συνέδριο Μαθηματικών ΠΠΣ Πνευματικό Κέντρο Δήμου Αθηναίων 11-12 / 4 / 2014 Δημήτρης Μπίρμπας ΠΠΛ Αγίων Αναργύρων Σοφία Παππά ΠΠΛ Ζάννειο Πειραιά Μαθηματικά και ζητήματα πραγματικότητας διάκριση και σύνδεση

Διαβάστε περισσότερα

Πρόλογος της γαλλικής έκδοσης

Πρόλογος της γαλλικής έκδοσης Πρόλογος της γαλλικής έκδοσης Η Λατινική γραμματική της σειράς Bescherelle είναι μια εύκολη και πλήρης γραμματική της λατινικής γλώσσας, με αντικειμενικό στόχο να δι ευκολύνει τη μελέτη, τη μετάφραση και

Διαβάστε περισσότερα

AYTONOMOI ΠΡΑΚΤΟΡΕΣ

AYTONOMOI ΠΡΑΚΤΟΡΕΣ AYTONOMOI ΠΡΑΚΤΟΡΕΣ 2012-2013 ΠΑΠΑΚΩΣΤΑΣ ΜΙΧΑΛΗΣ ΑΜ: 2007030001 ΑΚΡΙΒΗΣ ΣΥΜΠΕΡΑΣΜΟΣ ΔΙΚΤΥΟΥ BAYES ΣΕ ΑΡΘΑ ΕΦΗΜΕΡΙΔΑΣ ΠΕΡΙΛΗΨΗ Στη συγκεκριμένη εργασία προσπαθήσαμε να στήσουμε ένα δίκτυο Bayes διακριτών

Διαβάστε περισσότερα

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1 ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1 ΣΥΝΑΡΤΗΣΕΙΣ Η έννοια της συνάρτησης είναι θεμελιώδης στο λογισμό και διαπερνά όλους τους μαθηματικούς κλάδους. Για το φοιτητή είναι σημαντικό να κατανοήσει πλήρως αυτή

Διαβάστε περισσότερα

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες Η διάγνωση των διαταραχών λόγου πρέπει να γίνεται έγκαιρα, μόλις οι γονείς αντιληφθούν οτι κάτι ισως δεν πάει καλά και πρέπει να παρουσιάσουν το παιδί τους στον ειδικό. Ο ειδικός θα λάβει μέτρα για την

Διαβάστε περισσότερα

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000) Πρόκειται για την έρευνα που διεξάγουν οι επιστήμονες. Είναι μια πολύπλοκη δραστηριότητα που απαιτεί ειδικό ακριβό

Διαβάστε περισσότερα

Λογισμικό Καθοδήγησης ή Διδασκαλίας

Λογισμικό Καθοδήγησης ή Διδασκαλίας Λογισμικό Καθοδήγησης ή Διδασκαλίας Ένα σύγχρονο σύστημα καθοδήγησης στοχεύει να ικανοποιήσει τουλάχιστον δύο βασικές φάσεις των οποίων η δομή και η αλληλουχία παρουσιάζεται στο σχήμα 3: παρουσίαση της

Διαβάστε περισσότερα

Μουσεία και Εκπαίδευση (υποχρεωτικό 3,4 εξ.) Προσδοκώμενα αποτελέσματα: Στη διάρκεια του μαθήματος οι φοιτητές/τριες

Μουσεία και Εκπαίδευση (υποχρεωτικό 3,4 εξ.) Προσδοκώμενα αποτελέσματα: Στη διάρκεια του μαθήματος οι φοιτητές/τριες Μουσεία και Εκπαίδευση (υποχρεωτικό 3,4 εξ.) Περιγραφή του μαθήματος - στόχοι: Το μάθημα εξετάζει τις κοινωνικές, πολιτισμικές και ιστορικές διαστάσεις της ανάπτυξης του θεσμού του μουσείου και η ανάπτυξη

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟΔΟΣ ΦΕΒΡΟΥΑΡΙΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ 2014-2015*

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟΔΟΣ ΦΕΒΡΟΥΑΡΙΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ 2014-2015* ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟΔΟΣ ΦΕΒΡΟΥΑΡΙΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ 2014-2015* ΔΕΥΤΕΡΑ 19/1 ΤΡΙΤΗ 20/1 ΤΕΤΑΡΤΗ 21/1 ΠΕΜΠΤΗ 22/1 ΠΑΡΑΣΚΕΥΗ 23/1 ΑΥΓΕΡΙΝΟΣ ΕΥΓΕΝΙΟΣ

Διαβάστε περισσότερα

3ο Νηπ/γείο Κορδελιού Τμήμα Ένταξης

3ο Νηπ/γείο Κορδελιού Τμήμα Ένταξης ΠΡΟΓΡΑΜΜΑ ΔΙΔΑΣΚΑΛΙΑΣ ΠΡΟΦΟΡΙΚΟΥ ΛΟΓΟΥ Περιεχόμενα Α ΕΠΙΠΕΔΟ (λεξιλόγιο) 1 ο ΣΤΑΔΙΟ : Ονοματοποίηση αντικειμένων και προσώπων 2 Ο ΣΤΑΔΙΟ: Ονοματοποίηση πράξεων 3 ο ΣΤΑΔΙΟ : Καθημερινές εκφράσεις και χαιρετισμοί

Διαβάστε περισσότερα

ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές.

ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές. ΑΝΣΩΝΤΜΙΕ Είναι κλιτές λέξεις που αντικαθιστούν ονοματικές φράσεις και κάνουν την ίδια «δουλειά» με αυτές. Οι αντωνυμίες δίνουν στον λόγο μας συντομία και σαφήνεια. Μας βοηθούν να μιλάμε πιο εύκολα για

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ. Για τη διευκόλυνσή σας, μπορείτε να συμπληρώσετε το ερωτηματολόγιο ηλεκτρονικά, στη διεύθυνση:

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ. Για τη διευκόλυνσή σας, μπορείτε να συμπληρώσετε το ερωτηματολόγιο ηλεκτρονικά, στη διεύθυνση: ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ Για την αξιολόγηση της Πράξης 61, με τίτλο «Διαμόρφωση μεθοδολογίας ψηφιακής διαμόρφωσης των σχολικών βιβλίων και έντυπου εκπαιδευτικού υλικού για τα γλωσσικά μαθήματα, ψηφιακή διαμόρφωση

Διαβάστε περισσότερα

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω ΔΥΣΓΡΑΦΙΑ Ερωτήσεις 1. Η δυσγραφία μπορεί να χωριστεί στις δύο ακόλουθες κατηγορίες: Α) γενική και μερική Β) γενική και ειδική Γ) αναπτυξιακή και επίκτητη Δ) αναπτυξιακή και μαθησιακή 2. Η αναπτυξιακή

Διαβάστε περισσότερα

Α. Τηλεοπτικές συνήθειες-τρόπος χρήσης των Μ.Μ.Ε.

Α. Τηλεοπτικές συνήθειες-τρόπος χρήσης των Μ.Μ.Ε. 38 ΜΕΡΟΣ ΔΕΥΤΕΡΟ Ένας από τους βασικούς στόχους της παρούσας έρευνας ήταν η εύρεση εκείνων των χαρακτηριστικών των εφήβων τα οποία πιθανόν συνδέονται με τις μελλοντικές επαγγελματικές τους επιλογές. Ως

Διαβάστε περισσότερα

Παγκύπριο Μαθητικό Συνέδριο για τα Μαθηματικά Φεβρουαρίου 2018 Κεντρικά Κτήρια Τράπεζας Κύπρου, Αγία Παρασκευή, Λευκωσία

Παγκύπριο Μαθητικό Συνέδριο για τα Μαθηματικά Φεβρουαρίου 2018 Κεντρικά Κτήρια Τράπεζας Κύπρου, Αγία Παρασκευή, Λευκωσία Κυπριακή Μαθηματική Εταιρεία Παγκύπριο Μαθητικό Συνέδριο για τα Μαθηματικά 2018 9-10 Φεβρουαρίου 2018 Κεντρικά Κτήρια Τράπεζας Κύπρου, Αγία Παρασκευή, Λευκωσία Παρουσίαση Εργασίας Συνεδρίου για τα Μαθηματικά

Διαβάστε περισσότερα

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Μεταπτυχιακό Δίπλωμα Ειδίκευσης: «Σπουδές στην Εκπαίδευση» Οδηγός Σχολιασμού Διπλωματικής Εργασίας (βιβλιογραφική σύνθεση) ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: «ΕΞΕΛΙΞΗ ΤΟΥ ΠΑΙΔΙΟΥ ΣΤΟ ΚΟΙΝΩΝΙΚΟ

Διαβάστε περισσότερα

Εναλλακτικές στρατηγικές, Πρακτικές και Προσεγγίσεις για κατάκτηση πυρηνικών γνώσεων και ορολογίας

Εναλλακτικές στρατηγικές, Πρακτικές και Προσεγγίσεις για κατάκτηση πυρηνικών γνώσεων και ορολογίας Διδασκαλία του μαθήματος της Φυσικής για μαθητές/τριες με μεταναστευτική βιογραφία που παρακολουθούν μαθήματα Ελληνικής ως δεύτερης γλώσσας στις μεταβατικές τάξεις: Εναλλακτικές στρατηγικές, Πρακτικές

Διαβάστε περισσότερα

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Ενότητα 2: Ο Άνθρωπος Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Μεθοδολογία Εκπαιδευτικής Έρευνας στη ΜΕ

Μεθοδολογία Εκπαιδευτικής Έρευνας στη ΜΕ Μεθοδολογία Εκπαιδευτικής Έρευνας στη ΜΕ Χ Α Ρ Α Λ Α Μ Π Ο Σ Σ Α Κ Ο Ν Ι Δ Η Σ, Δ Π Θ Μ Α Ρ Ι Α Ν Ν Α Τ Ζ Ε Κ Α Κ Η, Α Π Θ Α. Μ Α Ρ Κ Ο Υ, Δ Π Θ Α Χ Ε Ι Μ Ε Ρ Ι Ν Ο 2 0 17-2018 2 ο παραδοτέο 8/12/2016

Διαβάστε περισσότερα

Τι μαθησιακός τύπος είναι το παιδί σας;

Τι μαθησιακός τύπος είναι το παιδί σας; Για τους γονείς και όχι μόνο από το Τι μαθησιακός τύπος είναι το παιδί σας; Ακουστικός, οπτικός ή μήπως σφαιρικός; Ανακαλύψτε ποιος είναι ο μαθησιακός τύπος του παιδιού σας, δηλαδή με ποιο τρόπο μαθαίνει

Διαβάστε περισσότερα