ΤΥΠΟΓΡΑΦΙΚΑ ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΑΥΤΟΜΑΤΗ ΑΝΑΛΥΣΗ ΤΩΝ ΚΕΙΜΕΝΩΝ Τίτα Κυριακοπούλου, Θανάσης Μαυρόπουλος, Ελένη Τζιάφα & Ολυμπία Τσακνάκη Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης tita@frl.auth.gr, rip@frl.auth.gr, etziafa@lit.auth.gr, tsaknaki@lit.auth.gr Abstract Natural language text analysis presupposes the formalization of typographical, morphological or syntactic phenomena. Typographical analysis sets the use of each character in a text (e.g. full point could serve as a punctuation mark, as a thousands separator, or in sigles and acronyms, etc). Despite common elements, typographical standards are different in each language. In this article we present some punctuation marks which are considered to be particularities as regards Greek language, along with the way we process them through the analysis system implemented. Analyzed texts originate from information systems and are meant to be read or processed via networks. In particular, this article deals with the problems posed by typographical signs as regards the identification of proper names, proverbs, and terms of specialized glossaries of Modern Greek language. 1. Εισαγωγή Η παρούσα ανακοίνωση εστιάζεται στα προβλήματα που προκύπτουν όσον αφορά τη χρήση τυπογραφικών στοιχείων της Νέας Ελληνικής κατά τη διαδικασία της αυτόματης ανάλυσης κειμένων και εντάσσεται στο πλαίσιο της έρευνας του Εργαστηρίου Μετάφρασης και Επεξεργασίας του Λόγου του Τμήματος Γαλλικής Γλώσσας & Φιλολογίας Α.Π.Θ. Αρχικά, θα παρουσιάσουμε τα προβλήματα που εντοπίζονται στις παροιμίες, τα κύρια ονόματα και τους όρους ειδικών λεξιλογίων (πρόκειται συγκεκριμένα για χρηματιστηριακούς όρους) και στη συνέχεια θα ασχοληθούμε με τον τρόπο επίλυσής τους. H αυτόματη ανάλυση περιλαμβάνει δύο στάδια: τη λεξική, δηλαδή την τυπογραφική και μορφολογική ανάλυση και τη συντακτικοσημασιολογική ανάλυση (Kyriacopoulou 2005: 23). Στην τυπογραφική ανάλυση ενδιαφερόμαστε για τη λειτουργία κάθε χαρακτήρα ξεχωριστά μέσα στην πρόταση. Πρέπει να σημειωθεί ότι η τυπογραφική ανάλυση διαφέρει από γλώσσα σε γλώσσα παρά την ύπαρξη κοινών στοιχείων μεταξύ των περισσότερων ευρωπαϊκών γλωσσών. 912
Τα προβλήματα, όπως θα δούμε, είναι πολυάριθμα, ωστόσο δεν έχουν απασχολήσει ιδιαίτερα τους ερευνητές, οι οποίοι εστιάζονται κυρίως σε μορφολογικά, συντακτικά και σημασιολογικά προβλήματα. Όσον αφορά την ηλεκτρονική επεξεργασία των κειμένων, τα στοιχεία αυτά είναι απαραίτητα προκειμένου να επιτευχθεί η αναγνώριση λεξικών μονάδων και παροιμιών, η κλίση κύριων ονομάτων και τεχνικών όρων και ο τεμαχισμός του κειμένου σε προτάσεις. 2. Τα τυπογραφικά στοιχεία στα κείμενα Τα κείμενα σε ηλεκτρονική μορφή ενδέχεται να έχουν μια ορισμένη μορφοποίηση (για παράδειγμα πλαγιογράμματα ή έντονα στοιχεία, γραμματοσειρά κτλ.), η οποία βέβαια με την ευρεία έννοια μπορεί να αποτελεί στίξη, «στο βαθμό που αποτελεί επιπλέον μεταγλωσσική πληροφορία για την ανάγνωση» 1. Ωστόσο, προκειμένου να πραγματοποιηθεί η αυτόματη επεξεργασία των κειμένων, η μορφοποίηση αυτή αφαιρείται. Όσον αφορά το αλφάβητο, συχνά τα κείμενα περιέχουν κεφαλαία γράμματα, για λόγους είτε συντακτικούς είτε υφολογικούς, π.χ. (1) Από Δήμαρχος κλητήρας (2) Από δήμαρχος κλητήρας (3) Ένα χελιδόνι δε φέρνει την άνοιξη (4) Ένα χελιδόνι δε φέρνει την Άνοιξη Επιπλέον, πέρα από τα βασικά γράμματα του αλφαβήτου μιας γλώσσας, στα κείμενα περιέχονται γράμματα και από άλλα αλφάβητα, τα οποία ενδέχεται να χρήζουν ειδικής αντιμετώπισης κατά την αυτόματη ανάλυση των κειμένων. Στα λεξικά των ειδικών όρων συχνά συμπεριλαμβάνονται στο λεξικό λήμματα με λατινικούς χαρακτήρες, π.χ. limit up, premium, split, arbitrage, repo, swap ή πολυλεκτικές σύνθετες μονάδες 2 που συμπεριλαμβάνουν ελληνικούς και λατινικούς χαρακτήρες π.χ. ακάλυπτη option, off-shore εταιρία. Κατά την κωδικοποίηση των λημμάτων στο ηλεκτρονικό μορφολογικό λεξικό της νέας ελληνικής (Kyriacopoulou et al. 2002), προέκυψαν προβλήματα λόγω της σύμπτωσης ελληνικών και λατινικών χαρακτήρων που δεν αναγνωρίζονται με τον ίδιο τρόπο από τον υπολογιστή, π.χ. 1 http://www.komvos.edu.gr/glwssa/lexiko/s/stiksi.htm 2 Ως πολυλεκτική σύνθετη μονάδα ορίζουμε μια ακολουθία δύο τουλάχιστον απλών λέξεων με έναν τουλάχιστον διαχωριστή (κενό, παύλα, απόστροφος). 913
Α&Ο (τόσο Απρίλιος και Οκτώβριος, όσο και April and October). Πρόκειται για δύο αναπτυγμένες μορφές μιας συντομογραφίας. Σύμπτωση χαρακτήρων υπάρχει και σε μη αναμενόμενες περιπτώσεις, όπως στο P/E (Price to earnings), το οποίο συναντάται γραμμένο και με ελληνικούς χαρακτήρες, ενώ δεν υπάρχει αντιστοιχία των αγγλικών αρχικών με ελληνικές λέξεις. Η ίδια σύμπτωση στους χαρακτήρες μπορεί να υπάρχει στη συντομογραφία Α/Κ (αμοιβαίο κεφάλαιο), αλλά και στο σύμβολο Τ+1 (trading day plus one, επόμενη εργάσιμη ημέρα από την ημέρα πράξης). Τα απόλυτα αριθμητικά επίθετα δεν αναπαρίστανται πάντοτε με τους χαρακτήρες του αλφαβήτου. Ορισμένες φορές γράφονται με ψηφία: (5) Η αλεπού εκατό χρονών, τ αλεπουδάκι εκατόν δέκα (6) Η αλεπού 100, τα αλεπουδάκια 110 Στο ειδικό λεξικό του χρηματιστηρίου υπάρχουν ακόμη λέξεις με ενσωματωμένα ψηφία, π.χ. 8άρι, 24ωρες συναλλαγές, 3μηνο, 6μηνο, 9μηνο, 12μηνο. Όσον αφορά τα σύμβολα, περιλαμβάνονται σε ορισμένα λήμματα, π.χ. (7) δείκτης ftse /ase smallcap80 όπου υπάρχει το σύμβολο (< registered) (8) δείκτης τροφίμων & ποτών όπου υπάρχει το ενωτικό (ampersand) «&» (9) Τ+1, trading day plus one όπου χρησιμοποιείται το σύμβολο «+» (10) μ/κ, μετοχικό κεφάλαιο όπου υπάρχει η κάθετος «/». Η κάθετος χρησιμοποιείται επίσης κατά τη σύμπτυξη βαπτιστικών και επωνύμων: (11) Κων/νος Κων/νίδης 914
Το ενωτικό χρησιμοποιείται στην περίπτωση των χαλαρών συνθέτων 3 και των ηχομιμητικών 4, π.χ. (12) Ο γερο-λύκος μια φορά γελιέται (13) Σα γιομίσει το φεγγάρι, το γρι-γρι δεν πιάνει ψάρι. Χρησιμοποιείται επίσης στα προτακτικά 5 που προσδιορίζουν το κύριο όνομα: (14) της Αγια-Σοφιάς, του Αι-Λια, της κυρα-ρήνης, ο παπα-δημήτρης, ο μπαρμπα-μπρίλιος Το ενωτικό χρησιμοποιείται ακόμη για να συνδέσουμε ζευγάρια από όμοιες λέξεις. Μπορεί ωστόσο να παραλείπεται, γιατί η χρήση του εδώ δεν ενδείκνυται από την επίσημη γραμματική (Τριανταφυλλίδης 2005: 52-53): (15) Αγάλια-αγάλια γίνεται η αγουρίδα μέλι (16) Αγάλια αγάλια γίνεται η αγουρίδα μέλι (17) Ή μικρός-μικρός παντρέψου ή μικρός καλογερέψου (18) Ή μικρός μικρός παντρέψου ή μικρός καλογερέψου Ενώνει επίσης λέξεις που σχετίζονται άμεσα: (19) Ράβε-ξήλωνε, δουλειά να μη σου λείπει, ενώ χρησιμοποιείται και στα σύνθετα επώνυμα ή βαπτιστικά: (20) Άννα-Μαρία (21) Πάλλη-Πετραλιά, Πάλλη-Π., Π.-Πετραλιά 3 Τα χαλαρά σύνθετα είναι ενδιάμεσο στάδιο μεταξύ της παράθεσης στη φράση και της σύνθεσης. Διατηρούν την κατάληξη του δεύτερου συνθετικού, το συνθετικό φωνήεν είναι το ο και ο τόνος δεν μετακινείται (Τριανταφυλλίδης 2005: 177). 4 Να σημειώσουμε ότι στη περίπτωση των χαλαρών συνθέτων και των ηχομιμητικών η χρήση του ενωτικού είναι προαιρετική και μπορούν να γραφούν και ως μονολεκτικά σύνθετα. 5 Προτακτικά είναι λέξεις όπως: Άι-, Αγια-, γερο-, γρια-, θεια-, κυρα-, μαστρο-, μπαρμπα-, παπα-, χατζη- (Τριανταφυλλίδης 2005: 52). 915
Στο λεξικό των οικονομικών όρων το ενωτικό χρησιμοποιείται κυρίως σε πολυλεκτικές σύνθετες μονάδες του τύπου ουσιαστικό + ουσιαστικό, όπου και πάλι όμως μπορεί να παραλείπεται: (22) αγορά-καλάθι (23) δάνειο-αερόστατο (24) εταιρεία-παγόβουνο (25) limit-down (26) αγροτο-νομισματικό σύστημα (27) ευρω-πιστωτική αγορά 6 Σε ορισμένες άλλες περιπτώσεις το ενωτικό δηλώνει σημασιολογική σύνδεση λέξεων: (28) ανάλυση μέσων-αντικειμενικών σκοπών (29) δικαίωμα μελλοντικής αγοράς-πώλησης μετοχών Τα εισαγωγικά, όσον αφορά τις παροιμίες, τοποθετούνται συχνά στην αρχή και στο τέλος τους περικλείοντάς τες ως παράθεμα. Χρησιμοποιούνται επίσης ανάμεσα στα συστατικά στοιχεία τους για να μεταφέρουν κατά λέξη τα λόγια κάποιου ή μια παγιωμένη έκφραση: (30) Το πολύ το «Κύριε ελέησον» το βαριέται κι ο παπάς Στα ειδικά λεξικά τα εισαγωγικά χρησιμοποιούνται για να ξεχωρίσουν λέξεις που δεν χρησιμοποιούνται με την κυριολεκτική τους σημασία, π.χ. (31) μετοχή «φούσκα» προκειμένου να δηλωθεί η μεταφορική χρήση της λέξης, εδώ για την άλογη διόγκωση της τιμής μιας μετοχής. Στην περίπτωση των κυρίων ονομάτων, τα εισαγωγικά μπορούν να τοποθετηθούν στο μέσο ενός ονοματεπωνύμου ως ενδεικτικά ενός παρωνυμίου, περικλείοντάς το: (32) Νίκος «Φαντομάς» Παλαιοκώστας 6 Κατά τον Τριανταφυλλίδη (2005: 51-52) η χρήση του ενωτικού επιτρέπεται μόνο σε μερικά ξενικά σύνθετα που διατηρούν και στα ελληνικά τον διπλό τους τόνο, π.χ. λίμιτ-ντάουν. 916
Τέλος, σημειώνεται απόστροφος στην περίπτωση της έκθλιψης, π.χ. (33) Άλλος έχει τ όνομα κι άλλος τη χάρη της αφαίρεσης στη συμπροφορά 7, π.χ. (34) Όσο να ρθει η γνώση, πάει το γρόσι 8 και της αποκοπής, π.χ. (35) Ο πνιγμένος απ τα μαλλιά του πιάνεται. Στο λεξικό των όρων του χρηματιστηρίου απόστροφο έχουμε σε περιπτώσεις έκθλιψης: (36) κατ αναλογία, κατ αξια, τόκος κατ εκτίμηση Στα κύρια ονόματα σημειώνεται μόνο όταν έχουμε μεταγραφή ξένων βαπτιστικών ή επιθέτων στα ελληνικά: (37) Ο Τουλ, Ο Χάρα, Ο Νηλ 3. Τυπογραφικά στοιχεία και κλίση 3.1. Το κόμμα Το κόμμα με τη μορφή σύντομης παύσης αποτελεί στοιχείο του προφορικού λόγου, έχει κάποια αντιστοιχία με τον τόνο της φωνής και συνεπώς δεν μπορούμε να είμαστε απόλυτοι για τη χρήση του στο γραπτό λόγο 9. 7 Παθαίνουν αφαίρεση στη συμπροφορά, ιδίως στην αφήγηση, σε παροιμίες και στην ποιητική γλώσσα, διάφοροι ρηματικοί τύποι με τονισμένο συνήθως αρχικό φωνήεν (ε, ι), όταν η προηγούμενη λέξη είναι: α) μια από τις προσωπικές αντωνυμίες: εσύ σαι, αυτά ταν όλα, μού φερε, τά δειξε, β) το ερωτηματικό που και το αναφορικό πού: πού ναι; τα λουλούδια πού κοψαν, γ) τα μόρια θα, να: θά χει, θά μαστε, νά ρθει, δ) άλλες ακόμη λέξεις: κάλλιά χω (Τριανταφυλλίδης 2005: 77). 8 Αξίζει να σημειωθεί ότι το πρόγραμμα κλίσης των ρημάτων (Kyriacopoulou, 2005) δίνει τη δυνατότητα κλίσης ρηματικών τύπων που περιέχουν απόστροφο (δέσε το δέσ το). 9 Το κόμμα κυρίως δυσχεραίνει τη συντακτικοσημασιολογική ανάλυση. Για παράδειγμα, σε μια παροιμία με διμερή δομή το κόμμα μπορεί να χρησιμοποιείται ή να παραλείπεται: Κάλλιο πέντε και στο χέρι, παρά δέκα και καρτέρει. 917
Δυσκολίες προκύπτουν κατά την κλίση των πολυλεκτικών σύνθετων μονάδων καθώς μπορεί να υπάρχει κόμμα ανάμεσα στα συστατικά στοιχεία της μονάδας, π.χ. (38) Εμπόριο, συντήρηση και επισκευή οχημάτων 3.2. Τα σύμβολα Τα σύμβολα που περιλαμβάνονται στις πολυλεκτικές σύνθετες μονάδες, αντιμετωπίζονται, σε ορισμένες περιπτώσεις, ως απλές λέξεις. Για το ενωτικό σύμβολο «&» χρησιμοποιείται ο ίδιος κωδικός με το σύνδεσμο «και» στην περίπτωση που προηγείται και έπεται κενό διάστημα: (39) δείκτης.n194 τροφί"μων.n301 &.CONJ ποτών.n300,n,-gp2,-gp4 (40) δείκτης.n194 τροφί"μων.n301 και.conj ποτών.n300,n,-gp2,-gp4 ειδάλλως αναγνωρίζεται ως απλός χαρακτήρας του λήμματος, παρόλο που λειτουργεί ως διαχωριστής (41) Α&Ο.N305,N 10 Η χρήση του χαρακτήρα στο εσωτερικό ενός λήμματος, όταν θέλουμε να γράψουμε το επώνυμο με συντομία, δημιούργησε δυσκολίες κατά τη διαδικασία της αυτόματης κλίσης του, καθώς είναι χαρακτήρας που υπάρχει και στο πρόγραμμα αυτόματης κλίσης που χρησιμοποιούμε (Kyriacopoulou et al. 2002) και δηλώνει τη μετατόπιση του τόνου. (42) Χ κυριάκος Η συντετμημένη μορφή παρουσιάζεται ως τύπος της αρχικής: (43) Χ κυριάκος, Χατζηκυριάκος.N:Nms 11 10 Οι κωδικοί δίπλα στις λεξικές μονάδες είναι οι κωδικοί κλίσης και αναγνώρισης της γραμματικής κατηγορίας, ενώ στο τέλος των λημμάτων υπάρχουν ορισμένα φίλτρα, προκειμένου να επιτευχθεί η κλίση της πολυλεκτικής μονάδας ως συνόλου. 11 Το πρώτο Ν δηλώνει το ουσιαστικό, το δεύτερο Ν δηλώνει την ονομαστική, το m δηλώνει το αρσενικό γένος και το s δηλώνει τον ενικό αριθμό. 918
Επειδή στο πρόγραμμα αυτόματης κλίσης χρησιμοποιούνται ορισμένα τυπογραφικά σύμβολα για την εκτέλεση συγκεκριμένων λειτουργιών, στη συγκεκριμένη περίπτωση γίνεται προσωρινή αντικατάσταση αυτού του χαρακτήρα με άλλον που δεν χρησιμοποιείται από το πρόγραμμα κλίσης, όπως είναι το «@». 3.3. Η κάθετος Η αναγνώριση της καθέτου καθιστά απαραίτητη την ύπαρξη κενού πριν και μετά από αυτήν: (44) δέσμευση μεσεγγύηση ακινήτων / κινητών εκτός αν περιλαμβάνεται σε μια συντομογραφία, οπότε και πάλι αναγνωρίζεται ως απλός χαρακτήρας του λήμματος, π.χ. (45) μ/κ, δ/νων σύμβουλος. 4. Τεμαχισμός σε προτάσεις 4.1. Η τελεία Η χρήση της τελείας δημιουργεί πρόβλημα στην αναγνώριση των λεξικών μονάδων και ορισμένων παροιμιών αλλά και στον τεμαχισμό των κειμένων σε προτάσεις. Συνοπτικά, θα λέγαμε ότι η τελεία χρησιμοποιείται: στο τέλος μιας πρότασης (46) Στου κουφού την πόρτα όσο θέλεις βρόντα. στις συντομογραφίες (47) π.χ., π.χ. τα αρκτικόλεξα (48) Χ.Α.Α. Χρηματιστήριο Αξιών Αθηνών και τα ακρώνυμα 919
(49) ΝΕ.ΧΑ. Νέα Χρηματιστηριακή Αγορά 12 στα αρχικά ονομάτων (50) Α. Παπαδόπουλος, Γιώργος Χ. Γεωργιάδης αλλά και στις σύντομες μορφές γραφής σύνθετων βαπτιστικών και επωνύμων : (51) Μαρία-Λουίζα, Μαρία-Λ, Μ.Λ., Μ.-Λ. (52) Αγγελοπούλου-Δασκαλάκη, Αγγελοπούλου-Δ., Α.-Δασκαλάκη (53) Ζαν Ζακ, Ζαν Ζ., Ζ. Ζακ, Ζ.Ζ., Ζ. Για την αυτόματη επεξεργασία κειμένων, η οριοθέτηση των προτάσεων αποτελεί το πρώτο σημαντικό βήμα. Η μη αναγνώριση των προτάσεων ενός κειμένου καθιστά δύσκολη την παραγωγή μιας αποδεκτής γλωσσολογικής ανάλυσης. Όπως θα δούμε αμέσως παρακάτω στην περίπτωση της τελείας, δεν είναι απαραίτητο τα σημεία στίξης να σηματοδοτούν το τέλος μιας πρότασης. Επιπλέον, ο βασικός κανόνας που απαιτεί κεφαλαίο γράμμα στην αρχή μιας πρότασης δεν αποτελεί επαρκή ένδειξη. Πράγματι, ένα κεφαλαίο μπορεί να βρίσκεται στην αρχή μιας πρότασης, αλλά και εντός συντομογραφιών ή σε κύρια ονόματα. Το γεγονός ότι μια πρόταση μπορεί να περικλείεται από δύο σημεία στίξης δεν αρκεί για να σηματοδοτήσει το τέλος μιας πρότασης και την αρχή μιας άλλης. Για να δείξουμε αυτή τη δυσκολία, εξετάζουμε τα ακόλουθα παραδείγματα που συμπεριλαμβάνουν την τελεία, το πιο αμφίσημο σημείο στίξης (βλ. επίσης Kyriacopoulou 2005). (54) Οι καρέκλες είναι μαύρες. Το τραπέζι επίσης. (55) Το όνομα του γράφεται με Ι. Μου το είπε η Μαρία. (56) Το ανέφερε ο Ι. Μελισσανίδης στην συνέντευξή του. (57) 1.2.3. Επίλογος (58) Εμείς στο ΔΗ.Κ.ΚΙ αγαπητοί συνάδελφοι είμαστε χαρούμενοι άνθρωποι. (59) Ο κ. Σημίτης θα βρίσκεται στις Βρυξέλλες για τη σύνοδο κορυφής. (60) Ο Κ. Σημίτης θα συναντηθεί με πολλούς συναρμόδιους υπουργούς για να αποφασίσουν. (61) Ζημιές που υπάρχουν έχουν αποτυπωθεί και θα αποκατασταθούν αμέσως με χρήματα του Ο.Σ.Κ. Τα δύο πυρόπληκτα σχολεία έχουν πλήρως επισκευασθεί. 12 Αλλά όχι πάντα, π.χ. ΧΑΑ 920
Οι προτάσεις (54) και (55) αποτελούν απλές περιπτώσεις όπου η τελεία ακολουθείται από ένα κεφαλαίο γράμμα και σηματοδοτεί το τέλος μιας πρότασης. Το «I» στο παράδειγμα (55) δεν είναι συντομογραφία και η τελεία αποτελεί το τέλος της πρότασης. Ωστόσο στις προτάσεις (56)-(60) η τελεία δεν έχει πάντα αυτό το ρόλο. Στην πρόταση (56), το «I.» είναι το αρχικό γράμμα του κύριου ονόματος Ιωάννης. Το παράδειγμα (57) είναι ο τίτλος μιας ενότητας 13. Στο παράδειγμα (58), το «ΔΗ.Κ.ΚI.» είναι το αρκτικόλεξο ενός πολιτικού κόμματος. Τέλος, στα παραδείγματα (59) και (60) τα «κ.», «Κ.» αποτελούν συντομογραφίες αλλά δεν έχουν την ίδια σημασία. Το «κ.» αποτελεί τη συντομογραφία για τη λέξη κύριος και το «Κ.» είναι το αρχικό γράμμα του κύριου ονόματος Κωνσταντίνος ή Κώστας. Στο παράδειγμα (61) το σύστημα πρέπει να αναγνωρίσει ότι η τελευταία τελεία του αρκτικολέξου Ο.Σ.Κ. αποτελεί το τέλος της πρότασης. Τα παραδείγματα αυτά αποδεικνύουν ότι οι αμφισημίες που παράγονται από τις συντομογραφίες, οι αριθμοί που συμπεριλαμβάνουν τελείες και οι συνδυασμοί: Συντομογραφία Κύριο όνομα, Κύριο όνομα κοινό όνομα, καθιστούν τον εντοπισμό των προτάσεων ιδιαίτερα δύσκολο, έως αδύνατο σε ορισμένες περιπτώσεις. Στην περίπτωση των παροιμιών, ο ορθός τεμαχισμός σε προτάσεις αποτελεί το πρώτο σημαντικό βήμα. Στα νέα ελληνικά υπάρχουν ορισμένες παροιμίες που αποτελούνται από δύο ή περισσότερες προτάσεις που ακολουθούνται από τελεία, άνω τελεία, ερωτηματικό ή παύλα. Οι προτάσεις δεν θα πρέπει να αναγνωριστούν ξεχωριστά η κάθε μία αλλά ως ένα σύνολο, μια ακολουθία. (62) Ποιος παινάει τη νύφη μας; Η τσιμπλού η μάνα της. (63) Βρήκες φαΐ; Φάε. Βρήκες ξύλο; Φύγε. 4.2. Η άνω τελεία Η άνω τελεία στις παροιμίες μπορεί να αντικατασταθεί από το κόμμα και ενίοτε από τη διπλή τελεία: (64) Οι επιθυμίες του ανθρώπου είναι σαν τις μέρες μια πάει άλλη έρχεται 4.3. Το ερωτηματικό Το ερωτηματικό στις παροιμίες ενίοτε εναλλάσσεται με το κόμμα. 13 Μπορούμε να βρούμε τον ίδιο τύπο αρίθμησης στις απαριθμήσεις: 1., 2., 921
(65) Τι είχες Γιάννη; Τι είχα πάντα 4.4. Η παύλα Στις διαλογικές παροιμίες οι εναλλαγές στα πρόσωπα δηλώνονται είτε με την παύλα είτε χωρίς αυτή: (66) -Άγιε Γιώργη, βόηθα με. -Κούνα κι εσύ τα χέρια σου. Ωστόσο, οι προτάσεις δεν θα πρέπει να αναγνωριστούν ξεχωριστά η κάθε μία αλλά ως ένα σύνολο. 5. Τρόποι επίλυσης Δύο είναι οι λύσεις που προτείνονται για την επίλυση των παραπάνω προβλημάτων: α. ηλεκτρονικά λεξικά, β. πεπερασμένα αυτόματα. 5.1. Ηλεκτρονικά λεξικά Με την κατασκευή ηλεκτρονικών λεξικών αντιμετωπίζονται οι περιπτώσεις των σύνθετων βαπτιστικών και επωνύμων: (67) Άννα-Μαρία,.Ν:Nfs:Afs:Vfs (68) Άννα-Μ., Άννα-Μαρία.N:Nfs:Afs:Vfs (69) Ά-M., Άννα-Μαρία.N:Nfs:Afs:Vfs Το ίδιο ισχύει για όλες τις πολυλεκτικές σύνθετες μονάδες στις οποίες υπάρχουν ενωτικό, σύμβολα, κτλ. όπως έχουμε προαναφέρει. 922
5.2. Πεπερασμένα αυτόματα 14 Για να επιλύσουμε το πρόβλημα των παροιμιών που αποτελούνται από δύο προτάσεις δημιουργήσαμε ένα μεταβιβαστή που αναπαριστά όλες τις παροιμίες που ανήκουν στην κατηγορία αυτή (Tsaknaki, 2006) και τον ενσωματώσαμε ως εγκιβωτισμένο γράφο 15 στο γράφο τεμαχισμού προτάσεων. Ο μεταβιβαστής δίνει τη δυνατότητα να αναγνωριστούν και οι παραλλαγές τους, όταν δηλαδή στη θέση της τελείας εμφανίζεται κόμμα ή άλλο σημείο στίξης. Χρήση γράφου γίνεται ακόμη και στην περίπτωση προτακτικών κυρίων ονομάτων όπως παπα- Δημήτρης. Ο γράφος εμπεριέχει το σύνολο των προτακτικών σε έναν κόμβο που προηγείται του βαπτιστικού. Παρακάτω παραθέτουμε ενδεικτικά ορισμένα μόνο προτακτικά. Εικόνα 1. Προτακτικά κυρίων ονομάτων Στην περίπτωση των ξενικών επιθέτων που μεταγράφονται στα ελληνικά όπως: Ο Τουλ, Ο Χάρα, Ο Νηλ, γίνεται χρήση πεπερασμένου αυτομάτου το οποίο δίνει τη δυνατότητα προαιρετικής ύπαρξης της αποστρόφου. 14 Ένα πεπερασμένο αυτόματο (finite state automaton) είναι ένας αφηρημένος μηχανισμός που χαρακτηρίζεται από ένα πεπερασμένο σύνολο καταστάσεων, ένα πεπερασμένο σύνολο συμβόλων και των αντίστοιχων μεταβάσεων από τη μία κατάσταση σε μια άλλη. Στο εσωτερικό αυτού του πεπερασμένου συνόλου καταστάσεων διακρίνουμε την κατάσταση από όπου ξεκινούν οι μεταβάσεις και η οποία ονομάζεται αρχική κατάσταση, τις ενδιάμεσες καταστάσεις και μία τελική κατάσταση. Τα αυτόματα καθορίζουν τις ακολουθίες συμβόλων με βάση τη διαδρομή που πηγαίνει από αριστερά προς τα δεξιά, δηλαδή από μία αρχική κατάσταση σε μία τελική. Η αναπαράσταση με πεπερασμένα αυτόματα βοηθάει στην αποτύπωση γλωσσικών φαινομένων και στη συμπίεσή τους. Η αναπαράσταση του πεπερασμένου αυτόματου ονομάζεται γράφος και οι καταστάσεις ονομάζονται κόμβοι. Όλοι οι κόμβοι έχουν ετικέτες, εκτός από τον τελικό. Η ετικέτα κάθε κόμβου περιέχει ένα σύμβολο ή μια κενή λέξη (<Ε>) (βλ. Perrin 1994, Roche & Schabès, 1997). Στην περίπτωση όπου εκτός από το αλφάβητο εισόδου υπάρχει και ένα αλφάβητο εξόδου, τότε το πεπερασμένο αυτόματο που χρησιμοποιείται για να πραγματοποιηθεί η μετάβαση από το αλφάβητο εισόδου προς το αλφάβητο εξόδου ονομάζεται μεταβιβαστής. 15 Οι εγκιβωτισμένοι γράφοι περιέχουν αριθμό πληροφοριών που δεν μπορούν να αναπαρασταθούν στο μεταβιβαστή λόγω του όγκου τους και ενσωματώνονται στον αρχικό μεταβιβαστή για να αναγνωριστεί η ακολουθία (Silberztein, 1993). 923
Εικόνα 2. Ξενικά επίθετα που μεταγράφονται στα αγγλικά Ο γράφος τεμαχισμού σε προτάσεις προβλέπει ότι δεν πρόκειται για πρόταση όταν ένα ή περισσότερα κεφαλαία γράμματα ακολουθούνται από τελείες. Αυτός ο κανόνας αποδίδει ικανοποιητικά αποτελέσματα, ωστόσο περιπτώσεις όπως Γιάν. Κεφαλογιάννης δυσχεραίνουν την ανάλυση. Για το λόγο αυτό τα πεπερασμένα αυτόματα στηρίζονται σε εξαντλητικούς καταλόγους συντομογραφιών, κύριων ονομάτων και αριθμών που έχουμε δημιουργήσει. 6. Συμπέρασμα Αντικείμενο της ανακοίνωσής μας ήταν τα τυπογραφικά προβλήματα στην αυτόματη ανάλυση κειμένων. Αφού αναφερθήκαμε στην παρουσία τυπογραφικών στοιχείων στα κείμενα καθώς και στα προβλήματα τεμαχισμού των προτάσεων τα οποία προκύπτουν κατά το στάδιο της τυπογραφικής ανάλυσης, αναφερθήκαμε στη συνέχεια στους τρόπους με τους οποίους τα επιλύσαμε: μέσω ηλεκτρονικών λεξικών ή εφαρμόζοντας το μοντέλο διαδικασιών πεπερασμένων αυτομάτων. Οι περιπτώσεις αυτές έχουν επιλυθεί σε σημαντικό βαθμό, ωστόσο η έρευνα πρέπει να συνεχιστεί ώστε να βρεθούν λύσεις και στα προβλήματα που παραμένουν έως τώρα άλυτα, π.χ. ο τεμαχισμός των προτάσεων που τελειώνουν με συντομογραφία, αρκτικόλεξο ή ακρώνυμο με τελεία. Βιβλιογραφία Gross, M. (1993) Local grammars and their representation by finite automata, in Hoewy, M. (eds), Data Description, Discourse, Papers on the English Language in honour of John McH Sinclair. London: Collins, 26-38. Gross, M. (1995) Representation of finite utterances and the automatic parsing of texts, Languages Research, n 31:2, Université Nationale du Sud, 291-307. Gross, M. (1997) The Construction of Local Grammars. In E. Roche & Y. Schabès, (eds), Finite-State Language Processing, Cambridge, MA./ London: MIT Press. Holton, D., P. Mackridge & E. Philippaki-Warburton (1999) Γραμματική της ελληνικής γλώσσας (μτφρ. Β. Σπυρόπουλος). Πατάκης: Αθήνα. Kyriacopoulou, T., S. Mrabti, & A. Yannacopoulou (2002) "Le dictionnaire électronique des noms composés en grec moderne", Lingvisticae Investigationes XXV:1, 7-28. Kyriacopoulou, T. (2005) Analyse automatique des textes écrits: Le cas du grec moderne. Thessaloniki : University Studio Press. Παπαγεωργίου, Μ. (2005) «Δυσκολίες κατά την ανάγνωση μαθηματικών παραστάσεων και αντιστοίχιση ορολογίας στην ελληνική-γαλλική γλώσσα», 5ο Συνέδριο ΕΛΕΤΟ, Λευκωσία, 13-15 Οκτωβρίου 2005, 313-322. Perrin, D. (1994) Les débuts de la Théorie des Automates. Institut Gaspard Monge, Noisy le Grand, Université de Marne-la-Vallée. 924
Roche, E. & Y. Schabès (1997) Finite-State Language Processing. London: MIT Press. Silberztein, M. (1990) Le dictionnaire électronique des mots composes, Langue Française, 87. Silberztein, M. (1993) Dictionnaires électroniques et analyse automatique de textes. Le système INTEX, Paris: Masson. Τριανταφυλλίδης, Μ. (1941/2000) Νεοελληνική Γραμματική. Θεσσαλονίκη: Ινστιτούτο Νεοελληνικών Σπουδών. Tsaknaki, Ο. (2006) Locating proverbs with finite-state transducers. Toward Computational Models of Literary Analysis, Workshop of the International Conference on Language Resources and Evaluation (LREC-2006) May 2006, 57 62. Τσαντσάνογλου, Κ. (2001) «Τα σημεία στίξης». Στο Α.-Φ. Χριστίδης (επιμ.) Ιστορία της Ελληνικής Γλώσσας από τις αρχές έως την ύστερη Αρχαιότητα. Θεσσαλονίκη: Ινστιτούτο Νεοελληνικών Σπουδών, 991-996. Voyatzi, S. (2006), Description morpho-syntaxique et sémantique des adverbes figés de phrase en vue d un système d analyse automatique des textes grecs, Thèse de doctorat, Université de Marne-La-Vallée.. 925