ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) «Διερμηνεία και Μετάφραση» Tων Τμημάτων: Φιλολογίας, Αγγλικής Γλώσσας και Φιλολογίας, Γαλλικής Γλώσσας και Φιλολογίας, Γερμανικής Γλώσσας και Φιλολογίας, και Ιταλικής Γλώσσας και Φιλολογίας Δ ι δ α κ τ ο ρ ι κ ή δ ι α τ ρ ι β ή γ ι α τ η ν α π ό κ τ η σ η Διδακτορικού Διπλώματος στη Μετάφραση-Μεταφρασεολογία μ ε θ έ μ α «Ονοματικά σύνολα της Νέας Ελληνικής: Αυτόματη αναγνώριση και εξάλειψη μορφολογικών αμφισημιών κατά την αυτόματη επεξεργασία κειμένων. Προτάσεις εφαρμογής στη μετάφραση» Noun phrases in Modern Greek: Automatic recognition and morphological disambiguation in automatic text processing. Some suggestions for possible applications in translation ΠΑΡΑΡΤΗΜΑΤΑ Κυριακή Ιωαννίδου Επταμελής επιτροπή: Παναγιώτα Κυριακοπούλου (επιβλέπουσα) Άννα Αναστασιάδη-Συμεωνίδη (μέλος της τριμελούς συμβουλευτικής επιτροπής) Συμεών Γραμμενίδης (μέλος της τριμελούς συμβουλευτικής επιτροπής) Ξανθίππη Δημητρούλια Γεώργιος Μικρός Ανδρομάχη-Βιργινία Πανταζάρα Αικατερίνη Φραντζή ΘΕΣΣΑΛΟΝΙΚΗ 2013
Η παρούσα διδακτορική διατριβή έχει συγχρηματοδοτηθεί από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο ΕΚΤ) και από εθνικούς πόρους μέσω του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» - «Επένδυση στην κοινωνία της γνώσης» του Εθνικού Στρατηγικού Πλαισίου Αναφοράς (ΕΣΠΑ) 2007-2013. Ερευνητικό Χρηματοδοτούμενο Έργο: Ηράκλειτος ΙΙ. Ενίσχυση του ανθρώπινου ερευνητικού δυναμικού μέσω της υλοποίησης διδακτορικής έρευνας 1
ΠΕΡΙΕΧΟΜΕΝΑ ΠΑΡΑΡΤΗΜΑΤΩΝ Διάγραμμα ροής της έρευνας 4 ΠΑΡΑΡΤΗΜΑ Ι Επεξεργασία σωμάτων κειμένων 1. Απόσπασμα σώματος κειμένου πριν από οποιαδήποτε επεξεργασία..5 2. Γραμματική τεμαχισμού κειμένου σε περιόδους..8 3. Απόσπασμα σώματος κειμένων κατόπιν προεπεξεργασίας.9 4. Δομή μορφολογικού λεξικού και μορφολογικής ανάλυσης κειμένων...12 5. Δείγμα αποτελέσματος λεξικής ανάλυσης κειμένου: απλές λεκτικές μονάδες 13 6. Δείγμα αποτελέσματος λεξικής ανάλυσης κειμένου: σύνθετες πολυλεκτικές μονάδες...14 7. Απόσπασμα πεπερασμένου αυτομάτου κειμένου κατόπιν μορφολογικής ανάλυσης 15 8. Δείγμα γραμματικών ELAG για την κατάρτιση επισημειωμένου σώματος κειμένων.18 9. Απόσπασμα πεπερασμένου αυτομάτου κειμένου κατόπιν εφαρμογής γραμματικών ELAG 19 10. Απόσπασμα πεπερασμένου αυτομάτου επισημειωμένου κειμένου κατόπιν χειρωνακτικής διόρθωσης...22 11. Απόσπασμα επισημειωμένου σώματος κειμένων...25 ΠΑΡΑΡΤΗΜΑ ΙΙ: Αυτόματη αναγνώριση ονοματικών συνόλων 1. Δείγμα γραμματικών αναγνώρισης ονοματικών συνόλων..28 2. Απόσπασμα συμφραστικών πινάκων κατόπιν εφαρμογής γραμματικών αναγνώρισης ονοματικών συνόλων..39 2
ΠΑΡΑΡΤΗΜΑ ΙΙΙ: Εξάλειψη μορφολογικών αμφισημιών 1. Δείγμα γραμματικών αναγνώρισης ονοματικών συνόλων, χρησιμοποιημένων ως μεταβιβαστών, κατόπιν προσθήκης αντίστοιχης μορφολογικής επισήμανσης..44 2. Απόσπασμα συμφραστικών πινάκων κατόπιν εξάλειψης μορφολογικών αμφισημιών...46 3. Απόσπασμα προγράμματος σε γλώσσα PERL για τη σύγκριση σωμάτων κειμένων και την εξαγωγή ποσοστών ανάκλησης και ακρίβειας...50 ΠΑΡΑΡΤΗΜΑ ΙV: Εφαρμογή στη μηχανική μετάφραση 1. Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό BABEL FISH 51 2. Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό BING.. 52 3. Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό GOOGLE.53 4. Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό SYSTRAN.54 5. Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό WORDLINGO.55 3
Διάγραμμα ροής της έρευνας Α. Προεπεξεργασία σωμάτων κειμένων Α & Β ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ που κατασκευάσαμε 1. Επεξεργασία σωμάτων κειμένων Β. Μορφολογική ανάλυση σωμάτων κειμένων Α & Β Γ. Ημι-αυτόματη εξάλειψη αμφισημιών σώματος κειμένων Β Δ. Χειρωνακτική διόρθωση σώματος κειμένων Β/Επισημείωση Επισημειωμένο σώμα κειμένων Α. Συλλογή πιθανών δομών ονοματικών συνόλων 2. Μελέτη ονοματικών συνόλων Β. Παρατήρηση, ομαδοποίηση περιπτώσεων & κατασκευή τυπολογίας Γ. Κατασκευή γραμματικών κανόνων/γράφων περιγραφής ονοματικών συνόλων Δ. Εφαρμογή κανόνων στο σώμα κειμένων Α και διόρθωση γραμματικών κανόνων γραμματικοί κανόνες/γράφοι αναγνώρισης ονοματικών συνόλων 3. Εξάλειψη αμφισημιών Εξάλειψη αμφισημιών στο σώμα κειμένων Α και αντιπαραβολή με το σώμα κειμένων Β 4
ΠΑΡΑΡΤΗΜΑ Ι Επεξεργασία σωμάτων κειμένων Απόσπασμα σώματος κειμένου πριν από οποιαδήποτε επεξεργασία 5
6
7
Γραμματική τεμαχισμού κειμένου σε περιόδους 8
Απόσπασμα σώματος κειμένων κατόπιν προεπεξεργασίας 9
10
11
Δομή μορφολογικού λεξικού και μορφολογικής ανάλυσης λέξεων Δομή καταχώρισης στο μορφολογικό ηλεκτρονικό λεξικό: τύπος,λήμμα.γραμμ. κατηγορία+χαρακτηριστικό (ένα ή περισσότερα):πληροφ. κλίσης (μία ή περισσότερες) Π.χ. ανθρώπου,άνθρωπος.n+hum:gms Αναλυτικότερα: τύπος: ο κλιτός τύπος μιας λέξης (πχ. ανθρώπου) λήμμα: ο λημματικός τύπος της (πχ. άνθρωπος). γραμμ. κατηγορία: Μία από τις επόμενες γραμματικές κατηγορίες: A (επίθετο) ABREV (συντομογραφία) ACRON (ακρωνύμιο) ADV (επίρρημα) CONJ (σύνδεσμος) DET (προσδιοριστής) INTJ (επιφώνημα) N (ουσιαστικό) PART (μόριο) PREP (πρόθεση) PREPdet (εμπρόθετος προσδιοριστής) PRO (αντωνυμία) SIGL (αρκτικόλεξο) V (ρήμα) χαρακτηριστικό: σημασιολογικό χαρακτηριστικό ή υποκατηγορία γραμματικής κατηγορίας (π.χ. +Conc= δηλώνει το συγκεκριμένο, +Def= οριστικό (άρθρο)) πληροφ. κλίσης: Για λέξεις που έχουν πτώσεις: Το 1 ο γράμμα εκφράζει την πτώση, το 2 ο το γένος και το 3 ο τον αριθμό. Πτώσεις: N (ονομαστική),, G (γενική), A (αιτιατική), V (κλιτική). Γένος: m (αρσενικό), f (θηλυκό), n (ουδέτερο). Αριθμός: s (ενικός), p (πληθυντικός) Π.χ. ανθρώπου Gms Για ρήματα: Το 1 ο γράμμα εκφράζει το χρόνο, το 2 ο το πρόσωπο και το 3 ο τον αριθμό. Χρόνοι: C (υποθετική μέλλοντα (π.χ. θα αγόραζα), D (εξακολουθητικός μέλλοντας), F (στιγμιαίος μέλλοντας), I (παρατατικός), J (αόριστος), OJ (ευκτική αορίστου), OP (ευκτική ενεστώτα), P (ενεστώτας), R (παρακείμενος) S (υποτακτική αορίστου), T (υποτακτική ενεστώτα), Y (προστακτική ενεστώτα), YR (προστακτική παρακειμένου), Z (προστακτική αορίστου). Πρόσωπα: 1 (πρώτο πρόσωπο), 2 (δεύτερο πρόσωπο), 3 (τρίτο πρόσωπο). Αριθμός: s (ενικός), p (πληθυντικός). Μετοχή ενεργητικής φωνής: G 12
Δείγμα αποτελέσματος λεξικής ανάλυσης κειμένου: απλές λεκτικές μονάδες 13
Δείγμα αποτελέσματος λεξικής ανάλυσης κειμένου: σύνθετες πολυλεκτικές μονάδες 14
Απόσπασμα πεπερασμένου αυτομάτου κειμένου κατόπιν μορφολογικής ανάλυσης 15
16
17
Δείγμα γραμματικών ELAG για την κατάρτιση επισημειωμένου σώματος κειμένων 18
Απόσπασμα πεπερασμένου αυτομάτου κειμένου κατόπιν εφαρμογής γραμματικών ELAG 19
20
21
Απόσπασμα πεπερασμένου αυτομάτου επισημειωμένου κειμένου κατόπιν χειρωνακτικής διόρθωσης 22
23
24
Απόσπασμα επισημειωμένου σώματος κειμένων 25
26
27
ΠΑΡΑΡΤΗΜΑ ΙΙ: Αυτόματη αναγνώριση ονοματικών συνόλων Δείγμα γραμματικών αναγνώρισης ονοματικών συνόλων Γράφος προσδιοριστών που τοποθετούνται πριν το οριστικό άρθρο για ΟΣ ενικού αριθμού Γράφος προσδιοριστών που τοποθετούνται πριν το οριστικό άρθρο για ΟΣ πληθυντικού αριθμού 28
Γράφος αόριστων προσδιοριστών και συνδυασμών με αυτούς Γράφος προσδιοριστών που τοποθετούνται μεταξύ του επιθετικού προσδιορισμού και του ουσιαστικού Γράφος που συνοψίζει τους συνδυασμούς των προσδιοριστών 29
Γράφος αριθμητικών σε ΟΣ ενικού αριθμού Γράφος αριθμητικών με ψηφία ή χρήση μεταβλητών (χ, ψ κτλ) Γράφος κλασμάτων 30
Γράφος αριθμητικών με χρήση προθέσεων Γράφος δομών αριθμητικών 31
Γράφος ΟΣ στο αρσενικό ενικού με κεφαλή ουσιαστικό και παρουσία προσδιοριστών Γράφος ΟΣ στο θηλυκό ενικού με κεφαλή ουσιαστικό και παρουσία προσδιοριστών 32
Γράφος επιθετικού προσδιορισμού Απόσπασμα γράφου όπου ο επιθετικός προσδιορισμός προηγείται ή έπεται του ουσιαστικού 33
Γράφος επανάληψης οριστικού άρθρου με επιθετικό προσδιορισμό Γράφος παρατακτικής σύνδεσης μεταξύ επιθετικών προσδιορισμών. Γίνεται ταυτόχρονη εξαγωγή από το ΟΣ συνδέσμων που τροποποιούν τη φράση 34
Γράφος επιρρήματος όταν βρίσκεται στο εσωτερικό ενός ΟΣ Γράφος επιθετικού προσδιορισμού που δεν προηγείται από προσδιοριστή 35
Γράφος ΟΣ αρσενικού ενικού με κεφαλή εννοούμενο ουσιαστικό και παρουσία προσδιοριστών Κεντρικός γράφος ΟΣ με κεφαλή ουσιαστικό Γράφος ετερόπτωτου προσδιορισμού 36
Γράφος ουσιαστικοποιημένων επιθέτων χωρίς την παρουσία προσδιοριστών Γράφος ουσιαστικοποιημένων επιρρημάτων 37
Γράφος αντωνυμιοποίησης προσδιοριστών Γράφος που επικαλείται το σύνολο των γράφων 38
Απόσπασμα συμφραστικών πινάκων κατόπιν εφαρμογής γραμματικών αναγνώρισης ονοματικών συνόλων 39
40
41
42
43
ΠΑΡΑΡΤΗΜΑ ΙΙΙ: Εξάλειψη μορφολογικών αμφισημιών Δείγμα γραμματικών αναγνώρισης ονοματικών συνόλων, χρησιμοποιημένων ως μεταβιβαστών, κατόπιν προσθήκης αντίστοιχης μορφολογικής επισήμανσης Μεταβιβαστής ΟΣ στο αρσενικό ενικού με κεφαλή ουσιαστικό και παρουσία προσδιοριστών 44
Μεταβιβαστής προσδιοριστών που τοποθετούνται μεταξύ του επιθετικού προσδιορισμού και του ουσιαστικού Μεταβιβαστής επιθέτων όταν βρίσκεται στο εσωτερικό ενός ΟΣ Μεταβιβαστής επιρρήματος όταν βρίσκεται στο εσωτερικό ενός ΟΣ 45
Απόσπασμα συμφραστικών πινάκων κατόπιν εξάλειψης μορφολογικών αμφισημιών 46
47
48
49
Απόσπασμα προγράμματος σε γλώσσα PERL για τη σύγκριση σωμάτων κειμένων και την εξαγωγή ποσοστών ανάκλησης και ακρίβειας 50
ΠΑΡΑΡΤΗΜΑ ΙV: Εφαρμογή στη μηχανική μετάφραση Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό BABEL FISH 51
Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό BING 52
Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό GOOGLE 53
Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό SYSTRAN 54
Απόσπασμα γαλλικού μεταφρασμένου κειμένου από το λογισμικό WORDLINGO 55