ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ Ονοµατικά σύνολα της Νέας Ελληνικής: Εξάλειψη µορφολογικών αµφισηµιών κατά την αυτόµατη επεξεργασία κειµένων µε εφαρµογές στη µετάφραση Κυριακή Ιωαννίδου - kiroanni@auth.gr Ηµερίδα µεταπτυχιακών φοιτητών Τοµέα Μετάφρασης Τµήµατος Γαλλικής Γλώσσας και Φιλολογίας 23/6/2009
Ονοµατικά σύνολα (στο εξής ΟΣ) Παραδείγµατα Το παιδί έφαγε το κρέας Το παιδί που έφερε το σκυλί έφαγε το κρέας Το κουράγιο του είναι αξιοθαύµαστο Το πώς πήρε το πτυχίο του είναι αξιοθαύµαστο Ο κρότος τρόµαξε τους κατοίκους του χωριού Το χωρίς νόηµα χτύπηµα της καµπάνας τρόµαξε τους κατοίκους του χωριού
Μορφολογική ανάλυση ΟΣ Το χωρίς νόηµα χτύπηµα της καµπάνας τρόµαξε τους κατοίκους του χωριού Αναγνώριση ορίων λέξης γραµµατικής κατηγορίας πτώσης γένους αριθµού Παραδείγµατα: το: άρθρο, ονοµαστική, ουδέτερο, ενικός χωρίς: πρόθεση νόηµα: ουσιαστικό, αιτιατική, ουδέτερο, ενικός χτύπηµα: ουσιαστικό, ονοµαστική, ουδέτερο, ενικός της: άρθρο, γενική, θηλυκό, ενικός καµπάνας: ουσιαστικό, γενική, θηλυκό, ενικός
Συντακτικοσηµασιολογική ανάλυση ΟΣ Το χωρίς νόηµα χτύπηµα της καµπάνας τρόµαξε τους κατοίκους του χωριού 1 ο επίπεδο: Αναγνώριση εσωτερικής δοµής ΟΣ εντοπισµός µικρότερων ΟΣ και προσδιοριστικών στοιχείων το: οριστικό άρθρο σε ονοµαστική/αιτιατική, ουδέτερο, ενικός χωρίςνόηµα: εµπρόθετο ΟΣ σε αιτιατική, µε την πρόθεση χωρίς χτύπηµα: άναρθρο ουσιαστικό σε ονοµαστική/αιτιατική/κλητική, ουδέτερο, ενικός τηςκαµπάνας: έναρθρο ΟΣ σε γενική, θηλυκό, ενικός, µε το οριστικό άρθρο εντοπισµός ορίων ΟΣ τοχωρίςνόηµαχτύπηµατηςκαµπάνας: ΟΣ, ονοµαστική/αιτιατική, ουδέτερο, ενικός 2 ο επίπεδο: Αναγνώριση συντακτικού ρόλου ΟΣ στην πρόταση µε βάση τη σύνταξη του κατηγορήµατος το χωρίς νόηµα χτύπηµα της καµπάνας: υποκείµενο στο τρόµαξε
Γλωσσικοί πόροι Για όλα τα στάδια ανάλυσης: Σύστηµα αυτόµατης ανάλυσης Unitex (Paumier, 2008) Σώµατα κειµένων: Χαρακτηρισµένο µορφολογικά κείµενο έκτασης 37.000 λέξεων («Τα Νέα») Σώµα κειµένων 5.000.000 λέξεων δηµοσιογραφικού λόγου («Τα Νέα», «Μακεδονία») Σώµα κειµένων 2.000.000 λέξεων διδακτικού λόγου (σχολικά βιβλία Παιδαγωγικού Ινστιτούτου) Σώµα κειµένων που δηµοσιεύτηκε στο διαδίκτυο έκτασης 40.000.000 λέξεων Για τη µορφολογική ανάλυση: Ηλεκτρονικά λεξικά Μονάδας Αυτόµατης Επεξεργασίας Φυσικών Γλωσσών, ΕΜΕΛ, ΑΠΘ Για τη συντακτικοσηµασιολογική ανάλυση εντός ΟΣ ηλεκτρονικές γραµµατικές που κατασκευάζουµε στο πλαίσιο της συγκεκριµένης διατριβής Για τη συντακτικοσηµασιολογική ανάλυση στην πρόταση λεξικά-γραµµατικές Μονάδας Αυτόµατης Επεξεργασίας Φυσικών Γλωσσών, ΕΜΕΛ, ΑΠΘ
Συντακτική δοµή εντός του ΟΣ Απλά ΟΣ µε πυρήνα ουσιαστικό το τραπέζι, πολλά τραπέζια, το δικό µου τραπέζι, πολύ ωραίο τραπέζι ΟΣ µε πυρήνα επίθετο (ελλείψει ουσιαστικού) οι ωραίοι ΟΣ µε πυρήνα αντωνυµία κάτι ωραίο ΟΣ µετά από ονοµατοποίηση µε πυρήνα επίρρηµα τα εξής δευτερεύουσες προτάσεις το πόσο όµορφη είναι Σύνθετα ΟΣ µε παρατακτική σύνδεση ο γονιός και το παιδί ΟΣ εντός ΟΣ η δίχως νόηµα ανασφάλεια
Περιγραφή εσωτερικής δοµής απλού ΟΣ µε πυρήνα ουσιαστικό Πεπερασµένο αυτόµατο περιγραφής ΟΣ σε αιτιατική αρσενικού ενικού
Εφαρµογή πεπερασµένων αυτοµάτων σε κείµενα
Μορφολογικές αµφισηµίες Ορισµός & παραδείγµατα ύο κλιτοί τύποι του ηλεκτρονικού λεξικού έχουν κοινή ορθογραφία αλλά διαφέρουν σε ένα από τα παρακάτω: ληµµατικό τύπο επίπλων-> γενική πληθυντικού του έπιπλο επίπλων-> γενική πληθυντικού του επίπλους γραµµατική κατηγορία ήπια-> αόριστος του πίνω ήπια-> θηλυκό του ήπιος κλίση πάχος-> στην ονοµαστική πληθυντικού γίνεται πάχη πάχος-> στην ονοµαστική πληθυντικού γίνεται πάχη, πάχια και πάχητα
Μορφολογικές αµφισηµίες Ορισµός & παραδείγµατα γένος δικηγόρου-> γενική αρσενικού πληθυντικού δικηγόρου-> γενική θηλυκού πληθυντικού αριθµό γκολ-> ενικός αριθµός γκολ-> πληθυντικός αριθµός πτώση γίγαντα-> γενική ενικού του γίγαντας γίγαντα-> αιτιατική ενικού του γίγαντας
Εξάλειψη µορφολογικών αµφισηµιών κατά την αναγνώριση του ΟΣ Η θάλασσα έχει κύµα σήµερα Λατρεύω τη θάλασσα Μορφολογική / λεξική ανάλυση ----------------- Αναγνώριση δοµής ΟΣ Γλωσσικοί πόροι Μορφολογικά ηλεκτρονικά λεξικά (επίπεδο λέξης) ------------------ Πεπερασµένα αυτόµατα (επίπεδοοσ) Αποτέλεσµα ανάλυσης ΟΣ Η: άρθρο, ονοµαστική, θηλυκό, ενικός θάλασσα:ουσιαστικό, ονοµαστική/αιτιατική/κλητική, θηλυκό, ενικός τη: άρθρο, αιτιατική, θηλυκό, ενικός --------------------------------------------------------------------------- Ηθάλασσα:ΟΣ, ονοµαστική τηθάλασσα:οσ, αιτιατική
Εξάλειψη µορφολογικών αµφισηµιών κατά την αναγνώριση του ΟΣ
Εξάλειψη µορφολογικών αµφισηµιών µε βάση συντακτικοσηµασιολογικούς πίνακες Το κοριτσάκι αγόρασε µια φούστα Μια φούστα αγόρασε το κοριτσάκι Ηλεκτρονικό λεξικό: κοριτσάκι,κοριτσάκι.n+hum+dim:nns:ans:vns φούστα,φούστα.n+conc:nfs:afs:vfs Λεξικό-γραµµατική:
Σχήµα ανάλυσης ΟΣ Γραµµατικές περιγραφής ΟΣ Ηλεκτρονικό λεξικό Μια φούστα αγόρασε το κοριτσάκι {Μια φούστα}οσ {αγόρασε}ρήµα {το κοριτσάκι}οσ-ανθρώπινο µια: αόριστοάρθρο, ονοµαστική/αιτιατική, θηλυκό, ενικός φούστα: ουσιαστικόαντικείµενο(ρούχο), ονοµαστική/αιτιατική/κλητική, θηλυκό, ενικός αγόρασε: αόριστος, γ ενικό, ενικός το:οριστικόάρθρο, ονοµαστική/αιτιατική, ουδέτερο, ενικός κοριτσάκι:ουσιαστικόανθρώπινο, ονοµαστική/αιτιατική/κλητική, ουδέτερο, ενικός
Εξάλειψη µορφολογικών αµφισηµιών κατά την εφαρµογή γενικών συντακτικών κανόνων (parsing) Έρχεται το καλοκαίρι σε λίγες µέρες Έρχεται το καλοκαίρι η ξαδέρφη µου ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΝΤΑΚΤΙΚΟΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΑΝΑΛΥΣΗΣ ΕΝΤΟΣ ΤΩΝ ΣΥΝΤΑΚΤΙΚΩΝ ΟΡΩΝ έρχεται:ρήµα το καλοκαίρι: ΟΣ σε ονοµαστική/αιτιατική το καλοκαίρι: χρονικό επίρρηµα σε λίγες µέρες: χρονικό επίρρηµα η ξαδέρφη µου: ΟΣ σε ονοµαστική
Πρόοδος της έρευνας Έχουν ολοκληρωθεί: Χειρωνακτική άρση των αµφισηµιών σε σώµα κειµένων 37.000 λέξεων («Τα Νέα») Πεπερασµένο αυτόµατο για την εσωτερική δοµή ΟΣ µε πυρήνα ουσιαστικό Στην παρούσα φάση: Εφαρµογή πεπερασµένου αυτοµάτου στο σώµα κειµένων και αξιολόγηση αποτελεσµάτων Σε επόµενο στάδιο: Αναγνώριση εσωτερικής δοµής υπόλοιπων απλών και σύνθετων ΟΣ Αναγνώριση συντακτικής θέσης ΟΣ Εξάλειψη µορφολογικών αµφισηµιών
Εφαρµογές Στην αυτόµατη επεξεργασία κειµένων Συµβολή στην ακριβέστερη ηλεκτρονική περιγραφή της γλώσσας, απαραίτητης προϋπόθεσης για την αυτόµατη µετάφραση Αναγνώριση εννοιών (π.χ. κτήση) ώστε να προβούµε σε µετάφραση του ΟΣ ως ενιαίου συνόλου. Στη µετάφραση Μεγαλύτερη ακρίβεια στην παραλληλοποίηση κειµένων Ορθότερη µετάφραση από συστήµατα αυτόµατης µετάφρασης