Γλωσσική Τεχνολογία. 8 η Ενότητα: Μηχανική μετάφραση. Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Σχετικά έγγραφα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Επικοινωνία Ανθρώπου Υπολογιστή

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 7η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ασκήσεις μελέτης της 19 ης διάλεξης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ασκήσεις μελέτης της 8 ης διάλεξης

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

Ασκήσεις μελέτης της 6 ης διάλεξης

Τεχνητή Νοημοσύνη ( )

Ασκήσεις μελέτης της 16 ης διάλεξης

Τεχνητή Νοημοσύνη. 8η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

PROJECT ΣΤΟ ΜΑΘΗΜΑ "ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ"

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Για παράδειγμα η αρχική και η τελική κατάσταση αναπαριστώνται ως εξής: (ένα λίτρο)

Κατανεμημένα Συστήματα Ι

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κατανεμημένα Συστήματα Ι

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Επικοινωνία Ανθρώπου Υπολογιστή. Β2. Αναγνώριση ομιλίας

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Ε ανάληψη. Α ληροφόρητη αναζήτηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Πληροφορική 2. Τεχνητή νοημοσύνη

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Τεχνητή Νοημοσύνη. 9η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

Τεχνητή Νοημοσύνη. 23η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ

===========================================================================

Δομές Δεδομένων & Αλγόριθμοι

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Διαδικασιακός Προγραμματισμός

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Επικοινωνία Ανθρώπου Υπολογιστή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τηλεπικοινωνιακά Συστήματα ΙΙ

Μέθοδοι Σχεδίασης κίνησης

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

Μαθηματικά των Υπολογιστών και των Αποφάσεων Τεχνητή Νοημοσύνη 1η Σειρά Ασκήσεων

Θεωρία Λήψης Αποφάσεων

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Μεταβατικές διατάξεις Νέου Προγράμματος Σπουδών (ΝΠΣ) για τους φοιτητές εισαγωγής 2013 και πριν Υποχρεωτικά Μαθήματα

Α Διαγώνισμα 1 ου Τριμήνου στο μάθημα της Πληροφορικής Γ Γυμνασίου Ονοματεπώνυμο:...

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

α n z n = 1 + 2z 2 + 5z 3 n=0

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Δομές Δεδομένων και Αλγόριθμοι

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (3)

9. Κόκκινα-Μαύρα Δέντρα

Επίλυση προβλημάτων με αναζήτηση

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Επίλυση Προβλημάτων 1

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Ασκήσεις μελέτης της 11 ης διάλεξης

Επίλυση Προβλημάτων και Τεχνικές Αναζήτησης Εισαγωγή

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Προβλήματα Ικανοποίησης Περιορισμών

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Τα συγκεντρωτικά ερωτήματα αφορούν στην ομαδοποίηση των δεδομένων και στη. χρήση συναρτήσεων ομαδοποίησης κατά την εκτέλεση ενός ερωτήματος προβολής

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εισαγωγή. Διαλέξεις στο μάθημα: Μεταφραστές Γιώργος Μανής

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

Τεχνητή Νοημοσύνη. 14η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Θέμα 1: Robbie και Αναζήτηση

Πιστοποίηση επάρκειας της ελληνομάθειας. Οδηγίες για την ανάπτυξη εξεταστικών ερωτημάτων

Επίλυση Προβλημάτων. Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης. Αλγόριθμοι ευρετικής αναζήτησης Παιχνίδια δύο αντιπάλων

Transcript:

Γλωσσική Τεχνολογία 8 η Ενότητα: Μηχανική μετάφραση 2014 15 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ 1

Οι διαφάνειες αυτής της διάλεξης βασίζονται στην ύλη του βιβλίου «Speech and Language Prcessing» των D. Jurafsky and J.H. Martin, 2 η έκδοση, Prentice Hall, 2009.

Τι θα ακούσετε Εισαγωγή στη μηχανική μετάφραση. Χρησιμότητα και δυσκολία. Τρίγωνο Vauquis, συντακτική μεταφορά, interlingua. Στατιστική μηχανική μετάφραση. Θορυβώδες κανάλι. BM Mdel 1. Εκπαίδευση με EM. Ευθυγράμμιση λέξεων. Ευθυγράμμιση λέξεων με HMM. Ευθυγράμμιση φράσεων. Στατιστική μετάφραση βασισμένη σε φράσεις. Αποκωδικοποίηση με beam search. Μέτρα αυτόματης αξιολόγησης μεταφράσεων. Χρήση αλγορίθμων μηχανικής μάθησης.

Μηχανική μετάφραση Δείτε τα βίντεο: http://t.c/a3upw0d http://t.c/ajarbsx1jw http://t.c/wathtqdbmo

Μηχανική μετάφραση συνέχεια Παλαιότερα συστήματα βασίζονταν σε χειρωνακτικά κατασκευασμένα λεξικά, γραμματικές κλπ. Το Systran ακολουθεί (ή τουλάχιστον ακολουθούσε αρχικά) σε μεγάλο βαθμό αυτή την προσέγγιση. Τα περισσότερα νεότερα συστήματα χρησιμοποιούν στατιστικά μοντέλα. Εκπαιδεύονται σε τεράστια παράλληλα σώματα κειμένων. Π.χ. αποφάσεις ευρωπαϊκού ή καναδικού κοινοβουλίου (Hansards). Κείμενα μεταφρασμένα σε πολλές γλώσσες από επαγγελματίες μεταφραστές. Ομοιότητες με τη Στήλη της Ροζέττας (ιερογλυφικά, δημώδη αιγυπτιακά, αρχαία ελληνικά). Βοήθησε στην «αποκρυπτογράφηση» της ιερογλυφικής γραφής. Πηγή εικόνας: http://el.wikipedia.rg/wiki/αρχείο:rsetta_stne_bw.jpeg

Γιατί είναι δύσκολη; Π.χ. διαφορετική σειρά λέξεων (ή φράσεων), έλλειψη εν γένει 1-1 αντιστοιχίας λέξεων, ανάγκη αποσαφήνισης εννοιών, ιδιωματισμοί, «Αγόρασε ένα κόκκινο βιβλίο», «He/she bught a red bk», «Ha cmprat un libr rss». «He music t listening adres» (κατά λέξη μετάφραση των J&M γιαπωνέζικης πρότασης). «Wall», «τοίχος» ή «τείχος»; «Ι knw Jhn» «Je cnnais Jean», αλλά «knw he just bught a bk» «Je sais qu il vient d acheter un livre». Η λέξη προς λέξη μετάφραση (direct transfer) δεν δουλεύει εν γένει ικανοποιητικά. Μπορεί όμως να επεκταθεί με κανόνες αναδιάταξης λέξεων, επιλογής μεταξύ δυνατών αποδόσεων λέξεων κλπ.

Επίπεδα μετάβασης (τρίγωνο Vauquis) interlingua ανάλυση ΦΓ παραγωγή ΦΓ αρχική γλώσσα τελική γλώσσα Σε συστήματα συντακτικής μεταφοράς (syntactic transfer), κατασκευάζουμε το συντακτικό δέντρο της αρχικής πρότασης, το μετασχηματίζουμε, παράγουμε νέα πρόταση. Χρειάζονται διαφορετικοί κανόνες για κάθε ζεύγος γλωσσών. Η μετάβαση θα μπορούσε να γίνεται στο σημασιολογικό επίπεδο (π.χ. μετασχηματισμοί λογικών τύπων). Όσο ψηλότερα γίνεται η μετάβαση, τόσο μικρότερη η απόσταση. Αν είχαμε μια εντελώς ουδέτερη γλωσσικά σημασιολογική παράσταση (interlingua), θα χρειαζόμασταν μόνο ένα σύστημα ανάλυσης και ένα παραγωγής ανά γλώσσα (αντί ανά ζεύγος). Πολύ δύσκολο: π.χ. μια καλή μετάφραση συχνά δεν λέει ακριβώς ό,τι το αρχικό κείμενο, έλλειψη αντίστοιχων εννοιών,

S Συντακτική μεταφορά S NP VP NP VP Prn V VP Prn VP V he adres V PP he PP V adres listening Prep NP NP Prep listening t N N t music music Παράδειγμα μετάφρασης από Αγγλικά σε Γιαπωνέζικα (αλλά με λέξεις γραμμένες στα αγγλικά). Τροποποιημένο παράδειγμα από τους J&M.

Θορυβώδες κανάλι (nisy channel) Οι προτάσεις ήταν αρχικά στη γλώσσα-στόχο, αλλά μας μεταδόθηκαν μέσω ενός θορυβώδους καναλιού. Το κανάλι εισήγαγε παραμορφώσεις (π.χ. μετακίνηση λέξης, μετάφραση λέξης, διαγραφή λέξης κλπ). Προσπαθούμε να μαντέψουμε τις «αρχικές» προτάσεις από τις παραμορφωμένες. «Αρχική» πρόταση (στόχος): e 1 = e 1, e 2,, e Παρατηρούμενη (προς μετάφραση): f 1 J = f 1, f 2,, f J Θέλουμε την πιο πιθανή «αρχική» πρόταση: κανάλι e 1 = argmax e 1 P e 1 f 1 J = argmax e 1 P(e 1 ) P(f 1 J e1 ) P(f 1 J ) Μοντέλο n-γραμμάτων γλώσσας-στόχου

Εκτίμηση P(f 1 J e 1 ) με BM Mdel 1 Θεωρούμε ότι το κανάλι παραμορφώνει ως εξής: Επιλογή αριθμού λέξεων παραμορφωμένης πρότασης. NULL Mary did nt slap the green witch. Ευθυγράμμιση αρχικών λέξεων με θέσεις νέων λέξεων. NULL Mary did nt slap the green witch. Μετάφραση κάθε μιας αρχικής λέξης ξεχωριστά: NULL Mary did nt slap the green witch. Ι = 7 (+ 1 NULL) J = 9 Maria n di una bfetada a la bruja verde Παραμορφωμένες λέξεις που δεν αντιστοιχούν σε καμία αρχική προέρχονται από το NULL. Δεν επιτρέπεται πολλές αρχικές λέξεις μαζί (φράση) να οδηγούν στην ίδια μία παραμορφωμένη λέξη! a 1 = 1 a 2 = 3 a 3 = 4 a 4 = 4 a 9 = 6 P(f j e i ) = t(f j e i )

Εκτίμηση P(f 1 J e 1 ) με BM Mdel 1 συνέχεια Θεωρούμε τις δυνατές τιμές του J ισοπίθανες (πιθανότητα ε) και τις + 1 J δυνατές ευθυγραμμίσεις a J 1 ισοπίθανες. Άρα: P a 1 J e 1 = P J e 1 P a 1 J J, e 1 ε +1 J H πιθανότητα να προκύψει f J 1 από e 1 δεδομένης μιας συγκεκριμένης ευθυγράμμισης Α = a J 1 είναι: P f 1 J e 1, a 1 J = J j=1 t(f j e aj ) Η πιθανότητα να προκύψει f 1 J από e 1 μέσω οποιασδήποτε ευθυγράμμισης Α = a 1 J είναι: P f 1 J e 1 = = Α ε Α P a 1 J e 1 J + 1 J j=1 t(f j e aj ) P f 1 J e 1, a 1 J 1

Εκπαίδευση του BM Mdel 1 Πώς όμως μαθαίνουμε τα t(f j e i ), δηλ. τα P(f j e i ); Αν είχαμε παράλληλο σώμα κειμένων με τις λέξεις κάθε «παραμορφωμένης» πρότασης ευθυγραμμισμένες με τις αντίστοιχες λέξεις της «αρχικής» πρότασης, θα μετρούσαμε. Στην πράξη έχουμε ζεύγη ευθυγραμμισμένων προτάσεων, αλλά οι λέξεις τους δεν είναι ευθυγραμμισμένες. Βλ. βιβλιογραφία για μεθόδους ευθυγράμμισης προτάσεων. Χρησιμοποιύμε EM. Υποκρινόμαστε ότι ξέρουμε τα t(f j e i ). Αρχικά ισοπίθανα. Εκτιμούμε τις πιθανότητες των ευθυγραμμίσεων λέξεων Α. Βάσει των πιθανοτήτων των Α, επανεκτιμούμε τα t(f j e i ). Βάσει των t f j e i, επανεκτιμούμε τις πιθανότητες των Α. Επαναλήψεις ως σύγκλιση (βλ. επόμενο παράδειγμα).

Παράδειγμα εκπαίδευσης του BM Mdel 1 (Από τους J&M, βασισμένο σε παράδειγμα του K. Knight. Η εκπαίδευση του BM Mdel 1 είναι στην πραγματικότητα ελαφρά πιο περίπλοκη.) Έστω ότι έχουμε μόνο 2 ζεύγη παράλληλων φράσεων: green huse casa verde the huse la casa Το κανάλι παραμορφώνει από Αγγλικά σε Ιταλικά. Θεωρούμε αρχικά: t(casa green) = 1/3, t(verde green) = 1/3, t(la green) = 1/3. t(casa huse) = 1/3, t(verde huse) = 1/3, t(la huse) = 1/3. t(casa the) = 1/3, t(verde the) = 1/3, t(la the) = 1/3.

Συνέχεια παραδείγματος εκπαίδευσης BM Mdel 1 Πιθανότητες δυνατών ευθυγραμμίσεων: Α 1,1 : green huse Α 2,1 : the huse casa verde la casa Α 1,2 : green huse Α 2,2 : the huse casa verde la casa P Α 1,1 = t casa green t verde huse = 1 9 P Α 1,2 = t verde green t casa huse = 1 9 Κανονικοποίηση: P Α 1,1 = 1/9 1 = 1, P Α 9 +1 2 1,2 = 1/9 1 9 9 +1 9 = 1 2 P Α 2,1 = t la the t casa huse = 1 9 P Α 2,2 = t casa the t la huse = 1 9 Κανονικοποίηση:P Α 2,1 = 1/9 1 = 1, P Α 9 +1 2 2,2 = 1/9 1 9 9 +1 9 = 1 2

Συνέχεια παραδείγματος εκπαίδευσης BM Mdel 1 Επανεκτίμηση των t(f j e i ): Ζυγίζουμε κάθε εμφάνιση f j e i με την πιθανότητα της ευθυγράμμισης όπου εμφανίζεται και κανονικοποιούμε. t casa green = 1 1 2 = 1 2, t verde green = 1 1 2 = 1 2 t la green = 0 (Οι προηγούμενες 3 εκτιμήσεις δεν χρειάζονταν κανονικοποίηση.) t casa huse = 1 1 2 + 1 1 2 = 1 t verde huse = 1 1 2 = 1 2, t la huse = 1 1 2 = 1 2 Κανονικοποίηση: t casa huse = 1 t la huse = 1+ 1 1 2 +1 2 2 1+ 1 = 1 2 +1 4 2 = 1 2, t verde huse = 1 2 1+ 1 2 +1 2 = 1 4 t casa the = 1 2, t verde the = 0, t la the = 1 2 (Οι προηγούμενες 3 εκτιμήσεις δεν χρειάζονταν κανονικοποίηση.)

Συνέχεια παραδείγματος εκπαίδευσης BM Mdel 1 Επανεκτίμηση πιθανοτήτων δυνατών ευθυγραμμίσεων: Α 1,1 : green huse Α 2,1 : the huse casa verde la casa Α 1,2 : green huse Α 2,2 : the huse casa verde la casa P Α 1,1 = t casa green t verde huse = 1 8 P Α 1,2 = t verde green t casa huse = 1 4 Κανονικοποίηση: P Α 1,1 = 1/8 1 = 1, P Α 8 +1 3 1,2 = 1/4 1 4 8 +1 4 = 2 3 P Α 2,1 = t la the t casa huse = 1 4 P Α 2,2 = t casa the t la huse = 1 8 Κανονικοποίηση:P Α 2,1 = 1/4 1 = 2, P Α 4 +1 3 2,2 = 1/8 1 = 1 8 4 +1 3 8 Οι σωστές ευθυγραμμίσεις έχουν μεγαλύτερες πιθανότητες!

Επιστροφή στο θορυβώδες κανάλι Θέλουμε την πιο πιθανή «αρχική» πρόταση: e 1 = argmax e 1 argmax e 1 P(e 1 ) P e 1 f 1 J Θα πρέπει να εξετάσουμε όλες τις δυνατές αρχικές προτάσεις που μπορούν να οδηγήσουν στην παραμορφωμένη; Α ε = argmax e 1 + 1 J j=1 P(e 1 ) P(f 1 J e 1 ) t(f j e aj ) Χρειαζόμαστε έναν «αποκωδικοποιητή» που θα εξετάσει (αναζητήσει) αρχικές προτάσεις και ευθυγραμμίσεις. Υπάρχουν αποδοτικοί για Mdel 1. Θα συζητήσουμε (παρακάτω) αποκωδικοποιητές για άλλα μοντέλα, βασισμένα σε φράσεις. Στην πράξη: e 1 argmax e 1 Μοντέλο n-γραμμάτων γλώσσας-στόχου J Π.χ. BM Mdel 1 Και όλες τις δυνατές ευθυγραμμίσεις λέξεων της κάθε υποψήφιας αρχικής και της παραμορφωμένης πρότασης; P(e 1 ) max P(Α, f J Α 1 e 1 )

Είναι χρήσιμο το BM Mdel 1; Για μετάφραση όχι ιδιαίτερα, λόγω απλοϊκών παραδοχών. Π.χ. μια «παραμορφωμένη» λέξη δεν μπορεί να προέρχεται από πολλές «αρχικές» (πολλές προς 1), ενώ το ανάποδο (1 προς πολλές) επιτρέπεται! Και δεν επιτρέπει αντικατάσταση ολόκληρης φράσης με άλλη φράση (π.χ. ιδιωματισμοί). Επίσης δεν λαμβάνει υπόψη του ότι γειτονικές αρχικές λέξεις συνήθως μετατρέπονται σε γειτονικές παραμορφωμένες. Δεν είναι όλες οι επιλογές ευθυγραμμίσεων ισοπίθανες! Το πρώτο μιας σειράς πολύ γνωστών μοντέλων (BM Mdel 1, 2, 3, 4, 5) που αφαιρούν σταδιακά περιορισμούς. Βλ. βιβλιογραφία. Κάποια μοντέλα αρχικοποιούνται με εκτιμήσεις απλούστερων μοντέλων. Μπορεί να χρησιμοποιηθεί (όπως και πιο περίπλοκα μοντέλα) και για ευθυγράμμιση λέξεων. Εφαρμόζουμε ΕΜ με Mdel 1 σε παράλληλο σώμα. Κρατάμε την πιθανότερη ευθυγράμμιση κάθε ζεύγους προτάσεων.

Ευθυγράμμιση λέξεων με HMM Έστω ότι έχουμε π.χ. το εξής ζεύγος προτάσεων: Mary/1 slapped/2 the/3 green/4 witch/5 Maria di una bfetada [a] la bruja verde Maria di la Maria P(la the) P(Maria Mary) P(di Mary) P(Maria the) P(3 1) P(5 3) 1 P(2 2) 3 Οι καταστάσεις παριστάνουν θέσεις λέξεων της «αρχικής». P(di slapped) di P(2 1) una 2 P(una ) P(3 2) P(bfetada slapped) bfetada 5 P(bruja witch) Οι μεταβάσεις μεταξύ καταστάσεων εξαρτώνται μόνο από τους αριθμούς των καταστάσεων (θέσεις αρχικής), για την ακρίβεια τη διαφορά τους. Σε κάθε κατάσταση i εκπέμπεται μια λέξη f j της «παραμορφωμένης» πρότασης, με πιθανότητα P(f j e i ). Η εκπομπή εξαρτάται μόνο από την e i. Εκπαίδευση του HMM π.χ. με Baum-Welch (ενότητα 6). 4 P(verde green) Από ποιες καταστάσεις (θέσεις «αρχικής» πρότασης) έγιναν οι εκπομπές των λέξεων της «παραμορφωμένης» πρότασης; 1, 2, 2, 2, 3, 5, 4 bruja verde

Πίνακες ευθυγράμμισης λέξεων Έστω ότι έχουμε π.χ. το ζεύγος ευθυγραμμισμένων προτάσεων: Mary did nt slap the green witch Maria n di una bfetada a la bruja verde Μπορούμε να παραστήσουμε την ευθυγράμμιση ως πίνακα: Mary did nt slap the green witch Maria n di una bfetada a la bruja verde Το BM Mdel 1 και το ΗΜΜ, όμως, δεν μπορούν να δημιουργήσουν τέτοια ευθυγράμμιση. Π.χ. δεν επιτρέπουν ευθυγράμμιση τύπου πολλές προς 1.

Αμφίδρομη ευθυγράμμιση λέξεων Εκτελούμε την ευθυγράμμιση και προς τις δύο κατευθύνσεις (π.χ. Αγγλικά προς Ισπανικά, Ισπανικά προς Αγγλικά). Προκύπτουν δύο διαφορετικοί πίνακες ευθυγράμμισης. Δημιουργούμε πίνακα τομής (μόνο γεμάτα κελιά που υπάρχουν στους πίνακες και των δύο κατευθύνσεων). Λίγα γεμάτα κελιά για τα οποία όμως είμαστε πολύ σίγουροι. Και πίνακα ένωσης (γεμάτα κελιά που υπάρχουν στον πίνακα τουλάχιστον μίας κατεύθυνσης). Πολλά γεμάτα κελιά, μικρή βεβαιότητα. Εξετάζουμε τα γεμάτα κελιά που υπάρχουν στην ένωση και όχι στην τομή. Για κάθε ένα, αποφασίζουμε αν πρέπει να προστεθεί στον πίνακα της τομής. Συνήθως αποφασίζουμε με ευρετικούς κανόνες (βλ. βιβλιογραφία) ή εκπαιδεύοντας και χρησιμοποιώντας ταξινομητή. Προκύπτει πίνακας ευθυγράμμισης που επιτρέπει ευθυγραμμίσεις 1 προς 1, 1 προς πολλές και πολλές προς 1.

Ευθυγράμμιση φράσεων Έχουμε πίνακα από αμφίδρομη ευθυγράμμιση: Mary did nt slap the green witch Maria n di una bfetada a la bruja verde Ζεύγη φράσεων που μπορούμε να εξαγάγουμε: (Maria, Mary), (n, did nt), (di una bfetada, slap), (a la, the), (bruja, witch), (verde, green) (Maria n, Mary did nt), (n di una bfetada, did nt slap), (Mary n di una bfetada, Mary did nt slap), (di una bfetada a la, slap the), (bruja verde, green witch), Δεν πρέπει να υπάρχει γεμάτο κελί πάνω/κάτω και δεξιά/αριστερά από κάθε διακεκομμένο παραλληλόγραμμο.

Μετάφραση βασισμένη σε φράσεις Μπορούμε τώρα να φτιάξουμε έναν πίνακα ζευγών φράσεων ( f j, e i ) με τις αντίστοιχες πιθανότητες φ = P( f j e i ). Για κάθε ζευγάρι, η πιθανότητα δείχνει πόσο πιθανό είναι η «αρχική» φράση e i να γίνει η «παραμορφωμένη» φράση f j. Π.χ. φ e i = P e i = cunt f j, e i f j f j f cunt Μια «αρχική» πρόταση με λέξεις e 1 είναι δυνατόν να τεμαχιστεί με πολλούς τρόπους σε φράσεις e 1 (Ι Ι). f, e i Αρκεί όλες οι φράσεις να υπάρχουν στον πίνακα ζευγών. Π.χ. [Mary] [did nt slap] [the] [green witch] Π.χ. [Mary did nt] [slap the] [green] [witch] Και μια «παραμορφωμένη» πρόταση με λέξεις f J 1 είναι δυνατόν J να τεμαχιστεί με πολλούς τρόπους σε φράσεις f 1 (J J). Πάλι όλες οι φράσεις πρέπει να υπάρχουν στον πίνακα ζευγών. Π.χ. [Maria] [n di una bfetada] [a la] [bruja verde] Π.χ. [Maria n] [di una bfetada a la] [bruja] [verde] f j e i

Μετάφραση βασισμένη σε φράσεις συνέχεια Πιθανότητα να προκύψει η ακολουθία παραμορφωμένων φράσεων f 1 J από την ακολουθία αρχικών φράσεων e 1 δεδομένης κάποιας συγκεκριμένης ευθυγράμμισης φράσεων Α : P J f 1 e 1, Α J j=1 φ Θεωρούμε ότι κάθε παραμορφωμένη φράση f j εξαρτάται μόνο από την αντίστοιχη αρχική φράση e a j. f j e a j Μαζί με την πιθανότητα να προκύψει η Α : P Α e 1 P J f 1 e 1, Α J j=1 d( f j ) φ Οι e i 1 και e i ήταν συνεχόμενες. Θέλουμε να πριμοδοτήσουμε τις αντίστοιχες f j και f j αν είναι και αυτές συνεχόμενες. Αν η e i 1 αντιστοιχεί στην f j και η e i στην f j, το d( f j ) εξετάζει πόσο απέχει η αρχή της f j από το τέλος της f j. Π.χ. d f j = c start f j end f j f j e a j 1, με 0 < c < 1 σταθερά.

Μετάφραση βασισμένη σε φράσεις συνέχεια Πιθανότητα να προκύψει η ακολουθία παραμορφωμένων φράσεων f 1 J από την ακολουθία αρχικών φράσεων e 1 μέσω οποιασδήποτε ευθυγράμμισης φράσεων Α: P f 1 J e 1 = A P Α e 1 P J f 1 e 1, Α A J d j=1 f j φ Πιθανότητα να προκύψει η ακολουθία παραμορφωμένων λέξεων f J 1 από την ακολουθία αρχικών λέξεων e 1 μέσω οποιασδήποτε κατάτμησης σε φράσεις και οποιασδήποτε ευθυγράμμισης φράσεων Α: f j e a j J d P f 1 J e 1 f j φ f j e a j e 1 e 1, j=1 J J f 1 f 1, A Θεωρούμε τις δυνατές κατατμήσεις σε φράσεις ισοπίθανες.

Θορυβώδες κανάλι με φράσεις Θέλουμε την πιο πιθανή «αρχική» πρόταση: e 1 = argmax e 1 argmax e 1 P e 1 Θα εξετάσουμε όλες τις δυνατές αρχικές προτάσεις που μπορούν να οδηγήσουν στην παραμορφωμένη; P e 1 f 1 J e 1 e 1, J J f 1 f 1, A = argmax e 1 J j=1 d( f j ) φ P(e 1 ) P(f 1 J e 1 ) Χρειαζόμαστε έναν «αποκωδικοποιητή» που θα εξετάσει (αναζητήσει) αρχικές προτάσεις, κατατμήσεις, ευθυγραμμίσεις. Μοντέλο n-γραμμάτων γλώσσας-στόχου f j e a j Ουσιαστικά έναν αλγόριθμο αναζήτησης για μεγάλο χώρο καταστάσεων. Μοντέλο μετάφρασης βασισμένο σε φράσεις Και όλες τις δυνατές κατατμήσεις e J 1, f 1 των e 1, f J 1, με όλες τις δυνατές αντιστοιχίες φράσεων Α;

Αποκωδικοποίηση (με φράσεις) Στην πράξη αντί για την: J e 1 = argmax e 1 P e 1 e 1 e 1, j=1 d( f j ) φ f j e a j αναζητούμε την: e 1 = argmax e 1 J J f 1 f 1, A P e 1 max e 1 e 1, J f 1 f 1, A J j=1 d( f j ) φ Επιτρέπουμε στον αποκωδικοποιητή να επιλέξει μόνο μία κατάτμηση και ευθυγράμμιση φράσεων (ελπίζουμε τις καλύτερες). f j e a j Θεωρούμε ότι κάθε παραμορφωμένη φράση f j αντιστοιχεί σε ακριβώς μία αρχική φράση e i, οπότε J = Ι.

Χώρος αναζήτησης αποκωδικοποίησης Maria n di una bfetada a la bruja verde (κενό) Maria n di una bfetada a [la] bruja verde [The] [Maria] n di una bfetada a la bruja verde [Mary] [Maria] [n di] una bfetada a la bruja verde [Mary] [did nt give] [Maria] [n di] [una bfetada] [a la] [bruja verde] [Mary] [did nt give] [a slap] [t the] [green witch] Maria n di una bfetada a [la] bruja [verde] [The] [green] [Maria] [n di una bfetada] a la bruja verde [Mary] [did nt slap] [Maria] [n di una bfetada] [a la] [bruja] [verde] [Mary] [did nt slap] [t the] [witch] [green]

Αποκωδικοποίηση με αναρρίχηση λόφου Maria n di una bfetada a la bruja verde (κενό) Maria n di una bfetada a [la] bruja verde [The] 0.102 [Maria] n di una bfetada a la bruja verde [Mary] 0.015 Maria n di una bfetada a [la] [bruja] verde [The] [witch] 0.076 Maria [n di] una bfetada a [la] bruja verde [The] [did nt] 0.0003 Αξιολογούμε κάθε παιδί και κρατάμε μόνο το καλύτερο. Αναρρίχηση λόφου (hill climbing), περίπτωση λαίμαργου αλγορίθμου. Ενδέχεται να μη φτάσουμε στην καλύτερη κατάσταση (πράσινη ακολουθία λέξεων), δηλαδή ενδέχεται να φτάσουμε σε τοπικό αντί για ολικό μέγιστο.

(Lcal) Beam search 500 600 400 200 m 300 m * * * * * 100 m 400 500 600 700 300 m 200 m

(Lcal) Beam search 500 600 400 200 m 300 m * * * * ** * * * 100 m 200 m 300 m 400 500 600 700

Αποκωδικοποίηση με beam search Όπως ο HC, αλλά κρατάμε k καταστάσεις στο μέτωπο της αναζήτησης, αντί για μία. Αρχικά π.χ. k τυχαίες καταστάσεις στο μέτωπο ή μόνο μία. Σε κάθε βήμα, ελέγχουμε κάθε μία από τις k καταστάσεις του μετώπου και αν δεν είναι τελική την επεκτείνουμε. Αν κάποια από τις k καταστάσεις είναι τελική, σταματάμε. Στην περίπτωσή μας, μια κατάσταση είναι τελική αν η πράσινη ακολουθία λέξεων της κατάστασης καλύπτει πλήρως την προς μετάφραση ακολουθία λέξεων. Επέκταση κατάστασης σημαίνει να προσθέσουμε τα παιδιά της στο δέντρο αναζήτησης. Από όλα τα παιδιά που προκύπτουν, κρατάμε στο μέτωπο τα k καλύτερα και επαναλαμβάνουμε.

Αποκωδικοποίηση με άλλους αλγορίθμους Στη μηχανική μετάφραση χρησιμοποιείται συχνά beam search με πολλαπλά μέτωπα. Ένα μέτωπο για καταστάσεις που καλύπτουν 1 λέξη της πρότασης προς μετάφραση, άλλο μέτωπο για καταστάσεις που καλύπτουν 2 λέξεις της πρότασης προς μετάφραση, άλλο για καταστάσεις που καλύπτουν 3 λέξεις κ.ο.κ. Σε κάθε επανάληψη κρατάμε τα k καλύτερα παιδιά των καταστάσεων του κάθε μετώπου. Κι αυτό γιατί είναι δύσκολο να συγκριθούν καταστάσεις που καλύπτουν διαφορετικό αριθμό λέξεων της πρότασης προς μετάφραση. Μπορούμε επίσης να χρησιμοποιήσουμε και άλλους αλγορίθμους αναζήτησης. Π.χ. Α* (βλ. βιβλιογραφία).

Αξιολόγηση καταστάσεων αναζήτησης Κατά την αποκωδικοποίηση, μπορούμε να αξιολογούμε κάθε κατάσταση υπολογίζοντας το: P e 1 k j d( f j ) φ f j e a j Το j σαρώνει τα ζεύγη φράσεων ( f j, e a j ) που έχουν χρησιμοποιηθεί στην κατάσταση. e k 1 είναι η ημιτελής μετάφραση της κατάστασης. Διαισθητικά αξιολογεί πόσο καλό είναι το μονοπάτι από τη ρίζα του δέντρου αναζήτησης ως την αξιολογούμενη κατάσταση. Καλύτερα αποτελέσματα αν προσθέτουμε και μια εκτίμηση του πόσο καλό μπορεί να είναι το μονοπάτι από την αξιολογούμενη κατάσταση ως μια τελική κατάσταση. Προσθέτουμε ευρετική εκτίμηση για το υπόλοιπο του μονοπατιού. Π.χ. προσθέτουμε τη μέγιστη δυνατή τιμή την οποία μπορεί να πάρει το j φ f j e a j, όπου το j σαρώνει φράσεις της πρότασης προς μετάφραση που δεν έχουν ακόμα καλυφθεί. Υπολογίζεται με δυναμικό προγραμματισμό.

Αξιολόγηση συστημάτων μετάφρασης Η πιο αξιόπιστη αξιολόγηση συστημάτων μηχανικής μετάφρασης γίνεται με ανθρώπους-κριτές. Π.χ. τους ζητάμε να αξιολογήσουν τη φυσικότητα του κειμένου, την πιστότητά του (πόσο καλά διατηρεί τις πληροφορίες του αρχικού κειμένου), το πόσο εύκολα κατανοητό είναι κλπ. Δύσκολο να επαναλαμβάνουμε την αξιολόγηση με ανθρώπους κάθε φορά που θέλουμε να δοκιμάσουμε μια παραλλαγή του συστήματος. Μέτρα αυτόματης αξιολόγησης. Εξετάζουν πόσο μοιάζουν οι μεταφράσεις του συστήματος με μεταφράσεις ανθρώπων. Υπάρχουν όμως πάρα πολλές διαφορετικές αποδεκτές μεταφράσεις. Κατασκευάζουμε (π.χ. με διαφορετικούς ανθρώπους-μεταφραστές) πολλαπλές μεταφράσεις κάθε κειμένου προς μετάφραση. Πόσα από τα n-γράμματα της αυτόματης μετάφρασης υπάρχουν σε τουλάχιστον μία από τις μεταφράσεις των ανθρώπων. Βλ. J&M για περιγραφή του (πιο περίπλοκου) μέτρου BLEU. Τα αποτελέσματα του BLEU έχουν υψηλή συσχέτιση (crrelatin) με τις γνώμες ανθρώπων-κριτών, αλλά μόνο όταν συγκρίνουμε παρόμοια συστήματα (ή παραλλαγές του ίδιου).

Χρήση αλγορίθμων μηχανικής μάθησης Ως τώρα θεωρούσαμε ότι έχουμε θορυβώδες κανάλι: e 1 = argmax P e J 1 f 1 = argmax P(e 1 ) P(f J 1 e 1 ) e 1 e 1 Εναλλακτικά μπορούμε να θεωρήσουμε ότι τα P(e 1 ) και P(f J 1 e 1 ) είναι ιδιότητες της υποψήφιας μετάφρασης e 1. Υποψήφιες μεταφράσεις Μοντέλο n-γραμμάτων γλώσσας-στόχου Μοντέλο μετάφρασης Μπορούμε να εκπαιδεύσουμε ένα μοντέλο παλινδρόμησης που θα προσπαθεί να μαντέψει πόσο καλή είναι κάθε υποψήφια μετάφραση e 1 (π.χ. να μαντέψει το BLEU scre της). Κάθε e 1 περιγράφεται από τις ιδιότητες P(e 1 ) και P(f J 1 e 1 ). Μπορούμε να προσθέσουμε και άλλες ιδιότητες, π.χ. την πιθανότητα P(e 1 f J 1 ) της αντίστροφης κατεύθυνσης. Χρειαζόμαστε πάλι αποκωδικοποιητή για την αναζήτηση στο χώρο των υποψηφίων μεταφράσεων.

Βιβλιογραφία Jurafsky & Martin: κεφάλαιο 25. Οι ενότητες 25.10 («σύγχρονες» γραμματικές) και 25.11 (BM Mdel 3) είναι προαιρετικές (εκτός εξεταστέας ύλης) αλλά ενδιαφέρουσες. Μπορείτε να συμβουλευτείτε και το κεφάλαιο 13 των Manning & Schütze. Περιγράφει, μεταξύ άλλων, μεθόδους ευθυγράμμισης προτάσεων (όχι μόνο λέξεων). Περισσότερες πληροφορίες για τη στατιστική μηχανική μετάφραση μπορείτε να βρείτε στο βιβλίο Statistical Machine Translatin του P. Kehn, Cambridge University Press, 2010. Περισσότερες πληροφορίες για αλγορίθμους ευρετικής αναζήτησης (π.χ. beam search, A*) μπορείτε να βρείτε στις διαφάνειες του προπτυχιακού μαθήματος «Τεχνητή Νοημοσύνη» (βλ. e-class). 39