Γλωσσική Τεχνολογία 8 η Ενότητα: Μηχανική μετάφραση 2014 15 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ 1
Οι διαφάνειες αυτής της διάλεξης βασίζονται στην ύλη του βιβλίου «Speech and Language Prcessing» των D. Jurafsky and J.H. Martin, 2 η έκδοση, Prentice Hall, 2009.
Τι θα ακούσετε Εισαγωγή στη μηχανική μετάφραση. Χρησιμότητα και δυσκολία. Τρίγωνο Vauquis, συντακτική μεταφορά, interlingua. Στατιστική μηχανική μετάφραση. Θορυβώδες κανάλι. BM Mdel 1. Εκπαίδευση με EM. Ευθυγράμμιση λέξεων. Ευθυγράμμιση λέξεων με HMM. Ευθυγράμμιση φράσεων. Στατιστική μετάφραση βασισμένη σε φράσεις. Αποκωδικοποίηση με beam search. Μέτρα αυτόματης αξιολόγησης μεταφράσεων. Χρήση αλγορίθμων μηχανικής μάθησης.
Μηχανική μετάφραση Δείτε τα βίντεο: http://t.c/a3upw0d http://t.c/ajarbsx1jw http://t.c/wathtqdbmo
Μηχανική μετάφραση συνέχεια Παλαιότερα συστήματα βασίζονταν σε χειρωνακτικά κατασκευασμένα λεξικά, γραμματικές κλπ. Το Systran ακολουθεί (ή τουλάχιστον ακολουθούσε αρχικά) σε μεγάλο βαθμό αυτή την προσέγγιση. Τα περισσότερα νεότερα συστήματα χρησιμοποιούν στατιστικά μοντέλα. Εκπαιδεύονται σε τεράστια παράλληλα σώματα κειμένων. Π.χ. αποφάσεις ευρωπαϊκού ή καναδικού κοινοβουλίου (Hansards). Κείμενα μεταφρασμένα σε πολλές γλώσσες από επαγγελματίες μεταφραστές. Ομοιότητες με τη Στήλη της Ροζέττας (ιερογλυφικά, δημώδη αιγυπτιακά, αρχαία ελληνικά). Βοήθησε στην «αποκρυπτογράφηση» της ιερογλυφικής γραφής. Πηγή εικόνας: http://el.wikipedia.rg/wiki/αρχείο:rsetta_stne_bw.jpeg
Γιατί είναι δύσκολη; Π.χ. διαφορετική σειρά λέξεων (ή φράσεων), έλλειψη εν γένει 1-1 αντιστοιχίας λέξεων, ανάγκη αποσαφήνισης εννοιών, ιδιωματισμοί, «Αγόρασε ένα κόκκινο βιβλίο», «He/she bught a red bk», «Ha cmprat un libr rss». «He music t listening adres» (κατά λέξη μετάφραση των J&M γιαπωνέζικης πρότασης). «Wall», «τοίχος» ή «τείχος»; «Ι knw Jhn» «Je cnnais Jean», αλλά «knw he just bught a bk» «Je sais qu il vient d acheter un livre». Η λέξη προς λέξη μετάφραση (direct transfer) δεν δουλεύει εν γένει ικανοποιητικά. Μπορεί όμως να επεκταθεί με κανόνες αναδιάταξης λέξεων, επιλογής μεταξύ δυνατών αποδόσεων λέξεων κλπ.
Επίπεδα μετάβασης (τρίγωνο Vauquis) interlingua ανάλυση ΦΓ παραγωγή ΦΓ αρχική γλώσσα τελική γλώσσα Σε συστήματα συντακτικής μεταφοράς (syntactic transfer), κατασκευάζουμε το συντακτικό δέντρο της αρχικής πρότασης, το μετασχηματίζουμε, παράγουμε νέα πρόταση. Χρειάζονται διαφορετικοί κανόνες για κάθε ζεύγος γλωσσών. Η μετάβαση θα μπορούσε να γίνεται στο σημασιολογικό επίπεδο (π.χ. μετασχηματισμοί λογικών τύπων). Όσο ψηλότερα γίνεται η μετάβαση, τόσο μικρότερη η απόσταση. Αν είχαμε μια εντελώς ουδέτερη γλωσσικά σημασιολογική παράσταση (interlingua), θα χρειαζόμασταν μόνο ένα σύστημα ανάλυσης και ένα παραγωγής ανά γλώσσα (αντί ανά ζεύγος). Πολύ δύσκολο: π.χ. μια καλή μετάφραση συχνά δεν λέει ακριβώς ό,τι το αρχικό κείμενο, έλλειψη αντίστοιχων εννοιών,
S Συντακτική μεταφορά S NP VP NP VP Prn V VP Prn VP V he adres V PP he PP V adres listening Prep NP NP Prep listening t N N t music music Παράδειγμα μετάφρασης από Αγγλικά σε Γιαπωνέζικα (αλλά με λέξεις γραμμένες στα αγγλικά). Τροποποιημένο παράδειγμα από τους J&M.
Θορυβώδες κανάλι (nisy channel) Οι προτάσεις ήταν αρχικά στη γλώσσα-στόχο, αλλά μας μεταδόθηκαν μέσω ενός θορυβώδους καναλιού. Το κανάλι εισήγαγε παραμορφώσεις (π.χ. μετακίνηση λέξης, μετάφραση λέξης, διαγραφή λέξης κλπ). Προσπαθούμε να μαντέψουμε τις «αρχικές» προτάσεις από τις παραμορφωμένες. «Αρχική» πρόταση (στόχος): e 1 = e 1, e 2,, e Παρατηρούμενη (προς μετάφραση): f 1 J = f 1, f 2,, f J Θέλουμε την πιο πιθανή «αρχική» πρόταση: κανάλι e 1 = argmax e 1 P e 1 f 1 J = argmax e 1 P(e 1 ) P(f 1 J e1 ) P(f 1 J ) Μοντέλο n-γραμμάτων γλώσσας-στόχου
Εκτίμηση P(f 1 J e 1 ) με BM Mdel 1 Θεωρούμε ότι το κανάλι παραμορφώνει ως εξής: Επιλογή αριθμού λέξεων παραμορφωμένης πρότασης. NULL Mary did nt slap the green witch. Ευθυγράμμιση αρχικών λέξεων με θέσεις νέων λέξεων. NULL Mary did nt slap the green witch. Μετάφραση κάθε μιας αρχικής λέξης ξεχωριστά: NULL Mary did nt slap the green witch. Ι = 7 (+ 1 NULL) J = 9 Maria n di una bfetada a la bruja verde Παραμορφωμένες λέξεις που δεν αντιστοιχούν σε καμία αρχική προέρχονται από το NULL. Δεν επιτρέπεται πολλές αρχικές λέξεις μαζί (φράση) να οδηγούν στην ίδια μία παραμορφωμένη λέξη! a 1 = 1 a 2 = 3 a 3 = 4 a 4 = 4 a 9 = 6 P(f j e i ) = t(f j e i )
Εκτίμηση P(f 1 J e 1 ) με BM Mdel 1 συνέχεια Θεωρούμε τις δυνατές τιμές του J ισοπίθανες (πιθανότητα ε) και τις + 1 J δυνατές ευθυγραμμίσεις a J 1 ισοπίθανες. Άρα: P a 1 J e 1 = P J e 1 P a 1 J J, e 1 ε +1 J H πιθανότητα να προκύψει f J 1 από e 1 δεδομένης μιας συγκεκριμένης ευθυγράμμισης Α = a J 1 είναι: P f 1 J e 1, a 1 J = J j=1 t(f j e aj ) Η πιθανότητα να προκύψει f 1 J από e 1 μέσω οποιασδήποτε ευθυγράμμισης Α = a 1 J είναι: P f 1 J e 1 = = Α ε Α P a 1 J e 1 J + 1 J j=1 t(f j e aj ) P f 1 J e 1, a 1 J 1
Εκπαίδευση του BM Mdel 1 Πώς όμως μαθαίνουμε τα t(f j e i ), δηλ. τα P(f j e i ); Αν είχαμε παράλληλο σώμα κειμένων με τις λέξεις κάθε «παραμορφωμένης» πρότασης ευθυγραμμισμένες με τις αντίστοιχες λέξεις της «αρχικής» πρότασης, θα μετρούσαμε. Στην πράξη έχουμε ζεύγη ευθυγραμμισμένων προτάσεων, αλλά οι λέξεις τους δεν είναι ευθυγραμμισμένες. Βλ. βιβλιογραφία για μεθόδους ευθυγράμμισης προτάσεων. Χρησιμοποιύμε EM. Υποκρινόμαστε ότι ξέρουμε τα t(f j e i ). Αρχικά ισοπίθανα. Εκτιμούμε τις πιθανότητες των ευθυγραμμίσεων λέξεων Α. Βάσει των πιθανοτήτων των Α, επανεκτιμούμε τα t(f j e i ). Βάσει των t f j e i, επανεκτιμούμε τις πιθανότητες των Α. Επαναλήψεις ως σύγκλιση (βλ. επόμενο παράδειγμα).
Παράδειγμα εκπαίδευσης του BM Mdel 1 (Από τους J&M, βασισμένο σε παράδειγμα του K. Knight. Η εκπαίδευση του BM Mdel 1 είναι στην πραγματικότητα ελαφρά πιο περίπλοκη.) Έστω ότι έχουμε μόνο 2 ζεύγη παράλληλων φράσεων: green huse casa verde the huse la casa Το κανάλι παραμορφώνει από Αγγλικά σε Ιταλικά. Θεωρούμε αρχικά: t(casa green) = 1/3, t(verde green) = 1/3, t(la green) = 1/3. t(casa huse) = 1/3, t(verde huse) = 1/3, t(la huse) = 1/3. t(casa the) = 1/3, t(verde the) = 1/3, t(la the) = 1/3.
Συνέχεια παραδείγματος εκπαίδευσης BM Mdel 1 Πιθανότητες δυνατών ευθυγραμμίσεων: Α 1,1 : green huse Α 2,1 : the huse casa verde la casa Α 1,2 : green huse Α 2,2 : the huse casa verde la casa P Α 1,1 = t casa green t verde huse = 1 9 P Α 1,2 = t verde green t casa huse = 1 9 Κανονικοποίηση: P Α 1,1 = 1/9 1 = 1, P Α 9 +1 2 1,2 = 1/9 1 9 9 +1 9 = 1 2 P Α 2,1 = t la the t casa huse = 1 9 P Α 2,2 = t casa the t la huse = 1 9 Κανονικοποίηση:P Α 2,1 = 1/9 1 = 1, P Α 9 +1 2 2,2 = 1/9 1 9 9 +1 9 = 1 2
Συνέχεια παραδείγματος εκπαίδευσης BM Mdel 1 Επανεκτίμηση των t(f j e i ): Ζυγίζουμε κάθε εμφάνιση f j e i με την πιθανότητα της ευθυγράμμισης όπου εμφανίζεται και κανονικοποιούμε. t casa green = 1 1 2 = 1 2, t verde green = 1 1 2 = 1 2 t la green = 0 (Οι προηγούμενες 3 εκτιμήσεις δεν χρειάζονταν κανονικοποίηση.) t casa huse = 1 1 2 + 1 1 2 = 1 t verde huse = 1 1 2 = 1 2, t la huse = 1 1 2 = 1 2 Κανονικοποίηση: t casa huse = 1 t la huse = 1+ 1 1 2 +1 2 2 1+ 1 = 1 2 +1 4 2 = 1 2, t verde huse = 1 2 1+ 1 2 +1 2 = 1 4 t casa the = 1 2, t verde the = 0, t la the = 1 2 (Οι προηγούμενες 3 εκτιμήσεις δεν χρειάζονταν κανονικοποίηση.)
Συνέχεια παραδείγματος εκπαίδευσης BM Mdel 1 Επανεκτίμηση πιθανοτήτων δυνατών ευθυγραμμίσεων: Α 1,1 : green huse Α 2,1 : the huse casa verde la casa Α 1,2 : green huse Α 2,2 : the huse casa verde la casa P Α 1,1 = t casa green t verde huse = 1 8 P Α 1,2 = t verde green t casa huse = 1 4 Κανονικοποίηση: P Α 1,1 = 1/8 1 = 1, P Α 8 +1 3 1,2 = 1/4 1 4 8 +1 4 = 2 3 P Α 2,1 = t la the t casa huse = 1 4 P Α 2,2 = t casa the t la huse = 1 8 Κανονικοποίηση:P Α 2,1 = 1/4 1 = 2, P Α 4 +1 3 2,2 = 1/8 1 = 1 8 4 +1 3 8 Οι σωστές ευθυγραμμίσεις έχουν μεγαλύτερες πιθανότητες!
Επιστροφή στο θορυβώδες κανάλι Θέλουμε την πιο πιθανή «αρχική» πρόταση: e 1 = argmax e 1 argmax e 1 P(e 1 ) P e 1 f 1 J Θα πρέπει να εξετάσουμε όλες τις δυνατές αρχικές προτάσεις που μπορούν να οδηγήσουν στην παραμορφωμένη; Α ε = argmax e 1 + 1 J j=1 P(e 1 ) P(f 1 J e 1 ) t(f j e aj ) Χρειαζόμαστε έναν «αποκωδικοποιητή» που θα εξετάσει (αναζητήσει) αρχικές προτάσεις και ευθυγραμμίσεις. Υπάρχουν αποδοτικοί για Mdel 1. Θα συζητήσουμε (παρακάτω) αποκωδικοποιητές για άλλα μοντέλα, βασισμένα σε φράσεις. Στην πράξη: e 1 argmax e 1 Μοντέλο n-γραμμάτων γλώσσας-στόχου J Π.χ. BM Mdel 1 Και όλες τις δυνατές ευθυγραμμίσεις λέξεων της κάθε υποψήφιας αρχικής και της παραμορφωμένης πρότασης; P(e 1 ) max P(Α, f J Α 1 e 1 )
Είναι χρήσιμο το BM Mdel 1; Για μετάφραση όχι ιδιαίτερα, λόγω απλοϊκών παραδοχών. Π.χ. μια «παραμορφωμένη» λέξη δεν μπορεί να προέρχεται από πολλές «αρχικές» (πολλές προς 1), ενώ το ανάποδο (1 προς πολλές) επιτρέπεται! Και δεν επιτρέπει αντικατάσταση ολόκληρης φράσης με άλλη φράση (π.χ. ιδιωματισμοί). Επίσης δεν λαμβάνει υπόψη του ότι γειτονικές αρχικές λέξεις συνήθως μετατρέπονται σε γειτονικές παραμορφωμένες. Δεν είναι όλες οι επιλογές ευθυγραμμίσεων ισοπίθανες! Το πρώτο μιας σειράς πολύ γνωστών μοντέλων (BM Mdel 1, 2, 3, 4, 5) που αφαιρούν σταδιακά περιορισμούς. Βλ. βιβλιογραφία. Κάποια μοντέλα αρχικοποιούνται με εκτιμήσεις απλούστερων μοντέλων. Μπορεί να χρησιμοποιηθεί (όπως και πιο περίπλοκα μοντέλα) και για ευθυγράμμιση λέξεων. Εφαρμόζουμε ΕΜ με Mdel 1 σε παράλληλο σώμα. Κρατάμε την πιθανότερη ευθυγράμμιση κάθε ζεύγους προτάσεων.
Ευθυγράμμιση λέξεων με HMM Έστω ότι έχουμε π.χ. το εξής ζεύγος προτάσεων: Mary/1 slapped/2 the/3 green/4 witch/5 Maria di una bfetada [a] la bruja verde Maria di la Maria P(la the) P(Maria Mary) P(di Mary) P(Maria the) P(3 1) P(5 3) 1 P(2 2) 3 Οι καταστάσεις παριστάνουν θέσεις λέξεων της «αρχικής». P(di slapped) di P(2 1) una 2 P(una ) P(3 2) P(bfetada slapped) bfetada 5 P(bruja witch) Οι μεταβάσεις μεταξύ καταστάσεων εξαρτώνται μόνο από τους αριθμούς των καταστάσεων (θέσεις αρχικής), για την ακρίβεια τη διαφορά τους. Σε κάθε κατάσταση i εκπέμπεται μια λέξη f j της «παραμορφωμένης» πρότασης, με πιθανότητα P(f j e i ). Η εκπομπή εξαρτάται μόνο από την e i. Εκπαίδευση του HMM π.χ. με Baum-Welch (ενότητα 6). 4 P(verde green) Από ποιες καταστάσεις (θέσεις «αρχικής» πρότασης) έγιναν οι εκπομπές των λέξεων της «παραμορφωμένης» πρότασης; 1, 2, 2, 2, 3, 5, 4 bruja verde
Πίνακες ευθυγράμμισης λέξεων Έστω ότι έχουμε π.χ. το ζεύγος ευθυγραμμισμένων προτάσεων: Mary did nt slap the green witch Maria n di una bfetada a la bruja verde Μπορούμε να παραστήσουμε την ευθυγράμμιση ως πίνακα: Mary did nt slap the green witch Maria n di una bfetada a la bruja verde Το BM Mdel 1 και το ΗΜΜ, όμως, δεν μπορούν να δημιουργήσουν τέτοια ευθυγράμμιση. Π.χ. δεν επιτρέπουν ευθυγράμμιση τύπου πολλές προς 1.
Αμφίδρομη ευθυγράμμιση λέξεων Εκτελούμε την ευθυγράμμιση και προς τις δύο κατευθύνσεις (π.χ. Αγγλικά προς Ισπανικά, Ισπανικά προς Αγγλικά). Προκύπτουν δύο διαφορετικοί πίνακες ευθυγράμμισης. Δημιουργούμε πίνακα τομής (μόνο γεμάτα κελιά που υπάρχουν στους πίνακες και των δύο κατευθύνσεων). Λίγα γεμάτα κελιά για τα οποία όμως είμαστε πολύ σίγουροι. Και πίνακα ένωσης (γεμάτα κελιά που υπάρχουν στον πίνακα τουλάχιστον μίας κατεύθυνσης). Πολλά γεμάτα κελιά, μικρή βεβαιότητα. Εξετάζουμε τα γεμάτα κελιά που υπάρχουν στην ένωση και όχι στην τομή. Για κάθε ένα, αποφασίζουμε αν πρέπει να προστεθεί στον πίνακα της τομής. Συνήθως αποφασίζουμε με ευρετικούς κανόνες (βλ. βιβλιογραφία) ή εκπαιδεύοντας και χρησιμοποιώντας ταξινομητή. Προκύπτει πίνακας ευθυγράμμισης που επιτρέπει ευθυγραμμίσεις 1 προς 1, 1 προς πολλές και πολλές προς 1.
Ευθυγράμμιση φράσεων Έχουμε πίνακα από αμφίδρομη ευθυγράμμιση: Mary did nt slap the green witch Maria n di una bfetada a la bruja verde Ζεύγη φράσεων που μπορούμε να εξαγάγουμε: (Maria, Mary), (n, did nt), (di una bfetada, slap), (a la, the), (bruja, witch), (verde, green) (Maria n, Mary did nt), (n di una bfetada, did nt slap), (Mary n di una bfetada, Mary did nt slap), (di una bfetada a la, slap the), (bruja verde, green witch), Δεν πρέπει να υπάρχει γεμάτο κελί πάνω/κάτω και δεξιά/αριστερά από κάθε διακεκομμένο παραλληλόγραμμο.
Μετάφραση βασισμένη σε φράσεις Μπορούμε τώρα να φτιάξουμε έναν πίνακα ζευγών φράσεων ( f j, e i ) με τις αντίστοιχες πιθανότητες φ = P( f j e i ). Για κάθε ζευγάρι, η πιθανότητα δείχνει πόσο πιθανό είναι η «αρχική» φράση e i να γίνει η «παραμορφωμένη» φράση f j. Π.χ. φ e i = P e i = cunt f j, e i f j f j f cunt Μια «αρχική» πρόταση με λέξεις e 1 είναι δυνατόν να τεμαχιστεί με πολλούς τρόπους σε φράσεις e 1 (Ι Ι). f, e i Αρκεί όλες οι φράσεις να υπάρχουν στον πίνακα ζευγών. Π.χ. [Mary] [did nt slap] [the] [green witch] Π.χ. [Mary did nt] [slap the] [green] [witch] Και μια «παραμορφωμένη» πρόταση με λέξεις f J 1 είναι δυνατόν J να τεμαχιστεί με πολλούς τρόπους σε φράσεις f 1 (J J). Πάλι όλες οι φράσεις πρέπει να υπάρχουν στον πίνακα ζευγών. Π.χ. [Maria] [n di una bfetada] [a la] [bruja verde] Π.χ. [Maria n] [di una bfetada a la] [bruja] [verde] f j e i
Μετάφραση βασισμένη σε φράσεις συνέχεια Πιθανότητα να προκύψει η ακολουθία παραμορφωμένων φράσεων f 1 J από την ακολουθία αρχικών φράσεων e 1 δεδομένης κάποιας συγκεκριμένης ευθυγράμμισης φράσεων Α : P J f 1 e 1, Α J j=1 φ Θεωρούμε ότι κάθε παραμορφωμένη φράση f j εξαρτάται μόνο από την αντίστοιχη αρχική φράση e a j. f j e a j Μαζί με την πιθανότητα να προκύψει η Α : P Α e 1 P J f 1 e 1, Α J j=1 d( f j ) φ Οι e i 1 και e i ήταν συνεχόμενες. Θέλουμε να πριμοδοτήσουμε τις αντίστοιχες f j και f j αν είναι και αυτές συνεχόμενες. Αν η e i 1 αντιστοιχεί στην f j και η e i στην f j, το d( f j ) εξετάζει πόσο απέχει η αρχή της f j από το τέλος της f j. Π.χ. d f j = c start f j end f j f j e a j 1, με 0 < c < 1 σταθερά.
Μετάφραση βασισμένη σε φράσεις συνέχεια Πιθανότητα να προκύψει η ακολουθία παραμορφωμένων φράσεων f 1 J από την ακολουθία αρχικών φράσεων e 1 μέσω οποιασδήποτε ευθυγράμμισης φράσεων Α: P f 1 J e 1 = A P Α e 1 P J f 1 e 1, Α A J d j=1 f j φ Πιθανότητα να προκύψει η ακολουθία παραμορφωμένων λέξεων f J 1 από την ακολουθία αρχικών λέξεων e 1 μέσω οποιασδήποτε κατάτμησης σε φράσεις και οποιασδήποτε ευθυγράμμισης φράσεων Α: f j e a j J d P f 1 J e 1 f j φ f j e a j e 1 e 1, j=1 J J f 1 f 1, A Θεωρούμε τις δυνατές κατατμήσεις σε φράσεις ισοπίθανες.
Θορυβώδες κανάλι με φράσεις Θέλουμε την πιο πιθανή «αρχική» πρόταση: e 1 = argmax e 1 argmax e 1 P e 1 Θα εξετάσουμε όλες τις δυνατές αρχικές προτάσεις που μπορούν να οδηγήσουν στην παραμορφωμένη; P e 1 f 1 J e 1 e 1, J J f 1 f 1, A = argmax e 1 J j=1 d( f j ) φ P(e 1 ) P(f 1 J e 1 ) Χρειαζόμαστε έναν «αποκωδικοποιητή» που θα εξετάσει (αναζητήσει) αρχικές προτάσεις, κατατμήσεις, ευθυγραμμίσεις. Μοντέλο n-γραμμάτων γλώσσας-στόχου f j e a j Ουσιαστικά έναν αλγόριθμο αναζήτησης για μεγάλο χώρο καταστάσεων. Μοντέλο μετάφρασης βασισμένο σε φράσεις Και όλες τις δυνατές κατατμήσεις e J 1, f 1 των e 1, f J 1, με όλες τις δυνατές αντιστοιχίες φράσεων Α;
Αποκωδικοποίηση (με φράσεις) Στην πράξη αντί για την: J e 1 = argmax e 1 P e 1 e 1 e 1, j=1 d( f j ) φ f j e a j αναζητούμε την: e 1 = argmax e 1 J J f 1 f 1, A P e 1 max e 1 e 1, J f 1 f 1, A J j=1 d( f j ) φ Επιτρέπουμε στον αποκωδικοποιητή να επιλέξει μόνο μία κατάτμηση και ευθυγράμμιση φράσεων (ελπίζουμε τις καλύτερες). f j e a j Θεωρούμε ότι κάθε παραμορφωμένη φράση f j αντιστοιχεί σε ακριβώς μία αρχική φράση e i, οπότε J = Ι.
Χώρος αναζήτησης αποκωδικοποίησης Maria n di una bfetada a la bruja verde (κενό) Maria n di una bfetada a [la] bruja verde [The] [Maria] n di una bfetada a la bruja verde [Mary] [Maria] [n di] una bfetada a la bruja verde [Mary] [did nt give] [Maria] [n di] [una bfetada] [a la] [bruja verde] [Mary] [did nt give] [a slap] [t the] [green witch] Maria n di una bfetada a [la] bruja [verde] [The] [green] [Maria] [n di una bfetada] a la bruja verde [Mary] [did nt slap] [Maria] [n di una bfetada] [a la] [bruja] [verde] [Mary] [did nt slap] [t the] [witch] [green]
Αποκωδικοποίηση με αναρρίχηση λόφου Maria n di una bfetada a la bruja verde (κενό) Maria n di una bfetada a [la] bruja verde [The] 0.102 [Maria] n di una bfetada a la bruja verde [Mary] 0.015 Maria n di una bfetada a [la] [bruja] verde [The] [witch] 0.076 Maria [n di] una bfetada a [la] bruja verde [The] [did nt] 0.0003 Αξιολογούμε κάθε παιδί και κρατάμε μόνο το καλύτερο. Αναρρίχηση λόφου (hill climbing), περίπτωση λαίμαργου αλγορίθμου. Ενδέχεται να μη φτάσουμε στην καλύτερη κατάσταση (πράσινη ακολουθία λέξεων), δηλαδή ενδέχεται να φτάσουμε σε τοπικό αντί για ολικό μέγιστο.
(Lcal) Beam search 500 600 400 200 m 300 m * * * * * 100 m 400 500 600 700 300 m 200 m
(Lcal) Beam search 500 600 400 200 m 300 m * * * * ** * * * 100 m 200 m 300 m 400 500 600 700
Αποκωδικοποίηση με beam search Όπως ο HC, αλλά κρατάμε k καταστάσεις στο μέτωπο της αναζήτησης, αντί για μία. Αρχικά π.χ. k τυχαίες καταστάσεις στο μέτωπο ή μόνο μία. Σε κάθε βήμα, ελέγχουμε κάθε μία από τις k καταστάσεις του μετώπου και αν δεν είναι τελική την επεκτείνουμε. Αν κάποια από τις k καταστάσεις είναι τελική, σταματάμε. Στην περίπτωσή μας, μια κατάσταση είναι τελική αν η πράσινη ακολουθία λέξεων της κατάστασης καλύπτει πλήρως την προς μετάφραση ακολουθία λέξεων. Επέκταση κατάστασης σημαίνει να προσθέσουμε τα παιδιά της στο δέντρο αναζήτησης. Από όλα τα παιδιά που προκύπτουν, κρατάμε στο μέτωπο τα k καλύτερα και επαναλαμβάνουμε.
Αποκωδικοποίηση με άλλους αλγορίθμους Στη μηχανική μετάφραση χρησιμοποιείται συχνά beam search με πολλαπλά μέτωπα. Ένα μέτωπο για καταστάσεις που καλύπτουν 1 λέξη της πρότασης προς μετάφραση, άλλο μέτωπο για καταστάσεις που καλύπτουν 2 λέξεις της πρότασης προς μετάφραση, άλλο για καταστάσεις που καλύπτουν 3 λέξεις κ.ο.κ. Σε κάθε επανάληψη κρατάμε τα k καλύτερα παιδιά των καταστάσεων του κάθε μετώπου. Κι αυτό γιατί είναι δύσκολο να συγκριθούν καταστάσεις που καλύπτουν διαφορετικό αριθμό λέξεων της πρότασης προς μετάφραση. Μπορούμε επίσης να χρησιμοποιήσουμε και άλλους αλγορίθμους αναζήτησης. Π.χ. Α* (βλ. βιβλιογραφία).
Αξιολόγηση καταστάσεων αναζήτησης Κατά την αποκωδικοποίηση, μπορούμε να αξιολογούμε κάθε κατάσταση υπολογίζοντας το: P e 1 k j d( f j ) φ f j e a j Το j σαρώνει τα ζεύγη φράσεων ( f j, e a j ) που έχουν χρησιμοποιηθεί στην κατάσταση. e k 1 είναι η ημιτελής μετάφραση της κατάστασης. Διαισθητικά αξιολογεί πόσο καλό είναι το μονοπάτι από τη ρίζα του δέντρου αναζήτησης ως την αξιολογούμενη κατάσταση. Καλύτερα αποτελέσματα αν προσθέτουμε και μια εκτίμηση του πόσο καλό μπορεί να είναι το μονοπάτι από την αξιολογούμενη κατάσταση ως μια τελική κατάσταση. Προσθέτουμε ευρετική εκτίμηση για το υπόλοιπο του μονοπατιού. Π.χ. προσθέτουμε τη μέγιστη δυνατή τιμή την οποία μπορεί να πάρει το j φ f j e a j, όπου το j σαρώνει φράσεις της πρότασης προς μετάφραση που δεν έχουν ακόμα καλυφθεί. Υπολογίζεται με δυναμικό προγραμματισμό.
Αξιολόγηση συστημάτων μετάφρασης Η πιο αξιόπιστη αξιολόγηση συστημάτων μηχανικής μετάφρασης γίνεται με ανθρώπους-κριτές. Π.χ. τους ζητάμε να αξιολογήσουν τη φυσικότητα του κειμένου, την πιστότητά του (πόσο καλά διατηρεί τις πληροφορίες του αρχικού κειμένου), το πόσο εύκολα κατανοητό είναι κλπ. Δύσκολο να επαναλαμβάνουμε την αξιολόγηση με ανθρώπους κάθε φορά που θέλουμε να δοκιμάσουμε μια παραλλαγή του συστήματος. Μέτρα αυτόματης αξιολόγησης. Εξετάζουν πόσο μοιάζουν οι μεταφράσεις του συστήματος με μεταφράσεις ανθρώπων. Υπάρχουν όμως πάρα πολλές διαφορετικές αποδεκτές μεταφράσεις. Κατασκευάζουμε (π.χ. με διαφορετικούς ανθρώπους-μεταφραστές) πολλαπλές μεταφράσεις κάθε κειμένου προς μετάφραση. Πόσα από τα n-γράμματα της αυτόματης μετάφρασης υπάρχουν σε τουλάχιστον μία από τις μεταφράσεις των ανθρώπων. Βλ. J&M για περιγραφή του (πιο περίπλοκου) μέτρου BLEU. Τα αποτελέσματα του BLEU έχουν υψηλή συσχέτιση (crrelatin) με τις γνώμες ανθρώπων-κριτών, αλλά μόνο όταν συγκρίνουμε παρόμοια συστήματα (ή παραλλαγές του ίδιου).
Χρήση αλγορίθμων μηχανικής μάθησης Ως τώρα θεωρούσαμε ότι έχουμε θορυβώδες κανάλι: e 1 = argmax P e J 1 f 1 = argmax P(e 1 ) P(f J 1 e 1 ) e 1 e 1 Εναλλακτικά μπορούμε να θεωρήσουμε ότι τα P(e 1 ) και P(f J 1 e 1 ) είναι ιδιότητες της υποψήφιας μετάφρασης e 1. Υποψήφιες μεταφράσεις Μοντέλο n-γραμμάτων γλώσσας-στόχου Μοντέλο μετάφρασης Μπορούμε να εκπαιδεύσουμε ένα μοντέλο παλινδρόμησης που θα προσπαθεί να μαντέψει πόσο καλή είναι κάθε υποψήφια μετάφραση e 1 (π.χ. να μαντέψει το BLEU scre της). Κάθε e 1 περιγράφεται από τις ιδιότητες P(e 1 ) και P(f J 1 e 1 ). Μπορούμε να προσθέσουμε και άλλες ιδιότητες, π.χ. την πιθανότητα P(e 1 f J 1 ) της αντίστροφης κατεύθυνσης. Χρειαζόμαστε πάλι αποκωδικοποιητή για την αναζήτηση στο χώρο των υποψηφίων μεταφράσεων.
Βιβλιογραφία Jurafsky & Martin: κεφάλαιο 25. Οι ενότητες 25.10 («σύγχρονες» γραμματικές) και 25.11 (BM Mdel 3) είναι προαιρετικές (εκτός εξεταστέας ύλης) αλλά ενδιαφέρουσες. Μπορείτε να συμβουλευτείτε και το κεφάλαιο 13 των Manning & Schütze. Περιγράφει, μεταξύ άλλων, μεθόδους ευθυγράμμισης προτάσεων (όχι μόνο λέξεων). Περισσότερες πληροφορίες για τη στατιστική μηχανική μετάφραση μπορείτε να βρείτε στο βιβλίο Statistical Machine Translatin του P. Kehn, Cambridge University Press, 2010. Περισσότερες πληροφορίες για αλγορίθμους ευρετικής αναζήτησης (π.χ. beam search, A*) μπορείτε να βρείτε στις διαφάνειες του προπτυχιακού μαθήματος «Τεχνητή Νοημοσύνη» (βλ. e-class). 39