Σημασιολογική Ανάλυση

Σημασιολογική Ανάλυση 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ 1

Οι διαφάνειες αυτής της διάλεξης βασίζονται εν μέρει σε ύλη των βιβλίων: «Speech and Language Prcessing» των D. Jurafsky and J.H. Martin, 2 η έκδοση, Prentice Hall, 2009 και «Artificial Intelligence A Mdern Apprach» των S. Russel και P. Nrvig, 2η έκδοση, Prentice Hall, 2003.

Τι θα ακούσετε Παράσταση του νοήματος προτάσεων φυσικής γλώσσας σε πρωτοβάθμια κατηγορηματική λογική. Συστηματική απεικόνιση προτάσεων φυσικής γλώσσας σε τύπους ΠΚΛ μέσω λ-λογισμού και γραμματικών DCG. Σημασιολογικές σχέσεις λέξεων, WrdNet. Περιορισμοί επιλογής, θεματικοί ρόλοι, FrameNet. Διανυσματικές παραστάσεις λέξεων, Wrd2Vec. Μέτρα σημασιολογικής συνάφειας λέξεων. Αποσαφήνιση εννοιών λέξεων με ακέραιο γραμμικό προγραμματισμό.

DCG για απλή γλώσσα αριθμητικής digit --> [zer]. digit --> [ne].... digit --> [nine]. pen pen tw plus fur clse slash pen fur minus ne clse clse ((2 + 4 ) / (4 1)) expressin --> digit. expressin --> [pen], expressin, [plus], expressin, [clse]. expressin --> [pen], expressin, [minus], expressin, [clse]. expressin --> [pen], expressin, [star], expressin, [clse]. expressin --> [pen], expressin, [slash], expressin, [clse]. phrase(expressin, [pen, pen, tw, plus, fur, clse, slash, pen, fur, minus, ne, clse, clse]). Yes. 4

Σημασιολογία αριθμητικής γλώσσας digit(0) --> [zer]. digit(1) --> [ne].... digit(9) --> [nine]. Μέσα σε άγκιστρα γράφουμε επιπλέον περιορισμούς που πρέπει να ικανοποιούνται για να χρησιμοποιηθεί ο κανόνας. Εδώ με το is εκχωρούμε στο Χ το αποτέλεσμα του αριθμητικού υπολογισμού X1 + X2. (T = στην Prlg σημαίνει ενοποίηση.) expressin(χ) --> digit(χ). expressin(χ) --> [pen], expressin(χ1), [plus], expressin(χ2), [clse], {X is X1 + X2}. expressin(x) --> [pen], expressin(x1), [minus], expressin(x2), [clse], {X is X1 - X2}.... phrase(expressin(x), [pen, pen, tw, plus, fur, clse, slash, pen, fur, minus, ne, clse, clse]). X = 2. 5

Παραδείγματα τύπων ΠΚΛ Σε όλες τις γάτες αρέσει το γάλα. x (IsCat(x) Likes(x, Milk)) Υπάρχει μια γάτα που της αρέσει το γάλα. x (IsCat(x) Likes(x, Milk)) Προσοχή: ο τύπος x (IsCat(x) Likes(x, Milk)) λέει «Υπάρχει ένα x που: (i) δεν είναι γάτα ή (ii) αν είναι γάτα του αρέσει το γάλα». Η Ψίτα συμπαθεί όλους τους σκύλους. x (IsDg(x) Likes(Psita, x)) Προσοχή: ο τύπος x (IsDg(x) Likes(Psita, x)) λέει «Τα πάντα είναι σκύλοι και αρέσουν στην Ψίτα». Υπάρχει μια γάτα που συμπαθεί όλους τους σκύλους. x (IsCat(x) y (IsDg(y) Likes(x, y)))

Παραδείγματα τύπων ΠΚΛ συνέχεια Ο Μίλος αντιπαθεί όλες τις γάτες. x (IsCat(x) Likes(Mils, x)) Όλοι οι σκύλοι αντιπαθούν όλες τις γάτες. x (IsDg(x) y (IsCat(y) Likes(x, y))) ή ισοδύναμα: x y ((IsDg(x) IsCat(y)) Likes(x, y)) Κάθε άνθρωπος συμπαθεί τον πατέρα του. x y ((IsHuman(x) IsFatherOf(y, x)) Likes(x, y)) ή: x (IsHuman(x) Likes(x, FatherOf(x)))

Παραδείγματα τύπων ΠΚΛ συνέχεια Κάθε σκύλος που γαβγίζει φοβάται μια (πιθανώς διαφορετική ή την ίδια) γάτα. x ((IsDg(x) Barks(x)) y (IsCat(y) IsAfraidOf(x, y))) Κάθε γάτα συμπαθεί ακριβώς έναν (πιθανώς διαφορετικό ή τον ίδιο όλες) σκύλο. y (IsCat(y) x (IsDg(x) Likes(y, x) z ((IsDg(z) Likes(y, z)) z = x)))

Συντακτικό ΠΚΛ τύπος ατομικός_τύπος (τύπος σύνδεσμος τύπος) ποσοδείκτης μεταβλητή τύπος τύπος ατομικός_τύπος σύμβολο_σχέσης(όρος,...) όρος = όρος όρος σταθερά μεταβλητή σύμβολο_συνάρτησης(όρος,...) σύνδεσμος ποσοδείκτης σταθερά A X 1 Jhn Mary... μεταβλητή a x s... Τα σύνολα των σταθερών, μεταβλητών, συμβόλων σχέσεων, συμβόλων συναρτήσεων θεωρούμε ότι είναι ανά δύο ξένα. σύμβολο_σχέσης IsFatherOf HasClr IsKing... σύμβολο_συνάρτησης FatherOf LeftLeg...

Σημασιολογία ΠΚΛ και συμπεράσματα Καθορίζει τη σημασία κάθε συντακτικά ορθού τύπου. Οι όροι (μεταβλητές, σταθερές, συναρτησιακοί όροι) σημαίνουν αντικείμενα ενός κόσμου. Τα σύμβολα σχέσεων (π.χ. IsDg, Likes) παριστάνουν σύνολα αντικειμένων ή σχέσεις αντικειμένων του κόσμου. Οι τύποι σημαίνουν «αληθές» ή «ψευδές». Βλ. προπτυχιακά μαθήματα «ΤΝ» και «Λογική». Παριστάνοντας το νόημα των προτάσεων με τύπους ΠΚΛ μπορούμε να εκμεταλλευτούμε αλγορίθμους εξαγωγής συμπερασμάτων ΠΚΛ. Π.χ. αν «Η Ψίτα δεν συμπαθεί κανένα σκύλο.» και «Ο Μίλος είναι σκύλος.», τότε «Η Ψίτα δεν συμπαθεί το Μίλο.» Βλ. προπτυχιακά μαθήματα «ΤΝ» και «Λογική».

Υπολογισμός σημασιολογικής παράστασης S(Lves(Jhn,Mary)) Ουσιαστικά μεταφράζουμε από φυσική γλώσσα σε μια τεχνητή γλώσσα (ΠΚΛ), της οποίας έχουμε ορίσει αυστηρά τη σημασιολογία. VP(λx Lves(x,Mary)) NP(Jhn) NP(Mary) Det PN(Jhn) V(λy λx Lves(x,y)) Det PN(Mary) ο Γιάννης αγαπάει τη Μαρία 11

Σημασιολογία απλών προτάσεων ΦΓ S( σ 2 (σ 1 ) ) NP( σ 1 ) VP( σ 2 ) VP( σ 3 (σ 4 ) ) V( σ 3 ) NP( σ 4 ) NP(σ) Det PN(σ) Det ο η το τη PN(Jhn) Γιάννης PN(Mary) Μαρία V( λy λx Lves(x, y) ) αγαπάει Συνθετική σημασιολογία (cmpsitinal semantics): Η σημασία κάθε έκφρασης ΦΓ υπολογίζεται ως συνάρτηση των σημασιών των συντακτικών μερών της. σ 3 σ 4 σ 3 (σ 4 ) (λy λx Lves(x, y))(mary) λx Lves(x, Mary) (λx Lves(x, Mary))(Jhn) Lves(Jhn, Mary) σ 2 σ 1 σ 2 (σ 1 ) 12

Αντίστοιχη γραμματική DCG s(predicate) --> np(x1), vp(x, Predicate), {X1 = X}. vp(x, Predicate) --> v(y, X, Predicate), np(y1), {Y = Y1}. np(sem) --> det, pn(sem). det --> [ο]. det --> [η]. det --> [το]. det --> [τη]. pn(jhn) --> [γιάννης]. pn(mary) --> [μαρία]. Απαιτούμε να ενοποιηθεί η σημασιολογική παράσταση Y1 του np (π.χ. jhn) με το δεύτερο όρισμα της παράστασης του v (το Y του lves(x,y)). Το αποτέλεσμα είναι να ενσωματωθεί η παράσταση του np στο Predicate (π.χ. lves(x, jhn)). Αντιστοιχούν στο λy λx Lves(x, y) του προηγούμενου παραδείγματος. v(y, X, lves(x,y)) --> [αγαπάει]. 13

Παράδειγμα γραμματικής με ποσοδείκτες Καλύπτει προτάσεις της μορφής: «Θέλω μια πτήση προς την Αθήνα.» «Εγώ θέλω μια πτήση από την Αθήνα προς τη Θεσσαλονίκη.» «Ένας πελάτης προτιμά μια πτήση προς το Ηράκλειο.» Η πλήρης γραμματική υπάρχει στις ιστοσελίδες. flight_requests.pl και flight_requests_semantics.pl. Θα υπάρχουν ποσοδείκτες μέσα σε ορίσματα κατηγορημάτων: «Κάθε πελάτης θέλει μια πτήση.» γίνεται: Wants( x Client(x), y Flight(y) ) Δεν επιτρέπεται στην ΠΚΛ, αλλά διευκολύνει: ευκολότερη σημασιολογική ανάλυση και μία μόνο λογική έκφραση σε προτάσεις με διφορούμενους ποσοδείκτες (βλ. παρακάτω). Μετατροπή σε πραγματική ΠΚΛ με μετέπειτα επεξεργασία. 14

Σημασιολογία ουσιαστικών και άρθρων N( λx 1 Custmer(x 1 ) ) πελάτης Det( λx 2 λp 1 x 2 p 1 ) κάθε x 3 Custmer(x 3 ) λx 2 λp 1 x 2 p 1 NP( σ 1 (x 3 )(σ 2 (x 3 )) ) Det(σ 1 ) N(σ 2 ) (όπου x 3 μια νέα μεταβλητή) λp 1 x 3 p 1 Custmer(x 3 ) λx 1 Custmer(x 1 ) Αντίστοιχα: N( λx 4 Flight(x 4 ) ) πτήση Det( λx 5 λp 2 x 5 p 2 ) μία Οι υπόλοιποι κανόνες για ρήματα, VP, S μένουν όπως πριν. 15

Υπολογισμός ενδιάμεσης σημασιολογικής παράστασης S(Wants( x 3 Custmer(x 3 ), x 6 Flight(x 6 ))) VP(λx Wants(x, x 6 Flight(x 6 ))) NP( x 3 Custmer(x 3 )) NP( x 6 Flight(x 6 )) V(λy λx Wants(x,y)) N(λx 1 Custmer(x 1 )) Det(λx 2 λp 1 x 2 p 1 ) Det(λx 5 λp 2 x 5 p 2 ) N(λx 4 Flight(x 4 )) κάθε πελάτης θέλει μία πτήση 16

Αντίστοιχοι κανόνες DCG n( X1, custmer(x1) ) --> [πελάτης]. n( X4, flight(x4) ) --> [πτήση]. det( X2, P1, frall(x2, P1) ) --> [κάθε]. det( X5, P2, frsme(x5, P2) ) --> [μία]. Το NewX αντιστοιχεί στο x 3 της προπροηγούμενης διαφάνειας. np(semnp) --> det(xdet, P, SemDet), n(xn, SemN), {XDet = NewX, XN = NewX, P = SemN, SemNP = SemDet}. ή πιο σύντομα: np(semdet) --> det(x, SemN, SemDet), n(x, SemN). 17

Μετατροπή σε πραγματική ΠΚΛ Παράγει όλες τις δυνατές εκφράσεις ΠΚΛ από την ενδιάμεση προσεγγιστική παράσταση. Wants( x Custmer(x), y Flight(y)) γίνεται: x Custmer(x) ( y Flight(y) Wants(x, y)) ή: y Flight(y) ( x Custmer(x) Wants(x,y)) Αφαιρούμε έναν ποσοδείκτη της αρχικής έκφρασης (μαζί με το κατηγόρημά του) και αφήνουμε μόνο τη μεταβλητή του: Π.χ. Wants(x, y Flight(y)) Προσθέτουμε στην αρχή τον ποσοδείκτη και το κατηγόρημα που αφαιρέσαμε. Συνδέουμε με αν πρόκειται για. Συνδέουμε με αν πρόκειται για. x Custmer(x) Wants(x, y Flight(y)) 18

Μετέπειτα επεξεργασία συνέχεια Επαναλαμβάνουμε για τον άλλο ποσοδείκτη: x Custmer(x) Wants(x, y) y Flight(y) ( x Custmer(x) Wants(x, y)) Υπάρχει μια κοινή για όλους τους πελάτες πτήση που τη θέλουν όλοι οι πελάτες. Αν είχαμε αφαιρέσει τον άλλο ποσοδείκτη πρώτα, θα παίρναμε την άλλη δυνατή σημασία: x Custmer(x) ( y Flight(y) Wants(x, y)) Για κάθε πελάτη, υπάρχει μια πιθανώς διαφορετική πτήση που τη θέλει ο πελάτης. Η ενδιάμεση παράσταση μπορεί, επίσης, να περιέχει ψευδο-ποσοδείκτες για αναφορικές εκφράσεις. «Ο πελάτης θέλει μια πτήση.» Wants( The.x Custmer(x), y Flight(y) ) Οι ψευδο-ποσοδείκτες αντικαθίστανται από άλλες εκφράσεις κατά την επίλυση αναφορικών εκφράσεων. 19

Έφαγα. Παραστάσεις γεγονότων Eating 1 (Speaker) Έφαγα ένα σουβλάκι. x (IsSuvlaki(x) Eating 2 (Speaker, x)) Έφαγα ένα σουβλάκι στο γραφείο μου. x (IsSuvlaki(x) Eating 3 (Speaker, x, OfficeOf(Speaker))) Χθες έφαγα ένα σουβλάκι στο γραφείο μου. x (IsSuvlaki(x) Eating 4 (Speaker, x, OfficeOf(Speaker), Yesterday)) Αν χρησιμοποιήσουμε Eating 1 ( ), Eating 2 ( ), Eating 3 ( ) κλπ., χρειαζόμαστε αξιώματα που να λένε ότι όποτε συμβαίνει π.χ. Eating 3 ( ) συμβαίνει Eating 2 ( ).

Παραστάσεις γεγονότων συνέχεια Έφαγα. x y z Eating(Speaker, x, y, z) Έφαγα ένα σουβλάκι. x y z (IsSuvlaki(x) Eating(Speaker, x, y, z)) Έφαγα ένα σουβλάκι στο γραφείο μου. x z (IsSuvlaki(x) Eating(Speaker, x, OfficeOf(Speaker), z)) Χθες έφαγα ένα σουβλάκι στο γραφείο μου. x (IsSuvlaki(x) Eating(Speaker, x, OfficeOf(Speaker), Yesterday)) Πόσα ορίσματα χρειάζεται τελικά το Eating( ); Πώς παριστάνουμε π.χ. το «Χθες έφαγα βιαστικά ένα σουβλάκι στο γραφείο μου»; Και πώς παριστάνουμε π.χ. το «Χθες έφαγα βιαστικά ένα σουβλάκι στο γραφείο μου πριν φύγω»;

Μεταβλητές γεγονότων (Davidsnian semantics) Έφαγα. e (Eating(e) Eater(e, Speaker)) Έφαγα ένα σουβλάκι. e x (Eating(e) IsSuvlaki(x) Eater(e, Speaker) Eaten(e, x)) Έφαγα ένα σουβλάκι στο γραφείο μου. e x (Eating(e) IsSuvlaki(x) Eater(e, Speaker) Eaten(e, x) Lcatin(e, OfficeOf(Speaker))) Έφαγα βιαστικά ένα σουβλάκι στο γραφείο μου πριν φύγω. e 1 e 2 x i 1 i 2 (Eating(e 1 ) IsSuvlaki(x) Eaten(e 1, x) Eater(e 1, Speaker) Lcatin(e 1, OfficeOf(Speaker)) Speed(e 1, Fast) Leaving(e 2 ) Leaver(e 2, Speaker) IntervalOf(e 1, i 1 ) IntervalOf(e 2, i 2 ) Befre(End(i 1 ), Start(i 2 )))

Θεματικοί ρόλοι (thematic rles) Έφαγα βιαστικά ένα σουβλάκι στο γραφείο μου πριν φύγω. e 1 e 2 x i 1 i 2 (Eating(e 1 ) IsSuvlaki(x) Eaten(e 1, x) Eater(e 1, Speaker) Lcatin(e 1, OfficeOf(Speaker)) Speed(e 1, Fast) Leaving(e 2 ) Leaver(e 2, Speaker) IntervalOf(e 1, i 1 ) IntervalOf(e 2, i 2 ) Befre(End(i 1 ), Start(i 2 ))) Ανάλογα με το είδος του γεγονότος, επιτρέπονται διαφορετικοί «ρόλοι». Κάθε γεγονός έχει IntervalOf. Ένα γεγονός Eating μπορεί να έχει ρόλους Eaten, Eater, Ένα γεγονός Leaving μπορεί να έχει Leaver, Χρειαζόμαστε μια ταξινομία γεγονότων, που να καθορίζει τους επιτρεπόμενους ρόλους.

FrameNet (https://framenet.icsi.berkeley.edu/) Συγκεκριμένες λέξεις ενεργοποιούν πλαίσια (frames), που καθορίζουν θεματικούς ρόλους (frame elements). «... an increase [ INIT_VALUE frm 20%] [ FINAL_VALUE t 27%]» «... fell [ FINAL_VALUE t 27%]» Εδώ και οι δύο λέξεις ενεργοποιούν το ίδιο πλαίσιο. Το FrameNet παρέχει μια μεγάλη συλλογή πλαισίων, συνδεδεμένων με λέξεις, τους ρόλους κάθε πλαισίου, παραδείγματα χρήσης των πλαισίων, κλπ. Χρήσιμο π.χ. στην εξαγωγή πληροφοριών από κείμενα. Semantic rle labeling: μέθοδοι που «γεμίζουν» τους ρόλους των ενεργοποιημένων πλαισίων σε κάθε πρόταση, συνήθως χρησιμοποιώντας μηχανική μάθηση (βλ. J&M). Ορίζονται επίσης σχέσεις πλαισίων και ρόλων. Π.χ. κληρονομικότητα μεταξύ γενικότερων και ειδικότερων πλαισίων. (Βλ. J&M για λεπτομέρειες.)

Σημασιολογικές σχέσεις λέξεων Ομώνυμα: ίδια γραφή, αλλά διαφορετικές σημασίες. Π.χ. «γράμμα» ταχυδρομείου ή «γράμμα» αλφαβήτου; Π.χ. «άπειρος» στα μαθηματικά ή χωρίς πείρα; Συνώνυμα: διαφορετικές λέξεις, αλλά μπορούν να χρησιμοποιηθούν με περίπου την ίδια σημασία. Π.χ. «αυτοκίνητο» και «αμάξι», «ασανσέρ» και «ανελκυστήρας», «ωραίος» και «όμορφος». Υπερώνυμο υπώνυμο: ευρύτερη στενότερη έννοια. Π.χ. «όχημα» «αυτοκίνητο», «οργανισμός» «εταιρεία». Αντίθετα (antnyms): αντίθετες έννοιες. Π.χ. «όμορφος» «άσχημος», «μεγάλος» «μικρός». Βλ. J&M για περισσότερα είδη σχέσεων λέξεων.

WrdNet (http://wrdnet.princetn.edu/) {πράγμα, αντικείμενο,...}......... {τροχοφόρο, όχημα,...} {αυτοκίνητο, αμάξι,...} {τραπέζι, τράπεζα,...} Κάθε έννοια παριστάνεται ως ένα σύνολο συνωνύμων (synset) που μπορούν να έχουν αυτή την έννοια. Ιεραρχία υπερωνύμων υπωνύμων ανά μέρος του λόγου (ουσιαστικά, επίθετα, ρήματα, επιρρήματα). Παρέχει και πολλές άλλες σχέσεις (βλ. J&M). {έπιπλο,...} {οργανισμός,...} {τράπεζα,...} Π.χ. μερώνυμα (ο «τροχός» είναι μέρος του «οχήματος»). Αρχικά μόνο για τα Αγγλικά, αλλά πλέον αντίστοιχοι θησαυροί και για άλλες γλώσσες.

Περιορισμοί επιλογής (selectinal restrictins) Είδα το [γιατρό [με την άσπρη μπλούζα]]. e 1 x 1 x 2 i 1 (Seeing(e 1 ) IsDctr(e 1, x 1 ) IsCat(e 1, x 2 ) IsWhite(e 1, x 2 ) Agent(e 1, Speaker) Seen(e 1, x 1 ) Wearing(e 1, x 1, x 2 ) IntervalOf(e 1, i 1 ) Befre(End(i 1 ), Nw)))? Είδα [το γιατρό] [με την άσπρη μπλούζα]. e 1 x 1 x 2 i 1 (Seeing(e 1 ) IsDctr(e 1, x 1 ) IsCat(e 1, x 2 ) IsWhite(e 1, x 2 ) Agent(e 1, Speaker) Seen(e 1, x 1 ) ObservatinInstrument(e 1, x 2 ) IntervalOf(e 1, i 1 ) Befre(End(i 1 ), Nw))) Η 2 η ανάγνωση μπορεί να αποκλειστεί με λογικούς ελέγχους, αν έχουμε μια αρκετά πλούσια βάση γνώσεων. Δύσκολο... e x (ObservatinInstrument(e, x) (IsEyeGlasses(e, x) IsBinculars(e, x) ))

Περιορισμοί επιλογής συνέχεια Εναλλακτικά, απλοί περιορισμοί επιλογής μπορούν να ενσωματωθούν στο λεξικό και τη γραμματική. n(sense: s 144 ) [φαγητό]. (Θεωρώντας ότι s 144 είναι το synset που αντιστοιχεί στην έννοια του φαγητού.) n(sense: s 138 ) [σαλάτα]. (Το s 138 θα είναι υπώνυμο του s 144.) v(bjsense: s 144 ) [τρώω]. (Το όρισμα δείχνει ότι απαιτεί ως αντικείμενο λέξη με έννοια s 144 ή υπώνυμο.) vp v(bjsense: S 1 ), n(sense: S 2 ), {hypernymof(s 1, S 2 )}. Ομοίως (άσκηση ) μπορούμε να αποκλείσουμε το: Είδα [το γιατρό] [με την άσπρη μπλούζα]. Έτσι δεν παράγονται καν συντακτικά δέντρα για αναγνώσεις που παραβιάζουν τους περιορισμούς. Μπορεί όμως το WrdNet να μην παρέχει έννοιες που να αντιστοιχούν ακριβώς στους περιορισμούς επιλογής. Επίσης τι κάνουμε με (αποδεκτές) αρνήσεις (π.χ. «Κανείς δεν τρώει πέτρες.») ή μεταφορές («Τον έφαγε η ξενιτιά.»);

Σημασιολογική συνάφεια λέξεων Εξετάζουμε κατά πόσον δύο λέξεις ή συγκεκριμένες έννοιες λέξεων είναι συναφείς (σχετικές). Π.χ. «αγοράζω» «αποκτώ», «πτήση» «αεροπλάνο». Μέτρα συνάφειας λέξεων που βασίζονται σε θησαυρούς. Π.χ. εξετάζουν το μήκος του συντομότερου μονοπατιού που ενώνει δύο έννοιες των λέξεων στο WrdNet. Πολλές παραλλαγές (βλ. J&M). Μέτρα που χρησιμοποιούν συχνότητες συνεμφανίσεων. Λέξεις με συναφή σημασία τείνουν να εμφανίζονται με παρόμοια συμφραζόμενα (distributinal hypthesis). Μπορούμε π.χ. να χρησιμοποιήσουμε διανυσματικές παραστάσεις λέξεων (wrd embeddings) που βασίζονται σε συχνότητες συνεμφανίσεων. 31

Wrd embeddings with PMI scres Represent each wrd as a vectr ( wrd embedding ). The vectr shws hw ften the wrd c-ccurs with every ther wrd f a vcabulary. pilt = PMI pilt, air, PMI pilt, tree, PMI(pilt, dr) The c-ccurrence scres in the vectr are ften Pintwise Mutual Infrmatin (PMI) scres: T c-ccur may mean in the same sentence, r in a windw f n wrds, r cnnected with dependencies prduced by a dependency parser) etc. Wrd similarity = similarity f embeddings (e.g., csine). P(w, w i ) PMI(w, w i ) = lg P(w) P(w i ) Imprved, nrmalized PMI definitins als exist. Hw likely is it fr w t c-ccur with the i-th vcabulary wrd? Methds t prduce dense wrd embeddings f fewer dimensins (e.g., 300) exist. T be discussed 32

Wrd embeddings (prduced by a methd that prduces dense, sense-specific wrd embeddings, then prjected t 2 dimensins) Image surce: http://www.scher.rg/uplads/main/multiplevectrwrdembedding.png Huan et al. 2012, Imprving Wrd Representatins via Glbal Cntext and Multiple Wrd Prttypes. 33

Wrd2Vec (skip-gram versin) Κάθε λέξη w του λεξιλογίου έχει δύο διανύσματα: w (in), w (ut) Τα διανύσματα είναι αρχικά τυχαία. Τα μαθαίνουμε. Για κάθε εμφάνιση λέξης w t στη θέση t ενός σώματος κειμένων και κάθε θέση t + i (i 0) μέσα σε ένα παράθυρο [t c, t + c] γύρω από τη θέση t, w t+i =? w t+i = "starring"? w t+i = "directed"? w t = "film" w t+i = "famus"? t c t t + i t + c θέλουμε η πιθανότητα εμφάνισης της λέξης w t+i στη θέση (in) (ut) t + i να μπορεί να προβλεφθεί από τα w t και wt+i. 34

Wrd2Vec (skip-gram versin) In the skip-gram versin f Wrd2Vec, the central wrd f each windw predicts the ther wrds f the windw. In the CBOW versin, the ther wrds f the windw predict the central ne. w t = "film" w t+i =? w t+i = "starring"? w t+i = "directed"? w t+i = "famus"? t c t predictin t + i t + c P w t+i w t = sftmax w t+i (ut) wt (in) = exp w (ut) (in) t+i wt σ w V exp w (ut) (in) w t 35

Wrd2Vec (skip-gram versin) We learn the w (in), w (ut) f all the vcabulary wrds by maximizing the prbabilities we assign t the wrds w t+i that actually ccur at each psitin t + i f each windw: T c E (in), E (ut) = argmax E in,e (ut) t=1+c c i c,i 0 ln P w t+i w t T is the size f the crpus (cunted in tkens). The matrices E in, E (ut) cntain in their clumns all the in and ut vectrs (wrd embeddings) f the vcabulary wrds. We maximize using SGD (r variants). See https://cde.ggle.cm/p/wrd2vec fr papers, cde, pretrained wrd2vec wrd embeddings (e.g., n Wikipedia). See als http://nlp.stanfrd.edu/prjects/glve/ fr anther similar ppular tl, called GlVe (Stanfrd). 36

Optinal reading Wrd2Vec (skip-gram with negative sampling) When the vcabulary V is large, cmputing the sftmax is very time-cnsuming. A mre efficient alternative is negative sampling. We cnstruct psitive (+) and negative ( ) examples, using the wrd w t+i that actually ccurs at psitin t + i, and randm wrds r t+i that d nt actually ccur at psitin t + i. w t = "film" r t+i = "medical" (randm, negative) w t+i = "famus" (true, psitive) t c max E in,e (ut) T c t=1+c t t + i t + c predictin ln P + w t+i, w t + ln P r t+i, w t c i c,i 0 We try t learn t assign high prbabilities t the crrect classes. In practice, we use multiple randm wrds r t+i at each psitin t + i. 37

t c max E in,e (ut) max E in,e (ut) Optinal reading Wrd2Vec (skip-gram with negative sampling) T c t=1+c T c t=1+c c i c,i 0 w t = "film" c i c,i 0 t ln P + w t+i, w t ln σ w t+i w t r t+i = "medical" (randm, negative) w t+i = "famus" (true, psitive) predictin t + i + ln 1 P + r t+i, w t sigmid as in lgistic regressin t + c + ln 1 σ r t+i w t We n lnger try t prduce a prbability distributin ver the vcabulary fr the wrds w t+i that may ccur at t + i. We are given w t and a particular w t+i r r t+i and we need t decide if it is a psitive r negative case. 38

Embeddings f bimedical terms See http://biasq.rg/news/biasq-releases-cntinuus-space-wrd-vectrsbtained-applying-wrd2vec-pubmed-abstracts 39

Αποσαφήνιση εννοιών λέξεων Ποια είναι η σωστή έννοια κάθε εμφάνισης λέξεως σε ένα κείμενο (wrd sense disambiguatin, WSD). Δυνητικώς χρήσιμο σε πολλές εφαρμογές (π.χ. ανάκτηση πληροφοριών, μηχανική μετάφραση). Π.χ. το «bank» να μεταφραστεί ως «τράπεζα» ή ως «όχθη»; Συνήθως δίνονται οι δυνατές έννοιες των λέξεων (π.χ. WrdNet), αλλά γενικότερα (sense inductin) μπορεί να πρέπει να κατασκευάσουμε το σύνολο δυνατών εννοιών κάθε λέξης. Κατάταξη των εμφανίσεων κάθε λέξης σε κατηγορίες (έννοιες της λέξης) με αλγορίθμους μηχανικής μάθησης; TEA: προαιρετική μελέτη υπόλοιπων διαφανειών Χρειαζόμαστε έναν ταξινομητή για κάθε λέξη! Π.χ. ιδιότητες: ποιες λέξεις εμφανίζονται ή όχι κοντά (ως μια απόσταση), ιδιότητες που δείχνουν ποιες λέξεις (ή μέρη του λόγου) εμφανίζονται σε συγκεκριμένες θέσεις τριγύρω.

Η μέθοδος αποσαφήνισης του Lesk Επιλέγει για κάθε εμφάνιση λέξης την έννοια της οποίας η «υπογραφή» έχει τη μεγαλύτερη ομοιότητα με την πρόταση που περιέχει την εμφάνιση της λέξης. Simplified Lesk: Η υπογραφή είναι το «glss» (η περιγραφή που δίνει το WrdNet) για την υποψήφια έννοια. Crpus Lesk: Η υπογραφή είναι το glss μαζί με όλες τις προτάσεις ενός επισημειωμένου σώματος (π.χ. SemCr) στις οποίες εμφανίζεται η υποψήφια έννοια. Παραδείγματα μέτρων ομοιότητας: (βλ. J&M για άλλα) Csine similarity (εφαρμόζεται στα διανύσματα της υπογραφής και της πρότασης, π.χ. με τιμές TF-IDF): cs( Ԧx, Ԧy) = Ευκλείδεια απόσταση: x 1 y 1 2 + + x m y m 2 Ԧx y Ԧx y

Γραμμικός προγραμματισμός (linear prgramming, LP) Ιδιαίτερη περίπτωση βελτιστοποίησης, όπου: κάθε κατάσταση μπορεί να παρασταθεί ως ένα διάνυσμα: Ԧx = x 1, x 2, x 3,, x n R n ψάχνουμε μέγιστο μια «αντικειμενικής» συνάρτησης f Ԧx που είναι γραμμικός συνδυασμός των x i : f Ԧx = c 1 x 1 + + c n x n, θέλουμε να ικανοποιούνται γραμμικές ανισότητες: a 11 x 1 + a 12 x 2 + + a 1n x n b 1 a i1 x 1 + a i2 x 2 + + a in x n b i a m1 x 1 + a m2 x 2 + + a mn x n b m

Γραμμικός προγραμματισμός συνέχεια Yπάρχουν αλγόριθμοι που βρίσκουν λύση γρήγορα. Αλγόριθμος Simplex: στη χειρότερη περίπτωση εκθετική πολυπλοκότητα (ως προς τον αριθμό μεταβλητών), αλλά στην πράξη πολύ γρήγορος. Υπάρχουν και πολυωνυμικοί αλγόριθμοι. Αλλά αν οι μεταβλητές x i επιτρέπεται να έχουν μόνο ακέραιες τιμές, το πρόβλημα γίνεται NP-hard. Και μιλάμε για «ακέραιο (γραμμικό) προγραμματισμό» (integer linear prgramming, ILP). Υπάρχουν, όμως, πολύ καλές μέθοδοι λύσης (και υλοποιήσεις), που στην πράξη συχνά βρίσκουν γρήγορα λύση. Περισσότερα σε μαθήματα Βελτιστοποίησης.

Αποσαφήνιση εννοιών λέξεων w 1 S 11 S 12 S 13 S 1K w 4 S 41 S 42 S 43 rel(s 4N, s 12 ) rel(s 12, s 31 ) rel(s 12, s 23 ) S 21 S 22 S 23 w 2 S 4N rel(s 4N, s 23) rel(s 31, s 23 ) S 2L rel(s 4N, s 31 ) S 31 S 32 S 33 S 3M w 3 Διάλεξε ακριβώς μία έννοια s ij κάθε λέξης w i της πρότασης (ή παραγράφου), ώστε η συνολική συνάφεια όλων των ζευγών επιλεγμένων εννοιών να είναι μέγιστη.

Προς μια μέθοδο αποσαφήνισης μέσω ILP w 1 S 11 S 12 S 13 S 1K s 1j : Δυνατές έννοιες της w 1. a 1j : Δείχνει αν επιλέγεται (a 1j =1) ή όχι (a 1j = 0) η s 1j. w 4 S 41 S 42 S 43 rel(s 4N, s 12 ) rel(s 12, s 31 ) rel(s 12, s 23 ) S 21 S 22 S 23 w 2 S 4N rel(s 4N, s 23) rel(s 31, s 23 ) S 2L rel(s 4N, s 31 ) S 31 S 32 S 33 S 3M s 2j : Δυνατές έννοιες της w 2. a 2j : Δείχνει αν επιλέγεται (a 2j =1) ή όχι (a 2j = 0) η s 2j. max σ i,j,i,j,i<i rel(s ij, s i j ) a ij a i j s.t. a ij 0,1, i, j and σ j a ij = 1, i w 3 a i j Μεγιστοποίησε τη συνολική συνάφεια των επιλεγόμενων εννοιών, διαλέγοντας ακριβώς μία έννοια ανά λέξη. Αλλά τετραγωνική αντικειμενική...

Μεταβλητές και στις ακμές s 1j : Δυνατές έννοιες της w 1. a 1j : Δείχνει αν επιλέγεται (a 1j =1) ή όχι (a 1j = 0) η s 1j. s 2j : Δυνατές έννοιες της w 2. a 2j : Δείχνει αν επιλέγεται (a 2j =1) ή όχι (a 2j = 0) η s 2j. δ ij,i j : Δείχνει αν είναι ενεργή (1) η ακμή ή όχι (0). Ενεργή αν και μόνο αν και οι δύο έννοιες που συνδέει επιλέγονται (a ij = a i j =1). 46

Ένα ILP μοντέλο για WSD max σ i,j,i,j,i<i rel(s ij, s i j ) δ ij,i j s.t. a ij 0,1, i, j and σ j a ij = 1, i and δ ij,i j 0,1, i, j, i, j and δ ij,i j = δ i j,ij, i, j, i, j and σ j δ ij,i j = a ij, i, j, i Μεγιστοποίησε τη συνολική συνάφεια αθροίζοντας τις συνάφειες εννοιών που συνδέονται με ενεργές ακμές. Αν το s ij επιλέγεται (a ij = 1), τότε πρέπει να υπάρχει ακριβώς μία ενεργή ακμή από το s ij προς τις έννοιες κάθε άλλης λέξης w i. Αν το s ij δεν επιλέγεται (a ij = 0), τότε δεν πρέπει να υπάρχει καμία ενεργή ακμή από το s ij προς έννοια άλλης λέξης w i. 47

Αξιολόγηση μεθόδων WSD In vitr: πόσο καλά τα πάει μια μέθοδος εξεταζόμενη μεμονωμένα (π.χ. ορθότητα, ανάκληση, ακρίβεια). Υπάρχουν σώματα κειμένων (π.χ. SenseEval, SemCr), όπου οι εμφανίσεις λέξεων έχουν σημειωθεί με τις σωστές έννοιες. In viv: πόσο βελτιώνει τα αποτελέσματα ενός μεγαλύτερου συστήματος (π.χ. ανάκτησης πληροφοριών, μετάφρασης) η χρήση μιας συγκεκριμένης μεθόδου WSD. Αμφιλεγόμενα αποτελέσματα στην ανάκτηση πληροφοριών. Baseline: συνήθως επιλέγει πάντα την πιο συχνή έννοια κάθε λέξης (mst frequent sense). Πόσο καλύτερα τα πάει μια μέθοδος από τη baseline; Οι μη επιβλεπόμενες μέθοδοι WSD (που δεν απαιτούν κείμενα εκπαίδευσης με τις σωστές έννοιες) τα πάνε συχνά χειρότερα από την επιλογή της πιο συχνής έννοιας. In vitr, in viv, baseline όχι μόνο σε WSD

Βιβλιογραφία Jurafsky & Martin: κεφάλαια 17, 18, 19, 20. Οι ενότητες 17.2, 17.3.5, 17.5, 18.3.2,18.4 και 18.5 είναι προαιρετικές (εκτός εξεταστέας ύλης). Περισσότερες πληροφορίες για την εξαγωγή συμπερασμάτων με ΠΚΛ (ενότητα 17.3.5 των J&M), για τις περιγραφικές λογικές (ενότητα 17.5 των J&M) και το Σημασιολογικό Ιστό μπορείτε να βρείτε στις διαφάνειες του μαθήματος Τεχνητή Νοημοσύνη (βλ. e-class). Μελετήστε (εντός εξεταστέας ύλης) και τα παραδείγματα γραμματικών DCG για σημασιολογική ανάλυση που υπάρχουν στις ιστοσελίδες του μαθήματος. Η αποσαφήνιση εννοιών λέξεων μέσω ακέραιου γραμμικού προγραμματισμού περιγράφεται στο άρθρο των Β. Παναγιωτοπούλου κ.ά. «Wrd Sense Disambiguatin as an Integer Linear Prgramming Prblem». http://nlp.cs.aueb.gr/pubs/setn2012.pdf 49