ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013
Οι διαφάνειες αυτού του μαθήματος βασίζονται εν μέρει στο κεφάλαιο 6 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 1
Ασάφεια έννοιας λέξεων Οι περισσότερες λέξεις στις φυσικές γλώσσες είναι πολύσημες: Ποντίκι: τρωκτικό, εξάρτημα Η/Υ, μυς Βιβλιοθήκη: έπιπλο, κτήριο Η άρση της ασάφειας γίνεται στο πλαίσιο του περιβάλλοντος (context): Απόδοση της σωστής σημασίας σε μια λέξη (target word) μέσα στο πλαίσιο που αποτελείται από τις περιβάλλουσες λέξεις Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 2
Παραδοσιακή προσέγγιση (1) Εισαγωγή συντακτικών ή/και σημασιολογικών περιορισμών στο πώς συνδυάζονται οι λέξεις Τρώω: το υποκείμενο πρέπει να είναι ζωντανός οργανισμός και το αντικείμενο κάτι φαγώσιμο Κίτρινος: μπορεί να προσδιορίζει φυσικά αντικείμενα αλλά όχι αφηρημένες έννοιες Οι κανόνες αυτοί καλούνται περιορισμοί επιλογής (selectional restrictions) e, x, y Eating e Agent e, x Editable(e, y) Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 3
Παραδοσιακή προσέγγιση (2) Η απόδοση της παραδοσιακής προσέγγισης έχει δοκιμαστεί σε μικρά σώματα κειμένων Ταυτόχρονα, είναι περιοριστική, αφού μας επιτρέπει μόνο να ελέγξουμε αν κάτι είναι επιτρεπτό Και δεν μας βοηθά ιδιαίτερα να βρούμε το επιτρεπτό Η διαθεσιμότητα μεγάλων ηλεκτρονικών λεξικών, όπως το Wordnet έδωσε μεγάλη ώθηση στην ανάπτυξη συστημάτων αποσαφήνισης εννοιών λέξεων Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 4
Wordnet Το λεξικό περιλαμβάνει το πλήρες σύνολο εννοιών για μια λέξη Κάθε έννοια αποδίδεται σαν ένα σύνολο από συνώνυμες λέξεις (synsets) Οι λέξεις είναι ιεραρχημένες σε υπερώνυμα υπώνυμα Διακριτές ιεραρχίες για ουσιαστικά, επίθετα, ρήματα, επιρρήματα Υπάρχουν και άλλες σχέσεις Π.χ. μερώνυμα Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 5
ΑΕΛ μέσω μηχανικής μάθησης Η ΑΕΛ μπορεί να ειδωθεί σαν πρόβλημα ταξινόμησης Κατάταξη των εμφανίσεων κάθε λέξης σε κατηγορίες Έννοιες της λέξης, από τις διαθέσιμες έννοιες ενός λεξικού Ουσιαστικά, χρειαζόμαστε έναν ταξινομητή για κάθε λέξη Το οποίο είναι εφικτό μόνο για μικρά σύνολα λέξεων Χαρακτηριστικά που είναι χρήσιμα: Ποιες λέξεις ή/και ποια μέρη του λόγου εμφανίζονται στα συμφραζόμενα (βάσει παραθύρου), ή/και σε συγκεκριμένες θέσεις στο περιβάλλον Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 6
Η μέθοδος ΑΕΛ του Lesk Βασίζεται στην σύγκριση «υπογραφών» για κάθε έννοια, με την πρόταση που εμφανίζεται μια λέξη Σαν «υπογραφή» μιας έννοιας, θεωρείται το gloss της έννοιας (simplified Lesk) Επίσης, μπορεί να θεωρηθεί το gloss μαζί με άλλες προτάσεις που εμφανίζεται η λέξη με την συγκεκριμένη έννοια (corpus Lesk) Η σύγκριση γίνεται με μέτρα ομοιότητας Όπως το edit distance (μεταξύ πρότασης και υπογραφής), ή το cosine similarity (των διανυσμάτων πρότασης και υπογραφής) Λεπτομέρειες: Μάθημα 7 ο, Ανάκτηση πληροφορίας Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 7
Διανυσματική παράσταση κειμένων Παριστάνουμε τα δύο κείμενα (π.χ. υπογραφή και πρόταση στη μέθοδο Lesk) ως δύο διανύσματα Boolean διανύσματα Δείχνουν ποιες λέξεις ενός λεξιλογίου εμφανίζονται ή όχι σε κάθε κείμενο Διανύσματα συχνοτήτων (term frequency, TF) Δείχνουν πόσες φορές εμφανίζεται κάθε λέξη του λεξιλογίου Διανύσματα TF-IDF Για κάθε λέξη w i του λεξιλογίου, το διάνυσμα περιέχει την τιμή (βάρος) TF i IDF i Θέλουμε οι συχνές στο κείμενο και σπάνιες στη γλώσσα λέξεις να έχουν μεγάλα βάρη Το IDF i δείχνει πόσο σπάνια είναι η w i στη γλώσσα Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 8
Μέτρα σημασιολογικής ομοιότητας (1) Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων τα οποία βασίζονται σε θησαυρούς λέξεων Π.χ. «αγοράζω» «αποκτώ», «πτήση» «αεροπλάνο» Π.χ. εξετάζουν το μήκος του συντομότερου μονοπατιού που ενώνει δύο έννοιες στο Wordnet Πολλές παραλλαγές Επεκτείνονται και σε μέτρα που εξετάζουν την ομοιότητα λέξεων (αντί συγκεκριμένων εννοιών λέξεων), προτάσεων, κειμένων Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 9
Μέτρα σημασιολογικής ομοιότητας (2) Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων που χρησιμοποιούν συχνότητες συνεμφανίσεων Λέξεις με παρόμοια σημασία τείνουν να εμφανίζονται με παρόμοια συμφραζόμενα (distributional hypothesis) Μπορούμε να αναπαραστήσουμε κάθε λέξη με ένα διάνυσμα Που δείχνει πόσο συχνά συνεμφανίζεται η συγκεκριμένη λέξη με κάθε άλλη λέξη ενός λεξιλογίου Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 10
Μέτρα σημασιολογικής ομοιότητας (3) Πρέπει να αποφασίσουμε τι ακριβώς μετρήσεις θα περιλαμβάνει το διάνυσμα κάθε λέξης w Συχνά PMI (pointwise mutual information): P w, w i PMI w, w i = log P w P w i όπου P w, w i η πιθανότητα να εμφανιστούν «μαζί» οι δύο λέξεις «Μαζί»: στην ίδια πρόταση; Σε απόσταση ν λέξεων; Μέτρηση της ομοιότητας των διανυσμάτων Cosine similarity, ευκλείδεια απόσταση, κλπ. Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 11
Χ-τετράγωνο έλεγχος (1) Χ-τετράγωνο έλεγχος του Pearson (1900) Συγκρίνει τους παρατηρηθέντες και αναμενόμενους αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες: X 2 observed expected 2 = expected Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 12
Χ-τετράγωνο έλεγχος (2) Οι παρατηρηθείσες και αναμενόμενες τιμές μπορούν να εξηγηθούν στο πλαίσιο του hypothesis testing Έχοντας τα παρατηρηθέντα δεδομένα που υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες Μπορούμε να διατυπώσουμε μια μηδενική υπόθεση (null hypothesis) Η αναμενόμενη τιμή είναι η τιμή για την κάθε κατηγορία εάν η μηδενική υπόθεση είναι αληθινή Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 13
Χ-τετράγωνο έλεγχος (3) Μηδενική υπόθεση: η κανονική κατανομή Υποθέτουμε ότι η σωστή έννοια κατανέμεται κανονικά σε σχέση με τις υπόλοιπες λέξεις της πρότασης Expected i = 1 2 N[ 2 2 dx b π i X b i όπου N το μέγεθος του X, και X b τα διαστήματα ελέγχου 2 e X bi, 1.6, 1.2, 0.8, 0.4, 0.4, 0.8, 1.2, 1.6, Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 14
Χ-τετράγωνο έλεγχος (4) Π.χ. art 1. Art, fine art 2. Art, artistic creation, artistic production 3. Art, artistry, prowess 4. Artwork, art, graphics, nontextual matter Χρησιμοποιώντας τις σχέσεις του Wordnet, εμπλουτίζω κάθε synset και με άλλες λέξεις Μετρώ συχνότητες εμφάνισης στο περιβάλλον του art Υπολογίζω το X 2, και επιλέγω την έννοια με την μικρότερη τιμή Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 15