«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 3: Μορφολογική Ανάλυση Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014
ΜΟΡΦΟΛΟΓΙΑ Βασικές Γλωσσολογικές Έννοιες «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση
«Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 2 > Οι διαφάνειες αυτής της ενότητας βασίζονται σε διαφάνειες της Βασιλικής Σιμάκη, Πανεπιστήμιο Πατρών, 2012-2013. Βιβλιογραφία: «Μορφολογία» Αγγελική Ράλλη, Εκδόσεις Πατάκη, Αθήνα, 2005 Το βιβλίο δεν απαιτείται για το μάθημα αυτό.
Επεξεργασία Φυσικής Γλώσσας Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών Γλωσσολογικοί κανόνες και αρχές που διέπουν τα επίπεδα ανάλυσης της φυσικής γλώσσας Εισαγωγή σε βασικές γλωσσολογικές έννοιες, ιδιαίτερα σημαντικές στην ΕΦΓ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 3 >
Γλωσσολογία Η επιστημονική μελέτη της ανθρώπινης γλώσσας Μορφή (μορφολογία, φωνολογία, σύνταξη) Νόημα (σημασιολογία, πραγματολογία) Ευρύτερο πλαίσιο (εξελικτική, ιστορική γλωσσολογία, κοινωνιογλωσσολογία, ψυχογλωσσολογία, νευρογλωσσολογία, γλωσσική απόκτηση, ανάλυση λόγου) Αλληλεπίδραση και με άλλες γνωστικές επιστήμες «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 4 >
Γενετική Θεωρία, Noam Chomsky Ανθρώπινη (φυσική) γλώσσα: σημαντικότερο γνωσιακό σύστημα του ανθρώπου Οι ομιλητές μιας φυσικής γλώσσας κατέχουν ένα σύνολο γνώσεων που αποτελεί το γλωσσικό τους σύστημα, έτσι όπως εκφράζεται και αναπαρίσταται από τη γραμματική Γραμματική: σύνολο αρχών και κανόνων που καθορίζει αν μια πρόταση είναι γραμματική ή όχι Colorless green ideas sleep furiously «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 5 >
Γλωσσολογική Ανάλυση Πολυεπίπεδη (μορφή, νόημα, ευρύτερο πλαίσιο) Γλωσσική Ιεραρχία: Φωνήματα Μορφήματα* Λέξεις»Φράσεις Προτάσεις «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 6 >
Μορφολογία Στον πυρήνα της γλωσσολ. έρευνας Μελετά τη δομή των λέξεων, τα επιμέρους συστατικά τους, και τις σχέσεις αυτών των συστατικών Προτείνει αρχές και κανόνες ανάλυση και δημιουργία των λέξεων *μόρφημα: η ελάχιστη μονάδα που συνδυάζει μορφή και σημασία, π.χ. αντι-μιλ-ώ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 7 >
Λέξεις: Μορφολογικές κατηγορίες Ι Φέρουν έναν τόνο Έχουν ολοκληρωμένη σημασία Ανεπηρέαστη η εσωτερική τους δομή από τη σύνταξη Μεσολαβούν παύσεις μεταξύ τους στο γραπτό λόγο Δυσκολίες στην αναγνώριση και τα όρια των λέξεων χαλαρά σύνθετα : ψυχρός πόλεμος «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 8
Μορφολογικές κατηγορίες ΙΙ Μορφήματα: Ελάχιστα συστατικά των λέξεων Ελεύθερα χωρίς, με, και, σήμερα κτλ. Δεσμευμένα Θέματα* (stems) ομορφ-, τρεχ-, ανθρωπ- κτλ. Προσφύματα(affixes) Προθήματα» δυσ- τυχος, ξε- φευγω Επιθήματα» παιδ- ακι, τρεχ- ω «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 9 >
Θέμα / Ρίζα Θέμα (stem): βάση για τη δημιουργία των λέξεων, ευθύνη για σημασία Ρίζα (root): μόνο ετυμολογική και ιστορική αξία (Ralli, 1988) Δυσδιάκριτα τα όρια των δύο στοιχείων Θέμα: βάση για δημιουργία λέξεων, ταύτιση με ρίζα σε πολλές πρισπτώσεις «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 10 >
Διαδικασίες σχηματισμού λέξεων Ι Κλίση: Διαδικασία σχηματισμού διαφορετικών μορφών μιας λέξης, συνδυασμός συγκεκριμένου θέματος και κλιτικών προσφυμάτων Παίζω έ παιζ α γιατρός γιατρ- ού Παραγωγή Διαδικασία σχηματισμού νέων λέξεων, συνδυασμός θέματος και παραγωγικού προσφύματος όργαν(ο) οργαν-ώνω, οργανω-τής, οργανω-τικ(ός), οργανωτικ-ά «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 11 >
Διαδικασίες σχηματισμού λέξεων ΙΙ Σύνθεση Διαδικασία που δημιουργεί μορφολογικά πολύπλοκα στοιχεία από τουλάχιστον δύο θέματα ντομάτα+σαλάτα ντοματοσαλάτα αλάτι+πιπέρι αλατοπίπερο δεύτερος+λεπτό δευτερόλεπτο σφιχτά+αγκαλιάζω σφιχταγκαλιάζω «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 12 >
Η Μορφολογία στην ΕΦΓ Ι Ανάλυση της ενσωματωμένης γραμματικής πληροφορίας λεξικών μορφών αυτή: γ πρόσωπο, ενικός αριθμός, αρσενικό γένος τραγούδησα: α πρόσωπο, ενικός αριθμός, αόριστος χρόνος Parsing σύνθετων λεξικών μορφών στα επιμέρους συστατικά τους Αντιπολεμικός: αντι+πολεμ+ικ+ος «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 13 >
Η Μορφολογία στην ΕΦΓ ΙΙ Αnaphora resolution: Ο Κώστας συνάντησε τους φίλους του στο δρόμο και τους είπε τι του συνέβη. Αναγνώριση μερών του λόγου (Parts of Speech) Noun: ονόματα, ουσιαστικά Verb: ρηματικοί τύποι Adjective: επίθετα Η ίδια κλάση ελέγχεται με το τεστ της αντικατάστασης: το καλό/κακό/χαζό καρίτσι/αγόρι/παιδί/ζώο έτρεχε/έπαιζε/χτύπησε «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 14 >
Άλλα μέρη του λόγου Σχεση με ονόματα: pronouns και determiners* Εκείνος, μας, εγώ, αυτών, ο, το, ένας *στη ΝΕ ταυτίζεται με το άρθρο Adverbs, prepositions και particles συχνά, καλώς, μετά, έτσι, για, με, σε, θα, μα Conjunctions Και, αλλά, ή, είτε-είτε «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 15 >
ΜΟΡΦΟΛΟΓΙΚΗ ΑΝΑΛΥΣΗ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση
«Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 17 > Οι διαφάνειες αυτής της ενότητας βασίζονται στα κεφάλαια 2 και 3 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό.
Αυτόματα πεπερασμένων καταστάσεων Finite State Automata (FSA) Αναπαριστάνεται σαν γράφος ενός συνόλου καταστάσεων κατευθυνόμενων μεταβάσεων που αντιστοιχούν σε σύμβολα ενός αλφαβήτου Μια κατάσταση ορίζεται σαν αρχική Μερικές καταστάσεις ορίζονται σαν τελικές baa+! «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 18
Αναγνώριση με FSA (1) Είσοδος: μια «ταινία» με «κελιά». Κάθε κελί περιέχει ένα σύμβολο από την είσοδο Η μηχανή ξεκινά από την αρχική κατάσταση: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 19
Αναγνώριση με FSA (2) Σε κάθε κατάσταση, ελέγχεται ο επόμενος χαρακτήρας εισόδου Αν υπάρχει μετάβαση για αυτόν τον χαρακτήρα, γίνεται η μετάβαση και η είσοδος μετακινείται 1 κελί Αν δεν υπάρχει μετάβαση, η είσοδος δεν είναι αποδεκτή Αν τελειώσουν τα κελιά εισόδου: Αν η τρέχουσα κατάσταση είναι τελική, η είσοδος είναι αποδεκτή «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 20
Μορφολογία (1) Εφαρμόζεται σε επίπεδο λέξης Εξετάζει τη μορφή των λέξεων Επηρεάζει/εται (από) τη φωνολογία Είναι το επίπεδο ανάλυσης που συσχετίζει: Αλεπού, αλεπούδες, αλεπουδάκι Είμαι, ήμουν Έρχομαι, ήρθα «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 21
Δύο ειδών κανόνες: Ορθογραφικοί κανόνες Μορφολογία (2) Ο πληθυντικός αγγλικών λέξεων σε y σχηματίζεται με την μετατροπή του y σε i, και την προσθήκη es Μορφολογικοί κανόνες Μας λένε ότι οι λέξεις fish, deer, beer δεν έχουν πληθυντικό Ο πληθυντικός την λέξης goose γίνεται με αλλαγή του φωνήεντος (geese) «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 22
Μορφολογική ανάλυση Το πρόβλημα της: αναγνώρισης ότι μια λέξη (όπως αλεπούδες) αποσυντίθεται σε μορφήματα (αλεπ + ούδες), και η δημιουργία μιας δομημένης αναπαράστασης για αυτό το γεγονός, ονομάζεται μορφολογική ανάλυση (morphological parsing) Parsing: η διαδικασία της παραγωγής κάποιας μορφής γλωσσικής πληροφορίας για κάποια είσοδο «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 23
Υπολογιστική μορφολογία Η αυτόματη (μέσω μηχανής) αντιστοίχηση μιας λέξης με τις μορφολογικές πληροφορίες που την χαρακτηρίζουν Μορφολογική ανάλυση (parsing) Αλεπούδες: αλεπού + ονομαστική + πληθυντικός Μορφολογική παραγωγή (generation) Αλεπού + ονομαστική + πληθυντικός: αλεπούδες «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 24
Αλγόριθμοι και εργασίες Μορφολογική ανάλυση Finite state transducers Μορφολογικά λεξικά (ηλεκτρονικά) Μορφολογική παραγωγή Μορφολογικά λεξικά (ηλεκτρονικά) Συστήματα κανόνων Συχνές εργασίες Εύρεση θέματος (stemming) Λημματοποίηση: εύρεση λήμματος (lemmatization) Αναγνώριση μερών του λόγου (POS tagging) Αναγνώριση λέξεων/προτάσεων «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 25
Στόχος: Μορφολογική ανάλυση Μορφολογική πληροφορία για την είσοδο Είσοδος Έξοδος αλεπούδες άνθρωποι αλεπού +N +Pl άνθρωπος +N +Pl cats cat +N +Pl γάτες geese goose +N +Pl χήνες gooses goose +V +1P +Sg canto cantar +V +PInd +1P +Sg τραγουδώ canto canto +N +Masc +Sg τραγούδι «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 26 >
Μορφολογικός αναλυτής Για την κατασκευή ενός μορφολογικού αναλυτή χρειαζόμαστε: Λεξικό: λίστα από θέματα και προσφύματα, μαζί με βασική πληροφορία για αυτά (π.χ. μέρος του λόγου) Μορφοτακτικοί κανόνες (morphotactics): το μοντέλο της οργάνωσης των μορφημάτων ποιοι τύποι μορφημάτων μπορούν να ακολουθούν άλλα μορφήματα μέσα σε μια λέξη Ορθογραφικοί κανόνες: περιγράφουν τις αλλαγές που συμβαίνουν όταν συνδυάζονται μορφήματα city + s cities (και όχι citys) «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 27
Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών: Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 28
Χρήση λεξικού Το λεξικό απαριθμεί όλες τις λέξεις και τις πληροφορίες που την χαρακτηρίζουν Δεν υπάρχουν κανόνες? Εύκολη ανάλυση/παραγωγή Μεγάλο μέγεθος (αγγλικά) Ελληνικά, Γαλλικά; Αραβικά, Τούρκικα; Κινέζικα; acclaim acclaim $N$ acclaim acclaim $V+0$ acclaimed acclaim $V+ed$ acclaimed acclaim $V+en$ acclaiming acclaim $V+ing$ acclaims acclaim $N+s$ acclaims acclaim $V+s$ acclamation acclamation $N$ acclamations acclamation $N+s$ acclimate acclimate $V+0$ acclimated acclimate $V+ed$ acclimated acclimate $V+en$ acclimates acclimate $V+s$ acclimating acclimate $V+ing$ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 29
Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών: Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 30
Λεξικό + κανόνες (1) Λεξικό: reg-noun irreg-pl-noun irreg-sg-noun plural fox geese goose -s cat sheep sheep dog mice mouse Κανόνες: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 31
Λεξικό + κανόνες (2) reg-verb-stem irreg-verb-stem irreg-past-verb past past-part pres-part 3sg walk fry talk impeach cut speak spoken sing caught ate eaten -ed -ed -ing -s sang «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 32
Μορφολογικός αναγνωριστής Μια συμβολοσειρά από χαρακτήρες, είναι έγκυρη λέξη; Ενσωμάτωση των «υπο-λεξικών» στο FSA των κανόνων: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 33
Μορφολογική ανάλυση Αυτόματα πεπερασμένων καταστάσεων (FSA) Αναγνώριση Μορφολογία ενός επιπέδου Finite state transducers (FST) Μορφολογία δύο επιπέδων Παράγουν έξοδο, ανάλογα με την είσοδο «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 34
Μορφολογία δύο επιπέδων Επιφανειακή (surface) μορφή: λέξη όπως απαντάται στο κείμενο Λεξιλογική (lexical) μορφή: η ακολουθία των μορφολογικών χαρακτηριστικών Μορφολογία δύο επιπέδων: αντιστοίχιση μεταξύ επιφανειακού/λεξιλογικού επιπέδου Λεξιλογικό επίπεδο Επιφανειακό επίπεδο «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 35
FST: λεξικό και κανόνες Όπως και στην περίπτωση των FSA, τόσο το λεξικό όσο και οι μορφοτακτικοί κανόνες μπορούν να αναπαρασταθούν από FSTs Και φυσικά να συνδυαστούν (σειριακά) σε ένα FST: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 36
Ορθογραφικοί κανόνες (1) Οι μέθοδοι που περιγράφηκαν αναγνωρίζουν λέξεις όπως «fox» και «goose» Όμως η απλή συνένωση μορφημάτων δεν λειτουργεί όταν απαιτούνται ορθογραφικές προσθήκες foxs: αποδεκτό, foxes: απορριπτέο 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 37
Ορθογραφικοί κανόνες (2) Name Rule Description Example Consonant Doubling 1-letter consonant doubled before -ing/-ed beg/begging E-deletion Silent e dropped before -ing and -ed make/making E-insertion e added after s,z,x,ch,sh before s watch/watches Y-replacement -y changes to -ie before -s, -i before -ed try/tries K-insertion verbs ending with vowel + -c add -k panic/panicked Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 38
Ορθογραφικοί κανόνες (3) Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης Λεξιλογικό επίπεδο Ενδιάμεσο επίπεδο Επιφανειακό επίπεδο 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 39
Ορθογραφικοί κανόνες (4) «Εισαγωγή ενός e στην ταινία επιφανειακού επιπέδου, όταν η ταινία του λεξιλογικού επιπέδου έχει ένα μόρφημα που τελειώνει σε x (ή z) και το επόμενο μόρφημα είναι το -s» Chomsky and Halle (1968) notation: 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 40
Ορθογραφικοί κανόνες (5) Αναπαράσταση του ορθογραφικού κανόνα σαν FST: 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 41
Ορθογραφικοί κανόνες (6) Πίνακας μεταβάσεων: 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 42
Συνδυάζοντας λεξικό και κανόνες (1) Το FST λεξικού αντιστοιχίζει το λεξιλογικό επίπεδο στο ενδιάμεσο επίπεδο, που αναπαριστά απλές συνενώσεις μορφημάτων Ένα σύνολο από FST κανόνων τρέχουν παράλληλα/σειριακά αντιστοιχίζοντας το ενδιάμεσο στο επιφανειακό επίπεδο Ο FST λεξικού και οι FST των ορθογραφικών κανόνων σχηματίζουν μια αλληλουχία (cascade) 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 43
Συνδυάζοντας λεξικό και κανόνες (2) 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 44
Συνδυάζοντας λεξικό και κανόνες (3) Λεξιλογικό επίπεδο T lex Ενδιάμεσο επίπεδο T e insert Επιφανειακό επίπεδο 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 45
FSTs και ασάφεια Η ανάλυση είναι δυσκολότερη της παραγωγής Λόγω ασάφειας: π.χ. foxes fox +V +3Sg fox +N +PL Η αποσαφήνιση δεν μπορεί να γίνει χωρίς τα συμφραζόμενα Ο FST πρέπει να δημιουργήσει και τις δύο αναλύσεις Ασάφεια μπορεί να προκληθεί και εξαιτίας πολλαπλών πιθανών μονοπατιών, ή λόγω μεταβάσεων ε 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 46
Αναγνώριση θέματος Stemming: η εύρεση της ρίζας/θέματος μιας λέξης Συνήθως δεν χρησιμοποιείται λεξικό Χρησιμοποιείται σε εφαρμογές ανάκτησης πληροφορίας και ταξινόμησης κειμένων Η βελτίωση που επιφέρει στην ανάκτηση πληροφορίας δεν είναι πάντα αξιόλογη Χρησιμοποιείται στην μείωση διαστατικότητας, όταν εφαρμόζεται μηχανική μάθηση 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 47
Porter stemmer (1980) http://www.tartarus.org/~martin/porterstemmer/ Ευρέως διαδεδομένος stemmer (Αγγλικά) Βασίζεται σε ένα σύνολο κανόνων, που εφαρμόζονται σειριακά ATIONAL ATE (relational relate) ING ε if stem contains vowel (motoring motor) Παραδείγματα λαθών: organization organ, doing doe Παραδείγματα παραλείψεων: matrices matrix, explain explanation 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 48
Αναγνώριση μερών του λόγου Πρόβλημα: Απόδοση μιας ετικέτας σε κάθε λέξη του κειμένου Ανάλογα με το μέρος του λόγου της λέξης Διάφοροι υπάρχοντες αλγόριθμοι Μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (TBED) Υψηλή απόδοση στην Αγγλική γλώσσα Εξέταση εφαρμοσιμότητας μεθόδου TBED για την Ελληνική γλώσσα 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 49
23:55 Η τεχνική TBED Μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (Brill, 1992) Μαθαίνει κανόνες μετασχηματισμού Κανόνας αρχικοποίησης: αποδίδει αρχική ετικέτα σε κάθε λέξη Λεκτικοί κανόνες: μετασχηματίζουν ετικέτες ανάλογα με την μορφολογία της λέξης IF (word ends in ed ) THEN classify word as a verb-past tense Κανόνες συμφραζομένων: μετασχηματίζουν ετικέτες ανάλογα με τις ετικέτες γειτονικών λέξεων IF (word tagged as verb AND previous word tagged as determiner) THEN tag word as noun «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 50
Διεθνής βιβλιογραφία Ορθότητα για την Αγγλική γλώσσα: Από 94 % έως 98 % Ορθότητα για την Ελληνική γλώσσα: (Δερματάς και Κοκκινάκης, 1995): 95 % Κρυφά μοντέλα Markov, εκπαίδευση: 110.000 λέξεις (Ορφανός και Χριστοδουλάκης, 1999): 93-95% αποσαφήνιση, 82-88 % κατηγοριοποίηση Δέντρα αποφάσεων και μορφολογικό λεξικό (Παπαγεωργίου et. al., 2000): 90-96 % TBED, FTB (TBED + λεξικό), εκπαίδευση: 356.000 λέξεις (Μαλακασιώτης, 2005): 80 % Ενεργητική μάθηση (knn), εκπαίδευση: 15.300 λέξεις 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 51
Έλλογον POS Tagger (1) Ένα σύνολο ετικετών: Ισορροπεί ανάμεσα στην παρεχόμενη πληροφορία και το μέγεθος του σώματος εκπαίδευσης Επεκτείνει το Penn Treebank Γένος σε ουσιαστικά, επίθετα, κύρια ονόματα, αριθμός σε επίθετα, μελλοντικός χρόνος σε ρήματα 58 ετικέτες (από 36) - Συγκριτικά: PAROLE: 584 ετικέτες Ο πρώτος ελεύθερα διαθέσιμος αναγνωριστής μερών του λόγου 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 52
Έλλογον POS Tagger (2) Η απόδοση της μεθόδου TBED πλησιάζει το 95 % για τα Ελληνικά Εκπαιδευόμενο σε σώμα κειμένων 18.000 λέξεων Ανεξάρτητα από την θεματική περιοχή Ο συνδυασμός της μεθόδου TBED με μορφολογικό λεξικό πλησιάζει το 98 % Η απόδοση του συνδυασμού είναι η υψηλότερη που έχει ανακοινωθεί για τα Ελληνικά 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 53