ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 3 ο : Μορφολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σχετικά έγγραφα
«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΜΟΡΦΟΛΟΓΙΑ - ΚΑΝΟΝΙΚΕΣ ΕΚΦΡΑΣΕΙΣ - ΑΥΤΟΜΑΤΑ ΠΕΠΕΡΑΣΜΕΝΩΝ ΚΑΤ/ΣΕΩΝ - MΕΤΑΤΡΟΠΕΙΣ ΠΕΠΕΡΑΣΜΕΝΩΝ ΚΑΤ/ΣΕΩΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία. Βασιλική Σιμάκη

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πεπερασμένα Αυτόματα. ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Μεταγλωττιστές. Ενότητα 4: Τυπικές γλώσσες (Μέρος 3 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Περιεχόμενα Ορισμός και λειτουργία των μηχανών Turing Θεωρία Υπολογισμού Ενότητα 20: Μηχανές Turing: Σύνθεση και Υπολογισμοί Επ. Καθ. Π. Κατσαρός Τμήμ

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 1 : Σύνολα & Σχέσεις (1/2) Αλέξανδρος Τζάλλας

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Α Διαγώνισμα 1 ου Τριμήνου στο μάθημα της Πληροφορικής Γ Γυμνασίου Ονοματεπώνυμο:...

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΜΑΘΗΜΑ: Μεταγλωττιστές

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών 6

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Cretive Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 8 : Αυτόματα NFA - DFA. Αλέξανδρος Τζάλλας

Θέματα Προγραμματισμού Η/Υ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Εισαγωγή στην Επιστήμη των Υπολογιστών

Θεωρία Υπολογισμού. Ενότητα 5 : Λογικά Επιχειρήματα, Αλφάβητα & Γλώσσες (2/2) Αλέξανδρος Τζάλλας

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Θεωρία Υπολογισμού Αλφάβητα, Γλώσσες, Κανονικές Εκφράσεις

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Θέματα υπολογισμού στον πολιτισμό

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών. Προδιαγραφές

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Επικοινωνία Ανθρώπου Υπολογιστή

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 11 : Γραμματικές χωρίς συμφραζόμενα. Αλέξανδρος Τζάλλας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 6 ο : Ανάλυση πραγματείας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

HEAD INPUT. q0 q1 CONTROL UNIT

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Επανάληψη Μαθήματος

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 9: Αυτόματα Στοίβας (Pushdown Automata - PDA)

PROJECT ΣΤΟ ΜΑΘΗΜΑ "ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ"

Κανονικές Γλώσσες. ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Προγραμματισμός Η/Υ. Αλγόριθμοι. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Θέματα υπολογισμού στον πολιτισμό

Θεωρία Υπολογισμού και Πολυπλοκότητα

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

Η δυαδική σχέση M ( «παράγει σε ένα βήμα» ) ορίζεται ως εξής: (q, w) M (q, w ), αν και μόνο αν w = σw, για κάποιο σ Σ

Μεταγλωττιστές. Ενότητα 2: Τυπικές γλώσσες (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

CSC 314: Switching Theory

Η-Υ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ. Εργαστήριο 1 Εισαγωγή στη C. Σοφία Μπαλτζή s.mpaltzi@di.uoa.gr

Μεταγλωττιστές. Ενότητα 5: Λεκτική ανάλυση (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3)

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 9 ο : Σύνολα χαρακτήρων και UNICODE. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (1)

Μοντελοποίηση υπολογισμού. Θέματα Υπολογισμού στον Πολιτισμό Πεπερασμένα αυτόματα

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ (2 Ο ΜΑΘΗΜΑ)

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

Εισαγωγή στην Επιστήμη των Υπολογιστών

Πληροφορική ΙΙ Ενότητα 1

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Οδηγίες για την ανάπτυξη προσβάσιμου εκπαιδευτικού υλικού για πολύγλωσσα κείμενα με χρήση MS-Office 2013

Εισαγωγή στους Υπολογιστές

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

EBSCOhost Research Databases

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Τμήμα Μηχανικών Πληροφορικής & Υπολογιστών

Περιεχόμενα Συμβολοσειρές Γλώσσες ΘΥ 6: Συμβολοσειρές & γλώσσες Επ. Καθ. Π. Κατσαρός 24/07/2014 Επ. Καθ. Π. Κατσαρός ΘΥ 6: Συμβολοσειρές & γλώσσες

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Ασκήσεις από παλιές εξετάσεις

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 3 : Γραφήματα & Αποδείξεις. Αλέξανδρος Τζάλλας

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

Δομές Δεδομένων & Αλγόριθμοι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

Διδακτική Πληροφορικής

Mεταγλωττιστές. 4 ο εργαστηριακό μάθημα Λεξική ανάλυση και flex. Θεωρία

Transcript:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 3 ο : Μορφολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013

Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 1 Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 2 και 3 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό.

Αυτόματα πεπερασμένων καταστάσεων Finite State Automata (FSA) Αναπαριστάνεται σαν γράφος ενός συνόλου καταστάσεων κατευθυνόμενων μεταβάσεων που αντιστοιχούν σε σύμβολα ενός αλφαβήτου Μια κατάσταση ορίζεται σαν αρχική Μερικές καταστάσεις ορίζονται σαν τελικές baa+! Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 2

Αναγνώριση με FSA (1) Είσοδος: μια «ταινία» με «κελιά». Κάθε κελί περιέχει ένα σύμβολο από την είσοδο Η μηχανή ξεκινά από την αρχική κατάσταση: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 3

Αναγνώριση με FSA (2) Σε κάθε κατάσταση, ελέγχεται ο επόμενος χαρακτήρας εισόδου Αν υπάρχει μετάβαση για αυτόν τον χαρακτήρα, γίνεται η μετάβαση και η είσοδος μετακινείται 1 κελί Αν δεν υπάρχει μετάβαση, η είσοδος δεν είναι αποδεκτή Αν τελειώσουν τα κελιά εισόδου: Αν η τρέχουσα κατάσταση είναι τελική, η είσοδος είναι αποδεκτή Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 4

Μορφολογία (1) Εφαρμόζεται σε επίπεδο λέξης Εξετάζει τη μορφή των λέξεων Επηρεάζει/εται (από) τη φωνολογία Είναι το επίπεδο ανάλυσης που συσχετίζει: Αλεπού, αλεπούδες, αλεπουδάκι Είμαι, ήμουν Έρχομαι, ήρθα Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 5

Δύο ειδών κανόνες: Μορφολογία (2) Ορθογραφικοί κανόνες Ο πληθυντικός αγγλικών λέξεων σε y σχηματίζεται με την μετατροπή του y σε i, και την προσθήκη es Μορφολογικοί κανόνες Μας λένε ότι οι λέξεις fish, deer, beer δεν έχουν πληθυντικό Ο πληθυντικός την λέξης goose γίνεται με αλλαγή του φωνήεντος (geese) Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 6

Μορφολογική ανάλυση Το πρόβλημα της: αναγνώρισης ότι μια λέξη (όπως αλεπούδες) αποσυντίθεται σε μορφήματα (αλεπ + ούδες), και η δημιουργία μιας δομημένης αναπαράστασης για αυτό το γεγονός, ονομάζεται μορφολογική ανάλυση (morphological parsing) Parsing: η διαδικασία της παραγωγής κάποιας μορφής γλωσσικής πληροφορίας για κάποια είσοδο Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 7

Υπολογιστική μορφολογία Η αυτόματη (μέσω μηχανής) αντιστοίχηση μιας λέξης με τις μορφολογικές πληροφορίες που την χαρακτηρίζουν Μορφολογική ανάλυση (parsing) Αλεπούδες: αλεπού + ονομαστική + πληθυντικός Μορφολογική παραγωγή (generation) Αλεπού + ονομαστική + πληθυντικός: αλεπούδες Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 8

Αλγόριθμοι και εργασίες Μορφολογική ανάλυση Finite state transducers Μορφολογικά λεξικά (ηλεκτρονικά) Μορφολογική παραγωγή Μορφολογικά λεξικά (ηλεκτρονικά) Συστήματα κανόνων Συχνές εργασίες Εύρεση θέματος (stemming) Λημματοποίηση: εύρεση λήμματος (lemmatization) Αναγνώριση μερών του λόγου (POS tagging) Αναγνώριση λέξεων/προτάσεων Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 9

Στόχος: Μορφολογική ανάλυση Μορφολογική πληροφορία για την είσοδο Είσοδος Έξοδος αλεπούδες άνθρωποι αλεπού +N +Pl άνθρωπος +N +Pl cats cat +N +Pl γάτες geese goose +N +Pl χήνες gooses goose +V +1P +Sg canto cantar +V +PInd +1P +Sg τραγουδώ canto canto +N +Masc +Sg τραγούδι Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία < 10 >

Μορφολογικός αναλυτής Για την κατασκευή ενός μορφολογικού αναλυτή χρειαζόμαστε: Λεξικό: λίστα από θέματα και προσφύματα, μαζί με βασική πληροφορία για αυτά (π.χ. μέρος του λόγου) Μορφοτακτικοί κανόνες (morphotactics): το μοντέλο της οργάνωσης των μορφημάτων ποιοι τύποι μορφημάτων μπορούν να ακολουθούν άλλα μορφήματα μέσα σε μια λέξη Ορθογραφικοί κανόνες: περιγράφουν τις αλλαγές που συμβαίνουν όταν συνδυάζονται μορφήματα city + s cities (και όχι citys) Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 11

Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών: Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 12

Χρήση λεξικού Το λεξικό απαριθμεί όλες τις λέξεις και τις πληροφορίες που την χαρακτηρίζουν Δεν υπάρχουν κανόνες? Εύκολη ανάλυση/παραγωγή Μεγάλο μέγεθος (αγγλικά) Ελληνικά, Γαλλικά; Αραβικά, Τούρκικα; Κινέζικα; acclaim acclaim $N$ acclaim acclaim $V+0$ acclaimed acclaim $V+ed$ acclaimed acclaim $V+en$ acclaiming acclaim $V+ing$ acclaims acclaim $N+s$ acclaims acclaim $V+s$ acclamation acclamation $N$ acclamations acclamation $N+s$ acclimate acclimate $V+0$ acclimated acclimate $V+ed$ acclimated acclimate $V+en$ acclimates acclimate $V+s$ acclimating acclimate $V+ing$ Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 13

Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών: Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 14

Λεξικό + κανόνες (1) Λεξικό: reg-noun irreg-pl-noun irreg-sg-noun plural fox geese goose -s cat sheep sheep dog mice mouse Κανόνες: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 15

Λεξικό + κανόνες (2) reg-verb-stem irreg-verb-stem irreg-past-verb past past-part pres-part 3sg walk fry talk impeach cut speak spoken sing caught ate eaten -ed -ed -ing -s sang Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 16

Μορφολογικός αναγνωριστής Μια συμβολοσειρά από χαρακτήρες, είναι έγκυρη λέξη; Ενσωμάτωση των «υπο-λεξικών» στο FSA των κανόνων: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 17

Μορφολογική ανάλυση Αυτόματα πεπερασμένων καταστάσεων (FSA) Αναγνώριση Μορφολογία ενός επιπέδου Finite state transducers (FST) Μορφολογία δύο επιπέδων Παράγουν έξοδο, ανάλογα με την είσοδο Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 18

Μορφολογία δύο επιπέδων Επιφανειακή (surface) μορφή: λέξη όπως απαντάται στο κείμενο Λεξιλογική (lexical) μορφή: η ακολουθία των μορφολογικών χαρακτηριστικών Μορφολογία δύο επιπέδων: αντιστοίχιση μεταξύ επιφανειακού/λεξιλογικού επιπέδου Λεξιλογικό επίπεδο Επιφανειακό επίπεδο Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 19

FST: λεξικό και κανόνες Όπως και στην περίπτωση των FSA, τόσο το λεξικό όσο και οι μορφοτακτικοί κανόνες μπορούν να αναπαρασταθούν από FSTs Και φυσικά να συνδυαστούν (σειριακά) σε ένα FST: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 20

Ορθογραφικοί κανόνες (1) Οι μέθοδοι που περιγράφηκαν αναγνωρίζουν λέξεις όπως «fox» και «goose» Όμως η απλή συνένωση μορφημάτων δεν λειτουργεί όταν απαιτούνται ορθογραφικές προσθήκες foxs: αποδεκτό, foxes: απορριπτέο Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 21

Ορθογραφικοί κανόνες (2) Name Rule Description Example Consonant Doubling 1-letter consonant doubled before -ing/-ed beg/begging E-deletion Silent e dropped before -ing and -ed make/making E-insertion e added after s,z,x,ch,sh before s watch/watches Y-replacement -y changes to -ie before -s, -i before -ed try/tries K-insertion verbs ending with vowel + -c add -k panic/panicked Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 22

Ορθογραφικοί κανόνες (3) Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης Λεξιλογικό επίπεδο Ενδιάμεσο επίπεδο Επιφανειακό επίπεδο Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 23

Ορθογραφικοί κανόνες (4) «Εισαγωγή ενός e στην ταινία επιφανειακού επιπέδου, όταν η ταινία του λεξιλογικού επιπέδου έχει ένα μόρφημα που τελειώνει σε x (ή z) και το επόμενο μόρφημα είναι το -s» Chomsky and Halle (1968) notation: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 24

Ορθογραφικοί κανόνες (5) Αναπαράσταση του ορθογραφικού κανόνα σαν FST: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 25

Ορθογραφικοί κανόνες (6) Πίνακας μεταβάσεων: Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 26

Συνδυάζοντας λεξικό και κανόνες (1) Το FST λεξικού αντιστοιχίζει το λεξιλογικό επίπεδο στο ενδιάμεσο επίπεδο, που αναπαριστά απλές συνενώσεις μορφημάτων Ένα σύνολο από FST κανόνων τρέχουν παράλληλα/σειριακά αντιστοιχίζοντας το ενδιάμεσο στο επιφανειακό επίπεδο Ο FST λεξικού και οι FST των ορθογραφικών κανόνων σχηματίζουν μια αλληλουχία (cascade) Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 27

Συνδυάζοντας λεξικό και κανόνες (2) Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 28

Συνδυάζοντας λεξικό και κανόνες (3) Λεξιλογικό επίπεδο T lex Ενδιάμεσο επίπεδο T e insert Επιφανειακό επίπεδο Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 29

FSTs και ασάφεια Η ανάλυση είναι δυσκολότερη της παραγωγής Λόγω ασάφειας: π.χ. foxes fox +V +3Sg fox +N +PL Η αποσαφήνιση δεν μπορεί να γίνει χωρίς τα συμφραζόμενα Ο FST πρέπει να δημιουργήσει και τις δύο αναλύσεις Ασάφεια μπορεί να προκληθεί και εξαιτίας πολλαπλών πιθανών μονοπατιών, ή λόγω μεταβάσεων ε Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 30

Αναγνώριση θέματος Stemming: η εύρεση της ρίζας/θέματος μιας λέξης Συνήθως δεν χρησιμοποιείται λεξικό Χρησιμοποιείται σε εφαρμογές ανάκτησης πληροφορίας και ταξινόμησης κειμένων Η βελτίωση που επιφέρει στην ανάκτηση πληροφορίας δεν είναι πάντα αξιόλογη Χρησιμοποιείται στην μείωση διαστατικότητας, όταν εφαρμόζεται μηχανική μάθηση Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 31

Porter stemmer (1980) http://www.tartarus.org/~martin/porterstemmer/ Ευρέως διαδεδομένος stemmer (Αγγλικά) Βασίζεται σε ένα σύνολο κανόνων, που εφαρμόζονται σειριακά ATIONAL ATE (relational relate) ING ε if stem contains vowel (motoring motor) Παραδείγματα λαθών: organization organ, doing doe Παραδείγματα παραλείψεων: matrices matrix, explain explanation Γλωσσική Τεχνολογία, Μάθημα 3 ο, Μορφολογία 32