«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα



Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 3 ο : Μορφολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία. Βασιλική Σιμάκη

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΜΟΡΦΟΛΟΓΙΑ - ΚΑΝΟΝΙΚΕΣ ΕΚΦΡΑΣΕΙΣ - ΑΥΤΟΜΑΤΑ ΠΕΠΕΡΑΣΜΕΝΩΝ ΚΑΤ/ΣΕΩΝ - MΕΤΑΤΡΟΠΕΙΣ ΠΕΠΕΡΑΣΜΕΝΩΝ ΚΑΤ/ΣΕΩΝ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Γραμματική της Νέας Ελληνικής

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ψυχογλωσσολογία. Ενότητα 1 : Εισαγωγή στη Ψυχογλωσσολογία. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

ΑΡΧΕΣ ΟΡΘΟΓΡΑΦΙΑΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ. E-learning. Οδηγός Σπουδών

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Διαφοροποίηση στα φύλλα εργασίας

ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΓΛΩΣΣΙΚΟΥ ΜΑΘΗΜΑΤΟΣ

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (1)

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

Διδακτική Γλωσσικών Μαθημάτων (ΚΠΒ307)

Αναπτυξιακά ορόσημα λόγου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 1 : Σύνολα & Σχέσεις (1/2) Αλέξανδρος Τζάλλας

Ανάπτυξη γλωσσικών δεξιοτήτων στο νηπιαγωγείο: Διδακτικές προσεγγίσεις του προφορικού λόγου ΠΕΡΙΓΡΑΜΜΑ ΕΙΣΗΓΗΣΕΩΝ

Φυλλάδιο Εργασίας 1. Ενδεικτικές Απαντήσεις. Αξιολόγηση Διδακτικών Δραστηριοτήτων από τα διδακτικά εγχειρίδια

Διάταξη Θεματικής Ενότητας ΕΛΠ48 / Ελληνική Γλώσσα και Γλωσσολογία

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

Εισαγωγή στη Γνωστική Ψυχολογία. επ. Κωνσταντίνος Π. Χρήστου

Πεπερασμένα Αυτόματα. ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Περιεχόμενα Πρόλογος 1. Εισαγωγή 2. Τα Βασικά Μέρη ενός Προγράμματος Prolog

Περιεχόμενα Ορισμός και λειτουργία των μηχανών Turing Θεωρία Υπολογισμού Ενότητα 20: Μηχανές Turing: Σύνθεση και Υπολογισμοί Επ. Καθ. Π. Κατσαρός Τμήμ

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 8 : Αυτόματα NFA - DFA. Αλέξανδρος Τζάλλας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ. Πολυδύναµο Καλλιθέας Φεβρουάριος 2008 Αναστασία Λαµπρινού

Γνωστικό αντικείμενο: Ελληνικά. ΠΑΡΟΥΣΙΑΣΗ: Ομάδα Εργασίας Ελληνικών (Δημοτική Εκπαίδευση)

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 7: Ασυμφραστικές Γλώσσες (Γλώσσες Ελεύθερες Συμφραζομένων)

ΔΙΕΠΙΣΤΗΜΟΝΙΚΟ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΤΕΧΝΟΓΛΩΣΣΙΑ VIII» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάπτυξη Πολυεπίπεδου Λεξικού XLE

Θέματα υπολογισμού στον πολιτισμό


ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ Μάθημα περιορισμένης επιλογής 6

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ

Σχεδίαση Γλωσσών Προγραμματισμού Συντακτική Ανάλυση Ι. Εαρινό Εξάμηνο Lec /03/2019 Διδάσκων: Γεώργιος Χρ. Μακρής

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

«Πολυγλωσσία και διδασκαλία της ελληνικής ως δεύτερης γλώσσας στην Κύπρο» Εκπαιδευτικός: Ελένη Νεοκλέους Δημοτικό Σχολείο Πέγειας

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ (2 Ο ΜΑΘΗΜΑ)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Εισαγωγή στη Γλωσσολογία Ι. Μορφολογία

- Καθυστέρηση λόγου (LLI)

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε

Τμήμα Πληροφορικής & Τηλεπικοινωνιών Μεταπτυχιακό Πρόγραμμα Σπουδών Ακαδημαϊκό Έτος ΠΜΣ ΚΑΤΕΥΘΥΝΣΗ 6 η

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών 6

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

ΕΜΠΛΟΥΤΙΣΜΟΣ ΚΑΙ ΑΝΑΘΕΩΡΗΣΕΙΣ. ΤΗΣ ΔΟΜΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ ΤΟΥ ΣΩΣΥΡ κυρίως μετά τη δεκαετία του 60

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Επανάληψη Μαθήματος

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας

Αερόστατο Διαδικτυακή εκπαιδευτική πύλη ψυχαγωγίας και μάθησης για μικρά παιδιά

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ

Προσβάσιμο υλικό για μαθητές με αυτισμό

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών. Προδιαγραφές

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

Ο Γραπτός λόγος στο Νηπιαγωγείο. Ενότητα 2: Στοιχεία της γλωσσικής γνώσης Στελλάκης Νεκτάριος Σχολή Ανθρωπιστικών και Κοινωνικών Επιστημών ΤΕΕΑΠΗ

ΑΣΚΗΣΗ 11: ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ - ΣΥΝΤΑΚΤΙΚΗ ΑΝΑΛΥΣΗ (PARSING)

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Επικοινωνία Ανθρώπου Υπολογιστή

Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3)

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΕΝΔΕΙΚΤΙΚΟΣ ΕΤΗΣΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Α ΤΑΞΗ ΓΥΜΝΑΣΙΟΥ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Transcript:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 3: Μορφολογική Ανάλυση Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014

ΜΟΡΦΟΛΟΓΙΑ Βασικές Γλωσσολογικές Έννοιες «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση

«Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 2 > Οι διαφάνειες αυτής της ενότητας βασίζονται σε διαφάνειες της Βασιλικής Σιμάκη, Πανεπιστήμιο Πατρών, 2012-2013. Βιβλιογραφία: «Μορφολογία» Αγγελική Ράλλη, Εκδόσεις Πατάκη, Αθήνα, 2005 Το βιβλίο δεν απαιτείται για το μάθημα αυτό.

Επεξεργασία Φυσικής Γλώσσας Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών Γλωσσολογικοί κανόνες και αρχές που διέπουν τα επίπεδα ανάλυσης της φυσικής γλώσσας Εισαγωγή σε βασικές γλωσσολογικές έννοιες, ιδιαίτερα σημαντικές στην ΕΦΓ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 3 >

Γλωσσολογία Η επιστημονική μελέτη της ανθρώπινης γλώσσας Μορφή (μορφολογία, φωνολογία, σύνταξη) Νόημα (σημασιολογία, πραγματολογία) Ευρύτερο πλαίσιο (εξελικτική, ιστορική γλωσσολογία, κοινωνιογλωσσολογία, ψυχογλωσσολογία, νευρογλωσσολογία, γλωσσική απόκτηση, ανάλυση λόγου) Αλληλεπίδραση και με άλλες γνωστικές επιστήμες «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 4 >

Γενετική Θεωρία, Noam Chomsky Ανθρώπινη (φυσική) γλώσσα: σημαντικότερο γνωσιακό σύστημα του ανθρώπου Οι ομιλητές μιας φυσικής γλώσσας κατέχουν ένα σύνολο γνώσεων που αποτελεί το γλωσσικό τους σύστημα, έτσι όπως εκφράζεται και αναπαρίσταται από τη γραμματική Γραμματική: σύνολο αρχών και κανόνων που καθορίζει αν μια πρόταση είναι γραμματική ή όχι Colorless green ideas sleep furiously «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 5 >

Γλωσσολογική Ανάλυση Πολυεπίπεδη (μορφή, νόημα, ευρύτερο πλαίσιο) Γλωσσική Ιεραρχία: Φωνήματα Μορφήματα* Λέξεις»Φράσεις Προτάσεις «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 6 >

Μορφολογία Στον πυρήνα της γλωσσολ. έρευνας Μελετά τη δομή των λέξεων, τα επιμέρους συστατικά τους, και τις σχέσεις αυτών των συστατικών Προτείνει αρχές και κανόνες ανάλυση και δημιουργία των λέξεων *μόρφημα: η ελάχιστη μονάδα που συνδυάζει μορφή και σημασία, π.χ. αντι-μιλ-ώ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 7 >

Λέξεις: Μορφολογικές κατηγορίες Ι Φέρουν έναν τόνο Έχουν ολοκληρωμένη σημασία Ανεπηρέαστη η εσωτερική τους δομή από τη σύνταξη Μεσολαβούν παύσεις μεταξύ τους στο γραπτό λόγο Δυσκολίες στην αναγνώριση και τα όρια των λέξεων χαλαρά σύνθετα : ψυχρός πόλεμος «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 8

Μορφολογικές κατηγορίες ΙΙ Μορφήματα: Ελάχιστα συστατικά των λέξεων Ελεύθερα χωρίς, με, και, σήμερα κτλ. Δεσμευμένα Θέματα* (stems) ομορφ-, τρεχ-, ανθρωπ- κτλ. Προσφύματα(affixes) Προθήματα» δυσ- τυχος, ξε- φευγω Επιθήματα» παιδ- ακι, τρεχ- ω «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 9 >

Θέμα / Ρίζα Θέμα (stem): βάση για τη δημιουργία των λέξεων, ευθύνη για σημασία Ρίζα (root): μόνο ετυμολογική και ιστορική αξία (Ralli, 1988) Δυσδιάκριτα τα όρια των δύο στοιχείων Θέμα: βάση για δημιουργία λέξεων, ταύτιση με ρίζα σε πολλές πρισπτώσεις «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 10 >

Διαδικασίες σχηματισμού λέξεων Ι Κλίση: Διαδικασία σχηματισμού διαφορετικών μορφών μιας λέξης, συνδυασμός συγκεκριμένου θέματος και κλιτικών προσφυμάτων Παίζω έ παιζ α γιατρός γιατρ- ού Παραγωγή Διαδικασία σχηματισμού νέων λέξεων, συνδυασμός θέματος και παραγωγικού προσφύματος όργαν(ο) οργαν-ώνω, οργανω-τής, οργανω-τικ(ός), οργανωτικ-ά «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 11 >

Διαδικασίες σχηματισμού λέξεων ΙΙ Σύνθεση Διαδικασία που δημιουργεί μορφολογικά πολύπλοκα στοιχεία από τουλάχιστον δύο θέματα ντομάτα+σαλάτα ντοματοσαλάτα αλάτι+πιπέρι αλατοπίπερο δεύτερος+λεπτό δευτερόλεπτο σφιχτά+αγκαλιάζω σφιχταγκαλιάζω «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 12 >

Η Μορφολογία στην ΕΦΓ Ι Ανάλυση της ενσωματωμένης γραμματικής πληροφορίας λεξικών μορφών αυτή: γ πρόσωπο, ενικός αριθμός, αρσενικό γένος τραγούδησα: α πρόσωπο, ενικός αριθμός, αόριστος χρόνος Parsing σύνθετων λεξικών μορφών στα επιμέρους συστατικά τους Αντιπολεμικός: αντι+πολεμ+ικ+ος «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 13 >

Η Μορφολογία στην ΕΦΓ ΙΙ Αnaphora resolution: Ο Κώστας συνάντησε τους φίλους του στο δρόμο και τους είπε τι του συνέβη. Αναγνώριση μερών του λόγου (Parts of Speech) Noun: ονόματα, ουσιαστικά Verb: ρηματικοί τύποι Adjective: επίθετα Η ίδια κλάση ελέγχεται με το τεστ της αντικατάστασης: το καλό/κακό/χαζό καρίτσι/αγόρι/παιδί/ζώο έτρεχε/έπαιζε/χτύπησε «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 14 >

Άλλα μέρη του λόγου Σχεση με ονόματα: pronouns και determiners* Εκείνος, μας, εγώ, αυτών, ο, το, ένας *στη ΝΕ ταυτίζεται με το άρθρο Adverbs, prepositions και particles συχνά, καλώς, μετά, έτσι, για, με, σε, θα, μα Conjunctions Και, αλλά, ή, είτε-είτε «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 15 >

ΜΟΡΦΟΛΟΓΙΚΗ ΑΝΑΛΥΣΗ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση

«Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 17 > Οι διαφάνειες αυτής της ενότητας βασίζονται στα κεφάλαια 2 και 3 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό.

Αυτόματα πεπερασμένων καταστάσεων Finite State Automata (FSA) Αναπαριστάνεται σαν γράφος ενός συνόλου καταστάσεων κατευθυνόμενων μεταβάσεων που αντιστοιχούν σε σύμβολα ενός αλφαβήτου Μια κατάσταση ορίζεται σαν αρχική Μερικές καταστάσεις ορίζονται σαν τελικές baa+! «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 18

Αναγνώριση με FSA (1) Είσοδος: μια «ταινία» με «κελιά». Κάθε κελί περιέχει ένα σύμβολο από την είσοδο Η μηχανή ξεκινά από την αρχική κατάσταση: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 19

Αναγνώριση με FSA (2) Σε κάθε κατάσταση, ελέγχεται ο επόμενος χαρακτήρας εισόδου Αν υπάρχει μετάβαση για αυτόν τον χαρακτήρα, γίνεται η μετάβαση και η είσοδος μετακινείται 1 κελί Αν δεν υπάρχει μετάβαση, η είσοδος δεν είναι αποδεκτή Αν τελειώσουν τα κελιά εισόδου: Αν η τρέχουσα κατάσταση είναι τελική, η είσοδος είναι αποδεκτή «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 20

Μορφολογία (1) Εφαρμόζεται σε επίπεδο λέξης Εξετάζει τη μορφή των λέξεων Επηρεάζει/εται (από) τη φωνολογία Είναι το επίπεδο ανάλυσης που συσχετίζει: Αλεπού, αλεπούδες, αλεπουδάκι Είμαι, ήμουν Έρχομαι, ήρθα «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 21

Δύο ειδών κανόνες: Ορθογραφικοί κανόνες Μορφολογία (2) Ο πληθυντικός αγγλικών λέξεων σε y σχηματίζεται με την μετατροπή του y σε i, και την προσθήκη es Μορφολογικοί κανόνες Μας λένε ότι οι λέξεις fish, deer, beer δεν έχουν πληθυντικό Ο πληθυντικός την λέξης goose γίνεται με αλλαγή του φωνήεντος (geese) «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 22

Μορφολογική ανάλυση Το πρόβλημα της: αναγνώρισης ότι μια λέξη (όπως αλεπούδες) αποσυντίθεται σε μορφήματα (αλεπ + ούδες), και η δημιουργία μιας δομημένης αναπαράστασης για αυτό το γεγονός, ονομάζεται μορφολογική ανάλυση (morphological parsing) Parsing: η διαδικασία της παραγωγής κάποιας μορφής γλωσσικής πληροφορίας για κάποια είσοδο «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 23

Υπολογιστική μορφολογία Η αυτόματη (μέσω μηχανής) αντιστοίχηση μιας λέξης με τις μορφολογικές πληροφορίες που την χαρακτηρίζουν Μορφολογική ανάλυση (parsing) Αλεπούδες: αλεπού + ονομαστική + πληθυντικός Μορφολογική παραγωγή (generation) Αλεπού + ονομαστική + πληθυντικός: αλεπούδες «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 24

Αλγόριθμοι και εργασίες Μορφολογική ανάλυση Finite state transducers Μορφολογικά λεξικά (ηλεκτρονικά) Μορφολογική παραγωγή Μορφολογικά λεξικά (ηλεκτρονικά) Συστήματα κανόνων Συχνές εργασίες Εύρεση θέματος (stemming) Λημματοποίηση: εύρεση λήμματος (lemmatization) Αναγνώριση μερών του λόγου (POS tagging) Αναγνώριση λέξεων/προτάσεων «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 25

Στόχος: Μορφολογική ανάλυση Μορφολογική πληροφορία για την είσοδο Είσοδος Έξοδος αλεπούδες άνθρωποι αλεπού +N +Pl άνθρωπος +N +Pl cats cat +N +Pl γάτες geese goose +N +Pl χήνες gooses goose +V +1P +Sg canto cantar +V +PInd +1P +Sg τραγουδώ canto canto +N +Masc +Sg τραγούδι «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση < 26 >

Μορφολογικός αναλυτής Για την κατασκευή ενός μορφολογικού αναλυτή χρειαζόμαστε: Λεξικό: λίστα από θέματα και προσφύματα, μαζί με βασική πληροφορία για αυτά (π.χ. μέρος του λόγου) Μορφοτακτικοί κανόνες (morphotactics): το μοντέλο της οργάνωσης των μορφημάτων ποιοι τύποι μορφημάτων μπορούν να ακολουθούν άλλα μορφήματα μέσα σε μια λέξη Ορθογραφικοί κανόνες: περιγράφουν τις αλλαγές που συμβαίνουν όταν συνδυάζονται μορφήματα city + s cities (και όχι citys) «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 27

Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών: Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 28

Χρήση λεξικού Το λεξικό απαριθμεί όλες τις λέξεις και τις πληροφορίες που την χαρακτηρίζουν Δεν υπάρχουν κανόνες? Εύκολη ανάλυση/παραγωγή Μεγάλο μέγεθος (αγγλικά) Ελληνικά, Γαλλικά; Αραβικά, Τούρκικα; Κινέζικα; acclaim acclaim $N$ acclaim acclaim $V+0$ acclaimed acclaim $V+ed$ acclaimed acclaim $V+en$ acclaiming acclaim $V+ing$ acclaims acclaim $N+s$ acclaims acclaim $V+s$ acclamation acclamation $N$ acclamations acclamation $N+s$ acclimate acclimate $V+0$ acclimated acclimate $V+ed$ acclimated acclimate $V+en$ acclimates acclimate $V+s$ acclimating acclimate $V+ing$ «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 29

Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών: Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 30

Λεξικό + κανόνες (1) Λεξικό: reg-noun irreg-pl-noun irreg-sg-noun plural fox geese goose -s cat sheep sheep dog mice mouse Κανόνες: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 31

Λεξικό + κανόνες (2) reg-verb-stem irreg-verb-stem irreg-past-verb past past-part pres-part 3sg walk fry talk impeach cut speak spoken sing caught ate eaten -ed -ed -ing -s sang «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 32

Μορφολογικός αναγνωριστής Μια συμβολοσειρά από χαρακτήρες, είναι έγκυρη λέξη; Ενσωμάτωση των «υπο-λεξικών» στο FSA των κανόνων: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 33

Μορφολογική ανάλυση Αυτόματα πεπερασμένων καταστάσεων (FSA) Αναγνώριση Μορφολογία ενός επιπέδου Finite state transducers (FST) Μορφολογία δύο επιπέδων Παράγουν έξοδο, ανάλογα με την είσοδο «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 34

Μορφολογία δύο επιπέδων Επιφανειακή (surface) μορφή: λέξη όπως απαντάται στο κείμενο Λεξιλογική (lexical) μορφή: η ακολουθία των μορφολογικών χαρακτηριστικών Μορφολογία δύο επιπέδων: αντιστοίχιση μεταξύ επιφανειακού/λεξιλογικού επιπέδου Λεξιλογικό επίπεδο Επιφανειακό επίπεδο «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 35

FST: λεξικό και κανόνες Όπως και στην περίπτωση των FSA, τόσο το λεξικό όσο και οι μορφοτακτικοί κανόνες μπορούν να αναπαρασταθούν από FSTs Και φυσικά να συνδυαστούν (σειριακά) σε ένα FST: «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 36

Ορθογραφικοί κανόνες (1) Οι μέθοδοι που περιγράφηκαν αναγνωρίζουν λέξεις όπως «fox» και «goose» Όμως η απλή συνένωση μορφημάτων δεν λειτουργεί όταν απαιτούνται ορθογραφικές προσθήκες foxs: αποδεκτό, foxes: απορριπτέο 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 37

Ορθογραφικοί κανόνες (2) Name Rule Description Example Consonant Doubling 1-letter consonant doubled before -ing/-ed beg/begging E-deletion Silent e dropped before -ing and -ed make/making E-insertion e added after s,z,x,ch,sh before s watch/watches Y-replacement -y changes to -ie before -s, -i before -ed try/tries K-insertion verbs ending with vowel + -c add -k panic/panicked Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 38

Ορθογραφικοί κανόνες (3) Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης Λεξιλογικό επίπεδο Ενδιάμεσο επίπεδο Επιφανειακό επίπεδο 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 39

Ορθογραφικοί κανόνες (4) «Εισαγωγή ενός e στην ταινία επιφανειακού επιπέδου, όταν η ταινία του λεξιλογικού επιπέδου έχει ένα μόρφημα που τελειώνει σε x (ή z) και το επόμενο μόρφημα είναι το -s» Chomsky and Halle (1968) notation: 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 40

Ορθογραφικοί κανόνες (5) Αναπαράσταση του ορθογραφικού κανόνα σαν FST: 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 41

Ορθογραφικοί κανόνες (6) Πίνακας μεταβάσεων: 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 42

Συνδυάζοντας λεξικό και κανόνες (1) Το FST λεξικού αντιστοιχίζει το λεξιλογικό επίπεδο στο ενδιάμεσο επίπεδο, που αναπαριστά απλές συνενώσεις μορφημάτων Ένα σύνολο από FST κανόνων τρέχουν παράλληλα/σειριακά αντιστοιχίζοντας το ενδιάμεσο στο επιφανειακό επίπεδο Ο FST λεξικού και οι FST των ορθογραφικών κανόνων σχηματίζουν μια αλληλουχία (cascade) 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 43

Συνδυάζοντας λεξικό και κανόνες (2) 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 44

Συνδυάζοντας λεξικό και κανόνες (3) Λεξιλογικό επίπεδο T lex Ενδιάμεσο επίπεδο T e insert Επιφανειακό επίπεδο 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 45

FSTs και ασάφεια Η ανάλυση είναι δυσκολότερη της παραγωγής Λόγω ασάφειας: π.χ. foxes fox +V +3Sg fox +N +PL Η αποσαφήνιση δεν μπορεί να γίνει χωρίς τα συμφραζόμενα Ο FST πρέπει να δημιουργήσει και τις δύο αναλύσεις Ασάφεια μπορεί να προκληθεί και εξαιτίας πολλαπλών πιθανών μονοπατιών, ή λόγω μεταβάσεων ε 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 46

Αναγνώριση θέματος Stemming: η εύρεση της ρίζας/θέματος μιας λέξης Συνήθως δεν χρησιμοποιείται λεξικό Χρησιμοποιείται σε εφαρμογές ανάκτησης πληροφορίας και ταξινόμησης κειμένων Η βελτίωση που επιφέρει στην ανάκτηση πληροφορίας δεν είναι πάντα αξιόλογη Χρησιμοποιείται στην μείωση διαστατικότητας, όταν εφαρμόζεται μηχανική μάθηση 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 47

Porter stemmer (1980) http://www.tartarus.org/~martin/porterstemmer/ Ευρέως διαδεδομένος stemmer (Αγγλικά) Βασίζεται σε ένα σύνολο κανόνων, που εφαρμόζονται σειριακά ATIONAL ATE (relational relate) ING ε if stem contains vowel (motoring motor) Παραδείγματα λαθών: organization organ, doing doe Παραδείγματα παραλείψεων: matrices matrix, explain explanation 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 3, Μορφολογική Ανάλυση 48

Αναγνώριση μερών του λόγου Πρόβλημα: Απόδοση μιας ετικέτας σε κάθε λέξη του κειμένου Ανάλογα με το μέρος του λόγου της λέξης Διάφοροι υπάρχοντες αλγόριθμοι Μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (TBED) Υψηλή απόδοση στην Αγγλική γλώσσα Εξέταση εφαρμοσιμότητας μεθόδου TBED για την Ελληνική γλώσσα 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 49

23:55 Η τεχνική TBED Μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (Brill, 1992) Μαθαίνει κανόνες μετασχηματισμού Κανόνας αρχικοποίησης: αποδίδει αρχική ετικέτα σε κάθε λέξη Λεκτικοί κανόνες: μετασχηματίζουν ετικέτες ανάλογα με την μορφολογία της λέξης IF (word ends in ed ) THEN classify word as a verb-past tense Κανόνες συμφραζομένων: μετασχηματίζουν ετικέτες ανάλογα με τις ετικέτες γειτονικών λέξεων IF (word tagged as verb AND previous word tagged as determiner) THEN tag word as noun «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 50

Διεθνής βιβλιογραφία Ορθότητα για την Αγγλική γλώσσα: Από 94 % έως 98 % Ορθότητα για την Ελληνική γλώσσα: (Δερματάς και Κοκκινάκης, 1995): 95 % Κρυφά μοντέλα Markov, εκπαίδευση: 110.000 λέξεις (Ορφανός και Χριστοδουλάκης, 1999): 93-95% αποσαφήνιση, 82-88 % κατηγοριοποίηση Δέντρα αποφάσεων και μορφολογικό λεξικό (Παπαγεωργίου et. al., 2000): 90-96 % TBED, FTB (TBED + λεξικό), εκπαίδευση: 356.000 λέξεις (Μαλακασιώτης, 2005): 80 % Ενεργητική μάθηση (knn), εκπαίδευση: 15.300 λέξεις 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 51

Έλλογον POS Tagger (1) Ένα σύνολο ετικετών: Ισορροπεί ανάμεσα στην παρεχόμενη πληροφορία και το μέγεθος του σώματος εκπαίδευσης Επεκτείνει το Penn Treebank Γένος σε ουσιαστικά, επίθετα, κύρια ονόματα, αριθμός σε επίθετα, μελλοντικός χρόνος σε ρήματα 58 ετικέτες (από 36) - Συγκριτικά: PAROLE: 584 ετικέτες Ο πρώτος ελεύθερα διαθέσιμος αναγνωριστής μερών του λόγου 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 52

Έλλογον POS Tagger (2) Η απόδοση της μεθόδου TBED πλησιάζει το 95 % για τα Ελληνικά Εκπαιδευόμενο σε σώμα κειμένων 18.000 λέξεων Ανεξάρτητα από την θεματική περιοχή Ο συνδυασμός της μεθόδου TBED με μορφολογικό λεξικό πλησιάζει το 98 % Η απόδοση του συνδυασμού είναι η υψηλότερη που έχει ανακοινωθεί για τα Ελληνικά 23:55 «Τεχνογλωσσία» VIII, Σεμινάριο 2, Εξαγωγή Πληροφορίας 53