Τεχνητή Νοημοσύνη. 20η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/



Σχετικά έγγραφα
Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Επικοινωνία Ανθρώπου Υπολογιστή

Τεχνητή Νοημοσύνη. 23η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

Επικοινωνία Ανθρώπου Υπολογιστή

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη ( )

Τεχνητή Νοημοσύνη. 7η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Ανάκτηση Πληροφορίας

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Τεχνητή Νοημοσύνη. 14η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Επικοινωνία Ανθρώπου Υπολογιστή

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Επικοινωνία Ανθρώπου Υπολογιστή. Α1. Εισαγωγή στην ΕΑΥ και γενικές πληροφορίες για το µάθηµα

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 8 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Ασκήσεις μελέτης της 19 ης διάλεξης

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΣΤΟΙΧΕΙΑ ΔΙΔΑΣΚΑΛΙΑΣ ΜΕ ΤΗ ΧΡΗΣΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τεχνητή Νοημοσύνη. 9η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

Reading/Writing (Κατανόηση και Παραγωγή Γραπτού Λόγου): 1 ώρα και 10 λεπτά

Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού

Παρουσιάσεις με Αντίκτυπο (High Impact Presentations) Χαρίκλεια Τσαλαπάτα 11/10/2017

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

Παραγωγή προφορικού λόγου

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ

ΑΣΚΗΣΗ 11: ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ - ΣΥΝΤΑΚΤΙΚΗ ΑΝΑΛΥΣΗ (PARSING)

Ψηφιακά Mέσα Υπολογιστική Νοημοσύνη

Παρουσιάσεις με Αντίκτυπο (High Impact Presentations) Χαρίκλεια Τσαλαπάτα 19/10/2015

ΚΟΛΛΕΓΙΟ ΑΘΗΝΩΝ Σχολικό έτος: ΤΜΗΜΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΓΥΜΝΑΣΙΟ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ Α ΓΥΜΝΑΣΙΟΥ. Προτεινόμενος Προγραμματισμός κατά ενότητα

AΡΧΑΙΑ ΕΛΛΗΝΙΚΑ ΙΣΤΟΡΙΑ ΝΕΑ ΕΛΛΗΝΙΚΑ

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Φύλλο Κατανόησης 1.7

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ Μάθημα περιορισμένης επιλογής 6

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Τη γλώσσα μου έδωσαν ellhnikh. Μαρία Γαβριηλίδου, ΙΕΛ/ΕΚ Αθηνά Παγκόσμια Ημέρα Μετάφρασης 29 Σεπτεμβρίου 2018, ΕΙΕ

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Δείκτες Επικοινωνιακής Επάρκειας Κατανόησης και Παραγωγής Γραπτού και Προφορικού Λόγου Α1/Α2

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Δημοσιογράφος: Όχι, όχι, δεν θα καθυστερήσετε. Οι ερωτήσεις είναι πολύ λίγες. Έχετε κόψει τελείως κάποια από τις συνήθειες που είχατε παλιότερα;

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΙΛΟΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ - Η ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΓΛΩΣΣΑΣ ΣΤΟ ΓΥΜΝΑΣΙΟ (ενδεικτικά)

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Γραμματισμός Κωφού Παιδιού:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εκπαιδευτική παρέμβαση στον αφηγηματικό λόγο νηπίου με γλωσσική διαταραχή

Τίτλος Πακέτου Certified Computer Expert-ACTA

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Δεύτερη διδακτική πρόταση Έλεγχος επίδοσης στο σχολείο. 1 φωτοτυπία ανά μαθητή με τον έλεγχο παραγωγή προφορικού λόγου, παραγωγή γραπτού λόγου

Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών

Εισαγωγή στη Γλωσσολογία Ι

Modern Greek Beginners

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Πύλη Ηλεκτρονικής Μάθησης του ΕΔΙΑΜΜΕ

Βιογραφικό σημείωμα. Οι δύο λειτουργίες που πρέπει να επιτελεί για να είναι επιτυχημένο είναι:

ΕΠΙΜΟΡΦΩΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΑ ΝΕΑ ΑΝΑΛΥΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Παραδειγματικό σενάριο στο μάθημα της Νεοελληνικής Γλώσσας. «Η παράσταση αρχίζει»

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Εισαγωγή στην Επιστήμη των Υπολογιστών

1. Το ιατρείο λειτουργεί κάθε μέρα. Λ. 2. Η κατοικία του ασθενούς απέχει πολύ από το ιατρείο. Σ. 3. Ο ασθενής δουλεύει μόνο τις πρωινές ώρες.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

ΑΝΑΜΟΡΦΩΜΕΝΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΛΛΗΝΙΚΗΣ ΝΟΗΜΑΤΙΚΗΣ ΓΛΩΣΣΑΣ Α ΤΑΞΗ (Σ. Καρύπη, Μ. Χατζοπούλου) Ι.Ε.Π Περιεχόμενο γενικών στόχων

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού

Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Γλωσσική Τεχνολογία, Διδάσκων: Ι. Ανδρουτσόπουλος

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Transcript:

Τεχνητή Νοημοσύνη 20η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1

Τι θα ακούσετε σήμερα Εισαγωγή στην επεξεργασία φυσικής γλώσσας. Στάδια ανάλυσης φυσικής γλώσσας. Χρήση μηχανικής μάθησης στην ανάλυση ΦΓ. Παραδείγματα συστημάτων ΕΦΓ: Εξαγωγή πληροφοριών από κείμενα. Διεπαφές φυσικής γλώσσας για ΒΔ και οντολογίες. Συστήματα προφορικών διαλόγων. Συστήματα ερωταποκρίσεων για συλλογές εγγράφων. 2

Ανάλυση και παραγωγή ΦΓ υπολογιστική παράσταση (π.χ. λογική έκφραση, πίνακας, στατιστικό μοντέλο) υπολογιστική παράσταση (π.χ. βάση δεδομένων, μετρήσεις, τυπικές προδιαγραφές) σύστημα ανάλυσης ΦΓ σύστημα παραγωγής ΦΓ κείμενο (π.χ. ερώτηση, άρθρο εφημερίδας, εγκυκλοπαίδεια) κείμενο (π.χ. περιγραφή αντικειμένου, δελτίο καιρού, εγχειρίδιο) 3

Επικοινωνία μέσω φυσικής γλώσσας ΟΜΙΛΗΤΗΣ Πρόθεση: Παραγωγή ΦΓ: Σύνθεση φωνής: Αναγνώριση φωνής: Μορφολογική ανάλυση: Συντακτική ανάλυση: π.χ. μέρος του λόγου κάθε λέξης, γένος κλπ. ΑΚΡΟΑΤΗΣ Αποσαφήνιση: Σημασιολογική ανάλυση: Πραγματολογική ανάλυση: Ενσωμάτωση: Τροποποιημένο σχήμα από τις διαφάνειες που συνοδεύουν το βιβλίο των Russel & Norvig. 4

Τα στάδια της ανάλυσης ανάλυση σχεδίου ανάλυση πραγματείας σημασιολογική ανάλυση συντακτική ανάλυση Σκοποί των του χρήστη, σχέδια ενεργειών,... Αναφορικές εκφράσεις, ρητορικές σχέσεις... Παράσταση του νοήματος των προτάσεων. Συντακτική δομή των προτάσεων. μορφολογική ανάλυση Πληροφορίες για τις λέξεις. προεπεξεργασία Χωρισμός σε λεκτικές μονάδες, προτάσεις, χειρισμός HTML, 5

Προεπεξεργασία Χειρισμός HTML, XML, ειδικών χαρακτήρων κλπ. Χωρισμός σε λεκτικές μονάδες (tokens). Χωρισμός σε προτάσεις. Αθήνα 3/12/2008 : Ο κ. Δ. Αντωνόπουλος ανέλαβε γενικός διευθυντής της General Company Ελλάς ( http://www.gce.gr ). Η GC περιλαμβάνεται στις μεγαλύτερες εταιρείες του χώρου των κατασκευών, με ακαθάριστα έσοδα 4 δισ. το 2007. 6

Χωρισμός σε προτάσεις Χειρωνακτική συγγραφή κανόνων. Π.χ. αν ο επόμενος χαρακτήρας είναι κενό και ο μεθεπόμενος είναι κεφαλαίος Χρήση μηχανικής μάθησης. Κατηγορίες: C = 1 (τέλος πρότασης), C = 0 (όχι τέλος). Ιδιότητες: ύπαρξη κεφαλαίου δεξιά, προηγούμενος χαρακτήρας, προ-προηγούμενος χαρακτήρας, επόμενος χαρακτήρας, απόσταση από προηγούμενη τελεία, Παραδείγματα εκπαίδευσης: περιπτώσεις εμφάνισης τελειών, θαυμαστικών κλπ. σε κείμενα, με τις τιμές των ιδιοτήτων και την επιθυμητή απάντηση. Συχνά καλύτερα αποτελέσματα από χειρωνακτικούς κανόνες. 7

Χωρισμός προτάσεων με ΜΜ Παραδείγματα εκπαίδευσης: Ο κ. Δ <προπροηγ:o, προηγ:κ, κεφδεξιά:1, επόμ:δ, απόστ:-, C:0>. Δ. Αντωνόπουλος <προπροηγ:., προηγ:δ, κεφδεξιά:1, επόμ:α, απόστ:1, C:0> http://www.gce.gr ). Η GC <προπροηγ:url, προηγ:), κεφδεξιά:1, επόμ:η, απόστ:11, C:1> δισ. το 2007 <προπροηγ:ι, προηγ:σ, κεφδεξιά:0, επόμ:τ, απόστ:10, C:0> το 2007. <προπροηγ:0, προηγ:1, κεφδεξιά:-, επόμ:-, απόστ:2, C:1> 8

Μορφολογική ανάλυση Εύρεση πληροφοριών για τις λέξεις ή λεκτικές μονάδες. μέρος του λόγου: ρήμα, ουσιαστικό, άρθρο, λήμμα: π.χ. «ανέλαβε» «αναλαμβάνω» τύπος: αριθμός, πτώση, γένος, σύνταξη: π.χ. μεταβατικό/αμετάβατο, πτώση αντικειμένου, σημασιολογία: π.χ. «αναλαμβάνω» Become(X, Y) Χρήση υπολογιστικών λεξικών. Συνδυασμός με λεξικογραφικούς κανόνες για συσχετισμό τύπων με λήμματα. Προβλήματα γλωσσικής κάλυψης (π.χ. άγνωστες λέξεις). Προβλήματα με κύρια ονόματα (π.χ. προσώπων, εταιρειών). Ανάγκη εξέτασης συμφραζομένων (π.χ. «διατάξεις»). 9

Παράδειγμα μορφολογικών πληροφοριών http://www.iit.demokritos.gr/skel/ellogon/ 10

ΜΜ κατά τη μορφολογική ανάληση Αναγνώριση μερών του λόγου (part-of-speech tagging). Για κάθε λέξη: Κατηγορίες: C = 0 (άρθρο), C = 1 (ρήμα), C = 2 (επίθετο), Ιδιότητες: τελευταίο γράμμα της λέξης, προτελευταίο γράμμα,, πρώτο γράμμα, μέρος λόγου προηγούμενης λέξης, Παραδείγματα εκπαίδευσης: περιπτώσεις εμφάνισης άρθρων, ρημάτων, επιθέτων κλπ. με τις τιμές των ιδιοτήτων. Αναγνώριση ονομάτων οντοτήτων. C = 0 (άλλη λεκτική μονάδα) C = 1 (λεκτική μονάδα ονόματος προσώπου) C = 2 (λεκτική μονάδα ονόματος εταιρείας) C = 3 (λεκτική μονάδα ονόματος τοποθεσίας) C = 4 (λεκτική μονάδα ημερομηνίας) 11

Αναγνώριση ονομάτων οντοτήτων C = 3 C = 0 C = 4 C = 1 C = 0 Αθήνα 3/12/2008 : Ο κ. Δ. Αντωνόπουλος ανέλαβε γενικός διευθυντής της General Company Ελλάς ( http://www.gce.gr ). Η GC περιλαμβάνεται στις μεγαλύτερες εταιρείες του χώρου των κατασκευών, με ακαθάριστα έσοδα 4 δισ. το 2007. C = 2 C = 4 Ελεύθερα διαθέσιμα: σύστημα αναγνώρισης ονομάτων οντοτήτων για ελληνικά κείμενα και επισημειωτής μερών του λόγου για ελληνικά: http://nlp.cs.aueb.gr/software.html. 12

Τα στάδια της ανάλυσης ανάλυση σχεδίου ανάλυση πραγματείας σημασιολογική ανάλυση συντακτική ανάλυση Σκοποί των του χρήστη, σχέδια ενεργειών,... Αναφορικές εκφράσεις, ρητορικές σχέσεις... Παράσταση του νοήματος των προτάσεων. Συντακτική δομή των προτάσεων. μορφολογική ανάλυση Πληροφορίες για τις λέξεις. προεπεξεργασία Χωρισμός σε λεκτικές μονάδες, προτάσεις, χειρισμός HTML, 13

Συντακτική ανάλυση s np vp np det(case) n(case) np det(case) pn(case) γραμματική s vp v(trans) np vp v(intrans) np vp det(nom) n(nom) v(trans) np πληροφορίες μορφολογικής ανάλυσης ο πρόεδρος πρότεινε det(acc) τη pn(acc) Μαρία 14

Σημασιολογική ανάλυση Απεικόνιση κάθε περιόδου σε μια παράσταση της σημασίας της (του νοήματός της). Π.χ. απεικόνιση σε λογικές εκφράσεις. «Ο πρόεδρος πρότεινε τη Μαρία.» x (President(x) Propose(x, Mary)) Συχνά με προσθήκη τμημάτων χειρισμού σημασιολογίας στους κανόνες της γραμματικής. Οι κανόνες της γραμματικής επαυξάνονται, ώστε να υπολογίζουν και τη σημασία των κόμβων του συντακτικού δένδρου. Η μορφολογική ανάλυση αναλαμβάνει να παρέχει και πληροφορίες για τη σημασία των λέξεων. 15

Συντακτική και σημασιολογική ανάλυση s( x Pesident(x) Propose(x, mary)) np( x President(x)) vp(propose(x 3, Mary)) det( x 1 ) n(president(x 2 )) v(propose(x 3, x 4 )) np(mary) det( ) pn(mary) ο πρόεδρος πρότεινε τη Μαρία Περισσότερα για τη σημασιολογική ανάλυση σε επόμενη διάλεξη. 16

Τα στάδια της ανάλυσης ανάλυση σχεδίου ανάλυση πραγματείας σημασιολογική ανάλυση συντακτική ανάλυση μορφολογική ανάλυση Σκοποί των του χρήστη, σχέδια ενεργειών,... Αναφορικές εκφράσεις, ρητορικές σχέσεις... Συνήθως θεωρούνται μέρη της πραγματολογικής ανάλυσης προεπεξεργασία 17

Ανάλυση πραγματείας Αναφορικές εκφράσεις: Προτείνω το Φ18. Κοστίζει 1.500 Ευρώ. Ελλειπτικές προτάσεις: Πόσο κοστίζει το Φ18; Το Φ16; Πόσο κοστίζει το Φ16; Ρητορική δομή: Προτείνω το Φ18. Propose( Speaker, F18 ) CostΟf( x 5, Euro(1500) ) Εκφράσεις που εξαρτώνται από το περιβάλλον: Αισθάνομαι ρεύμα εδώ. Feels(Speaker, Breeze, Here, Now) Feels(Agent3, Breeze, Pos(5,2), T8) αιτιολόγηση Κοστίζει 1.500 Ευρώ, είναι γρήγορο και αξιόπιστο. 18

Δέντρα με ρητορικές σχέσεις Explanation(S1) S1: Ο Γιάννης πήγε στο κατάστημα αυτοκινήτων του Βασίλη. S2: Ήθελε να αγοράσει ένα αυτοκίνητο. Explanation(S2) Parallel(S2, S4) S4: Ήθελε να δει και πώς τα πηγαίνει ο Βασίλης με την κρίση της αγοράς. S3: Δεν πηγαίνει κανένα λεωφορείο στη νέα του δουλειά. Οι ρητορικές σχέσεις συνθέτουν ένα δέντρο. o Παρόμοιο με τα συντακτικά δέντρα των προτάσεων. o Στις πιο πολλές σχέσεις, ένα παιδί είναι το κύριο. o Αλλά σε μερικές σχέσεις (π.χ. παραλληλισμός) και τα δύο παιδιά είναι εξίσου σημαντικά.

Ανάλυση σκοπών και σχεδίου ενεργειών Οι προτάσεις που αρθρώνει ο κάθε ομιλητής εντάσσονται σε ένα γενικότερο σχέδιο ενεργειών που εκτελεί ο ομιλητής προκειμένου να επιτύχει κάποιους σκοπούς. Ένας συνεργατικός συνομιλητής προσπαθεί να κατανοήσει και να υπηρετήσει το σχέδιο και τους σκοπούς του άλλου. Μπορείς να μου πεις πότε έχει πτήση για την Αθήνα; Ναι. Ναι, έχει στις 17:45 και στις 23:30. Υπάρχει πτήση της Ολυμπιακής για Ηράκλειο στις 20:30; Όχι. Όχι, αλλά υπάρχει πτήση της Aegean για Ηράκλειο στις 21:00. Όχι, αλλά υπάρχει πτήση της Ολυμπιακής για Θεσσαλονίκη στις 20:30. 20

Διφορούμενες εκφράσεις ΦΓ Διφορούμενες λέξεις. Π.χ. «άπειρος», «άρθρο», «γράμμα». Απαιτείται αποσαφήνιση εννοιών λέξεων (word sense disambiguation, βλ. 5 η διάλεξη), γενικά δύσκολο πρόβλημα. Υπάρχουν υπολογιστικά λεξικά που παρέχουν τις δυνατές έννοιες των λέξεων (π.χ. WordNet, http://wordnetweb.princeton.edu/). Πρέπει να κατατάξουμε κάθε εμφάνιση λέξης στη σωστή έννοια της λέξης. Διφορούμενες συντακτικές δομές. «Τύπωσε μια λίστα με τους υπαλλήλους ιδιωτικών εταιρειών που απολύθηκαν πέρσι.» «Τύπωσε μια λίστα με τους υπαλλήλους ιδιωτικών εταιρειών που κρατικοποιήθηκαν πέρσι.» Χρειαζόμαστε εγκυκλοπαιδικές γνώσεις. Εφικτό μόνο για περιορισμένους κόσμους συγκεκριμένων εφαρμογών. Αντίστοιχα προβλήματα σε όλα τα στάδια ανάλυσης. 21

Εξαγωγή πληροφοριών 3 Δεκ. 2008: Σημαντικά νέα χθες από την General Company Ελλάς, μια από τις μεταλύτερες ελληνικές κατασκευαστικές εταιρείες. Η GC ανακοίνωσε ότι θα αγοράσει το 42% των μετοχών της Small Company Ltd, μιας Βρετανικής εταιρείας που ειδικεύεται στο χώρο των σιδηρών κατασκευών. αγοραστής αγοραζόμενος μερίδιο ημερομηνία ανακοίνωσης GCE SCL 0.42 2/12/2008 22

Εξαγωγή πληροφοριών: πρώτα στάδια <s> <date norm= 3/12/2008 > 3 Δεκ. 2008 </date> : </s> <s> Σημαντικά νέα <date norm= 2/12/2008 > χθες </date> από την <company id= GCE > General Company Ελλάς </company>, μια από τις μεταλύτερες ελληνικές κατασκευαστικές εταιρείες. </s> <s> Η <company id= GCE > GC </company> ανακοίνωσε ότι <verb base= αγοράζω > θα αγοράσει </verb> το <percent norm= 0.42 > 42% </percent> των μετοχών της <company id= SCL > Small Company Ltd </company>, μιας Βρετανικής εταιρείας που ειδικεύεται στο χώρο των σιδηρών κατασκευών. </s> 23

Εξαγωγή πληροφοριών: πρώτα στάδια Προεπεξεργασία: Λεκτικές μονάδες, χωρισμός σε προτάσεις, HTML κλπ. Μορφολογική ανάλυση: Μέρη του λόγου, λήμματα (κύριοι τύποι λέξεων) κλπ. Αναγνώριση χρονικών, χρηματικών εκφράσεων κλπ. και μετατροπή τους σε κανονικές μορφές. Αναγνώριση ονομάτων οντοτήτων (π.χ. προσώπων, εταιρειών) και ταίριασμα διαφορετικών μορφών του ιδίου ονόματος μεταξύ τους (π.χ. «Ο.Τ.Ε.» και «Οργανισμός Τηλεπικοινωνιών της Ελλάδος»). 24

Εξαγωγή πληροφοριών: επόμενα στάδια Επίλυση αναφορικών εκφράσεων. Π.χ. «Η εταιρεία ανακοίνωσε επίσης» Εντοπισμός σχέσεων μεταξύ ονομάτων οντοτήτων: Στην πιο απλή περίπτωση χρησιμοποιώντας χειρωνακτικά κατασκευασμένους κανόνες. Π.χ. BuyEvent(buyer:C1, bought:c2, share:p) * Company(id:C1) * Verb(base:αγοράζω/αποκτώ/παίρνω) * Percent(norm:P) * Company(id:C2) * Ή προσπαθούμε να μάθουμε να προβλέπουμε τη σχέση που συνδέει (αν συνδέει) κάθε ζευγάρι γειτονικών ονομάτων οντοτήτων. Μία κατηγορία για κάθε είδος σχέσης. 25

Παράδειγμα χρήσης κανόνα <s> Σημαντικά νέα <date norm= 2/12/2008 > χθες </date> από την <company id= GCE > General Company Ελλάς </company>, μια από τις μεταλύτερες ελληνικές κατασκευαστικές εταιρείες. </s> <s> Η <company id= GCE > GC </company> ανακοίνωσε ότι <verb base= αγοράζω > θα αγοράσει </verb> το <percent norm= 0.42 > 42% </percent> των μετοχών της <company id= SCL > Small Company Ltd </company>, μιας Βρετανικής εταιρείας που ειδικεύεται στο χώρο των σιδηρών κατασκευών. </s> BuyEvent(buyer:C1, bought:c2, share:p) * Company(id:C1) * Verb(base:αγοράζω/αποκτώ/παίρνω) * Percent(norm:P) * Company(id:C2) * BuyEvent(buyer:GCE, bought:scl, share:0.42) 26

Αναγνώριση σχέσεων με επιβλεπόμενη μάθηση <s> Η <company id= GCE > General Company Ελλάς </company> <verb base= αγοράζω > αγόρασε </verb> το <percent norm= 0.42 > 42% </percent> των μετοχών της <company id= SCL > Small Company Ltd </company>. </s> <s> Η <company id= LCL > Large Company Ltd </company> <verb base= αγοράζω > είχε επίσης επιχειρήσει ανεπιτυχώς να αγοράσει </verb> μερίδιο της <company id= SCL > Small </company> <date norm= Υ2007 > πέρσι </date>. </s> Π.χ. για τη σχέση αγοραστή-αγοραζόμενου: o o o Εξετάζουμε ζεύγη κοντινών ονομάτων εταιρειών, ανθρώπων. Για κάθε ζεύγος, ένα διάνυσμα ιδιοτήτων. Κατηγορίες: θετικό, αρνητικό (ή γενικότερα ο τύπος της σχέσης, π.χ. εξαγορά, συγχώνευση κλπ). 27

Εξόρυξη γνώμης Παράδειγμα από τη διπλωματική εργασία της Ι. Λάζαρη (2011). Εξαγωγή των πιο συζητούμενων χαρακτηριστικών των προϊόντων και συναισθήματος από κριτικές, tweets κλπ. Βλ. και http://alt.qcri.org/semeval2016/task5/. 28

Διεπαφές φυσικής γλώσσας για ΒΔ > Who works on 3 projects? B.Vandecapelle, C.Willems, D.Sedlock, J.L.Binot > Which of them are project leaders? B.Vandecapelle, J.L.Binot > Documents describing their projects? BIM_LOQUI: The LOQUI NLIDB, BIM LOQUI MMI2: Technical Annex > How many of these projects do not finish before 1994? 2 BIM_LOQUI, MMI2 29

Διεπαφές φυσικής γλώσσας για ΒΔ www.elfsoft.com 30

Αρχιτεκτονική διεπαφών φυσικής γλώσσας για ΒΔ αίτημα του χρήστη μερική νοηματική παράσταση πλήρης νοηματική παράσταση προεπεξεργαστής συντακτικός και σημασιολογικός αναλυτής ελεγκτής διαλόγου μετάφραση σε γλώσσα της βάσης δεδομένων > Σε ποιο τμήμα δουλεύει; [σε,ποιο,τμημα,δουλεύει,;]?x 1 dept(x 1 ) focus(x 2 ) works(x 2, x 1 )?x 1 dept(x 1 ) name(x 2, Κ.Νίκου ) works(x 2, x 1 ) εντολές SELECT FROM 31

Διεπαφές ΦΓ για ΒΔ (πιο πρόσφατα οντολογίες) Πολλή έρευνα από τη δεκαετία του 1960. o Εξαιρετικά δημοφιλείς τη δεκαετία του '80 ως αρχές '90. o Το ενδιαφέρον έχει πια στραφεί περισσότερο στα συστήματα ερωταποκρίσεων για τον Παγκόσμιο Ιστό (βλ. παρακάτω). o Αλλά πρόσφατα ενδιαφέρον για συστήματα ερωταποκρίσεων για οντολογίες (σε OWL), λόγω του Σημασιολογικού Ιστού. Πλεονεκτήματα και μειονεκτήματα: o Χρήση φυσικής γλώσσας, αλλά μπορεί να μην είναι προφανές στο χρήστη τι μπορεί να καταλάβει το σύστημα. o Ανάγκη επαναδιατύπωσης ερωτημάτων, εκνευρισμός o Συχνά προτιμότερη η χρήση ελεγχόμενης φυσικής γλώσσας (controlled NL), αλλά πρέπει να την μάθει ο χρήστης. Εναλλακτικά εισαγωγή ερωτημάτων μέσω καταλόγων επιλογών. o Ανταγωνισμός από γραφικές διεπαφές 32

Διεπαφές ελεγχόμενης φυσικής γλώσσας Παράδειγμα διεπαφής ελεγχόμενης φυσικής γλώσσας για οντολογίες OWL από την πτυχιακή του Α. Κούκιο (2012). Χρησιμοποιεί το λεξικό και τα σχεδιότυπα (patterns) προτάσεων του συστήματος NaturalOWL (βλ. 23 η διάλεξη). 33

Συστήματα προφορικών διαλόγων (spoken dialogue systems) Πολλές εφαρμογές, όπως: o κλείσιμο εισιτηρίων ή παροχή πληροφοριών, o πλοήγηση κατά την οδήγηση, o έλεγχος ή προγραμματισμός οικιακών συσκευών, o έλεγχος γνώσεων ή γενικότερα εκπαίδευση μαθητών. Πολλές από τις έννοιες που θα συναντήσουμε εφαρμόζονται και σε συστήματα γραπτών διαλόγων. o Αλλά μεγαλύτερο εμπορικό ενδιαφέρον για προφορικούς. Η προφορική γλώσσα διαφέρει πολύ από τη γραπτή. Ααα, καλημέρα. Θαα... Θα ήθελα να κλείσω για... εεεε... Μπορείτε να μου πείτε εε... για Αθήνα... γύρωω στις πέντε... γι αύριο μιλάω, έτσι; εεε... αν έχει θέσεις με Ολυμπιακή. 34

Συστήματα προφορικών διαλόγων «Θέλω να πάω στο Ηράκλειο.» (φωνή) αναγνώριση φωνής [θέλω, θα, πάω, στο,???] ανάλυση φυσικής γλώσσας διαχείριση διαλόγου παραγωγή φυσικής γλώσσας σύνθεση φωνής parameter-input(arrive-to, noise) parameter-ask(arrive-to) [πού, θέλετε, να, πάτε, ;] άλλα συστήματα «Πού θέλετε να πάτε;» (φωνή) 35

36

? 37

Συστήματα ερωταποκρίσεων ΦΓ για τον Ιστό > When was the telephone invented? 1876 (25) ακριβής απάντηση και βαθμός βεβαιότητας www.clicktron.com/trivia/ : The telephone was invented by Alexander Graham Bell in 1876. www.komando.com/other/kids/ : They invented the telephone on March 10, 1876. 1912 (1) αιτιολόγηση της απάντησης www : Dr. Torigata Uichi invented the word s first practical wireless telephone in 1912. [Βασισμένο σε παράδειγμα των Buchholz & Daelemans (2001).] 38

Συστήματα ερωταποκρίσεων για συλλογές εγγράφων (ή τον Ιστό) ερώτηση επεξεργασία της ερώτησης κατηγορία ερώτησης, όροι της ερώτησης, συντακτικό δέντρο, παραφράσεις,... απαντήσεις κατάταξη υποψηφίων απαντήσεων Συνήθως με ΜΜ. Ιδιότητες: Ταιριάζει η κατηγορία της ερώτησης με τους τύπους ονομάτων στην απάντηση; Ποσοστό όρων της ερώτησης στην απάντηση, συντακτικό ταίριασμα, ταίριασμα παραφράσεων... όροι της ερώτησης, συνώνυμα,... αποσπάσματα (π.χ. προτάσεις ή ονόματα οντοτήτων) ως υποψήφιες απαντήσεις, συντακτική ανάλυση,... ανάκτηση πληροφοριών σχετικά έγγραφα επεξεργασία εγγράφων 39

Συστήματα ερωταποκρίσεων Το σύστημα Watson της IBM κέρδισε το 2011 τον τελικό του τηλεπαιχνιδιού ερωταποκρίσεων Jeopardy! o Υπάρχουν στον Ιστό πολλά βίντεο για το σύστημα. o Βλ. π.χ. http://www.youtube.com/watch?v=wfr3lom_xhe

Συστήματα ερωταποκρίσεων 41

Μηχανική μετάφραση Δείτε τα βίντεο: http://t.co/a3upow0d http://t.co/ajarbsx1jw http://t.co/wathtqdbmo

Βιβλιογραφία Russel & Norvig: ενότητες 22.1, 22.6, 22.7, 23.3, 23.4. Την «παραγωγική ικανότητα» των γραμματικών θα τη συζητήσουμε σε επόμενη διάλεξη. Για τις εξετάσεις χρειάζεται να ξέρετε ό,τι αναφέρουν οι διαφάνειες. Βλαχάβας κ.ά: εισαγωγή ενότητας 30.1, ενότητες 30.1.1, 30.1.3. Περισσότερα για την αναγνώριση/σύνθεση φωνής, τη διαχείριση διαλόγων και την υπολογιστική όραση διδάσκονται στο μάθημα «Επικοινωνία Ανθρώπου Υπολογιστή» (7 ο εξάμηνο). Περισσότερα για την επεξεργασία φυσικής γλώσσας (και φωνής) διδάσκονται στο μεταπτυχιακό μάθημα «Γλωσσική Τεχνολογία» (βλ. e-class).

Βιβλιογραφία συνέχεια Όσοι ενδιαφέρονται ιδιαίτερα για την επεξεργασία φυσικής γλώσσας (και φωνής) αξίζει να προμηθευτούν και να μελετήσουν σταδιακά το εξαιρετικό βιβλίο «Speech and Language Processing» των D. Jurafsky and J.H. Martin, 2 η έκδοση, Prentice Hall, 2008. Υπάρχει και στη βιβλιοθήκη του ΟΠΑ. Περιλαμβάνει και ένα κεφάλαιο για τη μηχανική μετάφραση.