Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/
Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα μαθήματα. Εργαστήρια, ασκήσεις, εξετάσεις. 2
Μηχανική μετάφραση Δείτε τα βίντεο: http://t.c/a3upw0d http://t.c/ajarbsx1jw http://t.c/wathtqdbmo
Εξόρυξη γνώμης Παράδειγμα από τη διπλωματική εργασία της Ι. Λάζαρη (2011). Εξαγωγή των πιο συζητούμενων χαρακτηριστικών των προϊόντων και συναισθήματος από κριτικές, tweets κλπ. Βλ. και http://alt.qcri.rg/semeval2015/task12/. 4
Συστήματα ερωταποκρίσεων Το σύστημα Watsn της IBM κέρδισε το 2011 τον τελικό του τηλεπαιχνιδιού ερωταποκρίσεων Jepardy! Υπάρχουν στον Ιστό πολλά βίντεο για το σύστημα. Βλ. π.χ. http://www.yutube.cm/watch?v=wfr3lom_xhe
Συστήματα ερωταποκρίσεων 6
Παραγωγή κειμένων σε κινητά Turing Machine (Γιώργος Καρακατσιώτης και Βαγγέλης Πτερνέας, Τμήμα Πληροφορικής, ΟΠΑ). Κέρδισε το ελληνικό Imagine Cup της Micrsft το 2010 και τον τελικό της κατηγορίας interperability του διεθνούς Imagine Cup το 2011. Τα κείμενα παράγονται από μια οντολογία OWL της Αγοράς της Αθήνας, που κατασκευάστηκε στη διάρκεια του IST INDIGO (www.ics.frth.gr/indig/) βάσει στοιχείων του ΙΜΕ.
Αυτόματη ανάλυση και παραγωγή γραπτών ή προφορικών εκφράσεων φυσικής γλώσσας. Γλωσσική τεχνολογία Αυτόματη διόρθωση κειμένων, έξυπνα πληκτρολόγια. Μηχανική μετάφραση, πλέον και προφορικού λόγου. Διήθηση μηνυμάτων (π.χ. φίλτρα spam, tweets). Εξαγωγή πληροφοριών ή εξόρυξη γνώμης από κείμενα. Συστήματα ερωταποκρίσεων (π.χ. αναζήτηση πληροφοριών σε άρθρα βιοϊατρικής). Συστήματα προφορικών διαλόγων (π.χ. κρατήσεις εισιτηρίων, διάλογοι πλοήγησης σε αυτοκίνητο). Συστήματα αυτόματης παραγωγής κειμένων (π.χ. περιγραφές προϊόντων ή εκθεμάτων σε πολλές γλώσσες).
Γλωσσική τεχνολογία Πολύ σημαντική και στα πληροφοριακά συστήματα οργανισμών. Πολύ μεγάλο μέρος των γνώσεων των οργανισμών είναι διατυπωμένο σε φυσική γλώσσα (κανονισμοί, νόμοι, πατέντες, τεχνικές αναφορές, πρακτικά συναντήσεων, αλληλογραφία, εγχειρίδια κ.λπ.). Πολύ μεγάλο μέρος της επικοινωνίας με τους χρήστες/πελάτες γίνεται μέσω φυσικής γλώσσας (προφορικοί διάλογοι σε τηλεφωνικά κέντρα, ιστοσελίδες με περιγραφές προϊόντων, ηλεκτρονική αλληλογραφία, ιστολόγια, κοινωνικά δίκτυα κ.λπ.).
Επεξεργασία φυσικής γλώσσας (natural language prcessing): Κύριος στόχος η δημιουργία υπολογιστικών συστημάτων που να κατανοούν ή να παράγουν γραπτές εκφράσεις ΦΓ. Συνήθως θεωρείται υποτομέας της Τεχνητής Νοημοσύνης. Υπολογιστική γλωσσολογία (cmputatinal linguistics): Επίσης κυρίως γραπτή ΦΓ, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών, αλλά στην πράξη συνώνυμο της ΕΦΓ. Τα συνέδρια του Assciatin fr Cmputatinal Linguistics είναι τα σημαντικότερα συνέδρια ΕΦΓ. Την τελευταία (τουλάχιστον) δεκαετία πιο κοντά στην Πληροφορική παρά στη Γλωσσολογία. Γλωσσική τεχνολογία (human language technlgy): Πολλοί συναφείς όροι Λιγότερο καθιερωμένος όρος, συνήθως περιλαμβάνει και τεχνολογίες αναγνώρισης και σύνθεσης φωνής, έμφαση στη δημιουργία χρήσιμων υπολογιστικών συστημάτων.
Ανάλυση και παραγωγή στην ΕΦΓ υπολογιστική παράσταση (π.χ. λογική έκφραση, πίνακας, στατιστικό μοντέλο) υπολογιστική παράσταση (π.χ. βάση δεδομένων, μετρήσεις, τυπικές προδιαγραφές) σύστημα ανάλυσης ΦΓ σύστημα παραγωγής ΦΓ κείμενο (π.χ. ερώτηση, άρθρο εφημερίδας, εγκυκλοπαίδεια) κείμενο (π.χ. περιγραφή αντικειμένου, δελτίο καιρού, εγχειρίδιο) 11
Τα στάδια της ανάλυσης ανάλυση σχεδίου ανάλυση πραγματείας σημασιολογική ανάλυση συντακτική ανάλυση μορφολογική ανάλυση προεπεξεργασία Σκοποί του χρήστη, σχέδια δράσεως,... Αναφορικές εκφράσεις, σχέσεις μεταξύ προτάσεων,... Παράσταση του νοήματος των προτάσεων. Συντακτική δομή των προτάσεων. Πληροφορίες για τις λέξεις, π.χ. θέμα, κατάληξη, λήμμα, πρόσωπο, αριθμός, νόημα, Χωρισμός σε λεκτικές μονάδες, προτάσεις, χειρισμός HTML, 12
Συστήματα προφορικών διαλόγων «Θέλω να πάω στο Ηράκλειο.» (φωνή) αναγνώριση φωνής [θέλω, θα, πάω, στο,???] ανάλυση φυσικής γλώσσας διαχείριση διαλόγου παραγωγή φυσικής γλώσσας σύνθεση φωνής parameter-input(arrive-t, nise) parameter-ask(arrive-t) [πού, θέλετε, να, πάτε, ;] άλλα συστήματα «Πού θέλετε να πάτε;» (φωνή) 13
Ύλη του μαθήματος Γλωσσικά μοντέλα n-γραμμάτων, εκτιμήσεις πιθανοτήτων, ορθογραφικός έλεγχος, έξυπνα πληκτρολόγια. Κατηγοριοποίηση και παλινδρόμηση για κείμενα, λέξεις, ακολουθίες λέξεων, φίλτρα μηνυμάτων/σχολίων κλπ. Συντακτική ανάλυση με πιθανοτικές και μη γραμματικές. Σημασιολογική ανάλυση και ανάλυση πραγματείας. Στατιστική μηχανική μετάφραση. Εξαγωγή πληροφοριών και εξόρυξη γνώμης από έγγραφα. Συστήματα ερωταποκρίσεων για έγγραφα, οντολογίες. Παραγωγή περιλήψεων και παραγωγή κειμένων. Αναγνώριση ομιλίας και συστήματα προφορικών διαλόγων. 14
Απαιτούμενες γνώσεις, άλλα μαθήματα Βασικές γνώσεις μαθηματικών: Μαθηματικής ανάλυσης, διακριτών μαθηματικών, γραμμικής άλγεβρας και θεωρίας πιθανοτήτων. Για τις προγραμματιστικές ασκήσεις (βλ. παρακάτω) απαιτείται καλή γνώση προγραμματισμού. Π.χ. Java, C, C++, Pythn, Όσοι ενδιαφέρονται ιδιαίτερα για τη Γλωσσική Τεχνολογία καλό είναι να παρακολουθήσουν παράλληλα, χωρίς να απαιτείται, τα μαθήματα: Μηχανική Μάθηση Ανάκτηση Πληροφοριών 15
Εργαστήρια, ασκήσεις, εξετάσεις Εργαστήριο (1 ώρα) ανά εβδομάδα. Κυρίως παρουσιάσεις σχετικών εργαλείων, προηγούμενων πτυχιακών, διπλωματικών κλπ. Ασκήσεις μελέτης ανά ενότητα (~10 ενότητες). Πολλές λυμένες, άλλες άλυτες (βοηθήστε με καλές λύσεις!). Σε κάθε ενότητα: 1 ή 2 ασκήσεις (μερικές προγραμματιστικές) προς παράδοση. 50% του τελικού βαθμού. Εξετάσεις στο τέλος του εξαμήνου. 50% του τελικού βαθμού. 16
Ιστοσελίδες και βιβλία Ιστοσελίδες μαθήματος (http://eclass.aueb.gr/): Γραφτείτε στο μάθημα (στο e-class) για πλήρη πρόσβαση. Διαφάνειες, ανακοινώσεις, περιοχές συζητήσεων, κλπ. Βιβλία και βοηθήματα: Το μάθημα βασίζεται στο βιβλίο Speech and Language Prcessing των D. Jurafsky και J.H. Martin, 2 η έκδοση, Pearsn, 2009. Υπάρχει στη βιβλιοθήκη του ΟΠΑ. Πρόσθετη ύλη από άρθρα, βιβλία, κλπ. (βλ. βιβλιογραφία στις τελευταίες διαφάνειες κάθε ενότητας). Πολύ χρήσιμο είναι και το βιβλίο Fundatins f Statistical Natural Language Prcessing των C.D. Manning και H. Schutze, MIT Press, 1999. Υπάρχει στη βιβλιοθήκη του ΟΠΑ. 17