«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα



Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 9 ο : Σύνολα χαρακτήρων και UNICODE. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Εισαγωγή στον Προγραμματισμό

Αναπαράσταση Μη Αριθμητικών Δεδομένων

! Δεδομένα: ανεξάρτητα από τύπο και προέλευση, στον υπολογιστή υπάρχουν σε μία μορφή: 0 και 1

Σχεδίαση με Ηλεκτρονικούς Υπολογιστές (ΗΥ)

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Εισαγωγή στους Η/Υ. Γιώργος Δημητρίου. Μάθημα 7 και 8: Αναπαραστάσεις. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΑΣΚΗΣΗ 5 Ανάπτυξη Προγράμματος Συμπίεσης/Αποσυμπίεσης Αρχείων

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

Αναγνώριση Προτύπων Ι

ΥΠΟΛΟΓΙΣΤΕΣ Ι. Τα επιμέρους τμήματα Η ΟΜΗ TOY ΥΠΟΛΟΓΙΣΤΗ. Αναπαράσταση μεγεθών. Αναλογική αναπαράσταση ΚΕΝΤΡΙΚΗ ΜΝΗΜΗ ΜΟΝΑ Α ΕΛΕΓΧΟΥ

Αναπαράσταση Δεδομένων (2 ο μέρος) ΜΥΥ-106 Εισαγωγή στους Η/Υ και στην Πληροφορική

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΟΥ

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD

Μάθημα 2: Παράσταση της Πληροφορίας

Υπολογιστές Ι. Άδειες Χρήσης. Εισαγωγή. Διδάσκοντες: Αν. Καθ. Δ. Παπαγεωργίου, Αν. Καθ. Ε. Λοιδωρίκης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΗ ΑΣΚΗΣΗ 2

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Εισαγωγή στην Επιστήμη των Υπολογιστών

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Επικοινωνία Ανθρώπου Υπολογιστή

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Ενότητες Γ3.1 - Γ3.2 - Γ3.3

Τίτλος Πακέτου Certified Computer Expert-ACTA

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Διδακτική Προγραμματισμού. Χαρίκλεια Τσαλαπάτα 20/2/2012

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

Κείμενο ASCII Unicode - HTML. Κωδικοποίηση ASCII / Unicode HTML

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Προγραμματισμός Υπολογιστών

Γραμματισμός στο νηπιαγωγείο. Μαρία Παπαδοπούλου

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. 5 ο Μάθημα. Λεωνίδας Αλεξόπουλος Λέκτορας ΕΜΠ. url:

ΗΥ Λογική. Διδάσκων: Δημήτρης Πλεξουσάκης Καθηγητής

Ανάπτυξη και Σχεδίαση Λογισμικού

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Δομημένος Προγραμματισμός

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 18/10/07

5. Λόγος, γλώσσα και ομιλία

ΑΕΠΠ Ερωτήσεις θεωρίας

ΠΡΟΚΗΡΥΞΗ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Περιεχόµενα. Ανασκόπηση - Ορισµοί. Ο κύκλος ανάπτυξης προγράµµατος. Γλώσσες Προγραµµατισµού Ασκήσεις

Επανάληψη για τις Τελικές εξετάσεις. (Διάλεξη 24) ΕΠΛ 032: ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΜΕΘΟΔΩΝ ΕΠΙΛΥΣΗΣ ΠΡΟΒΛΗΜΑΤΩΝ

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) ADVANCED αντικειμενοστραφής προγραμματισμός ΕΚΔΟΣΗ 1.0. Σόλωνος 108,Τηλ Φαξ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 11/10/07

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 3, 7, 8 & 9 25/10/07

Υπολογίσιμες Συναρτήσεις

Δυσλεξία και Ξένη Γλώσσα

Εισαγωγή στις Αρχές της Επιστήμης των ΗΥ

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών 6

Αναπαράσταση Δεδομένων

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

Συμβολοσειρές ΣΥΜΒΟΛΟΣΕΙΡΕΣ. Γεώργιος Παπαϊωάννου ( )

Προγραμματισμός Ι (HY120)

Προγραμματισμός Η/Υ (ΤΛ2007 )

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Εισαγωγή στον Προγραμματισμό

Πληροφορική 2. Γλώσσες Προγραμματισμού

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού

Mεταβλητές (variables) και Σταθερές (constants)

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit!

Εισαγωγή στον Προγραμματισμό

Αριθμητικά Συστήματα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Γράφοντας ένα σχολικό βιβλίο για τα Μαθηματικά. Μαριάννα Τζεκάκη Αν. Καθηγήτρια Α.Π.Θ. Μ. Καλδρυμίδου Αν. Καθηγήτρια Πανεπιστημίου Ιωαννίνων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό

ΠΡΟΚΗΡΥΞΗ ΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Εισαγωγή στην Επιστήμη των Υπολογιστών

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Πράξεις με δυαδικούς αριθμούς

ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΓΛΩΣΣΙΚΟΥ ΜΑΘΗΜΑΤΟΣ

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΥΠΟΛΟΓΙΣΤΩΝ

Περιεχόμενα. 2 Αριθμητικά συστήματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Transcript:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 1: Γενική Επισκόπηση Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γενική Επισκόπηση και ιστορική αναδρομή «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση

Τι είναι η γλωσσική τεχνολογία; Η ανάπτυξη υπολογιστικών μοντέλων επεξεργασίας πληροφορίας εκφρασμένης σε φυσική γλώσσα Γλώσσα: μέσο καταγραφής και ανταλλαγής πληροφορίας Φυσική γλώσσα: μέσο για την επικοινωνία μεταξύ ανθρώπων Τεχνητή γλώσσα: μέσο για την επικοινωνία ανθρώπου - μηχανής «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 2

Γλωσσική τεχνολογία Αυτόματη ανάλυση («κατανόηση»;) και παραγωγή γραπτών ή προφορικών εκφράσεων φυσικής γλώσσας Αυτόματη διόρθωση κειμένων, μηχανική μετάφραση, εξαγωγή πληροφορίας, αυτόματη παραγωγή περιλήψεων, συστήματα ερωταποκρίσεων, διαλογικά συστήματα, αυτόματη παραγωγή κειμένων, κ.α. Διάφορα μέσα περιέχουν φυσική γλώσσα Γραπτός λόγος (κείμενα), προφορικός λόγος (ομιλία), εικόνα εγγράφου, κλπ. «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 3

Γιατί είναι σημαντική; (1) Πολύ μεγάλο μέρος της καταγεγραμμένης ανθρώπινης γνώσης είναι εκφρασμένο σε φυσική γλώσσα Γνώση οργανισμών: νόμοι, κανονισμοί, πατέντες, αναφορές, πρακτικά, αλληλογραφία, εγχειρίδια, οδηγίες, κλπ. Πληροφορία από/για χρήστες: ιστόχωροι οργανισμών, περιγραφές προϊόντων, ηλεκτρονική αλληλογραφία, ιστολόγια, επικοινωνία μέσω κοινωνικών δικτύων, φόρα συζητήσεων, κλπ. «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 4

Γιατί είναι σημαντική; (2) Η ραγδαία ανάπτυξη του παγκόσμιου ιστού έχει καταστήσει μεγάλους όγκους πληροφορίας άμεσα προσβάσιμους Οδηγώντας στην υπερ-πληροφόρηση Η γλωσσική τεχνολογία έχει ήδη συμβάλει στην ανακάλυψη νέων τρόπων για την καλύτερη συμβίωσή μας με την τεχνολογία Συστήματα που: αναγνωρίζουν ομιλία και γραφή, κατανοούν κείμενα αρκετά καλά ώστε να μπορούν να επιλέγουν πληροφορίες, μεταφράζουν από μια γλώσσα σε άλλες, συνθέτουν ομιλία και κείμενα, κλπ. «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 5

Όμως, δεν είναι εύκολη Η φυσική γλώσσα είναι περίπλοκη Πολλαπλοί τρόποι έκφρασης της ίδιας πληροφορίας, ασάφεια, ελλιπής πληροφορία, διαφορετικό νόημα ανάλογα το περιβάλλον, δημιουργία νέων εκφράσεων, κλπ. επειδή απευθύνεται σε ανθρώπους Οι οποίοι χρησιμοποιούν γνώση του κόσμου και εμπειρία για την κατανόηση της φυσικής γλώσσας Η μηχανή δυσκολεύεται σημαντικά Περιορισμένη γνώση του κόσμου: εστίαση σε θεματικές περιοχές, χρήση οντολογιών «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 6

Ασάφεια Φωνολογική: «λύπη, λίπη, λείπει», «στον ώμο, στο νόμο» Μορφολογική: «η/την μητέρα» Συντακτική: «Κάνε το δικό σου.» Σημασιολογική: «τόνος», «σκοπός», «ρόκα» Πραγματολογική: «Ξέρεις τι ώρα είναι;» «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 7

Πολλοί συναφείς όροι Επεξεργασία φυσικής γλώσσας (natural language processing) Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών συστημάτων, υποτομέας της ΤΝ Υπολογιστική γλωσσολογία (computational linguistics) Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών Θεωρητική προσέγγιση, πλέον συνώνυμο της ΕΦΓ Γλωσσική τεχνολογία (human language technology) Λιγότερο καθιερωμένος όρος, συνήθως περιλαμβάνει και τεχνολογίες αναγνώρισης και σύνθεσης φωνής, έμφαση στη δημιουργία χρήσιμων υπολογιστικών συστημάτων «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 8

Ανάλυση και παραγωγή Υπολογιστική αναπαράσταση (π.χ. λογική έκφραση, πίνακας, στατιστικό μοντέλο) Υπολογιστική αναπαράσταση (π.χ. βάση δεδομένων, μετρήσεις, προδιαγραφές) Σύστημα ανάλυσης φυσικής γλώσσας Σύστημα παραγωγής φυσικής γλώσσας Κείμενο (π.χ. άρθρο εφημερίδας, ανάρτηση ιστολογίου, κλπ.) Κείμενο (π.χ. περιγραφή αντικειμένου, πρόγνωση καιρού, κλπ.) «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 9

Επίπεδα ανάλυσης Προ-επεξεργασία Μορφολογική ανάλυση Συντακτική ανάλυση Σημασιολογική ανάλυση Ανάλυση πραγματείας Αναγνώριση λέξεων, προτάσεων, Πληροφορίες για τις λέξεις, όπως θέμα, κατάληξη, πρόσωπο, αριθμό, γένος, Συντακτική δομή περιόδων, ρόλοι των λέξεων, κλπ. Αναγνώριση του νοήματος των προτάσεων Αναφορικές εκφράσεις, σχέσεις μεταξύ προτάσεων Ανάλυση σχεδίου Σκοποί του χρήστη, σχέδια δράσεως, «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 10

Σύντομη ανασκόπηση (1) Η γλωσσική τεχνολογία είναι τόσο παλιά, όσο και οι Η/Υ Η έρευνα ξεκίνησε την δεκαετία του 1950 Μεγάλη επιρροή άσκησε η έρευνα του Noam Chomsky Διατύπωσε θεωρίες σχετικά με την εκμάθηση της γλώσσας από τα παιδιά Όρισε μια ιεραρχία γλωσσών, αποτελούμενη από 4 κατηγορίες τυπικών γραμματικών (formal languages) Κανονικές, ανεξάρτητες από τα συμφραζόμενα, εξαρτημένες από τα συμφραζόμενα, απεριόριστες «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 11

Σύντομη ανασκόπηση (2) 1950 1965: Πρώτα βήματα, έμφαση στην μηχανική μετάφραση 1965 1980: Έμφαση στην σημασιολογία 1980 1990: Έμφαση στην σύνταξη, την (στατιστική) μηχανική μετάφραση, την αναγνώριση ομιλίας 1990 σήμερα: Έμφαση στις εργασίες χαμηλού επιπέδου, την συνεργασία ΕΦΓ και μηχανικής μάθησης, την εξαγωγή πληροφορίας, την αξιολόγηση «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 12

Παραδείγματα εφαρμογών (1) Υποστήριξη συγγραφής Ορθογραφική/συντακτική διόρθωση, συστήματα υπαγόρευσης Μετάφραση κειμένων Κατηγοριοποίηση και φιλτράρισμα κειμένων Μηχανές αναζήτησης Εξαγωγή πληροφορίας παραγωγή περίληψης Διεπαφές σε φυσική γλώσσα Σε βάσεις δεδομένων/μηχανές αναζήτησης, διαλογικά συστήματα, αυτοματοποιημένες υπηρεσίες μέσω τηλεφώνου «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 13

Παραδείγματα εφαρμογών (2) Δρομολόγηση αλληλογραφίας Αυτόματος υποτιτλισμός Αντιστοίχηση βιογραφικών με αγγελίες ευρέσεως εργασίας Εξαγωγή στοιχείων για τον συγγραφέα από τον τρόπο γραφής (stylometry) Εντοπισμός αντιγράφων, αυθεντικότητα κειμένων, κλπ. Εντοπισμός συναισθήματος «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 14

Κοινές εργασίες Αναγνώριση ομιλίας, OCR Καθάρισμα κειμένων (π.χ. από HTML) Αναγνώριση λέξεων/προτάσεων Αναγνώριση μερών του λόγου Ρηχή συντακτική ανάλυση Αναγνώριση ονομάτων οντοτήτων Εξαγωγή συσχετίσεων Αναγνώριση συναισθήματος/πολικότητας Αποσαφήνιση έννοιας λέξεων «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 15

Πλατφόρμες Υποδομές ενθυλάκωσης εργαλείων ΕΦΓ GATE - http://gate.ac.uk/ Η πρώτη δημοφιλής πλατφόρμα Java Ellogon - http://www.ellogon.org/ Η πρώτη UNICODE πλατφόρμα C/C++/Tcl/ NLTK - http://nltk.org/ Η «εκπαιδευτική» πλατφόρμα Python Apache UIMA - http://uima.apache.org/ Η «ανερχόμενη» πλατφόρμα Java/C++ «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 16

Ανασκόπηση Γλωσσική τεχνολογία: γλωσσικές δυνατότητες που ενσωματώνονται σε συστήματα πληροφορικής και επικοινωνιακής τεχνολογίας Αφορά την ανάλυση και παραγωγή φυσικής γλώσσας Είναι σημαντική και ταυτόχρονα δύσκολη Έξι επίπεδα ανάλυσης Σύντομη ανασκόπηση Ενδεικτικές εφαρμογές/κοινές εργασίες Πλατφόρμες ΕΦΓ «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 18

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση

«Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση < 20 > Οι διαφάνειες αυτής της ενότητας βασίζονται στα κεφάλαια 1, 2 και 3 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010.

Μοντέλα και αλγόριθμοι (1) Τα ποικίλα είδη γνώσης της ΕΦΓ μπορούν να αναπαρασταθούν από ένα μικρό σύνολο τυπικών μεθόδων (formal methods) ή θεωριών Προέρχονται από τον χώρο της επιστήμης υπολογιστών, των μαθηματικών και της γλωσσολογίας «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 21

Μοντέλα και αλγόριθμοι (2) Σημαντικές μέθοδοι: Μηχανές καταστάσεων (state machines) Συστήματα τυπικών κανόνων (formal rule systems) Λογική Θεωρία πιθανοτήτων Μηχανική μάθηση (machine learning) «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 22

Μηχανές καταστάσεων Τυπικά μοντέλα που αποτελούνται: Καταστάσεις Μεταβάσεις μεταξύ καταστάσεων Αναπαράσταση εισόδου Διάφοροι τύποι: (Μη) ντετερμινιστικά αυτόματα πεπερασμένων καταστάσεων Finite state transducers Αυτόματα με βάρη Αυτόματα με πιθανότητες (Markov models) «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 23

Δηλωτικά μοντέλα Συστήματα τυπικών κανόνων: Κανονικές γραμματικές Γραμματικές ανεξάρτητες από συμφραζόμενα Γραμματικές με χαρακτηριστικά (feature augmented grammars) Πιθανοτικές παραλλαγές Συνήθως χρησιμοποιούνται στον χειρισμό γνώσης: Φωνολογίας Μορφολογίας Σύνταξης «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 24

Λογική Επίσης δημοφιλές μοντέλο, κυρίως για την σημασιολογική/πραγματολογική ανάλυση, καθώς και την επεξεργασία λόγου First order logic Predicate calculus Επαγωγή/απαγωγή Το κυρίαρχο μοντέλο για την αξιοποίηση οντολογιών «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 25

Θεωρία πιθανοτήτων Το κυρίαρχο μοντέλο αναπαράστασης γλωσσολογικής γνώσης Όλα τα προηγούμενα μοντέλα μπορούν να εμπλουτιστούν με πιθανότητες Μπορεί να λύσει πολλά είδη προβλημάτων ασάφειας Σχεδόν κάθε πρόβλημα ΕΦΓ μπορεί να δοθεί σαν: «δεδομένων Ν επιλογών για μια ασαφή είσοδο, επέλεξε την πιο πιθανή» Εκμάθηση πιθανοτικών μοντέλων από σώματα κειμένων (μηχανική μάθηση) «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 26

Στατιστική ανάλυση Στατιστική συμπερασματολογία Κλάδος της στατιστικής Ασχολείται με μεθόδους μεταφοράς πληροφοριών από δείγμα στον γενικό πληθυσμό Περιλαμβάνει: Εκτιμητική: εκτίμηση παραμέτρων πληθυσμού με βάση αντίστοιχες παραμέτρους του δείγματος Έλεγχο υποθέσεων: επιβεβαίωση/απόρριψη ισχυρισμών για τις τιμές παραμέτρων του πληθυσμού Διατύπωση στατιστικών μοντέλων εκτίμησης τιμής/διαστήματος εμπιστοσύνης εξαρτημένων μεταβλητών, με βάση τιμές ανεξάρτητων μεταβλητών «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 27

Στατιστικός έλεγχος Η διαδικασία της γενίκευσης από ένα δείγμα στον πληθυσμό δεν είναι συχνά δίχως σφάλματα Σφάλμα τύπου Ι (α): η πιθανότητα απόρριψης μιας υπόθεσης Η, ενώ είναι ορθή Ονομάζεται και στάθμη σημαντικότητας του ελέγχου Σφάλμα τύπου ΙΙ (β): η πιθανότητα αποδοχής μιας υπόθεσης Η, ενώ είναι λανθασμένη Η πιθανότητα γ = 1 β ονομάζεται ισχύς ελέγχου Υπάρχουν διάφορες τεχνικές ελέγχου Απαρίθμηση μερικών στις σελ. 31-32 «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 28

Μέτρα αποτίμησης Η αποτίμηση/εκτίμηση της αποδοτικότητας συστημάτων ΕΦΓ είναι σημαντική Κυρίαρχα μέτρα αποτίμησης: Ακρίβεια (precision) Πόσες από τις απαντήσεις που έδωσε ένα σύστημα είναι σωστές Ανάκληση (recall) Πόσα ερωτήματα προς το σύστημα απαντήθηκαν σωστά F-measure: συνδυασμός ακρίβειας και ανάκλησης «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 29

Ανάκτηση πληροφορίας Παράδειγμα (1) Υποθέτουμε ένα σύνολο εγγράφων Υποθέτουμε ένα σύνολο ερωτημάτων Κάθε ερώτημα πρέπει να απαντηθεί με ένα σύνολο εγγράφων, που ικανοποιούν το ερώτημα Έστω ερώτημα q, και R το σύνολο των σχετικών εγγράφων Έστω ένα ελεγχόμενο σύστημα ΕΦΓ, επεξεργάζεται το ερώτημα q, και επιστρέφει το σύνολο εγγράφων A «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 30

Παράδειγμα (2) R RR A Έστω: R : ο αριθμός των εγγράφων στο σύνολο R A : ο αριθμός των εγγράφων στο σύνολο A RR : ο αριθμός των εγγράφων στην τομή R A Ακρίβεια = RR A Ανάκληση = RR R αααααααα αααααααα F 1 = 2 αααααααα + αααααααα «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 31

Παράδειγμα (3) R A «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 32

Μέση ακρίβεια, ανάκληση Είδαμε την περίπτωση ενός ερωτήματος Αν έχουμε ένα σύνολο ερωτημάτων N, υπολογίζουμε τον μέσο όρο: N P = P i N i=1 N R = R i N i=1 «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 33

Αξιολόγηση ταξινομητών Ταξινομητής: κατηγοριοποίηση σε n κατηγορίες Συνολικά για n κατηγορίες: Macro averaging (ίσο βάρος σε όλες τις κατηγορίες): N P i MMMMM P = i=1, MMMMM R = R i i=1 Micro averaging (σημαντικότερες οι πολυπληθέστερες): MMMMM P = N n i=1 n i=1 A i RR i N N, MMMMM R = n i=1 RR i n i=1 R i «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 34

ΣΥΝΟΛΑ ΧΑΡΑΚΤΗΡΩΝ ΚΑΙ UNICODE Τι είναι αυτά, και γιατί με αφορούν; «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση

Σύνολα χαρακτήρων; (1) Τι είναι αυτά, και γιατί με αφορούν; Σχετίζονται με την επεξεργασία φυσικής γλώσσας; Έχετε λάβει ποτέ e-mail με το εύγλωττο θέμα «????????????????»; Χρειάστηκε να γράψετε ποτέ κώδικα που θα διαχειρίζεται e-mails στα Ιαπωνικά; Έχετε αναρωτηθεί τι κάνει αυτή η «μυστηριώδης» ετικέτα «Content-Type» στην HTML; «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 36

Σύνολα χαρακτήρων; (2) Δεν βλέπετε κανένα λάθος στο ακόλουθο: Απλό κείμενο ASCII Χαρακτήρες 8 δυφίων; «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 37

Ιστορική αναδρομή (1) Το 1963 δημοσιεύθηκε το πρότυπο ASCII (American Standard Code for Information Interchange) Αφορούσε του αγγλικούς χαρακτήρες Κωδικοποιούσε χαρακτήρες με έναν αριθμό από το 32 έως το 127 Π.χ. το κενό είναι το 32, το A το 65, κλπ. Χρησιμοποιούσε 7 δυφία (bits) Οι κωδικοί κάτω από το 32 αναφέρονται σαν «μη εκτυπώσιμοι», και αποτελούν χαρακτήρες ελέγχου Ο χαρακτήρας 7 παράγει ένα «μπιπ» «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 38

ASCII «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 39

Ιστορική αναδρομή (2) Επειδή όμως το byte χωρά 8 δυφία, αρκετοί σκέφτηκαν: «Μμμ, μπορούμε να χρησιμοποιήσουμε τους κωδικούς 128-255 για άλλους σκοπούς» Το πρόβλημα ήταν ότι πολλοί είχαν την ίδια ιδέα, την ίδια στιγμή, για διαφορετικούς σκοπούς IBM-PC: OEM character set ή ASCII-DOS Μια κωδικοσελίδα που πρόσθεσε μερικούς τονισμένους χαρακτήρες, και χαρακτήρες σχεδίασης «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 40

Ιστορική αναδρομή (3) Η εξάπλωση των υπολογιστών ανά την υφήλιο, έφερε πληθώρα κωδικοσελίδων Τις οποίες ανέλαβε να οργανώσει ο οργανισμός ANSI Οι κωδικοί < 128 είναι ίδιοι (ASCII) Οι κωδικοί > 127 διαφέρουν, ανάλογα την κωδικοσελίδα (code page) Η κωδικοσελίδα 737 περιέχει τα ελληνικά σε περιβάλλον DOS «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 41

Ιστορική αναδρομή (4) Τα ασιατικά αλφάβητα ωστόσο, έχουν χιλιάδες «χαρακτήρες», οι οποίοι δεν χωρούν σε 8 δυφία Η λύση δόθηκε μέσω του DBCS (double byte character set) Ένας χαρακτήρας μπορεί να ήταν 1 ή δύο bytes Ήταν εύκολο να προσπεράσεις μια συμβολοσειρά από την αρχή προς το τέλος, αλλά όχι το αντίστροφο Χρήση συναρτήσεων όπως AnsiNext() & AnsiPrev() για μετακινήσεις μέσα σε συμβολοσειρές «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 42

Ιστορική αναδρομή (5) Ωστόσο, για πολύ καιρό «προσποιούμασταν» ότι ένα byte ήταν ένας χαρακτήρας, και τα πάντα δούλευαν όσο: Ήμασταν στο ίδιο λειτουργικό σύστημα Τα πάντα ήταν σε μια γλώσσα Μέχρι που ήρθε ο παγκόσμιος ιστός Όπου τα πάντα μπερδέυτηκαν Ευτυχώς όμως, είχε εφευρεθεί το UNICODE! «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 43

UNICODE (1) To UNICODE προσπαθεί να δημιουργήσει ένα σύνολο χαρακτήρων για όλες τις γλώσσες του κόσμου Μύθος: οι χαρακτήρες του UNICODE έχουν μήκος 16 δυφία, οπότε περιγράφονται μόνο 65536 χαρακτήρες Αυτό δεν ισχύει Κάθε γράμμα αντιστοιχίζεται με ένα code point Α U+0391, ΰ U+03B0 (charmap.exe) Hello U+0048 U+0065 U+006C U+006C U+006F «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 44

UNICODE (2) Μια συμβολοσειρά είναι ένα σύνολο από code points Αναπαράσταση στην μνήμη/δίσκο; Κωδικοποιήσεις (encodings) Hello U+0048 U+0065 U+006C U+006C U+006F Big endian: 00 48 00 65 00 6C 00 6C 00 6F (BOM: FE FF) Little-endian: 48 00 65 00 6C 00 6C 00 6F 00 (BOM: FF FE) BOM: Byte Order Marker Encoding: UCS-2 (2 bytes) or UTF-16 (16 δυφία) Υπάρχει και το UCS-4, ή UTF-32! «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 45

UNICODE (3) Μια θαυμάσια ιδέα: UTF-8 Μια ακόμα κωδικοποίηση, που χρησιμοποίει bytes 8 δυφίων Κάθε χαρακτήρας από το 0-127, κωδικοποιείται με 1 byte Χαρακτήρες > 127, κωδικοποιούνται σε 2, 3,, 6 bytes Οι αγγλικοί χαρακτήρες αναπαριστώνται με τον ίδιο τρόπο όπως στο ASCII Και φυσικά καταλαμβάνουν τον ίδιο χώρο στην μνήμη «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 46

UNICODE (4) Και φυσικά είναι δυνατή η μετατροπή σε εκατοντάδες κωδικοσελίδες: ISO-8859-1 (Latin-1), ISO-8859-15, Windows-1252 (Αγγλικά) ISO-8859-7, Windows-1253 (Ελληνικά) «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 47

Τι κρατάμε από όλα αυτά; Ότι δεν έχει καμιά σημασία να έχουμε μια συμβολοσειρά, αν δεν ξέρουμε την κωδικοποίησή της! «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 48

C++ Για να χρησιμοποιήσουμε UCS-2: char wchar_t str*() wcs*() strlen() wcslen() Literal strings: wchar_t *str = L Hello ; «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 49

C++11 char: size enough for UTF-8 wchar_t : undefined size, semantics Adds support for 2 more encodings: char16_t, char32_t u8"this is a Unicode Character: \u2018." u"this is a bigger Unicode Character: \u2018." U"This is a Unicode Character: \U00002018." «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 50

Java Στην Java, τα πάντα αναπαριστώνται σε UCS-2 Ο τύπος char είναι 16 δυφίων Αυτό σημαίνει ότι χωράνε μόνο οι πρώτοι 65,536 χαρακτήρες του UNICODE Οι υπόλοιποι ονομάστηκαν «συμπληρωματικοί» (supplementary characters) Αναπαριστώνται σαν δυάδες από char String newstring(int codepoint) { return new String(Character.toChars(codePoint)); } Περισσότερα εδώ: http://docs.oracle.com/javase/tutorial/i18n/text/usage.html «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 51

Python (1) Η python υποστηρίζει επίσης UNICODE Αν και δεν είναι ο εγγενής της τύπος >>> import sys >>> import codecs >>> sys.stdin.encoding cp1253 >>> sys.stdout.encoding cp1253 >>> sys.stdout = codecs.getwriter("cp1253" )(sys.stdout) «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 52

Python (2) >>> a = unicode("απλό τεστ στα ελληνικά", "cp1253" ) >>> a u"\u03b1\u03c0\u03bb\u03cc \u03c4\u03b5\u03c3\u03c4 \u03c3\u03c4\u03b1 \u03b5\u03bb\u03bb\u03b7\u03bd\u03b9\u03ba\u03ac" >>> print a απλό τεστ στα ελληνικά >>> import nltk >>> b = nltk.word_tokenize(a) >>> print b [u"\u03b1\u03c0\u03bb\u03cc", u"\u03c4\u03b5\u03c3\u03c4", u"\u03c3\u03c4\u03b1", "\u03b5\u03bb\u03bb\u03b7\u03bd\u03b9\u03ba\u03ac"] >>> for item in b: print item απλό τεστ στα ελληνικά «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 53

Tcl/Tk H Tcl χρησιμοποιεί εγγενή αναπαράσταση σε UTF-8: set fd [open file.txt] fconfigure $fd encoding utf-8 puts $fd Καλημέρα Κόσμε! close $fd > string is upper Λ > 1 > string tolower ΚΑΛΗΜΕΡΑ > καλημερα «Τεχνογλωσσία» VIII, Σεμινάριο 1, Γενική Επισκόπηση 54