«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 6 ο : Ανάλυση πραγματείας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. 5 η Ενότητα: Ανάλυση πραγματείας. Ίων Ανδρουτσόπουλος.

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

Εισαγωγή στη Γλωσσολογία Ι

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

A systematic study of the universal properties and of the structure of cartographical language is still at an elementary stage. The fundamental basis

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

άλγεβρα και αλγεβρική σκέψη στην πρώτη σχολική περίοδο (Νηπιαγωγείο Δημοτικό) μαρία καλδρυμίδου

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

LESSON 28 (ΜΑΘΗΜΑ ΕΙΚΟΣΙ ΟΚΤΩ) REF : 201/033/28. 2 December 2014

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 6: Προτασιακός Λογισμός: Μέθοδος Επίλυσης Τμήμα Επιστήμης Υπολογιστών

Οι σύνθετες προτάσεις αποτελούνται από δύο ή περισσότερες απλές προτάσεις που συνδέονται μεταξύ τους με συνδετικά στοιχεία.

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

ΑΝΑΜΟΡΦΩΜΕΝΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΛΛΗΝΙΚΗΣ ΝΟΗΜΑΤΙΚΗΣ ΓΛΩΣΣΑΣ Α ΤΑΞΗ (Σ. Καρύπη, Μ. Χατζοπούλου) Ι.Ε.Π Περιεχόμενο γενικών στόχων

Η Μουσική ως Γλώσσα: Μέθοδοι συνοχής στο μουσικό και το γλωσσικό κείμενο

THE ROLE OF IMPLICIT MODELS IN SOLVING VERBAL PROBLEMS IN MULTIPLICATION AND DIVISION

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Ευφυής Προγραμματισμός

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

Ανάκτηση Πληροφορίας

Αναπτυξιακά ορόσημα λόγου

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΣΚΗΣΗ 11: ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ - ΣΥΝΤΑΚΤΙΚΗ ΑΝΑΛΥΣΗ (PARSING)

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ

Διαφοροποίηση στα φύλλα εργασίας

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙΔΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Πρόβλημα 29 / σελίδα 28

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2019 Β ΦΑΣΗ Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

Πληροφοριακά Συστήματα Διοίκησης

ΕΠΑΝΑΛΗΨΗ ΨΕΥΔΟΛΕΞΕΩΝ ΑΠΟ ΠΑΙΔΙΑ ΜΕ ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ ΚΑΙ ΠΑΙΔΙΑ ΤΥΠΙΚΗΣ ΑΝΑΠΤΥΞΗΣ

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ (5 Ο ΜΑΘΗΜΑ)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΠΡΑΓΜΑΤΟΛΟΓΙΑ - PRAGMATICS

άλγεβρα και αλγεβρική σκέψη μαρία καλδρυμίδου

Η ΘΕΩΡΙΑ ΤΟΥ Χ --Η ΔΟΜΗ ΤΗΣ ΡΦ, ΠΡΦ, ΕΦ, ΟΦ

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Α Διαγώνισμα 1 ου Τριμήνου στο μάθημα της Πληροφορικής Γ Γυμνασίου Ονοματεπώνυμο:...

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

A. Να γράψετε τον αριθμό της κάθε μιας από τις παρακάτω προτάσεις και δίπλα. το γράμμα Σ, εάν είναι σωστή, ή το γράμμα Λ, εάν είναι λανθασμένη.

Μελέτη περίπτωσης εργαλεία κοινωνικής δικτύωσης - MultiBlog. Ισπανική γλώσσα. 33 φοιτητές (ενήλικες > 25 ετών) και 2 εκπαιδευτικοί

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Η παραγωγή αναφορικών προτάσεων από κυπριόπουλα παιδιά με Γλωσσική Διαταραχή

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

ΓΥΜΝΑΣΙΟ ΠΑΛΟΥΡΙΩΤΙΣΣΑΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας

Ακρότατα πίνακα, χωρίς min, max, μόνο με pos

Εισαγωγή στη Διαδικασία Ιεραρχικής Ανάλυσης. Ρόκου Έλενα Μεταδιδακτορική Ερευνήτρια ΕΜΠ Κηρυττόπουλος Κωνσταντίνος Επ.

ΑΓΓΛΙΚΑ IV. Ενότητα 6: Analysis of Greece: Your Strategic Partner in Southeast Europe. Ιφιγένεια Μαχίλη Τμήμα Οικονομικών Επιστημών

Από το Μοντέλο Οντοτήτων Συσχετίσεων στο Σχεσιακό Μοντέλο

Μανώλης Ισχάκης - Πνευματικά δικαιώματα - για περισσότερη εκπαίδευση

Εισαγωγή στα Πληροφοριακά Συστήματα

ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Τη γλώσσα μου έδωσαν ellhnikh. Μαρία Γαβριηλίδου, ΙΕΛ/ΕΚ Αθηνά Παγκόσμια Ημέρα Μετάφρασης 29 Σεπτεμβρίου 2018, ΕΙΕ

Δείκτες Επικοινωνιακής Επάρκειας Κατανόησης και Παραγωγής Γραπτού και Προφορικού Λόγου Α1/Α2

Αναγνώριση Προτύπων Ι

Σχεσιακή Άλγεβρα Σχεδιασμός Βάσεων Δεδομένων

Φροντιστήρια "ΠΡΟΟΠΤΙΚΗ" 1. Οδηγίες για την αξιολόγηση των φιλολογικών μαθημάτων στο Γυμνάσιο

Εκπαιδευτική παρέμβαση στον αφηγηματικό λόγο νηπίου με γλωσσική διαταραχή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

Τεχνογλωσσία 8 Β' Εξάμηνο. Λογικός Προγραμματισμός Prolog. Άσκηση: Διορθωτής Εκφράσεων

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Τεχνητή Νοημοσύνη ( )

1: Λογισμικό μετατροπής λόγου σε κείμενο (Ελληνική γλώσσα) Δυνατότητα αναγνώρισης προηχογραφημένης ομιλίας και από αρχεία wav

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Πληροφορική II. Ενότητα 5 : Δομές Δεδομένων και αφηρημένοι. τύποι δεδομένων. Δρ. Γκόγκος Χρήστος

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Η-Υ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ. Εργαστήριο 1 Εισαγωγή στη C. Σοφία Μπαλτζή s.mpaltzi@di.uoa.gr

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Transcript:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 6: Ανάλυση Πραγματείας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014

«Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας < 1 > Οι διαφάνειες αυτού του μαθήματος βασίζονται στο κεφάλαιο 21 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό. Μερικά παραδείγματα βασίζονται σε διαφάνειες του Δρ. Ίων Ανδρουτσόπουλου, ΟΠΑ. http://www.aueb.gr/users/ion/

Επίπεδα ανάλυσης Προ-επεξεργασία Μορφολογική ανάλυση Συντακτική ανάλυση Σημασιολογική ανάλυση Ανάλυση πραγματείας Αναγνώριση λέξεων, προτάσεων, Πληροφορίες για τις λέξεις, όπως θέμα, κατάληξη, πρόσωπο, αριθμό, γένος, Συντακτική δομή περιόδων, ρόλοι των λέξεων, κλπ. Αναγνώριση του νοήματος των προτάσεων Αναφορικές εκφράσεις, σχέσεις μεταξύ προτάσεων Ανάλυση σχεδίου Σκοποί του χρήστη, σχέδια δράσεως, «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 2

Ανάλυση πραγματείας (1) Στην μελέτη της γλώσσας, μερικές από τις πιο ενδιαφέρουσες ερωτήσεις προκύπτουν σε σχέση με τον τρόπο που χρησιμοποιείται η γλώσσα Αντί για το ποια είναι τα συστατικά της Σημασιολογική ανάλυση: Ασχοληθήκαμε με το πώς οι χρήστες της γλώσσας ερμηνεύουν αυτό που άλλοι χρήστες εννοούν «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 3

Ανάλυση πραγματείας (2) Αν πάμε ένα βήμα παραπέρα, και ασχοληθούμε με το πώς: Βγάζουμε νόημα διαβάζοντας κείμενα Καταλαβαίνουμε τι εννοεί κάποιος άσχετα με το ως το εκφράζει Αναγνωρίζουμε συνδεδεμένες προτάσεις σε σχέση με προτάσεις «ατάκτως ερριμμένες» Συμμετέχουμε σε μια συζήτηση Τότε εκτελούμε ανάλυση πραγματείας «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 4

Ανάλυση πραγματείας (3) Μελέτη της πραγματικής έννοιας και νοήματος (των προτάσεων/εκφωνημάτων) πέρα από τη σημασία Ουσιαστικά αρχίζει εκεί που τερματίζει η σημασιολογική ανάλυση «Η γλώσσα πέρα από την πρόταση ή πέρα από την φράση» (Stubbs, 1983) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 5

Ανάλυση πραγματείας (4) Η ανάλυση πραγματείας (discourse) ασχολείται με: Την μελέτη των σχέσεων μεταξύ των προτάσεων (ή τμημάτων τους), ενός μονολόγου ή ενός διαλόγου Του τρόπου με τον οποίο προτάσεις σχηματίζουν μεγαλύτερες μονάδες με νόημα, όπως παραγράφους, μονολόγους, συζητήσεις, κλπ. Του τρόπου με τον οποίο λέξεις/φράσεις/προτάσεις πρέπει να ερμηνευτούν όλες μαζί Την μελέτη της συνεκτικότητας (coherence) της φυσικής γλώσσας «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 6

Παραδείγματα (1) The Tin Woodman went to the Emerald City to see the Wizard of Oz and ask for a heart. After he asked for it, the Woodman waited for the Wizard s response. Τι υποδηλώνουν τα he, it ; Φαινόμενο: Αναφορά (coreference) Εκφράσεις με αναφορά: Αναφορικές εκφράσεις Άρση αμφισημίας: Επίλυση αναφοράς (coreference resolution) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 7

Παραδείγματα (2) First Union Corp is continuing to wrestle with severe problems. According to industry insiders at Paine Webber, their president, John R. Georgius, is planning to announce his retirement tomorrow. Έστω ότι θέλουμε να εξάγουμε μια περίληψη σαν την ακόλουθη: First Union President John R. Georgius is planning to announce his retirement tomorrow. Η 2 η πρόταση είναι σημαντική Η 1 η πρόταση δίνει απλά πληροφορία «υποβάθρου» Τέτοιες σχέσεις ονομάζονται σχέσεις συνεκτικότητας (coherence relations) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 8

Συνεκτικότητα (coherence) Αν από ένα βιβλίο μαζέψουμε μερικές τυχαίες προτάσεις από κάθε κεφάλαιο, έχουμε διήγηση; Όλες οι προτάσεις θα είναι συντακτικά σωστές Όλες οι προτάσεις θα είναι σημασιολογικά σωστές Θα βγαίνει νόημα; (όχι) «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου. Ήταν μεθυσμένος.» (σχέση αιτιολόγησης) «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου. Του αρέσει το σπανάκι.» (;) Αυτό που λείπει είναι η συνεκτικότητα «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 9

Συνεκτικότητα (2) a. John went to his favorite music store to buy a piano. b. He had frequented the store for many years. c. He was excited that he could finally buy a piano. d. He arrived just as the store was closing for the day. a. John went to his favorite music store to buy a piano. b. It was a store John had frequented for many years. c. He was excited that he could finally buy a piano. d. It was closing just as John arrived. Είναι και τα δύο συνεκτικά; Είναι και τα δύο το ίδιο συνεκτικά; Μήπως κάποιο είναι περισσότερο συνεκτικό; «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 10

Κατάτμηση πραγματείας (1) Σε κείμενα, υπάρχουν σημεία που αλλάξει το θέμα Η εύρεση αυτών των σημείων ονομάζεται κατάτμηση πραγματείας (discourse segmentation) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 11

Κατάτμηση πραγματείας (2) Βοηθάει η μελέτη της συνοχής (cohesion) του κειμένου Η συνοχή (όχι συνεκτικότητα) μεταξύ προτάσεων επιτυγχάνεται μέσω επανάληψης των ίδιων ή σχετικών λέξεων (π.χ. συνώνυμα, υπερώνυμα), κλπ. «Ο Γιάννης καθάρισε την καμινάδα. Δεν ήθελε [ο Γιάννης] άλλα προβλήματα με το τζάκι.» Όσο έχουμε μεγάλη συνοχή, μάλλον δεν αλλάζει το θέμα Η συνοχή αφορά τον τρόπο που γλωσσικές μονάδες συνδέονται μεταξύ τους Η συνεκτικότητα αφορά το νόημα των συνδυασμένων μονάδων «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 12

Αλγόριθμος TextTiling (Hearst 1997) Μια μέθοδος για (γραμμική) κατάτμηση πραγματείας Φυσικά υπάρχουν και άλλες, για γραμμική, ιεραρχική, κλπ. κατάτμηση Η συγκεκριμένη μέθοδος είναι μη επιβλεπόμενη Τρία βήματα: Αναγνώριση λέξεων Καθορισμός λεκτικής ομοιότητας Αναγνώριση σημείων αλλαγής θέματος «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 13

Αναγνώριση λέξεων Κατάτμηση κειμένου στα κενά Μετατροπή όλων των λέξεων σε λέξεις με πεζούς χαρακτήρες Αφαίρεση συχνών λέξεων (stop-word list) Εύρεση θεμάτων (stemming) Δημιουργία ψευδό-προτάσεων Αλληλουχίες από 20 θέματα λέξεων «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 14

Υπολογισμός λεκτικής ομοιότητας Στα σημεία ανάμεσα των ψευδο-προτάσεων, υπολογίζεται η μέση ομοιότητα των λέξεων Εξετάζοντας τις k = 10 προηγούμενες και k επόμενες προτάσεις (τα θέματά τους) Δημιουργούνται 2 διανύσματα a, b Που περιέχουν την συχνότητα εμφάνισης κάθε θέματος (από τα N θέματα του κειμένου) Υπολογίζουμε την ομοιότητα μέσω συνημίτονου: sim cosine b, a = N b a b a = i=1 b i a i i=1 N 2 b N 2 i i=1 a i «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 15

Παράδειγμα k = 2 2 1 + 1 1 + 2 1 + 1 1 + 2 1 = 8 «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 16

Ομοιότητα Σημεία αλλαγής θέματος 1 0,8 0,6 0,4 0,2 0 t1 to t2 t2 to t3 t3 to t4 t4 to t5 t5 to t6 t6 to t7 t7 to t8 t8 to t9 Εξετάζεται η πτώση y i 1 y i από τις δύο γειτονικές κορυφές + y i+1 y i Ευριστικό κριτήριο: υπερβαίνει π.χ. την μέση τιμή + τυπική απόκλιση; Εναλλακτικά: ομαδοποίηση (clustering) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 17

Κατάτμηση με επιβλεπόμενη μάθηση Πρόβλημα ταξινόμησης: Αντικείμενα προς κατάταξη: όρια μεταξύ προτάσεων Κατηγορίες: αλλαγή ή όχι θέματος Χαρακτηριστικά: Ομοιότητα μεταξύ προτάσεων Ύπαρξη (ή όχι) συγκεκριμένων λέξεων/φράσεων Όπως χαρακτηριστικές λέξεις/φράσεις (discourse markers, cue phrases)» «Καλησπέρα», «Και τώρα ο καιρός», «μετά», «επειδή»» Εύρεση τέτοιων λέξεων/φράσεων με στατιστικές μεθόδους, όπως το πληροφοριακό κέρδος (information gain) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 18

Αξιολόγηση κατάτμησης πραγματείας Η ακρίβεια, ανάκληση, f-measure δεν ενδείκνυνται Ίδιο σκορ αν το σφάλμα αφορά μόνο μια πρόταση, με αλγόριθμο που έχει κάνει λάθος αρκετές προτάσεις Αξιολόγηση μέσω ολίσθησης παραθύρου k 0 WD 1 0: όλες οι κατατμήσεις σωστές «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 19

Συνεκτικότητα (coherence) Οι προτάσεις/φράσεις ενός κειμένου συνδέονται με σχέσεις συνεκτικότητας (ή «ρητορικές σχέσεις») Έχουν προταθεί πολλά σύνολα σχέσεων «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 20

Σχέσεις συνεκτικότητας Οι σχέσεις του Hobbs (1979) συμπεριλαμβάνουν: Αποτέλεσμα (result): «Άρχισε να βρέχει. Οι αρθρώσεις του Τενεκεδένιου Άνθρωπου σκούριασαν.» Εξήγηση (explanation): «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου. Ήταν μεθυσμένος.» Παραλληλισμός (parallel): «Ο Αχυροκεφάλας ήθελε μυαλό. Ο Λαμαρινόκαρδος ήθελε καρδιά.» Επέκταση (elaborate): «Η Ντόροθυ ήταν από το Κάνσας. Μεγάλωσε στα λιβάδια.» Κατάσταση (occasion): «Η Ντόροθυ σήκωσε το λαδικό. Λάδωσε τις αρθρώσεις του Λαμαρινόκαρδου.» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 21

Δέντρα σχέσεων συνεκτικότητας (1) Η συνεκτικότητα ενός κειμένου μπορεί να αναπαρασταθεί από την ιεραρχική δομή μεταξύ των σχέσεων συνεκτικότητας «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 22

Θεωρία ρητορικής δομής Rhetorical Structure Theory (RST, Mann & Thompson 1987) Βασίζεται σε ένα σύνολο από 23 «ρητορικές σχέσεις» Μεταξύ άλλων: Μαρτυρία (evidence): «Ο Γιάννης είναι στο σπίτι του. Το αυτοκίνητό του είναι παρκαρισμένο απ έξω.» Επέκταση (elaboration): «Ο Γιώργος είναι από την Κύπρο. Μεγάλωσε στη Λευκωσία.» Αντίθεση (contrast): «Ο Γιώργος ήταν χαρούμενος. Η Μαρία ήταν λυπημένη.» Υπόβαθρο (background): «Η Μαρία πήγε στο σπίτι του Γιώργου. Είχαν τσακωθεί το πρωί.» Ακολουθία (sequence): «Η Μαρία πήγε στο σπίτι του Γιώργου. Χτύπησε την πόρτα.» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 23

Δέντρο ρητορικής δομής «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 24

Ανάλυση πραγματείας (1) Πώς γίνεται η ανάλυση πραγματείας; Εξαγωγή σχέσεων συνεκτικότητας (ή ρητορικών σχέσεων) μεταξύ δύο προτάσεων (coherence relation assignment) Η εξαγωγή ολόκληρου δέντρου ονομάζεται discourse parsing Και οι δύο εργασίες είναι εξαιρετικά δύσκολες Είναι ανοικτά ερευνητικά ζητήματα «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 25

Ανάλυση πραγματείας (2) Αναγνώριση χαρακτηριστικών λέξεων/φράσεων (discourse markers/cue words) Δρουν σαν «σήματα» μεταβολής της δομής πραγματείας Συχνά αναφέρονται ως «σύνδεσμοι» «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου, επειδή ήταν μεθυσμένος.» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 26

Ανάλυση πραγματείας (3) Κατάτμηση σε τμήματα πραγματείας (discourse segments) Τα οποία δεν είναι πάντα προτάσεις Η συντακτική ανάλυση μπορεί να βοηθήσει στην κατάτμηση «[Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου], [επειδή ήταν μεθυσμένος].» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 27

Ανάλυση πραγματείας (4) Αναγνώριση σχέσεων μεταξύ τμημάτων Η αμφισημία των «συνδέσμων» μπορεί να είναι πρόβλημα «[Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου], [επειδή ήταν μεθυσμένος].» (αιτία) «[Ο Νίκος ήταν μεθυσμένος], [επειδή παραπατούσε].» (μαρτυρία) Μπορεί να μην υπάρχουν καν σύνδεσμοι! «Ο Νίκος ήταν μεθυσμένος. Παραπατούσε.» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 28

Αναφορικές εκφράσεις (1) The Tin Woodman went to the Emerald City to see the Wizard of Oz and ask for a heart. After he asked for it, the Woodman waited for the Wizard s response. Τι υποδηλώνουν τα he, it ; Φαινόμενο: Αναφορά (coreference) Εκφράσεις με αναφορά: Αναφορικές εκφράσεις Άρση αμφισημίας: Επίλυση αναφοράς (coreference resolution) «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 29

Αναφορικές εκφράσεις (2) Οι αναφορικές εκφράσεις (referring expressions) αναφέρονται κυρίως σε οντότητες του κόσμου Αλλά και σε αφηρημένες οντότητες, γεγονότα, κλπ. «Αυτή ήταν μια αισιόδοξη εκτίμηση.» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 30

Είδη αναφορικών εκφράσεων (1) Αόριστες αναφορικές φράσεις Αναφέρονται σε συγκεκριμένες οντότητες, κατηγορία οντοτήτων ή γενικευμένο εκπρόσωπο Εισάγουν μια οντότητα στο μοντέλο της πραγματείας «Ο Γιώργος αγόρασε μια τηλεόραση.» Οριστικές αναφορικές φράσεις Ανασύρουν μια οντότητα στο μοντέλο της πραγματείας «Ο Γιάννης έδειξε το κινητό στο Νίκο.» Κύρια ονόματα Είτε εισάγουν, είτε ανασύρουν «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 31

Είδη αναφορικών εκφράσεων (2) Αντωνυμίες «Του έδειξε το κινητό. Εκείνος ενθουσιάστηκε.» Δεικτικές αντωνυμίες «Θέλω αυτό/εκείνο το κινητό.» «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 32

Επίλυση αναφορικών εκφράσεων (1) Σε ποια οντότητα (από το περιβάλλον που έχει προηγηθεί) αναφέρεται μια οντότητα; Η επίλυση πρέπει να ικανοποιεί κάποια κριτήρια: Συμφωνία γένους, αριθμού και πτώσης Περιορισμούς επιλογής «Πάρκαρε το αυτοκίνητο, αφού το οδηγούσε για ώρες.» Προσφατότητα: συνήθως οι οντότητες που εισήχθησαν τελευταίες σχετίζονται με αναφορές Συντακτικός ρόλος: συμφωνία σε συντακτικό επίπεδο «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 33

Επίλυση αναφορικών εκφράσεων (2) Η επίλυση πρέπει να ικανοποιεί κάποια κριτήρια: Παραλληλισμός «Η Τασούλα πήγε με την Ελένη για ποτό. Η Βάσω πήγε μαζί της για ψώνια.» Διάφορες προσεγγίσεις: Βασισμένες σε κανόνες Ο αλγόριθμός του Hobbs (1978) για αντωνυμίες (Αγγλικά) Θεωρία Επικέντρωσης (Centering Theory) Κάθε στιγμή μόνο μια οντότητα αποτελεί το «κέντρο» Βασισμένες σε μηχανική μάθηση «Τεχνογλωσσία» VIII, Σεμινάριο 6, Ανάλυση Πραγματείας 34