ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 6 ο : Ανάλυση πραγματείας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013



Σχετικά έγγραφα
«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. 5 η Ενότητα: Ανάλυση πραγματείας. Ίων Ανδρουτσόπουλος.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Εισαγωγή στη Γλωσσολογία Ι

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

A systematic study of the universal properties and of the structure of cartographical language is still at an elementary stage. The fundamental basis

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Ευφυής Προγραμματισμός

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

LESSON 28 (ΜΑΘΗΜΑ ΕΙΚΟΣΙ ΟΚΤΩ) REF : 201/033/28. 2 December 2014

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Οι σύνθετες προτάσεις αποτελούνται από δύο ή περισσότερες απλές προτάσεις που συνδέονται μεταξύ τους με συνδετικά στοιχεία.

άλγεβρα και αλγεβρική σκέψη στην πρώτη σχολική περίοδο (Νηπιαγωγείο Δημοτικό) μαρία καλδρυμίδου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Η Μουσική ως Γλώσσα: Μέθοδοι συνοχής στο μουσικό και το γλωσσικό κείμενο

Α Διαγώνισμα 1 ου Τριμήνου στο μάθημα της Πληροφορικής Γ Γυμνασίου Ονοματεπώνυμο:...

ΑΝΑΜΟΡΦΩΜΕΝΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΛΛΗΝΙΚΗΣ ΝΟΗΜΑΤΙΚΗΣ ΓΛΩΣΣΑΣ Α ΤΑΞΗ (Σ. Καρύπη, Μ. Χατζοπούλου) Ι.Ε.Π Περιεχόμενο γενικών στόχων

THE ROLE OF IMPLICIT MODELS IN SOLVING VERBAL PROBLEMS IN MULTIPLICATION AND DIVISION

Αναπτυξιακά ορόσημα λόγου

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 6: Προτασιακός Λογισμός: Μέθοδος Επίλυσης Τμήμα Επιστήμης Υπολογιστών

Ανάκτηση Πληροφορίας

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Τη γλώσσα μου έδωσαν ellhnikh. Μαρία Γαβριηλίδου, ΙΕΛ/ΕΚ Αθηνά Παγκόσμια Ημέρα Μετάφρασης 29 Σεπτεμβρίου 2018, ΕΙΕ

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙΔΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2019 Β ΦΑΣΗ Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

ΕΠΑΝΑΛΗΨΗ ΨΕΥΔΟΛΕΞΕΩΝ ΑΠΟ ΠΑΙΔΙΑ ΜΕ ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ ΚΑΙ ΠΑΙΔΙΑ ΤΥΠΙΚΗΣ ΑΝΑΠΤΥΞΗΣ

Πρόβλημα 29 / σελίδα 28

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6

Μελέτη περίπτωσης εργαλεία κοινωνικής δικτύωσης - MultiBlog. Ισπανική γλώσσα. 33 φοιτητές (ενήλικες > 25 ετών) και 2 εκπαιδευτικοί

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Πληροφοριακά Συστήματα Διοίκησης

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΠΡΑΓΜΑΤΟΛΟΓΙΑ - PRAGMATICS

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Η παραγωγή αναφορικών προτάσεων από κυπριόπουλα παιδιά με Γλωσσική Διαταραχή

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Γραμμικός Προγραμματισμός Μέθοδος Simplex

A. Να γράψετε τον αριθμό της κάθε μιας από τις παρακάτω προτάσεις και δίπλα. το γράμμα Σ, εάν είναι σωστή, ή το γράμμα Λ, εάν είναι λανθασμένη.

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

Ακρότατα πίνακα, χωρίς min, max, μόνο με pos

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΣΚΗΣΗ 11: ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ - ΣΥΝΤΑΚΤΙΚΗ ΑΝΑΛΥΣΗ (PARSING)

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Από το Μοντέλο Οντοτήτων Συσχετίσεων στο Σχεσιακό Μοντέλο

Μανώλης Ισχάκης - Πνευματικά δικαιώματα - για περισσότερη εκπαίδευση

Φροντιστήρια "ΠΡΟΟΠΤΙΚΗ" 1. Οδηγίες για την αξιολόγηση των φιλολογικών μαθημάτων στο Γυμνάσιο

Μαθηματική Λογική και Λογικός Προγραμματισμός

ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Εισαγωγή στη Διαδικασία Ιεραρχικής Ανάλυσης. Ρόκου Έλενα Μεταδιδακτορική Ερευνήτρια ΕΜΠ Κηρυττόπουλος Κωνσταντίνος Επ.

Δείκτες Επικοινωνιακής Επάρκειας Κατανόησης και Παραγωγής Γραπτού και Προφορικού Λόγου Α1/Α2

Διαφοροποίηση στα φύλλα εργασίας

ΑΓΓΛΙΚΑ IV. Ενότητα 6: Analysis of Greece: Your Strategic Partner in Southeast Europe. Ιφιγένεια Μαχίλη Τμήμα Οικονομικών Επιστημών

Heapsort Using Multiple Heaps

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Εκπαιδευτική παρέμβαση στον αφηγηματικό λόγο νηπίου με γλωσσική διαταραχή

Εισαγωγή στα Πληροφοριακά Συστήματα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Ψυχογλωσσολογία. Ενότητα 4 : Επεξεργασία προτάσεων. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Ενδεικτικές Ερωτήσεις Θεωρίας

Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

Τεχνητή Νοημοσύνη ( )

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Επικοινωνία Ανθρώπου Υπολογιστή. Β3. Κατανόηση φυσικής γλώσσας

Η ΘΕΩΡΙΑ ΤΟΥ Χ --Η ΔΟΜΗ ΤΗΣ ΡΦ, ΠΡΦ, ΕΦ, ΟΦ

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ (5 Ο ΜΑΘΗΜΑ)

LESSON 5 (ΜΑΘΗΜΑ ΠΕΝΤΕ) REF: 201/033/25-ADV. 3 December 2013

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ενότητα 2 η ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΟ ΣΧΟΛΕΙΟ

Τα σύννεφα έχουν τέτοια ποικιλία σχημάτων, χρωμάτων και μεγεθών, που. κανένας δε βελτίωσε το σύστημα το οποίο επινόησε το 1803 ο Αγγλος φαρμακοποιός

. Μεθοδολογία Προγραμματισμού. Εισαγωγή. Νικόλαος Πεταλίδης. Εισαγωγή Εαρινό Εξάμηνο 2014

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Β.δ Επιλογή των κατάλληλων εμπειρικών ερευνητικών μεθόδων

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

E[ (x- ) ]= trace[(x-x)(x- ) ]

Αναλυτικές οδηγίες για τη δημιουργία προσβάσιμων εγγράφων PDF από προσβάσιμα έγγραφα MS-Word & MS- PowerPoint 2007

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Transcript:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 6 ο : Ανάλυση πραγματείας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013

Οι διαφάνειες αυτού του μαθήματος βασίζονται στο κεφάλαιο 21 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό. Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 1

Επίπεδα ανάλυσης Προ-επεξεργασία Μορφολογική ανάλυση Συντακτική ανάλυση Σημασιολογική ανάλυση Ανάλυση πραγματείας Αναγνώριση λέξεων, προτάσεων, Πληροφορίες για τις λέξεις, όπως θέμα, κατάληξη, πρόσωπο, αριθμό, γένος, Συντακτική δομή περιόδων, ρόλοι των λέξεων, κλπ. Αναγνώριση του νοήματος των προτάσεων Αναφορικές εκφράσεις, σχέσεις μεταξύ προτάσεων Ανάλυση σχεδίου Σκοποί του χρήστη, σχέδια δράσεως, Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 2

Ανάλυση πραγματείας (1) Στην μελέτη της γλώσσας, μερικές από τις πιο ενδιαφέρουσες ερωτήσεις προκύπτουν σε σχέση με τον τρόπο που χρησιμοποιείται η γλώσσα Αντί για το ποια είναι τα συστατικά της Σημασιολογική ανάλυση: Ασχοληθήκαμε με το πώς οι χρήστες της γλώσσας ερμηνεύουν αυτό που άλλοι χρήστες εννοούν Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 3

Ανάλυση πραγματείας (2) Αν πάμε ένα βήμα παραπέρα, και ασχοληθούμε με το πώς: Βγάζουμε νόημα διαβάζοντας κείμενα Καταλαβαίνουμε τι εννοεί κάποιος άσχετα με το ως το εκφράζει Αναγνωρίζουμε συνδεδεμένες προτάσεις σε σχέση με προτάσεις «ατάκτως ερριμμένες» Συμμετέχουμε σε μια συζήτηση Τότε εκτελούμε ανάλυση πραγματείας Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 4

Ανάλυση πραγματείας (3) Μελέτη της πραγματικής έννοιας και νοήματος (των προτάσεων/εκφωνημάτων) πέρα από τη σημασία Ουσιαστικά αρχίζει εκεί που τερματίζει η σημασιολογική ανάλυση «Η γλώσσα πέρα από την πρόταση ή πέρα από την φράση» (Stubbs, 1983) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 5

Ανάλυση πραγματείας (4) Η ανάλυση πραγματείας (discourse) ασχολείται με: Την μελέτη των σχέσεων μεταξύ των προτάσεων (ή τμημάτων τους), ενός μονολόγου ή ενός διαλόγου Του τρόπου με τον οποίο προτάσεις σχηματίζουν μεγαλύτερες μονάδες με νόημα, όπως παραγράφους, μονολόγους, συζητήσεις, κλπ. Του τρόπου με τον οποίο λέξεις/φράσεις/προτάσεις πρέπει να ερμηνευτούν όλες μαζί Την μελέτη της συνεκτικότητας (coherence) της φυσικής γλώσσας Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 6

Παραδείγματα (1) The Tin Woodman went to the Emerald City to see the Wizard of Oz and ask for a heart. After he asked for it, the Woodman waited for the Wizard s response. Τι υποδηλώνουν τα he, it ; Φαινόμενο: Αναφορά (coreference) Εκφράσεις με αναφορά: Αναφορικές εκφράσεις Άρση αμφισημίας: Επίλυση αναφοράς (coreference resolution) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 7

Παραδείγματα (2) First Union Corp is continuing to wrestle with severe problems. According to industry insiders at Paine Webber, their president, John R. Georgius, is planning to announce his retirement tomorrow. Έστω ότι θέλουμε να εξάγουμε μια περίληψη σαν την ακόλουθη: First Union President John R. Georgius is planning to announce his retirement tomorrow. Η 2 η πρόταση είναι σημαντική Η 1 η πρόταση δίνει απλά πληροφορία «υποβάθρου» Τέτοιες σχέσεις ονομάζονται σχέσεις συνεκτικότητας (coherence relations) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 8

Συνεκτικότητα (coherence) Αν από ένα βιβλίο μαζέψουμε μερικές τυχαίες προτάσεις από κάθε κεφάλαιο, έχουμε διήγηση; Όλες οι προτάσεις θα είναι συντακτικά σωστές Όλες οι προτάσεις θα είναι σημασιολογικά σωστές Θα βγαίνει νόημα; (όχι) «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου. Ήταν μεθυσμένος.» (σχέση αιτιολόγησης) «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου. Του αρέσει το σπανάκι.» (;) Αυτό που λείπει είναι η συνεκτικότητα Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 9

Συνεκτικότητα (2) a. John went to his favorite music store to buy a piano. b. He had frequented the store for many years. c. He was excited that he could finally buy a piano. d. He arrived just as the store was closing for the day. a. John went to his favorite music store to buy a piano. b. It was a store John had frequented for many years. c. He was excited that he could finally buy a piano. d. It was closing just as John arrived. Είναι και τα δύο συνεκτικά; Είναι και τα δύο το ίδιο συνεκτικά; Μήπως κάποιο είναι περισσότερο συνεκτικό; Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 10

Κατάτμηση πραγματείας (1) Σε κείμενα, υπάρχουν σημεία που αλλάξει το θέμα Η εύρεση αυτών των σημείων ονομάζεται κατάτμηση πραγματείας (discourse segmentation) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 11

Κατάτμηση πραγματείας (2) Βοηθάει η μελέτη της συνοχής (cohesion) του κειμένου Η συνοχή (όχι συνεκτικότητα) μεταξύ προτάσεων επιτυγχάνεται μέσω επανάληψης των ίδιων ή σχετικών λέξεων (π.χ. συνώνυμα, υπερώνυμα), κλπ. «Ο Γιάννης καθάρισε την καμινάδα. Δεν ήθελε [ο Γιάννης] άλλα προβλήματα με το τζάκι.» Όσο έχουμε μεγάλη συνοχή, μάλλον δεν αλλάζει το θέμα Η συνοχή αφορά τον τρόπο που γλωσσικές μονάδες συνδέονται μεταξύ τους Η συνεκτικότητα αφορά το νόημα των συνδυασμένων μονάδων Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 12

Αλγόριθμος TextTiling (Hearst 1997) Μια μέθοδος για (γραμμική) κατάτμηση πραγματείας Φυσικά υπάρχουν και άλλες, για γραμμική, ιεραρχική, κλπ. κατάτμηση Η συγκεκριμένη μέθοδος είναι μη επιβλεπόμενη Τρία βήματα: Αναγνώριση λέξεων Καθορισμός λεκτικής ομοιότητας Αναγνώριση σημείων αλλαγής θέματος Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 13

Αναγνώριση λέξεων Κατάτμηση κειμένου στα κενά Μετατροπή όλων των λέξεων σε λέξεις με πεζούς χαρακτήρες Αφαίρεση συχνών λέξεων (stop-word list) Εύρεση θεμάτων (stemming) Δημιουργία ψευδό-προτάσεων Αλληλουχίες από 20 θέματα λέξεων Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 14

Υπολογισμός λεκτικής ομοιότητας Στα σημεία ανάμεσα των ψευδο-προτάσεων, υπολογίζεται η μέση ομοιότητα των λέξεων Εξετάζοντας τις k = 10 προηγούμενες και k επόμενες προτάσεις (τα θέματά τους) Δημιουργούνται 2 διανύσματα a, b Που περιέχουν την συχνότητα εμφάνισης κάθε θέματος (από τα N θέματα του κειμένου) Υπολογίζουμε την ομοιότητα μέσω συνημίτονου: sim cosine b, a = b a b a = N i=1 b i a i N 2 N 2 i=1 b i i=1 a i Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 15

Παράδειγμα k = 2 2 1 + 1 1 + 2 1 + 1 1 + 2 1 = 8 Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 16

Ομοιότητα Σημεία αλλαγής θέματος 1 0,8 0,6 0,4 0,2 0 t1 to t2 t2 to t3 t3 to t4 t4 to t5 t5 to t6 t6 to t7 t7 to t8 t8 to t9 Εξετάζεται η πτώση y i 1 y i από τις δύο γειτονικές κορυφές + y i+1 y i Ευριστικό κριτήριο: υπερβαίνει π.χ. την μέση τιμή + τυπική απόκλιση; Εναλλακτικά: ομαδοποίηση (clustering) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 17

Κατάτμηση με επιβλεπόμενη μάθηση Πρόβλημα ταξινόμησης: Αντικείμενα προς κατάταξη: όρια μεταξύ προτάσεων Κατηγορίες: αλλαγή ή όχι θέματος Χαρακτηριστικά: Ομοιότητα μεταξύ προτάσεων Ύπαρξη (ή όχι) συγκεκριμένων λέξεων/φράσεων Όπως χαρακτηριστικές λέξεις/φράσεις (discourse markers, cue phrases)» «Καλησπέρα», «Και τώρα ο καιρός», «μετά», «επειδή»» Εύρεση τέτοιων λέξεων/φράσεων με στατιστικές μεθόδους, όπως το πληροφοριακό κέρδος (information gain) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 18

Αξιολόγηση κατάτμησης πραγματείας Η ακρίβεια, ανάκληση, f-measure δεν ενδείκνυνται Ίδιο σκορ αν το σφάλμα αφορά μόνο μια πρόταση, με αλγόριθμο που έχει κάνει λάθος αρκετές προτάσεις Αξιολόγηση μέσω ολίσθησης παραθύρου k 0 WD 1 0: όλες οι κατατμήσεις σωστές Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 19

Συνεκτικότητα (coherence) Οι προτάσεις/φράσεις ενός κειμένου συνδέονται με σχέσεις συνεκτικότητας (ή «ρητορικές σχέσεις») Έχουν προταθεί πολλά σύνολα σχέσεων Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 20

Σχέσεις συνεκτικότητας Οι σχέσεις του Hobbs (1979) συμπεριλαμβάνουν: Αποτέλεσμα (result): «Άρχισε να βρέχει. Οι αρθρώσεις του Τενεκεδένιου Άνθρωπου σκούριασαν.» Εξήγηση (explanation): «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου. Ήταν μεθυσμένος.» Παραλληλισμός (parallel): «Ο Αχυροκεφάλας ήθελε μυαλό. Ο Λαμαρινόκαρδος ήθελε καρδιά.» Επέκταση (elaborate): «Η Ντόροθυ ήταν από το Κάνσας. Μεγάλωσε στα λιβάδια.» Κατάσταση (occasion): «Η Ντόροθυ σήκωσε το λαδικό. Λάδωσε τις αρθρώσεις του Λαμαρινόκαρδου.» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 21

Δέντρα σχέσεων συνεκτικότητας (1) Η συνεκτικότητα ενός κειμένου μπορεί να αναπαρασταθεί από την ιεραρχική δομή μεταξύ των σχέσεων συνεκτικότητας Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 22

Θεωρία ρητορικής δομής Rhetorical Structure Theory (RST, Mann & Thompson 1987) Βασίζεται σε ένα σύνολο από 23 «ρητορικές σχέσεις» Μεταξύ άλλων: Μαρτυρία (evidence): «Ο Γιάννης είναι στο σπίτι του. Το αυτοκίνητό του είναι παρκαρισμένο απ έξω.» Επέκταση (elaboration): «Ο Γιώργος είναι από την Κύπρο. Μεγάλωσε στη Λευκωσία.» Αντίθεση (contrast): «Ο Γιώργος ήταν χαρούμενος. Η Μαρία ήταν λυπημένη.» Υπόβαθρο (background): «Η Μαρία πήγε στο σπίτι του Γιώργου. Είχαν τσακωθεί το πρωί.» Ακολουθία (sequence): «Η Μαρία πήγε στο σπίτι του Γιώργου. Χτύπησε την πόρτα.» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 23

Δέντρο ρητορικής δομής Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 24

Ανάλυση πραγματείας (1) Πώς γίνεται η ανάλυση πραγματείας; Εξαγωγή σχέσεων συνεκτικότητας (ή ρητορικών σχέσεων) μεταξύ δύο προτάσεων (coherence relation assignment) Η εξαγωγή ολόκληρου δέντρου ονομάζεται discourse parsing Και οι δύο εργασίες είναι εξαιρετικά δύσκολες Είναι ανοικτά ερευνητικά ζητήματα Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 25

Ανάλυση πραγματείας (2) Αναγνώριση χαρακτηριστικών λέξεων/φράσεων (discourse markers/cue words) Δρουν σαν «σήματα» μεταβολής της δομής πραγματείας Συχνά αναφέρονται ως «σύνδεσμοι» «Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου, επειδή ήταν μεθυσμένος.» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 26

Ανάλυση πραγματείας (3) Κατάτμηση σε τμήματα πραγματείας (discourse segments) Τα οποία δεν είναι πάντα προτάσεις Η συντακτική ανάλυση μπορεί να βοηθήσει στην κατάτμηση «[Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου], [επειδή ήταν μεθυσμένος].» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 27

Ανάλυση πραγματείας (4) Αναγνώριση σχέσεων μεταξύ τμημάτων Η αμφισημία των «συνδέσμων» μπορεί να είναι πρόβλημα «[Ο Γιάννης έκρυψε τα κλειδιά του αμαξιού του Νίκου], [επειδή ήταν μεθυσμένος].» (αιτία) «[Ο Νίκος ήταν μεθυσμένος], [επειδή παραπατούσε].» (μαρτυρία) Μπορεί να μην υπάρχουν καν σύνδεσμοι! «Ο Νίκος ήταν μεθυσμένος. Παραπατούσε.» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 28

Αναφορικές εκφράσεις (1) The Tin Woodman went to the Emerald City to see the Wizard of Oz and ask for a heart. After he asked for it, the Woodman waited for the Wizard s response. Τι υποδηλώνουν τα he, it ; Φαινόμενο: Αναφορά (coreference) Εκφράσεις με αναφορά: Αναφορικές εκφράσεις Άρση αμφισημίας: Επίλυση αναφοράς (coreference resolution) Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 29

Αναφορικές εκφράσεις (2) Οι αναφορικές εκφράσεις (referring expressions) αναφέρονται κυρίως σε οντότητες του κόσμου Αλλά και σε αφηρημένες οντότητες, γεγονότα, κλπ. «Αυτή ήταν μια αισιόδοξη εκτίμηση.» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 30

Είδη αναφορικών εκφράσεων (1) Αόριστες αναφορικές φράσεις Αναφέρονται σε συγκεκριμένες οντότητες, κατηγορία οντοτήτων ή γενικευμένο εκπρόσωπο Εισάγουν μια οντότητα στο μοντέλο της πραγματείας «Ο Γιώργος αγόρασε μια τηλεόραση.» Οριστικές αναφορικές φράσεις Ανασύρουν μια οντότητα στο μοντέλο της πραγματείας «Ο Γιάννης έδειξε το κινητό στο Νίκο.» Κύρια ονόματα Είτε εισάγουν, είτε ανασύρουν Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 31

Είδη αναφορικών εκφράσεων (2) Αντωνυμίες «Του έδειξε το κινητό. Εκείνος ενθουσιάστηκε.» Δεικτικές αντωνυμίες «Θέλω αυτό/εκείνο το κινητό.» Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 32

Επίλυση αναφορικών εκφράσεων (1) Σε ποια οντότητα (από το περιβάλλον που έχει προηγηθεί) αναφέρεται μια οντότητα; Η επίλυση πρέπει να ικανοποιεί κάποια κριτήρια: Συμφωνία γένους, αριθμού και πτώσης Περιορισμούς επιλογής «Πάρκαρε το αυτοκίνητο, αφού το οδηγούσε για ώρες.» Προσφατότητα: συνήθως οι οντότητες που εισήχθησαν τελευταίες σχετίζονται με αναφορές Συντακτικός ρόλος: συμφωνία σε συντακτικό επίπεδο Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 33

Επίλυση αναφορικών εκφράσεων (2) Η επίλυση πρέπει να ικανοποιεί κάποια κριτήρια: Παραλληλισμός «Η Τασούλα πήγε με την Ελένη για ποτό. Η Βάσω πήγε μαζί της για ψώνια.» Διάφορες προσεγγίσεις: Βασισμένες σε κανόνες Ο αλγόριθμός του Hobbs (1978) για αντωνυμίες (Αγγλικά) Θεωρία Επικέντρωσης (Centering Theory) Κάθε στιγμή μόνο μια οντότητα αποτελεί το «κέντρο» Βασισμένες σε μηχανική μάθηση Γλωσσική Τεχνολογία, Μάθημα 6 ο, Ανάλυση πραγματείας 34