ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 6 ο : Ανάλυση πραγματείας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Αυτόματη Εξαγωγή Περιλήψεων με Χρήση Οντολογιών

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας

Επικοινωνία Ανθρώπου Υπολογιστή

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Ανάκτηση Πληροφορίας

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

NewSum: Όταν η εξαγωγή περιλήψεων έγινε πολυγλωσσική

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση πολυμεσικού περιεχομένου

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφοριακά Συστήματα Διοίκησης

Η αποτίμηση των πληροφοριών του διαδικτύου

Συστήματα Πληροφοριών Διοίκησης

Τμήμα Πληροφορικής & Επικοινωνιών Δρ. Θεόδωρος Γ. Λάντζος

Μηχανική Μάθηση: γιατί;

Μοντέλο Μεικτής Μάθησης για τα Μαθηματικά της Γ Λυκείου

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Σχεδιασμός Ερωτηματολογίου

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Νούμερο 2 Μάρτιος 2009

Ερωτηματολόγιο. Τρόποι χορήγησης: α) Με αλληλογραφία β) Με απευθείας χορήγηση γ) Τηλεφωνικά

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΠΡΟΓΡΑΜΜΑ ΑΠΟΜΑΚΡΥΣΜΕΝΗΣ ΕΙΣΑΓΩΓΗΣ ΒΑΘΜΟΛΟΓΙΩΝ ΑΠΟ ΔΙΔΑΣΚΟΝΤΕΣ

Διδακτική της Πληροφορικής

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Το διαδίκτυο ως εργαλείο αξιολόγησης του Εκπαιδευτικού Προσωπικού. Το παράδειγμα του Τμήματος Τυποποίησης & Διακίνησης Προϊόντων (Logistics)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Φροντιστήρια "ΠΡΟΟΠΤΙΚΗ" 1. Οδηγίες για την αξιολόγηση των φιλολογικών μαθημάτων στο Γυμνάσιο

Αναζήτηση Κατά Πλάτος

Επικοινωνία Ανθρώπου Υπολογιστή

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΕΡΙΛΗΨΗ ΠΡΟΕΡΓΑΣΙΑ ΓΙΑ ΝΑ ΓΡΑΨΟΥΜΕ ΜΙΑ ΚΑΛΗ ΠΕΡΙΛΗΨΗ

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #2

ΘΕΜΑ : ΣΥΣΤΗΜΑΤΑ ΑΡΙΘΜΗΣΗΣ. ΔΙΑΡΚΕΙΑ: 1 περιόδους. 22/1/ :11 Όνομα: Λεκάκης Κωνσταντίνος καθ. Τεχνολογίας

Ολοκληρωμένο Πληροφοριακό Σύστημα Εξυπηρέτησης Πολιτών και Παρόχων

Εγχειρίδιο χρήσης της εφαρμογής NewSum v1.0

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Ανάκτηση Πληροφορίας

ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΔΗΜΙΟΥΡΓΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Microsoft Word Μέρος 2

ΈΝΤΥΠΟ ΠΑΡΑΤΗΡΗΣΗΣ ΔΙΔΑΣΚΑΛΙΑΣ 1

Τεχνικές Εξόρυξης Δεδομένων

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

Αναζητήσεις στο Διαδίκτυο

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Υπηρεσίες Ψηφιακής Βιβλιοθήκης Ανοικτής Πρόσβασης Ε.Μ.Π.

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΗΣ

Πετράκης Κώστας ΓΤΠ-61 Μάρτιος 2015

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Διαχείριση Πολιτισμικών Δεδομένων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Transcript:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013

Οι διαφάνειες αυτού του μαθήματος βασίζονται στο κεφάλαιο 23 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 1

Εξαγωγή περιλήψεων Τι είναι η αυτόματη εξαγωγή περιλήψεων; Είναι η διαδικασία της διήθησης της πιο σημαντικής πληροφορίας από ένα κείμενο, ώστε να δημιουργηθεί μια σύντομη εκδοχή, για μια συγκεκριμένη εργασία και χρήστη Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 2

Χρήσιμη για πολλές εργασίες Δημιουργία «περιγράμματος» (outline) εγγράφων Περίληψη/σύνοψη επιστημονικών άρθρων Τίτλοι άρθρων εφημερίδων Μικρά αποσπάσματα (snippets) ιστοσελίδων Π.χ. στα αποτελέσματα μηχανών αναζήτησης Αποφάσεις ενεργειών (action items) συναντήσεων, πρακτικά συνατήσεων Περιλήψεις από αλληλουχίες e-mail Εκτενέστερες απαντήσεις σε ερωτήσεις ορισμού ή τρόπου Π.χ. «Ποιος ήταν ο Σωκράτης;», «Πώς ετοιμάζω το φαγητό Χ;» Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 3

Κατηγορίες περιλήψεων (1) Τρεις βασικές διαστάσεις: Από ένα ή πολλά έγγραφα Single-document summarisation: εξαγωγή περίληψης από ένα μόνο έγγραφο Multiple-document summarisation: εξαγωγή περίληψης από πολλά έγγραφα, συμπτύσσοντας πληροφορία από πολλές πηγές Π.χ. περίληψη γεγονότος από πολλά ειδησεογραφικά πρακτορεία Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 4

Κατηγορίες περιλήψεων (2) Τρεις βασικές διαστάσεις: Γενική ή εστιασμένη σε ερώτημα Generic summary: εξαγωγή περίληψης χωρίς να ληφθεί υπ όψιν μια συγκεκριμένη πληροφορική ανάγκη, ή ένας χρήστης Query-based summarisation: η περίληψη εξάγεται σαν απάντηση σε κάποιο ερώτημα χρήστη Συχνά θεωρείται σαν μια εκτενής/λεπτομερής απάντηση σε κάποιο ερώτημα Συνώνυμα: focused-summarisation, topic-based summarisation, user-focused summarisation Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 5

Κατηγορίες περιλήψεων (3) Τρεις βασικές διαστάσεις: Επιλογή αποσπασμάτων ή αναδιατύπωση Extract: παράγεται από συνδυασμό φράσεων/προτάσεων που έχουν επιλεγεί (εξαχθεί) από το κείμενο Abstract: χρησιμοποίηση διαφορετικών λέξεων/φράσεων για να περιγραφούν τα περιεχόμενα ενός εγγράφου Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 6

Αναδιατύπωση ή επιλογή αποσπασμάτων; The Gettysburg Address. Abraham Lincoln, 1863. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 7

Αυτόματη παραγωγή περιλήψεων (1) Τα συστήματα αυτόματης παραγωγής περιλήψεων είναι και συστήματα παραγωγής φυσικής γλώσσας Κυριότερα στάδια: Επιλογή περιεχομένου (content selection) Επιλογή της πληροφορίας για την περίληψη Συνήθως επιλογή φράσεων/προτάσεων Σχεδιασμός κειμένου (information ordering) Ταξινόμηση και διάταξη των επιλεγμένων μονάδων Επιφανειακή πραγμάτωση (sentence realization) Εργασίες όπως συνένωση μονάδων, επισκευή αναφορικών εκφράσεων, κλπ. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 8

Αυτόματη παραγωγή περιλήψεων (2) Όταν παράγεται περίληψη από ένα έγγραφο, πολλά συστήματα: Απλά επιλέγουν προτάσεις Ενδεχομένως τις συντομεύουν Τις εμφανίζουν με τη σειρά που είχαν στο έγγραφο Συχνά, το πρόβλημα διατυπώνεται σαν πρόβλημα επιλογής προτάσεων Στο οποίο μπορεί να εφαρμοστεί μηχανική μάθηση Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 9

Εξαγωγή από ένα έγγραφο (1) Επιλογή περιεχομένου Επιλογή φράσεων/προτάσεων από το κείμενο Σχεδιασμός κειμένου Επιλογή σειράς εμφάνισης των επιλεγμένων προτάσεων στην περίληψη Επιφανειακή πραγμάτωση Καθαρισμός προτάσεων Π.χ. αφαίρεση μη απαραίτητων τμημάτων Συνένωση προτάσεων σε μια πρόταση Βελτίωση συνεκτικότητας (coherence) Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 10

Εξαγωγή από ένα έγγραφο (2) Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 11

Επιλογή περιεχομένου από ένα έγγραφο (1) Μέσω μηχανικής μάθησης Πρόβλημα ταξινόμησης προτάσεων/φράσεων σε δύο κατηγορίες Σημαντική ή όχι, άξια/ανάξια επιλογής Επιβλεπόμενη ή μη-επιβλεπόμενη μηχανική μάθηση Παραδείγματα χαρακτηριστικών TF-IDF Log-likelihood ratio (LLR) Σκοπός η αξιοποίηση σημαντικών (salient) ή πληροφοριακών (informative) λέξεων Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 12

Επιλογή περιεχομένου από ένα έγγραφο (2) Μη-επιβλεπόμενη μέθοδος Luhn, 1958 Επιλέγει προτάσεις που περιέχουν σημαντικές (salient) ή πληροφοριακές (informative) λέξεις Οι σημαντικές λέξεις επιλέγονται υπολογίζοντας την υπογραφή θέματος (topic signature) Είναι ένα σύνολο από σημαντικούς όρους ή όρους «υπογραφής» Σημαντικότητα: μέσω TF-IDF, log-likelihood weight w i = tf i,j idf i weight w i = 1 0 weight s i = if 2 log λ w i > 0 otherwise weight w w s i w w s i Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 13

Επιλογή περιεχομένου από ένα έγγραφο (3) Μη-επιβλεπόμενη μέθοδος Luhn, 1958 Η μέθοδος υπολογίζει το βάρος κάθε πρότασης Επιλέγει ν προτάσεις με το καλύτερο βάρος Η μέθοδος ανήκει στην κατηγορία των centroidbased summarisation αλγορίθμων Αν θεωρήσουμε τους όρους «υπογραφής» σαν ψευδο-πρόταση, που αποτελεί το κεντροειδές (centroid) Επιλέγουμε τις προτάσεις που βρίσκονται πιο κοντά στο «κέντρο» Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 14

Επιλογή περιεχομένου από ένα έγγραφο (4) Κεντρικότητα (centrality) Πολλές οι μέθοδοι που βασίζονται σε αποστάσεις από ένα κεντροειδές Αντί να χρησιμοποιηθούν σημαντικές λέξεις, μπορεί απλά να μετρηθεί το πόσο μοιάζουν οι προτάσεις μεταξύ τους Και να επιλεγούν προτάσεις που μοιάζουν μεταξύ τους (clustering) Vector-space model (μάθημα 7 ο ) centrality x = 1 k tf_idf_cosine x, y y Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 15

Επιλογή περιεχομένου βάση ρητορικής δομής (1) Στο μάθημα 6 ο είχαμε δει τις ρητορικές δομές Σχέσεις συνεκτικότητας μεταξύ φράσεων Κάθε σχέση έχει 2 μέρη: τον πυρήνα και τον δορυφόρο δορυφόρος πυρήνας Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 16

Επιλογή περιεχομένου βάση ρητορικής δομής (2) Αλγόριθμος Marcu (1995): Προτιμούμε τμήματα που είναι κύρια και πιο ψηλά στο δέντρο: 2 > 8 > 3 > 10 > 1, 4, 5, 7 > 6 Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 17

Επιβλεπόμενη μηχανική μάθηση Επιλογή περιεχομένου μέσω επιβλεπόμενης μηχανικής μάθησης Δεδομένα εκπαίδευσης: Κείμενα και προτάσεις που επέλεξαν άνθρωποι, ή Προτάσεις περιλήψεων που έγραψαν άνθρωποι ευθυγραμμισμένες με τις αρχικές (αναδιατύπωση) Η ευθυγράμμιση μεταξύ περίληψης και αρχικού κειμένου είναι σημαντική Π.χ. μέσω longest common subsequencies από μη stopword λέξεις, HMMs, κλπ. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 18

Επιφανειακή πραγμάτωση Απλούστευση/συμπίεση προτάσεων (sentence simplification/compression) Χρήση κανόνων για την επιλογή φράσεων που θα κρατηθούν ή θα απορριφθούν Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 19

Εξαγωγή από πολλά έγγραφα Πρέπει να επιλεγούν προτάσεις που είναι σημαντικές Αλλά δεν λένε το ίδιο πράγμα Ομαδοποιούμε τις προτάσεις που λένε το ίδιο πράγμα, και επιλέγουμε μόνο μία Επιλέγουμε προτάσεις σαν να είχαμε ένα έγγραφο, και απορρίπτουμε αυτές που μοιάζουν μεταξύ τους Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 20

Περιλήψεις εστιασμένες σε ερωτήματα Το ερώτημα επηρεάζει την επιλογή των εγγράφων Αν χρησιμοποιείται σύστημα ανάκτησης πληροφοριών Η επιλογή μπορεί να γίνει μέσω ομοιότητας προτάσεων με το ερώτημα Το ερώτημα μπορεί να καταταχθεί σε κατηγορίες Και να δημιουργούνται απαντήσεις με βάση σχεδιότυπα (templates) απαντήσεων Π.χ. για το ερώτημα «Ποιος ήταν ο Σωκράτης;», το σύστημα εντοπίζει πληροφορίες για γέννηση, θάνατο, επιτεύγματα κλπ., και τις διατάσει με προκαθορισμένο τρόπο Μέσω μηχανικής μάθησης να εξαχθεί διαφορετικό μοντέλο επιλογής και διάταξης ανά κατηγορία ερώτησης Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 21

Αξιολόγηση (1) Ανοιχτό ερευνητικό ζήτημα Η πιο αξιόπιστη αξιολόγηση γίνεται μέσω ανθρώπων-κριτών Οι οποίοι εξετάζουν αν διατηρούνται οι σημαντικότερες πληροφορίες, την ποιότητα της περίληψης, αν είναι κατανοητή, κλπ. Δεν είναι πρακτικός τρόπος αξιολόγησης Δεν είναι εύκολο να επαναλαμβάνεται ή διαδικασία κάθε φορά που ελέγχεται μια παραλλαγή του συστήματος Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 22

Αξιολόγηση (2) Μέτρα αυτόματης αξιολόγησης: Εξετάζουν πόσο μοιάζουν οι περιλήψεις του συστήματος με περιλήψεις ανθρώπων Συνήθως βασίζονται στην επικάλυψη ν-γραμμάτων Μια από τις καλύτερες μεθόδους αποτίμησης σήμερα ανήκει στον Γεώργιο Γιαννακόπουλο Χρησιμοποιεί γράφους ν-γραμμάτων AutoSummENG: DUC 2005-2007, TAC 2008-2010 Giannakopoulos, G., Karkaletsis, V., Vouros, G., and Stamatopoulos, P. (2008). Summarization system evaluation revisited: N-gram graphs. ACM Trans. Speech Lang. Process., 5(3):1-39. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 23

Γράφος ν-γραμμάτων (1) Καταγράφει γειτνιάσεις Οι ακμές είναι σημαντικές Τα βάρη ερμηνεύονται ανάλογα με την εφαρμογή Δεν περιέχει λέξεις Αλλά ν-γράμματα χαρακτήρων Ναι, μαζί με τα κενά ή σημεία στίξης! Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 24

Γράφος ν-γραμμάτων (2) Βασίζονται στην εξής παρατήρηση: People can read even when words are spelled wnorg But order does play some role: not it does? Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 25

Αξιολόγηση περιλήψεων Το πρόβλημα: Με δεδομένο ένα σύνολο από περιλήψεις αναφοράς, καθόρισε την ποιότητα μιας αυτόματα παραχθείσας περίληψης Η λύση Αναπαράσταση όλων των περιλήψεων σαν γράφους ν- γραμμάτων Εξαγωγή της ομοιότητας των γράφων μεταξύ της αυτόματης περίληψης, και των περιλήψεων αναφοράς Υπολογισμός του μέσου όρου ομοιότητας Εναλλακτικά: δημιουργία ενός γράφου για όλες τις περιλήψεις αναφοράς Σύγκριση μόνο δύο γράφων Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 26