ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013
Οι διαφάνειες αυτού του μαθήματος βασίζονται στο κεφάλαιο 23 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 1
Εξαγωγή περιλήψεων Τι είναι η αυτόματη εξαγωγή περιλήψεων; Είναι η διαδικασία της διήθησης της πιο σημαντικής πληροφορίας από ένα κείμενο, ώστε να δημιουργηθεί μια σύντομη εκδοχή, για μια συγκεκριμένη εργασία και χρήστη Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 2
Χρήσιμη για πολλές εργασίες Δημιουργία «περιγράμματος» (outline) εγγράφων Περίληψη/σύνοψη επιστημονικών άρθρων Τίτλοι άρθρων εφημερίδων Μικρά αποσπάσματα (snippets) ιστοσελίδων Π.χ. στα αποτελέσματα μηχανών αναζήτησης Αποφάσεις ενεργειών (action items) συναντήσεων, πρακτικά συνατήσεων Περιλήψεις από αλληλουχίες e-mail Εκτενέστερες απαντήσεις σε ερωτήσεις ορισμού ή τρόπου Π.χ. «Ποιος ήταν ο Σωκράτης;», «Πώς ετοιμάζω το φαγητό Χ;» Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 3
Κατηγορίες περιλήψεων (1) Τρεις βασικές διαστάσεις: Από ένα ή πολλά έγγραφα Single-document summarisation: εξαγωγή περίληψης από ένα μόνο έγγραφο Multiple-document summarisation: εξαγωγή περίληψης από πολλά έγγραφα, συμπτύσσοντας πληροφορία από πολλές πηγές Π.χ. περίληψη γεγονότος από πολλά ειδησεογραφικά πρακτορεία Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 4
Κατηγορίες περιλήψεων (2) Τρεις βασικές διαστάσεις: Γενική ή εστιασμένη σε ερώτημα Generic summary: εξαγωγή περίληψης χωρίς να ληφθεί υπ όψιν μια συγκεκριμένη πληροφορική ανάγκη, ή ένας χρήστης Query-based summarisation: η περίληψη εξάγεται σαν απάντηση σε κάποιο ερώτημα χρήστη Συχνά θεωρείται σαν μια εκτενής/λεπτομερής απάντηση σε κάποιο ερώτημα Συνώνυμα: focused-summarisation, topic-based summarisation, user-focused summarisation Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 5
Κατηγορίες περιλήψεων (3) Τρεις βασικές διαστάσεις: Επιλογή αποσπασμάτων ή αναδιατύπωση Extract: παράγεται από συνδυασμό φράσεων/προτάσεων που έχουν επιλεγεί (εξαχθεί) από το κείμενο Abstract: χρησιμοποίηση διαφορετικών λέξεων/φράσεων για να περιγραφούν τα περιεχόμενα ενός εγγράφου Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 6
Αναδιατύπωση ή επιλογή αποσπασμάτων; The Gettysburg Address. Abraham Lincoln, 1863. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 7
Αυτόματη παραγωγή περιλήψεων (1) Τα συστήματα αυτόματης παραγωγής περιλήψεων είναι και συστήματα παραγωγής φυσικής γλώσσας Κυριότερα στάδια: Επιλογή περιεχομένου (content selection) Επιλογή της πληροφορίας για την περίληψη Συνήθως επιλογή φράσεων/προτάσεων Σχεδιασμός κειμένου (information ordering) Ταξινόμηση και διάταξη των επιλεγμένων μονάδων Επιφανειακή πραγμάτωση (sentence realization) Εργασίες όπως συνένωση μονάδων, επισκευή αναφορικών εκφράσεων, κλπ. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 8
Αυτόματη παραγωγή περιλήψεων (2) Όταν παράγεται περίληψη από ένα έγγραφο, πολλά συστήματα: Απλά επιλέγουν προτάσεις Ενδεχομένως τις συντομεύουν Τις εμφανίζουν με τη σειρά που είχαν στο έγγραφο Συχνά, το πρόβλημα διατυπώνεται σαν πρόβλημα επιλογής προτάσεων Στο οποίο μπορεί να εφαρμοστεί μηχανική μάθηση Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 9
Εξαγωγή από ένα έγγραφο (1) Επιλογή περιεχομένου Επιλογή φράσεων/προτάσεων από το κείμενο Σχεδιασμός κειμένου Επιλογή σειράς εμφάνισης των επιλεγμένων προτάσεων στην περίληψη Επιφανειακή πραγμάτωση Καθαρισμός προτάσεων Π.χ. αφαίρεση μη απαραίτητων τμημάτων Συνένωση προτάσεων σε μια πρόταση Βελτίωση συνεκτικότητας (coherence) Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 10
Εξαγωγή από ένα έγγραφο (2) Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 11
Επιλογή περιεχομένου από ένα έγγραφο (1) Μέσω μηχανικής μάθησης Πρόβλημα ταξινόμησης προτάσεων/φράσεων σε δύο κατηγορίες Σημαντική ή όχι, άξια/ανάξια επιλογής Επιβλεπόμενη ή μη-επιβλεπόμενη μηχανική μάθηση Παραδείγματα χαρακτηριστικών TF-IDF Log-likelihood ratio (LLR) Σκοπός η αξιοποίηση σημαντικών (salient) ή πληροφοριακών (informative) λέξεων Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 12
Επιλογή περιεχομένου από ένα έγγραφο (2) Μη-επιβλεπόμενη μέθοδος Luhn, 1958 Επιλέγει προτάσεις που περιέχουν σημαντικές (salient) ή πληροφοριακές (informative) λέξεις Οι σημαντικές λέξεις επιλέγονται υπολογίζοντας την υπογραφή θέματος (topic signature) Είναι ένα σύνολο από σημαντικούς όρους ή όρους «υπογραφής» Σημαντικότητα: μέσω TF-IDF, log-likelihood weight w i = tf i,j idf i weight w i = 1 0 weight s i = if 2 log λ w i > 0 otherwise weight w w s i w w s i Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 13
Επιλογή περιεχομένου από ένα έγγραφο (3) Μη-επιβλεπόμενη μέθοδος Luhn, 1958 Η μέθοδος υπολογίζει το βάρος κάθε πρότασης Επιλέγει ν προτάσεις με το καλύτερο βάρος Η μέθοδος ανήκει στην κατηγορία των centroidbased summarisation αλγορίθμων Αν θεωρήσουμε τους όρους «υπογραφής» σαν ψευδο-πρόταση, που αποτελεί το κεντροειδές (centroid) Επιλέγουμε τις προτάσεις που βρίσκονται πιο κοντά στο «κέντρο» Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 14
Επιλογή περιεχομένου από ένα έγγραφο (4) Κεντρικότητα (centrality) Πολλές οι μέθοδοι που βασίζονται σε αποστάσεις από ένα κεντροειδές Αντί να χρησιμοποιηθούν σημαντικές λέξεις, μπορεί απλά να μετρηθεί το πόσο μοιάζουν οι προτάσεις μεταξύ τους Και να επιλεγούν προτάσεις που μοιάζουν μεταξύ τους (clustering) Vector-space model (μάθημα 7 ο ) centrality x = 1 k tf_idf_cosine x, y y Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 15
Επιλογή περιεχομένου βάση ρητορικής δομής (1) Στο μάθημα 6 ο είχαμε δει τις ρητορικές δομές Σχέσεις συνεκτικότητας μεταξύ φράσεων Κάθε σχέση έχει 2 μέρη: τον πυρήνα και τον δορυφόρο δορυφόρος πυρήνας Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 16
Επιλογή περιεχομένου βάση ρητορικής δομής (2) Αλγόριθμος Marcu (1995): Προτιμούμε τμήματα που είναι κύρια και πιο ψηλά στο δέντρο: 2 > 8 > 3 > 10 > 1, 4, 5, 7 > 6 Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 17
Επιβλεπόμενη μηχανική μάθηση Επιλογή περιεχομένου μέσω επιβλεπόμενης μηχανικής μάθησης Δεδομένα εκπαίδευσης: Κείμενα και προτάσεις που επέλεξαν άνθρωποι, ή Προτάσεις περιλήψεων που έγραψαν άνθρωποι ευθυγραμμισμένες με τις αρχικές (αναδιατύπωση) Η ευθυγράμμιση μεταξύ περίληψης και αρχικού κειμένου είναι σημαντική Π.χ. μέσω longest common subsequencies από μη stopword λέξεις, HMMs, κλπ. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 18
Επιφανειακή πραγμάτωση Απλούστευση/συμπίεση προτάσεων (sentence simplification/compression) Χρήση κανόνων για την επιλογή φράσεων που θα κρατηθούν ή θα απορριφθούν Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 19
Εξαγωγή από πολλά έγγραφα Πρέπει να επιλεγούν προτάσεις που είναι σημαντικές Αλλά δεν λένε το ίδιο πράγμα Ομαδοποιούμε τις προτάσεις που λένε το ίδιο πράγμα, και επιλέγουμε μόνο μία Επιλέγουμε προτάσεις σαν να είχαμε ένα έγγραφο, και απορρίπτουμε αυτές που μοιάζουν μεταξύ τους Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 20
Περιλήψεις εστιασμένες σε ερωτήματα Το ερώτημα επηρεάζει την επιλογή των εγγράφων Αν χρησιμοποιείται σύστημα ανάκτησης πληροφοριών Η επιλογή μπορεί να γίνει μέσω ομοιότητας προτάσεων με το ερώτημα Το ερώτημα μπορεί να καταταχθεί σε κατηγορίες Και να δημιουργούνται απαντήσεις με βάση σχεδιότυπα (templates) απαντήσεων Π.χ. για το ερώτημα «Ποιος ήταν ο Σωκράτης;», το σύστημα εντοπίζει πληροφορίες για γέννηση, θάνατο, επιτεύγματα κλπ., και τις διατάσει με προκαθορισμένο τρόπο Μέσω μηχανικής μάθησης να εξαχθεί διαφορετικό μοντέλο επιλογής και διάταξης ανά κατηγορία ερώτησης Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 21
Αξιολόγηση (1) Ανοιχτό ερευνητικό ζήτημα Η πιο αξιόπιστη αξιολόγηση γίνεται μέσω ανθρώπων-κριτών Οι οποίοι εξετάζουν αν διατηρούνται οι σημαντικότερες πληροφορίες, την ποιότητα της περίληψης, αν είναι κατανοητή, κλπ. Δεν είναι πρακτικός τρόπος αξιολόγησης Δεν είναι εύκολο να επαναλαμβάνεται ή διαδικασία κάθε φορά που ελέγχεται μια παραλλαγή του συστήματος Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 22
Αξιολόγηση (2) Μέτρα αυτόματης αξιολόγησης: Εξετάζουν πόσο μοιάζουν οι περιλήψεις του συστήματος με περιλήψεις ανθρώπων Συνήθως βασίζονται στην επικάλυψη ν-γραμμάτων Μια από τις καλύτερες μεθόδους αποτίμησης σήμερα ανήκει στον Γεώργιο Γιαννακόπουλο Χρησιμοποιεί γράφους ν-γραμμάτων AutoSummENG: DUC 2005-2007, TAC 2008-2010 Giannakopoulos, G., Karkaletsis, V., Vouros, G., and Stamatopoulos, P. (2008). Summarization system evaluation revisited: N-gram graphs. ACM Trans. Speech Lang. Process., 5(3):1-39. Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 23
Γράφος ν-γραμμάτων (1) Καταγράφει γειτνιάσεις Οι ακμές είναι σημαντικές Τα βάρη ερμηνεύονται ανάλογα με την εφαρμογή Δεν περιέχει λέξεις Αλλά ν-γράμματα χαρακτήρων Ναι, μαζί με τα κενά ή σημεία στίξης! Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 24
Γράφος ν-γραμμάτων (2) Βασίζονται στην εξής παρατήρηση: People can read even when words are spelled wnorg But order does play some role: not it does? Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 25
Αξιολόγηση περιλήψεων Το πρόβλημα: Με δεδομένο ένα σύνολο από περιλήψεις αναφοράς, καθόρισε την ποιότητα μιας αυτόματα παραχθείσας περίληψης Η λύση Αναπαράσταση όλων των περιλήψεων σαν γράφους ν- γραμμάτων Εξαγωγή της ομοιότητας των γράφων μεταξύ της αυτόματης περίληψης, και των περιλήψεων αναφοράς Υπολογισμός του μέσου όρου ομοιότητας Εναλλακτικά: δημιουργία ενός γράφου για όλες τις περιλήψεις αναφοράς Σύγκριση μόνο δύο γράφων Γλωσσική Τεχνολογία, Μάθημα 11 ο, Αυτόματη παραγωγή περιλήψεων 26