Αυτόματη Εξαγωγή Περιλήψεων με Χρήση Οντολογιών Εισαγωγή Στα πλαίσια της διατριβής με τίτλο «Αυτόματη Εξαγωγή Περιλήψεων με Χρήση Οντολογιών» παρήχθη ένα σύνολο από μεθοδολογίες και υλοποιήθηκαν τα αντίστοιχα εργαλεία, με εφαρμογή στους τομείς τόσο της εξαγωγής περιλήψεων, αλλά και σε άλλες εργασίες Ανάλυσης Φυσικής Γλώσσας (ΑΦΓ). Επιδείξαμε πώς αυτές οι μέθοδοι μπορούν να προσαρμοστούν ώστε να αντιμετωπίσουν προβλήματα όπως: Εκτίμηση σημασίας πρότασης (εξαγωγή περιλήψεων). Αφαίρεση πλεονασμού (εξαγωγή περιλήψεων). Εντοπισμός νεωτερισμού (εξαγωγή περιλήψεων). Αυτόματη αξιολόγηση συστημάτων εξαγωγής περιλήψεων. Ποσοτικοποίηση κειμενικών ιδιοτήτων ποιότητας. Θεωρούμε ότι η έρευνα αυτή θέτει τα θεμέλια για την εμφάνιση μίας οικογενείας αλγορίθμων για ΑΦΓ, που θα βασίζεται στους γράφους ν-γραμμάτων. Επιπλέον, η εν λόγω διατριβή προσπάθησε να δώσει μία νέα οπτική στη μοντελοποίηση της κειμενικής αναπαράστασης, που αποβλέπει στη διατήρηση της ανεξαρτησίας από συγκεκριμένη γλώσσα και στη γενική χρησιμότητα. Ανακεφαλαιώνοντας, η διατριβή είχε τις ακόλουθες βασικές συνεισφορές: Μια μελέτη και ανασκόπηση της διαδικασίας εξαγωγής περιλήψεων, από μία οπτική που προσπαθεί να συνδυάσει υπάρχουσες προσεγγίσεις και απόψεις, σκιαγραφώντας και τη σχετική βιβλιογραφία. Μια αναπαράσταση κειμένου βασισμένη σε στατιστική, ανεξάρτητη γλώσσας, μεθοδολογία υπολογισμού. H αναπαράσταση αυτή προσφέρει πλουσιότερη πληροφορία ως μοντέλο από την αναπαράσταση με ανύσματα στο χώρο των λέξεων. H αναπαράσταση αυτή θεμελιώνεται και με την εισαγωγή και μελέτη ενός συνόλου τελεστών και αλγορίθμων, που επιτρέπουν τη χρήση της σε μία πληθώρα προβλημάτων ΑΦΓ. 'Ενα σύστημα αυτόματης αξιολόγησης περιλήψεων, που προσπαθεί να εντοπίσει την ποιότητα περιλήψεων με ένα τρόπο ανεξάρτητο γλώσσας, χρησιμοποιώντας την αναπαράσταση του γράφου ν-γραμμάτων. Το σύστημα αυτό, με το όνομα AutoSummENG, αποτελεί ένα από τα κορυφαία εργαλεία για αξιολόγηση περιλήψεων. Τη μετρική Symbol Sequence Statistical Normality, ως μέτρο ποιότητας κειμένων, βασισμένη στη στατιστική ανάλυση ακολουθιών χαρακτήρων σε ένα σύνολο κειμένων. 'Ενα σύστημα αυτόματης εξαγωγής περιλήψεων, βασισμένο στη χρήση των γράφων ν-γραμμάτων, το οποίο εστιάζει στην αντιμετώπιση της επιλογής περιεχομένου και της αποφυγής πλεονασμού. Ακόμη και χωρίς τη χρήση βελτιστοποίησης, το εν λόγω σύστημα εξαγωγής περιλήψεων έδωσε ανταγωνιστικά αποτελέσματα στο διεθνές περιβάλλον αξιολόγησης τεχνολογιών ανάλυσης κειμένου «Text Analysis Conference» (TAC).
Στα πλαίσια της εν λόγω διατριβής αφιερώθηκε χρόνος και στην υποστήριξη και προώθηση της διεθνούς συνεργασίας μεταξύ επιστημόνων. Το αποτέλεσμα αυτής της προσπάθειας ήταν: Το πλαίσιο εργασίας FABLE,το οποίο αρχικά στόχευε στην υποστήριξη της εργασίας AESOP (Automatically Evaluating Summaries Of Peers) του Text Analysis Conference του 2009, παρέχοντας ένα ενιαίο τρόπο για την ενσωμάτωση και αξιολόγηση συστημάτων αξιολόγησης περιλήψεων. Τη βιβλιοθήκη JINSECT, που αποτελεί ένα σύνολο εργαλείων βασισμένο σε γλώσσα Java, το οποίο υποστηρίζει και υποδεικνύει τη χρήση και χρησιμότητα του γράφου ν-γραμμάτων σε ένα ευρύ φάσμα εφαρμογών ΑΦΓ. Οι εφαρμογές αυτές ποικίλλουν από εξαγωγή περιλήψεων και αξιολόγηση περιλήψεων, μέχρι κατηγοριοποίηση κειμένων και ομαδοποίηση ή ευρετηρίαση. H βιβλιοθήκη είναι μία συνεισφορά στη διεθνή κοινότητα ΑΦΓ, με άδεια χρήσης που επιτρέπει την ελεύθερη χρήση και προσαρμογή της (LGPL) τόσο για ακαδημαϊκές όσο και για εμπορικές εφαρμογές. H συνεισφορά, συνεπώς της εν λόγω έρευνας είναι διττή. Αφενός συνεισφέρει σε βασική έρευνα, αλλά αφετέρου συνεισφέρει και στην εφαρμοσμένη επιστήμη υπολογιστών, μέσα από τα παρεχόμενα εργαλεία. Θεωρητική Συνεισφορά H διατριβή που εκπονήθηκε συγκέντρωσε, ανακεφαλαίωσε και συστηματοποίησε υπάρχουσες προσεγγίσεις στον τομέα. Επίσης, προσέφερε μία νέα οπτική στην βιβλιογραφία του χώρου, παρέχοντας ένα γενικευμένο σχήμα για τη διαδικασία της αυτόματης εξαγωγής περιλήψεων (βλ. Εικόνα 1: H διαδικασία της εξαγωγής περίληψης όπως προβάλλεται στη διατριβή). Στο θεωρητικό κομμάτι το αποτέλεσμα της ερευνητικής εργασίας ήταν επίσης η δημιουργία ενός ολοκληρωμένου, θεωρητικά στηριζόμενου και πειραματικά αποτελεσματικού πλαισίου για την αναπαράσταση κειμένων με χρήση των γράφων ν-γραμμάτων, αλλά και τη χρήση των γράφων μέσα από: Τελεστές ανάλογους με τους συνολο-θεωρητικούς τελεστές της τομής και της ένωσης. Επίσης, εισήχθη και ο τελεστής ενημέρωσης ο οποίος επιτρέπει τη μοντελοποίηση ομάδων ή κλάσεων κειμένων. Τελεστές ομοιότητας που επιτρέπουν τη χρήση των γράφων ν-γραμμάτων σε διαδικασίες όπως κατηγοριοποίηση, αξιολόγηση περιλήψεων, κ.ά. Επιπλέον τελεστές όπως ο τελεστής δέλτα (ότι-δεν-υπάρχει-σε) και ο τελεστής της αντίστροφης τομής, οι οποίοι υποστηρίζουν τον εντοπισμό και χειρισμό θορύβου στη δομή των γράφων ν-γραμμάτων.
Εικόνα 1: H διαδικασία της εξαγωγής περίληψης όπως προβάλλεται στη διατριβή Σημαντικό τμήμα της θεωρητικής συνεισφοράς είναι αναμφίβολα και η σύσταση, με υιοθέτηση του παραπάνω πλαισίου εργασίας, μεθοδολογιών για την: Εύρεση βέλτιστων παραμέτρων για την αναπαράσταση κειμένων ως γράφων ν-γραμμάτων, βάσει μίας θεωρητικής ανάλυσης βασισμένης σε θεωρία πληροφορίας και στατιστικά εξαγώγιμα μοντέλα. Εξαγωγή περιλήψεων, πιθανώς και με χρήση πρότερης γνώσης (οντολογία ή και θησαυρός). Αξιολόγηση περιλήψεων, με χρήση των γράφων ν-γραμμάτων. Εφαρμοσμένη Συνεισφορά Το σύνολο των θεωρητικών μεθόδων που επινοήθηκαν ενσωματώθηκε σε μία προγραμματιστική βιβλιοθήκη, η οποία παρέχει ένα σύνολο δομών, αλγορίθμων και υλοποιημένων συνθέτων μεθόδων για ένα σύνολο εργασιών, όπως:
Αυτόματη Εξαγωγή Περιλήψεων - Automatic Summarization Αυτόματη Αξιολόγηση Συστημάτων Εξαγωγής Περιλήψεων - Automatic Evaluation of Summary Systems Κατηγοριοποίηση Κειμένων - Text Classification Αναγνώριση Συγγραφέα - Authorship Identification Ευρετηρίαση Κειμένων - Text Indexing Σημασιολογική Επισημείωση - Semantic Annotation Εξαγωγή Γνώμης - Opinion Extraction Στεμμαλογία Κειμένων - Text Stemmatology H προγραμματιστική αυτή βιβλιοθήκη, με το όνομα JInsect (ακρωνύμιο του Java INteroperable Semantic Extraction Context-based Toolkit), είναι ένα σύνολο προγραμματιστικών εργαλείων για την ΑΦΓ, αλλά επιπλέον περιέχει ένα σύνολο παραδειγμάτων εφαρμογής σχετικών μεθοδολογιών. Σκοπός Οι βασικοί στόχοι της προγραμματιστικής βιβλιοθήκης είναι η παροχή δομών, στοιχειωδών αλγορίθμων και ενδεικτικών σύνθετων μεθόδων που να: Λαμβάνουν υπ όψη πληροφορία περικειμένου. Εξάγουν πληροφορία υψηλού επιπέδου, ανεξαρτήτως από τη χρησιμοποιούμενη γλώσσα, με στατιστικό τρόπο. H διαλειτουργικότητα με άλλα εργαλεία και μεθόδους. H βασική συνεισφορά της βιβλιοθήκης αφορά στην υλοποίηση των δομών και αλγορίθμων που σχετίζονται με την αναπαράσταση του γράφου ν-γραμμάτων για την ανάλυση κειμένων. Εργασίες αυτόματης εξαγωγής και αξιολόγησης περιλήψεων μπορούν να υποστηριχθούν από τη βιβλιοθήκη και σχετικά πειράματα έχουν ήδη πραγματοποιηθεί και γνωστοποιηθεί στη διεθνή επιστημονική κοινότητα (George Giannakopoulos et al.),(george Giannakopoulos, Vangelis Karkaletsis, & George Vouros), (George Giannakopoulos & Vangelis Karkaletsis). H εφαρμοσιμότητα των αλγορίθμων σε μία πληθώρα τομέων, κατέστησε τη βιβλιοθήκη σημαντικό εργαλείο και έχει ήδη χρησιμοποιηθεί σε Ερευνητικά Ιδρύματα με υψηλό κύρος στο ερευνητικό περιβάλλον (University of Trento - Italy, L3S - Germany, Reuters). Το JInsect ως προγραμματιστική βιβλιοθήκη Στη βιβλιοθήκη, η οποία είναι πλέον διαθέσιμη ως έργο ανοικτού κϊδικα 1 με άδεια χρήσης που επιτρέπει την ελεύθερη χρήση της τόσο σε εμπορικά, όσο και σε μη εμπορικά έργα, ένας προγραμματιστής μπορεί να βρει εργαλεία για την ανάλυση και αναπαράσταση κειμένων (ή και οποιασδήποτε ακολουθίας χαρακτήρων/συμβόλων) με τις ακόλουθες εναλλακτικές: 1 Δείτε και στο http://sourceforge.net/projects/jinsect/.
Γράφος N-γραμμάτων Χαρακτήρων Γράφος N-γραμμάτων Λέξεων Ιστόγραμμα N-γραμμάτων Χαρακτήρων Ιστόγραμμα N-γραμμάτων Λέξεων Επιπλέον υποστηρίζονται και πιο σύνθετες δομές, οι οποίες βρίσκονται ακόμη υπό ανάπτυξη και εξέλιξη, όπως: Γράφοι ν-γραμμάτων με κατανομές απόστασης αντί για βάρη στις ακμές (παρέχουν πιο λεπτομερείς πληροφορίες για τη γειτνίαση). Εννοιολογικό ευρετήριο (γράφος, επισημειωμένος με έννοιες, που επιπλέον υποδεικνύει σχέσεις μερεολογίας μεταξύ ν-γραμμάτων). Μοντέλο κανονικότητας, βάσει ανάλυσης ν-γραμμάτων (σύνολο από τριπλέτες που περιγράφουν την πιθανότητα εμφάνισης ενός χαρακτήρα μετά από ένα συγκεκριμένο ν-γραμμα) Οι γράφοι ν-γραμμάτων εμπεριέχουν πληροφορία συνύπαρξης για τα ν-γράμματα, διατηρώντας πληροφορίες για σχέσεις γειτνίασης μεταξύ ν-γραμμάτων. Μπορούν με αυτόν τον τρόπο να διατηρήσουν πληροφορίες για τη μεταβατική κλειστότητα γειτνίασης, σε αντίθεση με την αναπαράσταση συμβολοσειρών και κειμένων σε διανυσματικό χώρο (π.χ. ως σακίδιο λέξεων). Ο πλούτος της πληροφορίας στους γράφους έρχεται συνυφασμένος με αυξημένο υπολογιστικό κόστος στους απλούς αλγορίθμους για την ανάλυση και χρήση των γράφων. Στα πλαίσια της βιβλιοθήκης, όμως, χρησιμοποιήθηκαν διάφορες μέθοδοι βελτιστοποίησης και κατανεμημένης/παράλληλης εκτέλεσης, ώστε να είναι εφαρμόσιμοι οι αλγόριθμοι και σε πολλά δεδομένα. Ενδεικτικά αναφέρουμε ότι η μέθοδος αξιολόγησης περιλήψεων έχει υλοποιηθεί και ως κατανεμημένα εκτελέσιμη διαδικασία με τη χρήση νοημόνων πρακτόρων. H βιβλιοθήκη υποστηρίζει μία πληθώρα βελτιςτοποιημένων τελεστών επάνω στους γράφους (βλ. επίσης τη διατριβή (George Giannakopoulos)), όπως: Τελεστές και συναρτήσεις ομοιότητας (Ομοιότητα περιοχής, Ομοιότητα Τιμών, Ομοιότητα Μεγέθους, Κανονικοποιημένη ομοιότητα τιμών...) Τελεστές τομής, ένωσης και συναρτήσεις ενημέρωσης γράφων ν- γραμμάτων. Τελεστές δέλτα και αντίστροφης τομής γράφων ν-γραμμάτων. Στη βιβλιοθήκη παρέχονται και μία πληθώρα από παραδείγματα και πραγματικές υλοποιήσεις αλγορίθμων που έχουν ήδη χρησιμοποιηθεί σε διάφορες εφαρμογές, π.χ. σχετικές με: Στεμμαλογία κειμένων (ανακάλυψη εξέλιξης ιστορικών κειμένων ανάμεσα σε διάφορες εκδόσεις), βλ. (Roos & Heikkila) Ανάλυση συναισθήματος, βλ. (Rentoumi et al.) Τέλος, στη βιβλιοθήκη παρέχονται αλγόριθμοι για: Ομαδοποίηση κειμένων.
Κατηγοριοποίηση κειμένων. Επισημείωση κειμένων με έννοιες δεδομένου θησαυρού. Εκτίμηση βελτίστου μήκους ν-γραμμάτων για ανάλυση κειμένου. Στατιστική ανάλυση (ανάλυση κανονικότητας, κεντρικές ροπές, κτλ.) Σειριακοποίηση δεδομένων και αντικειμένων με αφαίρεση στο επίπεδο της αποθήκευσης. Το JInsect ως σύνολο εφαρμογώνστο JInsect, μπορεί κανείς να βρει και κάποιες εφαρμογές που λειτουργούν αυτόνομα, είτε μέσα από γραφικό περιβάλλον (όπως η διεπαφή της μεθόδου AutoSummENG), είτε μέσα από κονσόλα (όπως η διεπαφές των εναλλακτικών για την εξαγωγή περίληψης). AutoSummENG Η μέθοδος αξιολόγησης περιλήψεων AutoSummENG έχει ήδη χρησιμοποιηθεί για πάνω από 1 χρόνο από διαφόρους επιστήμονες του χώρου της αξαγωγής περιλήψεων και αποτελεί μία από τις πλέον αξιόπιστες μεθόδους του χώρου (Tratz & Hovy),(George Giannakopoulos & Vangelis Karkaletsis). Παρέχει δυνατότητα ανάλυσης και σύγκρισης περιλήψεων με περιλήψεις-μοντέλα με διαφορετικές προσεγγίσεις, χρησιμοποιώντας ν-γράμματα λέξεων ή χαρακτήρων, με επιλογή εύρους ν-γραμμάτων και μέγιστης απόστασης γειτνίασης, επιτρέπει παράλληλη εκτέλεση, κ.ά. Εικόνα 2: Η γραφική διεπαφή της μεθόδου αξιολόγησης περιλήψεων AutoSummENG Αυτόματη εξαγωγή περιλήψεων Με τη βιβλιοθήκη παρέχεται και ένα πλήρως λειτουργικό σύστημα εξαγωγής περιλήψεων, ανεξαρτήτως γλώσσας, βασισμένο σε ανάλυση με γράφους νγραμμάτων. Το σύστημα (G. Giannakopoulos, V. Karkaletsis, & G. Vouros) επιτρέπει επίσης:
Εξαγωγή περίληψης με δεδομένη πρότερη γνώση. Εξαγωγή περίληψης με χρήση ερωτήματος. Επέκταση ερωτήματος με χρήση θησαυρού. Διάφορα μεγέθη περίληψης. Διάφορες μεθόδους αποφυγής επανάληψης πληροφορίας. Εικόνα 3: Ενδεικτική περίληψη από το TAC 2008 corpus Τέλος, στα πλαίσια του συνδυασμού της τεχνογνωσίας που αποκτήθηκε από διαφορετικούς συντελεστές του έργου, δημιουργήθηκε και ένα διαδικτυακό εργαλείο, που επιτρέπει την εξαγωγή περιλήψεων από πολλαπλά κείμενο, με χρήση αυτόματα εξαγμένων εννοιών από το σύνολο των κειμένων εισόδου. Emirates is the the biggest customer of the A380 with an order for 43 planes, and has been expecting to take delivery of the aircraft in October 2006. An Airbus spokesman in France said the company has begun to measure turbulence in the wake of the A380 but that studies are not complete. Singapore Airlines will be the first to receive the new model, with the first orders delivered in late 2006, following earlier production delays. Construction problems have delayed the introduction of the double-deck A380, the largest passenger plane in the world. Εικόνα 4: Δείγμα από το διαδικτυακό εργαλείο Αναφορές Giannakopoulos, G., V. Karkaletsis, and G. Vouros. Testing the use of n-gram graphs in summarization sub-tasks. TAC 2008 Workshop - Notebook papers and results. Maryland MD, USA, 2008. 158 167. Web.
Giannakopoulos, George. Automatic Summarization from Multiple Documents. Apr 2009n. pag. Print. Giannakopoulos, George, and Vangelis Karkaletsis. N-gram graphs: Representing documents and document sets in summary system evaluation. Proceedings of Text Analysis Conference TAC2009 (To appear). 2009. Print. Giannakopoulos, George, Vangelis Karkaletsis, and George Vouros. Testing the use of N-gram Graphs in Summarization Sub-tasks. Proceedings of Text Analysis Conference TAC2008. Washignton, U.S.A., 2008. Print. Giannakopoulos, George et al. Summarization system evaluation revisited: N-gram graphs. ACM Trans. Speech Lang. Process. 5.3 (2008): 1-39. ACM. Web. Rentoumi, Vassiliki et al. Sentinent Analysis of Figurative Language using a Word Sense Disambiguation Approach. Borovets, Bulgaria, 2009. Print. Roos, T., and T. Heikkila. Evaluating methods for computer-assisted stemmatology using artificial benchmark data sets. Literary and Linguistic Computing. (2009): n. pag. Print. Tratz, S., and E. Hovy. Summarization Evaluation Using Transformed Basic Elements. Proceedings of the 1st Text Analysis Conference (TAC). 2008. Print.