Αυτόματη Εξαγωγή Περιλήψεων με Χρήση Οντολογιών

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Ανάκτηση Πληροφορίας

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

4/2014 ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΥΔΡΟΛΗΨΙΕΣ ΑΤΤΙΚΗΣ ΑΠΟΚΕΝΤΡΩΜΕΝΗ ΔΙΟΙΚΗΣΗ ΑΤΤΙΚΗΣ ΔΙΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Εργαλεία CASE. Computer Assisted Systems Engineering. Δρ Βαγγελιώ Καβακλή. Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Ανάκτηση πολυμεσικού περιεχομένου

Αξιολόγηση της ερευνητικής δραστηριότητας των Ελληνικών Πανεπιστημιακών Τμημάτων με τη χρήση βιβλιομετρικών δεικτών

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Ημερομηνία Παράδοσης: 4/7/2013

ΨΥΧΟΛΟΓΙΚΗ ΕΤΑΙΡΕΙΑ ΒΟΡΕΙΟΥ ΕΛΛΑΔΟΣ (ΨΕΒΕ) ΗΜΕΡΙΔΑ Προχωρημένες μέθοδοι ανάλυσης ποσοτικών δεδομένων στις επιστήμες της συμπεριφοράς

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

«ΧΡΗΣΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ (ΤΠΕ) ΓΙΑ ΣΥΓΚΡΙΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ ΚΑΤΑΝΑΛΩΤΙΚΩΝ ΑΓΑΘΩΝ»

ΕΦΗΜΕΡΙΣ ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Συμπόσιο για την Ανοικτή Επιστήμη Αθήνα, Νοεμβρίου Πάνος Κωνσταντόπουλος Οικονομικό Πανεπιστήμιο Αθηνών και Ερευνητικό Κέντρο «Αθηνά»

BetaCMS. Επισκόπηση. BetaCONCEPT

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Συλλογιστική εξαγωγής συμπερασμάτων από συγκεκριμένες υποθέσεις δοθείσα μεθοδολογία διαδικασία της σκέψης, πρέπει να «συλλογιστεί» υπόθεση/παραγωγή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Bizagi Modeler: Συνοπτικός Οδηγός

Θέματα Ατομικής Διπλωματικής Εργασίας - DRAFT Ακαδημαϊκό Έτος 2015/2016. Γεωργία Καπιτσάκη (Λέκτορας)

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Πίνακας Περιεχομένων. μέρος A 1 Εισαγωγή στην Τεχνολογία Λογισμικού

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ Α ΘΕΩΡΙΑ ΤΗΣ ΓΝΩΣΗΣ ΚΑΙ ΘΕΩΡΙΑ ΤΟΥ ΑΝΤΙΚΕΙΜΕΝΟΥ ΣΤΙΣ ΚΟΙΝΩΝΙΚΕΣ ΕΠΙΣΤΗΜΕΣ. του αντικειμένου προσεγγίσεων...

Computer & Applied Sciences Complete ΟΔΗΓΟΣ ΧΡΗΣΗΣ

DECO-DECoration Ontology.

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων».

Επιτυχημένα παραδείγματα. σε ελληνικά αποθετήρια και σχετικά τεχνολογικά εργαλεία

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Μεθοδολογία Εκπαιδευτικής Έρευνας

Α.Σ.ΠΑΙ.Τ.Ε. Π.Μ.Σ. ΕΠΙΣΤΗΜΕΣ ΤΗΣ ΑΓΩΓΗΣ

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Πυθαγόρειες Τριάδες: από την ανακάλυψη μιας κανονικότητας στη διατύπωση και την απόδειξη μιας πρότασης

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Εισαγωγή. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

Ποιος φοβάται το ψηφιακό περιεχόμενο στη Νεοελληνική Φιλολογία;

Δραστηριότητες στο εργαστήριο Τεχνολογίας & Συστημάτων λογισμικού του ΤΕΙ Κρήτης

Τίτλος Πακέτου Certified Computer Expert-ACTA

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

Κύρια σημεία. Μεθοδολογικές εργασίες. Άρθρα Εφαρμογών. Notes - Letters to the Editor. Εργασίες στη Στατιστική Μεθοδολογία

Παραδοτέο Π.1.3. Μηχανισμοί δεικτοδότησης μη-παραδοσιακών δεδομένων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΟΜΑΔΟΠΟΙΗΣΗ ΑΡΙΘΜΗΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Περιεχόμενα. Περιεχόμενα

Η Επίδραση των Events στην Απόδοση των Μετοχών

FORTRAN & Αντικειμενοστραφής Προγραμματισμός ΣΝΜΜ 2016

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

ΤΕΛΙΚΕΣ ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ (6 Μονάδες ECTS)- Ακαδημαϊκό Έτος

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΝΙΧΝΕΥΣΗ ΦΩΤΙΑΣ. Χαοτικό φαινόμενο, με ακανόνιστο σχήμα Βασικό χαρακτηριστικό της φωτιάς είναι το χρώμα

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 1: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΕΘΟΔΟΥΣ ΕΡΕΥΝΑΣ - ΠΕΡΙΓΡΑΜΜΑ

ΕΚΤΙΜΗΣΗ ΕΠΙΔΕΚΤΙΚΟΤΗΤΑΣ ΚΑΤΟΛΙΣΘΗΣΕΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΜΟΝΤΕΛΟΥ "WEIGHT OF EVIDENCE"

ΕΠΛ664 ΑΝΑΛΥΣΗ ΚΑΙ ΕΠΑΛΗΘΕΥΣΗ ΣΥΣΤΗΜΑΤΩΝ

Μεταπτυχιακή Διπλωματική Εργασία. Κ. Αλεξανδρής Αν. Καθηγητής, ΤΕΦΑΑ, ΑΠΘ

Σεμινάριο Τελειοφοίτων. 3 Βιβλιογραφική Αναζήτηση

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Αναζητώντας θέμα έρευνας: ορισμένες μεθοδολογικές παρατηρήσεις. Δρ. Ηλίας Μαυροειδής

Ημερομηνία Παράδοσης: 4/4/2013

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

UML. Γενικά χαρακτηριστικά Στοιχεία µοντέλων Συσχετίσεις. Παραδείγματα

Μηχανουργική Τεχνολογία ΙΙ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Οι Διπλωματικές Εργασίες, θα πρέπει να παραδίδονται ακολουθώντας τις παρακάτω προδιαγραφές.

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

EBSCOhost Research Databases

Wilson Web Art Databases, H.W. Wilson

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Μοντελοποίηση δεδομένων με UML Χρήση σε πολυμεσικές εφαρμογές

Ανοικτό Πανεπιστήμιο Κύπρου

Transcript:

Αυτόματη Εξαγωγή Περιλήψεων με Χρήση Οντολογιών Εισαγωγή Στα πλαίσια της διατριβής με τίτλο «Αυτόματη Εξαγωγή Περιλήψεων με Χρήση Οντολογιών» παρήχθη ένα σύνολο από μεθοδολογίες και υλοποιήθηκαν τα αντίστοιχα εργαλεία, με εφαρμογή στους τομείς τόσο της εξαγωγής περιλήψεων, αλλά και σε άλλες εργασίες Ανάλυσης Φυσικής Γλώσσας (ΑΦΓ). Επιδείξαμε πώς αυτές οι μέθοδοι μπορούν να προσαρμοστούν ώστε να αντιμετωπίσουν προβλήματα όπως: Εκτίμηση σημασίας πρότασης (εξαγωγή περιλήψεων). Αφαίρεση πλεονασμού (εξαγωγή περιλήψεων). Εντοπισμός νεωτερισμού (εξαγωγή περιλήψεων). Αυτόματη αξιολόγηση συστημάτων εξαγωγής περιλήψεων. Ποσοτικοποίηση κειμενικών ιδιοτήτων ποιότητας. Θεωρούμε ότι η έρευνα αυτή θέτει τα θεμέλια για την εμφάνιση μίας οικογενείας αλγορίθμων για ΑΦΓ, που θα βασίζεται στους γράφους ν-γραμμάτων. Επιπλέον, η εν λόγω διατριβή προσπάθησε να δώσει μία νέα οπτική στη μοντελοποίηση της κειμενικής αναπαράστασης, που αποβλέπει στη διατήρηση της ανεξαρτησίας από συγκεκριμένη γλώσσα και στη γενική χρησιμότητα. Ανακεφαλαιώνοντας, η διατριβή είχε τις ακόλουθες βασικές συνεισφορές: Μια μελέτη και ανασκόπηση της διαδικασίας εξαγωγής περιλήψεων, από μία οπτική που προσπαθεί να συνδυάσει υπάρχουσες προσεγγίσεις και απόψεις, σκιαγραφώντας και τη σχετική βιβλιογραφία. Μια αναπαράσταση κειμένου βασισμένη σε στατιστική, ανεξάρτητη γλώσσας, μεθοδολογία υπολογισμού. H αναπαράσταση αυτή προσφέρει πλουσιότερη πληροφορία ως μοντέλο από την αναπαράσταση με ανύσματα στο χώρο των λέξεων. H αναπαράσταση αυτή θεμελιώνεται και με την εισαγωγή και μελέτη ενός συνόλου τελεστών και αλγορίθμων, που επιτρέπουν τη χρήση της σε μία πληθώρα προβλημάτων ΑΦΓ. 'Ενα σύστημα αυτόματης αξιολόγησης περιλήψεων, που προσπαθεί να εντοπίσει την ποιότητα περιλήψεων με ένα τρόπο ανεξάρτητο γλώσσας, χρησιμοποιώντας την αναπαράσταση του γράφου ν-γραμμάτων. Το σύστημα αυτό, με το όνομα AutoSummENG, αποτελεί ένα από τα κορυφαία εργαλεία για αξιολόγηση περιλήψεων. Τη μετρική Symbol Sequence Statistical Normality, ως μέτρο ποιότητας κειμένων, βασισμένη στη στατιστική ανάλυση ακολουθιών χαρακτήρων σε ένα σύνολο κειμένων. 'Ενα σύστημα αυτόματης εξαγωγής περιλήψεων, βασισμένο στη χρήση των γράφων ν-γραμμάτων, το οποίο εστιάζει στην αντιμετώπιση της επιλογής περιεχομένου και της αποφυγής πλεονασμού. Ακόμη και χωρίς τη χρήση βελτιστοποίησης, το εν λόγω σύστημα εξαγωγής περιλήψεων έδωσε ανταγωνιστικά αποτελέσματα στο διεθνές περιβάλλον αξιολόγησης τεχνολογιών ανάλυσης κειμένου «Text Analysis Conference» (TAC).

Στα πλαίσια της εν λόγω διατριβής αφιερώθηκε χρόνος και στην υποστήριξη και προώθηση της διεθνούς συνεργασίας μεταξύ επιστημόνων. Το αποτέλεσμα αυτής της προσπάθειας ήταν: Το πλαίσιο εργασίας FABLE,το οποίο αρχικά στόχευε στην υποστήριξη της εργασίας AESOP (Automatically Evaluating Summaries Of Peers) του Text Analysis Conference του 2009, παρέχοντας ένα ενιαίο τρόπο για την ενσωμάτωση και αξιολόγηση συστημάτων αξιολόγησης περιλήψεων. Τη βιβλιοθήκη JINSECT, που αποτελεί ένα σύνολο εργαλείων βασισμένο σε γλώσσα Java, το οποίο υποστηρίζει και υποδεικνύει τη χρήση και χρησιμότητα του γράφου ν-γραμμάτων σε ένα ευρύ φάσμα εφαρμογών ΑΦΓ. Οι εφαρμογές αυτές ποικίλλουν από εξαγωγή περιλήψεων και αξιολόγηση περιλήψεων, μέχρι κατηγοριοποίηση κειμένων και ομαδοποίηση ή ευρετηρίαση. H βιβλιοθήκη είναι μία συνεισφορά στη διεθνή κοινότητα ΑΦΓ, με άδεια χρήσης που επιτρέπει την ελεύθερη χρήση και προσαρμογή της (LGPL) τόσο για ακαδημαϊκές όσο και για εμπορικές εφαρμογές. H συνεισφορά, συνεπώς της εν λόγω έρευνας είναι διττή. Αφενός συνεισφέρει σε βασική έρευνα, αλλά αφετέρου συνεισφέρει και στην εφαρμοσμένη επιστήμη υπολογιστών, μέσα από τα παρεχόμενα εργαλεία. Θεωρητική Συνεισφορά H διατριβή που εκπονήθηκε συγκέντρωσε, ανακεφαλαίωσε και συστηματοποίησε υπάρχουσες προσεγγίσεις στον τομέα. Επίσης, προσέφερε μία νέα οπτική στην βιβλιογραφία του χώρου, παρέχοντας ένα γενικευμένο σχήμα για τη διαδικασία της αυτόματης εξαγωγής περιλήψεων (βλ. Εικόνα 1: H διαδικασία της εξαγωγής περίληψης όπως προβάλλεται στη διατριβή). Στο θεωρητικό κομμάτι το αποτέλεσμα της ερευνητικής εργασίας ήταν επίσης η δημιουργία ενός ολοκληρωμένου, θεωρητικά στηριζόμενου και πειραματικά αποτελεσματικού πλαισίου για την αναπαράσταση κειμένων με χρήση των γράφων ν-γραμμάτων, αλλά και τη χρήση των γράφων μέσα από: Τελεστές ανάλογους με τους συνολο-θεωρητικούς τελεστές της τομής και της ένωσης. Επίσης, εισήχθη και ο τελεστής ενημέρωσης ο οποίος επιτρέπει τη μοντελοποίηση ομάδων ή κλάσεων κειμένων. Τελεστές ομοιότητας που επιτρέπουν τη χρήση των γράφων ν-γραμμάτων σε διαδικασίες όπως κατηγοριοποίηση, αξιολόγηση περιλήψεων, κ.ά. Επιπλέον τελεστές όπως ο τελεστής δέλτα (ότι-δεν-υπάρχει-σε) και ο τελεστής της αντίστροφης τομής, οι οποίοι υποστηρίζουν τον εντοπισμό και χειρισμό θορύβου στη δομή των γράφων ν-γραμμάτων.

Εικόνα 1: H διαδικασία της εξαγωγής περίληψης όπως προβάλλεται στη διατριβή Σημαντικό τμήμα της θεωρητικής συνεισφοράς είναι αναμφίβολα και η σύσταση, με υιοθέτηση του παραπάνω πλαισίου εργασίας, μεθοδολογιών για την: Εύρεση βέλτιστων παραμέτρων για την αναπαράσταση κειμένων ως γράφων ν-γραμμάτων, βάσει μίας θεωρητικής ανάλυσης βασισμένης σε θεωρία πληροφορίας και στατιστικά εξαγώγιμα μοντέλα. Εξαγωγή περιλήψεων, πιθανώς και με χρήση πρότερης γνώσης (οντολογία ή και θησαυρός). Αξιολόγηση περιλήψεων, με χρήση των γράφων ν-γραμμάτων. Εφαρμοσμένη Συνεισφορά Το σύνολο των θεωρητικών μεθόδων που επινοήθηκαν ενσωματώθηκε σε μία προγραμματιστική βιβλιοθήκη, η οποία παρέχει ένα σύνολο δομών, αλγορίθμων και υλοποιημένων συνθέτων μεθόδων για ένα σύνολο εργασιών, όπως:

Αυτόματη Εξαγωγή Περιλήψεων - Automatic Summarization Αυτόματη Αξιολόγηση Συστημάτων Εξαγωγής Περιλήψεων - Automatic Evaluation of Summary Systems Κατηγοριοποίηση Κειμένων - Text Classification Αναγνώριση Συγγραφέα - Authorship Identification Ευρετηρίαση Κειμένων - Text Indexing Σημασιολογική Επισημείωση - Semantic Annotation Εξαγωγή Γνώμης - Opinion Extraction Στεμμαλογία Κειμένων - Text Stemmatology H προγραμματιστική αυτή βιβλιοθήκη, με το όνομα JInsect (ακρωνύμιο του Java INteroperable Semantic Extraction Context-based Toolkit), είναι ένα σύνολο προγραμματιστικών εργαλείων για την ΑΦΓ, αλλά επιπλέον περιέχει ένα σύνολο παραδειγμάτων εφαρμογής σχετικών μεθοδολογιών. Σκοπός Οι βασικοί στόχοι της προγραμματιστικής βιβλιοθήκης είναι η παροχή δομών, στοιχειωδών αλγορίθμων και ενδεικτικών σύνθετων μεθόδων που να: Λαμβάνουν υπ όψη πληροφορία περικειμένου. Εξάγουν πληροφορία υψηλού επιπέδου, ανεξαρτήτως από τη χρησιμοποιούμενη γλώσσα, με στατιστικό τρόπο. H διαλειτουργικότητα με άλλα εργαλεία και μεθόδους. H βασική συνεισφορά της βιβλιοθήκης αφορά στην υλοποίηση των δομών και αλγορίθμων που σχετίζονται με την αναπαράσταση του γράφου ν-γραμμάτων για την ανάλυση κειμένων. Εργασίες αυτόματης εξαγωγής και αξιολόγησης περιλήψεων μπορούν να υποστηριχθούν από τη βιβλιοθήκη και σχετικά πειράματα έχουν ήδη πραγματοποιηθεί και γνωστοποιηθεί στη διεθνή επιστημονική κοινότητα (George Giannakopoulos et al.),(george Giannakopoulos, Vangelis Karkaletsis, & George Vouros), (George Giannakopoulos & Vangelis Karkaletsis). H εφαρμοσιμότητα των αλγορίθμων σε μία πληθώρα τομέων, κατέστησε τη βιβλιοθήκη σημαντικό εργαλείο και έχει ήδη χρησιμοποιηθεί σε Ερευνητικά Ιδρύματα με υψηλό κύρος στο ερευνητικό περιβάλλον (University of Trento - Italy, L3S - Germany, Reuters). Το JInsect ως προγραμματιστική βιβλιοθήκη Στη βιβλιοθήκη, η οποία είναι πλέον διαθέσιμη ως έργο ανοικτού κϊδικα 1 με άδεια χρήσης που επιτρέπει την ελεύθερη χρήση της τόσο σε εμπορικά, όσο και σε μη εμπορικά έργα, ένας προγραμματιστής μπορεί να βρει εργαλεία για την ανάλυση και αναπαράσταση κειμένων (ή και οποιασδήποτε ακολουθίας χαρακτήρων/συμβόλων) με τις ακόλουθες εναλλακτικές: 1 Δείτε και στο http://sourceforge.net/projects/jinsect/.

Γράφος N-γραμμάτων Χαρακτήρων Γράφος N-γραμμάτων Λέξεων Ιστόγραμμα N-γραμμάτων Χαρακτήρων Ιστόγραμμα N-γραμμάτων Λέξεων Επιπλέον υποστηρίζονται και πιο σύνθετες δομές, οι οποίες βρίσκονται ακόμη υπό ανάπτυξη και εξέλιξη, όπως: Γράφοι ν-γραμμάτων με κατανομές απόστασης αντί για βάρη στις ακμές (παρέχουν πιο λεπτομερείς πληροφορίες για τη γειτνίαση). Εννοιολογικό ευρετήριο (γράφος, επισημειωμένος με έννοιες, που επιπλέον υποδεικνύει σχέσεις μερεολογίας μεταξύ ν-γραμμάτων). Μοντέλο κανονικότητας, βάσει ανάλυσης ν-γραμμάτων (σύνολο από τριπλέτες που περιγράφουν την πιθανότητα εμφάνισης ενός χαρακτήρα μετά από ένα συγκεκριμένο ν-γραμμα) Οι γράφοι ν-γραμμάτων εμπεριέχουν πληροφορία συνύπαρξης για τα ν-γράμματα, διατηρώντας πληροφορίες για σχέσεις γειτνίασης μεταξύ ν-γραμμάτων. Μπορούν με αυτόν τον τρόπο να διατηρήσουν πληροφορίες για τη μεταβατική κλειστότητα γειτνίασης, σε αντίθεση με την αναπαράσταση συμβολοσειρών και κειμένων σε διανυσματικό χώρο (π.χ. ως σακίδιο λέξεων). Ο πλούτος της πληροφορίας στους γράφους έρχεται συνυφασμένος με αυξημένο υπολογιστικό κόστος στους απλούς αλγορίθμους για την ανάλυση και χρήση των γράφων. Στα πλαίσια της βιβλιοθήκης, όμως, χρησιμοποιήθηκαν διάφορες μέθοδοι βελτιστοποίησης και κατανεμημένης/παράλληλης εκτέλεσης, ώστε να είναι εφαρμόσιμοι οι αλγόριθμοι και σε πολλά δεδομένα. Ενδεικτικά αναφέρουμε ότι η μέθοδος αξιολόγησης περιλήψεων έχει υλοποιηθεί και ως κατανεμημένα εκτελέσιμη διαδικασία με τη χρήση νοημόνων πρακτόρων. H βιβλιοθήκη υποστηρίζει μία πληθώρα βελτιςτοποιημένων τελεστών επάνω στους γράφους (βλ. επίσης τη διατριβή (George Giannakopoulos)), όπως: Τελεστές και συναρτήσεις ομοιότητας (Ομοιότητα περιοχής, Ομοιότητα Τιμών, Ομοιότητα Μεγέθους, Κανονικοποιημένη ομοιότητα τιμών...) Τελεστές τομής, ένωσης και συναρτήσεις ενημέρωσης γράφων ν- γραμμάτων. Τελεστές δέλτα και αντίστροφης τομής γράφων ν-γραμμάτων. Στη βιβλιοθήκη παρέχονται και μία πληθώρα από παραδείγματα και πραγματικές υλοποιήσεις αλγορίθμων που έχουν ήδη χρησιμοποιηθεί σε διάφορες εφαρμογές, π.χ. σχετικές με: Στεμμαλογία κειμένων (ανακάλυψη εξέλιξης ιστορικών κειμένων ανάμεσα σε διάφορες εκδόσεις), βλ. (Roos & Heikkila) Ανάλυση συναισθήματος, βλ. (Rentoumi et al.) Τέλος, στη βιβλιοθήκη παρέχονται αλγόριθμοι για: Ομαδοποίηση κειμένων.

Κατηγοριοποίηση κειμένων. Επισημείωση κειμένων με έννοιες δεδομένου θησαυρού. Εκτίμηση βελτίστου μήκους ν-γραμμάτων για ανάλυση κειμένου. Στατιστική ανάλυση (ανάλυση κανονικότητας, κεντρικές ροπές, κτλ.) Σειριακοποίηση δεδομένων και αντικειμένων με αφαίρεση στο επίπεδο της αποθήκευσης. Το JInsect ως σύνολο εφαρμογώνστο JInsect, μπορεί κανείς να βρει και κάποιες εφαρμογές που λειτουργούν αυτόνομα, είτε μέσα από γραφικό περιβάλλον (όπως η διεπαφή της μεθόδου AutoSummENG), είτε μέσα από κονσόλα (όπως η διεπαφές των εναλλακτικών για την εξαγωγή περίληψης). AutoSummENG Η μέθοδος αξιολόγησης περιλήψεων AutoSummENG έχει ήδη χρησιμοποιηθεί για πάνω από 1 χρόνο από διαφόρους επιστήμονες του χώρου της αξαγωγής περιλήψεων και αποτελεί μία από τις πλέον αξιόπιστες μεθόδους του χώρου (Tratz & Hovy),(George Giannakopoulos & Vangelis Karkaletsis). Παρέχει δυνατότητα ανάλυσης και σύγκρισης περιλήψεων με περιλήψεις-μοντέλα με διαφορετικές προσεγγίσεις, χρησιμοποιώντας ν-γράμματα λέξεων ή χαρακτήρων, με επιλογή εύρους ν-γραμμάτων και μέγιστης απόστασης γειτνίασης, επιτρέπει παράλληλη εκτέλεση, κ.ά. Εικόνα 2: Η γραφική διεπαφή της μεθόδου αξιολόγησης περιλήψεων AutoSummENG Αυτόματη εξαγωγή περιλήψεων Με τη βιβλιοθήκη παρέχεται και ένα πλήρως λειτουργικό σύστημα εξαγωγής περιλήψεων, ανεξαρτήτως γλώσσας, βασισμένο σε ανάλυση με γράφους νγραμμάτων. Το σύστημα (G. Giannakopoulos, V. Karkaletsis, & G. Vouros) επιτρέπει επίσης:

Εξαγωγή περίληψης με δεδομένη πρότερη γνώση. Εξαγωγή περίληψης με χρήση ερωτήματος. Επέκταση ερωτήματος με χρήση θησαυρού. Διάφορα μεγέθη περίληψης. Διάφορες μεθόδους αποφυγής επανάληψης πληροφορίας. Εικόνα 3: Ενδεικτική περίληψη από το TAC 2008 corpus Τέλος, στα πλαίσια του συνδυασμού της τεχνογνωσίας που αποκτήθηκε από διαφορετικούς συντελεστές του έργου, δημιουργήθηκε και ένα διαδικτυακό εργαλείο, που επιτρέπει την εξαγωγή περιλήψεων από πολλαπλά κείμενο, με χρήση αυτόματα εξαγμένων εννοιών από το σύνολο των κειμένων εισόδου. Emirates is the the biggest customer of the A380 with an order for 43 planes, and has been expecting to take delivery of the aircraft in October 2006. An Airbus spokesman in France said the company has begun to measure turbulence in the wake of the A380 but that studies are not complete. Singapore Airlines will be the first to receive the new model, with the first orders delivered in late 2006, following earlier production delays. Construction problems have delayed the introduction of the double-deck A380, the largest passenger plane in the world. Εικόνα 4: Δείγμα από το διαδικτυακό εργαλείο Αναφορές Giannakopoulos, G., V. Karkaletsis, and G. Vouros. Testing the use of n-gram graphs in summarization sub-tasks. TAC 2008 Workshop - Notebook papers and results. Maryland MD, USA, 2008. 158 167. Web.

Giannakopoulos, George. Automatic Summarization from Multiple Documents. Apr 2009n. pag. Print. Giannakopoulos, George, and Vangelis Karkaletsis. N-gram graphs: Representing documents and document sets in summary system evaluation. Proceedings of Text Analysis Conference TAC2009 (To appear). 2009. Print. Giannakopoulos, George, Vangelis Karkaletsis, and George Vouros. Testing the use of N-gram Graphs in Summarization Sub-tasks. Proceedings of Text Analysis Conference TAC2008. Washignton, U.S.A., 2008. Print. Giannakopoulos, George et al. Summarization system evaluation revisited: N-gram graphs. ACM Trans. Speech Lang. Process. 5.3 (2008): 1-39. ACM. Web. Rentoumi, Vassiliki et al. Sentinent Analysis of Figurative Language using a Word Sense Disambiguation Approach. Borovets, Bulgaria, 2009. Print. Roos, T., and T. Heikkila. Evaluating methods for computer-assisted stemmatology using artificial benchmark data sets. Literary and Linguistic Computing. (2009): n. pag. Print. Tratz, S., and E. Hovy. Summarization Evaluation Using Transformed Basic Elements. Proceedings of the 1st Text Analysis Conference (TAC). 2008. Print.