Εθνική Ερευνητική Υποδομή Υποέργο 3 Κατασκευή αποθετηρίου και διεπαφή με διαδικτυακές γλωσσικές υπηρεσίες Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Συγγραφείς: Διαθεσιμότητα: Γεώργιος Πετάσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»), Αναστασία Κριθαρά (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»), Ευάγγελος Καρκαλέτσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος») Δημόσιο Ημερομηνία: 30/6/2013
Κωδικός Έργου 441451 Σύντομος τίτλος έργου CLARIN-EL Πλήρης τίτλος έργου Εθνική Ερευνητική Υποδομή CLΑRIN-EL Τίτλος Υποέργου Κατασκευή αποθετηρίου και διεπαφή με διαδικτυακές γλωσσικές υπηρεσίες Επιστ. Υπεύθυνος Ε. Καρκαλέτσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος») Ημερ/νία έναρξης, διάρκεια 1/11/2012, 35 μήνες Συμβατική ημερ/νία 30/06/2013 ολοκλήρωσης παραδοτέου Πραγματική ημερ/νία 30/06/2013 ολοκλήρωσης παραδοτέου Κωδικός παραδοτέου Π3.4.1α Τίτλος παραδοτέου Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Τύπος παραδοτέου Αναφορά Έκδοση Τελική, 1.0 Αριθμός σελίδων 18 Συμμετέχοντες φορείς Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Υπεύθυνος Πακέτου Εργασίας Ε. Καρκαλέτσης Υπεύθυνος Εργασίας Ε. Καρκαλέτσης Συγγραφείς Γ. Πετάσης, Α. Κριθαρά, Ε. Καρκαλέτσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος») Υπεύθυνος ΕΥΔ/ΕΠΑΕ Ελένη Παπαδοπούλου Τα δημόσια παραδοτέα του έργου CLARIN-EL βρίσκονται αναρτημένα στη σελίδα: http://www.clarin.gr/deliverables 2013, Συγγραφείς Αυτή η εργασία χορηγείται με άδεια Creative Commons Αναφορά Δημιουργού 3.0 Ελλάδα. 2
Περιεχόμενα 1 Εισαγωγή... 4 2 Κατάλογος εφαρμογών ΓΤ Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»... 5 2.1 Εργαλεία συλλογής και ανάπτυξης κειμενικών πόρων... 5 2.2 Εργαλεία γλωσσικής επεξεργασίας κειμενικών πόρων... 7 3
1 Εισαγωγή Το παραδοτέο Π3.4.1 περιλαμβάνει τον πλήρη κατάλογο των εφαρμογών Γλωσσικής Τεχνολογίας που έχει αναπτύξει το Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» και που θα ενσωματωθούν στην Εθνική Ερευνητική Υποδομή CLARIN-EL. Τα εργαλεία και οι υπηρεσίες παρουσιάζονται ταξινομημένα σε ευρύτερες κατηγορίες ανάλογα με τις δυνατότητες αξιοποίησής τους από τους χρήστες της υποδομής. Για κάθε εργαλείο/υπηρεσία, δίνονται οι ακόλουθες πληροφορίες, οι οποίες είναι σύμφωνες με το μοντέλο περιγραφής γλωσσικών πόρων META-SHARE 1 & 2 : : Πλήρης ονομασία του πόρου. : Στη συγκεκριμένο παραδοτέο, παίρνει πάντα την τιμή εργαλείο/υπηρεσία. : Αφορά στον τύπο αρχείων που διαχειρίζεται το συγκεκριμένο εργαλείο ή η υπηρεσία και επιλέγεται μία από τις τιμές: βίντεο, εικόνα, ήχος, κείμενο, αριθμητικά δεδομένα, ν-γράμματα. : Αναφέρονται οι γλώσσες των αρχείων που διαχειρίζεται τα εργαλεία ή οι υπηρεσίες. : Εφόσον έχει αποφασιστεί συγκεκριμένη άδεια, δίνεται η ονομασία της. : Αφορά στη μορφή στην οποία βρίσκεται στην παρούσα φάση ο συγκεκριμένος πόρος και επιλέγεται μία από τις τιμές εργαλείο, υπηρεσία. Στη διάρκεια του έργου, ορισμένοι πόροι θα βελτιωθούν, εμπλουτιστούν, επεκταθούν ή/και μετατραπούν από εργαλεία σε διαδικτυακές υπηρεσίες και θα διατίθενται από την υποδομή με τη νέα τους μορφή. : Η τελική μορφή του πόρου, όπως θα διατίθεται από την υποδομή. Επιλέγεται πάλι μία από τις τιμές εργαλείο, υπηρεσία. Σύντομη περιγραφή του πόρου στα ελληνικά. 1 Gavrilidou M., P. Labropoulou, E. Desipri, S. Piperidis, H. Papageorgiou, M. Monachini, F. Frontini, T. Declerck, G. Francopoulo, V. Arranz, V. Mapelli, (2012), "The META-SHARE Metadata Schema for the Description of Language Resources", LREC 2012, Istanbul, Turkey 2 Για πλήρη και επικαιροποιημένη περιγραφή του μοντέλου, βλ.: http://www.metashare.org/portal/knowledgebase/home) 4
2 Κατάλογος εφαρμογών ΓΤ Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» 2.1 Εργαλεία συλλογής και ανάπτυξης κειμενικών πόρων Μηχανή επισημείωσης Έλλογον / Επισημειωτής σωμάτων κειμένων Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Η μηχανή επισημείωσης της πλατφόρμας Έλλογον δημιουργεί κατάλληλες γραφικές διεπαφές, μέσω των οποίων χρήστες μπορούν να επισημειώσουν σώματα κειμένων με γλωσσική πληροφορία (η οποία αποθηκεύεται με την μορφή επισημειώσεων). Η μηχανή επισημείωσης δέχεται σαν είσοδο ένα σχήμα επισημείωσης (εκφρασμένο σαν ένα αρχείο XML), το οποίο περιέχει πληροφορίες σχετικά με τον τύπο των επισημειώσεων που θα παραχθούν από την διαδικασία επισημείωσης, τα χαρακτηριστικά των επισημειώσεων, και τα σύνολα ετικετών κάθε χαρακτηριστικού. Έχοντας σαν βάση ένα σχήμα επισημείωσης, η μηχανή επισημείωσης της πλατφόρμας Έλλογον δημιουργεί αυτόματα μια κατάλληλη γραφική διεπαφή για την επισημείωση σωμάτων κειμένων με το σχήμα εισόδου. Η λειτουργία του εργαλείου είναι διττή: μπορεί να δημιουργήσει μια γραφική διεπαφή εντός της πλατφόρμας Ελλογον, όσο και μια αυτόνομη εφαρμογή επισημείωσης, που λειτουργεί χωρίς την εγκατάσταση της πλατφόρμας Έλλογον. Η μηχανή επισημείωσης της πλατφόρμας Έλλογον διανέμεται τόσο μαζί με την πλατφόρμα Έλλογον, όσο και σαν αυτόνομο εργαλείο (http://www.ellogon.org/index.php/annotationtool). Και οι δύο διανομές της μηχανή επισημείωσης της πλατφόρμας Έλλογον μπορούν να λειτουργήσουν τόσο τοπικά (όπου ένας χρήστης επισημειώνει ένα σώμα κειμένου το οποίο βρίσκεται τοπικά, στον ίδιο υπολογιστή με το εργαλείο επισημείωσης) όσο και κατανεμημένα, όπου μια ομάδα χρηστών μπορεί να επισημειώνει συνεργατικά ένα σώμα κειμένων που βρίσκεται σε έναν κεντρικό υπολογιστή, ο οποίος περιέχει μια σχεσιακή βάση δεδομένων (υποστηρίζονται οι βάσεις δεδομένων MySQL, MariaDB, και PostgreSQL). 5
ELEON ontology authoring and enrichment tool / Διορθωτής οντολογιών OWL Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Το ELEON είναι ένας διορθωτής οντολογιών σε OWL ο οποίος δίνει έμφαση στην επισημείωση των οντοτήτων (κλάσεων, ιδιοτήτων, και στιγμιοτύπων) της οντολογίας με γλωσσικά μετα-δεδομένα που αφορούν τον τρόπο εκφοράς τους σε φυσική γλώσσα. Επιπλέον, το ELEON υποστηρίζει και την επισημείωση με παραμέτρους σχετικά με την εξατομικευμένη παραγωγή περιγραφών σε φυσική γλώσσα των στιγμιοτύπων της οντολογίας, την σύνδεση με την μηχανή παραγωγής φυσικής γλώσσας NaturalOWL για την άμεση παρουσίαση του αποτελέσματος στο παραγόμενο κείμενο κάθε αλλαγής, και την σύνδεση με εργαλεία ελέγχου και ημι-αυτόματης συμπλήρωσης της λογικής δομής της οντολογίας και των γλωσσικών παραμέτρων. Το εργαλείο διατίθεται ως εκτελεστέο πρόγραμμα και ως κώδικας Java με άδεια ανοιχτού κώδικα (GPL v2). 6
2.2 Εργαλεία γλωσσικής επεξεργασίας κειμενικών πόρων Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας «Έλλογον» / Υποδομή κατασκευής εφαρμογών επεξεργασίας φυσικής γλώσσας Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Η πλατφόρμα γλωσσικής επεξεργασίας «Έλλογον» είναι μια υποδομή για την δημιουργία εφαρμογών επεξεργασίας φυσικής γλώσσας. Σαν πλατφόρμα, προσφέρει ένα περιβάλλον που υποστηρίζει την ανάπτυξη αρθρωμάτων επεξεργασίας φυσικής γλώσσας σε διάφορες γλώσσες προγραμματισμού (ενδεικτικά αναφέρονται: C, C++, Tcl, Python, Perl, Java) εξασφαλίζοντας την επικοινωνία και διαλειτουργικότητα ανάμεσα τους. Επιπρόσθετα παρέχει λειτουργίες που αφορούν βασικές τυπικές εργασίες που χρειάζονται τα αρθρώματα επεξεργασίας φυσικής γλώσσας ή ο τελικός χρήστης, όπως: Διαχείριση σωμάτων κειμένου (δημιουργία, αποθήκευση, τροποποίηση, επισημείωση, ανάκτηση). Διαχείριση (γλωσσικής) πληροφορίας σχετικής με την επεξεργασία κειμένου, μέσω της μορφής των «επισημειώσεων». Αναζήτηση/ανάκτηση πληροφορίας σχετικής με την επεξεργασία κειμένου. Διαχείριση αρθρωμάτων και δημιουργία «εφαρμογών» (αλληλουχίες από αρθρώματα που εκτελούν κάποια συγκεκριμένη εργασία επεξεργασίας φυσικής γλώσσας, όπως αναγνώριση ονομάτων οντοτήτων). Χειρισμός της πλατφόρμας μέσω γραφικού περιβάλλοντος, όσο και μέσω μακροεντολών, αποθηκευμένων σε αρχεία (scripts). Προβολή πληροφορίας σχετικής με την επεξεργασία κειμένου στον τελικό χρήστη, μέσω κατάλληλων εργαλείων απεικόνισης. Τροποποίηση πληροφορίας σχετικής με την επεξεργασία κειμένου από τον τελικό χρήστη, μέσω κατάλληλων εργαλείων επισημείωσης. Μηχανή κατασκευής εργαλείων επισημείωσης, προσαρμοζόμενα σε σχήματα επισημείωσης που ορίζονται από τον τελικό χρήστη, μέσω XML αρχείων. 7
HTokenizer / Αναγνωριστής λέξεων/προτάσεων Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HTokenizer είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο εντοπίζει λέξεις και προτάσεις σε κείμενα γραμμένα στην Ελληνική ή/και Αγγλική γλώσσα. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Βασίζεται σε ένα σύνολο κανόνων (κανονικές εκφράσεις γραμμένες σε μορφή επεξεργάσιμη από την εφαρμογή ανοικτού κώδικα Flex (http://flex.sourceforge.net/)) και σε ένα μικρό λεξικό από κοινές λέξεις και συντμήσεις για τις υποστηριζόμενες γλώσσες. Το εργαλείο HTokenizer μπορεί να επεξεργαστεί τόσο απλό κείμενο όσο και HTML έγγραφα, διαχωρίζοντας σαφώς τα τμήματα του κειμένου που αφορούν λέξεις από εκείνα που αφορούν πληροφορία σε HTML. Επιπρόσθετα, το εργαλείο HTokenizer μπορεί να αναγνωρίσει τμήματα κειμένου που αφορούν διευθύνσεις ηλεκτρονικού ταχυδρομείου (e-mails), συνδέσμους διαδικτύου (URLs), κ.α., καθώς και τμήματα που αφορούν την επεξεργασία κειμένων από κοινωνικά δίκτυα, όπως emoticons και Tweeter hashtags. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HTokenizer περιλαμβάνει επισημειώσεις τύπου token και επισημειώσεις τύπου sentence. Οι επισημειώσεις τύπου token περιγράφουν λέξεις, και περιέχουν επίσης πληροφορία σχετικά με την μορφή της λέξης, η οποία παράγεται από χαρακτηριστικά των χαρακτήρων που απαρτίζουν την λέξη (όπως αν είναι από το ελληνικό ή αγγλικό αλφάβητο, αν είναι κεφαλαίοι ή πεζοί, αν περιλαμβάνονται αριθμοί, σημεία στίξεις, κλπ.). Οι επισημειώσεις τύπου sentence περιγράφουν προτάσεις, ενώ περιέχουν πληροφορίες σχετικά με τις περιεχόμενες λέξεις (χαρακτηριστικό constituents ) καθώς και τις πληροφορίες HTML (χαρακτηριστικό html_constituents ) εφόσον αυτές υπάρχουν στο κείμενο εισόδου. Τέλος, εργαλείο HTokenizer είναι παραμετροποιήσιμο στο κατά πόσο θα αναγνωρίσει λέξεις, προτάσεις, ή στοιχεία HTML. 8
HBrill / Αναγνωριστής μερών του λόγου Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HBrill είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο χαρακτηρίζει λέξεις με το μέρος του λόγου στο οποίο ανήκουν, σε κείμενα γραμμένα στην Ελληνική ή την Αγγλική γλώσσα. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Βασίζεται σε μηχανική μάθηση, και συγκεκριμένα σε μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (transformation-based error-driven learning). Το εργαλείο HBrill αποτελεί επανυλοποίηση του Brill Tagger, ο οποίος δημιουργήθηκε από τον E. Brill. Το εργαλείο HBrill διανέμεται με κατάλληλους κανόνες τόσο για την Αγγλική όσο και την Ελληνική γλώσσα, χρησιμοποιώντας κατάλληλα (και διαφορετικά για τις δύο γλώσσες) σύνολα ετικετών (tags). Το σύνολο ετικετών για την αγγλική γλώσσα βασίζεται στο Penn Treebank, ενώ το σύνολο ετικετών για την ελληνική γλώσσα εκτός από τα μέρη του λόγου, κωδικοποιεί επίσης πληροφορία σχετική με το γένος και τον αριθμό. Περιγραφή και των δύο συνόλων ετικετών περιλαμβάνεται στο εργαλείο HBrill. Το εργαλείο HBrill προϋποθέτει ότι το κείμενο προς επεξεργασία έχει προηγουμένως αναλυθεί με έναν αναγνωριστή λέξεων και προτάσεων, και αναμένει σαν είσοδο επισημειώσεις του τύπου token και sentence. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HBrill επεκτείνει τις επισημειώσεις τύπου token προσθέτοντας το χαρακτηριστικό pos το οποίο λαμβάνει μια τιμή από το σύνολο ετικετών για την επιλεγμένη γλώσσα. 9
HBrillParole / Αναγνωριστής μερών του λόγου Ελληνικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HBrillParole είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο χαρακτηρίζει λέξεις με το μέρος του λόγου στο οποίο ανήκουν, σε κείμενα γραμμένα στην Ελληνική γλώσσα. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Βασίζεται σε μηχανική μάθηση, και συγκεκριμένα σε μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (transformation-based error-driven learning). Το εργαλείο HBrillParole αποτελεί επανυλοποίηση του Brill Tagger, ο οποίος δημιουργήθηκε από τον E. Brill. Το εργαλείο HBrillParole διανέμεται με κατάλληλους κανόνες για την Ελληνική γλώσσα, χρησιμοποιώντας το σύνολο ετικετών (tags) που δημιουργήθηκε κατά την διάρκεια του ερευνητικού έργου PAROLE. Το σύνολο ετικετών PAROLE για την ελληνική γλώσσα εκτός από τα μέρη του λόγου, κωδικοποιεί την πλήρη μορφολογική πληροφορία μιας λέξης, όπως το γένος, τον αριθμό, την πτώση, το πρόσωπο, την κλίση, την έγκλιση, κλπ. Το εργαλείο HBrillParole προϋποθέτει ότι το κείμενο προς επεξεργασία έχει προηγουμένως αναλυθεί με έναν αναγνωριστή λέξεων και προτάσεων, και αναμένει σαν είσοδο επισημειώσεις του τύπου token και sentence. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HBrillParole επεκτείνει τις επισημειώσεις τύπου token προσθέτοντας το χαρακτηριστικό pos το οποίο λαμβάνει μια τιμή από το σύνολο ετικετών για την επιλεγμένη γλώσσα. 10
HGazetteer / Αναγνωριστής λέξεων/φράσεων με βάση λίστες Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HGazetteer είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο εντοπίζει σε κείμενα προκαθορισμένες λέξεις ή φράσεις, οι οποίες περιέχονται σε λίστες (gazetteers) γνωστών λέξεων/φράσεων. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Οι λίστες γνωστών λέξεων/φράσεων μετασχηματίζονται σε ένα σύνολο κανόνων (κανονικές εκφράσεις γραμμένες σε μορφή επεξεργάσιμη από την εφαρμογή ανοικτού κώδικα Flex (http://flex.sourceforge.net/)), με την βοήθεια του οποίου δημιουργείται ένας αναλυτής κειμένου (scanner) ο οποίος μπορεί να εντοπίζει τις επιθυμητές λέξεις ή φράσεις σε κείμενα. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HGazetteer αποθηκεύεται σε επισημειώσεις τύπου lookup, με χαρακτηριστικά που προκύπτουν από τα ονόματα των αρχείων που περιέχουν τις λίστες ονομάτων. Το εργαλείο HGazetteer διανέμεται με λίστες για την ελληνική γλώσσα, οι περιλαμβάνουν κύρια ελληνικά ονόματα, και διάφορους προσδιοριστές που στοχεύουν στην υποβοήθηση συστημάτων αναγνώρισης ονομάτων οντοτήτων. Μια περισσότερο ευέλικτη έκδοση του εργαλείου HGazetteer παρέχεται από το πακέτο της πλατφόρμας Έλλογον ELEP::DocumentUtilities::HashTableGazetteer, το οποίο μπορεί να δημιουργήσει αναγνωριστές λέξεων/φράσεων δυναμικά, από λίστες γνωστών λέξεων/φράσεων, χωρίς να απαιτείται η χρήση του εργαλείου Flex και ενός μεταγλωττιστή για την γλώσσα προγραμματισμού C. 11
HNPChunker / Αναγνωριστής λέξεων/φράσεων με βάση λίστες Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HNPChunker είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο εντοπίζει σε κείμενα ένα μικρό σύνολο φράσεων, όπως ονοματικές και ρηματικές φράσεις. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας το πακέτο του γραμματικού αναλυτή επισημειώσεων που παρέχει η πλατφόρμα Έλλογον. Ο γραμματικός αναλυτής επισημειώσεων είναι μια επέκταση ενός τυπικού γραμματικού αναλυτή, ο οποίος όμως ενεργεί πάνω σε σειρές επισημειώσεων και όχι σε συμβολοσειρές. Δέχεται σαν είσοδο γραμματικές ανεξάρτητες από τα συμφραζόμενα (context-free grammars) εκφραστικότητας EBNF, και γλωσσική πληροφορία εκφρασμένη μέσω επισημειώσεων, ενώ οι τύποι και τα χαρακτηριστικά των επισημειώσεων πρέπει να συμφωνούν με την γραμματική. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HNPChunker αποθηκεύεται σε επισημειώσεις, ο τύπος των οποίων καθορίζεται από την εκάστοτε χρησιμοποιούμενη γραμματική. Το εργαλείο HNPChunker διανέμεται με μια απλή γραμματική για την ελληνική γλώσσα, η οποία επιτελεί μια ρηχή συντακτική ανάλυση εστιάζοντας κυρίως στις ονοματικές φράσεις. Προϋποθέτει ότι οι επισημειώσεις εισόδου περιέχουν επισημειώσεις τύπου token και sentence, και ότι οι επισημειώσεις τύπου token περιέχουν το χαρακτηριστικό pos, το οποίο περιέχει πληροφορία για το μέρος του λόγου κάθε λέξης, κωδικοποιημένο στο προκαθορισμένο σύνολο ετικετών του εργαλείου HBrill για τα ελληνικά. 12
αναγνώρισης ονομάτων οντοτήτων ( NERC) / Αναγνωριστής ονομάτων οντοτήτων Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο αναγνώρισης ονομάτων οντοτήτων (named entity recognition and classification NERC) εντοπίζει σε κείμενα ονόματα οντότητες και τα κατηγοριοποιεί σε κατάλληλες σημασιολογικές κατηγορίες. Τα ονόματα οντότητες μπορεί να είναι ονόματα προσώπων, οργανισμών, τοποθεσιών κ.α.. Οι σημασιολογικές κατηγορίες ορίζονται ανάλογα με το αν περιγράφουν πρόσωπα, οργανισμούς, τοποθεσίες, κ.α., αίροντας πιθανές αμφισημίες. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον. Το NERC σύστημα μπορεί να εκπαιδευτεί και να χρησιμοποιηθεί για διαφορετικές εφαρμογές και δεδομένα. Η εκπαίδευση απαιτεί ένα επισημειωμένο σύνολο δεδομένων. Το παρόν εργαλείο έχει εκπαιδευτεί και χρησιμοποιηθεί για διαφορετικού είδους δεδομένα στα πλαίσια Ευρωπαϊκών έργων, όπως τα Crossmarc, MITOS, MedIEQ, και BOEMIE. 13
ανάλυσης συναισθήματος / Αναλυτής συναισθήματος Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) κατηγοριοποίησης κειμένων και ανάλυσης συναισθήματος, βασισμένο σε αναπαράσταση γράφων ν-γραμμάτων. Συνδυάζεται με αλγορίθμους μηχανικής μάθησης για το τελικό μοντέλο (WEKA Toolkit). Εκτελείται είτε από γραμμή εντολών, είτε ως Socketbased Server. Έχει χρησιμοποιηθεί αυτούσιο, ή ως τμήμα άλλων εργαλείων, σε πληθώρα ερευνητικών εργασιών. Χρησιμοποιείται και στο gov.insight ως παραγωγός επισημειώσεων (producer) για ταξινόμηση συναισθήματος. Διατίθεται ως βιβλιοθήκη Java ανοιχτού κώδικα με άδεια LGPL. 14
παραγωγής περιλήψεων / Παραγωγή περιλήψεων Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Το εργαλείο παράγει περιλήψεις, συνδυάζοντας δεδομένα από πολλά κείμενα. Συνδυάζει μεθόδους εξόρυξης πληροφορίας με μια αναπαράσταση που βασίζεται σε γράφους ν- γραμμάτων και επιτρέπει το συνδυασμό δομημένης (π.χ. αποτέλεσμα αναγνώρισης οντοτήτων) και μη δομημένης πληροφορίας (απλό κείμενο) για την παραγωγή των περιλήψεων. Το εργαλείο είναι ανεξάρτητο γλώσσας, και μπορεί να εφαρμοστεί σε σύνολο δεδομένων. Το εργαλείο διατίθεται ως βιβλιοθήκη Java με άδεια ανοιχτού κώδικα. 15
PServer / Γενική υποδομή προσωποποιήσης Ανεξάρτητο μέσου Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Πρόκειται για ένα διακομιστή εξατομίκευσης (personalization server) γενικού σκοπού. Εξατομίκευση ή προσωποποίηση είναι, με απλά λόγια, η διαδικασία όπου επιτρέπει σε έναν υπολογιστή να παρέχει προσαρμοσμένες υπηρεσίες προς ένα χρήστη, μαθαίνοντας τις προτιμήσεις και τα ενδιαφέροντά του. Ο PServer είναι, λοιπόν, μια υποδομή η οποία μπορεί να χρησιμοποιηθεί από διαφορετικά είδη εφαρμογών ή ιστοχώρων και πάνω της να στηριχθεί η παροχή υπηρεσιών εξατομίκευσης (personalization services). 16
The TMC Corpus Λεξικό/Εννοιολογικό Πόρος Δεδομένα εκπαίδευσης αναγνωριστή της γλώσσας κυρίων ονομάτων Αγγλική, γαλλική, γερμανική, δανική, ελληνική, ισπανική, ιταλική, νορβηγική, ολλανδική, πολωνική, πορτογαλική, κροατική, σερβική, σλοβακική, σουηδική, τσεχική Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Το TMC είναι μια λίστα του ονόματος (μικρό και επίθετο) ανθρώπων και της εθνικότητας των ανθρώπων αυτών. Έχει προκύψει από την συλλογή και καθαρισμό διαφόρων πηγών όπου είτε η εθνικότητα είναι κοινή και γνωστή (π.χ., λίστες μελών του κοινοβουλίου) είναι αναφέρεται ρητά. Αποκλείοντας εθνικότητες όπου δεν υπάρχει κάποια, σχετική έστω, γλωσσική ομοιογένεια (όπως, για παράδειγμα, την βελγική ή την ελβετική) η συλλογή μπορεί να χρησιμοποιηθεί για την εκπαίδευση αναγνωριστών της γλώσσας κυρίων ονομάτων. Ένας τέτοιος αναγνωριστής είναι χρήσιμος σε εφαρμογές σύνθεσης φωνής για την σωστή προφορά ξενικών ονομάτων όταν αυτά δίνονται στο κείμενο με την πρωτότυπη ορθογραφία τους και δεν προσαρμόζονται στην ορθογραφία του περιρρέοντος κειμένου. 17