Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

Σχετικά έγγραφα
Ellogon: Μία Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας. Γεώργιος Πετάσης

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013 Όνομα : Μπελούλη Αγάθη

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012 Όνομα : Μπελούλη Αγάθη

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Software Production Company

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Διπλωματικές των κ. Ι. Βλαχάβα και Ν. Βασιλειάδη

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

µεθόδων αυτών, είναι απαραίτητη η δηµιουργία αντιπροσωπευτικού δείγµατος του Ιστού. Στόχος της εργασίας είναι η υλοποίηση και αξιολόγηση µεθόδων δειγµ

Προπτυχιακές και μεταπτυχιακές εργασίες Σεπτέμβριος 2008

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

Εισαγωγή στην Πληροφορική

Αρχιτεκτονικές κατανεμημένων συστημάτων. I. Sommerville 2006 Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Κεφ. 12

25 CLARIN EL: Δημιουργώ, επεξεργάζομαι, μοιράζομαι. CLARIN EL: Creating, processing, sharing. 0 Εισαγωγή

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Κλεοπάτρα Φέρλα ΕΚΠΑ, 01/03/2019

Σχολικά Εργαστήρια με ΕΛ/ΛΑΚ μία ολοκληρωμένη πρόταση από το έργο της Τεχνικής Στήριξης ΣΕΠΕΗΥ

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Λογισμικό Reload. Οδηγός. Συγγραφική Ομάδα: Κωνςταντίνοσ Τςακάλογλου, Ιωάννησ Εξηνταρίδησ, Κωνςταντίνοσ Τςιμπάνησ, Σταυροφλα Γεωργιάδη

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Περιεχόμενα. Προλεγόμενα... ix Κεφάλαιο 1 Εισαγωγή Κεφάλαιο 2 Δεδομένα και εκφράσεις Κεφάλαιο 3 Λογικές συνθήκες και δομές ελέγχου...

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

Ανάκτηση Πληροφορίας

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Αντικειμενοστρεφής Προγραμματισμός

Εισαγωγή. Διαλέξεις στο μάθημα: Μεταφραστές Γιώργος Μανής

Μαλούτα Θεανώ Σελίδα 1

Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α

Κεντρική δράση ΕΠΕΑΕΚ ΕΜΠ. Κυριάκος Ι. Σπυρόπουλος Αν. Καθηγητής, Επιστ. Υπεύθυνος ΚΗΥ, ΕΜΠ

Η αρχική οθόνη της Ηλεκτρονικής Βιβλιοθήκης περιλαμβάνει τις εξής βασικές ενότητες όπως φαίνονται στην Εικόνα 1:

Οδηγίες για την ανάπτυξη προσβάσιμου εκπαιδευτικού υλικού για πολύγλωσσα κείμενα με χρήση MS-Office 2013

Σχεδιασµός Ανάπτυξη Οντολογίας

ΑΔΑ: ΒΕΖΔ469ΗΡΧ-Ξ5Ψ. Αθήνα, 18 Ιουνίου 2013 Αρ. Πρωτ.: 5798/ΠΤ Η ΕΔΕΤ Α.Ε. ΛΑΜΒΑΝΟΝΤΑΣ ΥΠΟΨΗ:

Δομημένος Προγραμματισμός

ΑΔΑ: ΒΕ54Φ-ΩΔΨ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ

ΠΡΟΣΩΠΙΚΟΙ ΙΣΤΟΧΩΡΟΙ Nα δημιουργήσω/ενεργοποιήσω την προσωπική μου ιστοσελίδα Να προβάλω τις λεπτομέρειες του προφίλ μου...

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΑΣ ΥΠΟΔΟΜΩΝ, ΝΑΥΤΙΛΙΑΣ & ΤΟΥΡΙΣΜΟΥ ΑΠΟΦΑΣΗ ΕΠΙ ΔΗΛΩΣΗΣ ΣΗΜΑΤΟΣ ΑΠΟΦΑΣΗ ΕΞ 3113/

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

ΑΔΑ: 4ΑΡΟ46941Δ-Ε. Συνολικός Προϋπολογισμός Έργου : ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΙΑ ΙΚΤΥΟ 137/

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

«Μητρώο Ανοικτών Δεδομένων του Δημοσίου» Οδηγός Διαχειριστή Φορέα για το

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Αλέξανδρος Καπανιάρης

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Εισαγωγή στις Βάσεις Δεδομζνων II

Γλώσσα και Γλωσσική Τεχνολογία στην Ελλάδα

Κεφάλαιο 4: Λογισμικό Συστήματος

ΓΛΩΣΣΑ & ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΤΗΝ ΚΥΠΡΟ

EPALE CY. Οδηγός Ανάρτησης Περιεχομένου

Κεφάλαιο 8 Πληροφοριακά συστήματα. Εφαρμογές Πληροφορικής Κεφ. 8 Καραμαούνας Πολύκαρπος

Αρχιτεκτονικές κατανεμημένων συστημάτων. I. Sommerville 2006 Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Κεφ. 12

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία. Εργαστήριο 4 ο : MATLAB

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Δυναμικές Ιστοσελίδες στο Πανελλήνιο Σχολικό Δίκτυο

TRAVIS TRAFFIC VIOLATION INFORMATION SYSTEM ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΗΣΗΣ ΠΑΡΑΒΑΣΕΩΝ ΦΩΤΟΕΠΙΣΗΜΑΝΣΗΣ

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Μαθησιακές δραστηριότητες με υπολογιστή

Εισαγωγή στην Πληροφορική

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση

Δομημένος Προγραμματισμός

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

ΚΕΦΑΛΑΙΟ 10 ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ

Σύστημα Ηλεκτρονικού Πρωτοκόλλου. Σχεδιασμός Υποσυστημάτων

ΑΝΑΛΥΣΗ ΑΠΑΙΤΗΣΕΩΝ ανάλυση απαιτήσεων Σε αυτό το μάθημα θα ασχοληθούμε με : Δημιουργία μοντέλων

Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Η Ερευνητική Υποδομή CLARIN. The CLARIN Research Infrastructure. 0 Εισαγωγή. Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου

ΘΕΜΑ: Ψηφιακό εκπαιδευτικό περιεχόμενο και σχετικές υπηρεσίες για την Πρωτοβάθμια και Δευτεροβάθμια Εκπαίδευση

Transcript:

Εθνική Ερευνητική Υποδομή Υποέργο 3 Κατασκευή αποθετηρίου και διεπαφή με διαδικτυακές γλωσσικές υπηρεσίες Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Συγγραφείς: Διαθεσιμότητα: Γεώργιος Πετάσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»), Αναστασία Κριθαρά (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»), Ευάγγελος Καρκαλέτσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος») Δημόσιο Ημερομηνία: 30/6/2013

Κωδικός Έργου 441451 Σύντομος τίτλος έργου CLARIN-EL Πλήρης τίτλος έργου Εθνική Ερευνητική Υποδομή CLΑRIN-EL Τίτλος Υποέργου Κατασκευή αποθετηρίου και διεπαφή με διαδικτυακές γλωσσικές υπηρεσίες Επιστ. Υπεύθυνος Ε. Καρκαλέτσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος») Ημερ/νία έναρξης, διάρκεια 1/11/2012, 35 μήνες Συμβατική ημερ/νία 30/06/2013 ολοκλήρωσης παραδοτέου Πραγματική ημερ/νία 30/06/2013 ολοκλήρωσης παραδοτέου Κωδικός παραδοτέου Π3.4.1α Τίτλος παραδοτέου Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Τύπος παραδοτέου Αναφορά Έκδοση Τελική, 1.0 Αριθμός σελίδων 18 Συμμετέχοντες φορείς Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Υπεύθυνος Πακέτου Εργασίας Ε. Καρκαλέτσης Υπεύθυνος Εργασίας Ε. Καρκαλέτσης Συγγραφείς Γ. Πετάσης, Α. Κριθαρά, Ε. Καρκαλέτσης (Ε.Κ.Ε.Φ.Ε. «Δημόκριτος») Υπεύθυνος ΕΥΔ/ΕΠΑΕ Ελένη Παπαδοπούλου Τα δημόσια παραδοτέα του έργου CLARIN-EL βρίσκονται αναρτημένα στη σελίδα: http://www.clarin.gr/deliverables 2013, Συγγραφείς Αυτή η εργασία χορηγείται με άδεια Creative Commons Αναφορά Δημιουργού 3.0 Ελλάδα. 2

Περιεχόμενα 1 Εισαγωγή... 4 2 Κατάλογος εφαρμογών ΓΤ Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»... 5 2.1 Εργαλεία συλλογής και ανάπτυξης κειμενικών πόρων... 5 2.2 Εργαλεία γλωσσικής επεξεργασίας κειμενικών πόρων... 7 3

1 Εισαγωγή Το παραδοτέο Π3.4.1 περιλαμβάνει τον πλήρη κατάλογο των εφαρμογών Γλωσσικής Τεχνολογίας που έχει αναπτύξει το Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» και που θα ενσωματωθούν στην Εθνική Ερευνητική Υποδομή CLARIN-EL. Τα εργαλεία και οι υπηρεσίες παρουσιάζονται ταξινομημένα σε ευρύτερες κατηγορίες ανάλογα με τις δυνατότητες αξιοποίησής τους από τους χρήστες της υποδομής. Για κάθε εργαλείο/υπηρεσία, δίνονται οι ακόλουθες πληροφορίες, οι οποίες είναι σύμφωνες με το μοντέλο περιγραφής γλωσσικών πόρων META-SHARE 1 & 2 : : Πλήρης ονομασία του πόρου. : Στη συγκεκριμένο παραδοτέο, παίρνει πάντα την τιμή εργαλείο/υπηρεσία. : Αφορά στον τύπο αρχείων που διαχειρίζεται το συγκεκριμένο εργαλείο ή η υπηρεσία και επιλέγεται μία από τις τιμές: βίντεο, εικόνα, ήχος, κείμενο, αριθμητικά δεδομένα, ν-γράμματα. : Αναφέρονται οι γλώσσες των αρχείων που διαχειρίζεται τα εργαλεία ή οι υπηρεσίες. : Εφόσον έχει αποφασιστεί συγκεκριμένη άδεια, δίνεται η ονομασία της. : Αφορά στη μορφή στην οποία βρίσκεται στην παρούσα φάση ο συγκεκριμένος πόρος και επιλέγεται μία από τις τιμές εργαλείο, υπηρεσία. Στη διάρκεια του έργου, ορισμένοι πόροι θα βελτιωθούν, εμπλουτιστούν, επεκταθούν ή/και μετατραπούν από εργαλεία σε διαδικτυακές υπηρεσίες και θα διατίθενται από την υποδομή με τη νέα τους μορφή. : Η τελική μορφή του πόρου, όπως θα διατίθεται από την υποδομή. Επιλέγεται πάλι μία από τις τιμές εργαλείο, υπηρεσία. Σύντομη περιγραφή του πόρου στα ελληνικά. 1 Gavrilidou M., P. Labropoulou, E. Desipri, S. Piperidis, H. Papageorgiou, M. Monachini, F. Frontini, T. Declerck, G. Francopoulo, V. Arranz, V. Mapelli, (2012), "The META-SHARE Metadata Schema for the Description of Language Resources", LREC 2012, Istanbul, Turkey 2 Για πλήρη και επικαιροποιημένη περιγραφή του μοντέλου, βλ.: http://www.metashare.org/portal/knowledgebase/home) 4

2 Κατάλογος εφαρμογών ΓΤ Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» 2.1 Εργαλεία συλλογής και ανάπτυξης κειμενικών πόρων Μηχανή επισημείωσης Έλλογον / Επισημειωτής σωμάτων κειμένων Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Η μηχανή επισημείωσης της πλατφόρμας Έλλογον δημιουργεί κατάλληλες γραφικές διεπαφές, μέσω των οποίων χρήστες μπορούν να επισημειώσουν σώματα κειμένων με γλωσσική πληροφορία (η οποία αποθηκεύεται με την μορφή επισημειώσεων). Η μηχανή επισημείωσης δέχεται σαν είσοδο ένα σχήμα επισημείωσης (εκφρασμένο σαν ένα αρχείο XML), το οποίο περιέχει πληροφορίες σχετικά με τον τύπο των επισημειώσεων που θα παραχθούν από την διαδικασία επισημείωσης, τα χαρακτηριστικά των επισημειώσεων, και τα σύνολα ετικετών κάθε χαρακτηριστικού. Έχοντας σαν βάση ένα σχήμα επισημείωσης, η μηχανή επισημείωσης της πλατφόρμας Έλλογον δημιουργεί αυτόματα μια κατάλληλη γραφική διεπαφή για την επισημείωση σωμάτων κειμένων με το σχήμα εισόδου. Η λειτουργία του εργαλείου είναι διττή: μπορεί να δημιουργήσει μια γραφική διεπαφή εντός της πλατφόρμας Ελλογον, όσο και μια αυτόνομη εφαρμογή επισημείωσης, που λειτουργεί χωρίς την εγκατάσταση της πλατφόρμας Έλλογον. Η μηχανή επισημείωσης της πλατφόρμας Έλλογον διανέμεται τόσο μαζί με την πλατφόρμα Έλλογον, όσο και σαν αυτόνομο εργαλείο (http://www.ellogon.org/index.php/annotationtool). Και οι δύο διανομές της μηχανή επισημείωσης της πλατφόρμας Έλλογον μπορούν να λειτουργήσουν τόσο τοπικά (όπου ένας χρήστης επισημειώνει ένα σώμα κειμένου το οποίο βρίσκεται τοπικά, στον ίδιο υπολογιστή με το εργαλείο επισημείωσης) όσο και κατανεμημένα, όπου μια ομάδα χρηστών μπορεί να επισημειώνει συνεργατικά ένα σώμα κειμένων που βρίσκεται σε έναν κεντρικό υπολογιστή, ο οποίος περιέχει μια σχεσιακή βάση δεδομένων (υποστηρίζονται οι βάσεις δεδομένων MySQL, MariaDB, και PostgreSQL). 5

ELEON ontology authoring and enrichment tool / Διορθωτής οντολογιών OWL Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Το ELEON είναι ένας διορθωτής οντολογιών σε OWL ο οποίος δίνει έμφαση στην επισημείωση των οντοτήτων (κλάσεων, ιδιοτήτων, και στιγμιοτύπων) της οντολογίας με γλωσσικά μετα-δεδομένα που αφορούν τον τρόπο εκφοράς τους σε φυσική γλώσσα. Επιπλέον, το ELEON υποστηρίζει και την επισημείωση με παραμέτρους σχετικά με την εξατομικευμένη παραγωγή περιγραφών σε φυσική γλώσσα των στιγμιοτύπων της οντολογίας, την σύνδεση με την μηχανή παραγωγής φυσικής γλώσσας NaturalOWL για την άμεση παρουσίαση του αποτελέσματος στο παραγόμενο κείμενο κάθε αλλαγής, και την σύνδεση με εργαλεία ελέγχου και ημι-αυτόματης συμπλήρωσης της λογικής δομής της οντολογίας και των γλωσσικών παραμέτρων. Το εργαλείο διατίθεται ως εκτελεστέο πρόγραμμα και ως κώδικας Java με άδεια ανοιχτού κώδικα (GPL v2). 6

2.2 Εργαλεία γλωσσικής επεξεργασίας κειμενικών πόρων Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας «Έλλογον» / Υποδομή κατασκευής εφαρμογών επεξεργασίας φυσικής γλώσσας Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Η πλατφόρμα γλωσσικής επεξεργασίας «Έλλογον» είναι μια υποδομή για την δημιουργία εφαρμογών επεξεργασίας φυσικής γλώσσας. Σαν πλατφόρμα, προσφέρει ένα περιβάλλον που υποστηρίζει την ανάπτυξη αρθρωμάτων επεξεργασίας φυσικής γλώσσας σε διάφορες γλώσσες προγραμματισμού (ενδεικτικά αναφέρονται: C, C++, Tcl, Python, Perl, Java) εξασφαλίζοντας την επικοινωνία και διαλειτουργικότητα ανάμεσα τους. Επιπρόσθετα παρέχει λειτουργίες που αφορούν βασικές τυπικές εργασίες που χρειάζονται τα αρθρώματα επεξεργασίας φυσικής γλώσσας ή ο τελικός χρήστης, όπως: Διαχείριση σωμάτων κειμένου (δημιουργία, αποθήκευση, τροποποίηση, επισημείωση, ανάκτηση). Διαχείριση (γλωσσικής) πληροφορίας σχετικής με την επεξεργασία κειμένου, μέσω της μορφής των «επισημειώσεων». Αναζήτηση/ανάκτηση πληροφορίας σχετικής με την επεξεργασία κειμένου. Διαχείριση αρθρωμάτων και δημιουργία «εφαρμογών» (αλληλουχίες από αρθρώματα που εκτελούν κάποια συγκεκριμένη εργασία επεξεργασίας φυσικής γλώσσας, όπως αναγνώριση ονομάτων οντοτήτων). Χειρισμός της πλατφόρμας μέσω γραφικού περιβάλλοντος, όσο και μέσω μακροεντολών, αποθηκευμένων σε αρχεία (scripts). Προβολή πληροφορίας σχετικής με την επεξεργασία κειμένου στον τελικό χρήστη, μέσω κατάλληλων εργαλείων απεικόνισης. Τροποποίηση πληροφορίας σχετικής με την επεξεργασία κειμένου από τον τελικό χρήστη, μέσω κατάλληλων εργαλείων επισημείωσης. Μηχανή κατασκευής εργαλείων επισημείωσης, προσαρμοζόμενα σε σχήματα επισημείωσης που ορίζονται από τον τελικό χρήστη, μέσω XML αρχείων. 7

HTokenizer / Αναγνωριστής λέξεων/προτάσεων Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HTokenizer είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο εντοπίζει λέξεις και προτάσεις σε κείμενα γραμμένα στην Ελληνική ή/και Αγγλική γλώσσα. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Βασίζεται σε ένα σύνολο κανόνων (κανονικές εκφράσεις γραμμένες σε μορφή επεξεργάσιμη από την εφαρμογή ανοικτού κώδικα Flex (http://flex.sourceforge.net/)) και σε ένα μικρό λεξικό από κοινές λέξεις και συντμήσεις για τις υποστηριζόμενες γλώσσες. Το εργαλείο HTokenizer μπορεί να επεξεργαστεί τόσο απλό κείμενο όσο και HTML έγγραφα, διαχωρίζοντας σαφώς τα τμήματα του κειμένου που αφορούν λέξεις από εκείνα που αφορούν πληροφορία σε HTML. Επιπρόσθετα, το εργαλείο HTokenizer μπορεί να αναγνωρίσει τμήματα κειμένου που αφορούν διευθύνσεις ηλεκτρονικού ταχυδρομείου (e-mails), συνδέσμους διαδικτύου (URLs), κ.α., καθώς και τμήματα που αφορούν την επεξεργασία κειμένων από κοινωνικά δίκτυα, όπως emoticons και Tweeter hashtags. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HTokenizer περιλαμβάνει επισημειώσεις τύπου token και επισημειώσεις τύπου sentence. Οι επισημειώσεις τύπου token περιγράφουν λέξεις, και περιέχουν επίσης πληροφορία σχετικά με την μορφή της λέξης, η οποία παράγεται από χαρακτηριστικά των χαρακτήρων που απαρτίζουν την λέξη (όπως αν είναι από το ελληνικό ή αγγλικό αλφάβητο, αν είναι κεφαλαίοι ή πεζοί, αν περιλαμβάνονται αριθμοί, σημεία στίξεις, κλπ.). Οι επισημειώσεις τύπου sentence περιγράφουν προτάσεις, ενώ περιέχουν πληροφορίες σχετικά με τις περιεχόμενες λέξεις (χαρακτηριστικό constituents ) καθώς και τις πληροφορίες HTML (χαρακτηριστικό html_constituents ) εφόσον αυτές υπάρχουν στο κείμενο εισόδου. Τέλος, εργαλείο HTokenizer είναι παραμετροποιήσιμο στο κατά πόσο θα αναγνωρίσει λέξεις, προτάσεις, ή στοιχεία HTML. 8

HBrill / Αναγνωριστής μερών του λόγου Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HBrill είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο χαρακτηρίζει λέξεις με το μέρος του λόγου στο οποίο ανήκουν, σε κείμενα γραμμένα στην Ελληνική ή την Αγγλική γλώσσα. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Βασίζεται σε μηχανική μάθηση, και συγκεκριμένα σε μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (transformation-based error-driven learning). Το εργαλείο HBrill αποτελεί επανυλοποίηση του Brill Tagger, ο οποίος δημιουργήθηκε από τον E. Brill. Το εργαλείο HBrill διανέμεται με κατάλληλους κανόνες τόσο για την Αγγλική όσο και την Ελληνική γλώσσα, χρησιμοποιώντας κατάλληλα (και διαφορετικά για τις δύο γλώσσες) σύνολα ετικετών (tags). Το σύνολο ετικετών για την αγγλική γλώσσα βασίζεται στο Penn Treebank, ενώ το σύνολο ετικετών για την ελληνική γλώσσα εκτός από τα μέρη του λόγου, κωδικοποιεί επίσης πληροφορία σχετική με το γένος και τον αριθμό. Περιγραφή και των δύο συνόλων ετικετών περιλαμβάνεται στο εργαλείο HBrill. Το εργαλείο HBrill προϋποθέτει ότι το κείμενο προς επεξεργασία έχει προηγουμένως αναλυθεί με έναν αναγνωριστή λέξεων και προτάσεων, και αναμένει σαν είσοδο επισημειώσεις του τύπου token και sentence. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HBrill επεκτείνει τις επισημειώσεις τύπου token προσθέτοντας το χαρακτηριστικό pos το οποίο λαμβάνει μια τιμή από το σύνολο ετικετών για την επιλεγμένη γλώσσα. 9

HBrillParole / Αναγνωριστής μερών του λόγου Ελληνικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HBrillParole είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο χαρακτηρίζει λέξεις με το μέρος του λόγου στο οποίο ανήκουν, σε κείμενα γραμμένα στην Ελληνική γλώσσα. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Βασίζεται σε μηχανική μάθηση, και συγκεκριμένα σε μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (transformation-based error-driven learning). Το εργαλείο HBrillParole αποτελεί επανυλοποίηση του Brill Tagger, ο οποίος δημιουργήθηκε από τον E. Brill. Το εργαλείο HBrillParole διανέμεται με κατάλληλους κανόνες για την Ελληνική γλώσσα, χρησιμοποιώντας το σύνολο ετικετών (tags) που δημιουργήθηκε κατά την διάρκεια του ερευνητικού έργου PAROLE. Το σύνολο ετικετών PAROLE για την ελληνική γλώσσα εκτός από τα μέρη του λόγου, κωδικοποιεί την πλήρη μορφολογική πληροφορία μιας λέξης, όπως το γένος, τον αριθμό, την πτώση, το πρόσωπο, την κλίση, την έγκλιση, κλπ. Το εργαλείο HBrillParole προϋποθέτει ότι το κείμενο προς επεξεργασία έχει προηγουμένως αναλυθεί με έναν αναγνωριστή λέξεων και προτάσεων, και αναμένει σαν είσοδο επισημειώσεις του τύπου token και sentence. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HBrillParole επεκτείνει τις επισημειώσεις τύπου token προσθέτοντας το χαρακτηριστικό pos το οποίο λαμβάνει μια τιμή από το σύνολο ετικετών για την επιλεγμένη γλώσσα. 10

HGazetteer / Αναγνωριστής λέξεων/φράσεων με βάση λίστες Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HGazetteer είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο εντοπίζει σε κείμενα προκαθορισμένες λέξεις ή φράσεις, οι οποίες περιέχονται σε λίστες (gazetteers) γνωστών λέξεων/φράσεων. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας την γλώσσα προγραμματισμού C. Οι λίστες γνωστών λέξεων/φράσεων μετασχηματίζονται σε ένα σύνολο κανόνων (κανονικές εκφράσεις γραμμένες σε μορφή επεξεργάσιμη από την εφαρμογή ανοικτού κώδικα Flex (http://flex.sourceforge.net/)), με την βοήθεια του οποίου δημιουργείται ένας αναλυτής κειμένου (scanner) ο οποίος μπορεί να εντοπίζει τις επιθυμητές λέξεις ή φράσεις σε κείμενα. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HGazetteer αποθηκεύεται σε επισημειώσεις τύπου lookup, με χαρακτηριστικά που προκύπτουν από τα ονόματα των αρχείων που περιέχουν τις λίστες ονομάτων. Το εργαλείο HGazetteer διανέμεται με λίστες για την ελληνική γλώσσα, οι περιλαμβάνουν κύρια ελληνικά ονόματα, και διάφορους προσδιοριστές που στοχεύουν στην υποβοήθηση συστημάτων αναγνώρισης ονομάτων οντοτήτων. Μια περισσότερο ευέλικτη έκδοση του εργαλείου HGazetteer παρέχεται από το πακέτο της πλατφόρμας Έλλογον ELEP::DocumentUtilities::HashTableGazetteer, το οποίο μπορεί να δημιουργήσει αναγνωριστές λέξεων/φράσεων δυναμικά, από λίστες γνωστών λέξεων/φράσεων, χωρίς να απαιτείται η χρήση του εργαλείου Flex και ενός μεταγλωττιστή για την γλώσσα προγραμματισμού C. 11

HNPChunker / Αναγνωριστής λέξεων/φράσεων με βάση λίστες Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο HNPChunker είναι ένα εργαλείο επεξεργασίας φυσικής γλώσσας το οποίο εντοπίζει σε κείμενα ένα μικρό σύνολο φράσεων, όπως ονοματικές και ρηματικές φράσεις. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον, χρησιμοποιώντας το πακέτο του γραμματικού αναλυτή επισημειώσεων που παρέχει η πλατφόρμα Έλλογον. Ο γραμματικός αναλυτής επισημειώσεων είναι μια επέκταση ενός τυπικού γραμματικού αναλυτή, ο οποίος όμως ενεργεί πάνω σε σειρές επισημειώσεων και όχι σε συμβολοσειρές. Δέχεται σαν είσοδο γραμματικές ανεξάρτητες από τα συμφραζόμενα (context-free grammars) εκφραστικότητας EBNF, και γλωσσική πληροφορία εκφρασμένη μέσω επισημειώσεων, ενώ οι τύποι και τα χαρακτηριστικά των επισημειώσεων πρέπει να συμφωνούν με την γραμματική. Η γλωσσική πληροφορία που παράγεται από την εκτέλεση του εργαλείου HNPChunker αποθηκεύεται σε επισημειώσεις, ο τύπος των οποίων καθορίζεται από την εκάστοτε χρησιμοποιούμενη γραμματική. Το εργαλείο HNPChunker διανέμεται με μια απλή γραμματική για την ελληνική γλώσσα, η οποία επιτελεί μια ρηχή συντακτική ανάλυση εστιάζοντας κυρίως στις ονοματικές φράσεις. Προϋποθέτει ότι οι επισημειώσεις εισόδου περιέχουν επισημειώσεις τύπου token και sentence, και ότι οι επισημειώσεις τύπου token περιέχουν το χαρακτηριστικό pos, το οποίο περιέχει πληροφορία για το μέρος του λόγου κάθε λέξης, κωδικοποιημένο στο προκαθορισμένο σύνολο ετικετών του εργαλείου HBrill για τα ελληνικά. 12

αναγνώρισης ονομάτων οντοτήτων ( NERC) / Αναγνωριστής ονομάτων οντοτήτων Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 3 (ανοικτό λογισμικό) Το εργαλείο αναγνώρισης ονομάτων οντοτήτων (named entity recognition and classification NERC) εντοπίζει σε κείμενα ονόματα οντότητες και τα κατηγοριοποιεί σε κατάλληλες σημασιολογικές κατηγορίες. Τα ονόματα οντότητες μπορεί να είναι ονόματα προσώπων, οργανισμών, τοποθεσιών κ.α.. Οι σημασιολογικές κατηγορίες ορίζονται ανάλογα με το αν περιγράφουν πρόσωπα, οργανισμούς, τοποθεσίες, κ.α., αίροντας πιθανές αμφισημίες. Το εργαλείο έχει υλοποιηθεί σαν άρθρωμα της πλατφόρμας επεξεργασίας φυσικής γλώσσας Έλλογον. Το NERC σύστημα μπορεί να εκπαιδευτεί και να χρησιμοποιηθεί για διαφορετικές εφαρμογές και δεδομένα. Η εκπαίδευση απαιτεί ένα επισημειωμένο σύνολο δεδομένων. Το παρόν εργαλείο έχει εκπαιδευτεί και χρησιμοποιηθεί για διαφορετικού είδους δεδομένα στα πλαίσια Ευρωπαϊκών έργων, όπως τα Crossmarc, MITOS, MedIEQ, και BOEMIE. 13

ανάλυσης συναισθήματος / Αναλυτής συναισθήματος Ελληνικά, Αγγλικά Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) κατηγοριοποίησης κειμένων και ανάλυσης συναισθήματος, βασισμένο σε αναπαράσταση γράφων ν-γραμμάτων. Συνδυάζεται με αλγορίθμους μηχανικής μάθησης για το τελικό μοντέλο (WEKA Toolkit). Εκτελείται είτε από γραμμή εντολών, είτε ως Socketbased Server. Έχει χρησιμοποιηθεί αυτούσιο, ή ως τμήμα άλλων εργαλείων, σε πληθώρα ερευνητικών εργασιών. Χρησιμοποιείται και στο gov.insight ως παραγωγός επισημειώσεων (producer) για ταξινόμηση συναισθήματος. Διατίθεται ως βιβλιοθήκη Java ανοιχτού κώδικα με άδεια LGPL. 14

παραγωγής περιλήψεων / Παραγωγή περιλήψεων Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Το εργαλείο παράγει περιλήψεις, συνδυάζοντας δεδομένα από πολλά κείμενα. Συνδυάζει μεθόδους εξόρυξης πληροφορίας με μια αναπαράσταση που βασίζεται σε γράφους ν- γραμμάτων και επιτρέπει το συνδυασμό δομημένης (π.χ. αποτέλεσμα αναγνώρισης οντοτήτων) και μη δομημένης πληροφορίας (απλό κείμενο) για την παραγωγή των περιλήψεων. Το εργαλείο είναι ανεξάρτητο γλώσσας, και μπορεί να εφαρμοστεί σε σύνολο δεδομένων. Το εργαλείο διατίθεται ως βιβλιοθήκη Java με άδεια ανοιχτού κώδικα. 15

PServer / Γενική υποδομή προσωποποιήσης Ανεξάρτητο μέσου Ανεξάρτητο γλώσσας Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Πρόκειται για ένα διακομιστή εξατομίκευσης (personalization server) γενικού σκοπού. Εξατομίκευση ή προσωποποίηση είναι, με απλά λόγια, η διαδικασία όπου επιτρέπει σε έναν υπολογιστή να παρέχει προσαρμοσμένες υπηρεσίες προς ένα χρήστη, μαθαίνοντας τις προτιμήσεις και τα ενδιαφέροντά του. Ο PServer είναι, λοιπόν, μια υποδομή η οποία μπορεί να χρησιμοποιηθεί από διαφορετικά είδη εφαρμογών ή ιστοχώρων και πάνω της να στηριχθεί η παροχή υπηρεσιών εξατομίκευσης (personalization services). 16

The TMC Corpus Λεξικό/Εννοιολογικό Πόρος Δεδομένα εκπαίδευσης αναγνωριστή της γλώσσας κυρίων ονομάτων Αγγλική, γαλλική, γερμανική, δανική, ελληνική, ισπανική, ιταλική, νορβηγική, ολλανδική, πολωνική, πορτογαλική, κροατική, σερβική, σλοβακική, σουηδική, τσεχική Άδεια LGPL έκδοση 2 (ανοικτό λογισμικό) Το TMC είναι μια λίστα του ονόματος (μικρό και επίθετο) ανθρώπων και της εθνικότητας των ανθρώπων αυτών. Έχει προκύψει από την συλλογή και καθαρισμό διαφόρων πηγών όπου είτε η εθνικότητα είναι κοινή και γνωστή (π.χ., λίστες μελών του κοινοβουλίου) είναι αναφέρεται ρητά. Αποκλείοντας εθνικότητες όπου δεν υπάρχει κάποια, σχετική έστω, γλωσσική ομοιογένεια (όπως, για παράδειγμα, την βελγική ή την ελβετική) η συλλογή μπορεί να χρησιμοποιηθεί για την εκπαίδευση αναγνωριστών της γλώσσας κυρίων ονομάτων. Ένας τέτοιος αναγνωριστής είναι χρήσιμος σε εφαρμογές σύνθεσης φωνής για την σωστή προφορά ξενικών ονομάτων όταν αυτά δίνονται στο κείμενο με την πρωτότυπη ορθογραφία τους και δεν προσαρμόζονται στην ορθογραφία του περιρρέοντος κειμένου. 17