Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Neurosoft A.E. --- ΕΑΙΤΥ ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Προϋπολογισµός: 561.240 ιάρκεια: 18 µήνες ΕπιστηµονικόςΥπεύθυνος: Ά. Βαγγελάτος Σελίδα 1 Ηµεροµηνία: 20/7/2007
Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα ΕΤΗΣΙΑ ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Φυσικού Αντικειµένου Σελίδα 2 Ηµεροµηνία: 20/7/2007 Neurosoft, 20-7-2007
Neurosoft A.E. Software Production Company http://www.neurosoft.gr Μακρά εµπειρία σε θέµατα Επεξεργασίας Φυσικής Γλώσσας (Ελεγκτής Ορθογραφίας, Θησαυρός κ.ά.) Σελίδα 3 Ηµεροµηνία: 20/7/2007
ΕΑΙΤΥ Ερευνητικό Ακαδηµαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών Μη κερδοσκοπικού χαρακτήρα, Εποπτευόµενο από το Υπουργείο Παιδείας http://www.cti.gr Έδρα: ΠανεπιστήµιοΠατρών Σελίδα 4 Ηµεροµηνία: 20/7/2007 Παράρτηµα: Αθήνα Προσωπικό: 200
Αντικείµενο του έργου Αντικείµενο της παρούσας πρότασης έργου είναι η δηµιουργία της απαραίτητης γλωσσικής υποδοµής για την ελληνική γλώσσα, που θα επιτρέψει σε πρώτη φάση την καλύτερη διαχείριση και επεξεργασία της βιοϊατρικής πληροφορίας που υπάρχει σε ψηφιακή µορφή. Αυτό θα καταστεί δυνατό µε τη δηµιουργία και διάθεση στους χρήστες εξελιγµένων εργαλείων για την αναζήτηση, τη συσχέτιση και το χαρακτηρισµό των βιοϊατρικών κειµένων. Σελίδα 5 Ηµεροµηνία: 20/7/2007 Σε επόµενη φάση (πέρα από το πλαίσιο του παρόντος), είναι δυνατή η επέκταση των αποτελεσµάτων του και η διαµόρφωσή του ώστε να εξυπηρετεί και άλλους σκοπούς (π.χ. υλοποίηση δυνατοτήτων semantic web σε βιοϊατρικούς ιστοχώρους κτλ.).
Αντικείµενο του έργου (παραγόµενα) I Οντολογία Βιοϊατρικών όρων Υπολογιστικοί πόροι και εργαλεία που θα υποστηρίξουν την ανάπτυξη της οντολογίας: 1) Μορφολογικό Λεξικό (της Neurosoft) εµπλουτισµένο µε βιοϊατρικούς όρους. 2) Μορφοσυντακτικός Σχολιαστής (Morphosyntactic Tagger), ο οποίος θα χαρακτηρίζει µορφοσυντακτικά κάθε λέξη ενός κειµένου. 3) Αναγνωριστής Ονοµατικών Φράσεων (Noun-Phrase Chunker), ο οποίος θα ανιχνεύει πολυλεκτικούς όρους σε κείµενα µε χρήση µορφοσυντακτικών κανόνων. 4) Περιβάλλον Ανάπτυξης - Παρουσίασης Οντολογιών, βασισµένο στο state-of-the-art σύστηµα Protégé. 5) Σηµασιολογικός Σχολιαστής (Semantic Tagger), ο οποίος θα επισυνάπτει πληροφορία από την οντολογία σε όρους που αναγνωρίζονται σε κείµενα. 6) Μηχανισµός δεικτοδότησης βιοϊατρικών κειµένων. Σελίδα 6 Ηµεροµηνία: 20/7/2007
Αντικείµενο του έργου (παραγόµενα) II Σώµα (corpus) βιοϊατρικώνκειµένων. ΕφαρµογέςΙστούµετιςοποίεςοχρήστηςθαµπορεί: 1) Ναελέγχειτηνορθογραφίαµίαςλέξης (βιοϊατρικόςόρος). 2) Να περιηγείται στην οντολογία πραγµατοποιώντας σύνθετες αναζητήσειςγιασχέσειςπουδιέπουνόρουςτηςοντολογίας. 3) Να εισάγει ένα νέο κείµενο και να λαµβάνει ως αποτέλεσµα το κείµενο µε µορφοσυντακτικούς και σηµασιολογικούς σχολιασµούς των όρων τουκειµένου (annotations). 4) Να αναζητεί κείµενα µε συγκεκριµένους όρους ή συνδυασµό όρων ή σχέσεωνπουισχύουνσεόρους. Σελίδα 7 Ηµεροµηνία: 20/7/2007
Ενότητες Εργασίας 1. Σχεδιασµός Σώµατος Βιοϊατρικών Κειµένων και Οντολογίας 2. Υλοποίηση Εργαλείων ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας 3. Συλλογή Βιοϊατρικών Κειµένων και Εξαγωγή Ορολογίας 4. Επεξεργασία Βιοϊατρικών Όρων και ηµιουργία Οντολογίας 5. Υλοποίηση Εφαρµογών Ιστού Σελίδα 8 Ηµεροµηνία: 20/7/2007 6. ιάχυση Αποτελεσµάτων
1. Σχεδιασµός Σώµατος Βιοϊατρικών Κειµένων και Οντολογίας Περιγραφή: Στην ΕΕ1 σχεδιάστηκε το σώµα βιοϊατρικών κειµένων και ορίστηκε το µοντέλο οντολογικής αναπαράστασης της ορολογίας. Έναρξη:Τ0 Λήξη:Τ0 + 6 Παραδοτέα: Σχέδιο Συγκρότησης Σώµατος Βιοϊατρικών Κειµένων (τεχνική αναφορά) Σελίδα 9 Ηµεροµηνία: 20/7/2007 Μοντέλο Αναπαράστασης Οντολογίας (τεχνική αναφορά)
1. Σχεδιασµός Σώµατος Βιοϊατρικών Κειµένων και Οντολογίας Σε αυτή την ενότητα εργασίας σχεδιάστηκε ουσιαστικά και σε λεπτοµέρεια το συνολικό έργο. Καθορίστηκε και περιγράφηκε το απαιτούµενο σώµα κειµένωνκαισχεδιάστηκεηµεθοδολογίαγιατηνανάπτυξητηςοντολογίας. Πιο συγκεκριµένα, δύο ήταν οι κατευθύνσεις µελέτης της ΕΕ1: α) Η εκπόνηση ενός σχεδίου συγκρότησης σώµατος βιοϊατρικών κειµένων και β) Ο καθορισµός του µοντέλου αναπαράστασης της οντολογίας. Σελίδα 10 Ηµεροµηνία: 20/7/2007 Tα παραπάνω απεικονίζονται λεπτοµερώς στα σχετικά παραδοτέα Π1 και Π2.
2. Υλοποίηση Εργαλείων ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας Περιγραφή: Στην ΕΕ2 αναπτύχθηκαν εργαλεία για τη διαχείριση σώµατος κειµένων και την αυτόµατη εξαγωγή ορολογίας, τα οποία υποστήριξαν και υποστηρίζουν την ανάπτυξη γλωσσικών πόρων. Έναρξη:Τ0 + 1 Λήξη:Τ0 + 11 Παραδοτέα: Σύστηµα ιαχείρισης Σώµατος Κειµένων και Εξαγωγής Ορολογίας (λογισµικό) Σελίδα 11 Ηµεροµηνία: 20/7/2007 Εγχειρίδιο Χρήσης
2. Υλοποίηση Εργαλείων ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας Στο πλαίσιο της παρούσας ΕΕ, ολοκληρώθηκαν τα παρακάτω συστήµατα: Αποθήκη Εγγράφων (Document Warehouse): είναι ο χώρος αποθήκευσης των κειµένων αλλά και των παραγόµενων από αυτά µεταδεδοµένων. Υλοποιήθηκε µε βάση την open source βάση δεδοµένων MySQL. Προσκοµιστής Εγγράφων (Crawler): διατρέχει συγκεκριµένους δικτυακούς τόπους ή τοπικούς δίσκους και προσκοµίζει τα κείµενα προς επεξεργασία. Υλοποιήθηκε σε Java (JDK 6.0). Μετατροπέας Εγγράφων (Document Converter): µετατρέπει τα έγγραφα HTML ή PDF που προσκοµίζειοcrawlerσεέγγραφα TXT (δηλ. σεαπλόκείµενο). Υλοποιήθηκεσε Java (JDK 6.0). ΑναγνωριστήςΣτοιχείων (Tokenizer): κερµατίζειένακείµενοσεµίασειράστοιχείων (tokens: λέξεις, σηµεία στίξης, αριθµοί, σύµβολα κτλ.) µε τα οποία τροφοδοτούνται οι επόµενες φάσεις επεξεργασίαςτουκειµένου. Μορφοσυντακτικός Σχολιαστής (Morphosyntactic Tagger): επισυνάπτει µορφοσυντακτικά µεταδεδοµένα (µέρος του λόγου, γένος, αριθµός πτώση κτλ.) σε κάθε λέξη του κειµένου (που έχει αναγνωρίσει ο Tokenizer) µε τη βοήθεια του Μορφολογικού Λεξικού. Υλοποιήθηκε σε Java (JDK 6.0). Σελίδα 12 Ηµεροµηνία: 20/7/2007
2. Υλοποίηση Εργαλείων ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας Μορφολογικό Λεξικό. Η Neurosoft Α.Ε. έχει αναπτύξει µορφολογικό λεξικό της ελληνικής µε περίπου 90.000 λήµµατα, το οποίο περιέχει και περιορισµένο αριθµό βιοϊατρικών όρων. Το λεξικό αυτό εµπλουτίστηκε µε τις άγνωστες λέξεις-όρους (περίπου 7.250) που συλλέχθηκαν στοπλαίσιοτηςεε3. Μηχανισµός Κλίσης Πολυλεκτικών Όρων. Στην ΕΕ3 επεκτάθηκε ο µηχανισµός κλίσης µονολεκτικών όρων ώστε να υποστηρίζει τον ορισµό πολυλεκτικών όρων. Για την υποστήριξη του µοντέλου αυτού αναπτύχθηκε σχετική εφαρµογή, που παρέχει τη δυνατότητα εύκολου ορισµούτηςκλίσηςπολυλεκτικώνόρων. Αναγνωριστής Όρων. Αναπτύχθηκε σχετικό σύστηµα το οποίο συµβουλεύεται το Μορφολογικό Λεξικό, καθώς και τους κανόνες που περιγράφουν τη σύνταξη πολυλεκτικών όρων και αναγνωρίζειτουςόρουςαυτούςσεκείµενα, σεόποιακλιτικήµορφήκιανβρίσκονται. Σχεδόν όλα τα παραπάνω εργαλεία, µπορούν να χρησιµοποιηθούν αυτόνοµα. Επιπρόσθετα, για την καλύτερη και ευκολότερη χρήση τους από τρίτους (ερευνητές ή µη) ολοκληρώθηκαν κάτω απόένακοινόπεριβάλλονπουκαθοδηγείτοχρήστησεδιαδοχικέςενέργειες/βήµατα. Τέλος, υλοποιήθηκε και ένας Συλλογέας Λεξιλογικών Συνάψεων (Concordancer), που, όταν χρησιµοποιηθεί µε βάση τη συλλογή κειµένων, δίνει σηµαντικές λεξικογραφικές πληροφορίες γιακάθεόρο (http://www.iatrolexi.gr/tools/webconc). Σελίδα 13 Ηµεροµηνία: 20/7/2007
3. Συλλογή Βιοϊατρικών Κειµένων και Εξαγωγή Ορολογίας Περιγραφή: Στην ΕΕ3 έγινε η συλλογή και επεξεργασία βιοϊατρικών κειµένων, η εξαγωγή βιοϊατρικών όρων, ο εµπλουτισµός του Μορφολογικού Λεξικού και ο καθορισµός της ταξινοµίας που αποτελεί τηβάσητηςοντολογίας. Έναρξη:Τ0 + 2 Λήξη:Τ0 + 9 Παραδοτέα: Μονολεκτικοί Όροι Βιοϊατρικής (αρχείο δεδοµένων) Κανόνες Αναγνώρισης Πολυλεκτικών Όρων Βιοϊατρικής (αρχείο δεδοµένων + αναφορά τεκµηρίωσης) Πολυλεκτικοί Όροι Βιοϊατρικής (αρχείο δεδοµένων) Αρχική Ταξινοµία Βιοϊατρικών Όρων (αρχείο δεδοµένων) Συλλογή βιοϊατρικών κειµένων (αρχείο) Τεκµηρίωση συλλογής βιοϊατρικών κειµένων (αναφορά) Σελίδα 14 Ηµεροµηνία: 20/7/2007
3. Συλλογή Βιοϊατρικών Κειµένων και Εξαγωγή Ορολογίας Στην ενότητα εργασίας αυτή συλλέχθηκε από τον κυβερνοχώροτοαπαραίτητοσώµαβιοϊατρικώνκειµένων. Τοσώµααυτόπεριέχει 6.276 κείµενακαιπερίπου 11,5 εκ. λέξεις. Από το σώµα αυτό, εξήχθησαν οι ιατρικοί όροι που µαζί και µε τους όρους που συλλέχθηκαν από ιατρικά λεξικά έφτασαν τους περίπου 7.250. Τους όρους αυτούς επιµελήθηκανοιιατροίκαιοιγλωσσολόγοι. Επιπλέον συλλέχθηκαν και οι πολυλεκτικοί όροι, που ανέρχονται περίπου σε 5.000. Σελίδα 15 Ηµεροµηνία: 20/7/2007
4. Επεξεργασία Βιοϊατρικών Όρων και ηµιουργία Οντολογίας Στόχος: Στην ΕΕ4 θα αναπτυχθεί η οντολογία βιοϊατρικών όρων. Έναρξη:Τ0 + 4 Λήξη:Τ0 + 14 Παραδοτέα: Σελίδα 16 Ηµεροµηνία: 20/7/2007 Προσαρµοσµένο Protégé (λογισµικό + αναφορά προσαρµογών) Αρχική Ταξινοµία εντός Protégé (αρχείο δεδοµένων) Οντολογία Βιοϊατρικών Όρων (αρχείο δεδοµένων)
5. Υλοποίηση Εφαρµογών Ιστού Στόχος: Στην ΕΕ5 θα αναπτυχθούν εφαρµογές ιστού, οι οποίες θα επιτρέπουν την αξιοποίηση των αποτελεσµάτων του έργου µέσα από το διαδίκτυο. Έναρξη:Τ0 + 11 Λήξη:Τ0 + 18 Παραδοτέα: Περιηγητής Οντολογίας Μηχανή Αναζήτησης Ορθογραφικός ιορθωτής Ιστού Μορφοσυντακτικός και Σηµασιολογικός Σχολιαστής Τεκµηρίωση Εφαρµογών Ιστού Σελίδα 17 Ηµεροµηνία: 20/7/2007
6. ιάχυση Αποτελεσµάτων Στόχος: Στην ΕΕ6 θα υλοποιηθεί σειρά ενεργειών και δράσεων δηµοσιοποίησης της µεθοδολογίας και των αποτελεσµάτων του προτεινόµενου έργου. Έναρξη:Τ0 + 3 Λήξη:Τ0 + 18 Παραδοτέα: Υλοποίηση και συντήρηση project site Ανακοινώσεις επιστηµονικών εργασιών σε συνέδρια / περιοδικά Ηµερίδα διάχυσης αποτελεσµάτων (πρόγραµµα υλικό) Τελική Αναφορά Έργου Σελίδα 18 Ηµεροµηνία: 20/7/2007
Χρ/γραµµα Σελίδα 19 Ηµεροµηνία: 20/7/2007
Σελίδα 20 Ηµεροµηνία: 20/7/2007
Σελίδα 21 Ηµεροµηνία: 20/7/2007
Σελίδα 22 Ηµεροµηνία: 20/7/2007
Σελίδα 23 Ηµεροµηνία: 20/7/2007
Σελίδα 24 Ηµεροµηνία: 20/7/2007
Σελίδα 25 Ηµεροµηνία: 20/7/2007
Σελίδα 26 Ηµεροµηνία: 20/7/2007
Σελίδα 27 Ηµεροµηνία: 20/7/2007
είκτες είκτες Aριθµός εταιρειών που θα ωφεληθούν από την υλοποίηση του προγράµµατος. Aριθµός ερευνητικών φορέων που θα ωφεληθούν από την υλοποίηση του προγράµµατος. Αριθµός επιστηµονικών ανακοινώσεων που θα προκύψουν από το έργο Νέες θέσεις εργασίας πλήρους απασχόλησης (αριθµός) Θέσεις εργασίας που δηµιουργούνται κατά τη διάρκεια υλοποίησης του έργου (ισοδύναµα ανθρωποέτη δωδεκάµηνης διάρκειας) Τιµή Στόχος 10 6 6 2 15,5 Σηµερινή τιµή? 1 7 2 11 Σελίδα 28 Ηµεροµηνία: 20/7/2007 Νέες προσλήψεις γυναικών (αριθµός) 1 2 ραστηριότητες ενηµέρωσης, διάδοσης, προβολής, ευαισθητοποίησης του κοινού (αριθµός) 2 1
Επιστηµονικές Ανακοινώσεις Σελίδα 29 Ηµεροµηνία: 20/7/2007
Επιστηµονικές Ανακοινώσεις (έχουν γίνει) Σεπτ. 2006, 8 ο ΠανελλήνιοΣυνέδριο, Management Υπηρεσιών Υγείας, Ερέτρια, Ά. Βαγγελάτος Μάιος 2007, 11 th PanHellenic Conference on Informatics, Πάτρα, Ά. Βαγγελάτος Ιούλιος 2007, 5 th International Conference on Information Communication Technologies in Health, Σάµος, Ά. Βαγγελάτος Σελίδα 30 Ηµεροµηνία: 20/7/2007
Ερευνητικοί Φορείς που θα ωφεληθούν Έχει ήδη εκδηλωθεί ενδιαφέρον για συνεργασία (αξιοποίηση των αποτελεσµάτων του έργου) από το εργαστήριο Ηλεκτρονικής ιακυβέρνησης του ΕΚΠΑ (δρ. ηµήτρης Γκούσκος) Σελίδα 31 Ηµεροµηνία: 20/7/2007
Συνεργασία Φορέων Η συνεργασία των φορέων στο φυσικό αντικείµενο υπήρξε µέχρι σήµερα ιδιαίτερα θετική. Προς αυτή την κατεύθυνση βοήθησαν: Α) Η ισότιµη (µε βάση το Τεχνικό Παράρτηµα) συνεργασία σε όλα τα επίπεδα Σελίδα 32 Ηµεροµηνία: 20/7/2007 Β) Η µακρά συνεργασία στο παρελθόν, τόσο σε επίπεδο ατόµων όσο και σε επίπεδο φορέων.
Συνέχεια Ευελπιστούµεηεξέλιξητουέργουναείναιστοίδιοκαλόπλαίσιοπουήταν µέχρι τώρα. Αξιολογούµε ότι ίσως χρειαστεί µικρή παράταση, εφόσον, όπως φαίνεται µέχρι σήµερα, υπάρχει κάποια καθυστέρηση (~1,5 µήνας) στην ολοκλήρωση των ΕΕ και στην παράδοση των παραδοτέων. Ηκαθυστέρησηαυτήοφείλεταιαφενόςστηχρονοβόρα, όπωςαποδείχθηκε, διαδικασία επεξεργασίας των όρων (από τους γλωσσολόγους και ιατρούς) και αφετέρου στη δυσκολία (µεγαλύτερη απ ό,τι είχε προβλεφθεί) στην ανάπτυξη κάποιων εφαρµογών. Σελίδα 33 Ηµεροµηνία: 20/7/2007
Επί της ουσίας, ένα έργο γλωσσικής τεχνολογίας για το πεδίο της Βιοϊατρικής, όπου κατά τεκµήριο υπάρχουν µεγάλες ανάγκες. Σελίδα 34 Ηµεροµηνία: 20/7/2007