ΕΚΕΦΕ «ηµόκριτος» Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 Το Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού του ΕΚΕΦΕ «ηµόκριτος» προσφέρει τις παρακάτω εργασίες, οι οποίες είναι χωρισµένες σε θεµατικές ενότητες, σύµφωνα µε τις ράσεις του Εργαστηρίου. Οι περιγραφές των εργασιών συµπεριλαµβάνουν τα ονόµατα των ερευνητών που είναι υπεύθυνοι για την επίβλεψη και την εσωτερική αξιολόγησή τους. Όλες οι εργασίες θα εκπονηθούν σε συνεργασία µε µέλη ΕΠ ΑΕΙ και ΤΕΙ. ΡΑΣΗ 1. Συστήµατα Εξαγωγής Πληροφορίας και Εξόρυξης Γνώσης Στόχος είναι η έρευνα και ανάπτυξη σε θέµατα φιλτραρίσµατος και εξαγωγής πληροφορίας από βάσεις κειµένων (information filtering and extraction) καθώς και σε θέµατα εξόρυξης γνώσης από βάσεις κειµένων ή δεδοµένων (text mining or data mining). Για την επίτευξη του στόχου αυτού αξιοποιούνται µέθοδοι, τεχνικές και εργαλεία από τις τεχνολογίες Επεξεργασίας Φυσικής Γλώσσας, Εξόρυξης Γνώσης, και Μηχανικής Μάθησης. 1.1 Σύστηµα συλλογής δεδοµένων εκπαίδευσης για ταξινοµητή περιεχοµένου από τον Παγκόσµιο Ιστό. Απαιτούµενα προσόντα: Πολύ καλές γνώσεις προγραµµατισµού, κατά προτίµηση σε Java. Περιγραφή: Η δηµιουργία αποδοτικών ταξινοµητών κειµένου µε χρήση µηχανικής µάθησης, στηρίζεται στη σωστή επιλογή δεδοµένων εκπαίδευσης. Στο Εργαστήριο έχουν αναπτυχθεί µέθοδοι εστιασµένης ανάκτησης από τον Ιστό, υλικού που σχετίζεται µε µία συγκεκριµένη θεµατική περιοχή (Focused crawling). Επίσης έχουν αναπτυχθεί µέθοδοι ενεργής εκπαίδευσης (active learning) για ταξινοµητές εγγράφων. Στόχος της εργασίας είναι η ενσωµάτωση αυτών των µεθόδων σε ένα σύστηµα που θα εµπλουτίζει τα δεδοµένα εκπαίδευσης για ταξινοµητές εγγράφων, ανακτώντας κατάλληλα παραδείγµατα από τον Ιστό. Το σύστηµα αυτό θα αξιολογηθεί εκτενώς σε ένα πλήθος θεµατικών περιοχών. 1.2 Εκτενής αξιολόγηση µεθόδων που χρησιµοποιούν ενισχυτική µάθηση για εστιασµένη αναζήτηση στον Ιστό µε αντιπροσωπευτική δειγµατοληψία του. Απαιτούµενα προσόντα: Πολύ καλή γνώση προγραµµατισµού, κατά προτίµηση σε Java. Επιθυµητά προσόντα: Γνώσεις µηχανικής µάθησης ή/και διαδικτυακού προγραµµατισµού. Περιγραφή: Η µέθοδοι εστιασµένης αναζήτησης (focused crawling) στοχεύουν στη γρήγορη και αποτελεσµατική ανάκτηση πληροφοριών γύρω από ένα θέµα από το χάος του Ιστού. Στο Εργαστήριο έχουν αναπτυχθεί µέθοδοι εκπαίδευσης µηχανών εστιασµένης αναζήτησης µε χρήση τεχνικών ενισχυτικής µάθησης (reinforcement learning). Στόχος της εργασίας είναι η αξιολόγηση των µεθόδων αυτών σε ένα αντιπροσωπευτικό δείγµα του Ιστού και η σύγκρισή
τους µε υπάρχουσες άλλες µεθόδους. Για τη συλλογή του αντιπροσωπευτικού δείγµατος θα µελετηθούν µέθοδοι δειγµατοληψίας του Ιστού που ταιριάζουν µε το συγκεκριµένο πρόβληµα. 1.3 Σύστηµα φιλτραρίσµατος ανεπιθύµητων ηλεκτρονικών µηνυµάτων για οµάδες χρηστών µε χρήση µηχανικής µάθησης. Επίπεδο: Προπτυχιακό. Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε C/C++ και/ή Java. Επιθυµητά προσόντα: Γνώσεις µηχανικής µάθησης. Περιγραφή: Η ανεπιθύµητη ηλεκτρονική αλληλογραφία (spam filtering) έχει γίνει ένα από τα σηµαντικότερα προβλήµατα που σχετίζονται µε τη χρήση του ιαδικτύου. Η εκπαίδευση ταξινοµητών των µηνυµάτων (φίλτρων) µε χρήση µηχανικής µάθησης έχει οδηγήσει πρόσφατα σε µερική λύση του προβλήµατος. Στο Εργαστήριο έχει αναπτυχθεί σύστηµα εκπαίδευσης φίλτρων για ανεπιθύµητη αλληλογραφία, το οποίο χρησιµοποιεί για την εκπαίδευση ένα σώµα ανεπιθύµητων µηνυµάτων και τα κανονικά µηνύµατα που λαµβάνει ένας χρήστης. Στόχος της εργασίας είναι η επέκταση και αξιολόγηση του συστήµατος στην κατασκευή φίλτρων για οµάδες χρηστών, π.χ. τα µέλη του εργαστηρίου. Η αξιολόγηση θα συµπεριλαµβάνει και σύγκριση των οµαδικών φίλτρων µε τα ατοµικά που κατασκευάζονται από το σύστηµα για κάθε χρήστη ξεχωριστά. 1.4 Μηχανική µάθηση ταξινοµητών από δεδοµένα ανισοκατανεµηµένων κατηγοριών σε προβλήµατα ιατρικής διάγνωσης και ταξινόµησης περιεχοµένου στον Ιστό. Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java. Επιθυµητά προσόντα: Γνώσεις µηχανικής µάθησης. Περιγραφή: Ένα βασικό πρόβληµα στην εκπαίδευση ταξινοµητών, ιδιαίτερα σε εφαρµογές ιατρικής διάγνωσης και ταξινόµησης περιεχοµένου, είναι η ακραία ανισοκατανοµή των κατηγοριών, συνήθως εις βάρος της ενδιαφέρουσας κατηγορίας, π.χ. περιπτώσεις ασθενών µε καρκίνο. Για την αντιµετώπιση αυτού του προβλήµατος έχουν αναπτυχθεί στο εργαστήριο µέθοδοι µηχανικής µάθησης που εστιάζουν στην κατηγορία που µας ενδιαφέρει. Στα πλαίσια αυτής της εργασίας θα βελτιωθούν αυτές οι µέθοδοι και θα αξιολογηθούν σε δεδοµένα ιατρικής διάγνωσης και ταξινόµησης περιεχοµένου. 1.5 Σύστηµα διαχείρισης επιστηµονικών άρθρων υποστηριζόµενο από µηχανική µάθηση, αυτόµατη ταξινόµηση και εξαγωγή πληροφορίας, µε βάση µία οντολογία. Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java και βάσεων δεδοµένων. Περιγραφή: Η διαχείριση επιστηµονικών άρθρων είναι σηµαντική υποδοµή προς την προαγωγή και εφαρµογή της επιστηµονικής γνώσης. Στόχος της εργασίας αυτής είναι η
ανάπτυξη µίας client-server εφαρµογής διαχείρισης επιστηµονικών άρθρων, η οποία θα διευκολύνει την οργάνωση και αξιοποίησή τους. Η εφαρµογή θα αποτελείται από µία βάση δεδοµένων και θα υποστηρίζεται από έναν αυτόµατο ταξινοµητή εγγράφων και ένα σύστηµα εξαγωγής πληροφορίας, των οποίων η δηµιουργία θα στηρίζεται σε µεθόδους µηχανικής µάθησης. 1.6 Αναγνώριση ονοµάτων σε ιστοσελίδες Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java, C/C++. Περιγραφή: Το Εργαστήριο έχει αναπτύξει εργαλείο για την αναγνώριση ονοµάτων προσώπων, οργανισµών, τοποθεσιών σε κείµενα της Ελληνικής γλώσσας (χρηµατοοικονοµικές ειδήσεις, επιχειρηµατικά νέα, αποφάσεις της Ευρωπαϊκής Επιτροπής) καθώς επίσης και σε ιστοσελίδες. Το εργαλείο βασίζεται σε τεχνικές µηχανικής µάθησης. Η προσαρµογή του εργαλείου σε µια νέα θεµατική περιοχή απαιτεί την εκπαίδευση του εργαλείου σε έγγραφα της περιοχής αυτής και την τροποποίηση της αναπαράστασης των παραδειγµάτων εκµάθησης λόγω των ιδιαιτεροτήτων της θεµατικής περιοχής. Σκοπός της εργασίας αυτής είναι η συγκριτική µελέτη διαφόρων τεχνικών µηχανικής µάθησης και διαφόρων αναπαραστάσεων, η επιλογή των καλύτερων και η ενσωµάτωσή τους στο εργαλείο αναγνώρισης ονοµάτων. 1.7 Αναγνώριση ρόλων σε κείµενα/ιστοσελίδες Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java, C/C++. Περιγραφή: Το Εργαστήριο έχει αναπτύξει σύστηµα εξαγωγής πληροφορίας από κείµενα της Ελληνικής γλώσσας. Το σύστηµα περιλαµβάνει εργαλεία για την αναγνώριση ονοµάτων στα κείµενα (π.χ. ονόµατα εταιριών), για τον εντοπισµό φράσεων που περιγράφουν τα ονόµατα αυτά (π.χ. ότι µία εταιρία είναι εταιρία Πληροφορικής), για την αναγνώριση συγκεκριµένων γεγονότων στα κείµενα (π.χ. µία παράγραφος του κειµένου περιγράφει µια εξαγορά επιχείρησης), και για την αναγνώριση των ρόλων που έχουν τα ονόµατα στα γεγονότα αυτά (π.χ. ότι η εταιρία Χ είναι αγοραστής και η εταιρία Υ αγοραζόµενη σε ένα γεγονός εξαγοράς). Σκοπός της εργασίας αυτής είναι η µελέτη διάφορων τεχνικών αναγνώρισης ρόλων, η υλοποίηση και αξιολόγησή τους, και η ενσωµάτωση της καλύτερης τεχνικής στο εργαλείο αναγνώρισης ρόλων. ΡΑΣΗ 2. Φιλικά Συστήµατα Πληροφορικής Στόχος είναι η έρευνα και ανάπτυξη στις παρακάτω περιοχές: ανάλυση της χρήσης υπηρεσιών παροχής πληροφορίας στο ιαδίκτυο (π.χ. Web-sites, news-filtering services, digital libraries), µε στόχο τη διάθεση πληροφορίας στο χρήστη σύµφωνα µε τις ανάγκες και τα ενδιαφέροντά του.
διαλογικά συστήµατα (dialogue systems), δηλαδή συστήµατα που επιτρέπουν την επικοινωνία του χρήστη µε Η/Υ ή άλλες συσκευές, µε χρήση φυσικής γλώσσας (προφορικοί ή γραπτοί διάλογοι). Για την επίτευξη του στόχου αυτού αξιοποιούνται µέθοδοι, τεχνικές και εργαλεία από τις τεχνολογίες Επεξεργασίας Φυσικής Γλώσσας, Μοντελοποίησης Χρηστών, Λογισµικού και Μηχανικής Μάθησης. 2.1 Τεχνικές εξόρυξης γνώσης για την παροχή εξατοµικευµένης ενηµέρωσης από τον Παγκόσµιο Ιστό. Απαιτούµενα προσόντα: Πολύ καλές γνώσεις προγραµµατισµού, κατά προτίµηση σε Java. Επιθυµητά προσόντα: Γνώσεις εξόρυξης γνώσης ή/και αλληλεπίδρασης ανθρώπου-µηχανής. Περιγραφή: Οι τεχνικές εξόρυξης γνώσης δίνουν τη δυνατότητα αυτόµατης κατασκευής και δυναµικής ενηµέρωσης µοντέλων χρηστών, τα οποία αποτελούν την βάση για την εξατοµίκευση των ιαδυκτυακών υπηρεσιών. Στο Εργαστήριο έχει αναπτυχθεί ένας εξυπηρετητής εξατοµίκευσης (personalization server) γενικής χρήσης. Επίσης, µε τη βοήθεια αυτού έχει υλοποιηθεί µία εφαρµογή εξατοµικευµένης ενηµέρωσης από τον Παγκόσµιο Ιστό. Σκοπός της εργασίας είναι η επέκταση των δυνατοτήτων του εξυπηρετητή εξατοµίκευσης µε νέες µεθόδους εξόρυξης γνώσης από δεδοµένα χρήσης του Παγκόσµιου Ιστού. Με βάση αυτή την επέκταση, θα επεκταθούν και οι δυνατότητες εξατοµίκευσης της εφαρµογής ενηµέρωσης και θα επαναξιολογηθεί η χρησιµότητά της από ένα επιλεγµένο σύνολο χρηστών. 2.2 Εκµάθηση γραµµατικών από δεδοµένα χρήσης του Παγκόσµιου Ιστού. Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java. Επιθυµητά προσόντα: Γνώσεις εξόρυξης γνώσης ή/και αλληλεπίδρασης ανθρώπου-µηχανής. Περιγραφή: Η πλοήγηση ενός χρήστη σε έναν ιστιακό τόπο ή γενικότερα στον Ιστό καταγράφεται ως ακολουθία επερωτήσεων από τους εξυπηρετητές που παρέχουν το περιεχόµενο. Αυτή η ακολουθία είναι ιδιαίτερα χρήσιµη για τη µοντελοποίηση της συµπεριφοράς των χρηστών στον Ιστό. Στο Εργαστήριο έχει αναπτυχθεί µία µέθοδος η οποία µοντελοποιεί τη συµπεριφορά των χρηστών µε γραµµατικές, της οποίες µαθαίνει από τα δεδοµένα που συλλέγουν οι εξυπηρετητές. Στα πλαίσια της εργασίας θα βελτιωθεί αυτή η µέθοδος και θα αξιολογηθεί σε πραγµατικά δεδοµένα χρήσης. 2.3 ιαλογικά Συστήµατα Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java ή Tcl/Tk. Επιθυµητά προσόντα: Γνώσεις γλωσσικής τεχνολογίας ή/και διαλογικών συστηµάτων. Περιγραφή: Τα τελευταία χρόνια έχει σηµειωθεί σηµαντική πρόοδος στον τοµέα των διαλογικών συστηµάτων ( Σ - dialogue systems) µε γραπτούς και προφορικούς διαλόγους. Ένα σύνηθες διαλογικό σύστηµα (θεωρούµε ότι έχει προηγηθεί αναγνώριση φωνής σε περίπτωση προφορικών διαλόγων) περιλαµβάνει γλωσσικά εργαλεία για κατανόηση της απαίτησης του χρήστη (από πιο απλά που αφορούν τον εντοπισµό λέξεων-κλειδιών έως πιο σύνθετα που αναλύουν συντακτικά, σηµασιολογικά και πραγµατολογικά τις ερωτήσεις/διευκρινίσεις του χρήστη), εργαλεία για τη διαχείριση του διαλόγου που
αξιοποιούν ένα διαλογικό µοντέλο για την αναπαράσταση και αποθήκευση των σταδίων του διαλόγου, και εργαλεία για την παραγωγή των αποκρίσεων του συστήµατος. Στόχος της προτεινόµενης εργασίας είναι η χρήση υπαρχόντων εργαλείων για τη δηµιουργία ενός διαλογικού συστήµατος για µια περιορισµένη εφαρµογή στην Ελληνική γλώσσα. ΡΑΣΗ 4. Γλωσσική Τεχνολογία Στόχος της δράσης είναι η έρευνα σε τεχνολογίες αιχµής στην περιοχή της επεξεργασίας φυσικής γλώσσας, η ανάπτυξη/βελτίωση γλωσσικών εργαλείων γενικού σκοπού (λεξικοί αναλυτές, συντακτικοί αναλυτές) και γλωσσικών πόρων (µορφολογικό λεξικό, γραµµατική Ελληνικής γλώσσας), η συνεχής βελτίωση και επέκταση της πλατφόρµας γλωσσικής τεχνολογίας Ellogon και του εργαλείου συγγραφής για εφαρµογές Παραγωγής Φυσικής Γλώσσας που έχει αναπτύξει το Εργαστήριο, και η αξιοποίηση µεθόδων και τεχνικών γλωσσικής τεχνολογίας σε συστήµατα διαχείρισης πληροφορίας και σε φιλικά συστήµατα πληροφορικής. 4.1 Εργαλείο Συγγραφής για την Ανάπτυξη Εφαρµογών Παραγωγής Φυσικής Γλώσσας Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού σε Java. Επιθυµητά προσόντα: Γνώσεις γλωσσικής τεχνολογίας. Περιγραφή: Το Εργαστήριο έχει αναπτύξει εργαλείο συγγραφής (authoring tool) που υποστηρίζει την ανάπτυξη νέων εφαρµογών παραγωγής φυσικής γλώσσας. Το εργαλείο παρέχει φιλική διεπαφή για τη δηµιουργία της βάσης δεδοµένων (είτε χειρωνακτικά είτε αξιοποιώντας υπάρχουσες οντολογίες / βάσεις δεδοµένων), για τη δηµιουργία του λεξικού για τη συγκεκριµένη εφαρµογή και τις γλώσσες που θα καλύπτει (Ελληνικά, Ιταλικά, Αγγλικά υποστηρίζονται από την τρέχουσα έκδοση), καθώς επίσης και για την εισαγωγή των µικροσχεδίων (micro-plans) που ορίζουν τη σύνταξη των παραγόµενων προτάσεων και τη σειρά παρουσίασής τους στο τελικό κείµενο. Επίσης δίνεται η δυνατότητα στο χρήστη του εργαλείου, να εισάγει τους τύπους χρηστών της τελικής εφαρµογής (π.χ. άλλο κείµενο µπορεί να παράγεται από µία Β για εκθέµατα µουσείων για έναν µαθητή, άλλο για έναν ειδικό, άλλο για έναν ενήλικα µη ειδικό) και να καθορίσει πώς τα χαρακτηριστικά των χρηστών θα επηρεάζουν το τελικό κείµενο. Στόχος της συγκεκριµένης εργασίας είναι η βελτίωση και επέκταση του εργαλείου. 4.2. Αναγνώριση ενδο-κειµενικών σχέσεων (rhetorical relations) Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού σε Java ή Tcl/Tk Επιθυµητά προσόντα: Γνώσεις γλωσσικής τεχνολογίας. Περιγραφή: Η Θεωρία Ενδο-κειµενικής οµής (Rhetorical Structure Theory - RST) αποσκοπεί στην περιγραφή ενός κειµένου µε βάση τις σχέσεις (ενδο-κειµενικές σχέσεις) που υπάρχουν ανάµεσα σε τµήµατα του κειµένου (παράγραφοι, προτάσεις). Μια ενδο-κειµενική σχέση µεταξύ δύο τµηµάτων του κειµένου προσδιορίζει το ρόλο του ενός τµήµατος σε σχέση µε το άλλο. Για παράδειγµα, µία παράγραφος µπορεί να εξειδικεύει το περιεχόµενο µιας άλλης παραγράφου, να την αιτιολογεί, να την ερµηνεύει κ.ο.κ. (σχέσεις «εξειδίκευση», «αιτιολόγηση», «ερµηνεία» αντίστοιχα). Η εργασία αυτή περιλαµβάνει την ανεύρεση σώµατος κειµένων (corpus), τη σηµασιολογική επισηµείωσή του (semantic annotation), τη
διερεύνηση των ενδο-κειµενικών σχέσεων που υπάρχουν σε αυτό, και την ανάπτυξη ενός πρωτοτύπου που θα αναγνωρίζει αυτόµατα τις ρητορικές σχέσεις µέσα σε ένα κείµενο. 4.3 Αναγνώριση σχέσεων για την αυτόµατη παραγωγή εξελικτικών περιλήψεων Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού σε Java ή Tcl/Tk Επιθυµητά προσόντα: Γνώσεις γλωσσικής τεχνολογίας. Περιγραφή: Μία περίληψη αποτελεί την συµπύκνωση και παρουσίαση των βασικών οντοτήτων ή γεγονότων (στα οποία εµπλέκονται οντότητες) που παρουσιάζονται από ένα σώµα κειµένων. Μία εξελικτική περίληψη επικεντρώνεται σε µία οντότητα ή σε ένα γεγονός, παρουσιάζοντας το πώς εξελίσσεται ως προς µία ή παραπάνω παραµέτρους. Ως «παράµετρο» µπορούµε να θεωρήσουµε κάτι αφηρηµένο (π.χ. «χρόνος») ή κάτι πιο συγκεκριµένο (π.χ. τα κέρδη µιας επιχείρησης). Για τη δηµιουργία µιας εξελικτικής περίληψης χρειάζεται να έχουµε ένα σώµα κειµένων (π.χ. όλες οι ειδήσεις για τις αλλαγές στο προσωπικό µιας εταιρείας τον τελευταίο χρόνο), να έχουµε προσδιορίσει τις σηµαντικές σχέσεις για την παραγωγή της εξελικτικής περίληψης και να έχουµε ένα µηχανισµό για τον αυτόµατη αναγνώρισή τους τόσο στο ίδιο κείµενο όσο και µεταξύ διαφορετικών κειµένων. Στο εργαστήριο έχει αναπτυχθεί συγκεκριµένη µεθοδολογία για την παραγωγή τέτοιων περιλήψεων και σύστηµα που την υλοποιούν. Στόχος της συγκεκριµένης εργασίας είναι η βελτίωση και επέκταση του εργαλείου αναγνώρισης σχέσεων. ΡΑΣΗ 5. Τεχνολογία Γνώσεων Στόχος της δράσης είναι η έρευνα και ανάπτυξη σε θέµατα οντολογιών, µοντελοποίησης χρηστών, σχεδιασµού και χρονοπρογραµµατισµού. 5.1 Επέκταση συστήµατος σχεδιασµού οντολογιών ώστε να χειρίζεται οντολογίες µε χωροχρονικά χαρακτηριστικά, όπως οντολογίες διαδικασιών. Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού, κατά προτίµηση σε Java. Επιθυµητά προσόντα: Γνώσεις αναπαράστασης γνώσης και συµπερασµού. Περιγραφή: Στην πλειοψηφία τους οι οντολογίες που χρησιµοποιούνται στην πράξη περιορίζονται σε ιεραρχικές δοµές εννοιών, µε ελάχιστες µη-ιεραρχικές σχέσεις µεταξύ τους. Υπάρχει όµως έντονη ανάγκη αναπαράσταση λιγότερο στατικής γνώσης, όπως χωροχρονικές σχέσεις που χαρακτηρίζουν διαδικασίες. Στο Εργαστήριο έχει αναπτυχθεί σύστηµα σχεδιασµού οντολογιών, χωρίς ιδιαίτερη δυνατότητα µοντελοποίησης χωροχρονικών σχέσεων. Στόχος της εργασίας είναι η µελέτη αναπαραστάσεων που προβλέπουν χωροχρονικές σχέσεις και η κατάλληλη επέκταση του υπάρχοντος συστήµατος προς την κατεύθυνση της κάλυψης αυτών των σχέσεων. Το βελτιωµένο σύστηµα θα χρησιµοποιηθεί για τη µοντελοποίηση διαδικασιών διάσωσης, π.χ. πυρόσβεσης.
5.2 Εµπλουτισµός οντολογιών (ontology enrichment) αξιοποιώντας σώµατα κειµένων σχετικών µε τη θεµατική περιοχή της οντολογίας Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού σε Tcl/Tk ή C/C++ Επιθυµητά προσόντα: Γνώσεις διαχείρισης οντολογιών και/ή γλωσσικής τεχνολογίας. Περιγραφή: Το Εργαστήριο έχει αναπτύξει µεθοδολογία και εργαλεία για τη συντήρηση οντολογιών (ontology maintenance). Η µεθοδολογία αυτή βασίζεται στη χρήση τεχνικών µηχανικής µάθησης για την εξαγωγή πληροφορίας από κείµενα σχετικά µε τη θεµατική περιοχή της οντολογίας. Τα κύρια βήµατα της µεθοδολογίας είναι τα ακόλουθα: (α)επισηµείωση του σώµατος κειµένων µε χρήση των στιγµιοτύπων της οντολογίας (concept instances), (β)εκπαίδευση ενός συστήµατος εξαγωγής πληροφορίας µε χρήση του επισηµειωµένου σώµατος κειµένων, (γ)εφαρµογή του εκπαιδευµένου συστήµατος για την αναγνώριση επιπλέον στιγµιοτύπων εννοιών καθώς επίσης και παραφράσεων των στιγµιοτύπων, (δ)έλεγχος των αποτελεσµάτων από τον χρήστη και εισαγωγή των έγκυρων στιγµιοτύπων και παραφράσεων τους στην οντολογία. Η διαδικασία, στη συνέχεια, επαναλαµβάνεται από την αρχή µε την ενηµερωµένη οντολογία και ολοκληρώνεται όταν δεν ανακαλύπτονται πλέον νέα στιγµιότυπα. Η µεθοδολογία έχει εφαρµοστεί ήδη σε δύο θεµατικές περιοχές. Στόχος της διπλωµατικής εργασίας είναι η βελτίωση κει επέκταση των υπαρχόντων εργαλείων. 5.3 Υποστήριξη διαχείρισης οντολογιών µέσω της πλατφόρµας γλωσσικής τεχνολογίας Ellogon Απαιτούµενα προσόντα: Γνώσεις προγραµµατισµού σε Tcl/Tk ή C/C++ Επιθυµητά προσόντα: Γνώσεις διαχείρισης οντολογιών και/ή γλωσσικής τεχνολογίας. Περιγραφή: Το Εργαστήριο έχει αναπτύξει την πλατφόρµα γλωσσικής τεχνολογίας Ellogon (http://www.ellogon.org ) µε στόχο να παρέχει την απαραίτητη υποδοµή για την υποστήριξη ανάπτυξης γλωσσικών εργαλείων (π.χ. µορφολογικοί αναλυτές, συντακτικοί αναλυτές), γλωσσικών πόρων (λεξικά, γραµµατικές), εφαρµογών γλωσσικής τεχνολογίας (π.χ. ταξινόµηση κειµένων, εξαγωγή πληροφορίας, παραγωγή περιλήψεων). Επειδή πολλές εφαρµογές γλωσσικής τεχνολογίας χρησιµοποιούν οντολογίες για την αναπαράσταση των εννοιών µιας θεµατικής περιοχής και των βασικών σχέσεων που τις διέπουν (π.χ. σε µια εφαρµογή εξαγωγής πληροφορίας από ιστοσελίδες µε προσφορές εργασίας η οντολογία περιέχει έννοιες όπως εταιρεία, τοποθεσία, αντικείµενο εργασίας, κλπ.) είναι πολύ χρήσιµη η δυνατότητα άµεσης διαχείρισης οντολογιών από µία πλατφόρµα όπως το Ellogon. Σκοπός της εργασίας αυτής είναι η διασύνδεση του Ellogon µε υπάρχοντα συστήµατα διαχείρισης οντολογιών έτσι ώστε µέσω του Ellogon ο χρήστης να µπορεί να αξιοποιεί τα εργαλεία που παρέχουν αυτά τα συστήµατα σύµφωνα και µε τις ανάγκες των εφαρµογών γλωσσικής τεχνολογίας που αναπτύσσει στο Ellogon.