ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης του ενός µόνο από αυτούς. Οι συµφράσεις εµπεριέχουν περιορισµούς για τον τρόπο µε τον οποίο οι λέξεις χρησιµοποιούνται µαζί µε άλλες στον γραπτό λόγο. Για παράδειγµα ορισµένα ουσιαστικά συνεµφανίζονται µε συγκεκριµένα ρήµατα (π.χ. γράφω γράµµα/ κώδικα/ βιβλίο/ µάθηµα/ email/ µουσική κτλ.) ή ακολουθίες ουσιαστικών που τους αποδίδεται µία ερµηνεία και η οποία δεν προκύπτει από το συνδυασµό των ερµηνειών των επιµέρους ουσιαστικών (π.χ. γυαλιά ηλίου, είδη δώρων), κα. Η εξαγωγή συµφράσεων από κείµενο αναφέρεται στην αυτόµατη διαδικασία ανίχνευσης των λεκτικών µονάδων κειµένου που συνεµφανίζονται µε µεγάλη συχνότητα, τους αποδίδεται µία ορισµένη ερµηνεία και χρησιµοποιούνται σε συγκεκριµένης θεµατολογίας σώµατα κειµένων. Ακόµη, η επεξεργασία των συµφράσεων περικλείει ένα σύνολο παραµέτρων, η πιο σηµαντική από τις οποίες είναι ο υπολογισµός του βαθµού συσχέτισης (degree of association) µέσω της οποίας αξιολογείται αν η συνεµφάνιση όρων είναι στατιστικά σηµαντική ή τυχαία. εδοµένης της µη τυχαιότητας στη φύση των γλωσσών, οι περισσότερες συµφράσεις έχουν κάποια στατιστική σηµασία, η οποία χρησιµεύει για την ταξινόµησή τους βάσει µετρικών όπως mutual information, t-scores και log-likelihood. Σκοπός της διπλωµατικής εργασίας είναι ο σχεδιασµός και η υλοποίηση τεχνικής εντοπισµού και εξαγωγής συµφράσεων από δεδοµένα κειµένου, αξιοποιώντας υπάρχοντα εργαλεία και τεχνικές γλωσσολογικής επεξεργασίας δεδοµένων όπως tokenization, PoS-tagging, parsing, n-grams, κτλ. Επιπλέον, στα πλαίσια της εργασίας θα πρέπει να διενεργηθεί και πειραµατική αξιολόγηση της απόδοσης της τεχνικής που θα υλοποιηθεί και η οποία θα πρέπει να αξιοποιήσει την πληροφορία για τις συµφράσεις που κωδικοποιούνται στο σηµασιολογικό δίκτυο WordNet. Τέλος, είναι επιθυµητό να υλοποιηθεί µια web εφαρµογή για την επίδειξη της λειτουργικότητας της τεχνικής που θα υλοποιηθεί. Προ-απαιτούµενα µαθήµατα: οµές εδοµένων, Γλωσσική Τεχνολογία, Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Αλγόριθµοι Επιθυµητά προσόντα: προγραµµατισµός σε C#, εξοικείωση µε PoS-Tagging, Indexing, n-grams, WordNet Συνεπιβλέπουσα: Σοφία Στάµου

ΘΕΜΑ 2 Εφαρµογές ιαχείρισης Οντολογιών Μια οντολογία ορίζεται ως ο τυπικός τρόπος αναπαράστασης ενός συνόλου εννοιών που ανήκουν σε συγκεκριµένο πεδίο (domain) καθώς και των σχέσεων µεταξύ των εννοιών αυτών. Οι οντολογίες έχουν ευρύ πεδίο εφαρµογής, το οποίο περιλαµβάνει τεχνικές που εφαρµόζονται στην τεχνητή νοηµοσύνη, στο Semantic Web, στην βιοπληροφορική και γενικά σε όλα τα πεδία τα οποία απαιτούν αναπαράσταση γνώσης σε σχέση µε τον κόσµο ή µέρος αυτού. Η κύρια συνεισφορά των οντολογιών συνίσταται στο ότι προσφέρουν τρόπο αναπαράστασης οντοτήτων, ιδεών, ακόµα και γεγονότων, συµπεριλαµβάνοντας τις ιδιότητές τους και τις σχέσεις µεταξύ τους και οργανώνοντας ένα σύστηµα κατηγοριών. Χαρακτηριστικό παράδειγµα µιας λεξικής οντολογίας είναι το WordNet, το οποίο είναι σηµασιολογικό δίκτυο που οργανώνει σε µια οντολογία τις λέξεις της αγγλικής γλώσσας. Το πεδίο της µηχανικής οντολογιών (ontology engineering) αποτελεί ένα υποσύνολο του πεδίου της µηχανικής γνώσης (knowledge engineering) και µελετά µεθόδους και τεχνικές για τη δηµιουργία οντολογιών. Πιο συγκεκριµένα, µελετά τη διαδικασία ανάπτυξης µιας οντολογίας, τον κύκλο ζωής της οντολογίας, τα εργαλεία και τις γλώσσες που χρησιµοποιούνται στα πλαίσια της υποστήριξης οντολογιών. Μια γλώσσα οντολογίας είναι µια τυπική γλώσσα κωδικοποίησης οντολογίας. Υπάρχουν αρκετές τέτοιες γλώσσες, κάποιες από τις οποίες είναι βασισµένες σε πρότυπα, χαρακτηριστικό παράδειγµα των οποίων είναι η γλώσσα OWL η οποία στοχεύει στην αναπαράσταση του ιαδικτύου και όλων των στοιχείων του. Τα προγράµµατα επεξεργασίας οντολογίας (ontology editors) είναι εφαρµογές που έχουν σχεδιαστεί για να διευκολύνουν τη διαδικασία δηµιουργίας και διαχείρισης οντολογιών. Συνήθως εκφράζουν την οντολογία χρησιµοποιώντας µια από τις γλώσσες αναπαράστασης οντολογιών, ενώ κάποια από αυτά προσφέρουν εξαγωγή της παραγόµενης οντολογίας σε άλλες γλώσσες. Το πιο γνωστό παράδειγµα εφαρµογής επεξεργασίας οντολογίας είναι το Protégé, το οποίο αναπτύχθηκε από τα πανεπιστήµια του Stanford και του Manchester. Στα πλαίσια της διπλωµατικής θα πραγµατοποιηθεί µελέτη των διαθέσιµων προγραµµάτων διαχείρισης οντολογιών µε µεγαλύτερη έµφαση σε οντολογίες και προγράµµατα που χρησιµοποιούνται σε διαδικτυακές εφαρµογές και εφαρµόζονται σε δεδοµένα του ιαδικτύου. Επιπλέον, στα πλαίσια της καλύτερης κατανόησης της λειτουργίας και των χαρακτηριστικών των προγραµµάτων επεξεργασίας οντολογίας, θα αναπτυχθεί µια πρότυπη εφαρµογή διαχείρισης οντολογίας, η οποία θα συµπεριλαµβάνει σχεδιασµό και υλοποίηση των κυριότερων χαρακτηριστικών των προγραµµάτων που µελετήθηκαν. Προ-απαιτούµενα µαθήµατα: Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Αλγόριθµοι, Γλωσσική Τεχνολογία, Java Συνεπιβλέπουσα: Παρασκευή Τζέκου

ΘΕΜΑ 3 Αυτόµατος Εµπλουτισµός των Λεξικών Ιεραρχιών του Σηµασιολογικού ικτύου Ληµµάτων WordNet µε Ονοµατικές Οντότητες από τη Wikipedia Το σηµασιολογικό δίκτυο ληµµάτων WordNet είναι µια λεξική οντολογία, η οποία οργανώνει τα λήµµατα που περιέχει σε ιεραρχίες βάσει των σηµασιολογικών τους συσχετίσεων. Αν και η λεξιλογική κάλυψη του WordNet είναι ιδιαίτερα µεγάλη, ωστόσο οι ονοµατικές οντότητες δεν εκπροσωπούνται επαρκώς στους κόµβους των ιεραρχιών του. Στόχος της διπλωµατικής είναι η υλοποίηση µιας τεχνικής αυτόµατου εµπλουτισµού των λεξικών ιεραρχιών του WordNet µε ονοµατικές οντότητες από την Wikipedia. Για την υλοποίηση της τεχνικής αυτής προτείνονται τα ακόλουθα βήµατα: 1. Εξόρυξη ονοµατικών οντοτήτων από το σώµα κειµένων της Wikipedia. Για το σκοπό αυτό προτείνεται η εφαρµογή ευρετικών µεθόδων που περιγράφονται στη βιβλιογραφία και στηρίζονται σε στατιστικά δεδοµένα για τη συχνότητα και την περιοχή εµφάνισης όρων στα κείµενα της Wikipedia. Βάσει των αποτελεσµάτων της στατιστικής επεξεργασίας ορίζονται κανόνες απόφασης για τον προσδιορισµό των όρων που αποτελούν ονοµατικές οντότητες. 2. Συλλογή και επεξεργασία των προτάσεων που ορίζουν ή/και αποσαφηνίζουν τις ονοµατικές οντότητες. Κάθε ονοµατική οντότητα στο σώµα κειµένου της Wikipedia περιγράφεται από ένα ή περισσότερα άρθρα. Κάθε άρθρο ορίζει την έννοια που αναπαριστά η ονοµατική οντότητα και ενδέχεται να περιέχει µία ή περισσότερες φράσεις αποσαφήνισης της κλάσης αντικειµένων όπου αναφέρεται η έννοια της ονοµατικής οντότητας. Αφού συλλεχθούν οι φράσεις αποσαφήνισης και ορισµού για κάθε ονοµατική οντότητα που έχει αναγνωριστεί στο βήµα 1 προτείνεται η λεξιλογική επεξεργασία τους βάσει ενός bigram µοντέλου µε σκοπό την άντληση όρων αναφοράς από τα συµφραζόµενα των ονοµατικών οντοτήτων. 3. Οµαδοποίηση των όρων αναφοράς για τις κλάσεις των ονοµατικών οντοτήτων βάσει της λεξιλογικής τους επικάλυψης και υπολογισµός του βαθµού αντιπροσώπευσής τους. Για την οµαδοποίηση των όρων αναφοράς θα χρησιµοποιηθούν απλές µέθοδοι ταυτοποίησης αλφαριθµητικών. Για τον υπολογισµό του βαθµού αντιπροσώπευσης των όρων προτείνεται η εφαρµογή µετρικών λεξιλογικής οµοιότητας ή/και απόστασης, π.χ. Dice co-efficient, OSim measure, TF*IDF, κτλ. Στη συνέχεια οι βαθµολογηµένοι όροι αναφοράς θα ταξινοµηθούν κατά αύξουσα σειρά αντιπροσώπευσης και θα επιλεγεί ο όρος µε την υψηλότερη βαθµολογία για κάθε κλάση αντικειµένων ως ο όρος που θα περιγράφει έµµεσα τα λεξιλογικά γνωρίσµατα της κλάσης αναφοράς. 4. Εντοπισµός των πιο αντιπροσωπευτικών όρων κάθε κλάσης στους κόµβους των ιεραρχιών του δικτύου WordNet και προσάρτηση σ αυτούς των αντίστοιχων ονοµατικών οντοτήτων. Για τον εντοπισµό των αντιπροσωπευτικών όρων κάθε κλάσης στις ιεραρχίες του WordNet θα χρησιµοποιηθεί ο µηχανισµός αναζήτησης που παρέχεται µαζί µε τη βάση δεδοµένων του WordNet. Αφού εντοπιστούν οι κόµβοι που ταυτοποιούν τους όρους αναζήτησης, θα πραγµατοποιηθεί ο εµπλουτισµός τους µε τις ονοµατικές οντότητες που περιγράφονται από τους αντίστοιχους όρους. Ο εµπλουτισµός θα πραγµατοποιηθεί µέσω των ιεραρχικών σχέσεων γενίκευσης/εξειδίκευσης (IS-A) και θα στηριχθεί στα λεκτικά των ρηµατικών τύπων και των ουσιαστικών στο περιβάλλον συνεµφάνισης των ονοµατικών οντοτήτων στις προτάσεις ορισµού και αποσαφήνισής τους στα άρθρα της Wikipedia.

Προ-απαιτούµενα µαθήµατα: Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Αλγόριθµοι, Γλωσσική Τεχνολογία Συνεπιβλέποντες: Σοφία Στάµου, Λευτέρης Κοζανίδης

ΘΕΜΑ 4 Σύστηµα Θεµατικής Οργάνωσης και ιαχείρισης Τεκµηρίων Τα συστήµατα θεµατικής οργάνωσης τεκµηρίων είναι ολοκληρωµένες εφαρµογές ευρετηρίασης δεδοµένων (κειµένου, εικόνας και ήχου) βάσει αρχειακών περιγραφικών προτύπων. Για τη θεµατική ευρετηρίαση κάθε τεκµηρίου απαιτείται η καταγραφή πληροφορίας, σε µορφή µεταδεδοµένων, αναφορικά µε το θέµα, το περιεχόµενο, το είδος, το δηµιουργό, την ηµεροµηνία δηµιουργίας, το µέσο διάθεσης και αποθήκευσης, κτλ., του τεκµηρίου. Βάσει των υφιστάµενων περιγραφών, καθίσταται δυνατή η δεικτοδότηση των τεκµηρίων σε θεµατικές οµάδες συναφών αντικειµένων ως προς ένα ή περισσότερα γνωρίσµατα οµαδοποίησης και επιτυγχάνεται η αποδοτική ανάκτηση αυτών µέσω απλών αλλά και σύνθετων αναζητήσεων. Σκοπός της διπλωµατικής εργασίας είναι ο σχεδιασµός και η υλοποίηση µιας διαδικτυακής εφαρµογής µέσω της οποίας θα µπορούν να δηλωθούν οι περιγραφές των γνωρισµάτων των τεκµηρίων και να καταστεί δυνατός ο εµπλουτισµός τους µε ετικέτες µεταδεδοµένων. Για την υλοποίηση της εφαρµογής είναι αναγκαίο να σχεδιαστεί και να υλοποιηθεί ένα σύστηµα αποθήκευσης και διαχείρισης δεδοµένων καθώς και µια πρότυπη διεπαφή χρήστη µέσω της οποίας θα επιτρέπεται η ανάθεση περιγραφικών ετικετών στα υπό εξέταση τεκµήρια.. Προ-απαιτούµενα µαθήµατα: οµές εδοµένων, Γλωσσική Τεχνολογία, Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Τεχνολογίες ιαδικτύου Συνεπιβλέποντες: Σοφία Στάµου, Παρασκευή Τζέκου

ΘΕΜΑ 5 Σχεδιασµός και υλοποίηση διεπαφής για την διαχείριση του ελληνικού σηµασιολογικού δικτύου ληµµάτων WordNet σε προσωπικό ψηφιακό βοηθό (PDA). Αντικείµενο της διπλωµατικής είναι η κατασκευή µίας πρότυπης διεπαφής διαχείρισης του ελληνικού σηµασιολογικού δικτύου ληµµάτων WordNet, δίνοντας έµφαση στην ευκολία διαχείρισης και στην αποδοτικότητα της εφαρµογής και λαµβάνοντας υπόψη τις περιορισµένες δυνατότητες προβολής του δικτύου σε οθόνες προσωπικών ψηφιακών βοηθών (PDA). Συγκεκριµένα στα πλαίσια της παρούσας διπλωµατικής θα πραγµατοποιηθεί µελέτη της δοµής του ελληνικού του αγγλικού δικτύου ληµµάτων, επισκόπηση της διεθνούς βιβλιογραφίας για την κατασκευή εφαρµογών στο περιβάλλον Windows CE 5 ή 6 και υλοποίηση εφαρµογής η οποία θα εκµεταλλεύεται πλήρως τις δυνατότητες του WordNet. Παραδοτέο της συγκεκριµένης διπλωµατικής θα αποτελέσει τόσο η µελέτη για τα χαρακτηριστικά που θα πρέπει να πληροί µία εφαρµογή σε περιβάλλον windows CE όσο και ο κώδικας και η παρουσίαση της εφαρµογής που θα προκύψει. Προ-απαιτούµενα µαθήµατα: Γλωσσική τεχνολογία, Προηγµένα πληροφοριακά συστήµατα, Αλληλεπίδραση ανθρώπου υπολογιστή. Επιθυµητά προσόντα: Γνώση C# και εξοικείωση µε τεχνικές αντικειµενοστραφούς προγραµµατισµού, XML, SQL server 2005 Compact, σχεδιασµός βάσεων δεδοµένων και ευχέρεια διατύπωσης ερωτηµάτων σε SQL καλή γνώση της Αγγλικής. Συνεπιβλέπων: Λευτέρης Κοζανίδης ΕΝ ΕΙΚΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ WordNet: http://wordnet.princeton.edu Developing Balkan specific concepts within BalkaNet - a multilingual database of semantic networks hermes.di.uoa.gr/compling/grigoriadou_wordnet.ppt http://www.ebswift.com/pocketpc/wordnet/

ΘΕΜΑ 6 Σχεδιασµός, υλοποίηση και αξιολόγηση µεθόδων αποσαφήνισης για την ελληνική γλώσσα µε χρήση του ελληνικού WordNet Η ραγδαία αύξηση του πλήθους και της ποιότητας των σελίδων ιαδικτύου που είναι γραµµένες στην ελληνική γλώσσα καθιστούν αναγκαία την δηµιουργία εργαλείων τα οποία θα επιτρέπουν την πλήρη εκµετάλλευση της πληροφορίας των συγκεκριµένων σελίδων. Ένα πρώτο βήµα προς αυτήν την κατεύθυνση είναι η σηµασιολογική αποσαφήνιση των όρων των κειµένων που εµπεριέχονται σε αυτές. Αντικείµενο της παρούσας διπλωµατικής είναι η µελέτη γνωστών µεθόδων για την αποσαφήνιση όρων κειµένων της αγγλικής γλώσσας (Resnik, Leacock & Chodorow και Wu & Palmer), η υλοποίηση τους, η εφαρµογή τους σε κείµενα της ελληνικής γλώσσας, η αξιολόγηση της απόδοσής τους και η πιθανή τροποποίηση τους, προκειµένου να δηµιουργηθεί µια νέα µέθοδος που θα ανταποκρίνεται καλύτερα στις ιδιαιτερότητες της ελληνικής γλώσσας. Παράλληλα θα µελετηθεί η δοµή του σηµασιολογικού δικτύου ληµµάτων της Ελληνικής (WordNet) και θα χρησιµοποιηθεί ως λεξιλογικός πόρος κατ αντιστοιχία µε το αγγλικό δίκτυο WordNet σε µεθόδους αποσαφήνισης όρων κειµένων της Αγγλικής. Παραδοτέο της παρούσας διπλωµατικής θα αποτελέσει η περιγραφή των µεθόδων αποσαφήνισης που θα µελετηθούν, η περιγραφή της δοµής του ελληνικού WordNet, η υλοποίηση µεθόδων αποσαφήνισης, η εφαρµογή τους σε κείµενα της Ελληνικής και η συγκριτική τους αξιολόγηση. Τέλος θα γίνει απόπειρα βελτίωσης των αδυναµιών που θα εµφανίσουν οι συγκεκριµένες µέθοδοι κατά την εφαρµογή τους σε κείµενα της Ελληνικής και θα υλοποιηθεί µία υπηρεσία ιαδικτύου (web service) η οποία θα παρέχει τη δυνατότητα αποσαφήνισης ενός κειµένου της Ελληνικής σε πραγµατικό χρόνο. Προ-απαιτούµενα µαθήµατα: οµές εδοµένων, Βάσεις εδοµένων, Ανάκτηση Πληροφορίας, Γλωσσική Τεχνολογία, Τεχνολογίες ιαδικτύου, Επιθυµητά προσόντα: Γνώση C# και εξοικείωση µε τεχνικές αντικειµενοστραφούς προγραµµατισµού, Σχεδιασµός βάσεων δεδοµένων και ευχέρεια διατύπωσης ερωτηµάτων σε SQL, καλή γνώση της Αγγλικής. Συνεπιβλέπων: Λευτέρης Κοζανίδης ΕΝ ΕΙΚΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ WordNet: http://wordnet.princeton.edu Developing Balkan specific concepts within BalkaNet - a multilingual database of semantic networks hermes.di.uoa.gr/compling/grigoriadou_wordnet.ppt Leacock, C., Chodorow, M. Combining Local Context and Wordnet Similarity for Word Sense Identification. In WordNet: An Electronic Lexical Database, MIT Press, 1998 Wu, Z., Palmer, M. Web Semantics and Lexical Selection. In the 32nd ACL Meeting, 1994