ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Σχετικά έγγραφα
ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Software Production Company

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Σχεδιασµός Ανάπτυξη Οντολογίας

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Πίνακας Προτεινόμενων Πτυχιακών Εργασιών

Πίνακας Προτεινόμενων Πτυχιακών Εργασιών

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΓΛΩΣΣΩΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ & ΤΕΧΝΟΛΟΓΙΑΣ ΛΟΓΙΣΜΙΚΟΥ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Ψηφιακά Mέσα Υπολογιστική Νοημοσύνη

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Πρόταση θέµατος πτυχιακής εργασίας

Αν σας ενδιαφέρει κάποιο θέμα, δείτε τη σχετική βιβλιογραφία και στείλτε μου για να συναντηθούμε και να το συζητήσουμε.

Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυµα Θεσσαλονίκης

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

01 SOLUTIONS HELLAS Ε.Π.Ε. Χελμού 20, Μαρούσι Αττικής Τηλ FAX Ηλεκτρονικό Πρωτόκολλο & Διακίνηση Εγγράφων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Ανάπτυξη Πληροφοριακών Συστηµάτων Επισκόπηση Π.Σ. & τεχνικές για Ανάλυση και Ανάπτυξη. πληροφοριακών συστηµάτων

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. ακαδ. έτους

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων».

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ. Θέματα ιπλωματικών Εργασιών

Ερευνητικό Πρόγραµµα BalkaNet

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

ΑΔΑ: 4ΑΡΟ46941Δ-Ε. Συνολικός Προϋπολογισμός Έργου : ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΙΑ ΙΚΤΥΟ 137/

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Το εσωτερικό ενός Σ Β

Αναφορά εργασιών για το τρίμηνο Μάρτιος 2013 Μάιος 2013 Όνομα : Παπαχριστόπουλος Λεωνίδας

«Περιεχόµενα. 03 Εισαγωγή Ένα ολοκληρωµένο πληροφοριακό σύστηµα. 04 Περιγραφή Εργαλείο εφαρµογής διαδικασιών

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΑΣΙΩΝ ΔΙ.ΑΠ. ΕΠΕΚΤΑΣΗ ΕΦΑΡΜΟΓΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΡΓΩΝ & ΠΛΗΡΩΜΩΝ

Επεξεργασία Ερωτήσεων

ΚΕΝΤΡΟ ΕΚΠΑΙ ΕΥΣΗΣ ΕΝΗΛΙΚΩΝ ΣΑΜΟΥ. ΙΕΥΘΥΝΣΗ ΚΑΡΜΑΝΙΟΛΩΝ. ΠΟΛΗ ΚΑΡΛΟΒΑΣΙ. Τ.Κ83200 ΤΗΛ , FAX ,

Διαγράμματα UML στην Ανάλυση. Μέρος Β Διαγράμματα Κλάσεων Διαγράμματα Αντικειμένων

ΠΡΟΣΚΛΗΣΗ ΕΚ ΗΛΩΣΗΣ ΕΝ ΙΑΦΕΡΟΝΤΟΣ στα Σεµινάρια του Εργαστηρίου Προηγµένων Εκπαιδευτικών Τεχνολογιών και Εφαρµογών Κινητών Συσκευών

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Εικόνα 1. Δείκτης Προόδου

Εικόνα 1. Δείκτης Προόδου

Διπλωματικές των κ. Ι. Βλαχάβα και Ν. Βασιλειάδη

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Υπηρεσίες Διαχείρισης MPEG Πληροφορίας για Οπτικοακουστικές Εφαρμογές

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

Η ΟΝΤΟΛΟΓΙΑ ΤΟΥ ΕΛΛΗΝΙΚΟΥ ΚΤΗΜΑΤΟΛΟΓΙΟΥ. Μελέτη υλοποίησης στο Protégé-2000

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012 Όνομα : Μπελούλη Αγάθη

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΚΟΙΝΩΝΙΚΩΝ ΕΡΕΥΝΩΝ

Εισαγωγή στην Πληροφορική

ΜΑΘΗΜΑΤΑ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ ΠΑΡΑ ΟΣΕΙΣ ΑΣΚΗΣΕΙΣ ΚΑΘΗΓΗΤΕΣ/ΤΡΙΕΣ

Μοντέλα Κυβερνητικής Πληροφορίας

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Οντολογία Ψηφιακής Βιβλιοθήκης

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. ακαδ. έτους

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ ΙΑ ΙΚΤΥΑΚΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΎ ΣΥΣΤΗΜΑΤΟΣ. Τρίτη, 7 Φεβρουαρίου 2012

ΥΠΟΧΡΕΩΤΙΚΕΣ ΓΝΩΣΕΙΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΡΟΣ ΙΙ

Πρόλογος των Συγγραφέων

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013 Όνομα : Μπελούλη Αγάθη

Σχεδιασµός βασισµένος σε συνιστώσες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μάθηµα 3. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου


ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

4/2014 ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΥΔΡΟΛΗΨΙΕΣ ΑΤΤΙΚΗΣ ΑΠΟΚΕΝΤΡΩΜΕΝΗ ΔΙΟΙΚΗΣΗ ΑΤΤΙΚΗΣ ΔΙΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

Πτυχιακές εργασίες

Β Εξάµηνο Τίτλος Μαθήµατος Θ Φ Α.Π Ε Φ.E. Π.Μ Προαπαιτούµενα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή στις δομές δεδομένων Στοίβα και Ουρά με τη βοήθεια του Scratch

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΩΝ

Ενιαία Αναζήτηση σε ψηφιακό πολιτιστικό περιεχόμενο

Transcript:

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης του ενός µόνο από αυτούς. Οι συµφράσεις εµπεριέχουν περιορισµούς για τον τρόπο µε τον οποίο οι λέξεις χρησιµοποιούνται µαζί µε άλλες στον γραπτό λόγο. Για παράδειγµα ορισµένα ουσιαστικά συνεµφανίζονται µε συγκεκριµένα ρήµατα (π.χ. γράφω γράµµα/ κώδικα/ βιβλίο/ µάθηµα/ email/ µουσική κτλ.) ή ακολουθίες ουσιαστικών που τους αποδίδεται µία ερµηνεία και η οποία δεν προκύπτει από το συνδυασµό των ερµηνειών των επιµέρους ουσιαστικών (π.χ. γυαλιά ηλίου, είδη δώρων), κα. Η εξαγωγή συµφράσεων από κείµενο αναφέρεται στην αυτόµατη διαδικασία ανίχνευσης των λεκτικών µονάδων κειµένου που συνεµφανίζονται µε µεγάλη συχνότητα, τους αποδίδεται µία ορισµένη ερµηνεία και χρησιµοποιούνται σε συγκεκριµένης θεµατολογίας σώµατα κειµένων. Ακόµη, η επεξεργασία των συµφράσεων περικλείει ένα σύνολο παραµέτρων, η πιο σηµαντική από τις οποίες είναι ο υπολογισµός του βαθµού συσχέτισης (degree of association) µέσω της οποίας αξιολογείται αν η συνεµφάνιση όρων είναι στατιστικά σηµαντική ή τυχαία. εδοµένης της µη τυχαιότητας στη φύση των γλωσσών, οι περισσότερες συµφράσεις έχουν κάποια στατιστική σηµασία, η οποία χρησιµεύει για την ταξινόµησή τους βάσει µετρικών όπως mutual information, t-scores και log-likelihood. Σκοπός της διπλωµατικής εργασίας είναι ο σχεδιασµός και η υλοποίηση τεχνικής εντοπισµού και εξαγωγής συµφράσεων από δεδοµένα κειµένου, αξιοποιώντας υπάρχοντα εργαλεία και τεχνικές γλωσσολογικής επεξεργασίας δεδοµένων όπως tokenization, PoS-tagging, parsing, n-grams, κτλ. Επιπλέον, στα πλαίσια της εργασίας θα πρέπει να διενεργηθεί και πειραµατική αξιολόγηση της απόδοσης της τεχνικής που θα υλοποιηθεί και η οποία θα πρέπει να αξιοποιήσει την πληροφορία για τις συµφράσεις που κωδικοποιούνται στο σηµασιολογικό δίκτυο WordNet. Τέλος, είναι επιθυµητό να υλοποιηθεί µια web εφαρµογή για την επίδειξη της λειτουργικότητας της τεχνικής που θα υλοποιηθεί. Προ-απαιτούµενα µαθήµατα: οµές εδοµένων, Γλωσσική Τεχνολογία, Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Αλγόριθµοι Επιθυµητά προσόντα: προγραµµατισµός σε C#, εξοικείωση µε PoS-Tagging, Indexing, n-grams, WordNet Συνεπιβλέπουσα: Σοφία Στάµου

ΘΕΜΑ 2 Εφαρµογές ιαχείρισης Οντολογιών Μια οντολογία ορίζεται ως ο τυπικός τρόπος αναπαράστασης ενός συνόλου εννοιών που ανήκουν σε συγκεκριµένο πεδίο (domain) καθώς και των σχέσεων µεταξύ των εννοιών αυτών. Οι οντολογίες έχουν ευρύ πεδίο εφαρµογής, το οποίο περιλαµβάνει τεχνικές που εφαρµόζονται στην τεχνητή νοηµοσύνη, στο Semantic Web, στην βιοπληροφορική και γενικά σε όλα τα πεδία τα οποία απαιτούν αναπαράσταση γνώσης σε σχέση µε τον κόσµο ή µέρος αυτού. Η κύρια συνεισφορά των οντολογιών συνίσταται στο ότι προσφέρουν τρόπο αναπαράστασης οντοτήτων, ιδεών, ακόµα και γεγονότων, συµπεριλαµβάνοντας τις ιδιότητές τους και τις σχέσεις µεταξύ τους και οργανώνοντας ένα σύστηµα κατηγοριών. Χαρακτηριστικό παράδειγµα µιας λεξικής οντολογίας είναι το WordNet, το οποίο είναι σηµασιολογικό δίκτυο που οργανώνει σε µια οντολογία τις λέξεις της αγγλικής γλώσσας. Το πεδίο της µηχανικής οντολογιών (ontology engineering) αποτελεί ένα υποσύνολο του πεδίου της µηχανικής γνώσης (knowledge engineering) και µελετά µεθόδους και τεχνικές για τη δηµιουργία οντολογιών. Πιο συγκεκριµένα, µελετά τη διαδικασία ανάπτυξης µιας οντολογίας, τον κύκλο ζωής της οντολογίας, τα εργαλεία και τις γλώσσες που χρησιµοποιούνται στα πλαίσια της υποστήριξης οντολογιών. Μια γλώσσα οντολογίας είναι µια τυπική γλώσσα κωδικοποίησης οντολογίας. Υπάρχουν αρκετές τέτοιες γλώσσες, κάποιες από τις οποίες είναι βασισµένες σε πρότυπα, χαρακτηριστικό παράδειγµα των οποίων είναι η γλώσσα OWL η οποία στοχεύει στην αναπαράσταση του ιαδικτύου και όλων των στοιχείων του. Τα προγράµµατα επεξεργασίας οντολογίας (ontology editors) είναι εφαρµογές που έχουν σχεδιαστεί για να διευκολύνουν τη διαδικασία δηµιουργίας και διαχείρισης οντολογιών. Συνήθως εκφράζουν την οντολογία χρησιµοποιώντας µια από τις γλώσσες αναπαράστασης οντολογιών, ενώ κάποια από αυτά προσφέρουν εξαγωγή της παραγόµενης οντολογίας σε άλλες γλώσσες. Το πιο γνωστό παράδειγµα εφαρµογής επεξεργασίας οντολογίας είναι το Protégé, το οποίο αναπτύχθηκε από τα πανεπιστήµια του Stanford και του Manchester. Στα πλαίσια της διπλωµατικής θα πραγµατοποιηθεί µελέτη των διαθέσιµων προγραµµάτων διαχείρισης οντολογιών µε µεγαλύτερη έµφαση σε οντολογίες και προγράµµατα που χρησιµοποιούνται σε διαδικτυακές εφαρµογές και εφαρµόζονται σε δεδοµένα του ιαδικτύου. Επιπλέον, στα πλαίσια της καλύτερης κατανόησης της λειτουργίας και των χαρακτηριστικών των προγραµµάτων επεξεργασίας οντολογίας, θα αναπτυχθεί µια πρότυπη εφαρµογή διαχείρισης οντολογίας, η οποία θα συµπεριλαµβάνει σχεδιασµό και υλοποίηση των κυριότερων χαρακτηριστικών των προγραµµάτων που µελετήθηκαν. Προ-απαιτούµενα µαθήµατα: Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Αλγόριθµοι, Γλωσσική Τεχνολογία, Java Συνεπιβλέπουσα: Παρασκευή Τζέκου

ΘΕΜΑ 3 Αυτόµατος Εµπλουτισµός των Λεξικών Ιεραρχιών του Σηµασιολογικού ικτύου Ληµµάτων WordNet µε Ονοµατικές Οντότητες από τη Wikipedia Το σηµασιολογικό δίκτυο ληµµάτων WordNet είναι µια λεξική οντολογία, η οποία οργανώνει τα λήµµατα που περιέχει σε ιεραρχίες βάσει των σηµασιολογικών τους συσχετίσεων. Αν και η λεξιλογική κάλυψη του WordNet είναι ιδιαίτερα µεγάλη, ωστόσο οι ονοµατικές οντότητες δεν εκπροσωπούνται επαρκώς στους κόµβους των ιεραρχιών του. Στόχος της διπλωµατικής είναι η υλοποίηση µιας τεχνικής αυτόµατου εµπλουτισµού των λεξικών ιεραρχιών του WordNet µε ονοµατικές οντότητες από την Wikipedia. Για την υλοποίηση της τεχνικής αυτής προτείνονται τα ακόλουθα βήµατα: 1. Εξόρυξη ονοµατικών οντοτήτων από το σώµα κειµένων της Wikipedia. Για το σκοπό αυτό προτείνεται η εφαρµογή ευρετικών µεθόδων που περιγράφονται στη βιβλιογραφία και στηρίζονται σε στατιστικά δεδοµένα για τη συχνότητα και την περιοχή εµφάνισης όρων στα κείµενα της Wikipedia. Βάσει των αποτελεσµάτων της στατιστικής επεξεργασίας ορίζονται κανόνες απόφασης για τον προσδιορισµό των όρων που αποτελούν ονοµατικές οντότητες. 2. Συλλογή και επεξεργασία των προτάσεων που ορίζουν ή/και αποσαφηνίζουν τις ονοµατικές οντότητες. Κάθε ονοµατική οντότητα στο σώµα κειµένου της Wikipedia περιγράφεται από ένα ή περισσότερα άρθρα. Κάθε άρθρο ορίζει την έννοια που αναπαριστά η ονοµατική οντότητα και ενδέχεται να περιέχει µία ή περισσότερες φράσεις αποσαφήνισης της κλάσης αντικειµένων όπου αναφέρεται η έννοια της ονοµατικής οντότητας. Αφού συλλεχθούν οι φράσεις αποσαφήνισης και ορισµού για κάθε ονοµατική οντότητα που έχει αναγνωριστεί στο βήµα 1 προτείνεται η λεξιλογική επεξεργασία τους βάσει ενός bigram µοντέλου µε σκοπό την άντληση όρων αναφοράς από τα συµφραζόµενα των ονοµατικών οντοτήτων. 3. Οµαδοποίηση των όρων αναφοράς για τις κλάσεις των ονοµατικών οντοτήτων βάσει της λεξιλογικής τους επικάλυψης και υπολογισµός του βαθµού αντιπροσώπευσής τους. Για την οµαδοποίηση των όρων αναφοράς θα χρησιµοποιηθούν απλές µέθοδοι ταυτοποίησης αλφαριθµητικών. Για τον υπολογισµό του βαθµού αντιπροσώπευσης των όρων προτείνεται η εφαρµογή µετρικών λεξιλογικής οµοιότητας ή/και απόστασης, π.χ. Dice co-efficient, OSim measure, TF*IDF, κτλ. Στη συνέχεια οι βαθµολογηµένοι όροι αναφοράς θα ταξινοµηθούν κατά αύξουσα σειρά αντιπροσώπευσης και θα επιλεγεί ο όρος µε την υψηλότερη βαθµολογία για κάθε κλάση αντικειµένων ως ο όρος που θα περιγράφει έµµεσα τα λεξιλογικά γνωρίσµατα της κλάσης αναφοράς. 4. Εντοπισµός των πιο αντιπροσωπευτικών όρων κάθε κλάσης στους κόµβους των ιεραρχιών του δικτύου WordNet και προσάρτηση σ αυτούς των αντίστοιχων ονοµατικών οντοτήτων. Για τον εντοπισµό των αντιπροσωπευτικών όρων κάθε κλάσης στις ιεραρχίες του WordNet θα χρησιµοποιηθεί ο µηχανισµός αναζήτησης που παρέχεται µαζί µε τη βάση δεδοµένων του WordNet. Αφού εντοπιστούν οι κόµβοι που ταυτοποιούν τους όρους αναζήτησης, θα πραγµατοποιηθεί ο εµπλουτισµός τους µε τις ονοµατικές οντότητες που περιγράφονται από τους αντίστοιχους όρους. Ο εµπλουτισµός θα πραγµατοποιηθεί µέσω των ιεραρχικών σχέσεων γενίκευσης/εξειδίκευσης (IS-A) και θα στηριχθεί στα λεκτικά των ρηµατικών τύπων και των ουσιαστικών στο περιβάλλον συνεµφάνισης των ονοµατικών οντοτήτων στις προτάσεις ορισµού και αποσαφήνισής τους στα άρθρα της Wikipedia.

Προ-απαιτούµενα µαθήµατα: Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Αλγόριθµοι, Γλωσσική Τεχνολογία Συνεπιβλέποντες: Σοφία Στάµου, Λευτέρης Κοζανίδης

ΘΕΜΑ 4 Σύστηµα Θεµατικής Οργάνωσης και ιαχείρισης Τεκµηρίων Τα συστήµατα θεµατικής οργάνωσης τεκµηρίων είναι ολοκληρωµένες εφαρµογές ευρετηρίασης δεδοµένων (κειµένου, εικόνας και ήχου) βάσει αρχειακών περιγραφικών προτύπων. Για τη θεµατική ευρετηρίαση κάθε τεκµηρίου απαιτείται η καταγραφή πληροφορίας, σε µορφή µεταδεδοµένων, αναφορικά µε το θέµα, το περιεχόµενο, το είδος, το δηµιουργό, την ηµεροµηνία δηµιουργίας, το µέσο διάθεσης και αποθήκευσης, κτλ., του τεκµηρίου. Βάσει των υφιστάµενων περιγραφών, καθίσταται δυνατή η δεικτοδότηση των τεκµηρίων σε θεµατικές οµάδες συναφών αντικειµένων ως προς ένα ή περισσότερα γνωρίσµατα οµαδοποίησης και επιτυγχάνεται η αποδοτική ανάκτηση αυτών µέσω απλών αλλά και σύνθετων αναζητήσεων. Σκοπός της διπλωµατικής εργασίας είναι ο σχεδιασµός και η υλοποίηση µιας διαδικτυακής εφαρµογής µέσω της οποίας θα µπορούν να δηλωθούν οι περιγραφές των γνωρισµάτων των τεκµηρίων και να καταστεί δυνατός ο εµπλουτισµός τους µε ετικέτες µεταδεδοµένων. Για την υλοποίηση της εφαρµογής είναι αναγκαίο να σχεδιαστεί και να υλοποιηθεί ένα σύστηµα αποθήκευσης και διαχείρισης δεδοµένων καθώς και µια πρότυπη διεπαφή χρήστη µέσω της οποίας θα επιτρέπεται η ανάθεση περιγραφικών ετικετών στα υπό εξέταση τεκµήρια.. Προ-απαιτούµενα µαθήµατα: οµές εδοµένων, Γλωσσική Τεχνολογία, Βάσεις εδοµένων, ιαχείριση Περιεχοµένου Παγκόσµιου Ιστού και Γλωσσικά Εργαλεία, Ανάκτηση Πληροφορίας, Τεχνολογίες ιαδικτύου Συνεπιβλέποντες: Σοφία Στάµου, Παρασκευή Τζέκου

ΘΕΜΑ 5 Σχεδιασµός και υλοποίηση διεπαφής για την διαχείριση του ελληνικού σηµασιολογικού δικτύου ληµµάτων WordNet σε προσωπικό ψηφιακό βοηθό (PDA). Αντικείµενο της διπλωµατικής είναι η κατασκευή µίας πρότυπης διεπαφής διαχείρισης του ελληνικού σηµασιολογικού δικτύου ληµµάτων WordNet, δίνοντας έµφαση στην ευκολία διαχείρισης και στην αποδοτικότητα της εφαρµογής και λαµβάνοντας υπόψη τις περιορισµένες δυνατότητες προβολής του δικτύου σε οθόνες προσωπικών ψηφιακών βοηθών (PDA). Συγκεκριµένα στα πλαίσια της παρούσας διπλωµατικής θα πραγµατοποιηθεί µελέτη της δοµής του ελληνικού του αγγλικού δικτύου ληµµάτων, επισκόπηση της διεθνούς βιβλιογραφίας για την κατασκευή εφαρµογών στο περιβάλλον Windows CE 5 ή 6 και υλοποίηση εφαρµογής η οποία θα εκµεταλλεύεται πλήρως τις δυνατότητες του WordNet. Παραδοτέο της συγκεκριµένης διπλωµατικής θα αποτελέσει τόσο η µελέτη για τα χαρακτηριστικά που θα πρέπει να πληροί µία εφαρµογή σε περιβάλλον windows CE όσο και ο κώδικας και η παρουσίαση της εφαρµογής που θα προκύψει. Προ-απαιτούµενα µαθήµατα: Γλωσσική τεχνολογία, Προηγµένα πληροφοριακά συστήµατα, Αλληλεπίδραση ανθρώπου υπολογιστή. Επιθυµητά προσόντα: Γνώση C# και εξοικείωση µε τεχνικές αντικειµενοστραφούς προγραµµατισµού, XML, SQL server 2005 Compact, σχεδιασµός βάσεων δεδοµένων και ευχέρεια διατύπωσης ερωτηµάτων σε SQL καλή γνώση της Αγγλικής. Συνεπιβλέπων: Λευτέρης Κοζανίδης ΕΝ ΕΙΚΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ WordNet: http://wordnet.princeton.edu Developing Balkan specific concepts within BalkaNet - a multilingual database of semantic networks hermes.di.uoa.gr/compling/grigoriadou_wordnet.ppt http://www.ebswift.com/pocketpc/wordnet/

ΘΕΜΑ 6 Σχεδιασµός, υλοποίηση και αξιολόγηση µεθόδων αποσαφήνισης για την ελληνική γλώσσα µε χρήση του ελληνικού WordNet Η ραγδαία αύξηση του πλήθους και της ποιότητας των σελίδων ιαδικτύου που είναι γραµµένες στην ελληνική γλώσσα καθιστούν αναγκαία την δηµιουργία εργαλείων τα οποία θα επιτρέπουν την πλήρη εκµετάλλευση της πληροφορίας των συγκεκριµένων σελίδων. Ένα πρώτο βήµα προς αυτήν την κατεύθυνση είναι η σηµασιολογική αποσαφήνιση των όρων των κειµένων που εµπεριέχονται σε αυτές. Αντικείµενο της παρούσας διπλωµατικής είναι η µελέτη γνωστών µεθόδων για την αποσαφήνιση όρων κειµένων της αγγλικής γλώσσας (Resnik, Leacock & Chodorow και Wu & Palmer), η υλοποίηση τους, η εφαρµογή τους σε κείµενα της ελληνικής γλώσσας, η αξιολόγηση της απόδοσής τους και η πιθανή τροποποίηση τους, προκειµένου να δηµιουργηθεί µια νέα µέθοδος που θα ανταποκρίνεται καλύτερα στις ιδιαιτερότητες της ελληνικής γλώσσας. Παράλληλα θα µελετηθεί η δοµή του σηµασιολογικού δικτύου ληµµάτων της Ελληνικής (WordNet) και θα χρησιµοποιηθεί ως λεξιλογικός πόρος κατ αντιστοιχία µε το αγγλικό δίκτυο WordNet σε µεθόδους αποσαφήνισης όρων κειµένων της Αγγλικής. Παραδοτέο της παρούσας διπλωµατικής θα αποτελέσει η περιγραφή των µεθόδων αποσαφήνισης που θα µελετηθούν, η περιγραφή της δοµής του ελληνικού WordNet, η υλοποίηση µεθόδων αποσαφήνισης, η εφαρµογή τους σε κείµενα της Ελληνικής και η συγκριτική τους αξιολόγηση. Τέλος θα γίνει απόπειρα βελτίωσης των αδυναµιών που θα εµφανίσουν οι συγκεκριµένες µέθοδοι κατά την εφαρµογή τους σε κείµενα της Ελληνικής και θα υλοποιηθεί µία υπηρεσία ιαδικτύου (web service) η οποία θα παρέχει τη δυνατότητα αποσαφήνισης ενός κειµένου της Ελληνικής σε πραγµατικό χρόνο. Προ-απαιτούµενα µαθήµατα: οµές εδοµένων, Βάσεις εδοµένων, Ανάκτηση Πληροφορίας, Γλωσσική Τεχνολογία, Τεχνολογίες ιαδικτύου, Επιθυµητά προσόντα: Γνώση C# και εξοικείωση µε τεχνικές αντικειµενοστραφούς προγραµµατισµού, Σχεδιασµός βάσεων δεδοµένων και ευχέρεια διατύπωσης ερωτηµάτων σε SQL, καλή γνώση της Αγγλικής. Συνεπιβλέπων: Λευτέρης Κοζανίδης ΕΝ ΕΙΚΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ WordNet: http://wordnet.princeton.edu Developing Balkan specific concepts within BalkaNet - a multilingual database of semantic networks hermes.di.uoa.gr/compling/grigoriadou_wordnet.ppt Leacock, C., Chodorow, M. Combining Local Context and Wordnet Similarity for Word Sense Identification. In WordNet: An Electronic Lexical Database, MIT Press, 1998 Wu, Z., Palmer, M. Web Semantics and Lexical Selection. In the 32nd ACL Meeting, 1994