Αναγνώριση και αποσαφήνιση ονοματικών οντοτήτων



Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:


ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Ανάκτηση πολυμεσικού περιεχομένου

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

Εργαστήριο Σημασιολογικού Ιστού

Τεχνικές Εξόρυξης Δεδομένων

Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Εργαστήριο Σημασιολογικού Ιστού

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35

Συλλογιστική εξαγωγής συμπερασμάτων από συγκεκριμένες υποθέσεις δοθείσα μεθοδολογία διαδικασία της σκέψης, πρέπει να «συλλογιστεί» υπόθεση/παραγωγή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Σχολή Μηχανικής και Τεχνολογίας. Πτυχιακή εργασία

ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΜΟΡΦΩΝ ΛΥΓΙΣΜΟΥ ΣΤΙΣ ΜΕΤΑΛΛΙΚΕΣ ΚΑΤΑΣΚΕΥΕΣ

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Πληροφοριακά Συστήματα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

Ανάκτηση Πληροφορίας

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Keywords: Tutorials, pedagogic principles, print and digital distance learning materials, e-comet Laboratory of Hellenic Open University

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Ανάκτηση Πληροφορίας (Information Retrieval IR)

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

O7: Πρόγραμμα Κατάρτισης Εκπαιδευτικών O7-A1: Αναπτύσσοντας εργαλεία για το Πρόγραμμα Κατάρτισης Εκπαιδευτικών

Κτίρια nζεβ και προσομοίωση με την χρήση του energy+

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Αλγοριθμική & Δομές Δεδομένων- Γλώσσα Προγραμματισμού Ι (PASCAL)

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

[Type text] ΓΕΝΙΚΕΣ ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ, ΣΥΝΤΑΞΗ, ΣΥΓΓΡΑΦΗ ΚΑΙ ΥΠΟΒΟΛΗ ΤΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ

Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ INFORMATION EXTRACTION

Οι στάσεις και γνώσεις των νοσηλευτών για την δωρεά οργάνων ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Υπηρεσίες ιστού και ιδιωτικότητα: Μια προσέγγιση βασισμένη στη δημιουργία προφίλ χρήστη για προσαρμοστικούς ιστότοπους

ΣΤΙΓΜΙΑΙΑ ΚΑΤΑΣΚΕΥΗ ΣΤΕΡΕΟΥ ΜΕΙΓΜΑΤΟΣ ΥΛΙΚΟΥ ΜΕΣΑ ΑΠΟ ΕΛΕΓΧΟΜΕΝΗ ΦΥΣΙΚΗ ΔΙΑΔΙΚΑΣΙΑ

Διακριτικές Συναρτήσεις

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Σεμινάριο Βιβλιογραφίας στους προπτυχιακούς φοιτητές

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Ανάκτηση Δεδομένων (Information Retrieval)

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Εισαγωγή στην Αριθμητική Ανάλυση

Μεταπτυχιακή Διατριβή

ΔΙΕΡΕΥΝΗΣΗ ΤΩΝ ΑΙΤΙΩΝ ΚΑΘΥΣΤΕΡΗΣΗΣ ΣΤΑ ΚΑΤΑΣΚΕΥΑΣΤΙΚΑ ΕΡΓΑ ΣΕ ΔΙΕΘΝΕΣ ΕΠΙΠΕΔΟ ΚΑΙ ΣΤΗΝ ΚΥΠΡΟ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

Ανάκτηση Πληροφορίας

Ανάπτυξη διαδικτυακής διαδραστικής εκπαιδευτικής εφαρμογής σε λειτουργικό σύστημα Android

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Πληροφορική 2. Τεχνητή νοημοσύνη

Πρόταση θέµατος πτυχιακής εργασίας

Διαχείριση Έργων Πληροφορικής Εργαστήριο

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών (ΕΠΥ) Αναγνώριση και αποσαφήνιση ονοματικών οντοτήτων Διπλωματική Εργασία Αθανασίου Σαλαμάνη Α.Ε.Μ. 6451 υπό την επίβλεψη του Καθηγητή κ. Περικλή Α. Μήτκα Θεσσαλονίκη, 2012

2 Στην οικογένειά μου

3 Ευχαριστι ες Η παρούσα διπλωματική εργασία εκπονήθηκε στην ομάδα Ευφυών Συστημάτων και Τεχνολογίας Λογισμικού (Intelligent Systems and Software Engineering Laboratory - ISSEL), η οποία ανήκει στο εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών (ΕΠΥ) του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Πριν την αναλυτική παρουσίαση της έρευνας που έγινε για την περάτωση αυτής της εργασίας αισθάνομαι την υποχρέωση να ευχαριστήσω τους ανθρώπους που συνέβαλαν στην ολοκλήρωσή της. Αρχικά, θα ήθελα να ευχαριστήσω τον επιβλέποντα της διπλωματικής μου εργασίας, Καθηγητή κ. Περικλή Α. Μήτκα, για την εμπιστοσύνη και το ενδιαφέρον που μου έδειξε όσον αφορά την ανάθεση του συγκεκριμένου θέματος. Θα ήθελα, επίσης, να εκφράσω την βαθιά μου εκτίμηση προς το πρόσωπό του για το ακαδημαϊκό του έργο συνολικά και τις αξίες που μου ενέπνευσε κατά την διάρκεια των σπουδών μου. Επιπλέον, ευχαριστώ θερμά τον Υποψήφιο Διδάκτορα κ. Κωνσταντίνο Ν. Βαβλιάκη για την αγαστή συνεργασία και την πολύτιμη βοήθειά του καθ όλη την διάρκεια εκπόνησης της διπλωματικής μου εργασίας. Τέλος, θα ήθελα να ευχαριστήσω από τα βάθη της καρδιάς μου όλους τους ανθρώπους από το οικογενειακό και φιλικό μου περιβάλλον για την στήριξη και την βοήθεια που μου προσέφεραν όλα τα χρόνια στων σπουδών μου. Τους γονείς μου Γιάννη και Κατερίνα για την κατανόηση και την εμπιστοσύνη τους σε όλες τις επιλογές μου. Τον αδερφό μου Κωσταντίνο για την κατανόηση και την υπομονή του κατά την διάρκεια συγγραφής της παρούσας εργασίας. Τους φίλους μου Γιάννη Γκιώση, Γιάννη Χρυσίδη, Νικηφορίδη Αλέξανδρο και Νίκο Γιόντη για τις αμέτρητες στιγμές χαράς και γέλιου. Τους συναδέλφους Γιάννη Γούτα, Σωτήρη Μπέη, Εμμανουήλ Μαστοράκη για τα όμορφα φοιτητικά χρόνια. Στοιχεία Συγγραφέα: Ο Σαλαμάνης Αθανάσιος είναι προπτυχιακός φοιτητής του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Διεύθυνση: Σοφοκλέους 24, 54640, Θεσσαλονίκη Ηλ. Διεύθυνση: thanasis43@windowslive.com

4 Συ νοψη Καθώς το Διαδίκτυο διογκώνεται χρόνο με το χρόνο αυξάνεται και το πλήθος των γραπτών κειμένων που διακινούνται σε αυτό. Τα κείμενα αυτά, που ποικίλουν σε θεματολογία, μέγεθος και σημασία, αποτελούνται από λέξεις, ονόματα, προτάσεις και φράσεις, αλλά ο κόσμος στον οποίο τα κείμενα αυτά αναφέρονται αποτελείται διακριτά αντικείμενα και γεγονότα. Έτσι από τα κείμενα αυτά, τα στοιχεία που σε μεγαλύτερο βαθμό ενδιαφέρουν τους τελικούς χρήστες είναι τα κύρια ονόματα γιατί αυτά αντιστοιχούν σε οντότητες του πραγματικού κόσμου. Η αναγνώριση ενός κύριου ονόματος (named entity recognition NER), δηλαδή ο εντοπισμός του σε ένα κείμενο και η κατανόηση ότι αυτό το όνομα είναι πρόσωπο, οργανισμός ή τοποθεσία, και η αποσαφήνισή του (named entity disambiguation - NED) δηλαδή η αντιστοίχιση του στο αντικείμενο του πραγματικού κόσμου στο οποίο αναφέρεται, αποτελούν δύο κρίσιμες εργασίες που οδηγούν στην ανάκτηση της περισσότερο χρήσιμης πληροφορίας από τα κείμενα. Οι περισσότερες τεχνικές αποσαφήνισης ονοματικών οντοτήτων που έχουν προταθεί στηρίζονται στη χρήση γνώσης του πραγματικού κόσμου που είναι αποθηκευμένη σε μεγάλες βάσεις όπως πχ η Wikipedia, η DBpedia κλπ. Αυτή η στρατηγική εκτός από τα αδιαμφισβήτητα πλεονεκτήματα της (πχ υψηλή ακρίβεια) παρουσιάζει και αρκετά μειονεκτήματα όπως για παράδειγμα η έλλειψη ευελιξίας των συστημάτων. Τα τελευταία χρόνια έχει διατυπωθεί από κάποιους ερευνητές η άποψη ότι η εξερεύνηση των συντακτικών και σημασιολογικών σχέσεων ανάμεσα τόσο στις αναφορές ονομάτων μέσα από τα κείμενα στα οποία εντοπίζονται, όσο και στις ίδιες τις οντότητες του πραγματικού κόσμου μέσα από το Διαδίκτυο μπορεί να οδηγήσει στην δημιουργία κοινωνικών δικτύων αναφορών και οντοτήτων που θα διευκολύνουν το έργο της αποσαφήνισης. Η ιδέα αυτή δεν απαιτεί την ύπαρξη εξωτερικής από το σύστημα πληροφορίας. Στην παραπάνω κατεύθυνση κινείται και το σκεπτικό της παρούσας διπλωματικής εργασίας. Στόχος είναι η εξερεύνηση και ανακάλυψη συσχετίσεων ανάμεσα στις προς αποσαφήνιση αναφορές ονομάτων που έχουν αναγνωριστεί σε ένα σύνολο κειμένων. Το πρώτο βήμα ήταν η αναζήτηση κάποιο είδους ιεραρχίας ανάμεσα στις αναφορές, διαδικασία που οδήγησε στον εντοπισμό σχέσεων τύπου «πατέρας παιδί» ανάμεσά τους. Έπειτα κρίθηκε λογική η εξέταση του τι συμβαίνει όταν οι αναφορές εμφανίζονται μαζί (συναναφέρονται) σε αρκετά κείμενα. Αυτό οδήγησε στην ιδέα δημιουργίας ομάδων αναφορών τα μέλη των οποίων θα αναφέρονται είτε στην ίδια ακριβώς οντότητα του πραγματικού κόσμου είτε σε οντότητες που έχουν μεγάλη σχέση μεταξύ τους. Τέλος κρίθηκε αναγκαία η σύγκριση ανάμεσα στις αναφορές με βάση το πληροφοριακό περιεχόμενο των κειμένων στα οποία εντοπίζονται. Για το σκοπό αυτό κατασκευάστηκαν τα λεξικά αναφορών και με βάση αυτά υπολογίστηκαν στατιστικοί συντελεστές συσχέτισης. Το σύστημα ελέγχθηκε πάνω σε δύο βασικά σύνολα κειμένων από διαφορετικές πηγές και βγήκαν συμπεράσματα ως προς το πώς χαρακτηριστικά των συνόλων των κειμένων (όπως το πλήθος των

5 κειμένων που περιέχουν, ή η σημασιολογική συνάφεια των κειμένων κλπ) επηρεάζουν το εντοπισμό σχέσεων ανάμεσα στις αναφορές και κατ επέκταση το έργο της αποσαφήνισης. Λέξεις-Κλειδιά: Αναγνώριση Ονοματικών Οντοτήτων, Αποσαφήνιση Ονοματικών Οντοτήτων, Κύριο Όνομα, Αναφορά, Οντότητα.

6 Diploma Thesis Named entity recognition and disambiguation Abstract While World Wide Web swells year by year, the multitude of the written texts which are being moved in it is also being increased. These texts, which vary in topics, size and importance, consist of words, names, sentences and phrases but the world that these texts describe consists of discrete objects and events. Therefore, the elements of these texts for which the final users are mostly interested about are the proper names. Recognition of a proper name, namely the localization of it in text and the understanding that this name is person, organization or location, and its disambiguation namely its pairing to the object of the real world in which it refers to, are two critical tasks which lead to the retrieval of the most valuable information from the texts. The majority of the proper name disambiguation techniques that have been proposed are based on the use of world knowledge that is stored in huge knowledge bases such as Wikipedia. Although this strategy is very effective, it also has some disadvantages such as lack of flexibility. Lately an idea that does not depend on external knowledge has been formulated by some researchers. This says that the exploration of syntactic and semantic relationships among references of proper name in the texts that are being identified or among entities of the real world inside the Wed, can lead to the creation of social networks of references or entities which will facilitate the disambiguation task. Therefore, this paper presents a system for the exploration and discovery of correlations among the references of proper names that have been recognized and are going to be disambiguated. The first step was the search of some kind of hierarchy between the references, which led to the localization of father child type relationship. Afterwards, the examination of what happens when the proper names appear together (corefer) in the same texts was thought to be crucial. This decision gave birth to the idea of creating teams of references, which member will refer to either the exact same entities of the real world or to entities with strong relationship. Finally, it was decided that the references of proper names had to be compared based on the context of the texts in which they have been recognized. For this cause dictionaries were constructed and by comparing statistical correlation coefficients were calculated. In the end, the system was checked in two basic corpora from different sources and significant conclusions, about how corpus characteristics (such as corpus size or texts relevance) affect on the disambiguation task, emerged.

7 Keywords: Named Entity Recognition, Named Entity Disambiguation, Proper Name, Reference, Entity Athanasios Salamanis Department of Electrical and Computer Engineering, Aristotle University of Thessaloniki Thessaloniki, March 2013

8 Συντομογραφι ες-abbreviations NLP NER NED MUC WSD BOW CoNLL tf idf tf-idf GUI Natural Language Processing Named Entity Recognition Named Entity Disambiguation Message Understanding Conferences Word Sense Disambiguation Bag Of Words Computational Natural Language Learning term frequency inverse document frequency term frequency inverse document frequency Graphical User Interface

9 Λεξικο ο ρων Term Dictionary reference entity precision recall document corpus word subentity coreference network graph similarity coefficient entity page redirect page disambiguation page hyperlink surface form function words lexical words team file cosine similarity αναφορά οντότητα ακρίβεια ανάκληση κείμενο σύνολο κειμένων λέξη υποοντότητα συναναφορά δίκτυο γράφος συντελεστής ομοιότητας σελίδα οντότητας σελίδα ανακατεύθυνσης σελίδα αποσαφήνισης υπερσύνδεσμος αναφορά ονόματος λειτουργικές λέξεις λεξιλογικές λέξεις αρχείο ομάδας ομοιότητα συνημιτόνου

10 Περιεχο μενα 1. Εισαγωγή... 16 1.1. Ορισμός του προβλήματος... 16 1.2. Σημασία διαδικασιών αναγνώρισης και αποσαφήνισης... 16 1.3. Σκοπός της διπλωματικής... 17 1.4. Συνοπτική περιγραφή μεθοδολογίας... 18 1.5. Οργάνωση Κεφαλαίων... 20 2. Βιβλιογραφική Έρευνα... 21 2.1. Εισαγωγή... 21 2.2. WοrdNet... 21 2.3. Wikipedia... 22 2.4. Μέθοδοι αναγνώρισης και αποσαφήνισης... 23 2.4.1. Μέθοδος Bunescu και Pasca... 23 2.4.2. Μέθοδος Cucerzan... 26 2.4.3. Άλλες σημαντικές μέθοδοι... 28 3. Αρχιτεκτονική συστήματος... 31 3.1. Εισαγωγή... 31 3.2. Μονάδα ανάγνωσης xml αρχείου και μετατροπής του σε μορφή εύκολα διαχειρίσιμη από το σύστημα... 31 3.2.1. XML... 31 3.2.2. Λειτουργία μονάδας... 33 3.3. Μονάδα καθαρισμού εισόδου... 34 3.3.1. Καθαρισμός HTML tags... 34 3.3.2. Καθαρισμός Stop Words... 35 3.4. Μονάδα αναγνώρισης οντοτήτων... 36 3.5. Μονάδα εξαγωγής πληροφορίας από τα κείμενα... 37 3.6. Μονάδα κατασκευής γράφου αναφορών... 38 3.6.1. Κοινωνικά δίκτυα (social networks)... 38 3.6.2. Κοινωνικό δίκτυο αναφορών οντοτήτων... 40

11 3.7. Μονάδα εξερεύνησης συσχετίσεων αναφορών... 43 3.7.1. Σχέση τύπου «πατέρας - παιδί»... 43 3.7.2. Ομαδοποιήσεις... 46 3.8. Μονάδα κατασκευής λεξικών αναφορών... 48 3.8.1. Tf idf... 49 3.8.2. Λεξικά αναφορών... 51 3.9. Μονάδα υπολογισμού συντελεστών συσχέτισης ανάμεσα στις αναφορές με βάση τα λεξικά τους... 52 3.10. Εργαλεία και Τεχνολογίες που χρησιμοποιήθηκαν στην ανάπτυξη των μεθόδων... 54 3.10.1. Java... 54 3.10.2. JUNG (Java Universal Network/Graph Framework)... 54 3.10.3. Eclipse... 55 3.11. Ανασκόπηση κεφαλαίου... 55 4. Συνδυαστικά αποτελέσματα και συγκρίσεις... 56 4.1 Εισαγωγή... 56 4.2 Βασικά στοιχεία πειραμάτων... 56 4.3. Μέτρα αξιολόγησης... 58 4.4. Αποτελέσματα των μεθόδων που αναπτύχθηκαν... 61 4.4.1. Αποτελέσματα μεθόδου χωρίς την χρήση λεξικών αναφορών... 61 4.4.2. Αποτελέσματα μεθόδου με την χρήση λεξικών αναφορών... 76 4.5. Χρόνοι συστήματος... 90 4.6. Σύνοψη κεφαλαίου... 93 5. Συμπεράσματα Μελλοντική Έρευνα... 94 5.1. Σύνοψη... 94 5.2. Συμπεράσματα... 95 5.3. Προτάσεις για μελλοντική έρευνα... 96 6. Βιβλιογραφία... 98

12 Λι στα Σχημα των Σχήμα 1: Μπλοκ διάγραμμα συστήματος... 19 Σχήμα 2: Στιγμιότυπο ενός τυπικού XML αρχείου... 33 Σχήμα 3: Γράφος απεικόνισης των προσώπων που αναφέρονται στην Βίβλο και των σχέσεων ανάμεσά τους.... 39 Σχήμα 4: Στιγμιότυπο γράφου αναφορών για το σύνολο αναφορών first100references από το corpus των κειμένων της Wikipedia.... 40 Σχήμα 5: Στιγμιότυπο γράφου αναφορών για το σύνολο αναφορών ChosenReferences από το corpus των κειμένων της Wikipedia... 41 Σχήμα 6: Στιγμιότυπο γράφου αναφορών για το σύνολο αναφορών DifferentEntityReferencesNews από το corpus των κειμένων της ειδησεογραφίας... 41 Σχήμα 7: Στιγμιότυπο δένδρου απεικόνισης της σχέσης τύπου «πατέρας παιδί»... 45 Σχήμα 8: Στιγμιότυπο δένδρου απεικόνισης της σχέσης τύπου «πατέρας - παιδί»"... 45 Σχήμα 9: Στιγμιότυπο δένδρου απεικόνισης της σχέσης τύπου «πατέρας παιδί»... 46 Σχήμα 10: Γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 62 Σχήμα 11: Γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 63 Σχήμα 12: Γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση με το όριο ποσοστού κοινών γειτόνων για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 64 Σχήμα 13: Γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση με το όριο ποσοστού κοινών γειτόνων για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 64 Σχήμα 14: Γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση και με τα δύο όρια ομαδοποίησης για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 65 Σχήμα 15: Γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση και με τα δύο όρια ομαδοποίησης για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 66 Σχήμα 16: Γράφημα παρουσίασης της επίδοσης της μεθόδου χωρίς την χρήση λεξικών αναφορών για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 67 Σχήμα 17: Γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 68

13 Σχήμα 18: Γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 69 Σχήμα 19: Γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση με το όριο ποσοστού κοινών γειτόνων για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 70 Σχήμα 20: Γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση με το όριο ποσοστού κοινών γειτόνων για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 71 Σχήμα 21: Γράφημα παρουσίασης της επίδοσης της μεθόδου χωρίς την χρήση λεξικών αναφορών για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 71 Σχήμα 22: Συνδυαστικό γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για τα σύνολα αναφορών ChosenReferences και first100references από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 73 Σχήμα 23: Συνδυαστικό γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για τα σύνολα αναφορών ChosenReferences και first100references από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 74 Σχήμα 24: Γράφημα παρουσίασης της επίδοσης της μεθόδου χωρίς την χρήση λεξικών αναφορών για το σύνολο αναφορών ChosenReferences από τα κείμενα τηςwikipedia στο σενάριο λειτουργίας 1... 75 Σχήμα 25: Γράφημα παρουσίασης της επίδοσης της μεθόδου χωρίς την χρήση λεξικών αναφορών για το σύνολο αναφορών first100references από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 75 Σχήμα 26:Γράφημα μεταβολής του ποσοστού σωστών ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1 με χρήση λεξικών αναφορών... 77 Σχήμα 27: Γράφημα μεταβολής των λάθος ομαδοποιήσεων σε συνάρτηση με το όριο βάρους ακμής για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1 με χρήση λεξικών αναφορών... 78 Σχήμα 28: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις σωστές ομαδοποιήσεις για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 79 Σχήμα 29: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις λάθος ομαδοποιήσεις για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 1... 80 Σχήμα 30: Γράφημα παρουσίασης της επίδοσης της μεθόδου με την χρήση λεξικών αναφορών για το σύνολο αναφορών DifferentEntityReferencesNews στο σενάριο λειτουργίας 1... 81 Σχήμα 31: Επίδοση της μεθόδου με και χωρίς τα λεξικά αναφορών για το σύνολο αναφορών DifferentEntityReferencesNews στο σενάριο λειτουργίας 1... 81

14 Σχήμα 32: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις σωστές ομαδοποιήσεις για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 82 Σχήμα 33: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις λάθος ομαδοποιήσεις για το σύνολο αναφορών DifferentEntityReferencesNews από τα κείμενα της ειδησεογραφίας στο σενάριο λειτουργίας 2... 83 Σχήμα 34: Επίδοση της μεθόδου με και χωρίς τα λεξικά αναφορών για το σύνολο αναφορών DifferentEntityReferencesNews στο σενάριο λειτουργίας 2... 83 Σχήμα 35: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις σωστές ομαδοποιήσεις για το σύνολο αναφορών ChosenReferences από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 84 Σχήμα 36: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις λάθος ομαδοποιήσεις για το σύνολο αναφορών ChosenReferences από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 85 Σχήμα 37: Επίδοση της μεθόδου με και χωρίς τα λεξικά αναφορών για το σύνολο αναφορών ChosenReferences στο σενάριο λειτουργίας 1... 85 Σχήμα 38: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις σωστές ομαδοποιήσεις για το σύνολο αναφορών ChosenReferences από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 2... 86 Σχήμα 39: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις λάθος ομαδοποιήσεις για το σύνολο αναφορών ChosenReferences από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 2... 87 Σχήμα 40: Επίδοση της μεθόδου με και χωρίς τα λεξικά αναφορών για το σύνολο αναφορών ChosenReferences στο σενάριο λειτουργίας 2... 87 Σχήμα 41: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις σωστές ομαδοποιήσεις για το σύνολο αναφορών first100references από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 88 Σχήμα 42: Γράφημα παρουσίασης της επίδρασης των λεξικών αναφορών στις λάθος ομαδοποιήσεις για το σύνολο αναφορών first100references από τα κείμενα της Wikipedia στο σενάριο λειτουργίας 1... 89 Σχήμα 43: Επίδοση της μεθόδου με και χωρίς τα λεξικά αναφορών για το σύνολο αναφορών first100references στο σενάριο λειτουργίας 1... 89 Σχήμα 44: Μεταβολή χρόνου επεξεργασίας σε σχέση με το όριο βάρους ακμής... 90 Σχήμα 45: Μεταβολή χρόνου επεξεργασίας σε σχέση με το όριο ποσοστού κοινών γειτόνων... 91 Σχήμα 46: Μεταβολή χρόνου επεξεργασίας σε σχέση με τον αριθμό κύριων ονομάτων (χωρίς λεξικά αναφορών)... 92 Σχήμα 47: Μεταβολή χρόνου επεξεργασίας σε σχέση με τον αριθμό κύριων ονομάτων (με λεξικά αναφορών)... 92

15 Λι στα Πινα κων Πίνακας 1: Αντιστοίχιση html tags με πραγματικούς χαρακτήρες... 35 Πίνακας 2: Λίστα stop words... 35 Πίνακας 3: Στατιστικά στοιχεία κειμένων αξιολόγησης... 57 Πίνακας 4: Ορισμός των όρων true positive, false positive, true negative και false negative... 59 Πίνακας 5: Παραδείγματα λάθος ομαδοποιήσεων για το σενάριο λειτουργίας 1... 67

16 1. Εισαγωγή 1.1. Ορισμός του προβλήματος Η αναγνώριση ονοματικών οντοτήτων (named entity recognition-ner) και η αποσαφήνιση ονοματικών οντοτήτων (named entity disambiguation-ned) σε σύνολα εγγράφων που προέρχονται από διάφορες πηγές αποτελούν δύο βασικές δραστηριότητες του γενικότερου πεδίου που ονομάζεται επεξεργασία φυσικής γλώσσας (natural language processing - NLP). Η διαδικασία της αναγνώρισης οντοτήτων έγκειται στην αναζήτηση και τον εντοπισμό αναφορών οντοτήτων σε κείμενα (γνωστών και ως surface forms) και την απόδοση σε αυτές μίας ετικέτας που χαρακτηρίζει τον τύπο της οντότητας. Οι διάφοροι τύποι ονοματικών οντοτήτων, όπως έχουν οριστεί από τα Διεθνή Συνέδρια Αξιολόγησης Τεχνολογίας Εξαγωγής Πληροφορίας, είναι τα κύρια ονόματα που ορίζουν πρόσωπα, οργανισμούς και τοποθεσίες (ετικέτα ENAMEX), οι χρονικές εκφράσεις (ετικέτα TIMEX) και οι αριθμητικές και χρηματικές εκφράσεις καθώς και τα ποσοστά (ετικέτα NUMEX). Ακόλουθη της διαδικασίας αναγνώρισης οντοτήτων είναι αυτή της αποσαφήνισης οντοτήτων στην οποία και εστιάζει η παρούσα διπλωματική εργασία. Ως αποσαφήνιση οντοτήτων ορίζεται η διαδικασία αντιστοίχισης μίας λέξης σε μία οντότητα που έχει υπόσταση στον πραγματικό κόσμο π.χ. η λέξη Παρίσι αναφέρεται στην πρωτεύουσα της Γαλλίας που είναι μια οντότητα του πραγματικού κόσμου. Η μεγάλη δυσκολία της αποσαφήνισης οντοτήτων προέρχεται από το γεγονός ότι μία λέξη μπορεί έχει πολλές διαφορετικές έννοιες άρα μπορεί να αναφέρεται σε πολλές διαφορετικές οντότητες και ταυτόχρονα για μία οντότητα μπορεί να υπάρχουν πολλές διαφορετικές λέξεις που την χαρακτηρίζουν και χρησιμοποιούνται για την αναφορά σε αυτή. Για παράδειγμα η αγγλική λέξη Washington μπορεί να αναφέρεται στην πρωτεύουσα των ΗΠΑ αλλά μπορεί να αναφέρεται και στον πρώτο πρόεδρο των ΗΠΑ τον George Washington. Αντίστροφα η οντότητα της Ελλάδας σαν χώρα μπορεί να αναφέρεται με τους όρους Ελλάδα, Ελλάς, Ελληνική Δημοκρατία κ.α. Η δουλειά των συστημάτων αποσαφήνισης οντοτήτων είναι να επιλέξουν μία οντότητα,από το σύνολο των διαφορετικών οντοτήτων στις οποίες μπορεί να αναφέρεται μία υπό εξέταση λέξη, και να την αποδώσουν στην λέξη αυτή με βάση το πληροφοριακό περιεχόμενο του κειμένου στο οποίο έχει εντοπιστεί η υπό εξέταση λέξη. 1.2. Σημασία διαδικασιών αναγνώρισης και αποσαφήνισης Το έργο της αποσαφήνισης οντοτήτων γίνεται ολοένα και πιο σημαντικό λόγω της ραγδαίας αύξησης των πληροφοριών που μεταδίδονται κυρίως μέσω του Ιστού. Στα διάφορα κείμενα που κυκλοφορούν στο Διαδίκτυο παρατηρείται το φαινόμενο της πολυσημίας πολλών αναφορών ονομάτων. Για παράδειγμα στην αγγλική έκδοση της διαδικτυακής εγκυκλοπαίδειας Wikipedia o όρος America αναφέρεται σε 79 διαφορετικές οντότητες του πραγματικού κόσμου ξεκινώντας από την ήπειρο Αμερική και την χώρα Ηνωμένες Πολιτείες Αμερικής και φτάνοντας μέχρι τηλεοπτικές σειρές και τίτλους τραγουδιών. Στην πρόταση That date is now celebrated annually as America s Independence Day ο όρος America αναφέρεται στις ΗΠΑ ενώ στην πρόταση America is a largely political work, with much of the poem consisting.. ο όρος America αναφέρεται στο

17 ποίημα America του αμερικανού ποιητή Allen Ginsberg. Γίνεται λοιπόν κατανοητό το μέγεθος της πολυσημίας των διαφόρων όρων που εμφανίζονται στα κείμενα καθώς και η ανάγκη ύπαρξης συστημάτων που θα μπορούν να επιλέξουν και να αποδώσουν την σωστή έννοια σε μία λέξη. Ένα άλλο πεδίο στο οποίο εμφανίζεται η ανάγκη της επίλυσης της ασάφειας λέξεων είναι η αναζήτηση πληροφοριών στον Ιστό. Παρόλο που τα τελευταία χρόνια έχουν γίνει σαφείς βελτιώσεις στους αλγορίθμους που λειτουργούν πίσω από τις μηχανές αναζήτησης, τα αποτελέσματα δεν είναι ακόμα όσο ακριβή και στοχευόμενα θα ήθελαν οι χρήστες να είναι. Για παράδειγμα έστω ένας χρήστης που θέλει να πάρει πληροφορίες για ένα επικείμενο ταξίδι του στο Παρίσι και κάνει αναζήτηση στην μηχανή Google με τον όρο Paris. Μέσα στα πρώτα 10 αποτελέσματα που παίρνει βρίσκονται σελίδες ταξιδιωτικών γραφείων που παρέχουν πληροφορίες για το Παρίσι, η αντίστοιχη σελίδα της Wikipedia αλλά και η σελίδα της Wikipedia που αναφέρεται στον Πάρη τον πρίγκιπα της αρχαίας Τροίας καθώς και το επίσημο site της Paris Hilton. Προφανώς ο χρήστης του παραδείγματος δεν θα είχε στο νου του την Paris Hilton όταν έκανε αναζήτηση για το Παρίσι. Συστήματα λοιπόν αποσαφήνισης υψηλής ακρίβειας που θα λειτουργούν πίσω από τις μηχανές αναζήτησης θα μπορούν να αντιληφθούν ότι ο χρήστης ενδιαφέρεται να πάρει πληροφορίες για το Παρίσι και θα δίνουν ακριβή αποτελέσματα που θα ικανοποιούν τις ανάγκες του. Τέλος αξίζει να αναφερθεί και η διαδικασία αποσαφήνισης εννοιών λέξεων (word sense disambiguation WSD) που είναι παρόμοια με αυτή της αποσαφήνισης ονοματικών οντοτήτων. Το πρόβλημα που αντιμετωπίζεται και σε αυτήν είναι το ίδιο. Από το σύνολο των διαφορετικών εννοιών που έχει μία λέξη πρέπει να της αποδοθεί η σωστή έννοια με βάση την πρόταση/παράγραφο/κείμενο στην οποία βρίσκεται. Για παράδειγμα η αγγλική λέξη bank μπορεί να έχει την έννοια τράπεζα αλλά μπορεί να έχει και την έννοια της όχθης ποταμού. Σε ένα άρθρο λοιπόν που προέρχεται από μία οικονομική εφημερίδα όταν εμφανιστεί ο όρος bank το πιθανότερο θα είναι να αναφέρεται στην έννοια της τράπεζας και όχι σε αυτή της όχθης του ποταμού. Ένα τέτοιο συμπέρασμα θα πρέπει να δίνεται ως έξοδος από ένα σύστημα αποσαφήνισης λέξεων. Η διαφορά των WSD συστημάτων με τα συστήματα αποσαφήνισης οντοτήτων είναι ότι τα πρώτα δεν ασχολούνται με την αποσαφήνιση κυρίων ονομάτων. Για την αξιολόγηση συστημάτων WSD πραγματοποιούνται συχνά συνέδρια αξιολόγησης (Senseval-1,2,3 Semeval 2007, Semeval 2010) στα οποία ελέγχονται και βαθμολογούνται τα χαρακτηριστικά επίδοσης αυτών των συστημάτων όπως είναι ακρίβεια (precision), η ανάκληση (recall), η ταχύτητα επεξεργασίας κτλ. Οι αποσαφηνίσεις των διαφόρων λέξεων βρίσκονται καταχωρημένες σε γνωσιακές βάσεις ελεύθερης πρόσβασης όπως είναι το Wordnet. 1.3. Σκοπός της διπλωματικής Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη και η αξιολόγηση μιας μεθόδου εξερεύνησης, ανακάλυψης και εκμετάλλευσης των συσχετίσεων ανάμεσα στις αναφορές κυρίων ονομάτων που θα προέρχονται από μεγάλα corpus κειμένων. Η μέθοδος εστιάζει κυρίως στον εντοπισμό σχέσεων ανάμεσα στις αναφορές που θα βελτιώνουν την απόδοση της διαδικασίας αποσαφήνισης χωρίς την ανάγκη ύπαρξης εξωτερικής πληροφορίας. Συνδυάζονται υπάρχουσες

18 ιδέες και τεχνικές που εντοπίστηκαν κατά την βιβλιογραφική έρευνα με νέες οι οποίες δεν είχαν δοκιμαστεί και αξιολογηθεί μέχρι σήμερα. 1.4. Συνοπτική περιγραφή μεθοδολογίας Τα περισσότερα από τα συστήματα αναγνώρισης και αποσαφήνισης οντοτήτων που έχουν αναπτυχθεί μέχρι σήμερα χρησιμοποιούν εξωτερική πληροφορία (δηλαδή κάποια εξωτερική βάση γνώσης) για να βελτιώσουν την απόδοση της διαδικασίας αποσαφήνισης. Αυτή η στρατηγική παρουσιάζει ορισμένα μειονεκτήματα όπως πχ η μείωση της ευελιξίας του συστήματος (το σύστημα μπορεί να λειτουργήσει μόνο για την δεδομένη γνωσιακή βάση). Στην παρούσα εργασίας γίνεται προσπάθεια να αξιοποιηθούν χαρακτηριστικά των αναφορών ονομάτων για την βελτίωση τη διαδικασίας αποσαφήνισης. Συγκεκριμένα αρχικά το σύστημα δέχεται σαν είσοδο ένα σύνολο από κείμενα και αφού το επεξεργαστεί κατάλληλα για το φέρει σε μορφή εύκολα διαχειρίσιμη, το τροφοδοτεί στην μονάδα αναγνώρισης οντοτήτων. Εκεί η χρησιμοποιείται η εφαρμογή αναγνώρισης οντοτήτων του πανεπιστημίου Stanford (Stanford NER [18]). Προκύπτουν οι διαφορετικές αναφορές οντοτήτων με βάση τις οποίες κατασκευάζεται το κοινωνικό δίκτυο αναφορών. Από το παραπάνω δίκτυο στη συνέχεια πραγματοποιούνται δύο από τις πιο βασικές λειτουργίες του συστήματος: Η αναγνώριση της σχέσης τύπου «πατέρας παιδί» ανάμεσα στις αναφορές Η δημιουργία των ομάδων αναφορών Στη συνέχεια υπάρχει η μονάδα κατασκευής των λεξικών των αναφορών (με υπολογισμό της tf-idf [23] τιμής κάθε λέξης κάθε λεξικού) και η ακόλουθη μονάδα υπολογισμού των συντελεστών συσχέτισης με βάση τα λεξικά. Το συγκεκριμένο κομμάτι χρησιμοποιείται για την βελτίωση της διαδικασίας δημιουργίας των ομάδων. Στο παρακάτω σχήμα (Σχήμα 1) φαίνεται το μπλοκ διάγραμμα του υπό ανάπτυξη συστήματος.

19 Σχήμα 1: Μπλοκ διάγραμμα συστήματος

20 1.5. Οργάνωση Κεφαλαίων Κεφάλαιο 2 - Βιβλιογραφική Έρευνα: Στο κεφάλαιο αυτό γίνεται εκτενής παρουσίαση των διαφόρων μεθόδων που έχουν αναπτυχθεί στον τομέα της αναγνώρισης και αποσαφήνισης οντοτήτων και δίνεται ιδιαίτερη έμφαση στα πλεονεκτήματα και τα μειονεκτήματα της κάθε μεθόδου. Κεφάλαιο 3 Αρχιτεκτονική Συστήματος: Εδώ γίνεται λεπτομερής παρουσίαση της λειτουργίας της κάθε υπομονάδας του υπό ανάπτυξη συστήματος. Πιο συγκεκριμένα αναλύονται οι μονάδες: Ανάγνωσης xml αρχείου και μετατροπής του σε μορφή εύκολα διαχειρίσιμη από το σύστημα (3.2) «Καθαρισμού» εισόδου (3.3) Αναγνώρισης αναφορών οντοτήτων (3.4) Εξαγωγής πληροφορίας από τα κείμενα (3.5) Κατασκευής γράφου αναφορών (3.6) Εξερεύνησης συσχετίσεων αναφορών (3.7) Κατασκευής λεξικών αναφορών (3.8) Υπολογισμού συντελεστών συσχέτισης ανάμεσα στις αναφορές με βάση τα λεξικά τους (3.9) Κεφάλαιο 4 Συνδυαστικά αποτελέσματα και Συγκρίσεις: Εδώ παρουσιάζονται τα αποτελέσματα από τα πειράματα ελέγχου απόδοσης στα οποία υποβλήθηκε το σύστημα. Κεφάλαιο 5 Συμπεράσματα και Μελλοντική Έρευνα: Στο κεφάλαιο αυτό συνοψίζονται τα συμπεράσματα της παρούσας μελέτης και παρατίθενται σκέψεις και ιδέες για μελλοντική έρευνα.

21 2. Βιβλιογραφική Έρευνα 2.1. Εισαγωγή Την τελευταία δεκαετία έχει σημειωθεί σημαντική πρόοδος στον τομέα της αναγνώρισης και αποσαφήνισης ονοματικών οντοτήτων τόσο από θεωρητικής και ακαδημαϊκής πλευράς, όσο και από πλευράς ανάπτυξης πραγματικών (ενδεχομένως εμπορεύσιμων) συστημάτων. Έχουν προταθεί διάφορες στρατηγικές αποσαφήνισης που στοχεύουν στην βελτίωση διαφορετικών χαρακτηριστικών των συστημάτων όπως είναι η απόδοση, η ταχύτητα επεξεργασίας, το μέγεθος υπολογιστικών πόρων που απαιτούνται κλπ. Στο κεφάλαιο αυτό παρουσιάζονται αναλυτικά οι πιο σημαντικές από αυτές τόσο από άποψη απόδοσης των συστημάτων όσο και από άποψη καινοτομίας των μεθόδων. Πριν από την αναλυτική παρουσίαση των μεθόδων αυτών γίνεται μία συνοπτική αναφορά στις γνωσιακές βάσεις (knowledge bases) που παίζουν ιδιαίτερα σημαντικό ρόλο τόσο στην ανάπτυξη όσο και στην λειτουργία πολλών συστημάτων αποσαφήνισης. 2.2. WοrdNet Το WordNet [3] αποτελεί μία λεξικολογική βάση δεδομένων για την αγγλική γλώσσα που δημιουργήθηκε από το Εργαστήριο Γνωσιακής Επιστήμης τους πανεπιστημίου του Πρίνστον [4]. Κύρια λειτουργία του είναι η ομαδοποίηση αγγλικών λέξεων σε σύνολα συνωνύμων τα οποία ονομάζονται synsets, η διατύπωση σύντομων γενικών ορισμών και η καταγραφή των διαφόρων σημασιολογικών σχέσεων ανάμεσα στα σύνολα αυτά. Ο σκοπός του είναι διπλός: αφενός να δημιουργήσει ένα λεξικό το οποίο θα είναι πιο διαισθητικά χρησιμοποιήσιμο από τα υπόλοιπα, και αφετέρου να υποστηρίξει εφαρμογές αυτόματης ανάλυσης κειμένου και τεχνητής νοημοσύνης. Το WordNet μπορεί να ερμηνευτεί και να χρησιμοποιηθεί σαν μία λεξικολογική οντολογία στην επιστήμη υπολογιστών. Ωστόσο, μια τέτοια οντολογία θα πρέπει πρώτα να διορθωθεί προτού χρησιμοποιηθεί σε εφαρμογές αφού περιέχει εκατοντάδες βασικές σημασιολογικές ασυνέπειες όπως για παράδειγμα η ύπαρξη κοινών ειδικεύσεων για αποκλειστικές κατηγορίες. Ακόμα η μετατροπή του WordNet σε λεξικολογική οντολογία κατάλληλη για αντιπροσώπευση γνώσης περιλαμβάνει δύσκολες εργασίες όπως η συσχέτιση διαισθητικών μοναδικών χαρακτηριστικών με μία κατηγορία (στο WordNet τα synsets αντιστοιχίζονται σε κατηγορίες που αντιπροσωπεύουν το νόημά τους). Αν και τέτοιου είδους διορθώσεις έχουν πραγματοποιηθεί και καταγραφεί στα πλαίσια της μετατροπής του WordNet 1.7 στην συνεταιριστικά αναβαθμίσιμη γνωσιακή βάση WebKB-2 [5], πολλά από τα συστήματα που χρησιμοποιούν το WordNet ισχυρίζονται ότι πραγματοποιούν δικές τους διαδικασίες διόρθωσης ενώ στην πραγματικότητα χρησιμοποιούν τις παραπάνω. Το WordNet είναι το πιο συχνά χρησιμοποιούμενο υπολογιστικό λεξικό της αγγλικής γλώσσας που χρησιμοποιείται στην διαδικασία της αποσαφήνισης έννοιας λέξης (word sense disambiguation WSD [3]). Η διαδικασία αυτή είναι όμοια με την αποσαφήνιση κυρίων ονομάτων και στοχεύει στην

22 αντιστοίχιση της πιο κοινής έννοιας που μπορεί να έχει μία λέξη με την λέξη αυτή, η οποία έχει προηγουμένως εντοπιστεί σε ένα κείμενο. Ωστόσο έχει διατυπωθεί η άποψη ότι το WordNet κωδικοποιεί νοηματικές διακρίσεις που είναι υπερβολικά αναλυτικές ακόμα και για τον άνθρωπο. Αυτό το γεγονός εμποδίζει τα συστήματα αποσαφήνισης έννοιας λέξης να πετύχουν υψηλή απόδοση. Το πρόβλημα αυτό αντιμετωπίζεται με την χρήση μεθόδων ομαδοποίησης παρόμοιων εννοιών μίας λέξης. 2.3. Wikipedia Πολλές από τις εργασίες που έχουν ήδη αναπτυχθεί στηρίζονται στην παγκόσμια διαδικτυακή βάση γνώσης Wikipedia. Η Wikipedia είναι ένα συλλογικό εγκυκλοπαιδικό εγχείρημα που έχει συσταθεί στο Διαδίκτυο, παγκόσμιο, πολύγλωσσο που λειτουργεί με την αρχή του wiki και έχει ως στόχο να παρέχει ελεύθερα επαναχρησιμοποιήσιμο περιεχόμενο, με αντικειμενικά και επαληθεύσιμα στοιχεία, που ο καθένας μπορεί να τροποποιήσει και να βελτιώσει. Τα χαρακτηριστικά της Wikipedia που χρησιμοποιούνται τόσο κατά την διαδικασία της αναγνώρισης όσο και κατά την διαδικασία της αποσαφήνισης είναι: Σελίδα οντότητας (Entity page): Η κύρια σελίδα της Wikipedia που αναφέρεται σε ένα συγκεκριμένο θέμα. Σελίδα ανακατεύθυνσης (Redirect page): Για κάθε ένα από τα διαφορετικά ονόματα με τα οποία μπορεί να αναφέρεται μία οντότητα υπάρχει και μία τέτοια σελίδα στην Wikipedia με τίτλο το όνομα αυτό (με κάτω παύλες αντί για κενά) που περιέχει στο σώμα της έναν σύνδεσμο προς το entity page της οντότητας αυτής. Για παράδειγμα η οντότητα United States μπορεί να αναφέρεται και με το όνομα USA οπότε υπάρχει στην Wikipedia μία redirect page με τίτλο USA η οποία περιέχει ένα σύνδεσμο προς το άρθρο με τίτλο United_States. Σελίδα αποσαφήνισης (Disambiguation page): Ένα ασαφές όνομα μπορεί να αναφέρεται σε πολλές διαφορετικές οντότητες στην Wikipedia. Για κάθε τέτοια λέξη λοιπόν υπάρχει μία τέτοια σελίδα η οποία έχει ως τίτλο αυτή την λέξη ακολουθούμενη από την λέξη Disambiguation μέσα σε παρενθέσεις και περιέχει μία λίστα με συνδέσμους προς τις entity pages το οντοτήτων στις οποίες μπορεί να αναφέρεται. Κατηγορίες (Categories): Κάθε άρθρο στην Wikipedia πρέπει να ανήκει σε μία τουλάχιστον κατηγορία. Οι κατηγορίες βοηθούν τον χρήστη να βρίσκει παραπάνω πληροφορίες για ένα θέμα το οποίο μελετάει βλέποντας την κατηγορία στην οποία ανήκει ένα άρθρο που έχει ήδη διαβάσει. Οι κατηγορίες της Wikipedia αυξάνoυν σε μεγάλο βαθμό την απόδοση των συστημάτων αποσαφήνισης. Υπερσύνδεσμοι (Hyperlinks): Μέσα στο σώμα κάθε άρθρου της Wikipedia υπάρχουν αναφορές σε άλλες οντότητες οι οποίες αποτελούν και συνδέσμους προς τα entity pages των οντοτήτων αυτών.

23 2.4. Μέθοδοι αναγνώρισης και αποσαφήνισης 2.4.1. Μέθοδος Bunescu και Pasca Οι Bunescu και Pasca (2006) [6] πρότειναν ένα σύστημα αναγνώρισης και αποσαφήνισης οντοτήτων που βασίζεται στην γνωσιακή βάση Wikipedia. Με βάση τη δομή της Wikipedia οι δύο συγγραφείς ορίζουν τα παρακάτω στοιχεία για να γίνει απλούστερη η κατανόηση της μεθόδου τους : e: ονοματική οντότητα E: το σύνολο όλων των ονοματικών οντοτήτων που θα αναγνωριστούν e.title: ο τίτλος του άρθρου της Wikipedia που αντιστοιχεί στην οντότητα e e.t: το κείμενο (πληροφοριακό περιεχόμενο) του άρθρου της Wikipedia που αντιστοιχεί στην οντότητα e e.r: το σύνολο όλων των ονομάτων που ανακατευθύνουν προς την οντότητα e e.d: το σύνολο όλων των ονομάτων των οποίων οι σελίδες αποσαφήνισής τους περιέχουν σύνδεσμο προς την οντότητα e e.c: το σύνολο των κατηγοριών της Wikipedia στις οποίες ανήκει το άρθρο της οντότητας e q: Ένα ερώτημα (query). Δηλαδή μία λέξη που θέλουμε να αποσαφηνιστεί q.τ: το κείμενο (πληροφοριακό περιεχόμενο) στο οποίο βρίσκεται η λέξη q q.e: το σύνολο όλων των διαφορετικών οντοτήτων στις οποίες μπορεί να αναφέρεται η λέξη q q.e k : μία υποψήφια οντότητα στην οποία μπορεί να αναφέρεται η λέξη q q.e: η πραγματική οντότητα στην οποία αναφέρεται η λέξη q Το πρώτο κομμάτι του συστήματος υλοποιεί έναν ευριστικό αλγόριθμο για την αναγνώριση οντοτήτων. Ο αλγόριθμος αυτός βασίζεται στην υπόθεση ότι οι τίτλοι όλων των άρθρων της Wikipedia αποτελούν πιθανές οντότητες. Συνοπτικά τα βήματα του αλγορίθμου είναι τα εξής: Βήμα 1 Αν ο τίτλος αποτελείται από πολλές λέξεις τότε ελέγχεται αν όλες οι λέξεις ξεκινούν με κεφαλαίο γράμμα (εξαιρούνται λέξεις όπως προθέσεις, σύνδεσμοι κλπ.). Αν ισχύει το παραπάνω τότε έχουμε μία ονοματική οντότητα. Βήμα 2 Αν ο τίτλος αποτελείται από μία λέξη ελέγχεται αν η λέξη αυτή περιέχει τουλάχιστον 2 κεφαλαία γράμματα. Αν ναι τότε έχουμε μία ονοματική οντότητα. Διαφορετικά προχωράμε στο Βήμα 3. Βήμα 3 Μετριέται πόσες φορές εμφανίζεται ο τίτλος του άρθρου μέσα στο κείμενο του άρθρου σε θέσεις που δεν είναι αρχή πρότασης. Αν στο 75% αυτών των περιπτώσεων ο τίτλος ξεκινά με κεφαλαίο γράμμα τότε έχουμε μία ονοματική οντότητα.

24 Μετά την αναγνώριση των οντοτήτων ακολουθεί η κατασκευή ενός λεξικού που βασίζεται στις οντότητες που έχουν αναγνωριστεί και σε διάφορα χαρακτηριστικά τις Wikipedia όπως είναι τα redirect pages και τα disambiguation pages. Για κάθε οντότητα e που έχει αναγνωριστεί, ο τίτλος του κύριου άρθρου που της αντιστοιχεί, το σύνολο όλων των redirect names (e.r) και to σύνολο όλων των disambiguation names (e.d) που τις αντιστοιχούν προστίθενται στο λεξικό. Με αυτό τον τρόπο κατασκευάζεται ένα λεξικό D όπου για κάθε καταχώρηση του d υπάρχει ένα σύνολο οντοτήτων d.e της Wikipedia που της αντιστοιχούν. Αφού κατασκευαστεί και το λεξικό ακολουθεί το κύριο μέρος του συστήματος που είναι το σύστημα αποσαφήνισης οντοτήτων. Αυτό έχει δύο υλοποιήσεις. Η πρώτη στηρίζεται στην συσχέτιση ανάμεσα στο πληροφοριακό περιεχόμενο του κειμένου στο οποίο εμφανίζεται η υπό εξέταση λέξη και αυτό των υποψήφιων ονοματικών οντοτήτων στις οποίες η λέξη αυτή μπορεί να αναφέρεται (ως πληροφοριακό περιεχόμενο μια ονοματικής οντότητας ορίζεται το κύριο άρθρο της Wikipedia που της αντιστοιχεί). Η δεύτερη είναι ουσιαστικά επέκταση της πρώτης αφού εκτός από την συσχέτιση ανάμεσα στα πληροφοριακά περιεχόμενα της υπό εξέταση λέξης και των υποψήφιων ονοματικών οντοτήτων, χρησιμοποιεί και την συσχέτιση ανάμεσα στο πληροφοριακό περιεχόμενο της υπό εξέταση λέξης και των κατηγοριών (category tags) στην Wikipedia των άρθρων των υποψήφιων ονοματικών οντοτήτων. Και στις δύο υλοποιήσεις τόσο το πληροφοριακό περιεχόμενο της υπό εξέτασης λέξης όσο και αυτό των υποψήφιων ονοματικών οντοτήτων παριστάνονται διανυσματικά. Η διαδικασία κατασκευής των διανυσματικών αυτών αναπαραστάσεων είναι η εξής: Φτιάχνεται το λεξιλόγιο (vocabulary) V της Wikipedia που περιέχει όλες τις διαφορετικές λέξεις που αναφέρονται σε όλα τα άρθρα της. Για κάθε λέξη (word - w) του λεξιλογίου υπάρχει ένας αριθμός df(w) οποίος δηλώνει πόσες φορές έχει εμφανιστεί συνολικά η λέξη w σε όλα τα κείμενα της Wikipedia. Έτσι αν έχουμε μία λέξη q που θέλουμε να αποσαφηνιστεί και το κείμενο q.t μέσα στο οποίο βρίσκεται η λέξη αυτή (δηλαδή το πληροφοριακό της περιεχόμενο) φτιάχνουμε ένα διάνυσμα μεγέθους V στο οποίο για κάθε λέξη που υπάρχει και στο V και στο q.t αντιστοιχεί ένας αριθμός N dw = f(w) ln df(w) (Εξ. 1) όπου f(w) είναι ο αριθμός εμφανίσεων της λέξης w στο q.t και N ο αριθμός όλων των άρθρων της Wikipedia. Για τις λέξεις του V που δεν ανήκουν στο q.t στις αντίστοιχες θέσεις μπαίνει μηδέν. Αντίστοιχα κατασκευάζεται το διάνυσμα που αντιστοιχεί στο πληροφοριακό περιεχόμενο μιας υποψήφιας οντότητας e k.

25 Στην πρώτη υλοποίηση τα 2 διανύσματα που προκύπτουν κάθε φορά συγκρίνονται μεταξύ τους μέσω του υπολογισμού του συνημίτονου της μεταξύ τους γωνίας (cosine similarity) που αποτελεί και την συνάρτηση σκοραρίσματος score(q, ek) = cos(q, ek) = q. T q. T ek. T ek. T (Εξ. 2) Όποια από τις υποψήφιες οντότητες δώσει το μεγαλύτερο σκορ είναι και αυτή που τελικά αντιστοιχίζεται από το σύστημα στην υπό εξέταση λέξη. Στην δεύτερη υλοποίηση (taxonomy kernel) η διαδικασία είναι ίδια απλά η συνάρτηση σκοραρίσματος μετασχηματίζεται και γίνεται φ cos(q, ek) = cos (q. T, ek. T) score(q, ek) = Φ(q, ek) = 1 if w q. T and c ek. C, φw, c(q, ek) = 0 otherwise. (Εξ. 3) όπου w διάνυσμα που περιγράφει την συσχέτιση των λέξεων του q.t με τις κατηγορίες του e k και οι τιμές του μπορούν να υπολογιστούν από το training dataset. Η νέα αυτή συνάρτηση σκοραρίσματος εμπεριέχει και την συσχέτιση ανάμεσα στο περιεχόμενο της λέξης και τις κατηγορίες των υποψήφιων οντοτήτων (φ w,c (q,e k )). Στην δεύτερη αυτή υλοποίηση χρησιμοποιείται ως βάση ο ταξινομητής μεγίστου περιθωρίου τύπου SVM (Support Vector Machine) για τη βελτιστοποίηση της συσχέτισης ανάμεσα στις λέξεις του πληροφοριακού περιεχομένου της υπό εξέτασης λέξης και των κατηγοριών των υποψήφιων οντοτήτων. Το σύστημα των Bunescu και Pasca παρουσιάζει υψηλή απόδοση (για την πρώτη υλοποίηση precision από 55.4% μέχρι 82.3% και για την δεύτερη υλοποίηση από 68% μέχρι 84.8% ) η οποία βελτιώνεται αρκετά με την δεύτερη υλοποίηση. Πρέπει ακόμη να αναφερθεί ότι προτείνεται και ένας τρόπος αντιμετώπισης της περίπτωσης στην οποία η οντότητα στην οποία αναφέρεται η υπό εξέταση λέξη δεν έχει καταχώρηση στην Wikipedia (out-of-wikipedia entity). Αυτό γίνεται μέσω της ύπαρξης μίας επιπλέον θεωρητικής οντότητας με μηδενικές τιμές χαρακτηριστικών και ενός ορίου τ. Αυτό που γίνεται είναι ότι υπολογίζονται και πάλι τα σκορ για όλες τις υποψήφιες οντότητες και το μέγιστο σκορ συγκρίνεται με το όριο τ. Αν το μέγιστο σκορ είναι μεγαλύτερο από το όριο τότε η αποσαφήνιση της λέξης είναι η οντότητα που έδωσε το σκορ αυτό. Διαφορετικά ως αποσαφήνιση της λέξης αυτής δίνεται η θεωρητική out-of-wikipedia οντότητα (δηλαδή στην περίπτωση αυτή η λέξη αναφέρεται σε μία οντότητα που δεν έχει καταχώρηση στην Wikipedia).

26 2.4.2. Μέθοδος Cucerzan Παρόμοια στρατηγική με αυτή των Bunescu και Pasca ακολουθεί και ο Cucerzan (2007) [7] για την ανάπτυξη του δικού του συστήματος. Πυρήνας της στρατηγικής του αποτελεί η προσπάθεια για μέγιστη συμφωνία ανάμεσα στο πληροφορικό περιεχόμενο της υπό εξέταση λέξης και των πληροφοριακών περιεχομένων των υποψήφιων οντοτήτων καθώς και η συμφωνία ανάμεσα στο πρώτο και τις κατηγορίες των υποψήφιων οντοτήτων στην Wikipedia. Για να το πετύχει αυτό ακολουθεί μία συστηματική διαδικασία εξαγωγής πληροφορίας από την Wikipedia την οποία στη συνέχεια χρησιμοποιεί κατά την διαδικασία αποσαφήνισης. Πιο συγκεκριμένα σε κάθε οντότητα τις Wikipedia που έχει αναγνωριστεί αντιστοιχίζονται το σύνολο των γνωστών ονομάτων (surface forms) με τα οποία μπορεί η οντότητα αυτή να αναφέρεται, τα στοιχεία πληροφοριακού περιεχομένου και οι κατηγορίες της. Για τα surface forms χρησιμοποιούνται τα χαρακτηριστικά της Wikipedia όπως είναι οι redirect pages και οι disambiguation pages. Για μία ονοματική οντότητα το σύνολο των ονομάτων που της αντιστοιχίζεται σχηματίζεται από 1) το όνομα του κύριου άρθρου της Wikipedia που την αφορά, 2) τα ονόματα όλων των redirect pages και disambiguation pages που τις αντιστοιχούν και 3) όλα τα υπόλοιπα ονόματα που χρησιμοποιούνται για αναφορά στην οντότητα αυτή, δεν ανήκουν στις παραπάνω περιπτώσεις και εμφανίζονται σε 2 τουλάχιστον άλλα άρθρα της Wikipedia Για παράδειγμα η Wikipedia περιέχει μία σελίδα με το όνομα Texas (TV series) που περιέχει πληροφορίες για μία σαπουνόπερα που προβαλλόταν από το τηλεοπτικό δίκτυο NBC από το 1980 μέχρι το 1982. Επίσης υπάρχει άλλη μία σελίδα με το όνομα Another World in Texas που περιέχει μία ανακατεύθυνση (σύνδεσμο) προς το άρθρο με τίτλο Texas (TV series). Από αυτά τα 2 άρθρα εξάγεται η οντότητα Texas (TV series) και τα surface forms της Texas (TV series), Texas και Another World in Texas. Με τον τρόπο αυτό εξάγονται περισσότερες από 1.4 εκατομμύρια οντότητες με μέσο όρο 2.4 ονόματα ανά οντότητα. Όσον αφορά τα πληροφοριακά στοιχεία της κάθε οντότητας, η διαδικασία εξαγωγής τους έχεις ως εξής: Υπάρχουν 3 πηγές πληροφοριακών στοιχείων για μία οντότητα. Η πρώτη είναι το όνομα του κυρίου άρθρου της Wikipedia που αφορά την οντότητα αυτή χωρίς τα διάφορα σημεία στίξης (πχ παρενθέσεις, παύλες κλπ.). Η δεύτερη είναι όλες οι οντότητες που αναφέρονται στην πρώτη παράγραφο του κύριου άρθρου της εξεταζόμενης οντότητας. Τέλος η τρίτη πηγή είναι όλες οι οντότητες που βρίσκονται στο υπόλοιπο σώμα του άρθρου της εξεταζόμενης οντότητας (δηλαδή εκτός της πρώτης παραγράφου) και για τις οποίες η αντίστοιχη σελίδα τους στην Wikipedia περιέχει σύνδεσμο που δείχνει πίσω στο άρθρο της εξεταζόμενης οντότητας. Για παράδειγμα για την οντότητα Texas (TV series) που αναφέρθηκε παραπάνω ορισμένα από τα στοιχεία περιεχομένου που της αντιστοιχίζονται είναι το Texas TV series (τίτλος του άρθρου χωρίς σημεία στίξης), οι οντότητες NBC, John William Corrington κ.α. που αναφέρονται στην πρώτη παράγραφο του άρθρου της, όπως επίσης και η οντότητα Pam Long η οποία βρίσκεται στο σώμα του άρθρου

27 (εκτός της πρώτης παραγράφου) και έχει σελίδα με σύνδεσμο προς το άρθρο της Texas (TV series). Με αυτόν τον τρόπο εξήχθησαν περίπου 38 εκατομμύρια ζεύγη της μορφής (οντότητα, πληροφοριακό στοιχείο). Τέλος για την αναγνώριση και την ανάθεση των κατηγοριών που αντιστοιχούν σε μία οντότητα ο Cucerzan χρησιμοποιεί τόσο τα list pages της Wikipedia όσο και τις κατηγορίες που φτιάχνονται και αντιστοιχίζονται στα άρθρα από τους χρήστες που γράφουν για την Wikipedia. Για παράδειγμα οι Wikipedia περιέχει μία σελίδα με τίτλο List of counties in Indiana που είναι μία λίστα με τις σελίδες που αντιστοιχούν σε όλες τις κομητείες της πολιτείας Ιντιάνα των ΗΠΑ. Από αυτήν την σελίδα μπορεί να εξαχθεί η κατηγορία LIST_counties_in_Indiana και να αποδοθεί στην οντότητα Adams County (που είναι κομητεία της Ιντιάνα). Με τον τρόπο αυτό και μετά από ένα φιλτράρισμα των αποτελεσμάτων προκύπτει ένα σύνολο 2.65 εκατομμυρίων ζευγαριών της μορφής (οντότητα, κατηγορία). Αφού τελειώσει η διαδικασία εξαγωγής πληροφορίας από την Wikipedia ακολουθεί η διαδικασία ανάλυσης του εγγράφου στο οποίο βρίσκονται οι προς αποσαφήνιση λέξεις. Τα βήματα της διαδικασίας αυτής είναι συνοπτικά τα παρακάτω: «Σπάσιμο» του εγγράφου σε προτάσεις, αναγνώριση της αρχής της κάθε πρότασης και εξέταση του αν η πρώτη λέξη κάθε πρότασης αποτελεί ονοματική οντότητα ή είναι με κεφαλαία γράμματα εξαιτίας ορθογραφικών συμβάσεων. Αναγνώριση ονοματικών οντοτήτων με χρήση κανόνων γραμματικής, στατιστικών από τον Ιστό και από παρόμοιες εργασίες καθώς και με χρήση των surface forms που έχουν αναγνωριστεί κατά την διαδικασία εξαγωγής πληροφορίας που περιγράφεται παραπάνω. Αποσαφήνιση των αναγνωρισθέντων ονοματικών οντοτήτων με την χρήση των παραπάνω πληροφοριών που εξάγονται από την Wikipedia και το κείμενο μέσα στο οποίο βρίσκονται τα προς αποσαφήνιση ονόματα με βάση ταξινομητή τύπου SVM. Με βάση τις παραπάνω πληροφορίες δημιουργούνται οι διανυσματικές αναπαραστάσεις τόσο των υποψήφιων ονοματικών οντοτήτων όσο και του κειμένου και στην συνέχεια προσπαθεί να επιτευχθεί η βέλτιστη αντιστοίχιση ονομάτων-οντοτήτων η οποία να μεγιστοποιεί έναν μαθηματικό όρο που περιγράφει στην ουσία την συμφωνία ανάμεσα στα πληροφοριακά περιεχόμενα των υπό εξέταση λέξεων και τα πληροφοριακά περιεχόμενα και τις κατηγορίες των υποψηφίων ονοματικών οντοτήτων. Μετά την ολοκλήρωση της διαδικασίας αποσαφήνισης το σύστημα δημιουργεί για κάθε έναν από τους όρους που έχουν αποσαφηνιστεί ένα σύνδεσμο προς το κύριο άρθρο της Wikipedia που της αντιστοιχεί. Το σύστημα του Cucerzan αξιολογείται πάνω σε ένα σύνολο άρθρων της Wikipedia (έκδοση 2 Απριλίου 2006) όσο και σε ένα σύνολο 100 άρθρων που προέρχονται από την ειδησεογραφία και αφορούν ένα μεγάλο εύρος θεμάτων. Όσον αφορά το σύνολο των άρθρων της Wikipedia, μετά από ένα φιλτράρισμα κάποιων ονομάτων που εμφανίζονται σε αυτά (πχ απορρίπτονται ονόματα που έχουν αποσαφήνιση που δεν έχει καταχώρηση στην Wikipedia) το σύστημα παρουσιάζει

28 ακρίβεια 88% ενώ στα άρθρα από την ειδησεογραφία το σύστημα παρουσίασε ακρίβεια 91.4% (και εδώ προηγήθηκε μια διαδικασία απόρριψης ονομάτων που δεν έχουν καταχώρηση στην Wikipedia non recallable surface forms). Πρέπει τέλος να σημειωθεί ότι το σύστημα του Cucerzan δεν λαμβάνει καμία μέριμνα για τον χειρισμό των περιπτώσεων στις οποίες το υπό εξέταση όνομα έχει αποσαφήνιση που δεν έχει καταχώρηση στην Wikipedia. 2.4.3. Άλλες σημαντικές μέθοδοι Όπως αναφέρθηκε παραπάνω, σημαντικές εργασίες που έχουν παρουσιαστεί όπως αυτή των Bunescu και Pasca [6], και αυτή του Cucerzan [7] βασίζονται σε χαρακτηριστικά της Wikipedia (όπως οι redirect pages και οι disambiguation pages) για την επίλυση της σημασιολογικής ασάφειας. Αυτή η επιλογή οδήγησε μεν σε συστήματα με αρκετά υψηλές αποδόσεις τα οποία όμως δεν μπορούν να λειτουργήσουν σε άλλες βάσεις γνώσεων εκτός της Wikipedia. Κάτι τέτοιο δεν συμβαίνει στο σύστημα που παρουσίασαν στην μελέτη τους οι Dredze, McNamee, Rao, Gerder και Finin (2010) [8] από το πανεπιστήμιο του Μέρυλαντ. Στην προσέγγισή τους το σύστημα που αναπτύσσεται πραγματοποιεί αποσαφήνιση ονομάτων που εμφανίζονται σε διάφορα έγγραφα ανεξάρτητα από την βάση γνώσεων που χρησιμοποιείται. Αυτό επιτυγχάνεται με την χρήση ενός μεγάλου πλήθους χαρακτηριστικών (200 βασικά και μέσω των συνδυασμών τους παράγονται 16000 συνολικά) τόσο των υπό εξέταση ονομάτων και των εγγράφων μέσα στα οποία αυτά βρίσκονται, όσο και των υποψήφιων αποσαφηνίσεών τους (υπάρχει μία διαδικασία κατασκευής ενός συνόλου υποψήφιων οντοτήτων για κάθε υπό εξέταση όνομα η οποία λειτουργεί για οποιαδήποτε βάση γνώσης). Τέτοια χαρακτηριστικά είναι πχ το document similarity δηλαδή η ομοιότητα ανάμεσα στο πληροφοριακό περιεχόμενο του ονόματος και αυτό της ονοματικής οντότητας που υπάρχει στη γνωσιακή βάση, το entity type δηλαδή αν μία ονοματική οντότητα είναι τύπου person, organization κλπ, το Popularity δηλαδή η δημοτικότητα της υποψήφιας οντότητας για την οποία χρησιμοποιείται το PageRank εργαλείο της Google που δείχνει σε ποια θέση κατατάσσεται το άρθρο της Wikipedia που αναφέρεται στην συγκεκριμένη οντότητα όταν γίνεται μία αναζήτηση αυτής στο Google, το string similarity δηλαδή η ομοιότητα ανάμεσα στο όνομα και πχ τον τίτλο του άρθρο που περιγράφει την οντότητα αυτή για τον υπολογισμό του οποίου υπάρχουν διάφορα μέτρα (Dice score, Hamming distance) και πολλά ακόμη. Ένα ακόμα σημαντικό χαρακτηριστικό του συστήματος αυτού είναι ότι αντιμετωπίζει πιο ολοκληρωμένα και προσεκτικά τις περιπτώσεις των εκτός γνωσιακών βάσεων αποσαφηνίσεων. Πιο συγκεκριμένα χρησιμοποιούνται επιπλέον μανθάνοντα χαρακτηριστικά για την αναγνώριση του εάν ένα όνομα αναφέρεται σε μία οντότητα εκτός της βάσης, όπως είναι το εάν το υπό εξέταση όνομα έχει κάποιο ακριβές ή κοντινό ταίριασμα με το όνομα κάποιας από τις υποψήφιες οντότητες, αν το πρώτο αποτέλεσμα της Google στην αναζήτηση του ονόματος είναι εκτός της λίστας των υποψήφιων οντοτήτων κ.α.