Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR-104 34, Athens, Greece



Σχετικά έγγραφα
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

GREECE BULGARIA 6 th JOINT MONITORING

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Elements of Information Theory

Language Resources for Information Extraction:

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Ανάκτηση Πληροφορίας

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

14 Lesson 2: The Omega Verb - Present Tense

The challenges of non-stable predicates

Homework 3 Solutions

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

ΚΛΙΜΑΤΟΛΟΓΙΑ CLIMATOLOGY

υγεία των νοσηλευτών που συστηματικά εμπλέκονται στην παρασκευή και χορήγηση τους.

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

Χρειάζεται να φέρω μαζί μου τα πρωτότυπα έγγραφα ή τα αντίγραφα; Asking if you need to provide the original documents or copies Ποια είναι τα κριτήρια

ΣΟΡΟΠΤΙΜΙΣΤΡΙΕΣ ΕΛΛΗΝΙΔΕΣ

C.S. 430 Assignment 6, Sample Solutions

Démographie spatiale/spatial Demography

EE512: Error Control Coding

Section 7.6 Double and Half Angle Formulas

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

Η νοθεία των τροφίμων, μελέτη περίπτωσης η νοθεία του ελαιόλαδου

Δήµου Δράµας Παιδαγωγικό Τµήµα Νηπιαγωγών Τµήµα Επιστηµών Προσχολικής Αγωγής και Εκπαίδευσης Τµήµα Δηµοτικής Εκπαίδευσης του Πανεπιστηµίου Frederick

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

HIV HIV HIV HIV AIDS 3 :.1 /-,**1 +332

ΔΙΠΛΩΜΑΣΙΚΗ ΕΡΓΑΙΑ. του φοιτητή του Σμήματοσ Ηλεκτρολόγων Μηχανικών και. Σεχνολογίασ Τπολογιςτών τησ Πολυτεχνικήσ χολήσ του. Πανεπιςτημίου Πατρών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΒΑΛΚΑΝΙΚΩΝ, ΣΛΑΒΙΚΩΝ & ΑΝΑΤΟΛΙΚΩΝ ΣΠΟΥΔΩΝ

Block Ciphers Modes. Ramki Thurimella

Right Rear Door. Let's now finish the door hinge saga with the right rear door

ΠΩΣ ΕΠΗΡΕΑΖΕΙ Η ΜΕΡΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ ΤΙΣ ΑΠΟΔΟΣΕΙΣ ΤΩΝ ΜΕΤΟΧΩΝ ΠΡΙΝ ΚΑΙ ΜΕΤΑ ΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΡΙΣΗ

Other Test Constructions: Likelihood Ratio & Bayes Tests

ΠΑΡΟΥΣΙΑΣΗ ΙΔΕΠ ΣΥΜΒΟΥΛΕΣ ΓΙΑ ΣΩΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΩΝ ERASMUS+ STRATEGIC PARTNERSHIPS

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)


MSM Men who have Sex with Men HIV -

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Galatia SIL Keyboard Information

Sampling Basics (1B) Young Won Lim 9/21/13

Advanced Subsidiary Unit 1: Understanding and Written Response

Durbin-Levinson recursive method

Passport number (or) διαβατηρίου (ή)

Concrete Mathematics Exercises from 30 September 2016

Assalamu `alaikum wr. wb.

Numerical Analysis FMN011

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. «Προστασία ηλεκτροδίων γείωσης από τη διάβρωση»

The Simply Typed Lambda Calculus

Προσομοίωση BP με το Bizagi Modeler

Παραμύθια τησ Χαλιμϊσ, τομ. A Σελύδα 1

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

A hybrid approach to compiling bilingual dictionaries of medical terms from parallel corpora

ΠΡΟΣ: Θέμα: Διαγωνισμός Δημιουργικής Γραφής στα Αγγλικά για την Ε και ΣΤ Δημοτικού

ΜΕΛΕΤΗ ΤΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΣΥΝΤΑΓΟΓΡΑΦΗΣΗΣ ΚΑΙ Η ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΤΗΣ ΣΤΗΝ ΕΛΛΑΔΑ: Ο.Α.Ε.Ε. ΠΕΡΙΦΕΡΕΙΑ ΠΕΛΟΠΟΝΝΗΣΟΥ ΚΑΣΚΑΦΕΤΟΥ ΣΩΤΗΡΙΑ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΤΜΗΜΑ ΕΚΠΑΙ ΕΥΤΙΚΗΣ ΚΑΙ ΚΟΙΝΩΝΙΚΗΣ ΠΟΛΙΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΚΑΤΕΥΘΥΝΣΗ: ΣΥΝΕΧΙΖΟΜΕΝΗ ΕΚΠΑΙ ΕΥΣΗ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Business English. Ενότητα # 9: Financial Planning. Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων

Βαζηθό κάζεκα γηα ην ArcGIS

ΚΑΠΝΙΣΜΑ ΚΑΙ ΣΥΝΔΡΟΜΟ ΑΙΦΝΙΔΙΟΥ ΒΡΕΦΙΚΟΥ ΘΑΝΑΤΟΥ

GREECE BULGARIA 6 th JOINT MONITORING

Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος

Math 6 SL Probability Distributions Practice Test Mark Scheme

Ανάκτηση Εικόνας βάσει Υφής με χρήση Eye Tracker

Approximation of distance between locations on earth given by latitude and longitude

Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn

TMA4115 Matematikk 3

Copernicus for Local and Regional Authorities

Thesis presentation. Turo Brunou

ΑΙΤΗΣΗ APPLICATION FORM FOR GREEK APPLICANTS. 1. Τίτλος Κοινού Ερευνητικού Σχεδίου:... Title of joint project:...

Μεταπτυχιακή εργασία : Μελέτη της εξέλιξης του προσφυγικού οικισμού της Νέας Φιλαδέλφειας με χρήση μεθόδων Γεωπληροφορικής.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

«Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά κείµενα»

Context-aware και mhealth

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ

{takasu, Conditional Random Field

Technical Research Report, Earthquake Research Institute, the University of Tokyo, No. +-, pp. 0 +3,,**1. No ,**1

Capacitors - Capacitance, Charge and Potential Difference

ΑΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΡΓΟΣΤΟΛΙ ΚΕΦΑΛΗΝΙΑΣ

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΥΩΡΟΘΔΣΖΖ ΚΑΣΑΛΛΖΛΩΝ ΘΔΔΩΝ ΔΓΚΑΣΑΣΑΖ Υ.Τ.Σ.Τ. ΜΔ ΣΖ ΥΡΖΖ G.I.S.: ΔΦΑΡΜΟΓΖ ΣΖ ΕΑΚΤΝΘΟ

Test Data Management in Practice

forms This gives Remark 1. How to remember the above formulas: Substituting these into the equation we obtain with

ΕΥΘΑΛΙΑ ΚΑΜΠΟΥΡΟΠΟΥΛΟΥ

1) Abstract (To be organized as: background, aim, workpackages, expected results) (300 words max) Το όριο λέξεων θα είναι ελαστικό.

ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ. ιπλωµατική Εργασία. της ΘΕΟ ΟΣΟΠΟΥΛΟΥ ΕΛΕΝΗΣ ΜΣ:5411

Second Order RLC Filters

Transcript:

A Greek Named-Entity Recognizer that Uses Support Vector Machines and Active Learning Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR-104 34, Athens, Greece 1

Introduction The problem: Find and categorize in predefined categories Greek named entities appearing in documents. Τον <TIMEX TYPE="DATE">Απρίλιο του 1948</TIMEX>, ο <ENAMEX TYPE="PERSON">Πολκ</ENAMEX> έρχεται για δεύτερη φορά στην <ENAMEX TYPE="LOCATION">Ελλάδα</ENAMEX> και παντρεύεται την αεροσυνοδό της <ENAMEX TYPE="ORGANIZATION">ΤΑΕ</ENAMEX> (της μετέπειτα <ENAMEX TYPE="ORGANIZATION">Ολυμπιακής Αεροπορίας</ENAMEX>) <ENAMEX TYPE="PERSON">Ρέα Κοκκώνη</ENAMEX>, που είχε γνωρίσει στο προηγούμενο ταξίδι του. Different approaches: systems with hand-crafted rules machine learning systems hybrid systems. 2

System Architecture Text TOKENIZER Tokens PERIOD SEPARATOR TEMPORAL EXPRESSIONS RECOGNIZER PERSON NAMES RECOGNIZER διάστημα 2001-2002. <SUBTITLE> Αντιδράσεις για την «πρόγνωση» </SUBTITLE> <PARAGRAPH> Η ανακοίνωση του κ. Β. Παπαζάχου προκάλεσε TIMEX END OF PERIOD SUBTITLE διάστημα 2001-2002. Αντιδράσεις για την «πρόγνωση» Η ανακοίνωση του κ. Β. Παπαζάχου προκάλεσε PERSON END OF PERIOD 3

Temporal Expression Recognition Semi-automatically produced patterns Texts Temporal Expressions COLLECT GENERALIZE Patterns Τετάρτη 31 Ιανουαρίου 2001 1/12/2005 10.1.2005 DAY [0-9]{2} MONTH [0-9]{4} [0-9]{1} SEPARATOR [0-9]{2} SEPARATOR [0-9]{4} [0-9]{2} SEPARATOR [0-9]{1} SEPARATOR [0-9]{4} COMBINE ([0-9]{1} [0-9]{2}) SEPARATOR ([0-9]{1} [0-9]{2}) SEPARATOR [0-9]{4} PRIORITIZE Final Patterns η συνέλευση θα γίνει στις 31 Ιανουαρίου 2001 [0-9]{2} MONTH [0-9]{4} [0-9]{2} MONTH [0-9]{4} 4

Imbalance of Categories The ratio of person-name tokens to nonperson name tokens is 1:42. Classifiers may learn to classify always in the most frequent category. Using sure-fire rules to identify nonperson names, the ratio becomes 1:3.5. Example: Όπως αποκάλυψε ο κ. Βασίλης Παπαζάχος, στις 14 Σεπτεμβρίου 2000 η επιστημονική του ομάδα έστειλε άρθρο στο περιοδικό " Geophysical Journal International", ενημερώνοντας για σεισμική δόνηση με επίκεντρο την Τάφρο του Βορείου Αιγαίου 5

Domain-independent Features t -2 t -1 t 0 t 1 t 2 Οκ. Κώστας Κουρταλίδης πάντως προς Κύριλλος Κώστας Λάζαρος Λάμπρος Λέων Λία word, number, symbol length first capital, capitalized end of period list of names inside subtitle -ίδης, -άκης, παπα-, χατζη-, distance from start of name κ., κκ. Vector representation: <,, T, 11, T, F, F, F, T, F, T, F, 1,,, > t -2 t -1 t 0 t 1 t 2 6

Domain-dependent Features Lists containing words that occur frequently before person tokens Different lists for short / long tokens Different lists for different distances (immediately before, up to 7 tokens before) Lists constructed during training 7

Active Learning Present for human annotation only training instances the system expects will be highly informative. Criterion: select instances close to the SVM's hyperplane (maximum uncertainty) Training Tagged texts CLASSIFIER Choosing new instances USER (tagging) 1 2 10 Pool of texts 8

Second Pass Main idea: Check if any tokens were tagged elsewhere in the same document as person names with high confidence during the first pass. PERSON 0.9 0.7 0.8 Ο Τούρκος πρόεδρος κ. Αχμέντ Νετζντέτ Σεζέρ επισκέφτηκε το πρωί το προεδρικό μέγαρο όπου συναντήθηκε με τον ΗάφιξητουΣεζέρ, χθες, -0.1 NON-PERSON Αχμέντ Σεζέρ... Vector representation during 2 nd pass: <,, -0.1, T, > t -1 t 0 t 1 9

Corpora 1 st collection Newspaper articles ( To Vima, Ta Nea ) Topics: politics, finance, sports 400 articles (~331,000 tokens) Person tokens: 4,797 Temporal expression tokens: 1,563 Tagged using MUC-7 rules Preprocessed to remove HTML tags Header and paragraph tags are kept to determine titles and ends of periods. 2 nd collection 715 short financial articles (~205,000 tokens) Person tokens: 1,046 Temporal expression tokens: 1,244 Created during the MITOS project 10

Evaluation Evaluation measures Precision = TP TP + FP Recall = TP TP + FN TP: #tokens correctly classified as named-entity FP: #tokens wrongly classified as named-entity FN: #tokens wrongly classified as non-namedentity (β²+1) Precision Recall F-measure =, β = 1 β² Precision + Recall Confidence intervals confidence level 0.99 11

F-measure 0,9 0,8 0,7 Fβ=1 0,6 0,5 Passive Learning (One SVM) Active Learning (One SVM) Active Learning (Tw o SVMs) 0,4 0 2000 4000 6000 8000 10000 12000 14000 16000 Training Vectors 12

First Second Pass 0,9 0,8 Percent 0,7 Precision (One SVM) Recall (One SVM) Precision (Tw o SVMs) Recall (Tw o SVMs) 0,6 4000 6000 8000 10000 12000 14000 16000 Training Vectors 13

Passive Active Learning 0,9 0,8 0,7 Percent 0,6 0,5 Precision (Passive Learning) Recall (Passive Learning) Precision (Active Learning) Recall (Active Learning) 0,4 0 2000 4000 6000 8000 10000 12000 14000 16000 Training Vectors 14

Evaluation results Temporal expression recognition 10-fold cross-validation corpus precision (%) recall (%) Fβ=1 (%) general articles 96.62 92.95 94.75 financial articles 97.59 95.35 96.46 Person name recognition corpus methods (training inst.) precision (%) recall (%) Fβ=1 (%) 1 SVM, passive (13K) 86.29 ±0.69 77.91 ±0.83 81.89 ±0.77 general articles 1 SVM, active (9.1K) 88.39 ±0.64 80.33 ±0.79 84.17 ±0.73 2 SVMs, active (9.1, 14K) 89.06 ±0.62 85.83 ±0.69 87.42 ±0.66 financial articles 1 SVM, passive (8.8K) 94.96 ±1.28 88.95 ±1.83 91.86 ±1.60 (cross-validation) 2 SVMs, passive (8.8, 8.8K) 95.76 ±1.18 91.05 ±1.67 93.34 ±1.46 15

Conclusions Evaluation of temporal expression recognition F-measure general articles 94,75% financial articles 96,46% Evaluation of person name recognition Sure-fire rules decrease the category imbalance F-measure general articles 87,42% financial articles 93,34% Active learning F-measure increased up to 4,5-5% Second pass F-measure increased up to 5% Future work New named-entity categories, e.g. organizations, locations Apply system to a different domain Improve the active learning criterion Downloadable from: http://www.aueb.gr/users/ion/publications.html 16

Previous Greek Systems Person name recognition Greek financial news Hand-crafted rules Boutsis et al. (2000) Precision 71% Recall 71% Farmakiotou et al. (2000) Precision 88% Recall 77% F-measure 82% Our results (2005) Precision 96% Recall 91% F-measure 93.5% No other comparable results 17