Language Resources for Information Extraction:



Σχετικά έγγραφα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Συντακτικές λειτουργίες

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

The Simply Typed Lambda Calculus

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Advanced Subsidiary Unit 1: Understanding and Written Response

Αγαπητοί συνεργάτες,

Test Data Management in Practice

Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR , Athens, Greece

14 Lesson 2: The Omega Verb - Present Tense

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

Other Test Constructions: Likelihood Ratio & Bayes Tests

Χρειάζεται να φέρω μαζί μου τα πρωτότυπα έγγραφα ή τα αντίγραφα; Asking if you need to provide the original documents or copies Ποια είναι τα κριτήρια

C.S. 430 Assignment 6, Sample Solutions

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Bring Your Own Device (BYOD) Legal Challenges of the new Business Trend MINA ZOULOVITS LAWYER, PARNTER FILOTHEIDIS & PARTNERS LAW FIRM

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

Architecture οf Integrated Ιnformation Systems (ARIS)

Terabyte Technology Ltd

Modbus basic setup notes for IO-Link AL1xxx Master Block

ΘΕΜΑΤΙΚΗ ΕΥΡΕΤΗΡΙΑΣΗ ΚΑΙ ΚΑΘΙΕΡΩΣΗ ΟΡΟΛΟΓΙΑΣ ΣΤΙΣ ΤΕΧΝΙΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ: Η ΕΜΠΕΙΡΙΑ ΣΤΟ ΤΕΕ

Weekend with my family ( pgs.6-7-8)

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

TaxiCounter Android App. Περδίκης Ανδρέας ME10069

Homomorphism in Intuitionistic Fuzzy Automata

SOAP API. Table of Contents

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Elements of Information Theory

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

Τα ανοικτά Δεδομένα στην Κοινωνία της Γνώσης

Λέξεις, φράσεις και προτάσεις

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Modern Greek Extension

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

Abstract Storage Devices

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

ΠΡΟΣ: Θέμα: Διαγωνισμός Δημιουργικής Γραφής στα Αγγλικά για την Ε και ΣΤ Δημοτικού

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

Morphologie. Beispiel 1: Inuit Grammar. Dr. Chris0na Alexandris Na0onale Universität Athen Deutsche Sprache und Literatur

2018 Greek Language Final Assessment Review and Study-guide 2 nd Grade:

Context-aware και mhealth

Ζητήματα Τυποποίησης στην Ορολογία - ο ρόλος και οι δράσεις της Επιτροπής Ορολογίας ΤΕ21 του ΕΛΟΤ

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Στο εστιατόριο «ToDokimasesPrinToBgaleisStonKosmo?» έξω από τους δακτυλίους του Κρόνου, οι παραγγελίες γίνονται ηλεκτρονικά.

Ταυτοποίηση ασθενούς μέσω ραδιοσυχνικής αναγνώρισης (RFID) με σκοπό τον έλεγχο της χορήγησης αναισθησίας κατά τη διάρκεια χειρουργικής επέμβασης

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και. Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του. Πανεπιστημίου Πατρών

Passport number (or) διαβατηρίου (ή)

Adjectives. Describing the Qualities of Things. A lesson for the Paideia web-app Ian W. Scott, 2015

ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ ΚΑΙ ΔΙΑΤΡΟΦΗΣ ΤΟΥ ΑΝΘΡΩΠΟΥ

Ellogon: Μία Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας. Γεώργιος Πετάσης

Formal Semantics. 1 Type Logic

(C) 2010 Pearson Education, Inc. All rights reserved.

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

ΚΒΑΝΤΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ

Parent Homework: - Μake sure that your child has the homework in the blue folder every day.

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΙΣΧΥΟΣ

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

Capacitors - Capacitance, Charge and Potential Difference

ίκτυο προστασίας για τα Ελληνικά αγροτικά και οικόσιτα ζώα on.net e-foundatio // itute: toring Insti SAVE-Monit

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

TMA4115 Matematikk 3

Notes on the Open Economy

Galatia SIL Keyboard Information

Example Sheet 3 Solutions

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Εκδηλώσεις Συλλόγων. La page du francais. Τα γλωσσοψυχο -παιδαγωγικά. Εξετάσεις PTE Δεκεμβρίου 2013

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

derivation of the Laplacian from rectangular to spherical coordinates

LECTURE 2 CONTEXT FREE GRAMMARS CONTENTS

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ ΜΟΝΑΔΑΣ ΘΡΑΥΣΤΗΡΑ ΜΕ ΧΡΗΣΗ P.L.C. AUTOMATION OF A CRUSHER MODULE USING P.L.C.

Σημασιολογικός Ιστός (Semantic Web) - XML

Chap. 6 Pushdown Automata

Η ΔΙΔΑΣΚΑΛΙΑ ΤΩΝ ΜΟΡΦΟΛΟΓΙΚΩΝ ΔΙΑΔΙΚΑΣΙΩΝ ΤΗΣ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΤΗΣ ΣΥΝΘΕΣΗΣ ΥΠΟ ΤΟ ΠΡΙΣΜΑ ΤΩΝ ΑΠΣ: ΜΙΑ ΚΡΙΤΙΚΗ ΘΕΩΡΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ. «Θεσμικό Πλαίσιο Φωτοβολταïκών Συστημάτων- Βέλτιστη Απόδοση Μέσω Τρόπων Στήριξης»

Μειέηε, θαηαζθεπή θαη πξνζνκνίσζε ηεο ιεηηνπξγίαο κηθξήο αλεκνγελλήηξηαο αμνληθήο ξνήο ΓΗΠΛΩΜΑΣΗΚΖ ΔΡΓΑΗΑ

UDZ Swirl diffuser. Product facts. Quick-selection. Swirl diffuser UDZ. Product code example:

Reading Order Detection for Text Layout Excluded by Image

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΣΗΜΑΝΤΙΚΗ ΑΝΑΚΟΙΝΩΣΗ ΓΙΑ ΤΗΝ ΔΙΕΘΝΗ ΕΚΘΕΣΗ VEHICLE AND ON-VEHICLE EQUIPMENTS FAIR

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΗΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία ΑΝΑΠΤΥΞΗ ΔΕΙΚΤΩΝ ΠΟΙΟΤΗΤΑΣ ΕΔΑΦΟΥΣ

Transcript:

Language Resources for Information Extraction: demands and challenges in practice Christos Tsalidis tsalidis@neurolingo.gr Page 1

Different types of LRs Alphabets & Characters sets (Greek, English, Mixed) Electronic dictionaries: Vocabularies (gazetteers) as domain descriptors: person names, company names, places, job titles, etc. Morphological Lexica (lemma vs. word form) Terminological Lexica (term vs. lemma) Thesauri (word sense vs. lemma): synonyms, antonyms, synonym sets Taxonomies & Ontologies: semantic categories and relations, inference rules Spell checking and fuzzy matching for identification of incorrect expressions Grammar Rules: recognition of multi-word expressions and terms, Named Entities, specific events. Page 2

Alphabets Extra information needed in order to complete the functionality provided by OSes and development libraries Letter Definition Letter Class Phoneme Class Page 3

Vocabularies (Gazetteers) Word lists (mostly nouns) of a specific domain (e.g. person names) No need for detailed morphological specification Simple morphological generation rules Lists extracted automatically from customer s legacy systems Page 4

Morphological Dictionary Morphological analysis of the lemma συγχρονικός synchronic ADJ Page 5

The LexEdit Application Page 6

Morphological Entry Page 7

The ThesEdit Application An example of a small dictionary (20 lemmas) of synonyms and antonyms in English Page 8

Thesaurus Entry Page 9

Grammar rules: The Kanon formalism The Kanon (from the Greek word κανών rule ) is a feature-based grammar formalism, which is used for the description and recognition of specific morphosyntactic patterns in text documents. The rules definition uses lexical features such as: full lemma (verb to increase i.e. increase, increases, increased, increasing), word form (increasing), morphosyntactic attributes (noun_sing_nom, verb_pass_pres), morphological attributes (words ending in ing, -ful), orthographic attributes (words starting with capital letter) This formalism constitutes the core component of a number of NLP applications, such as the MNEMOSYNE software used for: multi-word term identification (e.g. in the biomedical domain) Named Entities Recognition (NER) text mining and information extraction grammar checking Page 10

Information extraction: The Mnemosyne system (1/2) Analyzes large volumes of information Input data different formats (HTML, PDF, TXT) stored on various media (file, database, web page) Analyzers Text analyzers extract information from textual sources and generate appropriate semantic annotations. Specialized analyzers ensure the transfer of extracted information to specific destinations and formats (XML, database, etc.). Fuzzy matching analyzers compare the extracted information (named entities: persons, organisations, addresses, dates, etc.) to the data stored in an existing corporate database system, using both lexicographical and statistical mechanisms. Fully customizable process pipeline. Application specific analyzers can be created, if needed. Page 11

Information extraction: The Mnemosyne system (2/2) Different analyzers use various language resources (vocabularies of different languages, spelling and morphological dictionaries, domain-specific dictionaries, thesauri, etc.) and the Kanon rules in order to assign semantic annotation to the extracted information. Page 12

Step 1: Sentence splitting Input text Ł Sentence Analysis Μετά την αντικατάσταση αυτή ηνέα σύνθεση του Διοικητικού Συμβουλίου του οποίου η θητεία λήγει την 26.9.2010 έχει ως κατωτέρω: 1. Κυριάκος Μουρατίδης του Θεοφίλου, που γεννήθηκε στη Θεσσαλονίκη το έτος 1952, κάτοικος Θεσσαλονίκης οδός Πλατεία Ναυαρίνου 3, ως Πρόεδρος και Διευθύνων Σύμβουλος. <span offset="889" length="165"> <contents> 1. Κυριάκος Μουρατίδης του Θεοφίλου, που γεννήθηκε στη Θεσσαλονίκη το έτος 1952, κάτοικος Θεσσαλονίκης οδός Πλατεία Ναυαρίνου 3, ως Πρόεδρος και Διευθύνων Σύμβουλος. </contents> <annotations> <tag name="sseqno">3</tag> </annotations> </span> Page 13

Step 2: Tokenization & Lexical Identification <annotations> <tag name="ttext" >Κυριάκος</tag> <tag name="vocabs">pfname+psname</tag> <tag name="lexy">{κυριάκος,masc+n+nom+sing}</tag> <tag name="ortho">nrwrd+fcwrd+wthltrs</tag> </annotations> <annotations> <tag name="ttext">μουρατίδης</tag> <tag name="vocabs">psname</tag> <tag name="lexy"/> <tag name="ortho">nrwrd+fcwrd+wthltrs</tag> </annotations> <annotations> <tag name="ttext">θεοφίλου</tag> <tag name="vocabs >PFName+PSName</tag> <tag name="lexy >{Θεόφιλος,GEN+MASC+N+SING}</tag> <tag name="ortho">nrwrd+fcwrd+wthltrs</tag> </annotations> Μετά την αντικατάσταση αυτή ηνέα σύνθεση του Διοικητικού Συμβουλίου του οποίου η θητεία λήγει την 26.9.2010 έχει ως κατωτέρω: 1. Κυριάκος Μουρατίδης του Θεοφίλου, που γεννήθηκε στη Θεσσαλονίκη το έτος 1952, κάτοικος Θεσσαλονίκης οδός Πλατεία Ναυαρίνου 3, ως Πρόεδρος και Διευθύνων Σύμβουλος. Page 14

Step 3: Named Entities Recognition [IRULE="PERSON_3_1", TTEXT=TagPerson("PERSON_3_1","PERSON","%n%s%f",$x1,$x2,$x3)] => \ [TTEXT==$x1, ORTHO->AnyOfOAttrs([FcWrd,AcWrd]), LEXY->HasNoneMAttrs([ART]), VOCABS->AnyAndNoneOfVocabs([PFName],[PExcept])], [TTEXT==$x2, ORTHO->AnyOfOAttrs([FcWrd,AcWrd]), VOCABS->NoneOfVocabs([PExcept])], [TTEXT=="του"], [TTEXT==$x3, ORTHO->AnyOfOAttrs([FcWrd,AcWrd]), VOCABS->NoneOfVocabs([PExcept])] / ; Μετά την αντικατάσταση αυτή ηνέα σύνθεση του Διοικητικού Συμβουλίου του οποίου ηθητεία λήγει την 26.9.2010 έχει ως κατωτέρω: 1. Κυριάκος Μουρατίδης του Θεοφίλου, που γεννήθηκε στη Θεσσαλονίκη το έτος 1952, κάτοικος Θεσσαλονίκης οδός Πλατεία Ναυαρίνου 3, ως Πρόεδρος και Διευθύνων Σύμβουλος. <span offset="892" length="32"> <contents> Κυριάκος Μουρατίδης του Θεοφίλου </contents> <annotations> <tag name="ttext">person</tag> <tag name="irule">person_3_1</tag> </annotations> </span> Page 15

Thank you for your attention! http://www.neurolingo.com Page 16