A hybrid approach to compiling bilingual dictionaries of medical terms from parallel corpora

Σχετικά έγγραφα
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Ζητήματα Τυποποίησης στην Ορολογία - ο ρόλος και οι δράσεις της Επιτροπής Ορολογίας ΤΕ21 του ΕΛΟΤ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΟΙ ΕΠΙΜΟΡΦΩΤΙΚΕΣ ΑΝΑΓΚΕΣ ΣΤΙΣ ΕΠΙΧΕΙΡΗΣΕΙΣ ΤΟΥ ΔΗΜΟΥ ΗΡΑΚΛΕΙΟΥ ΑΔΑΜΑΚΟΠΟΥΛΟΥ ΑΝΔΡΙΑΝΗ ΔΗΜΗΤΡΟΥΛΑΚΗ ΑΡΙΣΤΕΑ

Ηλεκτρονικά σώματα κειμένων και γλωσσική διδασκαλία: Διεθνείς αναζητήσεις και διαφαινόμενες προοπτικές για την ελληνική γλώσσα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Λουκία Βασιλείου

Μηχανική Μάθηση Hypothesis Testing

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1

Presentation Structure

Improvement of wave height forecast in deep and intermediate waters with the use of stochastic methods

Section 7.6 Double and Half Angle Formulas

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR , Athens, Greece

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία

MSM Men who have Sex with Men HIV -

Thesis presentation. Turo Brunou

ST5224: Advanced Statistical Theory II

Ανάκτηση Πληροφορίας

Other Test Constructions: Likelihood Ratio & Bayes Tests

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Εξόρυξη Γνώμης: Δημιουργία Ελληνικού Λεξικού Πόρου

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Γιπλυμαηική Δπγαζία. «Ανθπυποκενηπικόρ ζσεδιαζμόρ γέθςπαρ πλοίος» Φοςζιάνηρ Αθανάζιορ. Δπιβλέπυν Καθηγηηήρ: Νηθφιανο Π. Βεληίθνο

, -.

The Simply Typed Lambda Calculus

Language Resources for Information Extraction:

ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

6.003: Signals and Systems. Modulation

(Statistical Machine Translation: SMT[1]) [2]

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Homework 3 Solutions

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Ο ΥΠΟΣΤΗΡΙΚΤΙΚΟΣ ΡΟΛΟΣ ΤΟΥ ΝΟΣΗΛΕΥΤΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟ ΜΑΣΤΟΥ ΠΟΥ ΥΠΟΒΑΛΛΟΝΤΑΙ ΣΕ ΧΗΜΕΙΟΘΕΡΑΠΕΙΑ

EE101: Resonance in RLC circuits

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ. Πτυχιακή εργασία

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Example Sheet 3 Solutions

JUDICIAL INTEGRITY IN KOSOVO

Abstract Storage Devices

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

ΘΕΩΡΗΤΙΚΗ ΚΑΙ ΠΕΙΡΑΜΑΤΙΚΗ ΙΕΡΕΥΝΗΣΗ ΤΗΣ ΙΕΡΓΑΣΙΑΣ ΣΚΛΗΡΥΝΣΗΣ ΙΑ ΛΕΙΑΝΣΕΩΣ

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

Architecture οf Integrated Ιnformation Systems (ARIS)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΟΔΟΝΤΙΑΤΡΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΟΔΟΝΤΙΚΗΣ ΚΑΙ ΑΝΩΤΕΡΑΣ ΠΡΟΣΘΕΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ. Πτυχιακή Εργασία

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

Advanced Subsidiary Unit 1: Understanding and Written Response

Οι επιδόσεις Ελλήνων στο Mini Mental State Examination με βάση την ηλικία και τη νοητική κατάσταση από την παιδική στην τρίτη ηλικία.

Radiogenomics methods on the relationship between molecular and imaging characteristics to improve breast cancer classification

ΕΘΝΙΚΗ ΣΧΟΛΗ ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ

ΟΙ ΤΟΠΙΚΕΣ ΟΙΚΟΝΟΜΙΕΣ ΚΑΙ Η ΔΙΑΣΤΑΣΗ ΤΟΥ ΦΥΛΟΥ ΣΤΗΝ ΑΓΟΡΑ ΕΡΓΑΣΙΑΣ: Η ΠΕΡΙΠΤΩΣΗ ΤΟΥ ΝΟΜΟΥ ΜΕΣΣΗΝΙΑΣ

Bayesian modeling of inseparable space-time variation in disease risk

ΕΠΑΝΑΛΗΨΗ ΨΕΥΔΟΛΕΞΕΩΝ ΑΠΟ ΠΑΙΔΙΑ ΜΕ ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ ΚΑΙ ΠΑΙΔΙΑ ΤΥΠΙΚΗΣ ΑΝΑΠΤΥΞΗΣ

ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΣΕΞΟΥΑΛΙΚΗΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ ΤΩΝ ΓΥΝΑΙΚΩΝ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΗΣ ΕΓΚΥΜΟΣΥΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

υπηρεσίες / services ΜΕΛΕΤΗ - ΣΧΕΔΙΑΣΜΟΣ PLANNING - DESIGN ΕΜΠΟΡΙΚΗ ΜΕΛΕΤΗ COMMERCIAL PLANNING ΕΠΙΠΛΩΣΗ - ΕΞΟΠΛΙΣΜΟΣ FURNISHING - EQUIPMENT

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Modern Greek Extension

RF series Ultra High Q & Low ESR capacitor series

AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ

Η Διαγενειακή Αλληλεπίδραση Τρίτης Γενιάς και Τρίτης Ηλικίας και οι Αντοχές της Ελληνοαυστραλιανής Ταυτότητας

Professional Tourism Education EΠΑΓΓΕΛΜΑΤΙΚΗ ΤΟΥΡΙΣΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ. Ministry of Tourism-Υπουργείο Τουρισμού

Yoshifumi Moriyama 1,a) Ichiro Iimura 2,b) Tomotsugu Ohno 1,c) Shigeru Nakayama 3,d)

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Supplemental Table S1. Tumor specific networks are enriched with somatically mutated genes (taken from the database COSMIC)

Information and Communication Technologies in Education

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

ΕΚΤΙΜΗΣΗ ΤΟΥ ΚΟΣΤΟΥΣ ΤΩΝ ΟΔΙΚΩΝ ΑΤΥΧΗΜΑΤΩΝ ΚΑΙ ΔΙΕΡΕΥΝΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΕΠΙΡΡΟΗΣ ΤΟΥ

No. 7 Modular Machine Tool & Automatic Manufacturing Technique. Jul TH166 TG659 A

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

Paper Reference. Paper Reference(s) 1776/01 Edexcel GCSE Modern Greek Paper 1 Listening and Responding

Math 6 SL Probability Distributions Practice Test Mark Scheme

Εκδηλώσεις Συλλόγων. La page du francais. Τα γλωσσοψυχο -παιδαγωγικά. Εξετάσεις PTE Δεκεμβρίου 2013

MARKET INTRODUCTION System integration

Αλγοριθµική και νοηµατική µάθηση της χηµείας: η περίπτωση των πανελλαδικών εξετάσεων γενικής παιδείας 1999

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

Biostatistics for Health Sciences Review Sheet

2 Composition. Invertible Mappings

[5] F 16.1% MFCC NMF D-CASE 17 [5] NMF NMF 3. [5] 1 NMF Deep Neural Network(DNN) FUSION 3.1 NMF NMF [12] S W H 1 Fig. 1 Our aoustic event detect

Capacitors - Capacitance, Charge and Potential Difference

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΔΘΝΙΚΗ ΥΟΛΗ ΓΗΜΟΙΑ ΓΙΟΙΚΗΗ ΙΗ ΔΚΠΑΙΓΔΤΣΙΚΗ ΔΙΡΑ

Using parallel corpora to create Greek-English dictionary for web site searching

Η ΠΡΟΣΩΠΙΚΗ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΧΩΡΟΥ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ CHAT ROOMS

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Συντακτικές λειτουργίες

[15], [16], [17] [6] [2] [5] Jiang [6] 2.1 [6], [10] Score(x, y) y ( 1) ( 1 ) b e ( 1 ) b e. O(n 2 ) Jiang [6] (word lattice reranking)

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Πτυχιακή Εργασία Η ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΤΩΝ ΑΣΘΕΝΩΝ ΜΕ ΣΤΗΘΑΓΧΗ

ΕΥΘΑΛΙΑ ΚΑΜΠΟΥΡΟΠΟΥΛΟΥ

1000 VDC 1250 VDC 125 VAC 250 VAC J K 125 VAC, 250 VAC

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ. «Θεσμικό Πλαίσιο Φωτοβολταïκών Συστημάτων- Βέλτιστη Απόδοση Μέσω Τρόπων Στήριξης»

Transcript:

A hybrid approach to compiling bilingual dictionaries of medical terms from parallel corpora Georgios Kontonatsios georgios.kontonatsios@cs.man.ac.uk 14 th October 2014 14/10/2014 1

Overview Background Parallel Corpus Problem Motivation Methods Random Forest Classifier Statistical Phrase Alignment Hybrid Approach Experiments English-Greek & English-Romanian Error Analysis Conclusions Discussion Future Work 2

Background: Parallel Corpus A parallel corpus is a collection of documents in a source language paired with their direct translation in a target language English Abraxane monotherapy is indicated for the treatment of metastatic breast cancer Greek η µονοθεραπεία µε abraxane ενδείκνυται για τη θεραπεία µεταστατικού καρκίνου µαστού 3

Background: Parallel Corpus 1) Useful for SMT 2) Relatively scarce resources Koehn (2005) trained 110 SMT systems (11 languages) in three weeks. Available finance, law, medicine etc. 3) Excellent resources for mining bilingual terminologies Exact translations => No missing translations of terms sentence aligned => limited search space of candidate translations Same size => term frequencies are comparable 4

Background: Problem Parallel Corpus Term Alignment Dictionary of MWT Abraxane monotherapy is indicated for the treatment of metastatic breast cancer η µονοθεραπεία µε abraxane ενδείκνυται για τη θεραπεία µεταστατικού καρκίνου µαστού metastatic breast cancer µεταστατικού καρκίνου µαστού 5

%Coverage of English UMLS Background: Biomedical Domain Existing resources in the biomedical domain remain incomplete UMLS A multilingual terminological resource (more than 20 languages) Indexes ~7.6M English terms 18.00% 16.00% 14.00% 12.00% ~6.3M missing tranlsations 16.44% 10.00% 8.00% 6.00% expand UMLS for English-Greek and English-Romanian 4.00% 2.00% 0.00% 1.72% 2.88% 2.59% 2.43% 1.21% 1.79% 3.26% 0.55% 2.06% 1.40% 7

Methodology: Term Alignment Pipeline Parallel Corpus MetaMap Term Alignment Link to UMLS Abraxane monotherapy is indicated for the treatment of metastatic breast cancer C0278488, Neoplastic Process η µονοθεραπεία µε abraxane ενδείκνυται για τη θεραπεία µεταστατικού καρκίνου µαστού 8

Methodology: Term Alignment Algorithms Supervised machine learning method Random Forest Classifier (EACL 2014, EMNLP 2014) Exploits internal structure of terms (character n-gram feature representation) Requires positive and negative instances for training Out-of-domain seed dictionary (i.e. BabelNet) Unsupervised approach Part of Moses SMT (Koehn et al., 2007) Statistical Phrase Alignment (Koehn et al., 2003) (Out of the box solution) Exploits co-occurrences of source and target terms Works well for frequently occurring terms Performance decreases for rare terms 9

Methodology: Hybrid Approach For s to be translated, RF and SPA suggest N ranked candidate translations Classification margin Translation probability SPA 1) του σακχαρώδη διαβήτη τύπου 2 2) σακχαρώδη διαβήτη τύπου 2 3) σακχαρώδους διαβήτη τύπου 2 type 2 diabetes mellitus RF 1) διαβήτη τύπου 2 2) διαβήτη τύπου 2 και καρδιακή 3) σακχαρώδη διαβήτη τύπου 2 13

Methodology: Hybrid Approach Dictionaries containing N candidate translations have a limited number of applications (e.g., SMT) To enrich existing terminologies, human curators need to post-edit the output of term alignment methods Objective is to improve the precision of higher ranking candidates (precision@n=1) Intersection of RF and SPA; ranking candidates according to translation probability by SPA SPA 1) του σακχαρώδη διαβήτη τύπου 2 2) σακχαρώδη διαβήτη τύπου 2 3) σακχαρώδους διαβήτη τύπου 2 type 2 diabetes mellitus Voting RF 1) διαβήτη τύπου 2 2) διαβήτη τύπου 2 και καρδιακή 3) σακχαρώδη διαβήτη τύπου 2 1) σακχαρώδη διαβήτη τύπου 2 14

Experiments: Corpora EMEA (Tiedemann, 2009), a biomedical parallel corpus from European Medicines Agency - 1.5K sentence aligned documents in 22 languages - Drug usage guidelines en el en ro - 372K sentences - 17,907 unique English MWTs - 321K sentences - 16,625 unique English MWTs 15

Experiments: Evaluation Randomly sampled 1,000 English MWTs for each English MWT, we selected the top 20 translation candidates. en-el RF SPA Voting en-ro RF SPA Voting 16

Precision Experiments: Results 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 RF SPA RF+SPA 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # candidate translations per source term English-Greek dataset 18

Precision Experiments: Results 1 RF SPA RF+SPA 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # candidate translations per source term English-Romanian dataset 19

Recall Experiments: Results 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 RF SPA RF+SPA 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # candidate translations per source term English-Greek dataset 20

Recall Experiments: Results 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 RF SPA RF+SPA 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # candidate translations per source term English-Romanian dataset 21

Error Analysis RF Partial matches urea cycle disorder discontinuous translations metabolic diseases (disorder) (cycle) (urea) διαταραχών του κύκλου της ουρίας (diseases) (hereditary) (metabolic) boli ereditare de metabolism SPA Statistically-based tool. -Performance largely affected by term frequency top-20 precision on terms having varying frequency 22

Top-20 Precision Error Analysis 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SPA RF RF + SPA Performance decreases for lower frequency terms [100 200] [50 100] [25 50] [15 25] [10 15] [5 10] [1 5] frequency ranges English-Greek dataset 23

top-20 Precision Error Analysis 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SPA RF RF + SPA [100 200] [50 100] [25 50] [15 25] [10 15] [5 10] [1 5] frequency ranges English-Romanian dataset 24

Discussion Hybrid approach Compilation of bilingual terminologies from parallel corpora Enrich UMLS with two under-resource languages Observations: Substantially improves top-1 precision of RF and SPA Outperforms SPA when translating low-frequency terms Low recall 25

Future Work Investigate integration of bilingual terminologies with SMT Parallel corpus SPA SPA RF Phrase table SMT LM Lower top-1 precision Poor performance for low-frequency terms 26

Questions? 27