Sharing Data and Language Resources: Technical Aspects and Best Practices. Stelios Piperidis ELRC, ILSP/Athena RC

Σχετικά έγγραφα
Sharing Data and Language Resources: Technical Aspects and Best Practices. Stelios Piperidis ELRC, ILSP/Athena RC

Sharing Data and Language Resources: Technical Aspects and Best Practices. Stelios Piperidis ELRC, ILSP/Athena RC

Getting Data and Language Resources: Technical & Practical Issues

Sharing Data and Language Resources: Technical Aspects and Best Practices. Stelios Piperidis ELRC, ILSP/Athena RC

Διαμοιρασμός δεδομένων & γλωσσικών πόρων: τεχνικά ζητήματα. Πένυ Λαμπροπούλου ΙΕΛ/ΕΚ "ΑΘΗΝΑ"

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

How to register an account with the Hellenic Community of Sheffield.

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

derivation of the Laplacian from rectangular to spherical coordinates

The Simply Typed Lambda Calculus

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

2 Composition. Invertible Mappings

ίκτυο προστασίας για τα Ελληνικά αγροτικά και οικόσιτα ζώα on.net e-foundatio // itute: toring Insti SAVE-Monit

Bring Your Own Device (BYOD) Legal Challenges of the new Business Trend MINA ZOULOVITS LAWYER, PARNTER FILOTHEIDIS & PARTNERS LAW FIRM

Modbus basic setup notes for IO-Link AL1xxx Master Block

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

Τέσσερις καλές πρακτικές για την ανάπτυξη λογισμικού στην Ανοιχτή Επιστήμη. Φώτης Ε. Ψωμόπουλος, Ερευνητής Γ ΙΝΕΒ ΕΚΕΤΑ

Development and operation of University-Industry Liaison Offices in the Republic of Cyprus: Creating the future Dr Gregory Makrides, Director of

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΛΟΠΟΝΝΗΣΟΥ

Γιπλυμαηική Δπγαζία. «Ανθπυποκενηπικόρ ζσεδιαζμόρ γέθςπαρ πλοίος» Φοςζιάνηρ Αθανάζιορ. Δπιβλέπυν Καθηγηηήρ: Νηθφιανο Π. Βεληίθνο

Right Rear Door. Let's now finish the door hinge saga with the right rear door

Μικρομεσαίες Επιχειρήσεις Πληροφορικής Ευκαιρίες Χρηματοδότησης σε Ευρωπαϊκό Επίπεδο

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ενότητα 2 Εργαλεία για την αναζήτηση εργασίας: Το Βιογραφικό Σημείωμα

Test Data Management in Practice

Advanced Subsidiary Unit 1: Understanding and Written Response

Special edition of the Technical Chamber of Greece on Video Conference Services on the Internet, 2000 NUTWBCAM

Πνευματική ιδιοκτησία και ιατρικά επιστημονικά έργα

Partial Differential Equations in Biology The boundary element method. March 26, 2013

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΙΣΧΥΟΣ

Finite Field Problems: Solutions

CYTA Cloud Server Set Up Instructions

Επιβλέπουσα Καθηγήτρια: ΣΟΦΙΑ ΑΡΑΒΟΥ ΠΑΠΑΔΑΤΟΥ

ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ ΣΕ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΕΘΝΩΝ ΣΧΕΣΕΩΝ & ΟΙΚΟΝΟΜΙΑΣ

Δθαξκνζκέλα καζεκαηηθά δίθηπα: ε πεξίπησζε ηνπ ζπζηεκηθνύ θηλδύλνπ ζε κηθξνεπίπεδν.

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Approximation of distance between locations on earth given by latitude and longitude

Paper Reference. Paper Reference(s) 1776/04 Edexcel GCSE Modern Greek Paper 4 Writing. Thursday 21 May 2009 Afternoon Time: 1 hour 15 minutes

Επιχειρηματικότητα και Εκπαίδευση. Ανάπτυξη Ικανοτήτων Μαθητών 12 Δεκεμβρίου, 2015

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Homework 3 Solutions

EU-Profiler: User Profiles in the 2009 European Elections

EE512: Error Control Coding

ΕΘΝΙΚΗ ΣΧΟΛΗ ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

«ΨΥΧΙΚΗ ΥΓΕΙΑ ΚΑΙ ΣΕΞΟΥΑΛΙΚΗ» ΠΑΝΕΥΡΩΠΑΪΚΗ ΕΡΕΥΝΑ ΤΗΣ GAMIAN- EUROPE

«Έντυπο και ψηφιακό βιβλίο στη σύγχρονη εποχή: τάσεις στην παγκόσμια βιομηχανία».

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

AKAΔΗΜΙΑ ΕΜΠΟΡΙΚΟΥ ΝΑΥΤΙΚΟΥ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Η ΧΡΗΣΗ ΒΙΟΚΑΥΣΙΜΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ ΠΛΕΟΝΕΚΤΗΜΑΤΑ-ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΠΡΟΟΠΤΙΚΕΣ

Στεγαστική δήλωση: Σχετικά με τις στεγαστικές υπηρεσίες που λαμβάνετε (Residential statement: About the residential services you get)

Other Test Constructions: Likelihood Ratio & Bayes Tests

Στο εστιατόριο «ToDokimasesPrinToBgaleisStonKosmo?» έξω από τους δακτυλίους του Κρόνου, οι παραγγελίες γίνονται ηλεκτρονικά.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

The challenges of non-stable predicates

ΠΑΡΟΥΣΙΑΣΗ ΙΔΕΠ ΣΥΜΒΟΥΛΕΣ ΓΙΑ ΣΩΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΩΝ ERASMUS+ STRATEGIC PARTNERSHIPS

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΣΗΜΑΝΤΙΚΗ ΑΝΑΚΟΙΝΩΣΗ ΓΙΑ ΤΗΝ ΔΙΕΘΝΗ ΕΚΘΕΣΗ VEHICLE AND ON-VEHICLE EQUIPMENTS FAIR

Τμήμα Πολιτικών και Δομικών Έργων

TMA4115 Matematikk 3

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΒΑΛΕΝΤΙΝΑ ΠΑΠΑΔΟΠΟΥΛΟΥ Α.Μ.: 09/061. Υπεύθυνος Καθηγητής: Σάββας Μακρίδης

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

C.S. 430 Assignment 6, Sample Solutions

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

Μιχάλης Βαφόπουλος, vafopoulos.org

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

1) Abstract (To be organized as: background, aim, workpackages, expected results) (300 words max) Το όριο λέξεων θα είναι ελαστικό.

GREECE BULGARIA 6 th JOINT MONITORING

Galatia SIL Keyboard Information

Instruction Execution Times

VBA ΣΤΟ WORD. 1. Συχνά, όταν ήθελα να δώσω ένα φυλλάδιο εργασίας με ασκήσεις στους μαθητές έκανα το εξής: Version ΗΜΙΤΕΛΗΣ!!!!

Section 8.3 Trigonometric Equations

Διαχείριση Έργων Πληροφορικής

ΔΘΝΗΚΖ ΥΟΛΖ ΓΖΜΟΗΑ ΓΗΟΗΚΖΖ ΚΑ ΔΚΠΑΙΓΔΤΣΙΚΗ ΔΙΡΑ ΣΔΛΗΚΖ ΔΡΓΑΗΑ

ΕΘΝΙΚΗ ΣΧΟΛΗ ΤΟΠΙΚΗΣ ΑΥΤΟ ΙΟΙΚΗΣΗΣ Β ΕΚΠΑΙ ΕΥΤΙΚΗ ΣΕΙΡΑ ΤΜΗΜΑ: ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ. Θέµα:

Προσωπική Aνάπτυξη. Ενότητα 2: Διαπραγμάτευση. Juan Carlos Martínez Director of Projects Development Department

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ ΝΑΥΤΙΛΙΑ

ΚΑΘΟΡΙΣΜΟΣ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΗΡΕΑΖΟΥΝ ΤΗΝ ΠΑΡΑΓΟΜΕΝΗ ΙΣΧΥ ΣΕ Φ/Β ΠΑΡΚΟ 80KWp

ΕΘΝΙΚΗ ΣΧΟΛΗ ΔΗΜΟΣΙΑΣ ΔΙΟΙΚΗΣΗΣ ΙΓ' ΕΚΠΑΙΔΕΥΤΙΚΗ ΣΕΙΡΑ

Ζητήματα Τυποποίησης στην Ορολογία - ο ρόλος και οι δράσεις της Επιτροπής Ορολογίας ΤΕ21 του ΕΛΟΤ

SPEEDO AQUABEAT. Specially Designed for Aquatic Athletes and Active People

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

ΑΓΓΛΙΚΑ IV. Ενότητα 6: Analysis of Greece: Your Strategic Partner in Southeast Europe. Ιφιγένεια Μαχίλη Τμήμα Οικονομικών Επιστημών

(Biomass utilization for electric energy production)

Επίδραση της Συμβολαιακής Γεωργίας στην Χρηματοοικονομική Διοίκηση των Επιχειρήσεων Τροφίμων. Ιωάννης Γκανάς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Η κατάσταση της ιδιωτικότητας Ηλίας Χάντζος, Senior Director EMEA

Math 6 SL Probability Distributions Practice Test Mark Scheme

Transcript:

Sharing Data and Language Resources: Technical Aspects and Best Practices Stelios Piperidis ELRC, ILSP/Athena RC 1

Illustration of data packaging workflow Data LRs (Language Resources) Value chain activity Identification & Selection of Data Basic documentation Cleaning & Conversion (content, container) Validation Processing of LRs (e.g. Alignment) Description & Storage of LRs Legal Status determination PSI vs Licensing Privacy handling and acceptance (i.e. anonymization) Market knowledge Upload data to the Repository & Sharing Industry network Partnership ELRC Public Partner ELRC / EC 2

Issues to address (1) Identification & Selection of Data Legal status determination Basic documentati on Identification of sources Identification and selection of data sets (raw data) Legal issues Licensing PSI vs. Licensing Privacy and ethics management Partnership Market knowledge Industry network 3

Legal issues Procedural Issues Open data by default e.g. PSI Data requests Licensing ELRC can help with the procedures Model licensing agreements Government Open Licenses Standard Re-use Licenses License interoperability 4

Issues to address (2) Identification & Selection of Data Legal status determination Basic documentati on Documentation with basic identification elements (Languages, Domains, year, ) Technical issues Choice of Medium and Data formats for the transfer of PSI vs. Licensing the raw data (preference for the ELRC ad hoc platform) Partnership Market knowledge Industry network 5

Any digital textual data!! 6

Issues to address (3) Cleaning & Conversion (content, container) Technical issues (cont) Cleaning of data format encoding Character sets e.g. UTF8 discarding formatting, e.g. bold, italic; graphics, ads, Privacy handling and acceptance (i.e. anonymization) tables, html tags, etc. Market knowledge ELRC Industry network 7

Formatting example Greece is a place of culture, the arts and sciences. Its tradition of contribution to global cultural and scientific communities, combined with its outstanding natural beauty and excellent infrastructure, has made it an ideal place in which to hold conferences. Over the last few years, Greece has more and more Greece is a place of culture, the arts and frequently welcomed people of letters, sciences and the arts, who sciences. Its tradition of contribution to have participated in symposia, conferences and exhibitions. Athens global cultural and scientific communities, International Airport Eleftherios Venizelos, one of the most modern combined with its outstanding natural airports in the world in operation since 2001, greatly boosted the beauty and excellent infrastructure, has organization of international conferences. made it an ideal place in which to hold conferences. Over the last few years, Greece has more and more frequently welcomed people of letters, sciences and the arts, who have participated in symposia, conferences and exhibitions. Athens International Airport Eleftherios Venizelos, one of the most modern airports in the world in operation since 2001, greatly boosted the organization of international conferences. Η Ελλάδα αποτελεί έναν χώρο πολιτισμού, τέχνης και επιστημών. Η μακραίωνη συμβολή της στο παγκόσμιο γίγνεσθαι, σε συνδυασμό με το μοναδικό φυσικό κάλλος και τις άρτιες υποδομές, την καθιστούν ιδανικό τόπο διεξαγωγής συνεδρίων. Τα τελευταία χρόνια, η ελληνική Η Ελλάδα αποτελεί έναν χώρο πολιτισμού, επικράτεια υποδέχεται όλο και συχνότερα ανθρώπους των τέχνης και επιστημών. Η μακραίωνη γραμμάτων, των επιστημών και των τεχνών, οι οποίοι συμβολή της στο παγκόσμιο γίγνεσθαι, σε συμμετέχουν σε συμπόσια, συνέδρια και εκθέσεις. Ο Διεθνής συνδυασμό με το μοναδικό φυσικό κάλλος Αερολιμένας Αθηνών «Ελευθέριος Βενιζέλος», ένα από τα και τις άρτιες υποδομές, την καθιστούν πλέον σύγχρονα αεροδρόμια παγκοσμίως, ο οποίος ιδανικό τόπο διεξαγωγής συνεδρίων. Τα λειτουργεί από το 2001, έδωσε μεγάλη ώθηση στη τελευταία χρόνια, η ελληνική επικράτεια διοργάνωση διεθνών συνεδρίων. υποδέχεται όλο και συχνότερα ανθρώπους των γραμμάτων, των επιστημών και των τεχνών, οι οποίοι συμμετέχουν σε συμπόσια, συνέδρια και εκθέσεις. Ο Διεθνής Αερολιμένας Αθηνών «Ελευθέριος Βενιζέλος», ένα από τα πλέον σύγχρονα αεροδρόμια παγκοσμίως, ο οποίος λειτουργεί από το 2001, έδωσε μεγάλη ώθηση στη διοργάνωση διεθνών συνεδρίων. 8

Issues to address (4) Cleaning & Conversion (content, container) Technical issues (cont) File cleaning (e.g. conversion to XML, XLIFF, etc.) Data anonymization Privacy handling and acceptance (i.e. anonymization) Market knowledge ELRC Industry network 9

Data anonymization Identify a large source of data on individuals, organizations etc. Use a Named Entity Recognizer (NER) to find and remove private biodata (names, locations, dates, birth information, etc.) and replace with generic placeholders Confirm results meet acceptable requirements Reject data if anonymization is not accurate as required 10

Issues to address (5) Validation Validation and Quality control of the output of the anonymization procedure Validation and Quality Control of the output (Language Resource format, content) accept / reject LR Public partner 11

Issues to address (6) Processing of LRs (e.g. Alignment) Description & Storage of LRs Data preparation and processing for Automated Translation tools (e.g. Alignment) Description of the Language Resource (meta-data) Packaging and delivery (Data Repository with e-sharing) to EC and Owner Upload data to the Repository & Sharing Market knowledge ELRC / ΕΕ Industry network 12

Cooperation actions Identification of sources Identification and selection of data sets (raw data) Data can be obtained from the visible sources (e.g. harvested from web) Data can be handed over by the public sector players Public sector players can boost the identification of visible sources Processing indicated above can be carried out in cooperation by the ELRC and the data provider 13

How ELRC can help? Support for all procedures and technical issues Support services ELRC portal 14

ELRC portal www.lr-coordination.eu Screen shot goes here 15

How ELRC can help? Support for all procedures and technical issues Support services ELRC portal technical & legal support helpdesk 16

ELRC portal: Helpdesk Screen shot goes here 17

How ELRC can help? Support for all procedures and technical issues Support services ELRC portal technical & legal support helpdesk forum 18

ELRC Portal: Web Forum Screen shot goes here 19

How ELRC can help? Support for all procedures and technical issues Support services ELRC portal technical & legal support helpdesk forum repository for sharing LRs 20

ELRC-SHARE repository 21

How to Contribute Data (1/8) Go to the ELRC-SHARE Repository: elrc-share.ilsp.gr Click the Register button 22

How to Contribute Data (2/8) Register / Login Register Activate account Login Contribute data Describe Upload 23

How to Contribute Data (3/8) Fill in the info Read the Terms of Service and click Accept if you agree Click the Create Account button 24

How to Contribute Data (4/8) Your request is acknowledged and an activation email is sent to the address you indicated Check your email and click the activation link 25

How to Contribute Data (5/8) You get redirected to the data contribution form (or click the Contribute Resources button) 26

How to Contribute Data (6/8) Fill in the details of the dataset 27

How to Contribute Data (7/8) Browse your computer for the respective.zip file containing your data Click Submit 28

How to Contribute Data (8/8) Repeat the process if you want to contribute another resource, or log out 29

Conclusions Repurposing existing data (human translations) is the best way to improve Automated Translation quality Data-driven paradigms provide an efficient way to leverage value from existing resources ELRC can help reviewing data for suitability (at any phase) Do not underestimate the value of your language resources, foresee a Data Management Plan 30

Best practice for the future: Capitalize on your valuable data Best Practice in Data Management 31

My data in the future Now that I know the value of data, what should my plans be? What are the best ways to collect, maintain, archive and re-use my data In particular how can I use it for improving MT performances? 32

Main phases of data development Value chain activity Identification & Selection of Data Basic documentation Cleaning & Conversion (content, container) Validation Processing of LRs (e.g. Alignment) Description & Storage of LRs Legal Status determination PSI vs Licensing Privacy handling and acceptance (i.e. anonymization) Market knowledge Industry network This can be part of the data management plan (DMP) Upload data to the Repository & Sharing Sustainable storage 33

Concerns in creating a DMP Anticipate all potential legal issues Ensure that your data IPRs are cleared Ensure that the producing parties adhere to your right ownership (e.g. relations with LSP: ensure you keep all rights) Ensure that all produced intermediary documents are yours (e.g. translation memories) Check the privacy issues in advance and plan for anonymization if necessary Define your management plan with respect to the task This has to account for the main goal (e.g. document writing, doc translation, etc.) Plan for repurposing (from documentation to LRs) Request data in a usable format (not only PDFs but also TMX/Word/XML/TXT) Make sure that your data uses up-to-date medium (no CDs?) Foresee for future publication and sharing as Public Sector Information (PSI) 34

Key elements of a Data Management Plan Specifications Ensure that the original documents are described Ensure that your needs are described Anticipate what you can get as valuable resources (a side effect) Production Whether internal or outsourced, check that the tools used are compatible with your needs and beyond (e.g. CAT, MT, etc.) Ask for the list of tools and production software Check if you can get texts in the multiple languages aligned to each other Keep a clear documentation of the data being produced (metadata) 35

Key elements of a Data Management Plan Validation In addition to your quality control, you may want to use some of the validation tools (alignment editors, etc.) Sharing/distribution Ensure your data falls within the PSI directive as transposed in your country If not, foresee an open and permissive licence If privacy is an issue, plan necessary procedures to handle these Maintenance/preservation See how ELRC can assist you There is also the option of national/ European open data portal 36

Key elements of a Data Management Plan 37