TRACER - Preprocessing

Σχετικά έγγραφα
TRACER - Preprocessing

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

the total number of electrons passing through the lamp.

Instruction Execution Times

[1] P Q. Fig. 3.1

Fractional Colorings and Zykov Products of graphs

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Code Breaker. TEACHER s NOTES

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

The Simply Typed Lambda Calculus

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Living and Nonliving Created by: Maria Okraska

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

LESSON 14 (ΜΑΘΗΜΑ ΔΕΚΑΤΕΣΣΕΡΑ) REF : 202/057/34-ADV. 18 February 2014

derivation of the Laplacian from rectangular to spherical coordinates

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

2 Composition. Invertible Mappings

Advanced Subsidiary Unit 1: Understanding and Written Response

Section 8.3 Trigonometric Equations

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Math 6 SL Probability Distributions Practice Test Mark Scheme

SPEEDO AQUABEAT. Specially Designed for Aquatic Athletes and Active People

9.09. # 1. Area inside the oval limaçon r = cos θ. To graph, start with θ = 0 so r = 6. Compute dr

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Statistical Inference I Locally most powerful tests

Models for Probabilistic Programs with an Adversary

Matrices and Determinants

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Example of the Baum-Welch Algorithm

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Text Mining Applications

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

(1) Describe the process by which mercury atoms become excited in a fluorescent tube (3)

TMA4115 Matematikk 3

Solutions to the Schrodinger equation atomic orbitals. Ψ 1 s Ψ 2 s Ψ 2 px Ψ 2 py Ψ 2 pz

Η ΠΡΟΣΩΠΙΚΗ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΧΩΡΟΥ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ CHAT ROOMS

Démographie spatiale/spatial Demography

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS International General Certificate of Secondary Education

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

H Βιοηθική και η διδακτική της. Μυρτώ Δραγώνα-Μονάχου

Lecture 2. Soundness and completeness of propositional logic

UDZ Swirl diffuser. Product facts. Quick-selection. Swirl diffuser UDZ. Product code example:

Section 9.2 Polar Equations and Graphs

Capacitors - Capacitance, Charge and Potential Difference

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

Review Test 3. MULTIPLE CHOICE. Choose the one alternative that best completes the statement or answers the question.

Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2)

Every set of first-order formulas is equivalent to an independent set

Inverse trigonometric functions & General Solution of Trigonometric Equations

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

* * GREEK 0543/02 Paper 2 Reading and Directed Writing May/June 2009

ΔΙΟΙΚΗΣΗ ΔΙΕΘΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Συντακτικές λειτουργίες

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

Η ΨΥΧΙΑΤΡΙΚΗ - ΨΥΧΟΛΟΓΙΚΗ ΠΡΑΓΜΑΤΟΓΝΩΜΟΣΥΝΗ ΣΤΗΝ ΠΟΙΝΙΚΗ ΔΙΚΗ

MathCity.org Merging man and maths

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Block Ciphers Modes. Ramki Thurimella

14 Lesson 2: The Omega Verb - Present Tense

The challenges of non-stable predicates

4.6 Autoregressive Moving Average Model ARMA(1,1)

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

ΚΕΙΜΕΝΟΚΕΝΤΡΙΚΗ ΘΕΩΡΙΑ: ΘΕΩΡΗΤΙΚΟ ΠΛΑΙΣΙΟ ΚΑΙ ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ ΣΕ ΣΠΠΕ ΜΕ ΣΤΟΧΟ ΤΟΝ ΠΕΡΙΒΑΛΛΟΝΤΙΚΟ ΓΡΑΜΜΑΤΙΣΜΟ ΤΩΝ ΜΑΘΗΤΩΝ

Paper Reference. Paper Reference(s) 1776/04 Edexcel GCSE Modern Greek Paper 4 Writing. Thursday 21 May 2009 Afternoon Time: 1 hour 15 minutes

MSM Men who have Sex with Men HIV -

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Ηλεκτρονικά σώματα κειμένων και γλωσσική διδασκαλία: Διεθνείς αναζητήσεις και διαφαινόμενες προοπτικές για την ελληνική γλώσσα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Όλνκα πνπδάζηξηαο: Γξεγνξία αββίδνπ Α.Δ.Μ:7859. Δπηβιέπνλ Καζεγεηήο: Παζραιίδεο Αζαλάζηνο ΑΝΩΣΑΣΟ ΣΔΥΝΟΛΟΓΗΚΟ ΔΚΠΑΗΓΔΤΣΗΚΟ ΗΓΡΤΜΑ ΚΑΒΑΛΑ

Ενότητα 2 Εργαλεία για την αναζήτηση εργασίας: Το Βιογραφικό Σημείωμα

Homework 3 Solutions

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

ΣΟΡΟΠΤΙΜΙΣΤΡΙΕΣ ΕΛΛΗΝΙΔΕΣ

Srednicki Chapter 55

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

Κατανοώντας και στηρίζοντας τα παιδιά που πενθούν στο σχολικό πλαίσιο

Galatia SIL Keyboard Information

ίκτυο προστασίας για τα Ελληνικά αγροτικά και οικόσιτα ζώα on.net e-foundatio // itute: toring Insti SAVE-Monit

1. Αφετηρία από στάση χωρίς κριτή (self start όπου πινακίδα εκκίνησης) 5 λεπτά µετά την αφετηρία σας από το TC1B KALO LIVADI OUT

LESSON 6 (ΜΑΘΗΜΑ ΕΞΙ) REF : 201/045/26-ADV. 10 December 2013

CE 530 Molecular Simulation

Calculating the propagation delay of coaxial cable

Objectives-Στόχοι: -Helping your Child become a fantastic language learner «Βοηθώντας το παιδί σας να γίνει εξαιρετικό στην εκμάθηση γλωσσών» 6/2/2014

STARTING STEPS IN GRAMMAR, FINAL TEST C TERM 2012 UNITS 1-18

Second Order RLC Filters

Test Data Management in Practice

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Transcript:

TRACER - Preprocessing Marco Büchler, Emily Franzini, Greta Franzini, Maria Moritz etrap Research Group Göttingen Centre for Digital Humanities Institute of Computer Science Georg August University Göttingen, Germany

Hacking Installation & configuration guide for TRACER 1) Copy Tracer from http://etrap.gcdh.de/dh-estonia/tracer your storage folder such as /roedel/mbuechler 2) Change to your storage folder with cd command 3) Unzip archive: gunzip tracer.tar.gz 4) Untar archive: tar -xvf tracer.tar 5) Change to tracer folder: cd Tracer 6) Open the config file with vim conf/tracer_config.xml 7) Configure your input file:

Hacking - Starting TRACER 1) Start the tool with the command: java -Xmx600m -Dde.gcdh.medusa.config.ClassConfig=conf/tracer_config.xml -jar tracer.jar Explanation: -Xmx600m (up to 600 MB memory), -Dfile.encoding sets the encoding of your input file (optionally), -Dde.gcdh.medusa.config.ClassConfig (configuration file)

Overview What is preprocessing? Overview of preprocessing techniques Hacking Conclusion with some test questions

Reminder: Current approach

Pre-step: Segmentation - an example

Pre-step: Segmentation

Question What do you associated with preprocessing?

Foundations for preprocessing Zipfian Law

Implications of the Zipfian Law Approx. 50% of all words occur only once Approx. 16% of all words occur only twice Approx. 8% of all words occur three times... Approx. 90% of all words in a corpus occur 10 times or less The top 300 700 most frequent words cover already about 50% of all tokens (depending language)

Question What does lemmatisation mean for this plot?

Preprocessing

Preprocessing: Directed Graph Normalisation e.g. lemmatisation

Preprocessing: Indirected Graph Normalisation e.g. synonyms, string similarity

Hacking Tasks: Run on your texts... 1)... without preprocessing 2)... 1) + lemmatisation 3)... 2) + synonym replacement

Hacking Questions: Compare the input file with the *.prep file for all preprocessing techniques. Which methods seems to work best for you? Which does make no sense for the dataset? Compare all *.meta files containing some numbers! How many words have changed and by which method? (optional and advanced) what is the number of word types for each preprocessing (can be derived from *.prep.inv first column)

Preprocessing 1) without preprocessing Hint: Configuration file can be found in ${TRACER_HOME}/conf/tracer_conf.xml All values show false

Preprocessing 2) Removing diachritics Hint: BoolRemoveDiachritics is switched on by value true

Preprocessing 3) Lower case Hint: boolmakealllowercase is switched on by value true

Preprocessing 4) Lemmatising text Hint: boollemmatisation is switched on by value true Lemmatisation can be configured by <property name="baseform_file_name" value="data/corpora/bible/bible.lemma" />

Preprocessing 5) Synonym handling Hint: boolreplacesynonyms is switched on by value true Synonyms can be configured by <property name="synonyms_file_name" value="data/corpora/bible/bible.syns" />

Preprocessing 6) String similarity for normalising variants Hint: boolreplacestringsimilarwords is switched on by value true Thresholds:

Open issue: Fragmentary words

Open issue: Fragmentary words dealing with gaps and Leiden Convention Οὐιβίῳ Ἀλεξάά [ν]δρῳ τῷ κρατίστῳ ἐπιστρατήγῳ παρὰ Ἀντ[ωνίου Δ]όμνά ου τοῦ καὶ Φιλαντι[νό]οά υά Ἀντωνίοά [υ Ῥωμανο]ῦά Τραιανείου τοῦ καά [ὶ Στρα]τά είου Ἀντινοέως. [οὐκ ἂν] εἰς τοῦτο προήχθά [η]νά, ἐά πιτρόπων [μέγιστ]εά, μέ[τριος] καὶ ἀπράά γά μων ὢνά ἄνθρά [ωπος,] εά ἰ μὴ [ὓβρι]ν τὴν μά [εγ]ίστηνά ἐπά επόνθ[ειν ὑπὸ] Ὡρίωνο[ς κ]ωά μογρα[μ]μά ατέως Φ[ι]λαδελφείά [ας τῆ]ς Ἡρακλεά ίά δου μερίδοά [ς] τά οῦ Ἀρά σινοίτου. [οὗ χά]ριν μην[ύ]ω παρὰ τ[ὰ ἀ]πειρημένα ἑαά [υτὸ]νά ἐνσείσανά τα εἰς τὴν κωμογραμματείανά [μ]ήτε σιτολογήσαντα μήτε πρά [α]κτορεύσαντά α παντελῶς ἄπορον ὄν[τ]αά. δι ἣά ν αἰτίαν κά αὶ πρότερον οὐ διέλιπον ἐντυγχάά νων καὶ νῦά ν ἀξιῶ, ἐάν σου τῇ τύχῃ δόξ[ῃ], ἀκοῦσά αί μου π[ρ]ὸς αὐτὸν πρὸς τὸ τυχεῖν με τά ῆά ςά ἀπὸ σοῦ [μι]σοπονήρου ἐγδ[ι]κίας, ἵν ὦ ὑπὸά [σ]οά ῦά κατὰά πά άντα βά εά βοηθ(ημένος). διευτύχει Ἀντώνιος Δόμνά οά ς ἐπιδέδωκα.

Gap between knowledge and experience

Test questions Statement: My lemmatisation tool <XYZ> is able to compute the baseforms of 80% of all tokens in a corpus. Good or bad???

Test questions Fact file: Language variants Different writing styles (some) Dialects Diachritics OCR errors Question: What is the difference for you?

Test questions Fact file: Language variants Different writing styles (some) Dialects Diachritics OCR errors Question: What do you think is the difference for the computer?

Importance of preprocessing Cleaning and harmonising the data When working with a new corpus (not only language but also same language in a different epoch or geographical region can take up to 70% of the overall time. Preprocessing mantra: Garbage in, garbage out.

Thank you! "Stealing from one is plagiarism, stealing from many is research" (Wilson Mitzner, 1876-1933) Visit us at http://etrap.gcdh.de