etraces/etrap: Computational Aspects of Historical Text Re-use

Σχετικά έγγραφα
Textual Re-use on Ancient Greek Texts: A case study on Plato's works

Text Mining in den ehumanities. Aspects of eaqua and etraces

English PDFsharp is a.net library for creating and processing PDF documents 'on the fly'. The library is completely written in C# and based

English PDFsharp is a.net library for creating and processing PDF documents 'on the fly'. The library is completely written in C# and based

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Gerhard Heyer Universität Leipzig

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften. Text Re-use, Knowledge Transfer, and Applications

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Advanced Subsidiary Unit 1: Understanding and Written Response

Lecture 2. Soundness and completeness of propositional logic

EE512: Error Control Coding

derivation of the Laplacian from rectangular to spherical coordinates

Τμήμα Πολιτικών και Δομικών Έργων

Gerhard Heyer Universität Leipzig

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Modbus basic setup notes for IO-Link AL1xxx Master Block

Instruction Execution Times

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

[1] P Q. Fig. 3.1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

Every set of first-order formulas is equivalent to an independent set

Elements of Information Theory

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ

TMA4115 Matematikk 3

the total number of electrons passing through the lamp.

Εκδηλώσεις Συλλόγων. La page du francais. Τα γλωσσοψυχο -παιδαγωγικά. Εξετάσεις PTE Δεκεμβρίου 2013

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS International General Certificate of Secondary Education

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ

Section 9.2 Polar Equations and Graphs

Math 6 SL Probability Distributions Practice Test Mark Scheme

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

2 Composition. Invertible Mappings

Modern Greek Extension

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

The challenges of non-stable predicates

Section 8.3 Trigonometric Equations

CE 530 Molecular Simulation

ΦΩΤΟΓΡΑΜΜΕΤΡΙΚΕΣ ΚΑΙ ΤΗΛΕΠΙΣΚΟΠΙΚΕΣ ΜΕΘΟΔΟΙ ΣΤΗ ΜΕΛΕΤΗ ΘΕΜΑΤΩΝ ΔΑΣΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Διπλωματική Εργασία. Μελέτη των μηχανικών ιδιοτήτων των stents που χρησιμοποιούνται στην Ιατρική. Αντωνίου Φάνης

Démographie spatiale/spatial Demography

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS General Certificate of Education Ordinary Level

ΣΧΕΔΙΑΣΜΟΣ ΔΙΚΤΥΩΝ ΔΙΑΝΟΜΗΣ. Η εργασία υποβάλλεται για τη μερική κάλυψη των απαιτήσεων με στόχο. την απόκτηση του διπλώματος

Approximation of distance between locations on earth given by latitude and longitude

Statistical Inference I Locally most powerful tests

C.S. 430 Assignment 6, Sample Solutions

* * GREEK 0543/02 Paper 2 Reading and Directed Writing May/June 2009

Calculating the propagation delay of coaxial cable

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Other Test Constructions: Likelihood Ratio & Bayes Tests

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Assalamu `alaikum wr. wb.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS General Certificate of Education Ordinary Level

Οι αδελφοί Montgolfier: Ψηφιακή αφήγηση The Montgolfier Βrothers Digital Story (προτείνεται να διδαχθεί στο Unit 4, Lesson 3, Αγγλικά Στ Δημοτικού)

Homework 3 Solutions

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

Business English. Ενότητα # 9: Financial Planning. Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Precision Metal Film Fixed Resistor Axial Leaded

Ανάκτηση Πληροφορίας

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

Στο εστιατόριο «ToDokimasesPrinToBgaleisStonKosmo?» έξω από τους δακτυλίους του Κρόνου, οι παραγγελίες γίνονται ηλεκτρονικά.

The Simply Typed Lambda Calculus

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ

Πτυχιακή Εργασία Η ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΤΩΝ ΑΣΘΕΝΩΝ ΜΕ ΣΤΗΘΑΓΧΗ

Galatia SIL Keyboard Information

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Buried Markov Model Pairwise

Χρειάζεται να φέρω μαζί μου τα πρωτότυπα έγγραφα ή τα αντίγραφα; Asking if you need to provide the original documents or copies Ποια είναι τα κριτήρια

Αναερόβια Φυσική Κατάσταση

Δυσκολίες που συναντούν οι μαθητές της Στ Δημοτικού στην κατανόηση της λειτουργίας του Συγκεντρωτικού Φακού

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Επιχειρηματικότητα και Εκπαίδευση. Ανάπτυξη Ικανοτήτων Μαθητών 12 Δεκεμβρίου, 2015

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Η ΕΡΕΥΝΑ ΤΗΣ ΓΛΩΣΣΙΚΗΣ ΑΛΛΑΓΗΣ ΣΤΑ ΚΕΙΜΕΝΑ ΤΗΣ ΜΕΣΑΙΩΝΙΚΗΣ ΕΛΛΗΝΙΚΗΣ: ΜΕΘΟΔΟΛΟΓΙΚΗ ΔΙΕΡΕΥΝΗΣΗ ΤΩΝ

Code Breaker. TEACHER s NOTES

Problem Set 3: Solutions

TAMIL NADU PUBLIC SERVICE COMMISSION REVISED SCHEMES

ΣΟΡΟΠΤΙΜΙΣΤΡΙΕΣ ΕΛΛΗΝΙΔΕΣ

Transcript:

etraces/etrap: Computational Aspects of Historical Text Re-use Marco Büchler Göttingen Centre for Digital Humanities Georg-August University Göttingen, Germany Feb. 14Th 2014

A fundamental question How can the computer really support to identify lines of transmissions (text re-use) on big data? 2

A fundamental answer Naive method: - Compare every text chunk (like sentence) with each other. - TLG: 5,500,000*5,500,000 = 3.025e13 comparisons - Assumption: Comparison rate of 1000 sentences/sec. - This process would run about 3.025e10 seconds or more than 959 years. 3

A fundamental question How can the computer really support to identify lines of transmissions (text re-use)? 4

Complete view: Re-use Types - Stability (yellow): syntactic vs. semantic - Purpose (green) - Size of Text Re-use (blue) - Literary classification (light blue) - Degree of distribution (lila) - Written and oral transmission 5

Complete view: Re-use Styles 6

Basic Question Basic question: Distribution of Re-use Types und Re-use Styles are most often unknown. Question: Which model(s) should be chosen? 7

Approach 7-Level-Architecture to deal with Data Diversity: a. Segmentation: Defining Re-use Units b. Preprocessing: Cleaning of Re-use Units c. Featuring: Creating of Fingerprints d. Selection: Selection of Features from Fingerprint e. Linking: Linking of Re-use Units given common Features f. Scoring: Scoring of Re-use Overlaps of pairwise linked Re-use Units g. Postprocessing: optional Post-Processing of the Re-use Graph Implemented in TRACER software: more than a million permutations of implementations of different levels are recently possible 8

A (second) fundamental question Using the computer for big data with the data diversity, how do you evaluate with such a data diversity? 9

Methodology Basic idea: Embed Historical Text Re-use in Shannon s Noisy Channel Theorem 1 0

Evaluation methodology: Noisy Channel Evaluation I Hint: There is always the entire result of a Digital Library compared to a Randomised Digital Library. 1 1

Evaluation methodology: Noisy Channel Evaluation II Signal-Noise-Ratio from signal and satellite technique: Scaled Signal-Noise-Ratio, in unit Dezibel (db): Mining Ability (in db): With Mining Ability it is measured how good a technique (both manually and automatically) can distinguish a pattern from noise. 1 2

Evaluation methodology: Noisy Channel Evaluation III Be careful with Big Data Analysis in general. 1 3

Untersuchungsmethodik: Text Re-use Compression 1 4

Text Re-use on English Bibles Different intentions a. American Standard Version (ASV): 20. Jh., Fokus auf USA b. Bible in Basic English (BBE): Verse in einfacher Sprache (gleicher Inhalt) c. Darby Version (DBY): im 19. Jh. aus hebräischen und griechischen Texten erstellt, mehrere Editoren durch den Tod von Darby d. King James Version (KJV): englischen Bibelversionen aus dem 16. Jh. e. Webster s Revision (WBS): Revision von KJV im 19. Jh. f. World English Bible (WEB): 21. Jh., Fokus auf weltweite Gültigkeit g. Young Literal Translation (YLT): Verse an hebräischer Syntax orientiert 1 5 (Syntax)

Text Re-use on English Bibles Results Recall I Re-use Style: Bis zu welchem Grad der Veränderung kann ein Text Reuse noch automatisch erkannt werden? 1 6

Text Re-use on English Bibles Results Recall II Re-use Style: Bis zu welchem Grad der Veränderung kann ein Text Re-use noch automatisch erkannt werden? - Word based featuring eignet sich besser solange es sich nicht um Duplikate handelt - Analyse von KJV vs. WBS zeigt jedoch auch, dass Shingling-Techniken anwendbar sind - BBE (semantische Veränderung) und YLT (syntaktische Veränderung) zeigen, dass bei größeren Abweichungen bereits eine deutlich schlechtere 1 Performance gemessen werden kann 7

U O W IT H W IT H T Text Re-use on English Bibles Recall vs. Text Re-use Compression 1 8

Text Re-use on English Bibles F-Measure vs. Noisy Channel Eval. 1 9

Reminder: Methodology Basic idea: Embed Historical Text Re-use in Shannon s Noisy Channel Theorem 2 0

Noisy Channel Mining I - Hyphen: birth-day vs. birthday, back-bone vs. backbone zareth-shahar vs. zarethshahar - Prefix: ambush vs. ambushment shimite vs. shimites - Suffix: bearing vs. childbearing - Composition: sea-beast vs. sea-monster (synonym) sea-gull vs. sea-mew vs. sea-hawk (cohyponym) apple-tree vs. citron-tree (cohyponym) 2 1

Noisy Channel Mining II - Similar written words: anathothite vs. anethothite vs. anetothite vs. annethothite vs. antothite - Further around 4,000 word pairs are extracted but not classified that contains noise But also: punishment vs. torment - Ignored: any kind of negation (e. g. book Genesis, chapter 34, verse 19): not defer (ASV, KJV, Webster), without loss of time (Basic), not delay (Darby, YLT), and not wait (WEB) 2 2

Big Data Why do Big Data make sense? 2 3

Level 6: Post processing A text re-use from a document with a high text re-use coverage is more trustworthy than from a less frequently re-used text. A text re-use from a section of a document with a high text re-use temperature is more trustworthy than from a less frequently reused part of a document. 2 4

Visualisation How do you visualize Big Data from Text Re-use? 2 5

Microview I Plato: Timaeus 91b7 ff. αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως συναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον περὶ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν περὶ δὲ τῆς μήτρας ὅτι τε ζῷόν ἐστι καὶ αὕτη καὶ τὰ ἀπὸ τοῦ πατρὸς ἐξερχόμενα μόρια ταῦτα πάλιν λέγει Πλάτων αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον καὶ ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν 2 6

Microview II Plato: Timaeus 91b7 ff. αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως συναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον περὶ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν περὶ δὲ τῆς μήτρας ὅτι τε ζῷόν ἐστι καὶ αὕτη καὶ τὰ ἀπὸ τοῦ πατρὸς ἐξερχόμενα μόρια ταῦτα πάλιν λέγει Πλάτων αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον καὶ ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν 2 7

Microview III 2 8

Microview IV 2 9

Contacts For more details: http://www.etraces.e-humanties.net Google group for Historical Text Re-use: http://groups.google.com/group/historical-text-re-use Marco Büchler Göttingen Centre for Digital Humanities Georg August University Göttingen, Germany mbuechler@e-humanities.net 3 0

Dotplot view 3 1

ACID for the ehumanities Acceptance Complexity Interoperability Diversity 3 2

Interdisciplinary collaborations: The problem! 3 3

Interdisciplinary collaborations: The problem! How to get acceptance of humanists if text mining is a black box, that can't be looked in? 3 4

Interdisciplinary collaborations: The problem! Transparency: How to provide user-friendly insights into, complex mining techniques and machine learning? 3 5

Jumping into the mining process: Level 0 Initial request 3 6

Jumping into the mining process: Level 1 Preprocessing 3 7

Jumping into the mining process: Level 2 Featuring 3 8

TRACER Implemented in TRACER (http://etraces.e-humanities.net/tracer): - Tool available in in Q3/4 2013 - Teaching courses (full week) are planned for Q3/4 2013 - More than one million permutations of implementations of the 7 levels possible (06/2013) - Starting in Q3/2013 to integrate a CTS client for getting data directly from at least one repository 3 9

Contacts For more details: http://www.etraces.e-humanties.net Google group for Historical Text Re-use: http://groups.google.com/group/historical-text-re-use Marco Büchler Natural Language Processing Group Department of Computer Science University of Leipzig mbuechler@e-humanities.net 4 0