Textual Re-use on Ancient Greek Texts: A case study on Plato's works

Σχετικά έγγραφα
Text Mining in den ehumanities. Aspects of eaqua and etraces

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften. Text Re-use, Knowledge Transfer, and Applications

etraces/etrap: Computational Aspects of Historical Text Re-use

Gerhard Heyer Universität Leipzig

Gerhard Heyer Universität Leipzig

derivation of the Laplacian from rectangular to spherical coordinates

Η ΠΡΟΣΩΠΙΚΗ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΧΩΡΟΥ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ CHAT ROOMS

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

2 Composition. Invertible Mappings

EE512: Error Control Coding

Πτυχιακή Εργασία Η ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΤΩΝ ΑΣΘΕΝΩΝ ΜΕ ΣΤΗΘΑΓΧΗ

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΣΕΞΟΥΑΛΙΚΗΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ ΤΩΝ ΓΥΝΑΙΚΩΝ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΗΣ ΕΓΚΥΜΟΣΥΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

the total number of electrons passing through the lamp.

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Test Data Management in Practice

Μηχανική Μάθηση Hypothesis Testing

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

ΚΒΑΝΤΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

Démographie spatiale/spatial Demography

Fractional Colorings and Zykov Products of graphs

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

ΕΠΑΝΑΛΗΨΗ ΨΕΥΔΟΛΕΞΕΩΝ ΑΠΟ ΠΑΙΔΙΑ ΜΕ ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ ΚΑΙ ΠΑΙΔΙΑ ΤΥΠΙΚΗΣ ΑΝΑΠΤΥΞΗΣ

CE 530 Molecular Simulation

Lecture 2. Soundness and completeness of propositional logic

Models for Probabilistic Programs with an Adversary

Other Test Constructions: Likelihood Ratio & Bayes Tests

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

Math 6 SL Probability Distributions Practice Test Mark Scheme

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Problem Set 3: Solutions

[1] P Q. Fig. 3.1

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

Liner Shipping Hub Network Design in a Competitive Environment

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

Advanced Subsidiary Unit 1: Understanding and Written Response

The challenges of non-stable predicates

Statistical Inference I Locally most powerful tests

Right Rear Door. Let's now finish the door hinge saga with the right rear door

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

On a four-dimensional hyperbolic manifold with finite volume

ΕΘΝΙΚΟ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Ι ΡΥΜΑ ΝΟΜΙΚΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΠΟΛΙΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ ΣΤΟ ΣΥΝΤΑΓΜΑΤΙΚΟ ΙΚΑΙΟ

Durbin-Levinson recursive method

Assalamu `alaikum wr. wb.

Approximation of distance between locations on earth given by latitude and longitude

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

5.4 The Poisson Distribution.

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

ΣΔΥΝΟΛΟΓΗΚΟ ΔΚΠΑΗΓΔΤΣΗΚΟ ΗΓΡΤΜΑ ΗΟΝΗΧΝ ΝΖΧΝ «ΗΣΟΔΛΗΓΔ ΠΟΛΗΣΗΚΖ ΔΠΗΚΟΗΝΧΝΗΑ:ΜΔΛΔΣΖ ΚΑΣΑΚΔΤΖ ΔΡΓΑΛΔΗΟΤ ΑΞΗΟΛΟΓΖΖ» ΠΣΤΥΗΑΚΖ ΔΡΓΑΗΑ ΔΤΑΓΓΔΛΗΑ ΣΔΓΟΤ

ΠΕΡΙΕΧΟΜΕΝΑ. Μάρκετινγκ Αθλητικών Τουριστικών Προορισμών 1

Lesson Seven: ADULTERY Matthew 5:27-30

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Every set of first-order formulas is equivalent to an independent set

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

The Simply Typed Lambda Calculus

ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΑΓΡΟΤΙΚΗΣ ΟΙΚΟΝΟΜΙΑΣ & ΑΝΑΠΤΥΞΗΣ

Χρηματοοικονομική Ανάπτυξη, Θεσμοί και

"ΦΟΡΟΛΟΓΙΑ ΕΙΣΟΔΗΜΑΤΟΣ ΕΤΑΙΡΕΙΩΝ ΣΥΓΚΡΙΤΙΚΑ ΓΙΑ ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΕΤΗ "

Math221: HW# 1 solutions

Homomorphism in Intuitionistic Fuzzy Automata

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Το κοινωνικό στίγμα της ψυχικής ασθένειας

Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Η ΨΥΧΙΑΤΡΙΚΗ - ΨΥΧΟΛΟΓΙΚΗ ΠΡΑΓΜΑΤΟΓΝΩΜΟΣΥΝΗ ΣΤΗΝ ΠΟΙΝΙΚΗ ΔΙΚΗ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους

Solutions to the Schrodinger equation atomic orbitals. Ψ 1 s Ψ 2 s Ψ 2 px Ψ 2 py Ψ 2 pz

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

Section 9.2 Polar Equations and Graphs

Γιπλυμαηική Δπγαζία. «Ανθπυποκενηπικόρ ζσεδιαζμόρ γέθςπαρ πλοίος» Φοςζιάνηρ Αθανάζιορ. Δπιβλέπυν Καθηγηηήρ: Νηθφιανο Π. Βεληίθνο

Copyright is owned by the Author of the thesis. Permission is given for a copy to be downloaded by an individual for the purpose of research and

I haven t fully accepted the idea of growing older

ΑΝΑΠΤΥΞΗ ΠΡΟΓΡΑΜΜΑΤΩΝ ΕΚΠΑΙΔΕΥΣΗΣ ΜΕ ΣΤΟΧΟ ΤΗΝ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΕΥΑΙΣΘΗΤΟΠΟΙΗΣΗ ΑΤΟΜΩΝ ΜΕ ΕΙΔΙΚΕΣ ΑΝΑΓΚΕΣ ΚΑΙ ΤΗΝ ΚΟΙΝΩΝΙΚΗ ΤΟΥΣ ΕΝΣΩΜΑΤΩΣΗ

European Human Rights Law

Areas and Lengths in Polar Coordinates

Lesson Five: LAW AND THE GOSPEL Matthew 5:17-20 LESSON OBJECTIVE:

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΖητΗματα υποδοχης και προσληψης του Franz Kafka στην ΕλλΑδα

Transcript:

Textual Re-use on Ancient Greek Texts: A case study on Plato's works Workshop on Historical Texts Boston (USA), 2010/01/13 Marco Büchler, Thomas Eckart Natural Language Processing Group Department of Computer Science University of Leipzig Annette Geßner Ancient Greek Institute of Classical Philology and Comparative Studies University of Leipzig

20 years of Fall of the Berlin Wall (Leipzig, Berlin) We are the people! 2

eaqua Marco Büchler, Thomas Eckart Natural Language Processing Group Department of Computer Science University of Leipzig Annette Geßner Ancient Greek Institute of Classical Philology and Comparative Studies University of Leipzig 3

Different research interests & Agenda Epigram: Lots of texts produce much more text mining data which can easily be accessed by a powerful Visual Analytics component. 4

What is a graph? Graph - Formal: Graph G=(V,E) V=collection of vertices, E=collection of edges - Simple: pairwise relations between objects from a certain collection Several examples of a graph: Textual reuse graph: V: collection of text passages E: collection of found reuses between V Social Network graph: V: collection of persons E: collection of relations between persons in V Co-occurrence graph: V: collection of words E: collection of found and statistically significant relations between V 5

Complexity of algorithms I Naive method: comparing every sentence with all other sentences TLG: 5,500,000*5,500,000 = 3.025e13 comparisons Assumption: It can be compared 1000 sentences/sec. This process would run about 3.025e10 seconds or more than 959 years. Even if we would compare only sentences with all significant phrases we would need about one year. That's why: Usage of divide & conquer strategies Intelligent pre-clustering of data Using occurrences of Plato, work titles or roles of Plato's works Using significant terms of Plato's work 6

Complexity of algorithms II Graph - Formal: Graph G=(V,E) V=collection of vertices, E=collection of edges - Simple: pairwise relations between objects from a certain collection 1 2 3 4 5 6 7 8 9 V = segment_corpus(c) with v1, v2,..., vn V, vi=c and vi vj for each vi V Fi=train_features(vi); for each vi V for each fk Fi ei=(vi,vj) E=select all vj containing feature fk for each ei E si=scoring(ei=(vi,vj) E; Fi; Fj); if(si<threshold){e=e\{ei}} 7

Literal citations: Algorithm αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν... 1. Step: Iterative training of possible n-grams candidates (Training) αἱ δ' αἱ δ' ἐν αἱ δ' ἐν ταῖς αἱ δ' ἐν ταῖς γυναιξὶν... 2. Removing all n-grams having a smaller frequency of 2 and having less than 5 words (Selection) 3. Removing prefixes and suffixes 4. Creating inverted list for the above detected n-grams (Mapping n-gram to sentence) 5. Collect all sentences having same n-grams (Citation candidates) 6. Compute similarity by word overlap (Dice) 8

Literal citations: portal I 9

Literal citations: portal II 10

Literal citations: portal III 11

Literal citations: Visualisation I Plato: Timaeus 91b7 ff. αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως συναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον περὶ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν περὶ δὲ τῆς μήτρας ὅτι τε ζῷόν ἐστι καὶ αὕτη καὶ τὰ ἀπὸ τοῦ πατρὸς ἐξερχόμενα μόρια ταῦτα πάλιν λέγει Πλάτων αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον καὶ ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν 12

Plato: Timaeus 91b7 ff. Literal citations: Visualisation I αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως συναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον περὶ τὴν ὥραν χρόνον πολὺν γίγνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν περὶ δὲ τῆς μήτρας ὅτι τε ζῷόν ἐστι καὶ αὕτη καὶ τὰ ἀπὸ τοῦ πατρὸς ἐξερχόμενα μόρια ταῦτα πάλιν λέγει Πλάτων αἱ δ' ἐν ταῖς γυναιξὶν αὖ μῆτραί τε καὶ ὑστέραι λεγόμεναι διὰ τὰ αὐτὰ ταῦτα ζῷον ἐπιθυμητικὸν ἐνὸν τῆς παιδοποιίας ὅταν ἄκαρπον παρὰ τὴν ὥραν χρόνον πολὺν γίνηται χαλεπῶς ἀγανακτοῦν ϕέρει καὶ πλανώμενον πάντῃ κατὰ τὸ σῶμα τὰς τοῦ πνεύματος διεξόδους ἀποϕράττον καὶ ἀναπνεῖν οὐκ ἐῶν εἰς ἀπορίας τὰς ἐσχάτας ἐμβάλλει καὶ νόσους παντοδαπὰς ἄλλας παρέχει μέχριπερ ἂν ἑκατέρων ἡ ἐπιθυμία καὶ ὁ ἔρως ξυναγαγόντες οἷον ἀπὸ δένδρων καρπὸν καταδρέψαντες ὡς εἰς ἄρουραν τὴν μήτραν ἀόρατα ὑπὸ σμικρότητος καὶ ἀδιάπλαστα ζῷα κατασπείραντες καὶ πάλιν διακρίναντες μεγάλα ἐντὸς ἐκθρέψωνται καὶ μετὰ τοῦτο εἰς ϕῶς ἀγαγόντες ζῴων ἀποτελέσωσι γένεσιν 13

Literal citations: Visualisation Live demonstration 14

Similarity thresholds for some authors Similarity distribution of textual references separated by authors 100 90 80 70 PLATO (4. BC) PLUTARCHUS (2. AD) GALENUS (2. AD) PORPHYRIUS (3. AD) CYRILLUS (5. AD) EUSEBIUS (4. AD) THEODORETUS (5. AD) STOBAEUS (5. AD) PROCLUS (5. AD) JOANNES PHILOPONUS (6. AD) SIMPLICIUS (6. AD) Frequency 60 50 40 30 20 10 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Similarity of textual references First result: As time passes, text reuse by later authors becomes much less literal. 15

Motivation I (stable graph) Time slice x Time slice x+1 Graph is built based on co-occurrence analysis. 16

Motivation II (unstable graph) Time slice x 17

Motivation III Graph Similarity 18

Graph based approach Toy sample corpus 1. 2. 3. 4. Copy from one, it is plagiarism; copy from two, it is research. Plagiarism is not the same as copyright infringement. Plagiarism is to to copy from one but to copy from two is research. The concept of copyright originates with the Statute of Anne (1710) in Great Britain. 5. In a legal context, an infringement Frers to the violation of a law or a right. 1. Step: 2. Step: Co-occurrence analysis Graph based similarity 3. Step: Intersection 4. Step: Selection (copy,from, 1.0) (copy,from) (copy,from, 1.0) (copy,one, 1.0) (copy,one) (copy,one, 1.0) (copy,it's, 1.0) (copy,it's) (copy,it's, 1.0) (copy,plagiarism, 0.8) (copy,plagiarism) (copy,plagiarism, 0.8) (copy,research, 1.0) (copy,research) (copy,research, 1.0)......... (plagiarism,from, 0.8) (plagiarism,from) (plagiarism,from, 0.8) (plagiarism,one, 0.8) (plagiarism,one) (plagiarism,one, 0.8) (plagiarism,it's, 0.8) (plagiarism,it's) (plagiarism,it's, 0.8) (plagiarism,copy, 0.8) (plagiarism,copy) (plagiarism,copy, 0.8)... (plagiarism,research), (plagiarism,research, 0.8) 0.8...... (plagiarism,copyright) (copy,copyright, 0.1) (plagiarism,research) (plagiarism,infringement) (copyright, infringement 0.1) Selection 19

Visualisations for Historians Middle Platonism Neoplatonism Live demonstration 20

Literal citations: Similarity thresholds Similarity distribution 20,00% 18,00% 16,00% Percentage of all references 14,00% 12,00% 10,00% Similarity 8,00% 6,00% 4,00% 2,00% 0,00% 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Similarity score of textual references 21

Some results problem focused What is a good similarity threshold (literal citations)? Dissimilarity vs. Fragment Plato: Low threshold provides good results as well Atthidographers: Poor quality precision less than 20% --> Rethinking Multi word expressions like King Alexander the Great (literal citations) Phrases τοῦ Κυρίου ἡμῶν Ἰησοῦ Χριστοῦ (Engl.: Our Lord Jesus Christ) Again: We are the people! Editorial references to publications Works in different editions We are the people! 22

Start and end of a reuse αἱ αἱ δὲ ἐν ταῖς γυναιξὶν αἱ δ' ἐν ταῖς γυναιξὶν αὖ αἱ δ' ἐν ταῖς γυναιξὶ μῆτραί τε καὶ ὑστέραι λεγόμεναι... μῆτραί τε καὶ ὑστέραι λεγόμεναι... μῆτραί τε καὶ ὑστέραι λεγόμεναι... μῆτραί τε καὶ ὑστέραι λεγόμεναι... 23

Scope to Shannon's Coding Theorems Textual reuse graph - Formal: Graph G=(V,E) V=collection of vertices, E=collection of edges - Simple: pairwise relations between objects from a certain collection Given: Multiple Receiver in terms of texts in different editions Modelling a noisy channel to... -... identify the systematic influence of editors -... Computer Scientists: formalise noise (what is can be systematically observed) -... Classicists: to improve understanding of variants and transmissions of texts to...... e. g. extract fragmentary authors (presentation of Monica Berti) 24

From a bird's eye view Reuse ratio = Number of inter corpus reuse/number of intra corpus reuse 25

Summary I 26

Summary II Epigram: Lots of texts produce much more text mining data which can easily be accessed by a powerful Visual Analytics component. 27

Questions? http://www.eaqua.net Marco Büchler, Thomas Eckart Natural Language Processing Group Department of Computer Science University of Leipzig mbuechler@eaqua.net Annette Geßner Ancient Greek Institute of Classical Philology and Comparative Studies University of Leipzig agessner@eaqua.net 28