Όταν το LSJ. Wikifying the LSJ Spiros Doikas. Σπύρος Δόικας. «Ελληνική Γλώσσα και Ορολογία» Αθήνα, 7-9 Νοεμβρίου 2013 9/11/2013



Σχετικά έγγραφα
23 Όταν το LSJ γνώρισε τη Βίκυ. Wikifying the LSJ. Σπύρος Δόικας. Spiros Doikas ΠΕΡΙΛΗΨΗ

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Galatia SIL Keyboard Information

Assalamu `alaikum wr. wb.

VBA ΣΤΟ WORD. 1. Συχνά, όταν ήθελα να δώσω ένα φυλλάδιο εργασίας με ασκήσεις στους μαθητές έκανα το εξής: Version ΗΜΙΤΕΛΗΣ!!!!

C.S. 430 Assignment 6, Sample Solutions

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

FSM Toolkit Exercises

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

Μορφοποίηση υπό όρους : Μορφή > Μορφοποίηση υπό όρους/γραμμές δεδομένων/μορφοποίηση μόο των κελιών που περιέχουν/

Partial Trace and Partial Transpose

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

2 Composition. Invertible Mappings

derivation of the Laplacian from rectangular to spherical coordinates

Approximation of distance between locations on earth given by latitude and longitude

EE512: Error Control Coding

Εισαγωγή στη Βιοπληροφορική

Every set of first-order formulas is equivalent to an independent set

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Παλεπηζηήκην Πεηξαηώο Τκήκα Πιεξνθνξηθήο Πξόγξακκα Μεηαπηπρηαθώλ Σπνπδώλ «Πξνεγκέλα Σπζηήκαηα Πιεξνθνξηθήο»

1) Abstract (To be organized as: background, aim, workpackages, expected results) (300 words max) Το όριο λέξεων θα είναι ελαστικό.

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Homework 3 Solutions

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΕΤΟΙΜΑΣΙΑ ΔΕΛΤΙΟΥ ΠΟΣΟΤΗΤΩΝ ΜΕ ΤΗ ΧΡΗΣΗ ΛΟΓΙΣΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ

Section 8.3 Trigonometric Equations

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΑΝΑΣΧΕΔΙΑΣΜΟΣ ΓΡΑΜΜΗΣ ΣΥΝΑΡΜΟΛΟΓΗΣΗΣ ΜΕ ΧΡΗΣΗ ΕΡΓΑΛΕΙΩΝ ΛΙΤΗΣ ΠΑΡΑΓΩΓΗΣ REDESIGNING AN ASSEMBLY LINE WITH LEAN PRODUCTION TOOLS


Learn vocabulary through music

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΙΣΧΥΟΣ

Λεξικοποιώντας το φόρουμ Σπύρος Δόικας

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Other Test Constructions: Likelihood Ratio & Bayes Tests

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Τμήμα Πολιτικών και Δομικών Έργων

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Congruence Classes of Invertible Matrices of Order 3 over F 2

Παραμύθια τησ Χαλιμϊσ, τομ. A Σελύδα 1

Reminders: linear functions

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

Example Sheet 3 Solutions

Στο εργαστήριο θα μελετηθούν: Διδάσκων: Γιώργος Χατζηπολλάς. Εργαστήριο 2: Εργαλεία Συστήματος UNIX. Ομάδες για παρουσίαση

SPEEDO AQUABEAT. Specially Designed for Aquatic Athletes and Active People

Notes on the Open Economy

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

Math 6 SL Probability Distributions Practice Test Mark Scheme

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Finite Field Problems: Solutions

Business English. Ενότητα # 9: Financial Planning. Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων

14 Lesson 2: The Omega Verb - Present Tense

ΤΟ ΣΤΑΥΡΟΔΡΟΜΙ ΤΟΥ ΝΟΤΟΥ ΤΟ ΛΙΜΑΝΙ ΤΗΣ ΚΑΛΑΜΑΤΑΣ

ΠΟΙΟΤΙΚΟΣ ΕΛΕΓΧΟΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΠΟΔΟΣΕΩΝ ΣΤΗΝ ΟΡΟΛΟΓΙΚΗ ΒΑΣΗ ΙΑΤΕ ΑΠΘ. 5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

Επιβλέπουσα Καθηγήτρια: ΣΟΦΙΑ ΑΡΑΒΟΥ ΠΑΠΑΔΑΤΟΥ

ΠΕΡΙΕΧΟΜΕΝΑ. Μάρκετινγκ Αθλητικών Τουριστικών Προορισμών 1

Right Rear Door. Let's now finish the door hinge saga with the right rear door

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

ΑΚΑΔΗΜΙΑ ΕΜΠΟΡΙΚΟΥ ΝΑΥΤΙΚΟΥ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

ΣΤΙΓΜΙΑΙΑ ΚΑΤΑΣΚΕΥΗ ΣΤΕΡΕΟΥ ΜΕΙΓΜΑΤΟΣ ΥΛΙΚΟΥ ΜΕΣΑ ΑΠΟ ΕΛΕΓΧΟΜΕΝΗ ΦΥΣΙΚΗ ΔΙΑΔΙΚΑΣΙΑ

ΣΤΥΛΙΑΝΟΥ ΣΟΦΙΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Ασφάλεια σε χώρους αναψυχής: Ένα σύστημα από έξυπνα αντικείμενα

ΑΚΑ ΗΜΙΑ ΕΜΠΟΡΙΚΟΥ ΝΑΥΤΙΚΟΥ ΜΑΚΕ ΟΝΙΑΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΕΘΝΙΚΗ ΣΧΟΛΗ ΤΟΠΙΚΗΣ ΑΥΤΟ ΙΟΙΚΗΣΗΣ Β ΕΚΠΑΙ ΕΥΤΙΚΗ ΣΕΙΡΑ ΤΜΗΜΑ: ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ. Θέµα:

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΣΧΕΔΙΑΣΜΟΣ ΔΙΚΤΥΩΝ ΔΙΑΝΟΜΗΣ. Η εργασία υποβάλλεται για τη μερική κάλυψη των απαιτήσεων με στόχο. την απόκτηση του διπλώματος

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

ΠΕΡΙΕΧΟΜΕΝΑ. Κεφάλαιο 1: Κεφάλαιο 2: Κεφάλαιο 3:

Ψηφιακό Μουσείο Ελληνικής Προφορικής Ιστορίας: πώς ένας βιωματικός θησαυρός γίνεται ερευνητικό και εκπαιδευτικό εργαλείο στα χέρια μαθητών

The Simply Typed Lambda Calculus

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

Προσομοίωση BP με το Bizagi Modeler

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΑΝΑΠΤΥΞΗ ΣΕΝΑΡΙΩΝ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΚΑΙ ΤΗΣ ΥΔΡΟΗΛΕΚΤΡΙΚΗΣ ΠΑΡΑΓΩΓΗΣ ΤΟΥ ΥΔΡΟΣΥΣΤΗΜΑΤΟΣ ΤΟΥ ΠΟΤΑΜΟΥ ΝΕΣΤΟΥ

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

Instruction Execution Times

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Συντακτικές λειτουργίες

Statistical Inference I Locally most powerful tests

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

On a four-dimensional hyperbolic manifold with finite volume

Οι αδελφοί Montgolfier: Ψηφιακή αφήγηση The Montgolfier Βrothers Digital Story (προτείνεται να διδαχθεί στο Unit 4, Lesson 3, Αγγλικά Στ Δημοτικού)

Transcript:

Όταν το LSJ γνώρισε τη Βίκυ Σπύρος Δόικας Wikifying the LSJ Spiros Doikas 9ο Συνέδριο «Ελληνική Γλώσσα και Ορολογία» Αθήνα, 7-9 Νοεμβρίου 2013 9/11/2013 10.1515 π.μ.

ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΕΡΓΟΥ PROJECT DESCRIPTION Η παρούσα εργασία αφορά στην υλοποίηση σε μορφή MediaWiki (http://lsj.translatum.gr) του αρχαιοελληνικού λεξικού Liddell, Scott, Jones (LSJ). Ξεκινώντας από ένα αρχείο xml έγινε επεξεργασία και μετατροπή (με χρήση κανονικών εκφράσεων) σε αρχείο κατάλληλο για χρήση σε MediaWiki. This paper relates the implementation of the Ancient Greek to English dictionary Liddell, Scott, Jones (LSJ) in MediaWiki format (http://lsj.translatum.gr). The original xml file was processed and converted (using regular expressions) to a file which was appropriate for use in MediaWiki. 2

ΙΣΤΟΡΙΚΟ HISTORY Το Liddell, Scott, Jones (LSJ) δημοσιεύτηκε πρώτη φορά το 1843 από της εκδόσεις της Οξφόρδης. Το λογισμικό τύπου βίκι «MediaWiki» πρωτοεμφανίστηκε το 2003 τα χωρίζουν 130 χρόνια. Μεγάλη διαφορά ηλικίας για να έρθουν τόσο κοντά. Liddell, Scott, Jones (LSJ) was originally published in 1843 by Oxford publications. Wiki-type software MediaWiki first appeared in 2003 they are 130 years apart. What a strange love affair indeed! 3

ΣΤΟΧΟΙ ΤΟΥ ΕΡΓΟΥ PROJECT OBJECTIVES Μεταγραφή των λημμάτων σε διάφορες μορφές και μεταγραμματισμούς Δυνατότητα αναζήτησης τύπου «αυτόματης συμπλήρωσης» χωρίς διάκριση πεζών/κεφαλαίων και διακριτικών Δημιουργία στυλ CSS Συλλογή αρχαιοελληνικών αποφθεγμάτων και δημιουργία επέκτασης για την εμφάνισή τους Transcription of headwords in various forms and transliterations Case-insensitive and diacritics-insensitive autocomplete search suggestions CSS styles to modify the look and feel Collection of ancient Greek quotes and development of a MediaWiki random quote extension 4

ΣΤΟΧΟΙ ΤΟΥ ΕΡΓΟΥ PROJECT OBJECTIVES Παραμετροποίηση του MediaWiki για λεξικογραφικό έργο αυτής της μορφής Δημιουργία προτύπου εισαγωγής του αρχείου csv με ενσωμάτωση των λειτουργιών Semantic Mediawiki Δημιουργία ευρετηρίων βάσει μορφής και μεταγραμματισμού Fine-tuning MediaWiki in a way that is appropriate for a lexicographic work of this nature Creation of an import template that supports Semantic Mediawiki functionality Creation of indexes for each form and transliteration 5

ΠΡΙΝ ΚΑΙ ΜΕΤΑ BEFORE/AFTER Η αρχική μορφή ενός λήμματος: This is the original format of an entry: Και η τελική μορφή: And the final format: 6

ΜΕΤΑΤΡΟΠΗ ΣΕ ΔΙΣΤΗΛΟ CONVERSION TO TWO-COLUMN FORMAT Μια σειρά μετατροπών και ενεργειών εύρεσης / αντικατάστασης έλαβε χώρα για τη δημιουργία συμβατού κώδικα με το MediaWiki. Χρησιμοποιήθηκε το πρόγραμμα επεξεργασίας κειμένου EmEditor. Σε πρώτη φάση έγινε μετατροπή του αρχείου σε δίστηλο, προσθέτοντας στηλοθέτες, με πρώτη στήλη το λήμμα και τη δεύτερη την ερμηνεία. A series of conversions and find/replace operations, using regular expressions in EmEditor, was applied in order to create html and wiki-compatible mark-up. Firstly, the file was converted to two-column format, by means of adding tab characters, with the headword in column A and the definition in column B. 7

ΕΙΣΑΓΩΓΗ ΣΕ EXCEL 2010 IMPORTING TO EXCEL 2010 Σε δεύτερη φάση έγινε εισαγωγή σε Excel 2010. To Excel 2003 θα ήταν ακατάλληλο λόγω περιορισμού σε 65.536 σειρές σε σχέση με τις 1.048.576 σειρές του Excel 2010. Ο αριθμός των λημμάτων του έργου ήταν 120.000. Ωστόσο το όριο 32.767 χαρακτήρων ανά κελί που υπάρχει και στα δύο δημιούργησε κάποια προβλήματα σε λήμματα με εκτενείς ερμηνείες. Secondly, the tab-delimited file was imported to Excel 2010. Excel 2003 would fail due to the limitation of 65,536 rows compared to 1,048,576 rows by Excel 2010. The project s headword d count was 120,000. 000 However, both versions have a limit of 32,767 characters per cell which was a problem for headwords with extended definitions. 8

ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΩΤΗΣ ΣΤΗΛΗΣ FIRST COLUMN EDITING Σε τρίτη φάση έγινε επεξεργασία της πρώτης στήλης, των λημμάτων δηλαδή. Αφαιρέθηκαν σύμβολα όπως αστερίσκοι, άνω τελείες, παύλες, εντοπίστηκαν περιπτώσεις μη συνδυασμένων διακριτικών και διορθώθηκαν, εντοπίστηκαν λήμματα με εννοιολογικές υποδιαιρέσεις και ομαδοποιήθηκαν χρησιμοποιώντας μακροεντολές στο Excel. Thirdly, the first column, containing i the headwords d was edited. Symbols like asterisks, semicolons and dashes were removed; characters with non-combined diacritics were fixed; headwords with multiple entries were grouped using Excel macros. 9

ΜΑΚΡΟΕΝΤΟΛΗ ΓΙΑ ΔΥΟ ΕΠΑΝΑΛΗΨΕΙΣ MACRO FOR TWO REPETITIONS Η μακροεντολή συγχώνευσης λημμάτων: The headword merge macro: 10

ΠΡΙΝ ΚΑΙ ΜΕΤΑ BEFORE/AFTER 11

ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΥΤΕΡΗΣ ΣΤΗΛΗΣ SECOND COLUMN EDITING Χρησιμοποιήθηκαν περί τις 40 κανονικές εκφράσεις για μετατροπή σε συμβατό βικικώδικα. Για παράδειγμα: About 40 regular expressions were used to convert the original xml into wiki-compatible markup. For example: Find: (<ref type="cross" target=")([^<]+)(lang="greek">)([^<]+)(</ref>) Replace: [[\4]] (μετατροπή εσωτερικών παραπομπών convert internal references) Find : (<span class=foreign>)([^<]+)(</span>) Replace : <b class="b3">\2</b> (δημιουργία στιλ με έντονη γραφή σε υπολήμματα με ελληνικούς χαρακτήρες add a bold style to sub-entries with Greek characters 12

ΜΕΤΑΤΡΟΠΗ ΣΕ ΜΟΡΦΕΣ ΚΑΙ ΜΕΤΑΓΡΑΜΜΑΤΙΣΜΟΥΣ CONVERT TO FORMS AND TRANSLITERATIONS Full diacritics (inluding macron/vrachy) Medium diacritics iti (excluding macron/vrachy) Low diacritics (monotonic) Capitals Transliteration A (accented Latin characters) Transliteration Β (non- accented Latin characters) Transliteration C (Greeklish) Πολυτονικό με βραχύ/μακρό Πολυτονικό χωρίς βραχύ/μακρό Μονοτονικό Κεφαλαία Λατινικοί χαρακτήρες με τόνους Λατινικοί χαρακτήρες χωρίς τόνους Greeklish Beta Code Beta Code 13

ΜΟΡΦΕΣ ΚΑΙ ΜΕΤΑΓΡΑΜΜΑΤΙΣΜΟΙ FORMS AND TRANSLITERATIONS 14

ΕΡΓΑΛΕΙΑ ΜΕΤΑΤΡΟΠΗΣ CONVERSION TOOLS Διάφορα εργαλεία χρησιμοποιήθηκαν για αυτές τις μετατροπές, από λειτουργίες του MS Word (Shift+F3 για μετατροπή σε άτονα κεφαλαία) μακροεντολές VBA και συναρτήσεις σε php που αναπτύχθηκαν ειδικά για την περίπτωση μέχρι και προγράμματα όπως το All Greek to me του ΙΕΛ για τη μετατροπή σε Greeklish. Various tools were used for these conversions, from standard MS Word commands (Shift+F3 to convert to capitals without accents) to bespoke VBA macros and php p functions as well as commercial applications like All Greek to me by ILSP for Greeklish conversion. 15

BETA CODE Ακολουθήθηκαν οι συμβάσεις Beta Code του Perseus, με χρήση πεζών. Για παράδειγμα,η λέξη Πλάτων μπορεί να μεταγραφεί σε *PLA/TWN ή *pla/twn, το κεφαλαίο επισημαίνεται με τον αστερίσκο. Ωστόσο, υπάρχουν κάποια θέματα με τις διαφορετικές μεταγραφές μεσαίου και τελικού σίγμα καθώς και με τη σειρά των διακριτικών όταν υπάρχουν διαλυτικά με τόνο. Perseus Beta Code conventions were followed, using lowercase throughout. For example the word Πλάτων can be converted into *PLA/TWN or *pla/twn, with the capital being marked with the asterisk. However, there is no standardization for the different representations of final ς ς and medial σ as well as the order of diacritics when diaeresis and accent is included. 16

ΕΠΕΚΤΑΣΕΙΣ ΤΟΥ MEDIAWIKI MEDIAWIKI EXTENSIONS USED SemanticMediaWiki Semantic Drilldown Data Transfer Parser Functions MWSearch Normalizer (custom extension) The Normalizer extension removes accents and capitalizes polytonic words in order to create the indexes. Η επέκταση Normalizer που δημιουργήθηκε ειδικά για το έργο, αφαιρεί τα διακριτικά και μετατρέπει σε κεφαλαία ως βοήθημα για τη δημιουργία των ευρετηρίων. 17

MEDIAWIKI SETTINGS ΡΥΘΜΙΣΕΙΣ MEDIAWIKI Το αρχείο LocalSettings.php είναι το κέντρο ελέγχου του προγράμματος. Βασική ρύθμιση για να μη γίνεται αυτόματα κεφαλαίο το πρώτο γράμμα ενός λήμματος (όπως ς για παράδειγμα στη Βικιπαίδεια), είναι το: The LocalSettings.php file is where most settings are implemented. A necessary setting so that the first letter is not automatically capitalized (as it happens in Wikipedia), is: $wgcapitallinks = false; 18

DATA IMPORT ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ Χρησιμοποιήθηκε η επέκταση Data Transfer με εισαγωγή σε δέσμες των 10.000 (από 240.000 συνολικά). Ένα από τα θέματα που προέκυψαν ήταν η εξαφάνιση χαρακτήρων μετά το σύμβολο. Το πρόβλημα διορθώθηκε με αντικατάσταση του συμβόλου με την αντίστοιχη αριθμητική οντότητα html ( ). Η ολοκλήρωση της εισαγωγής έγινε με την παρακάτω εντολή που ενεργοποιεί τον μηχανισμό εκτέλεσης εκκρεμών εργασιών του MediaWiki. The import via the Data Transfer extension was done in batches of 10,000 entries (of 240,000 in total). One of the issues was characters disappearing after the pipe symbol ( ). This was fixed with replacing it with its html numeric entity ( ). The import was finalized using the php command below, which activates the pending jobs execution in MediaWiki: cd /home/site/public_html/w/wiki/maintenance/ php runjobs.php --maxjobs 10000 19

INDEXES ΕΥΡΕΤΗΡΙΑ Τα ευρετήρια βασίστηκαν στις μορφές και τους μεταγραμματισμούς που δημιουργήθηκαν για κάθε λήμμα και όπως αυτά ορίστηκαν με τον κώδικα του προτύπου εισαγωγής. Αυτός ο κώδικας διασυνδέει τις διαφορετικές μορφές και μεταγραμματισμούς με την επέκταση Semantic MediaWiki, έτσι ώστε να είναι δυνατή η περαιτέρω αξιοποίησή τους για τη δημιουργία ξεχωριστών ευρετηρίων ανά μορφή/μεταγραμματισμό. The indexes were based on the forms and transliterations as they are defined in the import template code. That code links the various forms and transliterations ti with the Semantic MediaWiki extension, so that t they can be used for the creation of different indexes per form / transliteration. 20

BETA CODE INDEX ΕΥΡΕΤΗΡΙΟ BETA CODE 21

FULL DIACRITICS INDEX ΕΥΡΕΤΗΡΙΟ ΠΛΗΡΟΥΣ ΜΟΡΦΗΣ 22

IMPORT TEMPLATE ΠΡΟΤΥΠΟ ΕΙΣΑΓΩΓΗΣ Στο πρότυπο εισαγωγής γίνεται ανάμειξη κώδικα html, βικικώδικα και php. Οι εντολές #normalize παραπέμπουν σε ειδική συνάρτηση κανονικοποίησης ηςγια την αφαίρεση των διακριτικών έτσι ώστε να είναι δυνατή η σωστή ταξινόμηση στα διαφορετικά ευρετήρια. Τα στοιχεία τύπου <b class="b1"> ορίζουν το στυλ εμφάνισης. Οι ονομασίες μεταγραφών / μορφών όπως «Beta Code» αντιστοιχούν στα πεδία του αρχείου εισαγωγής csv. The import template is a mix of html code, wiki mark-up and php. The #normalize commands invoke the normalization function to remove diacritics so that the indexes are displayed correctly. The elements like <b class="b1"> refer to the look and feel (css styles). The names of forms/transliterations like Beta Code correspond to the csv file s import field titles. 23

IMPORT TEMPLATE ΠΡΟΤΥΠΟ ΕΙΣΑΓΩΓΗΣ 24

CSV FILE ΑΡΧΕΙΟ CSV 25

RANDOM QUOTE EXTENSION ΕΜΦΑΝΙΣΗ ΤΥΧΑΙΩΝ ΑΠΟΦΘΕΓΜΑΤΩΝ Πρόκειται για επέκταση που δημιουργήθηκε ειδικά για την εμφάνιση τυχαίων αποφθεγμάτων πάνω από τα λήμματα. Αρχικά δεν ήταν δυνατή η ανάλυση βικικώδικα, αλλά στη συνέχεια βελτιώθηκε έτσι ώστε να εμφανίζει και εσωτερικούς συνδέσμους. Ο σκοπός της είναι εκπαιδευτικός καθώς λειτουργεί ως έναυσμα για εκμάθηση νέων λέξεων. This is a custom extension which was developed in order to display random quotes above the entries. It was further improved to parse wiki mark-up in order to link to dictionary entries. It has an educational purpose as it helps the visitor learn new words. 26

RANDOM QUOTE EXTENSION ΕΜΦΑΝΙΣΗ ΤΥΧΑΙΩΝ ΑΠΟΦΘΕΓΜΑΤΩΝ 27

AUTOCOMPLETE SEARCH ΑΝΑΖΗΤΗΣΗ ΑΥΤΟΜΑΤΗΣ ΣΥΜΠΛΗΡΩΣΗΣ Μέρος των προδιαγραφών του έργου ήταν η αναζήτηση «αυτόματης συμπλήρωσης» χωρίς διάκριση πεζών/κεφαλαίων και χωρίς διάκριση διακριτικών σημείων τόσο για ελληνικούς όσο και για λατινικούς χαρακτήρες (μεταγραμματισμένων ελληνικών λέξεων). Το παραπάνω ζητούμενο διεκπεραιώνει αυτόματα η μηχανή αναζήτησης Lucene η οποία λειτουργεί σε Java και εγκαθίσταται στον διακομιστή. Part of the project specs was case-insensitive and diacriticsinsensitive autocomplete or search suggestions functionality for Greek and Latin characters (transliterations ti of Greek words). This is achieved by using the Lucene search engine, which runs in Java and must be installed on the server. 28

AUTOCOMPLETE SEARCH ΑΝΑΖΗΤΗΣΗ ΑΥΤΟΜΑΤΗΣ ΣΥΜΠΛΗΡΩΣΗΣ 29

DEMO

ΕΠΙΛΟΓΟΣ WRAPPING UP Η υλοποίηση του έργου ήταν μια πολύπλοκη τεχνικά διαδικασία όπου έπρεπε να ξεπεραστούν πολλά προβλήματα. Το αποτέλεσμα είναι μια εύχρηστη πλατφόρμα με δυνατότητα μελλοντικού εμπλουτισμού τόσο με μαζική εισαγωγή όσο και με συνεισφορά χρηστών. Δοκιμάστε την: Translatum LSJ was by no means an easy project as numerous technical difficulties had to be overcome. The result, however, is a user-friendly platform which can be further enriched with imports as well as user contributions. Test it: http://lsj.translatum.gr t l t 31