Λέξεις-Κλειδιά: Πόντιακα, Καππαδόκικα, Αι βαλιωτικα, επισημει ωση, σωματα κειμε νων, Υπόλόγιστικη Διαλεκτόλόγι α

Σχετικά έγγραφα
Προκλήσεις επισημείωσης ενός πολυ-διαλεκτικού, πολυ-επίπεδου σώματος γραπτών και προφορικών κειμένων των Νεοελληνικών Διαλέκτων

Δηµήτρης Παπαζαχαρίου

Σχεδιασμός και ανάπτυξη μίας μορφολογικής βάσης δεδομένων: Η βάση MORILAN

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

ΑΡΧΕΙΟΘΕΤΗΣΗ ΚΑΙ ΙΑΧΕΙΡΙΣΗ ΨΗΦΙΟΠΟΙΗΜΕΝΩΝ ΠΗΓΩΝ ΕΛΛΗΝΙΚΩΝ ΙΑΛΕΚΤΩΝ

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

ΣΥΝΤΟΜΟ ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ

Research on Greek Dialects: Institutions and Projects

Εργαστήριο Νεοελληνικών Διαλέκτων. Εσωτερικός Κανονισμός Λειτουργίας

Διάταξη Θεματικής Ενότητας ΕΛΠ48 / Ελληνική Γλώσσα και Γλωσσολογία

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία. Βασιλική Σιμάκη

Η ΔΙΑΛΕΚΤΟΣ ΤΩΝ ΜΕΓΑΡΩΝ ΣΤΗΝ ΗΛΕΚΤΡΟΝΙΚΗ ΒΑΣΗ GREED ΑΘΑΝΑΣΙΟΣ Ν. ΚΑΡΑΣΙΜΟΣ

Εργαστήριο Νεοελληνικών Διαλέκτων Τμήμα Φιλολογίας Πανεπιστήμιο Πατρών Πάτρα, 2015

Αποκοπή των άτονων υψηλών φωνηέντων στην ποικιλία της Αγιάσου της Λέσβου: μελέτη της κώφωσης από τη σκοπιά της ακουστικής φωνητικής

ΑΜΑΛΙΑ ΑΡΒΑΝΙΤΗ, University of California, San Diego (UCSD)

Οι Νεοελληνικές Διάλεκτοι

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

- Καθυστέρηση λόγου (LLI)

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε

SGA Διαχείριση Πρωτόκολλου

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

Μεταπτυχιακή Διπλωματική Εργασία. Κ. Αλεξανδρής Αν. Καθηγητής, ΤΕΦΑΑ, ΑΠΘ

ΓΛΩΣΣΑ & ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΤΗΝ ΚΥΠΡΟ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Γραμματική της Νέας Ελληνικής

Εισαγωγή Στόχοι και Όροι χρήσης Προηγούμενη έκδοση υπηρεσίας Ζωντανές μεταδόσεις Εξελιγμένες Υπηρεσίες Βίντεο Βίντεο κατ Απαίτηση Προσωποποιημένες

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΨΗΦΙΑΚΩΝ ΣΥΛΛΟΓΩΝ ΕΦΗΜΕΡΙΔΩΝ

ΔΙΑΛΕΞΗ ΤΡΙΤΗ ΤΟ ΑΛΦΑΒΗΤΟ ΚΑΙ Η ΔΙΑΜΟΡΦΩΣΗ ΤΩΝ ΑΡΧΑΙΩΝ ΕΛΛΗΝΙΚΩΝ ΔΙΑΛΕΚΤΩΝ

Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου

Φωνολογική Ανάπτυξη και Διαταραχές

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ Μάθημα περιορισμένης επιλογής 6

Προηγµένη ιασύνδεση µε τοπεριβάλλον

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

Τι είναι το αρχείο Γεωργακά;

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Μεθοδολογία Εκπαιδευτικής Έρευνας στη ΜΕ

Τύποι πόρων προς συγκέντρωση Σενάρια χρήσης

SGA Διαχείριση Ηλεκτρονικού Πρωτόκολλου

Η διδασκαλία των νεοελληνικών διαλέκτων στην πρωτοβάθμια και δευτεροβάθμια εκπαίδευση: θεωρητικές προσεγγίσεις και διδακτικές εφαρμογές

Παρακάτω προτείνεται μια αλληλουχία ενεργειών την οποία ο χρήστης πρέπει να ακολουθήσει για να αξιοποιήσει τις δυνατότητες της εφαρμογής.

ΠΟΛΥΤΙΜΟ. Ερευνητικό έργο. της Ε. Γαλιώτου*

Ποιος φοβάται το ψηφιακό περιεχόμενο στη Νεοελληνική Φιλολογία;

ΜΕΡΟΣ ΠΡΩΤΟ ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΣΗ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Ψηφιακό corpus νεοελληνικής ποίησης

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

CURRICULUM VITAE. Dimitris Papazachariou University of Patras, Dept. of Philology, Patras Rio, Greece

Διάγραμμα Μαθήματος. Σελίδα1 5

ΜΕ η Εισήγηση

Η εργασία αναφέρεται στα ακόλουθα περιεχόμενα του σχολικού βιβλίου της Έκφρασης - Έκθεσης της Α Λυκείου:

Μεθοδολογία Εκπαιδευτικής Ερευνας στη ΜΕ

Υλοποιώντας τη μικροδομή του πρώτου πολυ-μεσικού τρι-διαλεκτικού διαδικτυακού λεξικού: αποφάσεις και πρακτικές

Τίτλος Εργασίας Εργαστηριακής Παρουσίασης

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Σχεδιασμός και Εκπόνηση Εκπαιδευτικής Έρευνας

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

Απαιτήσεις στοιχείων τεκμηρίωσης φυσικού αντικειμένου στο πλαίσιο της δράσης digi-content

Κοινοί ανοικτοί πόροι για τη γλωσσική εκπαίδευση: η συνεισφορά του Κέντρου Ελληνικής Γλώσσας

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

ΔΙΑΦΟΡΟΠΟΙΗΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΡΟΓΡΑΜΜΑΤΩΝ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΙ ΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝ ΥΛΙΩΝ ΕΡΕΥΝΑΣ

Σπουδαστές Γιαννουλάκης Αντρέας Α.Μ Τσουρουνάκης 'Αγγελος Α.Μ Μουτουσίδου Πόπη Α.Μ Εισηγητής: Ταφιάδης Χρ.

ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΚΟΙΝΩΝΙΚΩΝ ΕΡΕΥΝΩΝ

Ι. ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ

Ερευνητική εργασία στο λύκειο

ΠΡΟΚΗΡΥΞΗ. 1) Ηλεκτρονική τεκμηρίωση του φωτογραφικού αρχείου του γλύπτη Γ. Παππά (άτομο 1)

Ερευνα και Ανάπτυξη σε Ψηφιακές / Εικονικές Βιβλιοθήκες

Η έρευνα αξιολόγησης: θεωρητικό πλαίσιο και βασικές έννοιες

Unified search of digital cultural content: Searching culture

Η Κυπριακή Διάλεκτος στα μέσα κοινωνικής δικτύωσης. Μια ποσοτική ανάλυση στο Twitter

Ψηφιακός Χάρτης Πολυεπίπεδης Πληροφορίας σε Μορφότυπο PDF

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

29/1/2016. Η έρευνα αξιολόγησης: θεωρητικό πλαίσιο και βασικές έννοιες. Ορισμός

2, µε τίτλο: «Υλοποίηση Εργαλείων Ανάπτυξης ιαχείρισης Σώµατος Κειµένων και Αυτόµατης Εξαγωγής Ορολογίας».

Paper 3 Reading and Understanding 1GK0/3F or 3H

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΕΚΠΑΙΔΕΥΣΗ ΚΑΙ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗ» ΕΘΝΙΚΟ ΣΤΡΑΤΗΓΙΚΟ ΠΛΑΙΣΙΟ ΑΝΑΦΟΡΑΣ ΕΣΠΑ ΔΡΑΣΗ «ΑΡΙΣΤΕΙΑ»

ΟΔΗΓΙΕΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΕΡΓΑΣΙΩΝ

Εισαγωγή στη Γλωσσολογία Ι

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

Αναπτυξιακά ορόσημα λόγου

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ (2 Ο ΜΑΘΗΜΑ)

Προβλήματα διαλειτουργικότητας κατά την ταυτόχρονη πρόσβαση σε πηγές μέσω του πρωτοκόλλου Z39.50 & Το περιβάλλον πρόσβασης "Η ΑΡΓΩ"

Δημιουργία Ιστορικής Ψηφιακής Βάσης για την Περίοδο : πρακτικές, προβλήματα, προκλήσεις

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Ίσως/ Παρατηρήσεις/σχόλια Ακαδημαϊκού λόγου. Υπάρ χουν αμφιβολί ες

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

ΕΦΗΜΕΡΙ Α ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

Transcript:

Προκλήσεις επισημει ωσης ενό ς πόλυ-διαλεκτικόυ, πόλυ-επι πεδόυ σωματός γραπτων και πρόφόρικων κειμε νων των Νεόελληνικων Διαλε κτων Αθανάσιος Καρασίμος 1,3, Ελένη Γαλιώτου 2, Νικήτας Καρανικόλας 2, Γιώργος Κορωνάκης 2, Κώστας Αθανασάκος 2, Δημήτρης Παπαζαχαρίου 1, Αγγελική Ράλλη 1 Πανεπιστήμιο Πατρών 1, ΤΕΙ Αθηνών 2, Ακαδημία Αθηνών 3 akarasimos@academyofathens.gr, egali@teiath.gr, nnk@teiath.gr, gkoronakis@gmail.com, k.athanasakos@gmail.com, papaz@upatras.gr, ralli@upatras.gr 0. Περίληψη Στην παρούσα μελέτη που αποτελεί μέρος του προγράμματος «AMIGRE Πόντος, Καππαδοκία, Αϊβαλί: στα χνάρια της Μικρασιάτικης Ελληνικής Γλώσσας» παρουσιάζεται η επισημείωση ενός διαλεκτικού σώματος αρχείων που διαφέρει από τα υπόλοιπα σε δύο βασικά σημεία. Πρώτον, έχει συμπεριληφθεί ένα μεγάλο εύρος δειγμάτων από τις διαλεκτικές ποικιλίες του Πόντου, της Καππαδοκίας και του Αϊβαλιού και αποτελεί την πιο ευρεία κάλυψη των συγκεκριμένων διαλεκτικών περιοχών σε προφορικό και γραπτό υλικό. Επιπροσθέτως, παρέχονται τα αποτελέσματα από μια συστηματοποιημένη προσπάθεια επισημείωσης με κοινή στρατηγική σε γραπτά και προφορικά δεδομένα. Το συγκεκριμένο διαλεκτικό σώμα κειμένων έχει μια μεγάλη ποικιλία χαρακτηριστικών που συνδυαστικά δημιουργούν ένα εξειδικευμένο εργαλείο για τη γλωσσολογική και διαλεκτολογική μελέτη. Αυτά τα χαρακτηριστικά είναι μεταξύ άλλων: γλωσσολογικό περιεχόμενο (διάλεκτοι από τρεις περιοχές που συσχετίζονται), multi-tiers επισημείωση (μεταγραφή και απεικόνιση προφορικού και γραπτού υλικού με βάση διεθνή στάνταρ, π.χ. SAMPA), πολυεπίπεδα μεταδεδομένα (TEI), αναβαθμισμένη μηχανή αναζήτησης (βασισμένη σε γλωσσολογική πληροφορία και μεταδεδομένα), ψηφιακές συλλογές χειρογράφων και ηχητικών αρχείων, χάρτες απεικόνισης των δεδομένων και συνοδευτικό multimedia τρι-διαλεκτικό λεξικό. Σημαντικά ζητήματα για την επισημείωση σε φωνολογικό επίπεδο αντιμετωπίστηκαν κατά τη μελέτη καθότι έγινε μια συστηματική προσπάθεια να ενοποιηθούν όλες οι διαφορετικές μεταγραφές διαλεκτικού γραπτού υλικού που δεν υπήρχε κοινή στρατηγική απεικόνισης. Παράλληλα προτείνεται πολυεπίπεδη φωνολογική (παράλληλα με μορφολογική) επισημείωση του σώματος κειμένων καθιερώνοντας ένα βασικό πρότυπο επισημείωσης διαλεκτικού υλικού για τις Νεοελληνικές Διαλέκτους σε καθιερωμένα λογισμικά ανάλυσης ομιλίας. Λέξεις-Κλειδιά: Πόντιακα, Καππαδόκικα, Αι βαλιωτικα, επισημει ωση, σωματα κειμε νων, Υπόλόγιστικη Διαλεκτόλόγι α 1. Εισαγωγή 1.1. THALIS project AMiGrE Στην παρούσα μελέτη που αποτελεί μέρος του προγράμματος «AMIGRE Πόντος, Καππαδοκία, Αϊβαλί: στα χνάρια της Μικρασιάτικης Ελληνικής Γλώσσας» παρουσιάζεται

η επισημείωση ενός διαλεκτικού σώματος αρχείων που διαφέρει από τα υπόλοιπα σε δύο βασικά σημεία. Από ένα μεγάλο εύρος δειγμάτων από τις διαλεκτικές ποικιλίες του Πόντου, της Καππαδοκίας και του Αϊβαλιού παρέχονται τα αποτελέσματα από μια συστηματοποιημένη προσπάθεια επισημείωσης με κοινή στρατηγική σε γραπτά και προφορικά δεδομένα. Πιο συγκεκριμένα σκοπός του ερευνητικού προγράμματος είναι να μελετήσει συστηματικά τα Ποντιακά, τα Καππαδοκικά και τα Αϊβαλιώτικα, τρεις γλωσσικές ποικιλίες που απειλούνται με εξαφάνιση. Μεταξύ άλλων, επιδιώκεται η μελέτη των συγκεκριμένων διαλέκτων με σκοπό να αποκαλυφθούν οι ομοιότητες και οι διαφορές τους σε συγχρονικό επίπεδο, να επισημανθεί η εξέλιξή τους, να χαρτογραφηθεί η διαφοροποίησή τους, αλλά και να εντοπισθούν τα σημαντικότερα χαρακτηριστικά τους σε σχέση με τις υπόλοιπες Νεοελληνικές διαλέκτους. Επιπροσθέτως, γίνεται προσπάθεια για μία εμπεριστατωμένη ανάλυση συγκεκριμένων φωνητικών/ φωνολογικών, μορφολογικών και σημασιολογικών φαινομένων, καθώς και της επιρροής διαφορετικά τυπολογικών γλωσσικών συστημάτων, μιας και είναι εμφανής η επίδραση της Τουρκικής (συγκολλητική γλώσσας) στις συγκεκριμένες διαλέκτους της Νέας Ελληνικής (διαχυτικής γλώσσα). Για αυτό το λόγο έχει γίνει συστηματική αρχειοθέτηση και ψηφιοποίηση προφορικού και γραπτού υλικού μεγάλου εύρους και έχει οργανωθεί σε μία ψηφιακή βάση δεδομένων. Ένα σημαντικό μέρος του πρωτογενούς υλικού θα μεταγραφεί και θα σχολιαστεί με την χρήση του πιο σύγχρονου εξοπλισμού. Γραπτό υλικό θα ψηφιοποιηθεί, και ένα μέρος αυτού, που θα επιλεγεί σύμφωνα με αυστηρά ποιοτικά κριτήρια (χρονολόγηση, προέλευση, αξιοπιστία), θα μεταγραφεί. 1.2. Σωματα γραπτων κειμε νων vs. Σωματα πρόφόρικων κειμε νων Η συνέπεια στην επισημείωση σωμάτων κειμένων είναι μια ουσιώδης ιδιότητα για τις πολλαπλές χρήσεις επισημειωμένων σωμάτων κειμένων στην υπολογιστική και θεωρητική γλωσσολογία. Παλαιότερες έρευνες εντόπισαν προβλήματα σε μορφολογική και POS επισημείωση (van Halteren 2000, Eskin 2000, Dickinson & Meurers 2003), ενώ πιο πρόσφατες εντόπισαν λάθη σε συντακτικό και δομικό επίπεδο (Ule & Simov 2004, Dickinson 2005). Τα σώματα γραπτών κειμένων είναι σαφώς περισσότερα ανά γλώσσα παγκοσμίως και σημαντικό κομμάτι της υπολογιστικής και διακειμενικής γλωσσολογίας έχει γίνει για την επισημείωση και τη αξιποίησή τους. Από την άλλη τα σώματα προφορικών κειμένων υστερούν σε όγκο και διαφέρουν σε πολλά σημεία από τα αντίστοιχα γραπτά, ωστόσο υπάρχει έλλειψη συντονισμένης επισημείωσης, ενώ το ζήτημα της ανίχνευσης σφαλμάτων στον σχολιασμό της ομιλούμενης γλώσσας σωμάτων δεν έχει ακόμη αντιμετωπιστεί συστηματικά. Αυτό είναι σημαντικό δεδομένου ότι τα σώματα προφορικών κειμένων αυξάνονται ιδιαίτερα, όπως φαίνεται στο Linguistic Data Consortium (www.ldc.upenn.edu). Το πρόβλημα εντείνεται όταν γίνεται προσπάθεια δημιουργίας κοινής στρατηγικής επισημείωσης σε σώματα προφορικών και γραπτών κειμένων και δη όταν το αντικείμενο είναι ιδιαίτερα εξειδικευμένο, όπως το προαναφερθέν διαλεκτικό σώμα. 2. State-of-the-Art σχεδιασμός συστήματος 2.1 Η φυ ση των δεδόμε νων

Το σώμα προφορικών κειμένων του έργου AMiGre αποτελείται από περίπου 180 ώρες (δηλαδή 60 ώρες ανά διάλεκτο), όπως αυτά συλλέχτηκαν για τη διαλεκτική βάση Gree.D. (Karasimos et al., 2008). Η συλλογή των ηχογραφήσεων έγινε με συσκευές ψηφιακής ηχογράφησης υψηλής ευκρίνειας, σε όσον το δυνατόν πιο ήσυχες συνθήκες και πάντα με συναίνεση των συνομιλητών. Η επιλογή των ομιλητών έγινε με μεγάλη προσοχή, όσο αυτό ήταν εφικτό στόχος ήταν οι ομιλητές να έχουν καθαρή άρθρωση, να έχουν φυσική ροή ομιλίας, να κάνουν συστηματική χρήση της διαλέκτου στην καθημερινότητά τους. Επίσης στις περισσότερες περιπτώσεις ήταν απαραίτητη η ύπαρξη του ενδιάμεσου στις ηχογραφήσεις, ώστε οι ομιλητές να αισθάνονται πιο οικεία κατά την διάρκεια της ηχογράφησης και να ελαχιστοποιηθούν τα σημεία διαλόγου όπου θα γινόταν αλλαγή γλωσσικού συστήματος επικοινωνίας (εγκατάλειψη της διαλέκτου και χρήση της Κοινής Νέας Ελληνικής). Βασική προϋπόθεση για τον ενδιάμεσο ήταν η καλή σχέση και γνωριμία με τους ομιλητές καθώς και η άριστη γνώση και χρήση της διαλέκτου. Εικόνα 1 & 2: Δείγμα εικόνων από τα ψηφιοποιημένα χειρόγραφα (αριστερά Επιτάφια επιγράμματα του Λεβίδη δεξιά Χειρόγραφα Καζαντζίδη) Αντιστοίχως, το σώμα γραπτών κειμένων αποτελείται από ψηφιοποιημένα χειρόγραφα έγγραφα συνόλου 2.000.000 λεξικών τύπων. Το σημαντικότερο ζήτημα για τη συλλογή γραπτών δεδομένων είναι η έλλειψη πρωτογενών πηγών και κυρίως χειρογράφων για τα Αϊβαλιώτικα αναπόφευκτα η ισορροπία ανάμεσα στην αντιπροσωπευτικότητα του δείγματος κειμένων που ψηφιοποιήθηκαν δεν ήταν εφικτή. Πέραν αυτής της εγγενούς δυσκολίας, τα κείμενα επιλέχτηκαν με βάση συγκεκριμένα κριτήρια. Βασικό κριτήριο ήταν το ζήτημα πνευματικής ιδιοκτησίας για την ψηφιοποίηση και για αυτό το λόγο

επιλέχθηκαν κείμενα πριν το 1938. Επίσης επιλέχθηκαν κυρίως κείμενα πεζού λόγου με ελάχιστη επιλογή ποιημάτων και τραγουδιών. Εκτός από μια αντιπροσωπευτική αντιπροσώπευση ανάμεσα στα δημοσιευμένα κείμενα και τα χειρόγραφα, σημαντικό βάρος δόθηκε στην σπανιότητα μερικών εξ αυτών (αναλυτικά για τα κριτήρια στο Κολιοπούλου, Μαρκόπουλος & Παντελίδης (υπό έκδοση)). Τα δεδομένα των παραπάνω σωμάτων πέρασαν από επεξεργασία, επιλογή, επισημείωση και ανάλυση και επεξεργάζονται σύμφωνα με το μοντέλο 3Α (annotation, abstraction, analysis) των Wallis & Nelson (2001) και τον προτεινόμενο μορφότυπο των Gries & Berez (υπό έκδοση). Για την περαιτέρω επεξεργασία, επισημείωση, ανάλυση και περιγραφή μεταδεδομένων έγιναν δύο υπο-σώματα κειμένων με 60 ώρες και 200.000 λέξεις αντίστοιχα. Η συγκεκριμένη επεξεργασία και ανάλυση έγινε εκτός από τη συνδρομή δημοφιλών γλωσσολογικών εργαλείων, με επτά νέες εφαρμογές που δημιουργήθηκαν στο πλαίσιο του προγράμματος (βλ. ενότητα 2.2). 2.2. Οι εφαρμόγε ς τόυ συστη ματός Το σύστημα διαθέτει επτά (7) βασικές εφαρμογές για την υποστήριξη της ανάλυσης των συγκεκριμένων διαλεκτικών σωμάτων, ενώ παράλληλα γίνεται η χρήση δύο εξαιρετικά δημοφιλών γλωσσολογικών εργαλείων, όπως είναι το Praat και το ELAN. Είναι οι ακόλουθες (αναλυτικότερα βλ. Karanikolas, Galiotou & Ralli 2014): (α) Phon Tagger για την οριοθέτηση των λέξεων και χρησιμοποιείται τόσο στο προφορικό όσο και στο γραπτό σώμα κειμένων, ώστε να υπάρχει μια ενιαία αντιμετώπιση της πληροφορίας των μορφολογικών ορίων των λέξεων μεταξύ των δύο σωμάτων. (β) Morph Tagger για τον μορφολογικό σχολιασμό των λέξεων, όπου πραγματοποιείται στο επίπεδο λέξης. Για κάθε μορφολογική λέξη παρέχονται πληροφορίες σχετικά με το μέρος του λόγου, γραμματικές ιδιοτήτες και μορφολογικά φαινομένα, όπως η παραγωγή και σύνθεση. (γ) Synt Tagger για τη συντακτική ανάλυση και δομή φράσεων και προτάσεων στην τρέχουσα κατάσταση του συστήματος, η επισημείωση γίνεται σε επίπεδο λέξης, όπου κάθε λέξη συνδέεται τουλάχιστον με μία συντακτική δομή. Η εφαρμογή παρέχει επίσης η δυνατότητα για επισημείωση σε μια φράση ή σε προτασιακό επίπεδο. (δ) Sem Tagger για το σημασιολογικό σχολιασμό καταχωρώντας πληροφορίες όπως δάνειο (καθώς και την καταγωγή του), ιδιωματική φράση, κτλ. (ε) Text Imaging για την προεπισκόπηση εικόνων από τα ψηφιοποιημένα κείμενα και χειρόγραφα, (στ) Text Transcription για μεταγραφή των ψηφιοποιημένων κειμένων και των εικόνων και τέλος, (ζ) MOS (Oral Metadata) για μια ολοκληρωμένη δομή μεταδεδομένων αυτή η εφαρμογή παρέχει τη δυνατότητα διατήρησης και ενημέρωσης των μεταδεδομένων του σώματος προφορικών κειμένων και περιλαμβάνει πληροφορίες όπως ηλικία, φύλο, πολιτισμικό υπόβαθρο του ομιλητή μεταξύ άλλων (σημειώνεται ότι, οι πληροφορίες αυτές δεν είναι διαθέσιμες για τις γραπτές πηγές).

Εικόνα 3 & 4: Δείγμα από την εφαρμογή - υποσύστημα οριοθέτησης μορφολογικών λέξεων. 3. Προ-επεξεργασία σωμάτων γραπτών και προφορικών κειμένων Η προ-επεξεργασία των δεδομένων μπορεί να συνοψιστεί ως εξής:

α) Διαμόρφωση και Παραμετροποίηση: Το κάθε πρωτογενές στερεοφωνικό ηχητικό αρχείο διαχωρίστηκε στα αντίστοιχα κανάλια του και έγινε επιλογή των κατάλληλων αρχείων με βάση συγκεκριμένων γλωσσολογικών και τεχνικών κριτηρίων (βλ. Karasimos et al. 2010). Επιπροσθέτως οι εικόνες πέρασαν από τεχνική επεξεργασία για απομόνωση των σελίδων, αποκοπή μαύρων πλαισίων και ρύθμιση της καθαρότητας τους. β) Επισημείωση: Το σώμα γραπτών κειμένων πέρασε από μια συστηματική παραμετροποίηση φωνολογική και μορφολογική με βάση προεπιλεγμένες ετικέτες για ελεγχόμενες λίστες τιμών για την πλήρη κάλυψη των δύο επιπέδων. Παράλληλα κωδικοποιηθήκε μια μικρή παραλλαγή του προτύπου SAMPA (Wells 1997) και ενοποιήθηκαν οι διαφορετικές ποικιλίες συμβόλων γραπτών κειμένων με βάση τη πρόταση των Μανωλέσσου, Μπέης & Μπασσέα (2012). Για τη επεξεργασία των προφορικών κειμένων έγινε μια αρχική προετοιμασία σύμφωνα με μια ανανεωμένη προσέγγιση παλαιότερης τακτικής επισημείωσης (Ράλλη, Παπαζαχαρίου & Καρασίμος, 2010). Συγκεκριμένα, από το σύνολο του ψηφιοποιημένου υλικού οι επιλεγμένες λέξεις μεταγράφηκαν «δια χειρός», χωρίς την βοήθεια αυτοματοποιημένου λογισμικού μεταγραφής, λόγω των δυσκολιών που ένα τέτοιο εγχείρημα ενδεχομένως να προκαλούσε, όπως είναι η δυσκολία αυτόματης αναγνώρισης πολυτονικού συστήματος, δυσκολία αυτόματης αναγνώρισης χαρακτήρων στο χειρόγραφο υλικό (Κολιοπούλου, Μαρκόπουλος & Παντελιάδης (υπό έκδοση)). Εικόνα 5: Δείγμα από την επισημείωση κειμένου ενός χειρόγραφου. γ) Μεταδεδομένα: Ακολουθήθηκε το πρωτόκολλο καταγραφής για τα προφορικά δεδομένα, όπου επιλέχθηκαν οι πληροφορίες που ταιριάζουν και για το σώματα γραπτών κειμένων με την παράλληλη εισαγωγή νέων ελεγχόμενων λιστών με τιμές για τα ψηφιοποιημένα κείμενα. 4. Επισημείωση 4.1. Επισημει ωση σωματός γραπτων και πρόφόρικων κειμε νων Για την επισημείωση των δύο σωμάτων ακολουθήθηκαν ίδιες στρατηγικές επισημείωσης, τουλάχιστον στα βασικά γλωσσικά επίπεδα. Η ουσιαστικότερη διαφοροποίηση, εντούτοις, εντοπίζεται στο φωνητικό φωνολογικό επίπεδο, όπου είναι αναμενόμενα να υπάρχουν

διαφορετικά επίπεδα επισημείωσης που θα απουσιάζουν (αναλυτικότερα βλ. Κολιοπούλου, Μαρκόπουλος & Παντελίδης, υπό έκδοση). 4.1.1. Μόρφόλόγικό επι πεδό Και στα δύο σώματα οι κατηγορίες και υποκατηγορίες μορφολογικής ανάλυσης είναι ίδιες, όπου κυριαρχούν οι λίστες με τις προεπιλεγμένες τιμές στις περισσότερες περιπτώσεις. Οι κατηγορίες ανάλυσης περιέχουν πληροφορίες, όπως λήμμα, μορφολογική διαδικασία, γένος, κλιτική τάξη, γραμματική κατηγορία, καταγωγή, τύποι βάσεων/μορφημάτων/παραγωγικών προσφυμάτων/ κλιτικών προσφυμάτων (ανά γραμματική κατηγορία). Εικόνα 6 & 7: Δείγμα μορφολογικής ανάλυσης στο στάδιο προ-επεξεργασίας και στο στάδιο χρήσης του Morph Tagger

4.1.2. Φωνόλόγικό φωνητικό επι πεδό Η διαφοροποίηση μεταξύ των σωμάτων στο συγκεκριμένο επίπεδο είναι αναμενόμενη, Ενώ στο σώμα γραπτών κειμένων γίνεται εντοπισμός φαινομένων φωνηέντων και συμφώνων (ανάπτυξη, ανομοίωση, αποβολή, ανύψωση, αφομοίωση κτλ) με μονοεπίπεδο tier, στο σώμα προφορικών κειμένων οι πολυεπίπεδη χρήση tiers ανάλυσης συμπεριλαμβάνει ανάλυση έκφωνημάτων, φωνολογικών λέξεων, συλλαβών, φωνημάτων, επιτονισμού, συνεισφορών, κτλ. Γίνεται χρήση μιας τροποποιημένες έκδοσης του IPA για τη συνολική επισημείωση των ηχητικών αρχείων. Εικόνα 8: Πολυεπίπεδη φωνολογική επισημείωση διαλεκτικού υλικού στο Praat 4.2. Πρόκλη σεις στην επισημει ωση μεταξυ σωμα των κειμε νων Η σημαντικότερη πρόκληση και τα σημαντικότερα ερευνητικά ζητήματα εντοπίζονται στην επισημείωση στα σώματα γραπτών κειμένων. Όπως επισημαίνουν οι Κολιοπούλου, Μαρκόπουλος & Παντελίδης (υπό έκδοση) δεν έγινε φωνητική/ φωνολογική μεταγραφή, γιατί: α) τα ακριβή φωνολογικά χαρακτηριστικά των τριών διαλέκτων παραμένουν αμφίβολα, καθότι τα περισσότερα κείμενα είναι παλαιότερα των 75 ετών και η κωδικοποίηση των φαινομένων έγινε με τυχαίο, μη-επιστημονικό, αλλά συστηματικό τρόπο από τους συγγραφείς, β) τα γραπτά κείμενα δεν ενδείκνυνται για φωνητική μεταγραφή, γιατί αρκετοί συμβολισμοί δεν μπορούν να αντιστοιχισθούν με σιγουριά στα αντίστοιχα σύμβολα του IPA και (γ) η μη-επιστημικότητα των συντακτών, η αυθαιρεσία συμβόλων στη συγγραφή των κειμένων εμφανίζεται έντονα στο δείγμα παράλληλα βαρύνουσας σημασίας είναι η απουσία συνοδευτικού ενδείκτη ή εισαγωγικού κειμένου που να εξηγούν τις όποιες αποφάσεις πήραν κατά τη συλλογή του υλικού ή την γραπτή απόδοση των προφορικών μαρτυριών. Επομένως για να υπερκεραστούν τα προβλήματα (α) χρησιμοποιήθηκαν συμπεράσματα από την επισημείωση των προφορικών κειμένων για αμφίβολους χαρακτήρες, μιας και τα ηχητικά αρχεία ενδείκνυνται για τέτοια μεταγραφή, (β) έγινε επιβεβαίωση συμβόλων από άλλα κείμενα ίδιας περιόδου, όσο αυτό ήταν εφικτό και (γ) ακολουθήθηκε η χρήση

ελληνικού αλφαβήτου με την καθιερωμένη ιστορική ορθογραφία. Στο τελικό έλεγχο των επισημειώσεων τα δύο σώματα κειμένων θα λειτουργήσουν ως ελεγκτές ακρίβειας και συνέπειας για την επικαιροποίηση των προβληματικών επισημειώσεων. Ταυτόχρονα αποτελούν ένα αξιόπιστο δείγμα για επαλήθευση των πινάκων αντιστοιχίσης συμβόλων με το IPA. 5. Συμπεράσματα Η συνέπεια στην επισημείωση σωμάτων κειμένων παραμένει σοβαρό ζήτημα για τη διακειμενική γλωσσολογία. Σημαντικά ζητήματα για την επισημείωση σε φωνολογικό επίπεδο αντιμετωπίστηκαν κατά τη μελέτη καθότι έγινε μια συστηματική προσπάθεια να ενοποιηθούν όλες οι διαφορετικές μεταγραφές διαλεκτικού γραπτού υλικού μιας και δεν υπήρχε προηγουμένως κοινή στρατηγική απεικόνισης. Παράλληλα προτείνεται πολυεπίπεδη φωνολογική (παράλληλα με μορφολογική) επισημείωση του σώματος κειμένων καθιερώνοντας ένα βασικό πρότυπο επισημείωσης διαλεκτικού υλικού για τις Νεοελληνικές Διαλέκτους σε καθιερωμένα λογισμικά ανάλυσης ομιλίας, ενώ γίνεται η χρήση των επισημειώσεων για δια-σωματική επικαιροποίηση της συνέπειας και της ακρίβειας της συνολικής επισημείωσης. Βιβλιογραφία Dickinson, M & W. Detmar-Meurers (2003) Detecting errors in part-of-speech annotation. In Proceedings of EACL-03, pp. 107 114, Budapest, Hungary. Dickinson, M. (2005) Error detection and correction in annotated corpora. Ph.D. thesis, The Ohio State University. Eskin, E. (2000) Automatic corpus correction with anomaly detection. In Proceedings of NAACL- 00, pp. 148 153, Seattle, Washington. Gries, S. Th. & A. L. Berez (to appear). Linguistic annotation in/for corpus linguistics. In N. Ide & J. Pustejovsky (eds.), Handbook of Linguistic Annotation. Berlin & New York: Springer. Karanikolas, N. Galiotou, E. & A. Ralli (2014). Towards a Unified Exploitation of Electronic Dialectal Corpora: Problems and Perspectives. In P. Sojka et al. (eds.) TSD 2014, LNAI 8655, pp. 257 266. Switzerland: Springer. Karasimos A., Melissaropoulou D., Ralli A., Papazachariou D. & D. Asimakopoulos (2008) GREED: Cataloguing and Encoding Modern Greek Dialectal Spoken Corpora. Presented in CatCod 2008, 4-5 December, Orleans, France. Ralli A., Papazachariou D. & A. Karasimos (2009) Laboratory of Modern Greek Dialects and the GREED project. In A. Ralli et al. (eds.) Proceeding of 4th International Conference of Modern Greek Dialects and Linguistic Theory. Ule, T. & K. Simov (2004) Unexpected Productions May Well be Errors. In Proceeding of LREC 2004, pp. 1795-1798. van Halteren H. (2000). The detection of inconsistency in manually tagged text. In A. Abeill e, T. Brants & H. Uszkoreit (eds), Proceedings of LINC-00, Luxembourg. Wallis, S.A. & G. Nelson (2001) Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 15, pp. 307-340.

Κολιοπούλου, M., Μαρκόπουλος, Θ. & Ν. Παντελίδης (υπό έκδοση) Πόντος, Καππαδοκία, Αιβαλί: προκλήσεις ενός ψηφιακού σώματος γραπτού υλικού. Στα Proceedings of ICGL11 (Ρόδος, 26-29/09/2013). Μανωλέσσου I., Μπέης Σ. & Χ. Μπασσέα (2012). Η φωνητική μεταγραφή των Νεοελληνικών Διαλέκτων. Λεξικογραφικόν Δελτίον 26, σσ. 161-222.