ΚΩΝΣΤΑΝΤΙΝΟΣ ΚΑΛΗΜΕΡΗΣ



Σχετικά έγγραφα
Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

Φωνολογική Ανάπτυξη και Διαταραχές

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

<5,0 5,0 6,9 7 7,9 8 8,9 9-10

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε

5. Λόγος, γλώσσα και ομιλία

Φωνολογική Ανάπτυξη και Διαταραχές

Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ

Η ΜΕΣΩ ΜΕΤΑΦΡΑΣΗΣ ΕΠΙΚΟΙΝΩΝΙΑ Φρειδερίκη ΜΠΑΤΣΑΛΙΑ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Ελένη ΣΕΛΛΑ Ιόνιο Πανεπιστήμιο, Κέρκυρα

Τεχνικές Προδιαγραφές εκπόνησης Πτυχιακών Εργασιών

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω

ΠΡΟΚΗΡΥΞΗ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

ΑΕΠΠ Ερωτήσεις θεωρίας

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ. «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Περιεχόμενα. ΚΕΦΑΛΑΙΟ 1 Κατευθύνσεις στην έρευνα των επιστημών υγείας. ΚΕΦΑΛΑΙΟ 2 Έρευνα και θεωρία

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

ΠΡΟΚΗΡΥΞΗ ΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Διδακτορική Διατριβή

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

ΠΕΡΙΛΗΨΗ. Είναι γνωστό άτι καθημερινά διακινούνται δεκάδες μηνύματα (E~mail) μέσω του διαδικτύου

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Φωνολογική Ανάπτυξη και Διαταραχές

Η ΧΡΗΣΗ ΤΩΝ ΨΥΧΟΜΕΤΡΙΚΩΝ ΕΡΓΑΛΕΙΩΝ ΣΤΟΝ ΕΠΑΓΓΕΛΜΑΤΙΚΟ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟ

14 Δυσκολίες μάθησης για την ανάπτυξη των παιδιών, αλλά και της εκπαιδευτικής πραγματικότητας. Έχουν προταθεί διάφορες θεωρίες και αιτιολογίες για τις

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Δειγματοληψία στην Ερευνα. Ετος

Στόχος της ψυχολογικής έρευνας:

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 5 η ΠΑΡΟΥΣΙΑΣΗ. Συγγραφή επιστημονικής εργασίας. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών.

Αιτία παραποµπής Ε Ω ΣΥΜΠΛΗΡΩΝΕΤΕ ΣΤΟΙΧΕΙΑ ΤΟΥ ΙΣΤΟΡΙΚΟΥ ΤΟΥ ΠΑΙ ΙΟΥ ΚΑΙ ΤΟ ΛΟΓΟ ΤΗΣ ΠΑΡΑΠΟΜΠΗΣ.

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å

12 Σταθμισμένα διερευνητικά ανιχνευτικά εργαλεία κριτήρια μαθησιακών δυσκολιών

Σχετικά με τη διδακτική προσέγγιση του γλωσσικού δανεισμού

ΠΕΡΙΛΗΨΗ ΠΡΟΕΡΓΑΣΙΑ ΓΙΑ ΝΑ ΓΡΑΨΟΥΜΕ ΜΙΑ ΚΑΛΗ ΠΕΡΙΛΗΨΗ

Σχέσεις, Ιδιότητες, Κλειστότητες

- Καθυστέρηση λόγου (LLI)

Η γλωσσική ανάπτυξη των παιδιών.

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΟΔΗΓΟΣ ΕΚΠΟΝΗΣΗΣ ΕΡΓΑΣΙΑΣ

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

Τεχνολογία σύνθεσης φωνής από κείμενο

ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ. Άννα Κουκά

Paper 3 Reading and Understanding 1GK0/3F or 3H

ΜΕΡΟΣ ΠΡΩΤΟ ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

Τι μαθησιακός τύπος είναι το παιδί σας;

Ίσως/ Παρατηρήσεις/σχόλια Ακαδημαϊκού λόγου. Υπάρ χουν αμφιβολί ες

Συγγραφή Επιστημονικής Εργασίας (ΨΧ126) Οι βασικές λειτουργίες της ακαδημαϊκής γραφής και οι απαιτούμενες δεξιότητες

H γλώσσα θεωρείται ιδιαίτερο σύστηµα,

ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ

Πληροφορίες τμημάτων & επιπέδων _v.1. Πληροφορίες τμημάτων & επιπέδων. τηλέφωνα επικοινωνίας: & info@valores.

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΔΙΓΛΩΣΣΙΑ ΜΕ ΣΤΟΙΧΕΙΑ ΔΙΑΤΑΡΑΧΩΝ ΛΟΓΟΥ -ΟΜΙΛΙΑΣ ΚΑΙ ΜΑΘΗΣΙΑΚΩΝ ΔΥΣΚΟΛΙΩΝ : ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΚΑΙ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΕΩΝ

Η φωνολογική επίγνωση. Ευφημία Τάφα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

Ανάλυση ποιοτικών δεδομένων

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Πρόλογος... 15

ΠΡΟΚΗΡΥΞΗ ΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Από τις διαλέξεις του μαθήματος του Α εξαμήνου σπουδών του Τμήματος. Κ. Παπαθεοδώρου, Αναπληρωτής Καθηγητής Οκτώβριος 2013

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πρόλογος της γαλλικής έκδοσης

Συντακτικές λειτουργίες

3 βήματα για την ένταξη των ΤΠΕ: 1. Εμπλουτισμός 2. Δραστηριότητα 3. Σενάριο Πέτρος Κλιάπης-Όλγα Κασσώτη Επιμόρφωση εκπαιδευτικών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ Α ΘΕΩΡΙΑ ΤΗΣ ΓΝΩΣΗΣ ΚΑΙ ΘΕΩΡΙΑ ΤΟΥ ΑΝΤΙΚΕΙΜΕΝΟΥ ΣΤΙΣ ΚΟΙΝΩΝΙΚΕΣ ΕΠΙΣΤΗΜΕΣ. του αντικειμένου προσεγγίσεων...

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ Α ΕΙΣΑΓΩΓΗ ΣΤΗ ΛΟΓΙΚΗ ΤΗΣ ΠΟΙΟΤΙΚΗΣ ΕΡΕΥΝΑΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Θεωρία Υπολογισμού Άρτιοι ΑΜ. Διδάσκων: Σταύρος Κολλιόπουλος. eclass.di.uoa.gr. Περιγραφή μαθήματος

Θεωρία Υπολογισμού Αρτιοι ΑΜ Διδάσκων: Σταύρος Κολλιόπουλος eclass.di.uoa.gr

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις

Αναπτυξιακά ορόσημα λόγου

Υπουργείο Παιδείας και Θρησκευμάτων Κέντρο Ελληνικής Γλώσσας

Μαθησιακές Δυσκολίες: Από την Αξιολόγηση, στην Προσαρμογή και στην Παρέμβαση

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Ανάγνωση. Ικανότητα γρήγορης και αυτόματης αναγνώρισης λέξεων. Γνώση γραμμάτων και αντιστοιχίας γραμμάτων φθόγγων. Κατανόηση κειμένου

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

«ΕΙΣΑΓΩΓΗ ΣΤΗ ΜΕΘΟΔΟΛΟΓΙΑ ΤΗΣ ΕΚΠΑΙΔΕΥΤΙΚΗΣ ΕΡΕΥΝΑΣ» Μάθημα 6 «Βασικές μέθοδοι ποιοτικής & μικτής έρευνας»

LUDWIK FLECK ( ) (Λούντβικ Φλεκ) Ο Ludwik Fleck και η κατασκευή των επιστημονικών γεγονότων.

Τμήμα Επιστημών της Θάλασσας Σύντομες οδηγίες συγγραφής της Πτυχιακής Εργασίας

Transcript:

Διεπιστημονικό Διαπανεπιστημιακό Πρόγραμμα Μεταπτυχιακών Σπουδών στην "Γλωσσική Τεχνολογία" Εθνικό & Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Φιλολογίας Τομέας Γλωσσολογίας Εθνικό Μετσόβιο Πολυτεχνείο Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ Τομέας Σημάτων, Ελέγχου & Ρομποτικής Ινστιτούτο Επεξεργασίας του Λόγου ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Μελέτη εξαγωγής φωνολογικής πληροφορίας από τον ΕΘΕΓ με σκοπό την παραγωγή Ελαχίστων Ζευγών και τον υπολογισμό Λειτουργικών Φορτίων για την Νέα Ελληνική. ΚΩΝΣΤΑΝΤΙΝΟΣ ΚΑΛΗΜΕΡΗΣ Επιβλέποντες Καθηγητές: Γεώργιος Καραγιάννης (ΕΜΠ, ΙΕΛ) Γεώργιος Μικρός (ΕΚΠΑ) ΑΘΗΝΑ, Οκτώβριος 2004

Διεπιστημονικό Διαπανεπιστημιακό Πρόγραμμα Μεταπτυχιακών Σπουδών στην "Γλωσσική Τεχνολογία" Εθνικό & Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Φιλολογίας Τομέας Γλωσσολογίας Εθνικό Μετσόβιο Πολυτεχνείο Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ Τομέας Σημάτων, Ελέγχου & Ρομποτικής Ινστιτούτο Επεξεργασίας του Λόγου ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Μελέτη εξαγωγής φωνολογικής πληροφορίας από τον ΕΘΕΓ με σκοπό την παραγωγή Ελαχίστων Ζευγών και τον υπολογισμό Λειτουργικών Φορτίων για την Νέα Ελληνική. ΚΩΝΣΤΑΝΤΙΝΟΣ ΚΑΛΗΜΕΡΗΣ Επιβλέποντες Καθηγητές: Γεώργιος Καραγιάννης (ΕΜΠ, ΙΕΛ) Γεώργιος Μικρός (ΕΚΠΑ) ΑΘΗΝΑ, Οκτώβριος 2004

Στους γονείς μου Ελένη και Συμεών, στον αδελφό μου Παναγιώτη και τους πολυαγαπημένους μου φίλους Βασίλη Μασσίνα, Γιώργο Τζανοδασκαλάκη και Βασίλη Κοροβέση. ii

Minimal pairs are the analyst s delight, and he seeks them whenever there is any hope of finding them. Charles Hockett (1955: 212) iii

Πίνακας 0.1: Το Διεθνές Φωνητικό Αλφάβητο IPA iv

Σχήμα 0.1: Τα όργανα της ομιλίας και οι διατάξεις των ενεργητικών και παθητικών αρθρωτών για διάφορες θέσεις άρθρωσης (Πηγή: O Connor 1973). v

Ευχαριστίες Θα ήθελα να εκφράσω τις θερμότατες ευχαριστίες μου στους επιβλέποντες της εργασίας, κ. Γεώργιο Καραγιάννη, Καθηγητή Πληροφορικής στο Εθνικό Μετσόβιο Πολυτεχνείο (Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Τομέας Σημάτων, Ελέγχου & Ρομποτικής) και Διευθυντή του Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ), και κ. Γεώργιο Μικρό, Επίκουρο Καθηγητή του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών (Φιλοσοφική Σχολή, Τμήμα Ιταλικής & Ισπανικής Γλώσσας και Φιλολογίας). Χωρίς την πολύτιμη βοήθειά τους σε επιστημονικά και διαδικαστικά ζητήματα, την συνεχή πρακτική και ηθική υποστήριξή τους και την εμπιστοσύνη τους, η πραγματοποίηση της παρούσας εργασίας θα ήταν αδύνατη. Επίσης, θα ήθελα να εκφράσω τις θερμότατες ευχαριστίες μου στα στελέχη του ΙΕΛ για την ευγενική βοήθεια που μου προσέφεραν κατά την διαδικασία συγκέντρωσης και επεξεργασίας του μεγάλου όγκου των πρωτογενών δεδομένων της εργασίας. Χωρίς την ουσιαστική συνδρομή τους, η εργασία θα είχε παραμείνει απλώς μία ιδέα: ευχαριστώ τον Δρα Νίκο Χατζηγεωργίου, υπεύθυνο του Παραρτήματος Θράκης του ΙΕΛ και υπεύθυνο μηχανικό του ηλεκτρονικού σώματος κειμένων Εθνικός Θησαυρός της Ελληνικής Γλώσσας, ο οποίος εξήγαγε από τον ΕΘΕΓ και έθεσε στην διάθεσή μου τα πρωτογενή δεδομένα της εργασίας τον Δρα Νίκο Γλάρο, υπεύθυνο του Τμήματος Ηλεκτρονικής Λεξικογραφίας του ΙΕΛ, ο οποίος επιμελήθηκε τον αυτόματο λεξιλογικό και ορθογραφικό έλεγχο των πρωτογενών δεδομένων της εργασίας τον Δρα Στέλιο Μπακαμίδη, μέλος του Επιστημονικού Γνωμοδοτικού Συμβουλίου του ΙΕΛ, υπεύθυνο του Τμήματος Τεχνολογίας Φωνής και δημιουργό του εργαλείου αυτόματης φωνητικής μεταγραφής που ενσωματώνεται στο εκπαιδευτικό CD ROM Φιλογλωσσία+2, το οποίο παράγεται από το ΙΕΛ. Χωρίς την ύπαρξη του εν λόγω εργαλείου, η προοπτική για μεταγραφή του τεράστιου όγκου των πρωτογενών δεδομένων της εργασίας σε φωνητικό αλφάβητο μέσα στα χρονικά πλαίσια περάτωσής της θα ήταν πρακτικά αδύνατη τον Δρα Σπύρο Ράπτη, ερευνητή στο Τμήμα Τεχνολογίας Φωνής του ΙΕΛ και υπεύθυνο διδάσκοντα του μαθήματος της Τεχνογλωσσίας Υπολογιστική Νοημοσύνη: Ασαφής Λογική, Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι, για την υπομονή που έδειξε απαντώντας στις ακατάπαυστες ερωτήσεις μου σχετικά με το ζήτημα του βέλτιστου τρόπου κωδικοποίησης της γνώσης που είναι απαραίτητη για την λειτουργία ενός εύρωστου αυτόματου συστήματος μεταγραφής. Οι απολαυστικές συζητήσεις μας αποτέλεσαν για μένα πολύτιμη πηγή έμπνευσης. Θερμότατες ευχαριστίες στην Δρα Ελένη Ευθυμίου, ερευνήτρια στο Τμήμα Εκπαιδευτικής Τεχνολογίας του ΙΕΛ, για την ηθική της συμπαράσταση και τις πολύτιμες συμβουλές της. Όταν, προ τριετίας, προσέγγισα την κυρία Ευθυμίου για να της εκφράσω τις ασαφείς ιδέες μου περί εξαγωγής φωνολογικής πληροφορίας από ορθογραφικές αναπαραστάσεις λέξεων, εκείνη διέβλεψε ότι το ΠΜΣ Τεχνογλωσσία θα μου παρείχε μία δημιουργική διέξοδο για τις ερευνητικές μου ανησυχίες. Αισθάνομαι ιδιαίτερη χαρά που η πρόβλεψή της επιβεβαιώθηκε. Επίσης, θα ήθελα να ευχαριστήσω τους ανθρώπους που είχαν την ευγενή καλοσύνη να διαθέσουν τον πολύτιμο χρόνο τους για να διαβάσουν το κείμενοπρόταση του οποίου η παρούσα εργασία αποτελεί εξέλιξη και προέκταση, και να μου προσφέρουν πολύτιμες παρατηρήσεις, σχόλια και συμβουλές: τον Καθηγητή κ. vi

Χριστόφορο Χαραλαμπάκη (ΕΚΠΑ), τον Επίκουρο Καθηγητή κ. Αντώνη Μποτίνη (ΕΚΠΑ), τον Επίκουρο Καθηγητή κ. Γιάνη Μαΐστρο (ΕΜΠ), τον Λέκτορα κ. Γεώργιο Μαρκόπουλο (ΕΚΠΑ) και τον Δρα Χάρη Παπαγεωργίου (ΙΕΛ). Θα ήθελα επίσης να εκφράσω τις εγκάρδιες ευχαριστίες μου στον εδώ και δεκαπέντε έτη επιστήθιο φίλο μου και συμμαθητή Βασίλη Μασσίνα, Διπλωματούχο Τοπογράφο Μηχανικό ΕΜΠ, υποψήφιο Διδάκτορα Μηχανικό Δορυφορικών Συστημάτων του Εθνικού Μετσόβιου Πολυτεχνείου στο διεπιστημονικό γνωστικό αντικείμενο της Συμβολομετρίας με χρήση Ραντάρ Συνθετικού Ανοίγματος, InSAR (Τμήμα Τοπογράφων Μηχανικών και Τμήμα Ηλεκτρολόγων Μηχανικών) και Συνεργάτη Ερευνητή του Κέντρου Δορυφόρων Διονύσου του ΕΜΠ, για την πολυτιμότατη βοήθειά του και την καίρια συμβολή του στην πραγματοποίηση της εργασίας. Ο Βασίλης οργάνωσε τον κυκεώνα των πρωτογενών δεδομένων της εργασίας σε σχεσιακές βάσεις δεδομένων. Επίσης, διευκόλυνε σημαντικά το έργο της ταχείας μαζικής μεταγραφής ορθογραφικών λέξεων σε φωνητικό αλφάβητο με χρήση του εργαλείου της Φιλογλωσσίας+2, κατασκευάζοντας ειδικά για αυτόν το σκοπό μία φιλική προς τον χρήστη διεπαφή. Τέλος, αντλώντας από την τουλάχιστον δεκαπενταετή εμπειρία του στην Θεωρία Πιθανοτήτων και την Στατιστική, προσέγγισε την πολυδιάστατη συντιθέμενη κατανομή των συμβόλων που συνθέτουν τις ορθογραφικές συμβολοσειρές των πρωτογενών δεδομένων και εξήγαγε από τον πληθυσμό τους ένα τυχαίο δείγμα το οποίο και αξιολόγησε ως προς την αντιπροσωπευτικότητά του. Η ανάλυση και περιγραφή της κατανομής, η ακολουθούμενη μεθοδολογία δειγματοληψίας, καθώς και τα τεστ αξιολόγησης της τυχαιότητας και αντιπροσωπευτικότητας του δείγματος, συνοψίζονται στις παραγράφους 5.3 και 5.4, τις οποίες ο Βασίλης ουσιαστικά συνέγραψε. Το δείγμα χρησιμοποιήθηκε τελικώς από τον γράφοντα για τις ανάγκες αξιολόγησης των επιδόσεων του εργαλείου αυτόματης φωνητικής μεταγραφής. Ένα πολύ μεγάλο ευχαριστώ ανήκει στους οικείους μου, οι οποίοι μοιράστηκαν τις χαρές, τον ενθουσιασμό, αλλά και τις λύπες και απογοητεύσεις που μου επιφύλασσε η, κάποιες φορές μαγική και άλλες απάνθρωπη, διαδικασία συγγραφής της εργασίας. Ευχαριστώ πρώτα απ όλα τους γονείς μου, οι οποίοι με στήριξαν οικονομικά κατά τους τελευταίους μήνες συγγραφής της εργασίας, επιστρατεύοντας ταυτόχρονα όλη τους την αγάπη και την καλή τους θέληση στην προσπάθειά τους να παρακολουθήσουν τις απότομες αλλαγές στην διάθεσή μου. Τον αδελφό μου Παναγιώτη, για την αγάπη του, την συνεχή του συμπαράσταση και ψυχολογική υποστήριξη αλλά και τους καθημερινούς μας περιπάτους. Επίσης τους αγαπημένους μου φίλους που ήταν και είναι πάντα εκεί: τον Βασίλη Μασσίνα, που, μεταξύ άλλων, έχει το χάρισμα να επιβάλλει την τάξη στο χάος, να γίνεται κοινωνός των ονείρων των φίλων του και να τους μεταδίδει την αισιοδοξία του και το χαμόγελό του την Μαρία Ιωάννου για την ειλικρινή και αδιαπραγμάτευτη αγάπη της και την ζεστασιά της καρδιάς της (οι λέξεις δεν αρκούν) τον Βασίλη Κοροβέση, που με βοηθάει να γίνω καλύτερος άνθρωπος τον Γιώργο Τζανοδασκαλάκη, για την παραδειγματική του αφοσίωση στην επίτευξη των στόχων του τον Γιάννη Πλατανιά την Αγγελική Ηλιοπούλου, για το χάρισμά της να μετατρέπει τις λέξεις σε μουσική την συνάδελφο Άννα Κουρδή τον Αντώνη Βασιλείου τον Παναγιώτη Παυλάτο την Μαρία Πηγάκη, ειδική στην ψηφιακή χαρτογραφία, της οποίας το ενθουσιώδες ενδιαφέρον για τα ζητήματα που πραγματεύεται η εργασία επιβεβαίωσε με απολαυστικό τρόπο αυτό που πάντοτε υποπτευόμουν: οι μεγάλοι όγκοι δεδομένων συχνά επιφυλάσσουν ευχάριστες εκπλήξεις. Επίσης, ένα μεγάλο ευχαριστώ προς τον vii

κ. Δημήτρη Λάη για το έμπρακτο ενδιαφέρον που έδειξε σε ότι αφορά το ζήτημα των μεταπτυχιακών μου σπουδών. Τέλος, ευχαριστώ τους πολυαγαπημένους μου δασκάλους στο Πανεπιστήμιο του Sheffield, Professor April M.S. McMahon, Dr Andrew R. Linn, Dr Mike J. Reynolds, και Dr Richard Steadman-Jones, στους οποίους οφείλω πολλά ως σπουδαστής αλλά και ως άνθρωπος. Επίσης, τους πολυαγαπημένους μου φίλους Linda Penn, Tony Gilbert, Matthew Jacques, Richard Dimagiba, Yasser El-Baghdady, Sheila και Mike Gerforth, Biju Jacob, και Vivek Srivastava, για τις αξέχαστες στιγμές που μοιραστήκαμε. viii

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Ευχαριστίες.. Ευρετήριο Πινάκων......... vi xiii Ευρετήριο Σχημάτων....... xvii Ευρετήριο Διαγραμμάτων... xviii 0. Σύντομη περίληψη 1 1. Επισκόπηση του θεωρητικού υπόβαθρου της εργασίας 2 1.1 Σχέσεις μεταξύ των γλωσσικών μονάδων και των γραφικών τους αναπαραστάσεων: μερικές παρατηρήσεις... 2 1.2 Η έννοια του Τεμαχίου: η φωνητική πραγματικότητα και τα εργαλεία περιγραφής της 4 1.3 Διακριτικά Χαρακτηριστικά: από το Φωνητικό Τεμάχιο στο Φώνημα.. 7 1.3.1 Η σχέση ήχων και εννοιών: απλές και σύνθετες γλωσσικές μονάδες. 7 1.3.2 Η διαφορετική θεώρηση του ηχητικού τεμαχίου στην Φωνητική και την Φωνολογία... 10 1.3.3 Τα διακριτικά χαρακτηριστικά των φωνηεντικών φωνημάτων της Νέας Ελληνικής: πλεοναστικοί κανόνες... 12 1.3.4 Η σχέση μεταξύ φωνηεντικών και συμφωνικών φωνημάτων: αναζητώντας ένα ενιαίο σύνολο διακριτικών χαρακτηριστικών 16 1.3.5 Το φώνημα ως δέσμη διακριτικών χαρακτηριστικών. 19 2. Πλαίσια, αντικείμενο και στόχοι της εργασίας 20 3. Βασικές Έννοιες 25 4. Πρωτογενή Δεδομένα 40 4.1 Η πηγή των πρωτογενών δεδομένων: το προφίλ του Εθνικού Θησαυρού της Ελληνικής Γλώσσας (ΕΘΕΓ). 40 4.2 Η Λίστα Μοναδικών Τύπων του ΕΘΕΓ και η περιεκτικότητά της σε ηχητική πληροφορία... 43 4.3 Προεπεξεργασία των δεδομένων 45 ix

4.3.1 Η κατάτμηση της Λίστας Μοναδικών Τύπων σε υποσύνολα. 45 4.3.2 Το Υποσύνολο Α: Ελληνικά 47 4.3.2.1 Αυτόματος λεξιλογικός και ορθογραφικός έλεγχος 47 4.3.2.2 Ανορθόγραφες ή ανύπαρκτες λέξεις;.. 51 4.3.2.3 Άτονες και διπλοτονισμένες συμβολοσειρές: κανονικοποίηση ή αφαίρεση;. 56 4.3.2.3.1 Η προσέγγιση της κανονικοποίησης... 57 4.3.2.3.2 Η προσέγγιση της αφαίρεσης.. 67 4.3.3 Το Υποσύνολο Β: Αριθμοί... 69 4.3.4 Το Υποσύνολο Γ: Ελληνικά & hyphens.. 73 4.3.5 Το Υποσύνολο Δ: Μεικτές συμβολοσειρές. 75 4.3.5.1 Συμβολοσειρές Λατινικών χαρακτήρων. 75 4.3.5.2 Συμπαραθέσεις αριθμητικών ψηφίων με αλφαβητικούς και/ή μη-αλφαβητικούς χαρακτήρες. 78 4.3.5.3 Προβληματικές εγγραφές και πιθανές πηγές ηχητικής πληροφορίας. 79 4.3.5.4 Σημεία στίξης και λοιπά μη-αλφαριθμητικά σύμβολα: όρια μεταξύ συμβολοσειρών ή μέρος τους;. 85 4.3.5.5 Το Πρότυπο <aστέρι>/<aστρο>.. 90 4.3.5.6 Το Πρότυπο <24ωρο>. 98 4.3.5.7 Τα Πρότυπα <Δ.Ε.Η.> και <ΕΛ.ΤΑ.>: συντομογραφίες, αρκτικόλεξα και ακρωνύμια. 100 4.4 Τα Τελικά Δεδομένα Εισόδου : το προφίλ των αξιοποιηθέντων πρωτογενών δεδομένων... 105 5. Δευτερογενή Δεδομένα 110 5.1 Η ανάγκη για αυτόματη μεταγραφή των ορθογραφικών δεδομένων σε φωνητικό αλφάβητο 110 5.2 Το εργαλείο αυτόματης φωνητικής μεταγραφής. 119 5.2.1 Φιλοσοφία και αρχές λειτουργίας του εργαλείου 119 x

5.2.2 Οι σχετικές μονάδες ανάλυσης του εργαλείου: το πρόβλημα της κυκλικότητας στην επιχειρηματολογία... 126 5.3 Η κατανομή των συμβόλων μέσα στις αναπαραστάσεις εισόδου του εργαλείου αυτόματης φωνητικής μεταγραφής...... 148 5.4 Λήψη τυχαίου δείγματος από τον πληθυσμό των ορθογραφικών δεδομένων και έλεγχος της αντιπροσωπευτικότητάς του... 149 5.5 Έλεγχος αξιοπιστίας της λειτουργίας του εργαλείου αυτόματης φωνητικής μεταγραφής και προτάσεις για την βελτίωσή του. 157 5.5.1 Πρώτη Φάση έλεγχου των φωνητικών μεταγραφών των ορθογραφικών λέξεων του τυχαίου δείγματος. 157 5.5.2 Δεύτερη Φάση έλεγχου των φωνητικών μεταγραφών των ορθογραφικών λέξεων του τυχαίου δείγματος. 166 5.5.2.1 Το πρόβλημα της «προερρινοποίησης» των [b], [d], [ ] και [ ]. 166 5.5.2.2 Το πρόβλημα της σαφούς αξιολόγησης των μεταγραφών ορθογραφικών λέξεων που περιέχουν συμπλέγματα τύπου C i V: μία απόπειρα μοντελοποίησης του φαινομένου της «Συνίζησης».. 171 5.5.2.3 Η αξιολόγηση των μεταγραφών ορθογραφικών λέξεων που περιέχουν συμπλέγματα τύπου μ i V 184 5.5.2.4 Η αξιολόγηση των μεταγραφών ορθογραφικών λέξεων που περιέχουν συμπλέγματα τύπου ρ i V 190 5.5.2.5 Επέκταση των ορισμών των υποσυνόλων του λεξιλογίου της ΝΕ που σχετίζονται με το μεταγραφικό πρόβλημα των συμπλεγμάτων C i V 192 5.5.3 Παρουσίαση και ανάλυση των αποτελεσμάτων του ελέγχου αξιοπιστίας της λειτουργίας του εργαλείου φωνητικής μεταγραφής.. 193 5.6 Το εργαλείο ανεύρεσης ελαχίστων ζευγών. 216 6. Αποτελέσματα, συμπεράσματα και μελλοντικές προοπτικές 218 7. Βιβλιογραφικές Αναφορές 230 8. Παραρτήματα 237 Παράρτημα 1: Οι 100 πιο συχνές αμιγώς Λατινικές συμβολοσειρές 237 Παράρτημα 2: Υποσύνολο Δ: συμβολοσειρές περιέχουσες τουλάχιστον ένα αριθμητικό ψηφίο και τουλάχιστον έναν μη-αριθμητικό χαρακτήρα... 239 xi

Παράρτημα 3: Το Πρότυπο <aστέρι>/<aστρο>: οι 100 πιο συχνές συμβολοσειρές. 241 Παράρτημα 4: Το Πρότυπο <24ωρο>: τα 100 πιο συχνά 2 α συνθετικά... 244 Παράρτημα 5: Οι 50 πιο συχνές συντομογραφίες που περιέχουν τον χαρακτήρα <. >... 246 xii

ΕΥΡΕΤΗΡΙΑ ΠΙΝΑΚΩΝ, ΣΧΗΜΑΤΩΝ, ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΩΝ ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ 0.1 Το Διεθνές Φωνητικό Αλφάβητο IPA... iv 1.1 Πίνακας φωνητικών χαρακτηριστικών-/-τιμών για τις τυπικές πραγματώσεις των φωνηεντικών φωνημάτων /i/, /e/, /a/, /o/, και /u/. 14 1.2 Μερικώς καθορισμένος (underspecified) πίνακας φωνολογικών χαρακτηριστικών / τιμών (πηγή: Spencer 1996: 124) 19 3.1 Σχέση μεταξύ της Λίστας Μοναδικών Τύπων και του Λημματολογίου ενός Σώματος Κειμένων... 25 3.2 Ορθογραφικές και φωνητικές αναπαραστάσεις λέξεων.. 26 3.3 Φωνητικές πραγματώσεις γραμμάτων ανάλογα με το περιβάλλον τους 26 4.1 Μη-αλφαριθμητικά σύμβολα που περιέχονται στα κείμενα του ΕΘΕΓ. 46 4.2 Δείγμα εγγραφών του Υποσυνόλου Α (ενδεικτικά)... 48 4.3 Χαρακτηρισμός μοναδικών τύπων από το μηχανικό σύστημα λεξιλογικού / ορθογραφικού ελέγχου και από έναν άνθρωπο-διορθωτή (ενδεικτικά). 50 4.4 Η σχέση του μήκους των sub-strings και του βαθμού αβεβαιότητας κατά την διαδικασία ανάθεσής τους σε λέξεις 54 4.5 Κανονικοποίηση άτονων και διπλοτονισμένων μοναδικών τύπων και των συχνοτήτων τους. 57 4.6 Κανονικοποίηση τονικών παρωνύμων... 58 4.7 Κατανομή άτονων και τονισμένων μονοσύλλαβων τύπων στον ΕΘΕΓ (ενδεικτικά). 63 4.8 Εκ παραδρομής τονισμένες μονοσύλλαβες, ορθώς άτονες μονοσύλλαβες, και ορθώς τονισμένες δισύλλαβες συμβολοσειρές (ενδεικτικά) 64 4.9 Κανονικοποίηση συμβολοσειρών ευρισκόμενων σε σχέση τονικής διπλοτυπίας. 65 4.10 Δείγμα εγγραφών του Υποσυνόλου Β (ενδεικτικά). 70 4.11 Πιθανές αναγνώσεις των συμβόλων <., > σε εγγραφές του Υποσυνόλου Β 72 4.12 Δείγμα εγγραφών του Υποσυνόλου Γ (ενδεικτικά) 73 xiii

4.13 Δείγμα εγγραφών του Υποσυνόλου Δ (ενδεικτικά)... 76 4.14 Πιθανές αναγνώσεις του συμβόλου < / > 78 4.15 Αφαίρεση των μη-ελληνικών χαρακτήρων από τις εγγραφές του Πίνακα 4.13 81 4.16 Επιτρεπτοί συνδυασμοί Λατινικών, μη-αλφαριθμητικών και αριθμητικών χαρακτήρων μέσα σε συμβολοσειρές που αποτελούν μέρος του Υποσυνόλου Δ.... 82 4.17 Μοναδικοί τύποι αποτελούμενοι αποκλειστικά από έναν μη-αλφαριθμητικό χαρακτήρα (ενδεικτικά) 83 4.18 Συμβολοσειρές του Υποσυνόλου Δ που περιέχουν τα Ελληνικά strings <απ> και <από>.. 87 4.19 Συμβολοσειρές του Υποσυνόλου Δ που αποτελούνται από Ελληνικούς αλφαβητικούς χαρακτήρες και τους χαρακτήρες <. > <, > και <... > (ενδεικτικό δείγμα). 88 4.20 Παραδείγματα συνεπειών της αφαίρεσης των προβληματικών χαρακτήρων από τις εγγραφές του Υποσυνόλου Δ (ενδεικτικά)... 90 4.21 Πιθανές αντιστοιχίσεις των αρχικών Λατινικών χαρακτήρων με Ελληνικούς για το Πρότυπο <aστέρι>/<aστρο> στο ορθογραφικό επίπεδο. 92 4.22 Ζεύγη Ελληνικών και Λατινικών χαρακτήρων: μεταβολές του βαθμού οπτικής ομοιότητας συναρτήσει του χαρακτηριστικού case.. 93 4.23 Απόκρυψη του αλφαβήτου-πηγής με ενδεχόμενη αποκάλυψη της γλώσσας-πηγής μέσω της κεφαλαιοποίησης χαρακτήρων: το σύνολο των εγγραφών με αρχικό χαρακτήρα το < c > 94 4.24 Μείωση του συνολικού αριθμού ελαχίστων ζευγών λόγω αφαίρεσης ενός μέλους από το παράδειγμα [Cíno].. 96 4.25 Ισοκατανομή των απολεσθέντων ελαχίστων ζευγών σε καθεμία από τις ηχητικές αντιθέσεις που ορίζονται από το παράδειγμα [Cíno].. 97 4.26 Μερικοί τύποι συντομογραφιών. 100 4.27 Επιτυχείς και μη φωνητικές μεταγραφές συντομογραφιών συναρτήσει της παρουσίας ή μη του χαρακτήρα <. > στο ορθογραφικό string πριν την μεταγραφή (ενδεικτικά).. 101 5.1 Ελαχίστως διαφέροντα ζεύγη ορθογραφικών αναπαραστάσεων: κοινή γραφηματική δομή, διαφορετική φωνολογική δομή (ενδεικτικά). 111 5.2 Λήμματα του ΛΚΝ τα οποία περιέχουν τα αρχικά strings <διαβολ->, <διαβόλ->, <διάβολ->, <διαολ->, <διαόλ-> και <διάολ->. 113 5.3 Παραδείγματα context-free κανόνων μεταγραφής (πηγή: Bakamidis & Carayannis 1987: 161-162) 120 xiv

5.4 Παραδείγματα φωνητικής μεταγραφής λέξεων που περιέχουν ένα string τύπου C i V (πηγή: Bakamidis & Carayannis 1987: 165).. 122 5.5 Πλήρης κατάλογος συμβόλων εξόδου του εργαλείου αυτόματης φωνητικής μεταγραφής της «Φιλογλωσσίας+2» 129 5.6 Λέξεις που φέρεται ότι περιέχουν διφθόγγους (πηγή: ΛΚΝ 1998: κδ ) 129 5.7 Φωνητικές αναπαραστάσεις μοναδικών τύπων που περιέχουν τις ακολουθίες συμβόλων <Vj>, <V j>, <jv> ή <jv > (τυχαίο δείγμα 2000 τύπων). 132 5.8 Αμφισημία των συμβόλων < j > και < i > στην έξοδο του εργαλείου... 133 5.9 Λάθη στην αυτόματη μεταγραφή μοναδικών τύπων που αντιστοιχούν στο λήμμα βραχυχρόνιος 140 5.10 Κατανομή των λαθών κατά την μεταγραφή των μοναδικών τύπων του Πίνακα 5.9 ανά φωνητικό χαρακτήρα και στο σύνολο των φωνητικών χαρακτήρων 142 5.11 Μέση απόκλιση του δείγματος από τον πληθυσμό ανά ορθογραφικό χαρακτήρα.. 150 5.12 Κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά tag ορθότητας και ανά κατηγορία ορθογραφικής λέξης (1 η Φάση Ελέγχου).. 162 5.13 Κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά κατηγορία ορθογραφικής λέξης και ανά tag ορθότητας (1 η Φάση Ελέγχου) 164 5.14 Η κατανομή των παρατηρημένων συμπλεγμάτων τύπου μ i V και ρ i V μέσα σε τυχαίο δείγμα πλήθους 2000 λέξεων 185 5.15 Τυπικές πραγματώσεις συμπλεγμάτων τύπου C i V, με C = μ. 186 5.16 Τυπικές πραγματώσεις συμπλεγμάτων τύπου C i V, με C = μ (απλοποιημένη εκδοχή του Πίνακα 5.15) 189 5.17 Τυπικές πραγματώσεις συμπλεγμάτων τύπου C i V, με C = ρ... 190 5.18 Τελική κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά tag ορθότητας και ανά κατηγορία ορθογραφικής λέξης, μετά από διορθωτική κανονικοποίηση της εξόδου του εργαλείου φωνητικής μεταγραφής (2 η Φάση Ελέγχου) 193 5.19 Τελική κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά κατηγορία ορθογραφικής λέξης και ανά tag ορθότητας, μετά από διορθωτική κανονικοποίηση της εξόδου του εργαλείου φωνητικής μεταγραφής (2 η Φάση Ελέγχου). 195 5.20 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών τους ανά τύπο C i V και ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ (2 η Φάση Ελέγχου). 197 xv

5.21 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών με Τιμή «1» ανά τύπο C i V και ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ (2 η Φάση Ελέγχου).. 199 5.22 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών με Τιμή «0» ανά τύπο C i V και ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ (2 η Φάση Ελέγχου).. 201 5.23 Τελική κατανομή των φωνητικών μεταγραφών των λέξεων του τυχαίου δείγματος που κατατάχθηκαν στην κατηγορία «C i V», ανά υποκατηγορία συμπλέγματος C i V και ανά tag ορθότητας (2 η Φάση Ελέγχου).. 203 5.24 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ και ανά tag ορθότητας (2 η Φάση Ελέγχου)... 205 xvi

ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ 0.1 Τα όργανα της ομιλίας και διάφορες θέσεις άρθρωσης (Πηγή: O Connor 1973)..... v 1.1 Ο πραγματικός χώρος άρθρωσης των φωνηέντων και η τυποποιημένη εκδοχή του ως τραπεζοειδές (Πηγές: Laver (1994: 272, 273) και O Connor (1973: 51)).. 13 1.2 Τοποθέτηση των τυπικών πραγματώσεων των φωνηεντικών φωνημάτων της Νέας Ελληνικής πάνω στο τραπεζοειδές άρθρωσης των φωνηέντων.. 13 4.1 Κατανομή των Μοναδικών Τύπων ανά τύπο συμβολοσειράς... 46 4.2 Κατανομή των Πραγματώσεων των Μοναδικών Τύπων ανά τύπο συμβολοσειράς... 46 4.3 Αντιστοιχίσεις ορθογραφικών και φωνητικών σημάτων... 52 4.4 Συσχετισμοί ορθογραφικών και φωνητικών σημάτων βάσει συνδυασμού φωνοτακτικών και λεξιλογικών (γραμματικών) κριτηρίων... 52 4.5 Σχέση αρχικών και τελικών ορθογραφικών δεδομένων και οι πραγματώσεις τους μέσα στον ΕΘΕΓ. 108 4.6 Σχέση αρχικών και τελικών ορθογραφικών δεδομένων: Υποσύνολο Α των μοναδικών τύπων του ΕΘΕΓ ( Ελληνικά ) και οι πραγματώσεις τους μέσα στον ΕΘΕΓ.. 109 5.1 Συσχετισμοί ορθογραφικών και φωνητικών σημάτων βάσει λεξιλογικής πληροφορίας... 143 5.2 Η φωνητική και ορθογραφική πραγματικότητα της ΝΕ, και η αμφισημία των συμβόλων <i> <j> και < > στην έξοδο του εργαλείου φωνητικής μεταγραφής της «Φιλογλωσσίας+2». Αναπαραστασιακή επικάλυψη: περιγραφή 5 διαφορετικών ηχητικών καταστάσεων με χρήση 3 συμβόλων. 183 5.3 Τριεπίπεδη ανάλυση των 7 προτεινόμενων αλλοφώνων του φωνήματος /i/, ανάλογα με τον ενδοσυλλαβικό ρόλο τους και τα αρθρωτικά και ακροατικά τους χαρακτηριστικά 213 xvii

ΕΥΡΕΤΗΡΙΟ ΔΙΑΓΡΑΜΜΑΤΩΝ 5.1 Κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά tag ορθότητας και ανά κατηγορία ορθογραφικής λέξης (γραφηματική απόδοση του Πίνακα 5.12). 163 5.2 Κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά κατηγορία ορθογραφικής λέξης και ανά tag ορθότητας (γραφηματική απόδοση του Πίνακα 5.13). 165 5.3 Τελική κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά tag ορθότητας και ανά κατηγορία ορθογραφικής λέξης (γραφηματική απόδοση του Πίνακα 5.18) 194 5.4 Τελική κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά κατηγορία ορθογραφικής λέξης και ανά tag ορθότητας (γραφηματική απόδοση του Πίνακα 5.19). 196 5.5 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών τους ανά τύπο C i V και ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ (γραφηματική απόδοση του Πίνακα 5.20) 198 5.6 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών με Τιμή «1» ανά τύπο C i V και ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ (γραφηματική απόδοση του Πίνακα 5.21).. 200 5.7 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών με Τιμή «0» ανά τύπο C i V και ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ (γραφηματική απόδοση του Πίνακα 5.22)... 202 5.8 Τελική κατανομή των φωνητικών μεταγραφών των λέξεων του τυχαίου δείγματος που κατατάχθηκαν στην κατηγορία «C i V», ανά υποκατηγορία συμπλέγματος C i V και ανά tag ορθότητας (γραφηματική απόδοση του Πίνακα 5.23) 204 5.9 Λέξεις του τυχαίου δείγματος που περιέχουν συμπλέγματα C i V: Τελική κατανομή των φωνητικών μεταγραφών του τυχαίου δείγματος ανά Υποσύνολο ορθογραφικών αναπαραστάσεων των λέξεων του λεξιλογίου της ΝΕ και ανά tag ορθότητας (γραφηματική απόδοση του Πίνακα 5.24)... 206 xviii

0. Σύντομη περίληψη Η παρούσα εργασία αποτελεί την μελέτη σκοπιμότητας και επιτευξιμότητας ενός μεγαλύτερου ερευνητικού προγράμματος με τίτλο «Ελάχιστα Ζεύγη και Λειτουργικά Φορτία ηχητικών αντιθέσεων για τη Νέα Ελληνική: εξαγωγή φωνολογικής πληροφορίας από το ηλεκτρονικό σώμα κειμένων ΕΘΕΓ», την διεξαγωγή του οποίου και προτείνουμε. Ταυτόχρονα, αποτελεί την πρώτη φάση (το στάδιο προετοιμασίας) του εν λόγω προγράμματος. Η εργασία επιχειρεί να θέσει το θεωρητικό πλαίσιο μέσα στο οποίο η προτεινόμενη απόπειρα εξαγωγής φωνολογικής πληροφορίας από πραγματικά δεδομένα γραπτού λόγου μπορεί να καταστεί υποστηρίξιμη. Επίσης, περιγράφει την μεθοδολογία και την διαδικασία συγκέντρωσης, επεξεργασίας και κατηγοριοποίησης των πρωτογενών (ορθογραφικών) δεδομένων τα οποία θα χρησιμοποιηθούν στο πλαίσιο του προτεινόμενου ερευνητικού προγράμματος. Η προεπεξεργασία των πρωτογενών δεδομένων στοχεύει στην μεγιστοποίηση της αξιοπιστίας της ηχητικής πληροφορίας που τελικώς θα εξαχθεί από αυτά. Επιπροσθέτως, η εργασία βρίσκει και αξιολογεί τα εργαλεία τα οποία θα επεξεργαστούν τα πρωτογενή δεδομένα για να παράγουν τα δευτερογενή (τις αναπαραστάσεις σε φωνητικό αλφάβητο IPA), και τα εργαλεία τα οποία θα επεξεργαστούν τα δευτερογενή δεδομένα για να παράγουν τα τριτογενή δεδομένα (τα ελάχιστα ζεύγη). Τέλος, η εργασία επιχειρεί να τυποποιήσει τα χρόνια προβλήματα της αναπαράστασης με φωνητικό αλφάβητο των ορθογραφικών συμπλεγμάτων <μπ>, <ντ>, <γκ>, <γγ> και C i V, των κλειστών στοιχείων των διφθόγγων, και γενικώς των αλλοφώνων του φωνήματος /i/ και, ακολούθως, κάνει τις σχετικές προτάσεις για την βελτίωση του εργαλείου αυτόματης φωνητικής μεταγραφής που χρησιμοποιεί. Το ευρύτερο ερευνητικό πρόγραμμα θα επιχειρήσει την εξαγωγή αξιόπιστης πληροφορίας ηχητικής φύσεως από το μήκους 34.000.000 λέξεων ηλεκτρονικό σώμα γραπτών κειμένων γενικής γλώσσας Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ) του Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ). Αρχικά δεδομένα του θα είναι οι περίπου 536.000 διαφορετικές λέξεις (μοναδικοί ορθογραφικοί τύποι) που απαρτίζουν τα κείμενα του ΕΘΕΓ, καθώς και οι συχνότητες εμφάνισής τους μέσα στο σώμα. Τα τελικώς προκριθέντα ορθογραφικά δεδομένα (περίπου 212.000 μοναδικοί τύποι) θα μεταγραφούν μηχανικά στους αντίστοιχους κανονικούς τύπους τους (citation forms) σε φωνητικό αλφάβητο. Η έξοδος του χρησιμοποιούμενου εργαλείου αυτόματης μεταγραφής ορθογραφικών δεδομένων χαρακτηρίζεται από φωνητική λεπτομέρεια κατάλληλη για μία αλλοφωνική περιγραφή του λεξιλογίου της Νέας Ελληνικής. Οι φωνητικές μεταγραφές των δεδομένων θα υποστούν αυτόματη επεξεργασία μέσω της οποίας θα εξαχθεί η λίστα όλων των μεταξύ τους Ελαχίστων Ζευγών. Αφού οριστούν οι απαραίτητοι μαθηματικοί τύποι, θα υπολογιστεί το Λειτουργικό Φορτίο (Functional Load) για κάθε ζεύγος αντιθετικά κατανεμημένων ηχητικών συμβόλων, αφ ενός στο πλαίσιο ολόκληρης της λίστας των φωνητικών αναπαραστάσεων των λέξεων των τελικώς προκριθέντων δεδομένων, και αφ ετέρου στο πλαίσιο κάθε ξεχωριστού ζεύγους πραγματικών λέξεων. Τέλος, θα γίνει μία απόπειρα κατάρτισης ενός καταλόγου φωνημάτων (και των σχετικών αλλοφώνων τους) για την Νέα Ελληνική, για πρώτη φορά βάσει λειτουργικών φορτίων που θα έχουν εξαχθεί από έναν μεγάλο όγκο δεδομένων προερχόμενων από αυθεντικά παραδείγματα (γραπτής) χρήσης της γλώσσας. 1

1. Επισκόπηση του θεωρητικού υπόβαθρου της εργασίας Από γλωσσολογική άποψη [...] είναι διακριτικά εκείνα μόνο από τα στοιχεία της αλυσίδας του λόγου που η παρουσία τους δεν προσδιορίζεται αυτόματα από το περιβάλλον όπου εμφανίζονται, πράγμα που τους προσδίδει μια λειτουργία πληροφόρησης. André Martinet (1987: 32) 1.1 Σχέσεις μεταξύ των γλωσσικών μονάδων και των γραφικών τους αναπαραστάσεων: μερικές παρατηρήσεις Κατά καιρούς έχει λεχθεί ότι η απόλυτα συγχρονική θεώρηση της γλώσσας ως ένα κλειστό, αυτάρκες, συμβολικό σύστημα επικοινωνίας, πολύ λίγο έχει να κάνει με τις συνθήκες πραγματικής χρήσης της, από πραγματικούς ανθρώπους, σε πραγματικό τόπο και χρόνο. Στην πιο μετριοπαθή της εκδοχή, η συγχρονική θεώρηση υποβιβάζει την ιστορική υπόσταση της γλώσσας σε θεωρητικώς δευτερεύουσα. Στην πιο ακραία της μορφή, την αποκηρύσσει ως θεωρητικώς άσχετη, θεωρώντας την γλώσσα ως ένα καθαρά ψυχολογικό φαινόμενο. Άσχετα με τα όποια μειονεκτήματα ενέχει η απόλυτα συγχρονική θεώρηση της γλώσσας μακριά από το κοινωνικό, πολιτιστικό και ιστορικό γίγνεσθαι (βλ. Hymes 1971, Hymes 1996: 25-62), τα πλεονεκτήματα που παρέχει είναι σημαντικά. Καταργώντας τον ιστορικό χρόνο, η θεώρηση αυτή, κατά σύμβαση, καταργεί την εξέλιξη της γλώσσας. Τρόπον τινά ακινητοποιούμενη, η γλώσσα μπορεί να γίνει πλέον αντικείμενο μελέτης (Graddol et al. 1996: 174-179, Halliday 1993). Η παραδοχή ότι η γλώσσα είναι ένα σύστημα ταυτόχρονα κλειστό και αυτάρκες (Saussure 1983: 80, 97-98. Robins 1997: 224-225) παρέχει στους μελετητές της το πλεονέκτημα ότι, για να ορίσουν την δομή της, δεν χρειάζεται να ερευνήσουν τίποτε έξω από αυτήν: οι δομικές μονάδες του συστήματος μπορούν να ορίζονται μόνο βάσει της μεταξύ τους σχέσης μέσα στο ίδιο σύστημα, και άρα όχι κατά τρόπο απόλυτο. Δυστυχώς, το πλεονέκτημα αυτό μετατρέπεται σε μειονέκτημα εξαιτίας μίας ιδιαιτερότητας της γλώσσας έναντι των υπολοίπων συμβολικών συστημάτων: γενικά, οι σχετικές με την δομή της γλώσσας μονάδες δεν είναι ούτε άμεσα ούτε εύκολα αντιληπτές (Saussure 1983: 105). Ο ερευνητής υποθέτει την ύπαρξή τους και ακολούθως δοκιμάζει την ορθότητα της υπόθεσής του. Ο Saussure έκανε σαφές ότι, όσο επιτακτική είναι η ανάγκη να οριοθετήσουμε τις σχετικές μονάδες ενός γλωσσικού συστήματος, άλλο τόσο δυσεπίλυτα είναι τα προβλήματα τα οποία αυτή η διαδικασία οριοθέτησης παρουσιάζει (Saussure 1983: 105, 109). Παραδόξως ίσως, οι μονάδες της γλώσσας που είναι πιο άμεσα αντιληπτές από ειδικούς και μη είναι αυτές που ιστορικά έχουν παρουσιάσει και τις μεγαλύτερες δυσκολίες όσο αφορά την διαδικασία σαφούς και ικανοποιητικού θεωρητικού ορισμού τους από τους μελετητές της γλώσσας: η πρόταση, η λέξη, και το ηχητικό τεμάχιο. Όσο σαφής είναι η μορφή της αναπαράστασής τους και τα όριά τους στον καθημερινό γραπτό λόγο, άλλο τόσο δύσκολα ορίσιμη είναι και η ακριβής αξία τους μέσα στο ευρύτερο γλωσσικό σύστημα. Aς αναλογιστούμε, κατ αντιπαράθεση με τις δυσκολίες θεωρητικού ορισμού τους, πόσο εύκολα μπορούμε να διακρίνουμε τα όρια των αναπαραστάσεων προτάσεων, λέξεων και ηχητικών τεμαχίων εξ αιτίας του οριοθετικού ρόλου που επιτελούν τα ορθογραφικά σύμβολα, δηλαδή τα γράμματα, τα 2