Ρέθυµνο, 18 Οκτωβρίου 2014 Δηµήτρης Παπαζαχαρίου Τµήµα Φιλολογίας, Πανεπιστήµιο Πατρών
Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων n Πρωτογενή διαλεκτικά δεδοµένα (γραπτά ή/και προφορικά): n δυσεύρετο είδος, µαζεµένο µε πολύ κόπο και προσωπικό κόστος n Βάση και προϋπόθεση για οποιαδήποτε διαλεκτολογική ανάλυση n Χαµένα στα ντουλάπια των ερευνητών που είχαν µαζέψει το δυσεύρετο υλικό
Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων n 1990 σήµερα: Σταδιακή αλλαγή σκηνικού n Συνειδητοποίηση από νέους ερευνητές των θετικών του µοιράσµατος των δεδοµένων n Τεχνολογική επανάσταση: Στις µέρες µας µε µικρό κόστος µπορούµε να συλλέγουµε δεδοµένα επαγγελµατικών προδιαγραφών, να τα επεξεργαζόµαστε πολύ γρήγορα, να τα αποθηκεύουµε, όσο µεγάλος κι αν είναι ο όγκος τους, και να κάνουµε όσα αντίγραφα θέλουµε της ίδιας ποιότητας µε το πρωτότυπο υλικό.
Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων n Τα τελευταία 15 χρόνια γίνονται διεθνείς προσπάθειες για την καθιέρωση εκείνων των βέλτιστων πρακτικών, ώστε οι συλλογές δεδοµένων να µπορούν να είναι προσβάσιµες όχι µόνο από αυτούς που τις δηµιουργούν σήµερα, αλλά και στο µέλλον, από όσο το δυνατό µεγαλύτερο κοινό. n Στις µέρες µας, οι Βάσεις Δεδοµένων Αιχµής χαρακτηρίζονται από: Χρήση Λογισµικών αιχµής και ευρείας αποδοχής Λογισµικά ανοιχτού κώδικα και ελεύθερα στην χρήση Πληθώρα επιλογών για παραµετροποίηση Δυνατότητα συνδυασµού των λογισµικών µεταξύ τους Συνεχή υποστήριξη από τους δηµιουργούς/προγραµµατιστές
Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων n Βασική δοµή / σύσταση µίας πολυτροπικής Βάσης Δεδοµένων: Τρισδιάστατη οργάνωση βάσης ως προς: i) τα Δεδοµένα (Πρωτογενή και επεξεργασµένα) Μεταδεδοµένα Δεδοµένα ii) τα Μεταδεδοµένα που χαρακτηρίζουν τα δεδοµένα iii) την Αναζήτηση των δεδοµένων σε σχέση µε τα µεταδεδοµένα που τα περιγράφουν
Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων n Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων Αιχµής: Δύο κατηγορίες: i. Γενικές Βάσεις Δεδοµένων ii. Στοχευµένες Βάσεις Δεδοµένων Οι παραπάνω δύο κατηγορίες διακρίνονται κυρίως ως προς: 1. Τον αριθµό των επεξεργασµένων δεδοµένων 2. Τον αριθµό των µεταδεδοµένων Γενικές Βάσεις Δεδοµένων = ΛΙΓΑ επεξεργασµένα δεδοµένα και ΠΟΛΛΑ µεταδεδοµένα Στοχευµένες Βάσεις Δεδοµένων = ΠΟΛΛΑ επεξεργασµένα δεδοµένα και ΛΙΓΑ µεταδεδοµένα
Ελληνικές διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων GreeD DB: Η πρώτη Γενική διαλεκτική πολυτροπική Βάση Δεδοµένων (Επ. Υπεύθυνη Αγγελική Ράλλη) Α1. Πρωτογενή Δεδοµένα: Προέρχονται από ερευνητικά προγράµµατα που εκπονήθηκαν και εκπονούνται από το Εργαστήριο Νεοελληνικών Διαλέκτων στην Πάτρα τα τελευταία δεκαπέντε χρόνια (Σύνολο: 505 ώρες µαγνητοφωνηµένου διαλεκτικού λόγου)
Διαλεκτικός χάρτης Λιγότερες από 20 ώρες ηχογράφηση 20 µε 45 ώρες ηχογράφηση Πάνω από 45 ώρες ηχογράφηση
GreeD DB: Γενική διαλεκτική πολυτροπική Βάση Δεδοµένων Α2. Επεξεργασµένα Δεδοµένα: Συνεισφορές και Ορθογραφική µεταγραφή µέρους των ηχογραφήσεων
GreeD DB: Γενική διαλεκτική πολυτροπική Βάση Δεδοµένων Β. Μεταδεδοµένα: Στοιχείία Αρχείίου Διάάλεκτος Μεταδεδοµμέένα Ερευνητικόό Πρόόγραµμµμα Γλωσσολογικάά δεδοµμέένα Πληροφορητέές Επικοινωνιακήή Περίίσταση Τεχνικέές Πληροφορίίες
GreeD DB: Γενική διαλεκτική πολυτροπική Βάση Δεδοµένων Μεταδεδοµένα: Υποκατηγοριοποίηση ΌΌνοµμα Διαλέέκτου Ταυτόότητα Γεωγραφικόός προσδιορισµμόός διαλέέκτου Φύύλο Ηλικίία Ηλιακήή οµμάάδα Διάάλεκτος Τόόπος ηχογράάφησης Πληροφορητέές Εκπαίίδευση Εκπαιδευτικήή οµμάάδα Επάάγγελµμα Κοινωνικήή Συνοχήή τόόπου ηχογράάφησης Οµμάάδα καταγωγήής Καθεστώώς οµμάάδας καταγωγήής Ηµμεροµμηνίία ηχογράάφησης Είίδος γειτονιάάς Καθηµμερινέές σχέέσεις
GreeD DB: Γενική διαλεκτική πολυτροπική Βάση Δεδοµένων The authors Paul Boersma and David Weenink Institute of Phonetic Sciences University of Amsterdam Spuistraat 210 1012VT Amsterdam The Netherlands
Στοχευµένες διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων 1. "ΘΑΛΗΣ-ΔΙΑΦΩΝΗΕΝ: Φωνήεντα των ελληνικών διαλέκτων: φωνολογική και φωνητική ανάλυση, κατάρτιση διαλεκτικού ευρετηρίου και κοινωνική ευαισθητοποίηση για την ανάδειξη του γλωσσικού πλούτου» (Επ. Υπεύθυνη: Μαίρη Μπαλτατζάνη) Α1. Πρωτογενή Δεδοµένα: ηχογραφήσεις 10 πληροφορητών ανά διάλεκτο, -από έξι διαλέκτους- κατά τη διάρκεια πραγµάτωσης πειραµατικών διεργασιών, καθώς και κατά τη διάρκεια φιλικών συνοµιλιών µεταξύ φίλων. Α2. Επεξεργασµένα Δεδοµένα: i. Ορθογραφική Mεταγραφή, ii. Φωνητική Μεταγραφή λέξεων (Sampa), iii. Επισηµείωση Φωνηέντων, iv. Επισηµείωση Συµφωνικού περιβάλλοντος Φωνηέντων, v. Επισηµείωση Φωνολογικών Φαινοµένων, vi. Σχόλια
ΔΙΑΦΩΝΗΕΝ: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων
ΔΙΑΦΩΝΗΕΝ: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων Β. Μεταδεδοµένα: Μεταδεδοµμέένα Στοιχείία Αρχείίου Διάάλεκτος Πληροφορητέές ΌΌνοµμα Διαλέέκτου Τόόπος ηχογράάφησης Ταυτόότητα Φύύλο Ηλικίία Εκπαίίδευση Επάάγγελµμα
Α2. Επεξεργασµένα Δεδοµένα (στο ¼ των πρωτογενών δεδοµένων): i. Ορθογραφική Mεταγραφή, ii. Μετάφραση, iii. Φωνητική Mεταγραφή (GrSampa), iv. Επισηµείωση Φράσεων, v. Επισηµείωση Λέξεων, vi. Επισηµείωση συλλαβών, vii. Επισηµείωση τεµαχίων (σε ξεχωριστές λωρίδες τα φωνήεντα από τα σύµφωνα), viii. Επισηµείωση φωνολογικών φαινοµένων, ix. Επισηµείωση µεταβλητών Στοχευµένες διαλεκτικές πολυτροπικές Βάσεις Δεδοµένων 2. «ΘΑΛΗΣ-AMIGRE: ΠΟΝΤΟΣ, ΚΑΠΠΑΔΟΚΙΑ, ΑΪΒΑΛΙ: ΣΤΑ ΧΝΑΡΙΑ ΤΗΣ ΜΙΚΡΑΣΙΑΤΙΚΗΣ EΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ» (Επ. Υπεύθυνη Αγγελική Ράλλη) Α1. Πρωτογενή Δεδοµένα: Κείµενα (φωτογραφίες τους) και Ηχογραφήσεις φυσικών οµιλητών (60 ώρες ηχογραφήσεων από κάθε γλωσσικό σύστηµα)
AMIGRE: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων
AMIGRE: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων 2. AMIGRE: ΠΟΝΤΟΣ, ΚΑΠΠΑΔΟΚΙΑ, ΑΪΒΑΛΙ: ΣΤΑ ΧΝΑΡΙΑ ΤΗΣ ΜΙΚΡΑΣΙΑΤΙΚΗΣ EΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ (Επ. Υπεύθυνη Αγγελική Ράλλη) (συνέχεια) Επεξεργασµένα µορφολογικά δεδοµένα : Λήµµα, Μορφολογική διαδικασία, γένος, κλητική τάξη, γραµµατική κατηγορία, καταγωγή, τύποι βάσεων /µορφηµάτων/παραγωγικών προσφυµάτων//κλιτικών προσφυµάτων (ανά γραµµατική κατηγορία)
AMIGRE: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων
AMIGRE: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων Β. Μεταδεδοµένα: Στοιχείία Αρχείίου Μεταδεδοµμέένα Διάάλεκτος Ερευνητικόό Πρόόγραµμµμα Πληροφορητέές Επικοινωνιακήή Περίίσταση
AMIGRE: Στοχευµένη διαλεκτική πολυτροπική Βάση Δεδοµένων Μεταδεδοµένα: Υποκατηγοριοποίηση Ταυτόότητα ΌΌνοµμα Διαλέέκτου Φύύλο Διάάλεκτος Τόόπος προέέλευσης του πληροφορητήή Τόόπος ηχογράάφησης Κοινωνικήή Συνοχήή τόόπου ηχογράάφησης Ηµμεροµμηνίία ηχογράάφησης Πληροφορητέές Ηλικίία Ηλιακήή οµμάάδα Εκπαίίδευση Εκπαιδευτικήή οµμάάδα Επάάγγελµμα Οµμάάδα καταγωγήής Καθεστώώς οµμάάδας καταγωγήής Είίδος γειτονιάάς Καθηµμερινέές σχέέσεις