ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΦΙΛΟΣΟΦΙΚΗ ΣΧΟΛΗ ΤΟΜΕΑΣ ΓΛΩΣΣΟΛΟΓΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Η ΕΞΕΛΙΞΗ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΚΑΤΑ ΤΟΝ 20 Ο ΑΙΩΝΑ ΜΕ ΒΑΣΗ ΤΟ ΕΛΛΗΝΙΚΟ ΤΡΑΓΟΥΔΙ» ΧΡΗΣΤΟΣ ΚΩΤΣΑΚΟΠΟΥΛΟΣ Επιβλέπουσα Καθηγήτρια: Σταματία Κουτσουλέλου Εγκρίθηκε από την τριμελή εξεταστική επιτροπή......... Σταματία Κουτσουλέλου Διονύσης Γούτσος Ελένη Παναρέτου Αθήνα, 16 Ιουνίου 2016 ΔΙΕΠΙΣΤΗΜΟΝΙΚΟ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΤΕΧΝΟΓΛΩΣΣΙΑ»
ΕΥΧΑΡΙΣΤΊΕΣ Ευχαριστώ τον Αναπληρωτή Καθηγητή Κειμενογλωσσολογίας κο Διονύση Γούτσου για την πρόταση του παρόντος θέματος διπλωματικής εργασίας, όπως επίσης και για την αμέριστη στήριξη, την καθοδήγηση αλλά και την κατανόηση που έδειξε όλο αυτόν τον καιρό σε τούτο μου το πόνημα. Επίσης θα ήθελα να ευχαριστήσω θερμά τη Διευθύντρια του Μεταπτυχιακού Προγράμματος «Τεχνογλωσσία», Αναπληρώτρια Καθηγήτρια Γλωσσολογίας, κα Σταματία Κουτσουλέλου για την άμεση ανταπόκριση της στην ανάληψη της εποπτείας της παρούσας εργασίας κατά τη διάρκεια του τελευταίου εξαμήνου.
Μια γλωσσική κατάσταση είναι πριν απ όλα αποτέλεσμα κάποιας ισορροπίας ανάμεσα στα μέρη μιας δομής ισορροπίας που δεν καταλήγει ωστόσο ποτέ σε μια πλήρη συμμετρία [...]. Η αλληλεγγύη όλων των συστατικών δραστηριοποιείται έτσι ώστε κάθε απόπειρα έναντι ενός σημείου θέτει υπό συζήτηση το σύνολο των σχέσεων και προκαλεί αργά ή γρήγορα μια νέα τάξη πραγμάτων. Ε. Benveniste, Problèmes de linguistique générale, Paris 1966, σ. 9
ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ... 1 ΚΕΦΑΛΑΙΟ 1. ΘΕΩΡΗΤΙΚΟ ΠΛΑΙΣΙΟ... 2 A. Η εξέλιξη της Ελληνικής Γλώσσας:... 2 B. Σώματα κειμένων... 4 Β.1. Από την Παραδοσιακή Γλωσσολογία στην Αξιοποίηση Σωμάτων Κειμένου... 4 Β.2. Ηλεκτρονικά Σώματα Κειμένων: Έννοια και Χαρακτηριστικά... 5 Β.3. Ιστορικό Ανάπτυξης Επιμέρους Σωμάτων Κειμένου... 9 Β.4. Διαχρονικά Σώματα Κειμένων... 10 Β.5. Μεθοδολογικά εργαλεία ανάλυσης κειμένων... 12 Β.6. Σύνοψη... 13 ΚΕΦΑΛΑΙΟ 2. ΔΕΔΟΜΕΝΑ ΚΑΙ ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ... 14 2.1. Σχεδιασμός σώματος τραγουδιών... 14 2.2. Εργαλεία λεξιλογικής ανάλυσης... 15 2.3. Σύνοψη... 16 ΚΕΦΑΛΑΙΟ 3. ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ... 17 3.1. Ανάλυση καταλόγων συχνότητας... 17 3.2. Ανάλυση λέξεων-κλειδιών... 22 3.3. Σύνοψη... 25 ΚΕΦΑΛΑΙΟ 4. ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΠΡΟΕΚΤΑΣΕΙΣ... 26 ΒΙΒΛΙΟΓΡΑΦΙΑ... 28 ΠΑΡΑΡΤΗΜΑ: Πίνακες συχνότητας και λέξεων-κλειδιών του σώματος κειμένων τραγουδιών 30 ΠΑΡΑΡΤΗΜΑ Α: Πίνακες Συχνότητας... 30 1. Πίνακας Συχνότητας της Δεκαετίας 1930... 30 2. Πίνακας Συχνότητας της Δεκαετίας 1940... 33
3. Πίνακας Συχνότητας της Δεκαετίας 1950... 36 4. Πίνακας Συχνότητας της Δεκαετίας 1960... 39 5. Πίνακας Συχνότητας της Δεκαετίας 1970... 42 6. Πίνακας Συχνότητας της Δεκαετίας 1980... 45 ΠΑΡΑΡΤΗΜΑ Β: Λέξεις-Κλειδιά... 49 1. Λέξεις-Κλειδιά της Δεκαετίας 1930... 49 2. Λέξεις-Κλειδιά της Δεκαετίας 1940... 52 3. Λέξεις-Κλειδιά της Δεκαετίας 1950... 55 4. Λέξεις-Κλειδιά της Δεκαετίας 1960... 58 5. Λέξεις-Κλειδιά της Δεκαετίας 1970... 61 6. Λέξεις-Κλειδιά της Δεκαετίας 1980... 64 ΠΑΡΑΡΤΗΜΑ Γ: ΚΑΤΑΛΟΓΟΣ ΤΡΑΓΟΥΔΙΩΝ... 68
ΕΙΣΑΓΩΓΗ Το τραγούδι και η μελοποιημένη ποίηση αποτέλεσαν από τις απαρχές του Πολιτισμού βασική καλλιτεχνική έκφραση των εκάστοτε ανθρώπινων κοινωνιών. Μέσα από τη στιχουργική μεταφέρθηκαν, άλλοτε προφορικά και άλλοτε γραπτά, μεγάλα μνημεία παραγωγής λόγου τα οποία μάλιστα κατάφεραν να διαμορφώσουν βασικά στοιχεία της συλλογικής μας μνήμης. Το σύγχρονο τραγούδι μάλιστα, σε όλα τα είδη και εκφάνσεις του, αποτελεί αντιπροσωπευτικό δείγμα της λαϊκής αλλά και της λόγιας γλώσσας. Άλλοτε μέσα από τη προφορικότητα του χαρακτήρα του αλλά και χάρη στο γεγονός ότι έχει αναδειχθεί από την κοινωνική αναγνώριση της κάθε εποχής, το τραγούδι αποτελεί βασική πηγή για τη μελέτη της εξέλιξης μιας γλώσσας στο χρόνο. Το πόνημα αυτό είναι καρπός της μελέτης ενός σώματος μουσικών στίχων, οι περισσότεροι από τους οποίους αποτέλεσαν τη βάση του Ελληνικού Τραγουδιού κατά τον περασμένο αιώνα. Αφετηρία αποτέλεσε η δεκαετία του 1930, καθώς έγιναν οι πρώτες επίσημες καταγραφές μουσικών στίχων -κατά κύριο λόγο του ρεμπέτικου και ελαφρού τραγουδιού- και συνεχίζει μέχρι και τη δεκαετία του 1980, η οποία γνώρισε την άνθιση και διάδοση του έντεχνου λαϊκού τραγουδιού όπως το γνωρίζουμε σήμερα. Μέσα από τη συλλογή ενός εκτενούς σώματος τραγουδιών, και έπειτα από την επεξεργασία τους με τα σύγχρονα μέσα που μας προσφέρει η επιστήμη της Πληροφορικής, εξήχθησαν ενδιαφέροντα συμπεράσματα για την εξέλιξη της Ελληνικής Γλώσσας κατά τη διάρκεια των πιο σημαντικών δεκαετιών της σφυρηλάτησής της, αλλά και γενικότερα την κατανόηση της διαμόρφωση της νεοελληνικής μας ταυτότητας. 1
ΚΕΦΑΛΑΙΟ 1. ΘΕΩΡΗΤΙΚΟ ΠΛΑΙΣΙΟ A. Η εξέλιξη της Ελληνικής Γλώσσας: Μονάχα τα Ελληνικά και τα Κινεζικά μας είναι γνωστά εδώ και τρεισήμισι χιλιάδες χρόνια και εξακολουθούν να ομιλούνται ακόμη και σήμερα (Adrados 1999:5). Μέσα στους αιώνες της ανθρώπινης εξέλιξης και των ιστορικοκοινωνικών αλλαγών η Ελληνική γλώσσα, όπως και κάθε άλλη, έχει υποστεί πλήθος αλλαγών σε φωνητικό, φωνολογικό, μορφολογικό αλλά και σε επίπεδο συντακτικού. Η επαφή της ελληνικής γλώσσας με άλλους πολιτισμούς που την κατέκτησαν, αλλά και κατακτήθηκαν από εκείνη, έχουν γεμίσει τη λαλιά μας με δάνεια, αντιδάνεια, αλλά και με άλλες γλωσσικές επιρροές που στην πάροδο των αιώνων της έχουν δώσει τη μορφή που έχει λάβει σήμερα. Από την Ελληνιστική κιόλας εποχή, και αργότερα κατά τη ρωμαϊκή, τη βυζαντινή, και φυσικά τστις μέρες μας, η Koiné που είχε αποτελέσει η Αττική διάλεκτος κατά τη διάρκεια του χρυσού αιώνα, διαχωρίστηκε σε δύο επίπεδα: εκείνο της λαϊκής γλώσσας και της λόγιας. Η Λόγια γλώσσα επικράτησε για πολλούς αιώνες της λαϊκής καθώς ο γραπτός λόγος και η εφεύρεση του χαρτιού βοήθησε στο να ευδοκιμήσουν τα γράμματα και οι επιστήμες μέσα από εκείνη. (Adrados 1999:262). Μετά την Επανάσταση και τη Δημιουργία του Ελληνικού Κράτους (1830) θα παραμείνει σε εκκρεμμότητα, μεταξύ άλλων, το γλωσσικό ζήτημα. Ο ελληνικός λαός μιλούσε τη δημοτική, διασπασμένη με τη σειρά της σε διαλέκτους, και στον αντίποδα μεσουρανούσε μια μειονότητα η οποία έγραφε και χρησιμοποιούσε την αρχαΐζουσα γλώσσα- απόγονο της Παλαιάς και βυζαντινής Κοινής. Τα δυτικά πρότυπα αλλά και γενικότερα η στάση του Ρομαντισμού επέβαλαν πλέον μία εθνική γλώσσα η οποία θα ερχόταν να καλύψει τις ανάγκες του νεοσύστατου κράτους-έθνους ακολουθώντας ωστόσο τα πρότυπα ευρωπαϊκού πολιτισμού (Adrados 1999: 245) To ζήτημα της Γλώσσας, το οποίο θα αναχθεί σε ένα μείζον πολιτικό, παιδευτικό αλλά και εθνικής σημασίας θέμα για το Ελληνικό Κράτος, είναι συνυφασμένο με τον Αδαμάντιο Κοραή. Ο Κοραής, θεωρούσε τη δημοτική ως φυσική συνέχεια της αρχαίας ελληνικής και αφότου την «καλλωπίσει» και «καθαρίσει» τόσο σε μορφολογικό 2
επίπεδο όσο και από τις επιρροές της από τις διάφορες άλλες γλώσσες εκείνες των λαών που πέρασαν από αυτό το γεωγραφικό σημείο που σήμερα ορίζουμε ως Ελλάδα-, θα τη μετατρέψει σε γλώσσα της παιδείας, της δημοσιονομικής διοίκησης αλλά και φυσικά του Πνεύματος. Από την εν λόγω μεταρρύθμιση του Κοραή θα προκύψει η Καθαρεύουσα, η οποία θα επικρατήσει ως επίσημη μορφή γλώσσας ως το 1976. (Μπαμπινιώτης 1994:31) Στα τέλη του 19 ου αιώνα και στις αρχές του 20 ου θα επικρατήσει το στοιχείο της διπολικότητας μεταξή τη Καθαρεύουσας και Δημοτικής, δύο δυναμικά διαφοροποιημένες μορφές της ίδιας γλώσσας και που η κάθε μία κάλυπτε διαφορετικές ανάγκες. Και ασφαλώς με την εμφύλια σύρραξη και τις μετέπειτα επιπτώσεις της στη χώρα και την κοινωνία, το γλωσσικό ζήτημα πολιτικοποιείται. (Μπαμπινιώτης 1994:39) Εντούτοις η Δημοτική γλώσσα εισάγεται στη Δημοτική Παιδεία το 1917 από τη Φιλελέυθερη Κυβένρηση του Ελ. Βενιζέλου και το 1941 εκδίδεται η γραμματική του Τριανταφυλλίδη, που θεωρείται τομή για την Νέα Ελληνική Γλώσσα. Το έδαφος όμως για την επικράτηση της Δημοτικής θα συνεχίσει να είναι ασταθές στις επόμενες δεκαετίες, σε συνάρτηση με το πολιτικό γίγνεσθαι. Εν τέλει το ζήτημα θα επιλυθεί οριστικά με τη Μεταπολίτευση, και το 1976 η δημοτική καθιερώνεται στην εκπαίδευση και στη διοίκηση, ενώ το 1982 καθιερώνεται και το μονοτονικό σύστημα. (Adrados 1999:247) Από εκείνη τη δεκαετία έως και τις μέρες μας μπορούμε πια να μιλάμε για την ελληνική γλώσσα όπως τη γνωρίζουμε σήμερα, δεδομένου ότι η Δημοτική έχει οργανωθεί σε πανελλήνιο γλωσσικό όργανο με συνέπεια και συνοχή. (ΕΑΠ 1999:301) Στην παρούσα διπλωματική εργασία οι δεκαετίες που επιλέξαμε για να μελετήσουμε την εξέλιξη της ελληνικής γλώσσας ήταν από 1930 μέχρι και το 1980. Η επιλογή αυτή ακολουθεί τόσο θεωρητικά όσο και πρακτικά κριτήρια, τα οποία θα αναλύσουμε στα επόμενα κεφάλαια. 3
B. Σώματα κειμένων Β.1. Από την Παραδοσιακή Γλωσσολογία στην Αξιοποίηση Σωμάτων Κειμένου Η εμφάνιση της επιστήμης της γλωσσολογίας κατά τα τέλη του 19 ου και τις αρχές του 20 ου αιώνα, με το αίτημα της επιστημονικής μελέτης του φαινομένου που ονομάζουμε γλώσσα αποτέλεσε την πρώτη μεγάλη επανάσταση ως προς τον τρόπο που η ανθρωπότητα αντιλαμβάνεται τον λόγο. Σταματήσαμε να θεωρούμε την ομιλία, τον προφορικό λόγο, ως φθαρμένη παραλλαγή παραδοσιακών ποικιλιών υψηλού κύρους (όπως ήταν οι γραπτές ιδίως οι κλασικές- γλώσσες) και ξεκίνησε η περιγραφική ανάλυση των συστατικών στοιχείων και δομών των γλωσσών ως είχαν (Lyons 1992:74, Μπαμπινιώτης 1998: 9). Η ανάγκη να αναλυθούν από την αρχή, χωρίς δηλαδή μεθοδολογικές επιρροές από την παραδοσιακή ανάλυση των κλασικών γλωσσών, γλώσσες με εντελώς διαφορετική δομή από εκείνων του παλαιού, γνωστού κόσμου, όπως οι ποικιλίες των ιθαγενών της αμερικανικής ηπείρου, έδωσε ώθηση στο ρεύμα του δομισμού. Με την μεθοδολογία των ανευρετικών διαδικασιών (discovery procedures), ο αμερικανικός δομισμός είναι ο πρώτος που αξιοποιεί ένα αντιπροσωπευτικό, περιορισμένο κατ ανάγκην σώμα (corpus) προτάσεων της ερευνώμενης γλώσσας, μελετά τις θέσεις εμφάνισης και συν-εμφάνισης των διαφόρων στοιχείων, προσδιορίζει τις σχέσεις και τις λειτουργίες τους και συγκροτείται το σύστημα της γλώσσας, η γραμματική της (Μπαμπινιώτης 1998: 181). Παρατηρούμε ότι ενώ οι σχολές του ευρωπαϊκού δομισμού είναι απορροφημένες στην ανάγκη χειραφέτησης από τη μεθοδολογία της παραδοσιακής γραμματικής και θεωρητικολογούν επιστημολογικά, ο αμερικανικός δομισμός έχει κατ ανάγκην πιο πρακτικό προσανατολισμό και ωθείται στο να αναπτύξει τις μεθοδολογικές βάσεις και το εργαλείο γλωσσικής ανάλυσης που ονομάζουμε σώμα κειμένων. Ίσως ο παραγκωνισμός της μελέτης της γλωσσικής διαίσθησης και το γεγονός ότι βασίζεται σε σώματα προτάσεων αποκλειστικά οδηγούν την γλωσσολογική κοινότητα των ΗΠΑ στο να γεννήσει το ρεύμα της γενετικής σύνταξης με εισηγητή τον Noam Chomsky κατά τα μέσα του 20 ου αιώνα, το οποίο απέκτησε για δεκαετίες μεγάλη απήχηση παγκοσμίως. Σύμφωνα με το πρότυπο αυτό, η επιβεβαίωση ή διάψευση της ανάλυσής μας δεν βασίζεται αποκλειστικά στα δεδομένα, αλλά κυρίως στη διαίσθηση του μητρικού ομιλητή ως προς τη γραμματικότητα ή αποδεκτότητα των εκφωνημάτων 4
που θέτουμε στην κρίση του. O Lyons (1992: 254-255) αναφέρει ότι ενώ μεν ο γενετισμός παρουσιάζεται συνήθως ως εξέλιξη της προηγούμενης κυρίαρχης σχολής, του μεταμπλουμφιλντιανού αμερικανικού περιγραφισμού, υπάρχουν πολλά σημεία του, όπως ο ίδιος ο Chomsky συνειδητοποίησε αργότερα, τα οποία αποτελούν επιστροφή στις παλαιότερες και παραδοσιακές απόψεις περί γλώσσας. Με την εμφάνιση και την καθιέρωση της χρήσης των ηλεκτρονικών υπολογιστών όχι μόνο από φορείς του στρατού, της κυβέρνησης ή του κράτους, αλλά σύντομα και για την κάλυψη των αναγκών επιστημονικών κοινοτήτων, πανεπιστημίων και βεβαίως μεμονωμένων ερευνητών και κάθε χρήστη, διεφάνη η δυνατότητα αξιοποίησής τους και στον τομέα των γλωσσικών μελετών. Δεν είναι τυχαίο ότι η δεκαετία του 90, κατά την οποία πραγματοποιήθηκε η ψηφιακή επανάσταση, αποτελεί περίοδο καμπής στην ιστορία των γλωσσολογικών σχολών. Η δυνατότητα για αποθήκευση, ταξινόμηση, επεξεργασία και ανάκληση σε πραγματικό χρόνο τεράστιου όγκου (γλωσσικών) δεδομένων που παρέχουν οι προσωπικοί υπολογιστές έκανε τους ερευνητές να συνειδητοποιήσουν ότι μπορούν να αναπτύξουν τα κατάλληλα εργαλεία για γλωσσική έρευνα που να βασίζεται σε σώματα γλωσσικών κειμένων. Δεν είναι πλέον μόνο η αφηρημένη διαίσθηση του ομιλητή το μοναδικό κριτήριο αποδεκτότητας προτάσεων και εγκυρότητας θεωριών. Ο νέος διεπιστημονικός κλάδος της υπολογιστικής γλωσσολογίας που δημιουργείται, αναπτύσσεται προς πολλές ριζοσπαστικές κατευθύνσεις μεταξύ των οποίων βρίσκεται και η γλωσσολογία των σωμάτων κειμένου/corpus linguistics που ξεκίνησε από τον αγγλοσαξωνικό χώρο και σύντομα κέρδισε έδαφος παγκοσμίως (Sinclair 1991, Leech 1992, Μπαμπινιώτης 1999: 168, Γούτσος 2006). Β.2. Ηλεκτρονικά Σώματα Κειμένων: Έννοια και Χαρακτηριστικά Σύμφωνα με την Curzan (2000: 80), ο όρος corpus, ο οποίος αποτελεί σημασιολογική επέκταση της γνωστής λατινικής λέξης corpus που σημαίνει σώμα, αφορά κάθε συστηματική συλλογή από ηλεκτρονικά κείμενα. Στον σχετικό κλάδο της υπολογιστικής γλωσσολογίας, ο όρος αφορά ειδικότερα σε μια συλλογή από κείμενα σχεδιασμένα για γλωσσολογική έρευνα, που επιλέγονται δειγματοληπτικά, με βάση την αντιπροσωπευτικότητά τους. Τα κείμενα αυτά διαθέτουν πεπερασμένο μέγεθος και μηχανική αναγνωσιμότητα. Πιο αναλυτικά, corpus ονομάζεται η συστηματική συλλογή 5
μεγάλου όγκου δεδομένων από περισσότερο ή λιγότερο αυθόρμητη ή επεξεργασμένη προφορική και γραπτή ομιλία, η οποία αποθηκεύεται σε ηλεκτρονικό υπολογιστή, είναι εξισορροπημένη και αντιπροσωπευτική ποικίλων κειμενικών ειδών. Συμπεραίνει κανείς ότι το σώμα κειμένων εδώ έχει ταυτιστεί με το ηλεκτρονικό σώμα κειμένων (ΗΣΚ), το οποίο αποτελεί βασικό σημείο αναφοράς και εργαλείο γλωσσολογικής έρευνας, κυρίως, για την περιγραφή και ανάλυση της γλώσσας (McEnery & Wilson 2001: 29). Τα σώματα κειμένων, επομένως, χρησιμοποιούνται σε μια σειρά από τομείς: την περιγραφή μιας γλωσσικής ποικιλίας, τη λεξικογραφία, την αυτόματη μετάφραση, την εκμάθηση γλωσσών κ.α. Η χρήση πραγματικών παραδειγμάτων από σώματα κειμένων για τη μελέτη της γλώσσας δεν αποτελεί νέο φαινόμενο στην ιστορία της γλωσσολογίας. Ενδεικτικά, κάποιες κοινότητες γλωσσολόγων από χώρες των Βαλκανίων χρησιμοποιούσαν την εθνική τους λογοτεχνική παραγωγή ως κατεξοχήν σημείο άντλησης παραδειγμάτων για ανάλυση γλωσσικών φαινομένων, μια πρακτική που συναντά κανείς σε διδακτορικά Βαλκάνιων γλωσσολόγων μέχρι και σήμερα (Demiraj 1990: 55). Όμως, η χρήση προσωπικών υπολογιστών με τη δυνατότητα λήψης και διαχείρισης δεδομένων σε μορφή μηχαναγνώσιμων κειμένων οδήγησε στην αξιοποίηση των σωμάτων κειμένων σε ηλεκτρονική μορφή. Πιο αναλυτικά, τα σώματα κειμένων επιτρέπουν να εξαγάγουμε συμπεράσματα για την γλώσσα από δεδομένα που έχουν τα εξής χαρακτηριστικά (Ακριώτης 2014): α. εμπειρικά: δεν βασίζονται σε εικασίες ή την διαίσθηση του/της ερευνητή/τριας, αλλά προέρχονται από την εξωτερική πραγματικότητα, β. αυθεντικά: δεν προέρχονται από πειραματικές συνθήκες ή άλλες τεχνητές συνθήκες, αλλά από την αυθόρμητη (προφορική και γραπτή) παραγωγή λόγου των ομιλητών/τριών μιας γλώσσας, γ. συστηματικά: έχουν συλλεχθεί με βάση συγκεκριμένα κριτήρια και αρχές και όχι με τυχαίο ή ανεκδοτολογικό τρόπο, δ. κειμενικά: περιλαμβάνουν ολόκληρα κείμενα ή τμήματα κειμένων και δεν περιορίζονται σε μεμονωμένες λέξεις ή προτάσεις, 6
ε. εκτεταμένα: διαθέτουν μεγάλο όγκο και δεν περιορίζονται σε λίγα παραδείγματα. Όπως λέει ο Sinclair, ένας από τους πρώτους εισηγητές του κλάδου, η γλώσσα φαίνεται πολύ διαφορετική όταν κοιτάς ένα μεγάλο κομμάτι της ταυτόχρονα (1991: 100). Θέλοντας να ορίσει την έννοια των σωμάτων κειμένου, ο Sinclair (1996) επισημαίνει ότι σώμα κειμένων είναι κάθε συλλογή τμημάτων μιας γλώσσας, τα οποία (κείμενα) επιλέγονται και διατάσσονται σύμφωνα με συγκεκριμένα γλωσσολογικά κριτήρια, έτσι ώστε να μπορούν να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα της γλώσσας αυτής. Ειδικότερα, θεωρεί ότι το ηλεκτρονικό σώμα κειμένων είναι κατάλληλο για ηλεκτρονική χρήση, ειδικά κωδικοποιημένο για τυποποιημένες και ομοιογενείς εργασίες ανάκτησης γλωσσικών πληροφοριών. Παρόμοιος είναι και ο ορισμός του σώματος κειμένων από τον Sampson (2001: 6) ως εκτεταμένου δείγματος αυθεντικής χρήσης της υπό εξέταση γλώσσας, που συγκροτείται και χρησιμοποιείται ως πηγή στοιχείων για την παραγωγή ή εξέταση υποθέσεων για την φύση της γλώσσας. Ο Sinclair στον ορισμό του εισάγει μια βασική έννοια, αυτήν της αντιπροσωπευτικότητας. Κάθε σώμα κειμένων, δηλαδή, οφείλει να παρουσιάζει μια αντιπροσωπευτική εικόνα της γλώσσας (ή της ποικιλίας της γλώσσας) που συλλέγεται. Εδώ, βέβαια, ανακύπτει και η δυσκολία του ακριβούς ορισμού της αντιπροσωπευτικότητας. Δεν υπάρχει εκ των προτέρων ένα μέτρο για το πόσα και ποια κείμενα πρέπει να συλλέξουμε. Το μόνο, ίσως, ασφαλές που μπορούμε να πούμε είναι ότι το βασικό στην έννοια αυτή είναι η έμφαση που δίνει στην όσο το δυνατόν μεγαλύτερη ποικιλία κειμένων και κειμενικών ειδών, στην ισορροπία των αναλογιών μεταξύ τους και στην αυθεντικότητα των δεδομένων που συλλέγονται. Επίσης, αποδεχόμενοι ότι ένα σώμα κειμένων είναι αντιπροσωπευτικό, θεωρείται δεδομένο ότι τα συμπεράσματα που εξάγονται από αυτό ισχύουν, τηρουμένων των αναλογιών, για όλη την γλώσσα ή την γλωσσική ποικιλία που περιέχει το σώμα κειμένων. Επιπλέον, ο Sampson στον ορισμό του δίνει έμφαση στο ότι το αποθηκευμένο ηλεκτρονικά σώμα κειμένων δεν παράγει αφ εαυτού πληροφορίες για την γλώσσα, αλλά προσφέρει την βάση για την κατασκευή υποθέσεων από τον επιστήμονα, που δύνανται να οδηγήσουν στην εξαγωγή επαληθευμένων συμπερασμάτων. Συνεπώς, η παρέμβαση του 7
γλωσσολόγου είναι αναγκαία, τόσο στην δημιουργία των ερευνητικών ερωτημάτων όσο και στην αξιολόγηση των αποτελεσμάτων που προκύπτουν (Γούτσος 2006). Ένα ηλεκτρονικό σώμα κειμένων είναι αντιπροσωπευτικό της γλωσσικής ποικιλίας που υποτίθεται ότι εκπροσωπεί, εάν τα αποτελέσματα, με βάση το περιεχόμενό του, μπορούν να γενικευθούν για την εν λόγω ποικιλία γλωσσών (Leech 1991: 27). Η αντιπροσωπευτικότητα αναφέρεται, όπως εξηγεί ο Biber (1993: 243), στον βαθμό στον οποίο ένα δείγμα περιλαμβάνει το πλήρες φάσμα της μεταβλητότητας σε αριθμό σωμάτων κειμένων. Ένα ηλεκτρονικό σώμα κειμένων αποτελεί ουσιαστικά ένα δείγμα μιας γλώσσας ή μιας γλωσσικής ποικιλίας. Κατ' αυτόν τον τρόπο, η αντιπροσωπευτικότητα για τα περισσότερα σώματα κειμένων καθορίζεται σε μεγάλο βαθμό από δύο παράγοντες: α) το φάσμα των ειδών που περιλαμβάνονται σε ένα σώμα κειμένων και β) τον τρόπο επιλογής των τμημάτων του κειμένου για κάθε είδος, δηλαδή, την δειγματοληψία. Τα κριτήρια που χρησιμοποιούνται για την επιλογή των κειμένων για ένα σώμα είναι κυρίως εξωτερικά. Τα εξωτερικά κριτήρια καθορίζονται από την περίσταση, ανεξάρτητα από την κατανομή των γλωσσικών χαρακτηριστικών, ενώ τα εσωτερικά κριτήρια ορίζονται γλωσσικά, λαμβάνοντας υπ' όψιν την κατανομή αυτών των χαρακτηριστικών. Τα κείμενα ή τα τμήματα των κειμένων που πρέπει να περιλαμβάνονται σε ένα σώμα θα πρέπει να επιλέγονται ανάλογα με τα εξωτερικά κριτήρια, έτσι ώστε τα γλωσσικά χαρακτηριστικά τους να είναι, τουλάχιστον αρχικά, ανεξάρτητα από την διαδικασία επιλογής (Sinclair 1995). Την ίδια άποψη συμμερίζονται και πολλοί άλλοι μελετητές, όπως οι Atkins κ.ά. (1992: 5-6) και Biber (1993: 256). Όταν το σώμα έχει δημιουργηθεί με την χρήση εξωτερικών κριτηρίων, τα αποτελέσματα της ανάλυσης corpus μπορούν να χρησιμοποιηθούν ως ανατροφοδότηση για να βελτιωθεί η αντιπροσωπευτικότητα του σώματος. Η δημιουργία ενός αντιπροσωπευτικού σώματος θα πρέπει να ακολουθήσει έναν κυκλικό τρόπο (Biber 1993: 256). Η Hunston (2002: 30), διατείνεται ότι κάθε σώμα που δεν ενημερώνεται τακτικά γίνεται γρήγορα αντιπροσωπευτικό. Το πώς θα σχεδιαστεί ένα ηλεκτρονικό σώμα κειμένων εξαρτάται, στην πραγματικότητα, από το πώς αντιμετωπίζεται το σώμα κειμένων, δηλαδή, εάν πρέπει αυτό να θεωρηθεί ως ένα στατικό ή δυναμικό μοντέλο ανάλυσης. Η στατική άποψη ισχύει κατά κανόνα 8
για ένα συγχρονικό δείγμα, ενώ μια δυναμική άποψη εφαρμόζεται σε ένα διαχρονικό σύνολο κειμένων. Β.3. Ιστορικό Ανάπτυξης Επιμέρους Σωμάτων Κειμένου Αναφέρθηκε ήδη ότι τα πρώτα σώματα κειμένου αναπτύχθηκαν στον αγγλοσαξωνικό χώρο. Ήδη στις αρχές της δεκαετίας του 1960 εμφανίστηκε η οικογένεια σωμάτων κειμένων του πανεπιστημίου Brown (γνωστή ως Brown family of reference corpora ή αργότερα ως Brown Corpus). Το συγκεκριμένο σώμα κειμένων περιέχει περισσότερες από ένα εκατομμύριο λέξεις σε κείμενα διαφόρων ειδών λόγου, δημοσιευμένα το 1961 και γραμμένα στα Αγγλικά των Η.Π.Α. Αργότερα, ανάμεσα στο 1970 και στο 1976, δημιουργήθηκε η βρετανική εκδοχή τού Brown Corpus, η οποία επίσης συνέλεξε κείμενα που εκδόθηκαν το 1961 και ονομάστηκε LOB (Lancaster-Oslo/Bergen) Corpus. Αυτή, μαζί με το Brown Corpus, αποτέλεσαν ένα ιδανικό ζευγάρι σωμάτων κειμένων για την πραγματοποίηση γλωσσικής και πολιτισμικής σύγκρισης ανάμεσα στα βρετανικά και αμερικανικά Αγγλικά. Όπως είναι φυσικό, από το πρώτο ηλεκτρονικό σώμα κειμένων έως σήμερα, αναπτύχθηκαν πολλά και διαφορετικά σώματα κειμένων για διάφορες γλώσσες του κόσμου. Πιο γνωστά σώματα κειμένων για τα Αγγλικά είναι το British National Corpus (BNC) και το Bank of English (BoE), που ξεπερνούν τα 100 εκατομμύρια λέξεις, δίνοντας μια πλήρη εικόνα της αγγλικής γλώσσας. Αυτά τα σώματα κειμένων απετέλεσαν πηγές για γλωσσική έρευνα και για εφαρμογές (π.χ. βιβλία αναφοράς, όπως λεξικά, γραμματικές, κλπ.), ενώ σήμερα τέτοιου είδους σώματα κειμένων ξεπερνούν το 1 δισεκατομμύριο λέξεις (Cambridge International Corpus, Oxford English Corpus). Ανάλογη υπήρξε και η ανάπτυξη των σωμάτων κειμένων και σε άλλες μείζονες γλώσσες, αλλά με μία σχετική καθυστέρηση σε σύγκριση με τα Αγγλικά. Αξίζει επίσης να σημειωθεί ότι πέραν αυτών των γενικών σωμάτων κειμένων, που περιλαμβάνουν διάφορα κείμενα και κειμενικά είδη χαρακτηριστικά για το σύνολο της γλώσσας, επιδιώκοντας να αποτελέσουν σώματα κειμένων αναφοράς (reference corpora), έχει αναπτυχθεί και πλήθος άλλων, μικρότερων και πιο εξειδικευμένων σωμάτων κειμένων, για συγκεκριμένες διαλέκτους, καταστασιακά ιδιώματα ή ειδικούς σκοπούς, π.χ., υπάρχουν σώματα κειμένων, τα οποία συγκεντρώνουν υλικό από 9
ορισμένη κοινωνική ομάδα (όπως μαθητές δεύτερης γλώσσας), γεωγραφική εξειδίκευση (όπως κείμενα γραμμένα αποκλειστικά από Ελλαδίτες ή Κυπρίους, Βρετανούς ή Αμερικανούς), σώματα που να εξειδικεύονται σε προφορικού ή γραπτού λόγου υλικό, σε διαχρονικό ή συγχρονικό, κ.α. Σε ό,τι αφορά τα Ελληνικά, παρατηρούμε ότι τα πρώτα ηλεκτρονικά σώματα κειμένων κάνουν την εμφάνισή τους στην δεκαετία του 1980 και περιλαμβάνουν παλαιότερα λογοτεχνικά έργα (π.χ., κρητική λογοτεχνία, απομνημονεύματα του Μακρυγιάννη), ενώ το 1994 διαπιστώνεται από τους Goutsos κ.ά. ότι, παρ' όλο που υπάρχουν σχετικά ερευνητικά προγράμματα, τα σώματα κειμένων, είτε δεν χρησιμοποιούνται καθόλου στην γλωσσική έρευνα, είτε δεν έχουν αξιοποιηθεί πλήρως. Μόλις στην δεκαετία του 1990 εμφανίζονται τα δύο μεγαλύτερα ηλεκτρονικά σώματα κειμένων της Ελληνικής, ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ) του Ινστιτούτου Επεξεργασίας Λόγου (ΙΕΛ), ο οποίος περιλαμβάνει 40 εκατομμύρια λέξεις, κυρίως από εφημερίδες, και το Σώμα Ελληνικών Κειμένων (ΣΕΚ), που περιέχει 30 εκατομμύρια λέξεις, από μια περισσότερο ισορροπημένη ποικιλία κειμενικών ειδών. Το ΣΕΚ περιέχει γραπτά και προφορικά κείμενα της Κοινής Νέας Ελληνικής από την Ελλάδα και την Κύπρο και είναι προσπελάσιμο δωρεάν για οποιονδήποτε ενδιαφερόμενο μέσω διαδικτύου. Β.4. Διαχρονικά Σώματα Κειμένων Μια σημαντική διάκριση των σωμάτων κειμένων έχει να κάνει με τους όρους συγχρονικός (synchronic) και διαχρονικός (diachronic). Οι δύο αυτοί όροι έχουν μια ελαφρώς διαφορετική τοπική λειτουργική αξία ή λειτουργική σημασία, όταν εφαρμόζονται σε σώματα κειμένων. Οι όροι δεν έχουν σχέση τόσο πολύ με την αναφορά στην περίοδο του χρόνου μέσα στον οποίο τα κείμενα του σώματος κειμένων δημιουργήθηκαν, όσο με τον τρόπο με τον οποίο μπορεί να υπάρξει πρόσβαση στα κείμενα αυτά. Εάν μπορεί να γίνει προσβάσιμο το σώμα κειμένων μόνο σαν μια μοναδική οντότητα, τότε είναι λειτουργικά συγχρονικό σώμα κειμένων, είτε τα επιμέρους κείμενα παράχθηκαν την ίδια μέρα, μέσα στην ίδια χρονιά, ή ακόμα μέσα στον ίδιο αιώνα, επειδή δεν υπάρχει καμία πιθανότητα μελέτης της ανάπτυξης της γλώσσας κατά την διάρκεια εκείνης της ημέρας, της χρονιάς ή του αιώνα. Εάν τώρα τα κείμενα του σώματος κειμένων είναι αποθηκευμένα κατά τέτοιο τρόπο, ώστε κείμενα από μία συγκεκριμένη χρονική περίοδο μπορούν να γίνουν προσβάσιμα ως μια 10
ξεχωριστή και διακριτή ομάδα, τότε το σώμα κειμένων είναι λειτουργικά διαχρονικό. Μπορούμε να συγκρίνουμε κείμενα του Απριλίου με αυτά του Νοεμβρίου ή κείμενα από την πρώτη δεκαετία του αιώνα με κείμενα από την τελευταία δεκαετία (Krishnamurthy 2003). Για παράδειγμα, ορισμένα πολύ σημαντικά και γνωστά διαχρονικά σώματα κειμένων είναι τα Frown, FLOB, British English 2006 (ΒΕ06) Corpus (που περιέχει κείμενα γύρω στο 2006) και το Lancaster 1931 Corpus (το οποίο ονομάζεται και BLOB Before LOB). Το πιο γνωστό, όμως, διαχρονικό σώμα κειμένων είναι το Helsinki Corpus, το οποίο, κατά την Edwards (1992), είναι διαχρονικό, επειδή περιέχει κείμενα «από περιόδους κατά διαστήματα περίπου εκατό ετών, αρχής γενομένης από το 850» και επειδή «χρησιμοποιείται για τη μελέτη της ποικιλίας της εξέλιξης της αγγλικής γλώσσας», δηλαδή, κείμενα από διαφορετικές περιόδους είναι ανεξαρτήτως προσβάσιμα (Krishnamurthy 2003). Ειδικότερα, στις αρχές της δεκαετίας του 1990 στο Πανεπιστήμιο του Freiburg στην Γερμανία κατασκευάστηκαν νέα σώματα κειμένων από βρετανικά και αμερικάνικα Αγγλικά. Τα δύο σώματα κειμένων που προέκυψαν ονομάστηκαν Freiburg-Brown και Freiburg-LOB, τα οποία, χάριν συντομίας, καλούνται Frown και FLOB. Και τα τέσσερα σώματα κειμένων αποτέλεσαν μια «οικογένεια», επιτρέποντας έτσι τις συγκρίσεις μέσα στον χρόνο, καθώς και ανάμεσα στις κουλτούρες. Έχουν χρησιμοποιηθεί από τους ερευνητές για να εξετάσουν και την συγχρονική και την διαχρονική αλλαγή (Baker 2009: 313). Εν τω μεταξύ, το βρετανικό παρακλάδι της «οικογένειας» Brown συνεχίζει να μεγαλώνει. Στο Πανεπιστήμιο του Λάνκαστερ δημιουργήθηκε μία εκδοχή του LOB Corpus, που αφορά τη δεκαετία του 1930 και βρίσκονται σε εξέλιξη εργασίες για μια έκδοση του 1901 (Baker 2009: 314). Από όλα αυτά, γίνεται φανερό ότι τα διαχρονικά σώματα κειμένων αποτελούν βασικό εργαλείο για πολλές και διάφορες μελέτες και αναλύσεις. Για παράδειγμα, οι Mair κ.ά. (2003) συνέκριναν συχνότητες μερών του λόγου ανάμεσα στα LOB και FLOB, ενώ ο Oakes (2003) πραγματοποίησε μία σύγκριση του λεξιλογίου στα FLOB και Frown. Ενδεικτικά ενδιαφέρον παρουσιάζει το συμπέρασμα πολλών ερευνητών που μελέτησαν συγκριτικά τα παραπάνω σώματα κειμένων ότι ενώ τα αμερικάνικα και βρετανικά Αγγλικά αλλάζουν, αυτά που προηγούνται στη γλωσσική αλλαγή είναι τα 11
αμερικάνικα Αγγλικά, π.χ. Hundt (1997), Leech (2002), McEnery & Xiao (2005) (βλ. και Baker 2009: 313). Β.5. Μεθοδολογικά εργαλεία ανάλυσης κειμένων Βασικά μεθοδολογικά εργαλεία για την ανάλυση και επεξεργασία των δεδομένων που περιέχονται στα ηλεκτρονικά σώματα κειμένων (ΗΣΚ) είναι οι κατάλογοι συχνότητας λέξεων, οι συμφραστικοί πίνακες (concordances) με τα συμφραστικά πλαίσια (Γούτσος 2006) και ο κατάλογος με λέξεις-κλειδιά (Bondi & Scott 2010). Ο κατάλογος συχνότητας λέξεων είναι η παρουσίαση σε πίνακα κατάταξης των περισσότερο συχνών λέξεων που απαντώνται σε ένα σώμα κειμένων. Ένας τέτοιος πίνακας μας δίνει μια πολύ καλή εικόνα για την ποσότητα εμφάνισης των λέξεων με σειρά συχνότητας. Όπως μπορεί να υποθέσει εύκολα κανείς, οι πιο συχνές λέξεις σε ένα σώμα κειμένων από αναλυτική γλώσσα είναι εκείνες με γραμματικό περιεχόμενο. Γι αυτό και διαφορετικά σώματα κειμένων εμφανίζουν στην πρώτη δεκάδα πάντα τις ίδιες γραμματικές λέξεις (με ίσως ελαφρώς παραλλαγμένη τη σειρά συχνότητας). Παρολαυτά, οι ανεπαίσθητες διαφοροποιήσεις στη σειρά συχνότητας των γραμματικών λέξεων έχουν πολύ ενδιαφέρον για τον μελετητή, καθώς μπορεί να μας βοηθήσουν να αντιληφθούμε ιδιαίτερα χαρακτηριστικά της ποικιλίας, του κειμενικού είδους ή καταστασιακού ιδιώματος που αντιστοιχεί στο εκάστοτε σώμα κειμένων. Ένα επίσης σημαντικό εργαλείο της γλωσσολογίας των σωμάτων κειμένου είναι ο συμφραστικός πίνακας, που περιλαμβάνει τα συμφραστικά πλαίσια κάθε εμφάνισης στο σώμα (instance) της κομβικής λέξης. Είναι ο κατεξοχήν τρόπος εντοπισμού των συνταγματικών σχέσεων της υπό εξέταση λέξης ή φράσης και μας βοηθά να διακρίνουμε με ποσοτικά κριτήρια τα περισσότερο επαναλαμβανόμενα, και συνεπώς σημαντικά δομικά σχήματα (λεξικές συνάψεις κ.α.) από άπαξ, τυχαίους και ασήμαντους συνδυασμούς. Στο πλαίσιο της παρούσας εργασίας θα μελετήσουμε το σώμα κειμένων μας από μια πολύ σημαντική οπτική: εκείνη που αφορά στις λέξεις-κλειδιά (keyness). Στους Bondi & Scott (2010: 21) διαβάζουμε τον ορισμό του Sinclair (1996) ότι λέξεις-κλειδιά (keywords) είναι οι λέξεις που θεωρείται ότι έχουν ένα ιδιαίτερη σημασία (special status) είτε διότι εκφράζουν σημαντικές αξιολογικές κοινωνικές έννοιες (important 12
evaluative social meanings), είτε επειδή έχουν ειδικό ρόλο σε ένα κείμενο ή κειμενικό είδος. Γράφοντας για την ιδιότητα της λέξης-κλειδιού (keyness), οι Bondi & Scott (2010: 21) επίσης μας πληροφορούν ότι από μια γλωσσολογική άποψη, οι λέξεις αυτές συνεισφέρουν στον εντοπισμό εννοιολογικών μονάδων (search for units of meaning, Sinclair 1996), ενώ από μια κοινωνιολογική άποψη, αποτελούν μέρος του πολιτισμικού και κοινωνικού λεξιλογίου. Τα σώματα κειμένων μας επιτρέπουν να εντοπίσουμε λέξεις που έχουν υψηλή εμφάνιση σε ένα ειδικό σώμα κειμένου. Συγκρίνοντας τις με την εμφάνισή τους σε ένα σώμα κειμένου αναφοράς, βλέπουμε ποιες λέξεις είναι ιδιαίτερα χαρακτηριστικές για το ειδικό σώμα κειμένου. Συχνά, όπως θα δούμε παρακάτω, οι λέξεις-κλειδιά που το πρόγραμμα εντοπίζει στατιστικά αποτελούν κεντρικής σημασίας λεξιλογικά στοιχεία με ιδιαίτερο πολιτισμικό και κοινωνικό περιεχόμενο. Β.6. Σύνοψη Στο κεφάλαιο αυτό παρουσιάσαμε τα βασικά χαρακτηριστικά της γλωσσολογίας σωμάτων κειμένων. Ξεκινώντας από μια ιστορική αναδρομή, εξηγήθηκε το πώς οι γλωσσολόγοι ανέπτυξαν τον συγκεκριμένο κλάδο, και στη συνέχεια αναλύσαμε τα βασικά χαρακτηριστικά της έννοιας του σώματος κειμένου (τι είναι, γιατί είναι αντιπροσωπευτικά, τι κείμενα περιέχουν κλπ). Ακολούθησε ένα ιστορικό στο οποίο περιγράφηκε η ανάπτυξη σημαντικών σωμάτων κειμένου για τα αγγλικά και τα ελληνικά, ενώ στο τέλος μιλήσαμε για τα βασικά μεθοδολογικά εργαλεία που χρησιμοποιούνται για την εξαγωγή συμπερασμάτων γλωσσολογικού ενδιαφέροντος από τα σώματα κειμένου. Σταθήκαμε ιδιαίτερα στον κατάλογο συχνότητας και τον κατάλογο με λέξεις-κλειδιά, τα οποία θα χρησιμοποιήσουμε πιο πολύ και στο πλαίσιο της παρούσας μελέτης. Ακολουθεί η περιγραφή της μεθοδολογίας σχεδιασμού και διαχείρισης του σώματος κειμένου που αναπτύχθηκε στο πλαίσιο της εργασίας. 13
ΚΕΦΑΛΑΙΟ 2. ΔΕΔΟΜΕΝΑ ΚΑΙ ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 2.1. Σχεδιασμός σώματος τραγουδιών Αντικείμενο της παρούσας εργασίας είναι η ανάπτυξη σε ένα πρώτο επίπεδο, και η μελέτη στη συνέχεια, ενός ειδικού σώματος κειμένων που περιλαμβάνει ελληνικά τραγούδια από διάφορες δεκαετίες του 20 ου αιώνα, ώστε να υπάρξει μια σχετική συνεισφορά περιεχομένου ως προς το συγκεκριμένο κειμενικό είδος στο υπό συγκρότηση διαχρονικό σώμα κειμένων της ελληνικής γλώσσας. Χρησιμοποιώντας το διαδίκτυο ως πηγή, βρέθηκε ένας αριθμός κειμένων με τους στίχους τραγουδιών που συντέθηκαν τον προηγούμενο αιώνα. Αρχικά, καταγράφηκαν τα μεταδεδομένα του κάθε τραγουδιού σε αρχείο excel (έτος σύνθεσης, τίτλος τραγουδιού, στιχουργός, συνθέτης, ιστοσελίδα-πηγή) και κατηγοριοποιήθηκαν ανά δεκαετία, λαμβάνοντας το καθένα έναν κωδικό αρχείου που συνδύαζε τη δεκαετία στην οποία αντιστοιχεί το τραγούδι και έναν αύξοντα αριθμό (π.χ. 1930_1, 1930_2 κ.ο.κ.). Φροντίσαμε να περιλάβουμε στο υλικό μας σταθερό αριθμό τραγουδιών ανά έτος, όσο μας το επέτρεπε η διαθεσιμότητα στίχων στο διαδίκτυο: 6 με 9 τραγούδια ανά έτος για τα έτη 1930-1989. Οι δεκαετίες υπολογίστηκαν ως εξής: περιλήφθηκαν τραγούδια που σύμφωνα με τα δεδομένα συντέθηκαν από το μηδενικό έτος της κάθε δεκαετίας (π.χ. 1930, 1940, 1950, 1960, 1970, 1980) μέχρι και το ένατο έτος (π.χ. 1939, 1949, 1959 κ.ο.κ.). Για τις αρχικές δεκαετίες του 20 ου αιώνα δεν βρέθηκαν καθόλου τραγούδια, ενώ η πρώτη δεκαετία για την οποία βρέθηκε ικανοποιητική ποσότητα υλικού ήταν η 1930-39. Έχοντας ήδη συλλέξει 84 τραγούδια συνολικά για το διάστημα 1930-39, είδαμε ότι το υλικό από εκεί και ύστερα χρονολογικά ήταν σχετικά άφθονο, οπότε επιλέχθηκε ο αριθμός των 60 τραγουδιών ανά δεκαετία. Ιδιαίτερη μέριμνα δόθηκε, όπως επισημάνθηκε, στην όσο το δυνατόν πιο αναλογική αντιπροσώπευση τραγουδιών ανά έτος στα πλαίσια του περιορισμού των 60 τραγουδιών ανά δεκαετία. Τέλος, το κείμενο των στίχων του κάθε τραγουδιού τοποθετήθηκε σε αρχείο.txt έχοντας ως τίτλο τον κωδικό όπως ορίστηκε παραπάνω (δεκαετία και αύξων αριθμός), ενώ τα κείμενα μορφοποιήθηκαν κατάλληλα ώστε να επισημαίνονται τα όρια του στίχου ( <l>, </l>) και της παραγράφου (<p>, </p>) και να αφαιρεθούν τα αυθαίρετα σημεία στίξης. 14
Κατ αυτόν τον τρόπο διαμορφώθηκε ένα σώμα κειμένων το οποίο αποτελείται αφενός από ένα αρχείο excel που περιέχει τα μεταδεδομένα για κάθε τραγούδι, και αφετέρου από έναν αριθμό αρχείων.txt (84 για τα έτη 1930-39 και 60 ανά κάθε επόμενη δεκαετία μέχρι την 1980-1989) που περιλαμβάνουν τους στίχους των τραγουδιών. Συνεπώς, αναπτύχθηκε ένα σώμα κειμένων με τους στίχους από 384 διαφορετικά τραγούδια. 2.2. Εργαλεία λεξιλογικής ανάλυσης Το πρόγραμμα που χρησιμοποιήθηκε για την διαχείριση των αρχείων ως σώματος κειμένου είναι το AntConc 3.4.4w (2014). 1 Το AntConc είναι ελεύθερο λογισμικό, το οποίο φορτώνει αρχεία.txt και επιτρέπει τη δημιουργία στατιστικών καταλόγων λέξεων (wordlist), λέξεων-κλειδιών (keyness), συμφραστικών πινάκων (concordances) και λοιπών σχετικών εργαλείων. Στα πλαίσια της παρούσας εργασίας μελετήθηκαν οι κατάλογοι συχνότητας λέξεων (wordlist) για κάθε δεκαετία από το 1930 μέχρι το 1989, και κυρίως οι κατάλογοι με τις λέξεις-κλειδιά (keyness) για την κάθε δεκαετία. Οι πρώτοι πίνακες μας δείχνουν την καθαρή στατιστική συχνότητα των λέξεων. Μεγαλύτερο ενδιαφέρον όμως παρουσιάζουν οι κατάλογοι με λέξεις-κλειδιά. Εκείνοι δημιουργήθηκαν με το αντίστοιχο εργαλείο του AntConc για τα αρχεία κάθε δεκαετίας, ενώ το σώμα αναφοράς ήταν το σύνολο των αρχείων όλων των άλλων δεκαετιών. Για παράδειγμα, για τη δεκαετία 1930-1939, σώμα αναφοράς ήταν τα αρχεία που αντιστοιχούν στα έτη 1940-1989, για τη δεκαετία 1940-49 το σώμα αναφοράς ήταν τα τραγούδια των ετών 1930-1939 και 1950-1989 κ.ο.κ. Επιλέξαμε να μην συγκρίνουμε τα δεδομένα της κάθε δεκαετίας με κάποιο γενικό σώμα κειμένων όπως το ΣΕΚ, αλλά με το υπόλοιπο του σώματος των στίχων, ώστε το κριτήριο εντοπισμού των λέξεων-κλειδιών να είναι αποκλειστικά και μόνο η δεκαετία και όχι για το κειμενικό είδος (στίχοι τραγουδιού vs. γενική γλώσσα). Μόνο με αυτόν τον τρόπο είναι δυνατό να εξαχθούν συμπεράσματα για τη διαφοροποίηση του λεξιλογίου των τραγουδιών ανά δεκαετία με βάση το 1 Το υπολογιστικό πρόγραμμα που χρησιμοποιήθηκε είναι διαθέσιμο στην ακόλουθη διεύθυνση: http://www.antlab.sci.waseda.ac.jp/antconc_index.html 15
συγκεκριμένο σώμα και κατ επέκταση να γίνουν παρατηρήσεις για τη διαχρονία της γλώσσας. 2.3. Σύνοψη Στο δεύτερο κεφάλαιο περιγράφηκε ο τρόπος με τον οποίο συγκεντρώθηκε και οργανώθηκε το υλικό σε μορφή ειδικού ως προς το κειμενικό είδος σώματος κειμένου που περιλαμβάνει στίχους ελληνικών τραγουδιών από το 1930 μέχρι το 1989. Στη συνέχεια, αναφέρθηκε το λογισμικό και τα εργαλεία με τα οποία έγινε η διαχείριση του σώματος κειμένου και η εξαγωγή των πινάκων συχνότητας και των λέξεων-κλειδιών. Στο επόμενο κεφάλαιο θα επικεντρωθούμε στην παρουσίαση των πινάκων και στο τι πληροφορίες μας δίνουν αυτοί για τη διαχρονία του συγκεκριμένου κειμενικού είδους. 16
ΚΕΦΑΛΑΙΟ 3. ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ 3.1. Ανάλυση καταλόγων συχνότητας Στο κεφάλαιο αυτό θα εξετάσουμε τα ιδιαίτερα χαρακτηριστικά των καταλόγων συχνότητας, επικεντρωνόμενοι στις τριάντα πιο συχνές λέξεις. Πίνακας 1. Κατάλογοι συχνότητας (1-32) ανά δεκαετία Α/Α 1930 1940 1950 1960 1970 1980 1 l l l l L l 2 p p p p P p 3 και μου μου μου μου και 4 μου και και και Και που 5 να να το το Να να 6 με με να να Το κι 7 το το σου θα Κι με 8 σου τα τα τα σου μου 9 τα σου με σου Θα το 10 θα κι κι η Τα σου 11 κι σε δεν κι Σε η 12 την θα θα με Με θα 13 αχ για η την Ο τα 14 για η για που που δεν 15 σε ο που για Η ο 16 τον που τη σε Δεν σε 17 που την δε δε Για για 18 αμάν στο την στο Την μια 19 στο μ ο δεν σαν την 20 τη δεν σε ο Τον στο 21 μ σαν εγώ καρδιά Στο δε 22 βρε δε στο σ Δε είναι 23 δεν τον τι μας Τη ένα 24 πως μη μ αγάπη μας στη 25 δε σ μια σαν Ένα της 26 ο στην μα ένα Μα αν 27 μας τα αν απ Τα τη 28 μια μια στη είναι Αν αγάπη 29 η πως καρδιά πια λίγο μας 30 του τη σ μ Του μ 31 απ απ στα στην καρδιά σαν 32 σαν γιατί τον τι Μια τους 17
Όπως βέβαια ήταν αναμενόμενο, ο άνωθι πίνακας παρουσιάζει μια υπεραντιπροσώπευση των γραμματικών ή λειτουργικών στοιχείων εις βάρος των λεξικών τύπων. Πιο συγκεκριμένα, τα γραμματικά ή λειτουργικά στοιχεία («κενοί» τύποι) αποτελούν τύπους που στερούνται πλήρους σημασίας, αλλά είναι απλώς φορείς λειτουργιών ή γραμματικών σημασιών και σχέσεων. Σε αυτή την κατηγορία περιλαμβάνονται: σύνδεσμοι, άρθρα, μόρια (συμπληρωματικοί δείκτες [να και θα], δείκτες λόγου κτλ.), τύποι του αόριστου άρθρου/αριθμητικού «ένας» (μία, ένα κ.ά.), προθέσεις, αντωνυμίες, αριθμητικά (δύο) και επιρρήματα (μόνο, μέσα, πολύ κ.ά.) (Γούτσος 2006: 38). Οι γραμματικοί τύποι, καθώς ήδη έχει διαπιστωθεί (βλ. λ.χ. Κούλας 1973), εμφανίζονται με την μεγαλύτερη συχνότητα στην ελληνική γλώσσα, διότι η ελληνική (όπως η αγγλική και οι περισσότερες ευρωπαϊκές γλώσσες) ανήκουν τυπολογικά στην κατηγορία των αναλυτικών γλωσσών. Σε αντίθεση με τις συγκολλητικές γλώσσες, οι αναλυτικές τείνουν δηλώνουν λειτουργίες με τη χρήση ξεχωριστών λεξημάτων κι όχι με λειτουργικά μορφήματα που προσκολλώνται σε ρίζες. Είναι επομένως λογικό, η στατιστική επεξεργασία του σώματος κειμένων να εμφανίζει σε υψηλή θέση τις πολύ συχνά χρησιμοποιούμενες γραμματικές ή λειτουργικές λέξεις. Αντίθετα, οι λεξικοί τύποι αποτελούν λεξικά στοιχεία ή πλήρεις τύπους, δηλαδή για τα κλιτά μέρη του λόγου: ουσιαστικά, επίθετα και ρήματα. Στους βασικούς λεξικούς τύπους ανήκουν τύποι βοηθητικών, συνδετικών και τροπικών ρημάτων, όπως τα είναι, έχει, πρέπει, αποτελεί κ.ά., οι οποίοι ουσιαστικά έχουν περισσότερο γραμματική παρά λεξική σημασία, αλλά και άλλοι βασικοί τύποι ρημάτων, όπως π.χ. οι υπάρχει, μπορεί, αφορά, πρόκειται, βρίσκεται, είπε, φαίνεται, ισχύει, επιτρέπεται, θέλω/ήθελα, κάνω, κ.ά. Επίσης, περιλαμβάνονται βασικοί τύποι ονομάτων, όπως π.χ. οι αποτέλεσμα, βάση, διαδικασία, Ελλάδα, έργο, θέμα, λόγο, περιοχή, τέλος, χρόνο, χώρα κ.λπ. (Γούτσος 2006: 39-40). Στις πρώτες δύο θέσεις στα στατιστικά δεδομένα όλων των δεκαετιών εμφανίζονται τα γράμματα <l>, <p>. Αυτά κωδικοποιούν στο υλικό μας την αρχή και το τέλος του στίχου (<l>, </l>) και της στροφής αντίστοιχα (<p>, </p>), οπότε είναι λογικό να έχουν στατιστικά υψηλή εμφάνιση. Δεν μας ενδιαφέρουν ιδιαίτερα ως προς το επίπεδο ανάλυσης των δεδομένων μας. Γι αυτό και επικεντρώσαμε τη μελέτη μας 18
στις τριάντα επόμενες θέσεις των καταλόγων συχνότητας (από τον αριθμό 3 μέχρι τον αριθμό 32), οι οποίες περιείχαν πραγματικές λέξεις τις ελληνικής γλώσσας. Η πρώτη παρατήρηση που αναφέρθηκε παραπάνω είναι η συντριπτικά υψηλή αντιπροσωπευτικότητα των γραμματικών τύπων στο υλικό όλων των δεκαετιών. Από τις τριάντα λέξεις για κάθε δεκαετία, και οι τριάντα είναι λειτουργικά στοιχεία για τις δεκαετίες 1930 και 1940, ενώ στη δεκαετία 1950 εντοπίζουμε 29 λειτουργικές λέξεις και για τις δεκαετίες 1960, 1970 και 1980 βρίσκουμε 28 λειτουργικές λέξεις στις τριάντα πιο συχνές λέξεις. Ιδιαίτερο ενδιαφέρον έχει και η παρόμοια κατανομή των διαφόρων γραμματικών-λειτουργικών στοιχείων ως προς τη στατική σειρά εμφάνισης, καθότι παρότι διαφέρει κάπως η ποσότητα του υλικού από δεκαετία σε δεκαετία (λ.χ. κάποια τραγούδια έχουν περισσότερους ή επαναλαμβανόμενους στίχους σε σχέση με άλλα), οι υπό εξέταση λέξεις έχουν κοντινή θέση στους καταλόγους συχνότητας των διαφόρων δεκαετιών. Για παράδειγμα, οι λέξεις και και μου μοιράζονται την πρώτη ή τη δεύτερη θέση σε όλες τις δεκαετίες. Αναφέρουμε ενδεικτικά και τα στοιχεία να, με και το εντοπίζονται στην τρίτη, τέταρτη και πέμπτη θέση, το θα στην όγδοη με δέκατη θέση, το δε(ν) στη δέκατη τρίτη με δέκατη όγδοη θέση κλπ. Με βάση αυτά τα δεδομένα, μπορούμε να υποθέσουμε ότι το κειμενικό είδος του τραγουδιού, έχοντας έναν πιο προσωπικό χαρακτήρα λόγω του ότι τείνει να εκφράζει τον συνθέτη και μέσω ταύτισης τον εκάστοτε εκτελεστή, είναι λογικό να εμφανίζει στην πρώτη με δεύτερη θέση το στοιχείο μου που σχετίζεται με τον ομιλητή είτε ως κτητικό είτε ως τύπος της δοτικής. Επίσης, ο λόγος που ο σύνδεσμος και εντοπίζεται συνήθως στη δεύτερη θέση είναι το ότι το κειμενικό είδος του τραγουδιού έχει την τάση να χρησιμοποιεί σύντομη και παρατακτική δομή. Το κείμενο ενός τραγουδιού αποφεύγει τις υποτάξεις, που ενισχύουν το μήκος ενός εκφωνήματος, θέλοντας με σύντομους στίχους να εκφράσει ή να μεταφέρει βαθιά ή ισχυρά μηνύματα. Γι αυτόν ακριβώς το λόγο και ο πολύ συχνός τόσο στο τραγούδι, όσο και στα περισσότερα είδη λόγου- σύνδεσμος να καταλαμβάνει κατά τι πιο χαμηλές θέσης εμφάνισης σε όλες τις δεκαετίες: τρίτη θέση στις δεκαετίες 1930, 1940, 1970 και 1980 και τέταρτη θέση στις δεκαετίες 1950 και 1960. Συγκρίνοντας τα παραπάνω δεδομένα με ένα σώμα κειμένων από ταινίες, βλέπουμε ότι ο σύνδεσμος να στις περισσότερες περιπτώσεις έρχεται πρώτος στη σειρά 19
εμφάνισης, το μου καταλαμβάνει συχνότερα τη δεύτερη ή τρίτη θέση, ενώ το και εντοπίζεται στην τρίτη, τέταρτη, πέμπτη ή έκτη θέση (Ακριώτης, 2014: 17). Πίνακας 2: 10 συχνότεροι τύποι σώματος κειμένων ταινιών (Ακριώτης 2014) Η ωραία των Αθηνών (1954) Ναυάγια της ζωής (1959) Δεσποινίς διευθυντής (1964) Ο άνθρωπος που γύρισε από τον πόνο (1966) Εκείνο το καλοκαίρι (1971) Ένας τρελός τρελός αεροπειρατής (1973) 1. να να να να εκείνη να 2. το μου μου το να το 3. και το το μου δεν μου 4. θα και τι δεν το και 5. μου θα δεν και θα τι 6. τι σου και θα μου δεν 7. με δεν θα με σου θα 8. ο με με σου κι ο 9. σας τι είναι που με σας 10. εγώ κι ε τι σ τα Συνεπώς, συγκρίνοντας τα γραμματικά στοιχεία ενός σώματος τραγουδιών με ένα σώμα ταινιών, έχουμε λόγους να υποθέτουμε ότι παρότι τα δύο είδη είναι κάπως συγγενικά λόγω της προφορικής τους φύσεως, το κειμενικό είδος του τραγουδιού παρουσιάζει ιδιαίτερα χαρακτηριστικά που το διακρίνουν από τα λοιπά είδη λόγου: ένδειξη για την ενισχυμένη τροπικότητα του ομιλητή αποτελεί η πρώτη θέση ως προς τη συχνότητα του μου, ενώ η λακωνικότητα και προτίμηση για παρατακτική δομή της πληροφορίας διαφαίνεται μέσα από την υψηλή συχνότητα του και και την κάπως χαμηλότερη συχνότητα του υποτακτικού συνδέσμου να. Προχωρώντας στη μελέτη των λεξικών τύπων με υψηλή συχνότητα, τα δεδομένα δεν θα μας εκπλήξουν, δεδομένου ότι οι λέξεις αγάπη, καρδιά και σε δεύτερο 20
πλάνο η λέξη μάτια καταλαμβάνουν υψηλές θέσεις στον πίνακα. Είναι γνωστό ότι σημαντικότατη θέση στη θεματολογία του τραγουδιού τουλάχιστον από την εποχή της λυρικής ποίησης και ύστερα καταλαμβάνει το ερωτικό στοιχείο. Χωρίς να απογοητευτούν λοιπόν οι προσδοκίες μας, βλέπουμε ότι η λέξη καρδιά αποτελεί τον συχνότερο λεξικό τύπο στις δεκαετίες 1950-1980, καταλαμβάνοντας τη θέση 29 τη δεκαετία 1950, τη θέση 21 τη δεκαετία 1960, τη θέση 31 τη δεκαετία 1970 και τη θέση 48 τη δεκαετία 1980. Αντίστοιχα, η λέξη αγάπη εντοπίζεται στη θέση 28 στη δεκαετία 1960 και στη θέση 28 κατά τη δεκαετία 1980. Ακόμη, παρατηρούμε ότι η λέξη μάτια, -τύπος κάπως πιο χαμηλής συχνότητας- εντοπίζεται στην 56 η θέση στη δεκαετία 1930, στη 50 η θέση στη δεκαετία 1940, στην 58 η θέση στη δεκαετία 1970 και στην 54 η θέση συχνότητας στο υλικό των τραγουδιών της δεκαετίας 1980. Πριν κλείσουμε τη μελέτη των πινάκων συχνότητας, αξίζει να υπογραμμίσουμε το γεγονός ότι στις δεκαετίες 1930 και 1940 μεσουρανεί το είδος του ρεμπέτικου τόσο στην ελληνική μουσική σκηνή, όσο και στο διαθέσιμο υλικό. Αυτό έχει ως συνέπεια οι τύποι αχ, αμάν, βρε που παραπέμπουν στο συγκεκριμένο είδος να έχουν υψηλή συχνότητα: το αχ καταλαμβάνει τη θέση 13, το αμαν τη θέση 18 και το βρε τη θέση 22 στον πίνακα 1 (για τη δεκαετία 1930). Το έντεχνο τραγούδι με ερωτική θεματολογία αναπτύσσεται κάπως αργότερα και γι αυτόν τον λόγο βλέπουμε ότι οι λέξεις που μελετήσαμε στην προηγούμενη παράγραφο εμφανίζονται συχνότερα στα δεδομένα των δεκαετιών από το 1950 και ύστερα. 21
3.2. Ανάλυση λέξεων-κλειδιών Σε αυτό το υποκεφάλαιο θα μελετήσουμε τον πίνακα με τις τριάντα πιο σημαντικές λέξεις-κλειδιά ανά δεκαετία που εντοπίζονται στο σώμα κειμένου. Πίνακας 3. Λέξεις-Κλειδιά (1-30) ανά Δεκαετία Α/Α 1930 1940 1950 1960 1970 1980 1 αμάν κοκοράκι κράτει αρχή λίγο που 2 αχ έγια παράκανες ζιγκουάλα κόκκινο σκλάβος 3 άντε γιαλό φίλα φύγεις αυτός νύχτωσε 4 βρε κάνεις θεσσαλονίκη τρώει αγόρι πλατεία 5 ρε αγοράσω καβγαδάκι έλειψες γιε μόνοι 6 αργιλέ κικιρικικί κάνε εγκατέλειψες ξερα σώμα 7 νίνα ξυπνάει καράτια καλογερά κρασί άνεμος 8 τονε παζάρι χαράμι καλογεράκι κλαίει αραγμένοι 9 μαρίτσα αραπίνες μάνα αστέρι πώς γίνομαι 10 σπασ κοιμάμαι αυτί περιμένεις λα μάρκος 11 γεια κοτούλα μυστικό χείλη είχες προσωπικά 12 φέρε μπαμ σωκράτη καλοκαίρι όνειρο σκόνη 13 αλανιάρης τσίου κάνουμε κανα άει γύρω 14 ζούλα τσιάνο έκαψες γύρισε κρασι μια 15 οφ μπάτης εγκλημάτησα καλημέρα μεταξύ πάνω 16 πως ζέπο πέτα κελαηδεί περάσανε τίποτα 17 πολλή κοκοκό πνίγομαι κυρ τω των 18 αλάνι λάγνες ω μπάρμπα αθήνα όνειρα 19 λάχει κυρά κλαις ξανάρθει εκείνος κοίτα 20 λιγάκι νιάου εγώ ξανάρχισε εντέλει μοναξιά 21 ρετσίνα σας δεκατέσσερα υποφέρει ζούγκλα κλείσαμε 22 φόρα παλάτια μαντήλι τραπέζι ταρζάν λογικός 23 χασάπη κάθε πούλα αγάπη τριαντάφυλλο μπλουζ 24 τεκέ χαλάς ήρθε δέκα κι πένθιμο 25 είμαι τρελό τσιγγάνα βοτανικού πίνω της 26 μάγκα άδικα όμορφη θωμά αντίο γίνεται 27 κουκλίτσα αμαξά αργά πιάτο εντέλει γίνουν 28 χαρείς αντρέα αυγερινός στάλα θεέ περνάει 29 έμορφη αρέσουν γαρίφαλο κλειδί αληθινός εδώ 30 λουλά βραχεί γαρύφαλλο σοκάκια αλλιώς ατέλειωτες 22
Σχετικά ενδιαφέρουσα εικόνα μας παρουσιάζουν και οι πίνακες που κατατάσσουν τις τριάντα πιο σημαντικές λέξεις-κλειδιά για κάθε δεκαετία από το 1930 μέχρι το 1989 του υπό μελέτη σώματος κειμένου τραγουδιών. Με μια πρώτη ανάγνωση του πίνακα, εύκολα παρατηρεί κανείς το ιδιαίτερο λεξιλόγιο του ρεμπέτικου που κυριαρχεί στις λέξεις-κλειδιά της δεκαετίας του 1930: έντονη παρουσία έχουν τα επιφωνήματα αμάν και αχ, τα οποία καταλαμβάνουν τις δύο πρώτες θέσεις, το επιφώνημα οφ που βρίσκεται στη θέση 15, ενώ πολύ σημαντικοί φαίνεται να είναι οι δείκτες λόγου άντε, βρε, ρε στις θέσεις 3,4,5. Στο ευρύτερο λεξιλόγιο του ρεμπέτικου εντάσσονται οι περιπτώσεις των τύπων αργιλέ (θέση 6), αλανιάρης (θέση 13), αλάνι (θέση 18), τεκέ (θέση 24), μάγκα (θέση 26), λουλά (θέση 30). Αξίζει να σημειωθεί ότι η συχνότατη στο σώμα της δεκαετίας του 1930 λέξη αργιλές και λουλάς, έχουν αντικατασταθεί από τον τύπο ναργιλές σήμερα, ενώ η λέξη τεκές έχει πολύ περιορισμένη μεταφορική- χρήση στην ελληνική κοινωνία του 21 ου αιώνα. Η λέξη αλανιάρης έχει συνήθως περιορισμένη συνδυαστικότητα σήμερα (π.χ. αλανιάρα κότα), ενώ οι τύποι αλάνι και μάγκας χρησιμοποιούνται παιχνιδιάρικα από τη νεολαία, χωρίς να παραπέμπουν στους εκλιπόντες στερεοτυπικούς περιθωριακούς χαρακτήρες της ελληνικής κοινωνίας της εποχής. Ενδιαφέρουσα περίπτωση γλωσσικής αλλαγής επισημαίνεται στην περίπτωση του τύπου έμορφη που πλέον έχει πλήρως αντικατασταθεί από τον τύπο όμορφη. Στη λίστα των λέξεων-κλειδιών της δεκαετίας του 1940, με μεγάλο ενδιαφέρον εντοπίζουμε συγκεκριμένες λέξεις που επαναλαμβάνονται στον στίχο μεμονωμένων γνωστών τραγουδιών της δεκαετίας με αποτέλεσμα να καταλαμβάνουν υψηλές θέσεις στον πίνακα. Για παράδειγμα, οι τύποι κοκοράκι, κικιρικικί, ξυπνάει, παζάρι, κοτούλα, κοκοκό, αγοράσω, κυρά παραπέμπουν στο τραγούδι Όταν θα πάω κυρά μου στο παζάρι, οι τύποι ζέπο, αντρέα στο Καπετάν Αντρέα Ζέπο, ο τύπος τσιάνο στο γνωστό τραγούδι της Σοφίας Βέμπο και οι τύποι αραπίνες, λάγνες στο αντίστοιχο τραγούδι. Συνολικά, παρατηρείται μια μικρή μείωση στο ποσοστό των λέξεων-κλειδιών που με μία πρώτη ματιά συνδέονται με το είδος του ρεμπέτικου. Όμως, η παρουσία του ρεμπέτικου είδους στο λεξιλόγιο και αυτής της δεκαετίας είναι ισχυρή: έγια (θέση 2), γιαλό (θέση 3), μπάτης (θέση 15) κ.ο.κ. Λέξεις-κλειδιά που να συνδέονται με γνωστές ρεμπέτικες και λαϊκές επιτυχίες εντοπίζονται και στις λίστες των δεκαετιών 1950 και 1960: 23
θεσσαλονίκη (1950: θέση 4), τσιγγάνα (1950: 25), όμορφη (1950: θέση 26), ζιγκουάλα (1960: θέση 2), βοτανικού (1960: θέση 25), καλογερά/καλογεράκι (1960: θέσεις 7,8). Το λεξιλόγιο που χαρακτηρίζει τους στίχους των τραγουδιών των δεκαετιών 1970 και κυρίως 1980 παραπέμπει όλο και περισσότερο στο είδος του έντεχνου ή της ερωτικής μπαλάντας. Ο πίνακας παρουσιάζει για τη δεκαετία του 1970 χαρακτηριστικές λέξεις τις εξής: λίγο, κόκκινο, κρασί, όνειρο, εκείνος, εντέλει, θεέ, αληθινός, περάσανε. Σε παρόμοιο πνεύμα βρίσκεται και το τραγούδι της δεκαετίας 1980 με λέξεις-κλειδιά όπως σκλάβος, νύχτωσε, σώμα, άνεμος, αραγμένοι, σκόνη, τίποτα, όνειρα, μοναξιά, κλείσαμε, μπλουζ, πένθιμο, ατέλειωτες. Συνεπώς, η συνολική εικόνα που μας δίνεται με βάση το διαθέσιμο σώμα κειμένων είναι ότι το ελληνικό τραγούδι χαρακτηρίζεται από την κυριαρχία του λεξιλογίου του ρεμπέτικου στις δεκαετίες 1930 και 1940, του λαϊκού τραγουδιού στις δεκαετίες 1950 και 1960 για να καταλήξει στην ισχυρή παρουσία του ερωτικούέντεχνου είδους τις δεκαετίες 1970 και ιδίως 1980. 24
3.3. Σύνοψη Στο κεφάλαιο αυτό αναλύθηκαν τα δεδομένα του σώματος κειμένων και επισημάνθηκαν κάποιες ενδείξεις που μας παρείχε το υλικό για τα γλωσσικά και λεξιλογικά χαρακτηριστικά του ελληνικού τραγουδιού. Μελετώντας τους πίνακες συχνότητας, εντοπίστηκε όπως αναμενόταν υψηλή παρουσία λειτουργικών στοιχείων, και συγκεκριμένα προτίμηση για τα μου και και εις βάρος του να, γεγονός που αποτελεί ένδειξη για ισχυρή τροπικότητα του ομιλητή και τάση για παρατακτική δομή πληροφορίας στο συγκεκριμένο κειμενικό είδος. Επίσης, οι λέξεις-κλειδία που κάνουν αισθητή την παρουσία τους στις πρώτες δεκαετίες συνδέονται κυρίως με το λεξιλόγιο του ρεμπέτικου. Αντίθετα, στις πιο πρόσφατες δεκαετίες, λέξεις που κυριαρχούν τόσο στους πίνακες συχνότητας όσο και στις λέξεις-κλειδία σχετίζονται περισσότερο με τον έρωτα (καρδιά, αγάπη, μάτια) και την ερωτική μπαλάντα-ιδίως στο χαρακτηριστικό λεξιλόγιο της δεκαετίας του 1980. 25