ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΟΙΝΩΝΙΟΓΛΩΣΣΙΚΗ ΜΕΛΕΤΗ ΔΕΔΟΜΕΝΩΝ ΚΕΙΜΕΝΟΥ ΑΠΟ ΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Βασιλική Σιμάκη Τριμελής Συμβουλευτική Επιτροπή: Καθηγητής Μεγαλοοικονόμου Βασίλειος, επιβλέπων Αναπληρώτρια Καθηγήτρια Κονδύλη Μαριάννα Καθηγητής Γαλλόπουλος Ευστράτιος Πάτρα, Δεκέμβριος 2015
Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Βασιλική Σιμάκη 2015 Με την επιφύλαξη παντός δικαιώματος 2
SCHOOL OF ENGINEERING DEPARTMENT OF COMPUTER ENGINEERING AND INFORMATICS SOCIOLINGUISTIC RESEARCH ON WEB TEXTUAL DATA DOCTORAL DISSERTATION Vasiliki Simaki PhD Consultive Comitee: Professor Megalooikonomou Vasileios, supervisor Associate Professor Kondyli Marianna Professor Gallopoulos Efstratios Patras, December 2015 3
University of Patras, Dept. of Computer Engineering and Informatics Vasiliki Simaki 2015 All rights reserved 4
Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό Διδακτορική διατριβή της Βασιλικής Σιμάκη Τριμελής Συμβουλευτική Επιτροπή: Καθηγητής Μεγαλοοικονόμου Βασίλειος,επιβλέπων Αναπληρώτρια Καθηγήτρια Κονδύλη Μαριάννα Καθηγητής Γαλλόπουλος Ευστράτιος Επταμελής Εξεταστική Επιτροπή: Καθηγητής Βασίλειος Μεγαλοοικονόμου,επιβλέπων Αναπληρώτρια Καθηγήτρια Μαριάννα Κονδύλη Καθηγητής Ευστράτιος Γαλλόπουλος Καθηγητής Γεώργιος Παυλίδης Καθηγητής Νικόλαος Φακωτάκης Αναπληρωτής Καθηγητής Δημήτριος Παπαζαχαρίου Επίκουρος Καθηγητής Κυριάκος Σγάρμπας 5
6
Στην οικογένειά μου, που χωρίς τη στήριξη και την αγάπη τους δεν είχα καταφέρει τίποτα Στη μνήμη της Ευγενίας και του Τάση, που θα χαίρονταν τόσο πολύ με την πρόοδό μου Στη μνήμη του καθηγητή Χριστοδουλάκη, που μου έδωσε την ευκαιρία να ξεκινήσω αυτή την προσπάθεια αλλά δεν πρόλαβε να τη δει να ολοκληρώνεται 7
Ευχαριστίες Νιώθω την ανάγκη να ευχαριστήσω θερμά τον επιβλέποντα καθηγητή Μεγαλοοικονόμου Βασίλη, ο οποίος υπό δύσκολες και πιεστικές συνθήκες με ανέλαβε, με καθοδήγησε και με στήριξε κατά τη διάρκεια αυτής μου της προσπάθειας. Η υποστήριξή του σε ό,τι χρειάστηκα και η παροχή ενός ζεστού εργαστηρίου όπου εκπόνησα τη διατριβή μου συνηγόρησαν σημαντικά στην ολοκλήρωσή της. Ιδιαίτερες ευχαριστίες οφείλω να εκφράσω και στην αναπληρώτρια καθηγήτρια Κονδύλη Μαριάννα, η βοήθεια της οποίας υπήρξε πολύτιμη τόσο για το θεωρητικό μέρος της δουλειάς μου, όσο και για την λέξη προς λέξη αξιολόγηση αυτής της δουλειάς. Ευχαριστώ επίσης και τον καθηγητή Γαλλόπουλο Στρατή, για την αμέριστη υποστήριξη και συνεργασία του όλο αυτό το διάστημα, καθώς και τις εύστοχες παρατηρήσεις του. Θέλω να ευχαριστήσω θερμά τους καθηγητές Παυλίδη Γεώργιο και Φακωτάκη Νικόλαο, τον αναπληρωτή καθηγητή Παπαζαχαρίου Δημήτρη και τον επίκουρο καθηγητή Σγάρμπα Κυριάκο, με τους οποίους συνεργαστήκαμε άψογα στα πλαίσια της επταμελούς εξεταστικής επιτροπής της διδακτορικής μου διατριβής, και συνεισέφεραν, ο καθένας από το επιστημονικό του πεδίο, με τις απόψεις και τις χρήσιμες παρατηρήσεις τους πάνω στη δουλειά μου. Δεν θα μπορουσα να μην αναφερθώ στους συνεργάτες μου όλο αυτό το διάστημα, και να μην ευχαριστήσω τον δρ. Ιωσήφ Μπόρα για τις συμβουλές του, την καθοδήγηση, την μεταφορά τεχνογνωσίας, την επαγρύπνιση και γενικά όλη του τη βοήθεια σε επιστημονικό αλλά και ηθικό επίπεδο. Ευχαριστώ ιδιαίτερα την υπ. διδάκτορα Αθανασία Κουμπούρη για όλες τις ατελείωτες ώρες που περάσαμε παρέα σε παλιό και νέο εργαστήριο, μοιραζόμενες κοινές ανησυχίες, αλλά και τη Χριστίνα Αραβαντινού, για την υπέροχη συνεργασία που είχαμε. Ευχαριστώ όλα τα παιδιά του Εργαστηρίου Ανάλυσης Πολυδιάστατων Δεδομένων και Διαχείρισης Γνώσης για το ζεστό κλίμα υπό το οποίο φιλοξενήθηκα όλο αυτό το διάστημα. Τέλος, δεν μπορώ να μην ευχαριστήσω και όλους τους ανθρώπους από το παλιό Εργαστήριο Βάσεων Δεδομένων που με βοήθησαν από το ξεκίνημα αυτής της προσπάθειας, τη Βιβή, τη Σοφία, το Λευτέρη,... Θεωρώ αυτονόητο ότι χωρίς τη στήριξη της οικογένειάς μου, των γονιών μου, του αδερφού μου, του Γιώργου και της δικής του οικογένειας, δεν θα είχα καταφέρει τίποτα απολύτως. Το ευχαριστώ είναι πολύ λίγο για να τους το εκφράσω με λόγια, ελπίζω να τους το αποδεικνύω καθημερινά με τις πράξεις μου. 8
9
Πίνακας περιεχομένων Λίστα Πινάκων... 13 Λίστα Εικόνων... 15 Περίληψη... 16 Abstract... 18 Κεφάλαιο 1. Εισαγωγή... 20 1.1. Η προβληματική... 20 1.2. Σκοπός και αντικείμενο της έρευνας... 21 1.3. Δομή της εργασίας... 22 Κεφάλαιο 2. Ανασκόπηση της βιβλιογραφίας... 24 2.1. Βασικές έννοιες κι εμπλεκόμενα πεδία... 24 2.2. Κοινωνιογλωσσολογικές παράμετροι... 27 2.2.1. Το κοινωνικό φύλο ως κοινωνιογλωσσική μεταβλητή... 28 2.2.2. Η ηλικία ως κοινωνιογλωσσική μεταβλητή... 33 2.3. Εξόρυξη κειμένου... 36 2.3.1. Αυτόματη αναγνώριση φύλου συγγραφέα... 36 2.3.2. Αυτόματη εκτίμηση ηλικίας συγγραφέα... 40 2.3.3. Αυτόματη αναγνώριση του φύλου και της ηλικίας του συγγραφέα... 41 Κεφάλαιο 3. Μεθοδολογία της έρευνας... 44 3.1. Μεθοδολογία... 44 10
3.2. Συλλογή δεδομένων και εργαλεία... 46 Κεφάλαιο 4. Μέσα κοινωνικής δικτύωσης, συγγραφείς και κειμενικά είδη... 51 4.1. Social media text... 51 4.2. Άλλα είδη κειμένου... 53 Κεφάλαιο 5. Αναγνώριση του φύλου του συγγραφέα κειμένων σε μέσα κοινωνικής δικτύωσης... 56 5.1. Εισαγωγικά... 56 5.2. Μετατροπή κοινωνιογλωσσικής γνώσης σε ποσοτικά δεδομένα... 56 5.2.1. Προετοιμασία δεδομένων... 57 5.2.2. Μετατροπή κοινωνιογλωσσικών δεικτών σε ποσοτικά χαρακτηριστικά... 60 5.2.3. Στατιστική ανάλυση και αξιολόγηση χαρακτηριστικών... 66 5.2.4. Αξιολόγηση αποτελεσμάτων... 74 5.3. Κατηγοριοποίηση κειμένου ανάλογα με το φύλο του συγγραφέα χρησιμοποιώντας κοινωνιογλωσσικούς δείκτες ως χαρακτηριστικά... 76 5.3.1. Χαρακτηριστικά κατηγοριοποίησης... 77 5.3.2. Πειραματική διαδικασία και αξιολόγηση των αποτελεσμάτων... 80 5.4. Κατηγοριοποίηση κειμένου ανάλογα με το φύλο του συγγραφέα με επιλογή χαρακτηριστικών και γλωσσικά μοντέλα... 82 5.4.1. Προτεινόμενη μεθοδολογία... 83 5.4.2. Εξαγωγή χαρακτηριστικών (feature extraction)... 84 5.4.3. Πειραματικές διαδικασίες και αξιολόγηση... 86 5.5. Πρόσθετη αναζήτηση: Έμφυλες προτιμήσεις των συγγραφέων στα μέσα κοινωνικής δικτύωσης... 91 5.5.1. Character unigram χαρακτηριστικά... 92 5.5.2. Στατιστική ανάλυση και αξιολόγηση αποτελεσμάτων... 94 5.6. Συμπεράσματα: Η έμφυλη γλωσσική συμπεριφορά στα μέσα κοινωνικής δικτύωσης... 96 11
Κεφάλαιο 6. Εκτίμηση της ηλικίας του συγγραφέα στα μέσα κοινωνικής δικτύωσης... 100 6.1. Εισαγωγικά... 100 6.2. Αυτόματη εκτίμηση της ηλικίας του συγγραφέα με τη χρήση μοντέλων παλινδρόμησης... 100 6.2.1. Προτεινόμενη μεθοδολογία, χαρακτηριστικά και αλγόριθμοι... 101 6.2.2. Πειραματική διαδικασία και αξιολόγηση αποτελεσμάτων... 104 6.3. Κατηγοριοποίηση κειμένου ανάλογα με την ηλικία του συγγραφέα... 106 6.3.1. Προτεινόμενη μεθοδολογία, χαρακτηριστικά και αλγόριθμοι... 106 6.3.2. Πειραματική διαδικασία και αξιολόγηση αποτελεσμάτων... 110 6.4. Ερμηνεία επιλογής χαρακτηριστικών για την ηλικία του συγγραφέα για την συναγωγή κοινωνιογλωσσικών συμπερασμάτων... 113 6.4.1. Προτεινόμενη μεθοδολογία και χαρακτηριστικά... 113 6.4.2. Πειραματική διαδικασία και αξιολόγηση αποτελεσμάτων... 115 6.4.3. Νέα ευρήματα κοινωνιογλωσσικής γνώσης σχετικής με την ηλικία του συγγραφέα... 126 6.5. Συμπεράσματα: Η γλωσσική συμπεριφορά των διαφορετικών ηλικιακών ομάδων στα μέσα κοινωνικής δικτύωσης... 127 Κεφάλαιο 7. Συσχέτιση χαρακτηριστικών φύλου και ηλικίας συγγραφέα... 131 Κεφάλαιο 8. Συμπεράσματα, εφαρμογές και μελλοντικές προεκτάσεις... 138 Επίλογος... 141 Λίστα Δημοσιεύσεων... 143 Published... 143 To appear... Error! Bookmark not defined. Submitted... Error! Bookmark not defined. Βιβλιογραφικές αναφορές... 146 12
Λίστα Πινάκων Πίνακας 1. Ο αριθμός των γυναικείων και των αντρικών αναρτήσεων αναλόγως του μεγέθους τους.... 58 Πίνακας 2. Το γυναικείο και το αντρικό σώμα κειμένων χωρισμένο σε κλάσεις και το μέσο μέγεθος της κάθε κλάσης.... 60 Πίνακας 3. Οι κοινωνιογλωσσικοί δείκτες και τα αντίστοιχά τους ποσοτικά χαρακτηριστικά.... 65 Πίνακας 4. Στατιστικά στοιχεία για το σύνολο των αντρικών και γυναικείων κειμένων (κατηγορία Ε).... 67 Πίνακας 5. Στατιστικά στοιχεία για τις κλάσεις A F και A M... 69 Πίνακας 6. Στατιστικά στοιχεία για τις κλάσεις B F και B M.... 70 Πίνακας 7. Στατιστικά στοιχεία για τις κλάσεις C F και C M... 72 Πίνακας 8. Στατιστικά στοιχεία για τις κλάσεις D F και D M... 73 Πίνακας 9. Τα σημαντικότερα έμφυλα διαφοροποιητικά γλωσσικά χαρακτηριστικά... 74 Πίνακας 10. Τα BSL χαρακτηριστικά που χρησιμοποιήθηκαν στην έμφυλη κατηγοριοποίηση κειμένου.... 78 Πίνακας 11. Τα SLG χαρακτηριστικά που χρησιμοποιήθηκαν στην έμφυλη κατηγοριοποίηση κειμένου.... 79 Πίνακας 12. Τα αποτελέσματα της έμφυλης κατηγοριοποίησης χρησιμοποιώντας διαφορετικούς αλγορίθμους και ρυθμίσεις.... 81 Πίνακας13. Η λίστα με τα στατιστικά χαρακτηριστικά κατηγοριοποίησης.... 84 Πίνακας 14. Η λίστα με τα POS tags χαρακτηριστικά κατηγοριοποίησης.... 85 Πίνακας 15. Η ακρίβεια της έμφυλης κατηγοριοποίησης κειμένων χρησιμοποιώντας μόνο LM ως χαρακτηριστικά.... 87 Πίνακας 16. Τα αποτελέσματα ταξινόμησης για τα 20 πρώτα χαρακτηριστικά.... 88 Πίνακας 17. Η ακρίβεια της έμφυλης κατηγοριοποίησης ανά υποσύνολο χαρακτηριστικών και κατηγοριοποιητή... 90 Πίνακας 18. Τα character unigram χαρακτηριστικά.... 93 Πίνακας 19. Τα πιο σημαντικά μονογράμματα, όπως προέκυψε από το στατιστικό έλεγχο.... 94 Πίνακας 20. Οι έμφυλες γλωσσικές προτιμήσεις σε επίπεδο χαρακτήρα των συγγραφέων.... 95 Πίνακας 21. Η περιγραφή των 42 χαρακτηριστικών που χρησιμοποιήθηκαν στην παρούσα εργασία.... 102 Πίνακας 22. Η ηλικιακή εκτίμηση των MAE και MSE ανά αλγόριθμο παλινδρόμησης.... 104 Πίνακας 23. Τα text-based χαρακτηριστικά που χρησιμοποιήθηκαν για την παρούσα εργασία.... 108 Πίνακας 24. Τα content-based χαρακτηριστικά που χρησιμοποιήθηκαν για την παρούσα εργασία.... 109 13
Πίνακας 25. Η κατανομή των tweet ανά ηλικιακή ομάδα.... 110 Πίνακας 26. Τα πειραματικά αποτελέσματα της αξιολόγησης.... 111 Πίνακας 27. Τα 20 πρώτα χαρακτηριστικά του ReliefF για το blog corpus.... 117 Πίνακας 28. Τα 20 πρώτα χαρακτηριστικά του ReliefF για το twitter corpus... 118 Πίνακας 29. Η μέση εμφάνιση των 10 πιο σημαντικών χαρακτηριστικών του blog corpus για τα κείμενα κάθε ηλικιακής κατηγορίας.... 119 Πίνακας 30.Η μέση εμφάνιση των 10 πιο σημαντικών χαρακτηριστικών του twitter corpus για τα κείμενα κάθε ηλικιακής κατηγορίας.... 120 Πίνακας 31. Η κατάταξη των χαρακτηριστικών αναγνώρισης της ηλικίας του συγγραφέα σύμφωνα με τα αποτελέσματα του ReliefF.... 133 Πίνακας 32. Η κατάταξη των χαρακτηριστικών αναγνώρισης του φύλου του συγγραφέα σύμφωνα με τα αποτελέσματα του ReliefF.... 134 Πίνακας 33. Τα 18 σημαντικά χαρακτηριστικά στην αναγνώριση ηλικίας και φύλου του συγγραφέα.... 136 14
Λίστα Εικόνων Εικόνα 1. Η κατανομή του γυναικείου και αντρικού συνόλου δεδομένων ανάλογα με το μέγεθος των αναρτήσεων.... 59 Εικόνα 2. Το σχηματικό διάγραμμα της μεθοδολογίας για την κατηγοριοποίηση των κειμένων ανάλογα με το φύλο του συγγραφέα.... 83 Εικόνα 3. Το σχηματικό διάγραμμα της μεθοδολογίας που εφαρμόστηκε στην παρούσα εργασία κατηγοριοποίησης.... 107 Εικόνα 4. Το σχηματικό διάγραμμα της μεθοδολογίας που ακολουθήθηκε για την ανακάλυψη νέων κοινωνιογλωσσικών στοιχείων που σχετίζονται με την ηλικία του συγγραφέα.... 114 Εικόνα 5. Η κατανομή του «short words» χαρακτηριστικού στο blog και twitter corpus για κάθε ηλικιακή ομάδα.... 121 Εικόνα 6. Η κατανομή του «word length» χαρακτηριστικού στο blog και twitter corpus για κάθε ηλικιακή ομάδα.... 122 Εικόνα 7. Η κατανομή των λειτουργικών λέξεων και των λέξεων περιεχομένου στο twitter corpus.... 123 Εικόνα 8. Η κατανομή των ρημάτων ανά ηλικιακή ομάδα στο blog και twitter corpus.... 123 Εικόνα 9. Η κατανομή των λέξεων που αρχίζουν με κεφαλαίο και των ακρώνυμων ανά ηλικιακή ομάδα στο blog και το twitter corpus.... 124 Εικόνα 10. Η κατανομή της χρήσης συνδέσμων ανά ηλικιακή ομάδα στο blog και στο twitter corpus.... 125 15
Περίληψη Η παρούσα διδακτορική διατριβή αποτελεί μια διεπιστημονική προσπάθεια συγκερασμού των πεδίων της Κοινωνιογλωσσολογίας και της Επιστήμης των Υπολογιστών (και πιο συγκεριμένα της Εξόρυξης και Επεξεργασίας Κειμένου). Ο σκοπός αυτής της έρευνας ήταν η ανάδειξη των κοινωνιογλωσσικών δεικτών που σχετίζονται με το φύλο και την ηλικία του συγγραφέα 1 σε ένα σώμα αγγλικών κειμένων από μέσα κοινωνικής δικτύωσης, η αναζήτηση αυτών των δεικτών με αυτόματο τρόπο, η επιβεβαίωση ή μη της ύπαρξής τους στο κείμενο και ο βαθμός πληροφοριακότητας και διαφοροποίησης που προσφέρει το κάθε χαρακτηριστικό ως προς την κοινωνιογλωσσική μεταβλητή η οποία εξετάζεται σε κάθε περίπτωση. Ένας δεύτερος στόχος αυτής της έρευνας ήταν η ανάδειξη νέας κοινωνιογλωσσικής γνώσης που προκύπτει από χαρακτηριστικά που προέκυψαν από αυτόματες τεχνικές επεξεργασίας κειμένου, και αφορούν κυρίως στατιστικά γλωσσικά χαρακτηριστικά. Αυτά τα στοιχεία εξετάστηκαν, και νέοι κοινωνιογλωσσικοί δείκτες ανιχνεύτηκαν πέραν των όσων δεικτών έχει συνοψίσει η βιβλιογραφική επισκόπηση των θεωρητικών κι εμπειρικών μελετών. Τέλος, η παρούσα έρευνα υλοποιήθηκε σε δεδομένα από ένα σχετικά πρόσφατο κειμενικό είδος: κείμενα που αντλήθηκαν από τα μέσα κοινωνικής δικτύωσης του Παγκόσμιου Ιστού (social media text). Αυτή είναι μια παράμετρος που θα εξετάστηκε παράλληλα με την κοινωνιογλωσσική μελέτη, καθώς αυτό το κειμενικό είδος επιτρέπει να εμφανίζονται κοινωνιογλωσσικά χαρακτηριστικά που προδίδουν το φύλο και την ηλικία του συγγραφέα φέροντας έντονα στοιχεία προφορικότητας. Η έρευνα αυτή αποτέλεσε μια πρωτότυπη προσπάθεια, καθώς ο συνδυασμός των δύο διαφορετικών επιστημών κατ'αυτόν τον τρόπο και σε αυτή την έκταση δεν έχει ακολουθηθεί στο παρελθόν. Η ύπαρξη ενός πεδίου υπολογιστικής κοινωνιογλωσσολογίας και η συστηματική ενασχόληση με αυτό είναι κάτι το καινοτόμο, που ξεφεύγει από τις υπάρχουσες θεωρητικές, ποσοτικές και υπολογιστικές προσεγγίσεις, οδηγώντας σε νέα αποτελέσματα, νέα συμπερασματα και νέα πληροφορία. 1 Στο παρόν κείμενο, για λόγους οικονομίας, ακολουθείται η συνήθης χρήση του αρσενικού γένους για κεντρικούς όρους, όπως ο αναγνώστης, ο ομιλητής, ο συγγραφέας 16
17
Abstract The present doctoral dissertation was an interdisciplinary effort combining Sociolinguistic and Computer Science (and more specifically Text Mining and Processing). The goal of this research is the detection of sociolinguistic markers related to gender and age of social media users, after their online text (english), their automated calculation, the confirmation of not of their existence in a social media corpus, and the grade of informativivity and differentiation of every feature to the sociolinguistic variable examined in any case. A second goal of the current work was the discovery of new sociolinguistic knowledge after the text processing features, which are mostly statistical linguistic characteristics. These features are examined and it is investigated if they have identified new sociolinguistic indices apart the markers that standard theories highlight. Finally, the present research implemented data from a recent text type: texts derived from web social media (social media text). This parameter has been examined alongside the sociolinguistic study, because the selected text type allows the presence of the sociolinguistic features that underly the author s gender and age, due to its strong orality elements. The present research has been an original effort, given that the fusion of such different sciences in that depth has not been realized in past. The existence of a computational sociolinguistics field and the systematic study with it, is something novel, out of the existing theoretical, quantitative, computational approaches, and leads to the discovery of new findings, new conclusions, and new knowledge. 18
19
Κεφάλαιο 1. Εισαγωγή 1.1. Η προβληματική Κάθε άνθρωπος χειρίζεται και χρησιμοποιεί τη γλώσσα με διαφορετικό και ξεχωριστό τρόπο, τόσο στον προφορικό όσο και στο γραπτό του λόγο. Παρά τις επιμέρους διαφοροποιήσεις, άνθρωποι που μοιράζονται κάποια κοινά κοινωνικά χαρακτηριστικά, όπως για παράδειγμα το φύλο, την ηλικία, το επάγγελμα, κοκ, τείνουν να κάνουν κάποιες κοινές γλωσσικές επιλογές, που εμφανίζονται στα διάφορα επίπεδα ανάλυσης της γλώσσας. Αυτές οι επιλογές, που συγκροτούν την γλωσσική συμπεριφορά μιας κοινωνικής ομάδας, καθώς και οι κοινωνικοί παράγοντες που τις προκαλούν, αποτελούν το αντικείμενο της μελέτης του πεδίου της Κοινωνιογλωσσολογίας. Τα κοινωνιογλωσσικά συμπεράσματα μιας εμπειρικής έρευνας είναι ιδιαίτερα ακριβή, έχουν προκύψει από έρευνες γλωσσολόγων σε συγκεκριμένο διάστημα, πληθυσμό και δείγμα, και αποτελούν αντικείμενο θεωρητικής μελέτης. Το μεγαλύτερο μέρος αυτών των μελετών έχουν πραγματοποιηθεί με δεδομένα προφορικού λόγου και αρκετά από τα συμπεράσματα αφορούν γλωσσικές επιλογές που κάνουν οι διάφορες ομάδες στο φωνολογικό επίπεδο. Επίσης, πρόκειται για έρευνες που διεξάγονται σε συγκεκριμένους πληθυσμούς και συχνά σε μικρού όγκου δεδομένα, καθώς η μελέτη των δεδομένων και η επισημείωσή τους με την κοινωνιογλωσσική πληροφορία που προκύπτει είναι δύσκολη και χρονοβόρα. Το ερώτημα που έγινε η αιτία της διεξαγωγής της παρούσας έρευνας είναι το εξής: πώς μπορούμε να διεξάγουμε μια κοινωνιογλωσσική έρευνα σε μεγάλο όγκο δεδομένων που να έχει προέλθει από τα μέσα κοινωνικής δικτύωσης και τους χρήστες τους; Το ερώτημα αυτό προέκυψε τόσο από τον τεράστιο αριθμό των χρηστών των κοινωνικών δικτύων και τον όγκο των καθημερινά παραγόμενων κειμενικών δεδομένων, όσο και από την ανάγκη εξαγωγής συμπερασμάτων για το προφίλ αυτών των ανθρώπων μέσα από μια κοινωνιογλωσσική μελέτη της κειμενικής πληροφορίας που οι ίδιοι οι συγγραφείς παρέχουν δημόσια στο διαδίκτυο. 20
Απάντηση στο ερώτημα που τίθεται μπορεί να δοθεί με τον συνδυασμό της Κοινωνιογλωσσολογίας με την Επιστήμη των Υπολογιστών. Στην προσπάθειά μας για μια κοινωνιογλωσσική έρευνα σε μια μεγάλη συλλογή κειμένων της αγγλικής γλώσσας αντλημένων από μέσα κοινωνικής δικτύωσης, η χρήση υπολογιστικών μοντέλων και αυτοματοποιημένης γνώσης για τη συλλογή δεδομένων, την αναγνώριση και την επεξεργασία της γλώσσας είναι μερικά από τα εργαλεία που μας παρέχει αυτό το επιστημονικό πεδίο,. Το κατά πόσο μπορεί να υπάρξει συγκερασμός δύο διαφορετικών επιστημονικών πεδίων, με διαφορετικές προσεγγίσεις, μεθοδολογίες, εργαλεία, και να ολοκληρωθεί με επιτυχία η διεξαγωγή μιας τέτοιας διεπιστημονικής έρευνας, αποτελεί την προβληματική της παρούσας διδακτορικής διατριβής. Η υπόθεση που διατυπώνεται είναι ότι είναι δυνατή μια μελέτη κοινωνιογλωσσικού ενδιαφέροντος με αυτόματες τεχνικές, και ότι μπορεί να προκύψει νέα γνώση κι ευρήματα που να είναι χρήσιμα και στα δύο βασικά εμπλεκόμενα επιστημονικά πεδία. Στη συνέχεια περιγράφεται ο σκοπός και το αντικείμενο της παρούσας διατριβής. 1.2. Σκοπός και αντικείμενο της έρευνας Η παρούσα διδακτορική διατριβή αποτελεί μια διεπιστημονική προσπάθεια συγκερασμού των πεδίων της Κοινωνιογλωσσολογίας και της Επιστήμης των Υπολογιστών (και πιο συγκεκριμένα της Εξόρυξης και Επεξεργασίας Κειμένου). Για να επιτευχθεί μια τέτοια μελέτη, προϋποθέτει από την πλευρά του ερευνητή βαθειά γνώση κι εξοικείωση με τα εμπλεκόμενα επιστημονικά πεδία. Ο σκοπός αυτής της έρευνας είναι η ανάδειξη των κοινωνιογλωσσικών δεικτών που σχετίζονται με το φύλο και την ηλικία του συγγραφέα σε ένα σώμα κειμένων από μέσα κοινωνικής δικτύωσης, η αναζήτησή αυτών των δεικτών με αυτόματο τρόπο, η επιβεβαίωση ή μη της ύπαρξής τους στο κείμενο και ο βαθμός πληροφοριακότητας και διαφοροποίησης που προσφέρει το κάθε χαρακτηριστικό ως προς την κοινωνιογλωσσική μεταβλητή η οποία εξετάζεται σε κάθε περίπτωση. Ένας δεύτερος στόχος αυτής της έρευνας είναι η ανάδειξη νέας κοινωνιογλωσσικής γνώσης, που προκύπτει από χαρακτηριστικά που εξάγονται με αυτόματες τεχνικές επεξεργασίας κειμένου, και αφορούν κυρίως στατιστικοποιημένα γλωσσικά χαρακτηριστικά. Αυτά τα στοιχεία εξετάζονται, και στη συνέχεια ανιχνεύεται το αν 21
αναδεικνύουν νεους κοινωνιογλωσσικούς δείκτες πέραν των όσων δεικτών έχει συνοψίσει η βιβλιογραφική επισκόπηση των θεωρητικών κι εμπειρικών μελετών. Τέλος, η παρούσα έρευνα υλοποιείται σε δεδομένα από ένα σχετικά πρόσφατο κειμενικό είδος: κείμενα αντλημένα από τα μέσα κοινωνικής δικτύωσης του Παγκόσμιου Ιστού (social media text). Αυτή είναι μια παράμετρος που θα εξετάζεται παράλληλα με την κοινωνιογλωσσική μελέτη, κατά πόσο δηλαδή αυτό το κειμενικό είδος επιτρέπει να εμφανίζονται κοινωνιογλωσσικά χαρακτηριστικά που προδίδουν το φύλο και την ηλικία του συγγραφέα. Η έρευνα αυτή αποτελεί μια πρωτότυπη προσπάθεια, καθώς ο συνδυασμός των δύο διαφορετικών επιστημών κατ' αυτόν το τρόπο και σε αυτή την έκταση δεν έχει ακολουθηθεί στο παρελθόν. Η ύπαρξη ενός πεδίου υπολογιστικής κοινωνιογλωσσολογίας και η συστηματική ενασχόληση με αυτό είναι κάτι το καινοτόμο, που ξεφεύγει από τις υπάρχουσες θεωρητικές, ποσοτικές και υπολογιστικές προσεγγίσεις, οδηγώντας στην ανακάλυψη νέων αποτελεσμάτων, νέων συμπερασμάτων και νέας πληροφορίας. Το αντικείμενο αυτής της διδακτορικής διατριβής αφορά την κοινωνιογλωσσική μελέτη δεδομένων κειμένου με τη χρήση αυτόματων τεχνικών και μεθόδων, συνδυάζοντας ένα θεωρητικό κι ένα υπολογιστικό πεδίο, με την ταυτόχρονη χρήση της γνώσης που προκύπτει και από τα δύο. Το πεδίο της Κοινωνιογλωσσολογίας προσφέρει ένα κομμάτι γνώσης και θεωρίας πάνω σε γλωσσικές διαφοροποιητικές επιλογές που σχετίζονται με το φύλο και την ηλικία του συγγραφέα, και το πεδίο της Εξόρυξης Κειμένου και Επεξεργασίας Κειμένου (Text Mining, Text Processing) παρέχει ένα ευρύ φάσμα εργαλείων, αλγορίθμων, μοντέλων, και άλλων μεθόδων που βοηθούν στη συλλογή, τη μελέτη και την επεξεργασία μεγάλου όγκου κειμενικών δεδομένων. 1.3. Δομή της εργασίας Η παρούσα διατριβή ακολουθεί την εξής δομή: στο Κεφάλαιο 2 γίνεται η ανασκόπηση της βιβλιογραφίας. Περιγράφονται οι βασικές έννοιες που χρησιμοποιούνται κατά τη διάρκεια της διατριβής, όπως επίσης και οι γενικές αρχές που διέπουν τα επιστημονικά πεδία που εμπλέκονται στην παρούσα έρευνα. Παρουσιάζονται οι 22
βασικότερες μελέτες γύρω από το φύλο και την ηλικία ως κοινωνιογλωσσικές μεταβλητές, όπως κι εκείνες που ασχολούνται με την αυτόματη αναγνώριση του φύλου και την ηλικία του συγγραφέα. Στο Κεφάλαιο 3 περιγράφεται η μεθοδολογία που ακολουθήθηκε στην έρευνα, καθώς επίσης, τα σύνολα δεδομένων και τα εργαλεία που χρησιμοποιήθηκαν. Το Κεφάλαιο 4 περιγράφει την υφιστάμενη κατάσταση στον Παγκόσμιο Ιστό, τα μέσα κοινωνικής δικτύωσης που έχουν αναπτυχθεί, την ενασχόληση-παρέμβαση του χρήστη τους, και τα χαρακτηριστικά του κειμενικού είδους που διαμορφώνεται στα μέσα κοινωνικής δικτύωσης από τους συγγραφείς. Το Κεφάλαιο 5 ασχολείται με τη μελέτη που πραγματοποιήθηκε γύρω από την αναγνώριση του φύλου του συγγραφέα κειμένων στα κοινωνικά δίκτυα του Παγκόσμιου Ιστού. Περιγράφεται το πώς κοινωνιογλωσσικοί δείκτες μετατρέπονται σε ποσοτικά χαρακτηριστικά και εντοπίζονται σε ένα σώμα κειμένων. Μελετάται ποια από αυτά τα χαρακτηριστικά είναι στατιστικά σημαντικά για τη διαφοροποίηση της γλωσσικής συμπεριφοράς ανδρών και γυναικών. Στη συνέχεια παρουσιάζονται οι πειραματικές διαδικασίες και τα αποτελέσματα της αυτόματης κατηγοριοποίησης κειμένου με διάφορες τεχνικές και αλγορίθμους, χρησιμοποιώντας χαρακτηριστικά που έχουν προέλθει από κοινωνιογλωσσικές μελέτες, στατιστικά χαρακτηριστικά, γλωσσικά μοντέλα, n-gram χαρακτήρων. Στο Κεφάλαιο 6 περιγράφεται η μελέτη που πραγματοποιήθηκε για την εκτίμηση της ηλικίας του συγγραφέα σε κείμενα αντλημένα από μέσα κοινωνικής δικτύωσης. Παρουσιάζονται οι διάφορες πειραματικές διαδικασίες που ακολουθήθηκαν και τα αποτελέσματά τους. Αναλύονται τα συμπεράσματα και εξετάζεται το ενδεχόμενο ανακάλυψης νέας κοινωνιογλωσσικής γνώσης. Στο Κεφάλαιο 7 επιχειρείται η συσχέτιση των χαρακτηριστικών φύλου και ηλικίας του συγγραφέα, με στόχο να διαφανεί εάν η γνώση του φύλου του συγγραφέα και η χρήση του ως χαρακτηριστικού κατηγοριοποίησης, μπορεί να βελτιώσει τη διαδικασία αναγνώρισης της ηλικίας και το αντίστροφο. Τέλος, στο Κεφάλαιο 8 γίνεται μια συνολική παρουσίαση και αποτίμηση των αποτελεσμάτων και των συμπερασμάτων που προέκυψαν κατά τη διάρκεια της έρευνας. Εφαρμογές αυτών των συμπερασμάτων παρουσιάζονται, και προτείνονται μελλοντικά βήματα εξέλιξης της ερευνητικής δραστηριότητας σε αυτό το πεδίο. 23
Κεφάλαιο 2. Ανασκόπηση της βιβλιογραφίας Σε αυτή την ενότητα παρουσιάζονται αρχικά οι βασικές έννοιες που διέπουν την έρευνα που διεξήχθη. Καθώς πρόκειται για μια διεπιστημονική προσπάθεια, περιγράφονται τα πεδία που εμπλέκονται και βασικοί όροι που χρησιμοποιούνται στις μελέτες σε κάθε πεδίο. Στη συνέχεια γίνεται επισκόπηση σημαντικών μελετών για κάθε πεδίο, μελέτες οι οποίες αποτέλεσαν τη βασική γνώση για την υλοποίηση αυτής της εργασίας. 2.1. Βασικές έννοιες κι εμπλεκόμενα πεδία Όπως έχει προαναφερθεί, η παρούσα διατριβή αποτελεί μια προσπάθεια συγκερασμού ενός πεδίου της Γλωσσολογίας με ένα πεδίο της Επιστήμης των Υπολογιστών. Η Γλωσσολογία ασχολείται με την επιστημονική μελέτη της γλώσσας σε όλα τα πιθανά επίπεδα που μπορεί να αναλυθεί: από το επίπεδο φωνητικής-φωνολογίας και το επίπεδο της μορφολογίας, μέχρι το επίπεδο της σημασίας των λέξεων (σημασιολογία) και της γενικότερης γνώσης του περιβάλλοντος σε ένα εκφώνημα (πραγματολογία). Αντίστοιχα η Επιστήμη των Υπολογιστών, η οποία είναι θετική κι εφαρμοσμένη επιστήμη που ερευνά τα θεωρητικά θεμέλια και τη φύση των πληροφοριών, των αλγορίθμων και των υπολογισμών, καθώς και τις τεχνολογικές εφαρμογές τους σε αυτοματοποιημένα υπολογιστικά συστήματα από τη σκοπιά της σχεδίασης, της ανάπτυξης, της υλοποίησης, της διερεύνησης, της ανάλυσης και της προδιαγραφής τους, περιλαμβάνει πολλά επιμέρους αντικείμενα όπως την επεξεργασία φυσικής γλώσσας, την εξόρυξη και την επεξεργασία κειμένου (που χρησιμοποιούνται στην παρούσα έρευνα). Το γλωσσολογικό πεδίο γύρω από το οποίο περιστρέφεται η παρούσα έρευνα είναι αυτό της Κοινωνιογλωσσολογίας. Η Κοινωνιογλωσσολογία είναι ο κλάδος της γλωσσολογίας που μελετά τη σχέση γλώσσας και κοινωνίας (Κακριδή-Φερράρι, 2005). Διερευνά τις αμφίδρομες και συστηματικές σχέσεις ανάμεσα στα γλωσσικά συστήματα και το κοινωνικό περιβάλλον όπου εμφανίζονται και χρησιμοποιούνται τα συστήματα αυτά. 24
Επίσης, διερευνώνται οι κοινωνικοί παράγοντες που αντανακλώνται στη χρήση συγκεκριμένων γλωσσικών μορφών, και ο ρόλος που παίζουν στις γλωσσικές επιλογές των ομιλητών, στοιχεία της ταυτότητάς τους, της ταυτότητας του συνομιλητή, της επικοινωνιακής περίστασης, κλπ.. Στο κέντρο της μελέτης της κοινωνιογλωσσολογίας είναι η γλωσσική ποικιλότητα, ποιοι παράγοντες τη δημιουργούν, σε ποια γλωσσικά στοιχεία, με τι στόχο ή αποτέλεσμα για τους ομιλητές, τις σχέσεις των κοινωνικών παραγόντων μεταξύ τους, τον τρόπο με τον οποίο μπορεί να εντοπιστεί και να αντληθεί, κοκ. Η γλωσσική ποικιλότητα και οι διαφορετικές γλωσσικές ποικιλίες που δημιουργούνται ως αποτέλεσμα αυτής της ποικιλότητας είναι οι κοινωνιόλεκτοι (sociolect). Παραδείγματα που δημιουργούν κοινωνιογλωσσική ποικιλότητα και αποδεικνύουν τη σχέση γλώσσας και κοινωνίας μπορεί να είναι ο δανεισμός γλωσσικών στοιχείων, οι διαφορές που εμφανίζονται στη γλωσσική συμπεριφορά ανθρώπων που ανήκουν σε διαφορετικές κοινωνικές ομάδες (ηλικία, φύλο, επάγγελμα, μόρφωση, κλπ.), η γλωσσική μεταβολή (συγχρονική και διαχρονική), οι διαφορετικές κοινωνικές περιστάσεις που επηρεάζουν το λόγο (επίσημη, ανεπίσημη ομιλία), ο πολιτισμικά καθορισμένος χαρακτήρας της έκφρασης ενός μεγάλου μέρους των νοημάτων μιας γλώσσας (Hudson, 1980). Η αντιστοίχιση μιας γλωσσικής συμπεριφοράς με την κοινωνική ομάδα που την υιοθετεί είναι το αντικείμενο των κυρίαρχων ρευμάτων της ποσοτικής κοινωνιογλωσσικής έρευνας. Μεθοδολογικά, σε μια ποσοτική κοινωνιογλωσσική έρευνα καθορίζονται αρχικά ο στόχος της έρευνας, που προκύπτει από την υπόθεση του ερευνητή για τη συσχέτιση ανεξάρτητων μεταβλητών (φύλο, ηλικία, κλπ.) με εξαρτημένες μεταβλητές, οι οποίες είναι τα γλωσσικά στοιχεία που εμφανίζουν ποικιλότητα ως προς τις πραγματώσεις τους. Γίνεται η επιλογή των πληροφορητών και των περιστάσεων στο πλαίσιο των οποίων γίνεται η συλλογή του παραγόμενου γλωσσικού υλικού, καθώς και η επιλογή της τεχνικής για τη συλλογή του υλικού αυτού. Στις σύγχρονες κοινωνιογλωσσικές μελέτες η στατιστική ανάλυση των δεδομένων που συλλέγονται και η εν γένει ποσοτική τους αντιμετώπιση είναι αναπόσπαστο κομμάτι της έρευνας (Μικρός, 2008), γεγονός που δημιουργεί επιστημολογική ένταση στο πεδίο, καθώς οι ποσοτικές μέθοδοι συχνά στερούνται ποιοτικής και θεωρητικής ανάλυσης, και, αντίστροφα, οι θεωρητικές κι εμπειρικές προσεγγίσεις αποφεύγουν τη χρήση ποσοτικών δεδομένων (Αρχάκης και Κονδύλη, 2002). Το πεδίο της Υπολογιστικής Γλωσσολογίας (Computational Linguistics), που είναι σχεδόν ταυτόσημο με αυτό της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing), έχει αποτελέσει αντικείμενο ιδιαίτερης μελέτης τα τελευταία χρόνια. Έχει αναπτυχθεί ιδιαίτερα, και θεωρείται υποπεδίο της Τεχνητής Νοημοσύνης (Artificial 25
Intelligence) και της θεωρητικής Γλωσσολογίας, αξιοποιώντας γνώση και τεχνικές και από τα δύο, συνθέτοντας ένα ιδιαίτερο αντικείμενο με σημαντική συνεισφορά στην έρευνα και τη βιομηχανία (Clark et al., 2010). Το ενδιαφέρον της Υπολογιστικής Γλωσσολογίας ιστορικά έχει περάσει από τη μελέτη μικρών προτύπων και θεωρητικών μοντέλων στη δυναμική εκπαίδευση και υλοποίηση συστημάτων που εφαρμόζονται σε μεγάλου όγκου γλωσσικά δεδομένα και σε σώματα κειμένων. Διαχωρίζεται από την Επεξεργασία Λόγου (Speech Processing), καθώς οι εργασίες που πραγματοποιούνται εντοπίζονται σε επίπεδο κειμένου (που προέρχεται είτε από γραπτό είτε από προφορικό λόγο), και προϋποθέτει τη βαθιά γνώση της γλώσσας και των μηχανισμών λειτουργίας της (Jurafsky and Martin, 2000). Η Επεξεργασία Φυσικής Γλώσσας διερευνά ζητήματα και υλοποιεί εργασίες που διαπερνούν όλα τα επίπεδα ανάλυσης της γλώσσας, και για το καθένα από αυτά έχουν αναπτυχθεί εργαλεία για την προεπεξεργασία ενός κειμένου, τη μορφολογική, συντακτική, σημασιολογική ανάλυση, την ανάλυση πραγματείας, αλλά και πλήθος άλλων πιο περίπλοκων εργασιών (Indurkhya and Damerau,2010). Ιδιαίτερα μάλιστα αναπτυγμένες είναι οι στατιστικές προσεγγίσεις στην επεξεργασία της γλώσσας, οι οποίες καλύπτουν ένα ευρύτατο φάσμα δυνατοτήτων επεξεργασίας και ανάλυσης κειμένου (Manning and Schütze, 1999). Τέτοιου είδους εργασίες θεωρούνται και αντικείμενο της Εξόρυξης Κειμένου (Text Mining), υποπεδίου της Εξόρυξης Δεδομένων (Data Mining). Το πεδίο αυτό ασχολείται με την διαδικασία εντοπισμού κι εξαγωγής υψηλής ποιότητας πληροφορίας από κείμενο. Κάτι τέτοιο μπορεί να επιτευχθεί από την επινόηση προτύπων και τάσεων με μέσα όπως είναι τα στατιστικά μοντέλα μάθησης. Η Εξόρυξη Κειμένου συνήθως διερευνά και κατεργάζεται τη δόμηση του εισερχόμενου κειμένου (μέσα από μια σειρά εργασιών προεπεξεργασίας κ.ά.) και την εξαγωγή προτύπων από τα δομημένα, πλέον, κειμενικά δεδομένα, αξιολογώντας κι ερμηνεύοντας τα αποτελέσματα (Feldman and Sanger, 2007). Ανάμεσα στις πιο διαδεδομένες εργασίες είναι η κατηγοριοποίηση κειμένου (Text Classification), η αναγνώριση στοιχείων της ταυτότητας του συγγραφέα κειμένων (Authorship Attribution), η εξαγωγή πληροφορίας από κείμενο (Information Extraction), η εξαγωγή περίληψης (Summarization), η επίλυση της αναφοράς (Anaphora Resolution), η εξόρυξη άποψης ή/και συναισθήματος από κείμενα (Opinion Mining-Sentiment Analysis), κλπ., εργασίες που πραγματοποιούνται κάνοντας κυρίως χρήση τεχνικών και αλγορίθμων μηχανικής μάθησης (Machine Learning). 26
Η αυτόματη αναγνώριση διαφοροποιητικών χαρακτηριστικών ανάμεσα σε διαφορετικά κείμενα, βασισμένη σε ποσοτικές και υπολογιστικές μεθόδους, είναι μια διαδικασία η οποία έχει απασχολήσει ιδιαίτερα την ερευνητική κοινότητα της Επεξεργασίας Φυσικής Γλώσσας και της Εξόρυξης Πληροφορίας από κείμενο. Αρχικά το ενδιαφέρον εστιάστηκε στην αυτόματη αναγνώριση του συγγραφέα του κειμένου και του είδους στο οποίο ανήκει το κείμενο αυτό. Οι Stamatatos et al. (2000, 2001) εντοπίζουν στυλιστικούς δείκτες, και με τεχνικές αυτόματης κατηγοριοποίησης κειμένου αποδίδουν σε ένα κείμενο το είδος και το συγγραφέα του. Η προσέγγισή τους είναι βασισμένη σε λεξικό και οι ερευνητές πετυχαίνουν υψηλό ποσοστό ακρίβειας στα πειραματικά αποτελέσματα της κατηγοριοποίησης που κάνουν. Στη συνέχεια, όπως θα παρουσιαστεί αναλυτικά σε επόμενη ενότητα, υπήρξε ενδιαφέρον για την αναγνώριση κι άλλων μεταβλητών, όπως το φύλο και η ηλικία, που απασχολούν την παρούσα έρευνα. Στην επόμενη ενότητα περιγράφονται πιο συγκεκριμένα οι ανεξάρτητες μεταβλητές που διερευνήθηκαν στα πλαίσια της διδακτορικής διατριβής: το φύλο και η ηλικία του συγγραφέα. 2.2. Κοινωνιογλωσσολογικές παράμετροι Σε αυτή την ενότητα περιγράφονται οι θεωρητικές και εμπειρικές προσεγγίσεις που αφορούν στις δύο κοινωνιογλωσσικές μεταβλητές οι οποίες μελετήθηκαν κατά τη διάρκεια της διδακτορικής διατριβής. Στην υποενότητα 2.2.1. παρουσιάζονται οι προσεγγίσεις γύρω από το κοινωνικό φύλο ως κοινωνιογλωσσική μεταβλητή, καθώς και τα σημαντικότερα διαφοροποιητικά γλωσσικά χαρακτηριστικά που οφείλονται στην έμφυλη προτίμηση. Στην υποενότητα 2.2.2. παρουσιάζονται οι προσεγγίσεις γύρω από την ηλικία ως κοινωνιογλωσσική μεταβλητή, και οι γλωσσικές επιλογές που έχουν συσχετιστεί με τις ηλικιακές ομάδες. 27
2.2.1. Το κοινωνικό φύλο ως κοινωνιογλωσσική μεταβλητή Η γλωσσική ποικιλότητα που σχετίζεται με το κοινωνικό φύλο ήταν από τις πρώτες περιοχές κοινωνιογλωσσικής αναζήτησης. Από τότε που η γλώσσα θεωρείται ως κοινωνική δραστηριότητα που αντικατοπτρίζει ή/και επηρεάζει την κοινωνική πραγματικότητα, οι σχέσεις του γλωσσικού και του κοινωνικού εγγράφονται στο γλωσσικό μηχανισμό. Υπ αυτή την έννοια, οι διαφοροποιημένες γλωσσικές συμπεριφορές των κοινωνικών ομάδων αποτελούν ένα από τα αντικείμενα μελέτης της κοινωνιογλωσσολογικής έρευνας. Οι διαφορές ανάμεσα στη «γλώσσα» των ανδρών και των γυναικών, γραπτή και προφορική, αποτελούν κρίσιμο ζήτημα στην κοινωνιογλωσσολογική έρευνα, ειδικότερα από τότε που οι άνδρες και οι γυναίκες δεν θεωρούνται απλώς δυο διαφορετικές βιολογικές οντότητες, αλλά κοινωνικά δομημένες ως δύο διαφορετικές κοινωνικές ομάδες. Ο κοινωνιολόγος Antony Giddens ορίζει το βιολογικό φύλο (sex) ως τις βιολογικές και ανατομικές διαφορές ανάμεσα σε άνδρες και γυναίκες, ενώ το κοινωνικό φύλο (gender) αφορά ψυχολογικές, κοινωνικές και πολιτισμικές διαφορές ανάμεσα σε άνδρες και γυναίκες (Giddens, 1989). Η συμμετοχή κάποιου σε καθεμιά από αυτές τις κοινωνικές ομάδες προϋποθέτει διαφορετικά καθήκοντα, προνόμια και, κατ επέκταση, διαφορετικές γλωσσικές συμπεριφορές. Στις μοντέρνες/δυτικού τύπου κοινωνίες, οι διαφορετικές γλωσσικές επιλογές ανάμεσα στα φύλα αφορούν κυρίως στην έμφυλη προτίμηση της χρήσης συγκεκριμένων χαρακτηριστικών (sex-preference differences), τα οποία μπορούν να παρατηρηθούν σε όλα τα επίπεδα ανάλυσης της γλώσσας, από το φωνητικό/φωνολογικό μέχρι το πραγματολογικό, και εξαρτώνται ιδιαίτερα από την εκάστοτε επικοινωνιακή περίσταση. Τα αποτελέσματα της έρευνας γύρω από την έμφυλη γλωσσική ποικιλότητα, είναι ενδεικτικά για την ύπαρξη μιας γυναικείας κοινωνιολέκτου, η οποία ονομάστηκε «γλώσσα των γυναικών», γλώσσα η οποία σύμφωνα με τη Robin Lakoff προορίζεται για χρήση της αποκλειστικά ή κυρίως από γυναίκες, και έχει σαν αποτέλεσμα την «υποτίμηση της ταυτότητάς της, με την άρνηση της χρήσης ισχυρών τρόπων έκφρασης» (Lakoff, 1975). Τα τελευταία χρόνια πάντως, η έρευνα που αφορά στις έμφυλες γλωσσικές προτιμήσεις, αντιλαμβάνεται το ερευνητικό πεδίο ως «γλώσσα και φύλο» (language and gender), αναδεικνύοντας τις διαφοροποιητικές γλωσσικές επιλογές τόσο αντρικές όσο και γυναικείες. 28
Οι πρώτες μελέτες που ασχολήθηκαν με το φύλο ως κοινωνιογλωσσική μεταβλητή εστίαζαν το ενδιαφέρον τους στις διαφορές μεταξύ ανδρών και γυναικών σε φωνολογικό επίπεδο, χωρίς να εμβαθύνουν την έρευνα περισσότερο. Φωνολογικές διαφοροποιήσεις παρατηρήθηκαν από τους πρώτους ερευνητές που αναφέρονται στη βιβλιογραφία (όπως αναφέρεται στο Jespersen, 1922), τους Wilhelm von Humbold και Jacob Grimm, οι οποίοι διέκριναν στη γλώσσα στοιχεία που οφείλονται στο φύλο, την ηλικία και το μορφωτικό επίπεδο, χωρίς όμως να προκύπτει από τις παρατηρήσεις τους η ύπαρξη μιας ξεχωριστής γυναικείας γλώσσας. Υποστήριξαν ότι ο γυναικείος λόγος έχει μονάχα κάποια διαφοροποιητικά στοιχεία, και υπέθεσαν επιπλέον, ότι η γυναίκα μάλλον δεν έχει ενεργή συμμετοχή στην επεξεργασία και τον εμπλουτισμό της γλώσσας. O Grimm μάλιστα υπήρξε ο πρώτος ερευνητής που διαχώρισε το βιολογικό από το γραμματικό φύλο, βάσει κοινωνιολογικών κριτηρίων. Ο Jespersen (1922) προχώρησε σε μια προσεκτικότερη μελέτη του γυναικείου λόγου, σύμφωνα με την οποία, το γυναικείο λεξιλόγιο είναι πιο περιορισμένο, μικρότερο σε μέγεθος και πιο κεντρικό 2 (όρος που πλέον δεν χρησιμοποιείται από τους γλωσσολόγους). Έκτοτε, η κοινωνιογλωσσική επιστήμη έχει εξελιχθεί και οι κοινωνιογλωσσολόγοι χρησιμοποιούν πλέον τον όρο κοινωνικό φύλο (gender), αντί του όρου sex, συσχετίζοντας αυτόν τον όρο με την αντίστοιχη γλωσσική διαφοροποίηση και τα σχετιζόμενα διαφοροποιητικά χαρακτηριστικά. Το μέγεθος του λεξιλογίου, παρ όλα αυτά, παραμένει ένα σημαντικό στοιχείο που λαμβάνεται υπόψιν σε μια γλωσσολογική μελέτη, καθώς είναι εύκολο να εντοπιστεί και να μετρηθεί ποσοτικά. Το χαρακτηριστικό του λεξιλογίου αποτελεί ένδειξη όχι μόνο του προσωπικού στυλ γραφής ενός ανθρώπου, αλλά του προτύπου που χαρακτηρίζει μια ολόκληρη κοινωνική ομάδα. Παρότι είναι ένα από τα στοιχεία το οποίο έχει συσχετιστεί με το μέγεθος του κειμένου, πρόσφατες μελέτες απέδειξαν ότι το μέγεθος του λεξιλογίου είναι ανεξάρτητο από το μέγεθος του κειμένου, αλλά ιδιαίτερα σημαντικό για την αναγνώριση του συγγραφέα του κειμένου (Kubát and Milička, 2013). Μια συνολική θεώρηση του γυναικείου λόγου τείνει στο ότι, στατιστικά, οι γυναίκες κάνουν πιο συντηρητική χρήση της γλώσσας, προτιμώντας τύπους της πρότυπης γλώσσας αντίθετα με τους άνδρες, οι οποίοι είναι πιο δεκτικοί στη χρήση νεολογισμών και αργκό (Gordons, 1997). Η μόνη περίπτωση που αποφεύγουν την πρότυπη 2 Κεντρικό λεξιλόγιο: οι γυναίκες προτιμούν να κινούνται στο κεντρικό πεδίο της γλώσσας, αποφεύγοντας οποιοδήποτε τύπο ή μορφή είναι εκτός πρότυπης γλώσσας, ακολουθώντας πιστά τους κανόνες του γλωσσικού τους συστήματος. 29
γλώσσα είναι όταν προσαρμόζονται σε αλλαγές που σχετίζονται με κάποιο κοινωνικό κύρος, τοπικά γλωσσικά φαινόμενα, έμμεση επικοινωνία και υπό συγκεκριμένες επικοινωνιακές συνθήκες. Από μια άλλη οπτική, οι Milroy και Milroy (Milroy and Milroy, 1985), αναπτύσσοντας τη θεωρία τους περί κοινωνικών δικτύων, υποστήριξαν ότι το κοινωνικό φύλο αποτελεί μια ανομοιογενή κατηγορία σε κάθε κοινότητα. Συσχετίζουν μάλιστα τη γυναικεία γλωσσική συμπεριφορά περισσότερο με το κοινωνικό στάτους του ομιλητή παρά με το φύλο καθαυτό. Κατά τη διάρκεια της παρούσας έρευνας, καθορίστηκε ως σημαντικό στοιχείο της μεθοδολογίας όχι τόσο η μελέτη των διαφορετικών κοινωνιογλωσσικών θεωριών, από τις οποίες συχνά προκύπτουν και αντικρουόμενα συμπεράσματα, αλλά η εστίαση στα εμπειρικά τους ευρήματα που θεωρητικοποιήθηκαν εν συνεχεία από τους ερευνητές, και αφορούν γλωσσικές επιλογές που μπορούν να εντοπιστούν στο γραπτό λόγο. Θεωρήθηκε, δηλαδή, σημαντική η συλλογή των κοινωνιογλωσσικών δεικτών που σχετίστηκαν με το κοινωνικό φύλο και η συνολική τους ομαδοποίηση σε μια εκτενή λίστα χαρακτηριστικών. Αυτό επιχειρείται στη συνέχεια αυτής της ενότητας, με τη συνόψιση και παράθεση των σημαντικότερων κοινωνιογλωσσικών ευρημάτων σε μια σειρά μελετών με αντικείμενο τη γλώσσα και το φύλο (Lakoff, 1973, 1975, 1990 Βucholtz, 1999 Bucholtz et al., 1999 Fishman, 1983 Cameron, 1998, 2005 Μακρή-Τσιλιπάκου, 2010 West and Zimmerman, 1983 Zimmerman and West, 1975 Tannen, 1991 Eckert and McConnell-Ginet, 2003 Mulac, 2006 Mulac et al., 1994 Holmes and Meyerhoff, 2003). Ένα από τα χαρακτηριστικά που αναδείχθηκαν είναι η γνώση και χρήση εκτενούς διαβάθμισης των χρωματικών αποχρώσεων στο γυναικείο λόγο, όπου εν συγκρίσει με τους άνδρες, οι γυναίκες τείνουν να χρησιμοποιούν πιο αναλυτικούς τρόπους για να περιγράψουν έναν συγκεκριμένο τόνο χρώματος (π.χ. κίτρινο λεμονί, μοβ λιλά, μπλε ρουά, σομόν). Ο δείκτης αυτός φαίνεται να είναι συχνότερος σε θέματα συζήτησης που αφορούν τη μόδα, το μακιγιάζ, τη διακόσμηση σπιτιού, κλπ., πεδία που ελκύουν κυρίως το γυναικείο ενδιαφέρον (Μακρή-Τσιλιπάκου, 2010 Lakoff, 1973). Η χρήση «κενών επιθέτων», που φέρουν μεταφορική σημασία θαυμασμού ή/και επιδοκιμασίας, αναδεικνύεται ως ένας κοινωνιογλωσσικός δείκτης σχετιζόμενος με το φύλο. Οι γυναίκες τείνουν να κάνουν συχνότερα κοπλιμέντα ή να υπερβάλλουν σε μεγαλύτερο βαθμό απ ό,τι οι άνδρες, χρησιμοποιώντας φράσεις όπως για παράδειγμα: «θεϊκό φόρεμα», «υπέροχο το φαγητό», «τέλεια μαλλιά», κλπ.. Προτιμούν επίσης να κάνουν με ηπιότερο τρόπο συζήτηση και διάλογο, χρησιμοποιώντας ερωτήσεις αντί για καταφάσεις και δηλώσεις-κρίσεις. Αυτές οι μορφές μάλιστα δημιουργούν τις συνθήκες έναρξης ή/και συνέχισης μιας κουβέντας. Μια κατάφαση του στυλ: «Αυτό το αυτοκίνητο 30
δεν είναι πολύ βολικό» δεν διευκολύνει ή δεν ξεκινά μια συζήτηση, ενώ η ερωτηματική φράση «Αυτό το αυτοκίνητο είναι βολικό;» απαιτεί τουλάχιστον μια απάντηση από το συνομιλητή (Lakoff, 1990 Bucholtz et al., 1999 Fishman, 1983 ). Ο δείκτης αυτός συνδυάζεται με ένα ακόμα χαρακτηριστικό του γυναικείου λόγου, το οποίο είναι η χρήση διαφόρων μορφών και στοιχείων προκειμένου να ελαττωθεί η προσλεκτική δύναμη των εκφωνημάτων τους. Αυτό το φαινόμενο επιτυγχάνεται με τη χρήση μετριαστικών στοιχείων όπως ερωτήσεις-ηχώ (tag-questions, π.χ. «Είναι πολύ ωραία εδώ, έτσι δεν είναι;»), οι οποίες είναι ιδιαίτερα δόκιμες στα αγγλικά και λιγότερο στα γαλλικά, η επιμήκυνση των παρακλήσεων (π.χ. «Μπαμπά, θα με πετάξεις με το αυτοκίνητο μέχρι το σχολείο, σε παρακαλώ πολύ;»), οι επισχετικοί συνομιλιακοί δείκτες (hedges) με συνδηλώσεις αβεβαιότητας (π.χ. «δεν είμαι σίγουρη», «δεν ξέρω», «αν δεν κάνω λάθος», κλπ.), η ερωτηματική επιτόνηση καταφάσεων (π.χ. «Σκέφτομαι -να πάμε μια βόλτα το απόγευμα;») (Μακρή-Τσιλιπάκου, 2010 West and Zimmerman, 1983 Zimmerman and West, 1975). Οι γυναίκες παρατηρείται ότι τείνουν να αποφεύγουν έντονες εκφράσεις αποδοκιμασίας, όπως επίσης και υβριστικές μορφές. Όσον αφορά γενικότερα στις λεξιλογικές τους προτιμήσεις, τείνουν να χρησιμοποιούν κυρίως μορφές της πρότυπης γλώσσας, αποφεύγοντας νεολογισμούς ή άλλες στιγματισμένες εκφράσεις. Επιπλέον, υιοθετούν διαφορετικές στρατηγικές ευγένειας από τους άνδρες, όπως επίσης τρόπους συμφωνίας/διαφωνίας με τον συνομιλητή τους. Εκφράζουν πιο έμμεσα και όχι με ιδιαίτερα αιχμηρό τρόπο τη διαφωνία ή τη συμφωνία τους με κάποια άποψη, εν αντιθέσει με τους άνδρες, και παράλληλα χρησιμοποιούν πιο ευγενικές φράσεις στο λόγο τους (Eckert and McConnell-Ginet, 2003 Mulac, 2006 Mulac et al., 1994). Ένα ακόμη γλωσσικό γνώρισμα των γυναικών είναι η εκτενέστερη χρήση συναισθηματικών εκφράσεων, έμμεσων παρακλήσεων και υπερδιορθωμένων 3 γραμματικών τύπων. Οι άνδρες από την άλλη πλευρά, τείνουν να χρησιμοποιούν περισσότερους υβριστικούς και κοινωνικά στιγματισμένους τύπους, πιο τραχιά και χυδαία γλώσσα γενικότερα απ ότι οι γυναίκες, και σε περίπτωση διαφωνίας αντιδρούν με πιο οξύ, λεκτικά, και πιο έντονες και απότομες εκφράσεις. Οι άνδρες χρησιμοποιούν συχνά στο λόγο τους μη πρότυπους τύπους της γλωσσικής 3 Υπερδιόρθωση: είναι φαινόμενο της παραγωγής γραμματικών τύπων που δημιουργούνται από λανθασμένη αναλογία, με αποτέλεσμα να υπάρχουν τύποι που χρησιμοποιούνται συχνά ενώ είναι αντιγραμματικοί και συχνά αδόκιμοι, π.χ. διαφεύγω της σύλληψης, αντί διαφεύγω τη σύλληψη. 31
ποικιλίας, ενώ θεωρούνται πιο δεκτικοί στην εισαγωγή στο λεξιλόγιό τους νεολογισμών, νέων εκφράσεων ή νέων χρήσεων υπαρχόντων λέξεων και εκφράσεων (Fishman, 1983 Cameron, 2005 Μακρή-Τσιλιπάκου, 2010 Tannen, 1991) Η λεξική πυκνότητα είναι ένα χαρακτηριστικό το οποίο μελετήθηκε πρόσφατα σε ποσοτικές κοινωνιογλωσσικές έρευνες, και αφορά τη χρήση λέξεων περιεχομένου (ονόματα, επίθετα, ρήματα και επιρρήματα) στο σύνολο της απλής πρότασης (clause). Οι Alami et al. (2013) μελετούν τη λεξική πυκνότητα στον αντρικό και γυναικείο λόγο, και συγκρίνουν τη σχέση που έχει με το μήκος του εκφωνήματος. Παρατήρησαν ότι η λεξική πυκνότητα δεν είναι στατιστικά σημαντικό έμφυλο διαφοροποιητικό χαρακτηριστικό. Οι κοινωνιογλωσσικές μελέτες έχουν αναγνωρίσει ποικίλες γλωσσικές επιλογές που σχετίζονται με άνδρες και γυναίκες ομιλητές, λόγω όμως τόσο των διαφορετικών δειγμάτων και πληθυσμών όσο και των στόχων/μεθόδων των μελετών, παραμένει ιδιαίτερα δύσκολη η συγκέντρωση όλων των ευρημάτων (ιδιαίτερα των πιο λεπτών και δυσδιάκριτων διαφοροποιήσεων) και η προσπάθεια εξαγωγής ενός γενικευμένου κοινωνιογλωσσικού προφίλ για κάθε φύλο. Οι Eckert και McConnell-Ginet (1999) κάνουν μια σημαντική προσπάθεια για νέες γενικεύσεις και ερμηνείες στο ερευνητικό πεδίο της γλώσσας και του κοινωνικού φύλου. Τονίζουν ιδιαίτερα την υποκειμενικότητα και τις αντιφάσεις ανάμεσα στις διαφορετικές μελέτες, ιδεολογίες, μεθοδολογίες και τα συμπεράσματα που οι ερευνητές εξάγουν. Ενδεικτική είναι η άποψή τους για τις δυσκολίες σε αυτό το πεδίο της έρευνας όπως συνοψίζεται παρακάτω: «Στην κατανόησή μας για το τι σημαίνει κάτι να είναι αρσενικό ή θηλυκό σε μια συγκεκριμένη ομάδα μέσα σε μια κοινότητα, στην κοινωνία, και στον κόσμο, υποβόσκει η ερμηνεία της έμφυλης διαφοροποίησης στη γλωσσική χρήση» (Eckert and McConnell-Ginet, 1999: p.188). Πρόσφατες μελέτες στη γλώσσα και το κοινωνικό φύλο προσπαθούν να συνδυάσουν υπάρχουσες αλλά και πιο ριζοσπαστικές θεωρίες προκειμένου να δημιουργήσουν πρότυπα για την έμφυλη γλωσσική ποικιλότητα, αναλύοντας τη σημασία και τα κοινωνικά συμφραζόμενα μια συγκεκριμένης γλωσσικής συμπεριφοράς (Eckert, 2012). Έχει δημιουργηθεί επίσης η ανάγκη συνδυασμού της κοινωνικής πληροφορίας που μπορεί να συγκεντρωθεί συνολικά για μια κοινωνική ομάδα, ώστε να εξεταστούν δείγματα από το λόγο της σε σχέση με περισσότερες (εκτός από το φύλο) από μία κοινωνιογλωσσικές μεταβλητές. Η κοινωνιολογική, ανθρωπολογική και στυλιστική πληροφορία που αναγνωρίζεται σε μια επικοινωνιακή περίσταση είναι ιδιαίτερα σημαντική για την εξήγηση μιας συγκεκριμένης γλωσσικής επιλογής του ομιλητή. Σε αυτό το πλαίσιο έχουν διεξαχθεί αρκετές μελέτες, στις οποίες 32
χρησιμοποιούνται οι παραγλωσσικές πληροφορίες που μπορούν να ανιχνευτούν (π.χ. επιτονισμός, προσωδία) αλλά και το εξωγλωσσικό πλαίσιο (π.χ. επικοινωνιακή περίσταση, συνθήκες συνομιλίας), με στόχο να βγουν νέα συμπεράσματα και γνώση (Moore and Podesva, 2009 Bucholtz, 1998, 2002, 2003 Bucholtz and Hall, 2005 Irvine, 2001 McConnell-Ginet, 2011). Τέτοιες διεπιστημονικές μέθοδοι ενέπνευσαν και την παρούσα προσπάθεια για το συνδυασμό ποιοτικών μεταβλητών με ποσοτικά δεδομένα και τεχνικές, αξιοποιώντας (στο μέτρο που τα διαθέσιμα εργαλεία επέτρεψαν) και κάποια εξωγλωσσικά χαρακτηριστικά, προκειμένου η αναζήτηση της έμφυλης ταυτότητας να γίνει όσο το δυνατόν με πιο άρτιο τρόπο. Συνοψίζοντας, η κοινωνιογλωσσική έρευνα γύρω από το φύλο και τη γλώσσα έχει αναδείξει ποικίλες διαφορές ανάμεσα στη γλωσσική συμπεριφορά ανδρών και γυναικών, οδηγώντας στο γεγονός να γίνεται λόγος για ένα χαρακτηριστικό «γυναικείο» ύφος, σε αντιδιαστολή προς το «αντρικό». Αυτό οφείλεται στη διαφοροποιημένη συμπεριφορά ανδρών και γυναικών στη γλωσσική επικοινωνία, ειδικότερα στον τρόπο με τον οποίο τα δύο φύλα χρησιμοποιούν τη γλώσσα, συμμετέχουν στην οργάνωση της συνομιλίας, αναπτύσσουν επικοινωνιακές στρατηγικές, εκφράζουν στάσεις και συναισθήματα, κλπ. Η σχετική έρευνα συχνά αναζητά την ερμηνεία αυτής της διαφοροποίησης στην ιεραρχική θέση των φύλων στην κοινωνία και στις νόρμες που διέπουν την κοινωνικοποίηση και τη συμπεριφορά τους. Η συνολικότερη όμως αποτίμηση των μελετών αυτών αποδεικνύει ότι η έμφυλη γλωσσική διαφοροποίηση αποτελεί απόρροια της επικοινωνιακής περίστασης και της σχέσης ανάμεσα στα συνομιλούντα άτομα, όπως και του ευρύτερου κοινωνικού, θεσμικού και πολιτισμικού πλαισίου. 2.2.2. Η ηλικία ως κοινωνιογλωσσική μεταβλητή Όπως αναφέρεται και στην ενότητα 2.1, άνθρωποι διαφορετικού φύλου, ηλικίας, επαγγελματικής δραστηριότητας και γεωγραφικής τοποθέτησης, κάνουν αντίστοιχα διαφορετικές γλωσσικές επιλογές οι οποίες σχετίζονται με αυτούς τους κοινωνικούς παράγοντες (Labov, 1972). Η ηλικία είναι ένας από αυτούς τους παράγοντες, μέρος της δημογραφικής/κοινωνικής πληροφορίας, η οποία έχει παρατηρηθεί ότι ευθύνεται για τις όποιες διαφοροποιημένες γλωσσικές επιλογές. Παρότι η ηλικία ορίζεται κυρίως από βιολογικές παραμέτρους, αυτές οι παράμετροι έχουν συσχετιστεί άμεσα με κοινωνικούς κανόνες, περιορισμούς, επιτρεπτές συμπεριφορές, ώστε να αντιμετωπίζεται ο 33
ηλικιακός παράγοντας ως ένα κοινωνικό στοιχείο που ρυθμίζει την κοινωνική ζωή των ανθρώπων στα πλαίσια μιας κοινότητας. Στις αρχικές κοινωνιογλωσσικές μελέτες, η ηλικία του ομιλητή συνδυάστηκε στενά με τη γλωσσική αλλαγή, χωρίς όμως να εξετάζεται ως ξεχωριστή κοινωνιογλωσσική μεταβλητή (Eckert 1997:p.167). Η ηλικία σαν κοινωνιογλωσσική μεταβλητή είναι στενά συνδεδεμένη με το στάδιο ζωής (life stage) ενός ανθρώπου στην κοινότητα που ανήκει (Αρχάκης και Κονδύλη, 2005). Διαφορές στη γλώσσα που είναι εξαρτώμενες από την ηλικία των ομιλητών συνιστούν το φαινόμενο της γλωσσικής ηλικιακής διαβάθμισης, όπου συγκεκριμένα γλωσσικά στοιχεία συσχετίζονται με τις αντίστοιχες ηλικιακές κατηγορίες λόγω εξελικτικών και ψυχοκοινωνικών παραγόντων. Το κοινωνιογλωσσικό ερευνητικό ενδιαφέρον για τα στάδια ζωής και τη γλώσσα αρχικά εστίασε στη μέση ηλικία, για την οποία υποτέθηκε ότι είχε πιο ενεργό ρόλο ως προς τη σχέση και την επίδρασή της στο γλωσσικό σύστημα (Κακριδή-Φερράρι, 2005). Οι ενήλικες ομιλητές προτιμούν να κάνουν χρήση τύπων της πρότυπης γλωσσικής ποικιλίας, οι οποίοι εξαρτώνται και από άλλους κοινωνικούς παράγοντες όπως το φύλο, η επαγγελματική δραστηριότητα, κλπ. Λόγω του παραγωγικού του ρόλου στην κοινωνία, είναι πιο δεκτικοί στη χρήση, πέραν της πρότυπης γλώσσας, όρων που χρησιμοποιούνται στους αντίστοιχους επαγγελματικούς χώρους χωρίς να δημιουργούνται ιδιαίτερες προϋποθέσεις για γλωσσική επαφή και αλληλεπίδραση με τη γλώσσα άλλων ηλικιακών ομάδων. Σχετικά πρόσφατα η κοινωνιογλωσσική έρευνα προσανατολίστηκε στη μελέτη της γλωσσικής ποικιλότητας στις νεότερες ηλικιακές ομάδες, χωρίς ωστόσο να προκύπτουν ασφαλή συμπεράσματα για να προχωρήσουμε σε γενικεύσεις (Eckert, 1997). Οι γλωσσικές μεταβλητές που προκύπτουν από τις διαφορετικές ηλικιακές κατηγορίες που μελετώνται μπορεί να οφείλονται σε διαχρονικές αλλαγές στη γλώσσα του προσώπου ή της κοινότητας, πράγμα το οποίο θα πρέπει να εντοπίζεται και να διευκρινίζεται σε κάθε περίπτωση. Η «τρίτη ηλικία», επίσης μια ηλικιακή κατηγορία με την οποία η κοινωνιογλωσσική έρευνα έχει πρόσφατα ασχοληθεί, χαρακτηρίζεται από τους περιορισμούς (βιολογικούς και κοινωνικούς) στη δύναμη και τη δραστηριότητα, γεγονός που αντικατοπτρίζεται και στη γλωσσική συμπεριφορά αυτής της ομάδας ομιλητών. Το επίκεντρο του ενδιαφέροντος των μελετών για την ηλικία ως κοινωνιογλωσσική μεταβλητή εντοπίζεται στη γλώσσα των νέων. Με αυτό τον όρο οι κοινωνιογλωσσολόγοι συνήθως ονομάζουν τη γλωσσική ποικιλότητα που χρησιμοποιείται από νεαρά άτομα υπό οποιεσδήποτε επικοινωνιακές περιστάσεις και περιέχει όλες αυτές τις συγκεκριμένες γλωσσικές επιλογές που οριοθετούν το λόγο των νέων (Androutsopoulos and Georgakopoulou, 34
2003). Κοινωνιογλωσσικές μελέτες στο πεδίο παρατηρούν ότι οι νέοι άνθρωποι χρησιμοποιούν τη γλώσσα με έναν δημιουργικότερο τρόπο, λιγότερο επίσημο και πιο αντισυμβατικό απ ό,τι οι υπόλοιπες ηλικιακές ομάδες, παράγοντας νέες γλωσσικές μορφές, όταν αντίθετα οι ενήλικες προτιμούν περισσότερο τους τύπους της πρότυπης γλώσσας (Trudgill, 1974 Eckert, 1997). Σημασιολογικοί νεολογισμοί, τύποι της αργκό, δάνειες λέξεις και κωδικές εκφράσεις παράγονται και χρησιμοποιούνται από τους νέους, τη στιγμή που οι ενήλικες τείνουν σε μια συντηρητικότερη γλωσσική συμπεριφορά. Αυτή η επιλογή μπορεί να ερμηνευθεί από το διαφορετικό κοινωνικό ρόλο στον παραγωγικό κύκλο και στις οικογενειακές υποχρεώσεις που έχει ένας ενήλικας, εφόσον οι νέοι και οι μεγαλύτεροι άνθρωποι, οι οποίοι είτε δεν έχουν μπει στην παραγωγική τους φάση είτε την έχουν ολοκληρώσει και ξεπεράσει, τείνουν σε μια πιο χαλαρή χρήση του γλωσσικού συστήματος (Labov, 2011). Στη μελέτη του για τη γλώσσα και την ηλικία ο Barbieri (2008), μελετώντας ένα corpus στα αγγλικά, παρατήρησε ότι ο λόγος των νεότερων ομιλητών χαρακτηρίζεται από μια ασυνήθιστη συχνότητα χρήσης λέξεων αργκό και υβριστικών εκφράσεων και από μια στιγματισμένη χρήση χαρακτηριστικών-ενδείξεων της στάσης του ομιλητή και της συναισθηματικής του εμπλοκής, περιέχοντας ενισχυτές, επιρρήματα στάσης, δεικτικά, προσωπικές αντωνυμίες και συμπεριφορικά επίθετα, όταν οι μεγαλύτεροι ομιλητές προτιμούν τα εγκλιτικά. Αυτά τα πρότυπα συνιστούν λειτουργικές διαφορές ανάμεσα στο λόγο των νέων και των ενηλίκων. Συνεχίζοντας για τα χαρακτηριστικά που συγκροτούν τη γλώσσα των νέων, ο Ανδρουτσόπουλος (1997, 1998, 2001) διακρίνει τρία επίπεδα γλωσσικής διαφοροποίησης της γλωσσικής συμπεριφοράς των νέων έναντι των υπολοίπων ηλικιακών ομάδων. Το πρώτο επίπεδο αφορά γλωσσικές διαφοροποιήσεις που σχετίζονται με την γενικότερη τάση της νεαρής αυτής ηλικιακής ομάδας να χρησιμοποιούν περισσότερες κοινωνικά στιγματισμένες και καινοτομικές μορφές απ ό,τι οι υπόλοιπες ηλικιακές ομάδες. Στο δεύτερο επίπεδο εντάσσονται οι γλωσσικές διαφοροποιήσεις που εντοπίζονται με τη μορφή σημασιολογικών νεολογισμών, με την επέκταση της χρήσης υπαρχουσών παραγωγικών καταλήξεων (ιδιαίτερα της καθομιλουμένης), συχνά και σε μη αναμενόμενες ρίζες προκειμένου να δημιουργηθούν νέα λεξήματα ή νέα σημαίνοντα, με το δανεισμό διαφόρων στοιχείων (κυρίως από την αγγλική γλώσσα) που είτε παραμένουν και χρησιμοποιούνται αυτούσια είτε προσαρμόζονται στα ελληνικά με «ιδιαίτερα δημιουργικό και παιγνιώδη τρόπο» (Κακριδή-Φερράρι, 2005:199), και τέλος, με τη δημιουργία νέων ιδιωματικών εκφράσεων εκμεταλλευόμενοι τις διάφορες δυνατότητες των συντακτικών μηχανισμών. Στο τρίτο επίπεδο 35
εντοπίζονται διαφοροποιήσεις που σχετίζονται με τη συνομιλιακή διεπίδραση και τις όποιες πραγματολογικές παραμέτρους τη συνοδεύουν. Κλείνοντας αυτή την ενότητα όπου συνοψίζονται βασικότερα ευρήματα στη γλωσσική διαφοροποίηση ανάμεσα σε ανθρώπους που ανήκουν σε διαφορετική ηλικιακή κατηγορία, γίνεται αισθητό ότι η ηλικία ως κοινωνιογλωσσική μεταβλητή δεν έχει μελετηθεί στον ίδιο βαθμό που έχει διερευνηθεί το κοινωνικό φύλο. Οι γλωσσολόγοι αναγκάζονται να ανατρέξουν σε αποσπασματικά δεδομένα και γνώση συγκεκριμένων ηλικιών, τα οποία έχουν εξαχθεί υπό συγκεκριμένες συνθήκες. Σε επόμενο στάδιο θα πρέπει να μελετηθούν επαρκώς και οι υπόλοιπες ηλικιακές κατηγορίες, ώστε να καλυφθούν όλα τα κενά στα στάδια ζωής και να υπάρχει γνώση για κάθε ηλικία και τις όποιες γλωσσικές επιλογές κάνει. Στην ενότητα που ακολουθεί γίνεται μια αναλυτική παρουσίαση των μελετών που έχουν γίνει στην αναγνώριση του φύλου και της ηλικίας του συγγραφέα με αυτόματο πλέον τρόπο. 2.3. Εξόρυξη κειμένου Στην παρούσα ενότητα περιγράφονται μελέτες που εξερεύνησαν την έμφυλη και ηλικιακή ταυτότητα των συγγραφέων κειμένου, οι οποίες υλοποιήθηκαν κάνοντας χρήση τεχνικών μηχανικής μάθησης, αυτόματης επεξεργασίας και κατηγοριοποίησης κειμένου, και αξιοποιώντας τη γνώση από το πεδίου της Επεξεργασίας Φυσικής Γλώσσας (βλ. Ενότητα 2.1). Στην υποενότητα 2.3.1 παρουσιάζονται αρχικά οι προσεγγίσεις γύρω από την αναγνώριση του φύλου, στην υποενότητα 2.3.2. εκείνες που αφορούν την εκτίμηση της ηλικίας του συγγραφέα, και τέλος, στην υποενότητα 2.3.3., τις εργασίες που μελετούν παράλληλα το φύλο και την ηλικία του συγγραφέα. 2.3.1. Αυτόματη αναγνώριση φύλου συγγραφέα Η αυτόματη αναγνώριση του φύλου του συγγραφέα κειμένου θεωρείται τυπικά εργασία του πεδίου της αυτόματης κατηγοριοποίησης κειμένου (Cheng et al., 2011 Soler and Wanner, 2014). Πρόκειται για υπολογιστικές μεθόδους που εστιάζουν στη χρήση τεχνικών μηχανικής μάθησης και αλγορίθμων για την όσο το δυνατόν ακριβέστερη 36
απόδοση της πληροφορίας του φύλου στον ανώνυμο συγγραφέα ενός κειμένου. Στην παρούσα προσπάθεια να παρουσιαστεί όσο το δυνατόν πιο συνολικά η ερευνητική δραστηριότητα γύρω από την αναγνώριση του φύλου του συγγραφέα, ομαδοποιήθηκαν οι μελέτες ανάλογα με το είδος των κειμενικών δεδομένων που χρησιμοποιούν: έρευνες που αναγνωρίζουν το φύλο του συγγραφέα σε επίσημα κείμενα, επιστημονικά, ή/και λογοτεχνικά, και έρευνες που εντοπίζουν το φύλο του συγγραφέα σε κείμενα που έχουν αντληθεί από τον Παγκόσμιο Ιστό και πιο συγκεκριμένα από τα διάφορα μέσα κοινωνικής δικτύωσης. Οι Newman et al. (2008) αναλύουν ένα εκτενέστατο σώμα 14,000 κειμένων από διάφορες πηγές γραπτού και προφορικού λόγου επιχειρώντας να κάνουν μια ποσοτική ανάλυση των δεδομένων, με στόχο την ανάδειξη των σημαντικότερων διαφοροποιήσεων στη χρήση του γλωσσικού συστήματος από άνδρες και γυναίκες. Στο ερώτημα που τίθεται αν οι άνδρες χρησιμοποιούν με διαφορετικό τρόπο τη γλώσσα απ ό,τι οι γυναίκες και αν τα συμφραζόμενα παίζουν κάποιο ρόλο σε αυτό, η απάντηση είναι πολυσύνθετη, καθώς η έμφυλη γλωσσική συμπεριφορά εξαρτάται και από παράγοντες που δεν σχετίζονται με το γλωσσικό μηχανισμό, αλλά με κοινωνικούς και ψυχολογικούς παράγοντες. Ύστερα από ιδιαίτερη μελέτη των λειτουργικών λέξεων και των λέξεων περιεχομένου, καταλήγουν στο συμπέρασμα ότι εντοπίζονται μικρές αλλά συστηματικές διαφορές ανάμεσα στο λόγο ανδρών και γυναικών, με κύριο εύρημα το ότι οι γυναίκες χρησιμοποιούν λέξεις που σχετίζονται με ψυχολογικές και κοινωνικές διεργασίες, ενώ οι άνδρες αναφέρονται περισσότερο σε αντικειμενικές ιδιότητες και απρόσωπα θέματα. Οι Argamon et al. (2003) διεξάγουν μια αντίστοιχη μελέτη σε ένα υποσύνολο του British National Corpus 4 που αποτελείται από επίσημα λογοτεχνικά κείμενα. Κάνοντας χρήση συντακτικών και άλλων χαρακτηριστικών, εντοπίζουν σημαντικές έμφυλες γλωσσικές διαφοροποιήσεις, με τους άνδρες να επιλέγουν τη συχνότερη χρήση άρθρων και προθέσεων και τις γυναίκες να χρησιμοποιούν συχνότερα προσωπικές αντωνυμίες, βοηθητικά ρήματα και συνδέσμους. Οι Koppel et al. (2002) προτείνουν μεθόδους αυτόματης κατηγοριοποίησης κειμένου για να συνάγουν το φύλο του συγγραφέα επίσημων κειμένων, κάνοντας χρήση χαρακτηριστικών όπως n-gram και λειτουργικές λέξεις, που είναι ιδιαίτερα διαδεδομένα στοιχεία και για την απόδοση του συγγραφέα. Η μελέτη τους αυτή συνδυάζει τεχνικές στυλομετρίας (Stylometry-Stylometrics) και κατηγοριοποίησης κειμένου ώστε να συναγάγει το φύλο του συγγραφέα με ιδιαίτερα υψηλό ποσοστό ακρίβειας κατηγοριοποίησης (περίπου 80%). Όταν μάλιστα ορίζεται και το 4 British National Corpus BNC: http://www.natcorp.ox.ac.uk/ 37
είδος από το οποίο προέρχεται το κείμενο, μπορεί να ανέλθει σχεδόν στο 98% το ποσοστό της ακρίβειας του αποτελέσματος. Οι Sarawgi et al. (2011) αναζητούν το φύλο του συγγραφέα τόσο σε γραπτά επιστημονικά κείμενα όσο και σε κείμενα που έχουν αντλήσει από web blogs. Εφαρμόζουν στατιστικές μεθόδους και τεχνικές μηχανικής μάθησης, σε κείμενα και των δύο κατηγοριών, χωρίς να προκαταλαμβάνονται από το θέμα του κειμένου και το είδος στο οποίο ανήκει. Χρησιμοποιώντας διάφορες μεθόδους, καταλήγουν από τα συγκριτικά αποτελέσματα ότι η πιο αξιόπιστη προσέγγιση είναι αυτή που βασίζεται σε γλωσσικά μοντέλα χαρακτήρων που εκπαιδεύονται σε μορφολογικά πρότυπα, παρά σε γλωσσικά μοντέλα tokens που εκπαιδεύονται σε λεξιλογικο-συντακτικά πρότυπα. Η μελέτη τους έχει σαν αποτέλεσμα την ασφαλή συναγωγή έμφυλων γλωσσικών επιλογών, χωρίς να λαμβάνεται υπόψιν η θεματολογία και το είδος του κειμένου, τόσο για τα κείμενα από web blogs όσο και για τα επιστημονικά κείμενα. Μια από τις πρώτες μελέτες αναγνώρισης φύλου σε κείμενο από τον Παγκόσμιο Ιστό είναι αυτή των Corney et al. (2002). Οι ερευνητές, σε ένα σύνολο δεδομένων από κείμενα ηλεκτρονικής αλληλογραφίας διαφόρων συγγραφέων, ανιχνεύουν το κατά πόσο στυλιστικοί δείκτες, δομικά χαρακτηριστικά και γλωσσικά χαρακτηριστικά έμφυλης προτίμησης μπορούν να αποδώσουν σε ικανοποιητικό βαθμό σωστά το φύλο του συγγραφέα, φτάνοντας μάλιστα σε ποσοστό ακρίβειας άνω του 70%. Σημαντική είναι η παρατήρηση ότι τα γλωσσικά χαρακτηριστικά έμφυλης προτίμησης στη συγκεκριμένη μέθοδο δεν βελτιώνουν παρά ελάχιστα την απόδοση της κατηγοριοποίησης. Μια σειρά μελετών διερευνά το φύλο των συγγραφέων σε web blogs. Οι Kobayashi et al. (2006), χρησιμοποιώντας αλγορίθμους μάθησης Support Vector Machines και τεχνικές μέτρησης του βάρους των λέξεων των κειμένων, εκτιμούν το φύλο του blogger από τα κείμενα των αναρτήσεών του, εξάγοντας/αντλώντας λέξεις των οποίων η χρήση σχετίζεται με το ένα ή το άλλο φύλο. Στο 92% των blogger κατηγοριοποιούν τις αναρτήσεις με ακρίβεια 85%, ενώ στο 83% του συνόλου των αναρτήσεων εκτιμούν σωστά με ποσοστό 90%. Σε επόμενη έρευνα οι Zhang and Zhang (2010) προσπαθούν να αντιμετωπίσουν την ίδια προβληματική χρησιμοποιώντας διάφορα χαρακτηριστικά, όπως λέξεις, μέρη του λόγου (POS tags), κά., σε συνδυασμό με διάφορους αλγορίθμους και προσεγγίσεις. Η καλύτερη απόδοση επιτυγχάνεται με τη χρήση του SVM (linear kernel) αλγορίθμου, ύστερα από επιλογή χαρακτηριστικών (feature selection), υπερβαίνοντας το 72% σε ποσοστό ακρίβειας κατηγοριοποίησης. Οι Mukherjee and Liu (2010) δημιούργησαν ένα σώμα κειμένων από web blogs, και εντοπίζοντας μια σειρά ομάδων χαρακτηριστικών λέξεων, κατηγοριών λέξεων, POS tags, n-gram, προχώρησαν σε επιλογή 38
χαρακτηριστικών και κατηγοριοποίηση κειμένου που ξεπερνά το 88% της ακρίβειας απόδοσης Παρόμοια μελέτη έκαναν και οι Ansari et al. (2013) χρησιμοποιώντας συχνότητες tokens, tf-idf μετρικές και POS tags για τον ίδιο σκοπό. Η αναγνώριση του φύλου του συγγραφέα διερευνήθηκε και σε σύνολο δεδομένων από τις αναρτήσεις χρηστών στο Facebook. Κάνοντας χρήση διαφορετικών τεχνικών μηχανικής μάθησης, σε ένα σώμα 170,000 αναρτήσεων, και μετρώντας στατιστικά χαρακτηριστικά βασισμένα στις λέξεις, τη δομή, τις συχνότητες εμφάνισης στοιχείων, κά., οι Keeshin et al. (2010) κατορθώνουν να πετύχουν απόδοση της κατηγοριοποίησης 60-65% αναλόγως με την τεχνική που υλοποιείται κάθε φορά. Παρόμοια εργασία επιχειρούν και οι Holgrem and Shyu (2013), οι οποίοι χρησιμοποιούν τεχνικές μηχανικής μάθησης σε διάνυσμα χαρακτηριστικών που έχουν προέλθει από τις μετρήσεις λέξεων, σε αναρτήσεις χρηστών του Facebook. Οι Burger et al. (2011) μελετούν το φύλο του χρήστη του Twitter με βάση τις αναρτήσεις του. Συνδυάζοντας το το περιεχόμενο του tweet με το όνομα του χρήστη και όποια άλλη πληροφορία σχετίζεται με αυτόν, κατορθώνουν να φτάσουν σε αυτόματη απόδοση του φύλου του χρήστη το ίδιο ακριβή όσο και η απόδοση του φύλου του χρήστη από ανθρώπους-αξιολογητές. Οι Miller et al. (2012) σε ένα σύνολο δεδομένων από το Twitter κάνουν πρόβλεψη του φύλου του συγγραφέα χρησιμοποιώντας Stream Algorithms λαμβάνοντας υπόψιν τα πιο σημαντικά, με υψηλο βαθμό πληροφοριακότητας, n-gram χαρακτήρων χαρακτηριστικά. Τέλος, ιδιαίτερα εκτενής και πολύπλευρη είναι η πλέον πρόσφατη εργασία των Bamman et al. (2014), που επιχειρούν την αναγνώριση του φύλου του χρήστη του Twitter και της γλωσσικής ποικιλότητας που αναδεικνύεται από τα δεδομένα. Στην μελέτη αυτή ομαδοποιούνται οι συγγραφείς σε συστάδες (clusters), αναλύονται τα αποτελέσματα πρόβλεψης και συγκεντρώνονται χαρακτηριστικά λεξιλογικών συχνοτήτων σε ένα ευρύ φάσμα στυλιστικών περιγραφέων που υποδεικνύουν έμφυλες γλωσσικές προτιμήσεις που αποδίδουν στοιχεία συμμετοχής ή πληροφορίας. Κλείνοντας την ενότητα όπου παρουσιάστηκαν ενδεικτικές μελέτες στην αυτόματη αναγνώριση φύλου του συγγραφέα, η σύγκριση ανάμεσα στα κοινωνιογλωσσικά και τα υπολογιστικά ευρήματα είναι αναπόφευκτη. Οι περισσότερες υπολογιστικές εργασίες ασχολούνται κυρίως με τα χαρακτηριστικά της έμφυλης διαφοροποίησης που εντοπίζονται σε επίπεδο χαρακτήρων, λέξεων και μερών του λόγου. Δηλαδή το επίπεδο ανάλυσης την γλώσσας στο οποίο μπορούν να φτάσουν είναι το μορφολογικό, λεξιλογικό και συντακτικό. Αντίθετα, η κοινωνιογλωσσική μελέτη αναδεικνύει, πέρα από μορφοσυντακτικά χαρακτηριστικά και έμφυλες λεξιλογικές επιλογές, στοιχεία τα οποία εντοπίζονται κατά την ανάλυση πιο βαθιών επιπέδων της γλώσσας, σε σημασιολογικό-πραγματολογικό 39
επίπεδο, αλλά και στο επίπεδο της ανάλυσης λόγου. Οι μελέτες των ποιοτικών χαρακτηριστικών επιτρέπουν την ανάδειξη σύνθετων και πιο ολοκληρωμένων χαρακτηριστικών έμφυλης διαφοροποίησης, τα οποία μπορούν να ερμηνευτούν με βάση την κοινωνιολογική επιστήμη, ενώ τα αποτελέσματα των μελετών ποσοτικών χαρακτηριστικών συχνά δεν μπορούν από μόνα τους να ερμηνευτούν, αλλά χρειάζεται ο μεταξύ τους συνδυασμός και η γνώση του εξωγλωσσικού πλαισίου (ενδεικτικά, η γνώση της επικοινωνιακής περίστασης). Από την άλλη πλευρά, τα συμπεράσματα των υπολογιστικών εργασιών προέρχονται από έναν μεγαλύτερο όγκο δεδομένων, σε αντίθεση με τις ποιοτικές μελέτες, οι οποίες πραγματοποιούνται σε περιορισμένο μέγεθος δεδομένων, πράγμα το οποίο εμποδίζει τη γενίκευση των συμπερασμάτων που προκύπτουν. Γεγονός παραμένει, όπως θα αναλύσουμε διεξοδικά στην ενότητα 5.2, ότι κάποια ευρήματα υπολογιστικών μελετών επιβεβαιώνονται από τα συμπεράσματα κοινωνιογλωσσικών μελετών (π.χ. η χρήση ερωτηματικών προτάσεων αντί καταφάσεων από πλευράς γυναικών). Ύστερα από την παρουσίαση ενδεικτικών εργασιών στην αναγνώριση του φύλου ως βασικού διαφοροποιητικού χαρακτηριστικού σε κείμενο, επιχειρείται στην επόμενη ενότητα η αντίστοιχη ανασκόπηση εργασιών που μελετούν την αυτόματη εκτίμηση της ηλικίας. 2.3.2. Αυτόματη εκτίμηση ηλικίας συγγραφέα Οι μελέτες που ασχολούνται με την αυτόματη εκτίμηση της ηλικίας του συγγραφέα είναι σχετικά πιο περιορισμένες σε αριθμό απ' ό,τι αυτές που διερευνούν το φύλο ή την ηλικία μαζί με άλλες μεταβλητές. Οι Burger and Henderson (2006) εξετάζουν την εξέλιξη της μορφής των αναρτήσεων σε web blog στο χρόνο και στοχεύουν στην πρόβλεψη της ηλικίας του συγγραφέα, που βασίζεται στην ημερομηνία γέννησής του. Οι συγγραφείς παρατήρησαν ότι το μέγεθος των αρχείων (συνολικός αριθμός λέξεων) είναι διακριτικό στοιχείο και υπολόγισαν το ποσοστό της εμφάνισης των σημείων στίξης, των κεφαλαίων γραμμάτων και των κενών. Οι Tam and Martell (2009) υλοποίησαν πειράματα κατηγοριοποίησης κειμένου ανάλογα με την ηλικία, χρησιμοποιώντας Bayesian και SVM κατηγοριοποιητές. Εξήγαν n-gram χαρακτήρων και μετα-δεδομένα λέξεων ως 40
χαρακτηριστικά, προκειμένου να κατηγοριοποιήσουν το «NPS Chat Corpus» 5 σε πέντε ηλικιακές ομάδες. Άλλες εργασίες στην πρόβλεψη της ηλικίας (Rosenthal and McKeown, 2011 Nguyen et al., 2011) απέδειξαν ότι το περιεχόμενο και τα στυλιστικά χαρακτηριστικά είναι ιδιαίτερα σημαντικά, και μάλιστα, όταν προστίθεται σε αυτά το στοιχείο της δραστηριότητας του συγγραφέα όταν είναι ενεργός (online activity), η ακρίβεια της κατηγοριοποίησης ανεβαίνει περίπου στο 80%. Οι Nguyen et al. (2013), στη συνέχεια, έκαναν μια μελέτη γύρω από τη χρήση του γλωσσικού συστήματος ανάμεσα στις διαφορετικές ηλικιακές κατηγορίες χρηστών του Twitter. Η ανάλυσή τους ανέδειξε τις διαφορές στο στυλ, τις αναφορές, τη συζήτηση και τις κοινοποιήσεις, στοιχεία που εξαρτώνται όχι μόνο από την εκτίμηση της ηλικιακής κατηγορίας, αλλά επίσης από το στάδιο ζωής και την ακριβή ηλικία του συγγραφέα. Όπως προαναφέραμε, είναι λίγες οι μελέτες που αναζητούν με αυτόματο τρόπο την ηλικία του συγγραφέα ως μοναδικό κριτήριο γλωσσικής διαφοροποίησης. Οι περισσότερες εργασίες ανιχνεύουν την ηλικία σαν μία ακόμη μεταβλητή ανάμεσα σε άλλες, όπως το φύλο, στοιχεία της προσωπικότητας, το είδος του κειμένου, κλπ.. Κάποιες από αυτές τις μελέτες παρουσιάζονται στην επόμενη ενότητα. 2.3.3. Αυτόματη αναγνώριση του φύλου και της ηλικίας του συγγραφέα Η αναζήτηση περισσότερων από μία δημογραφικών πληροφοριών για τον συγγραφέα ενός κειμένου αποτέλεσε σημαντικό ερευνητικό πεδίο με έντονη δραστηριότητα, μεγάλο αριθμό προσεγγίσεων και σημαντικά ευρήματα. Οι Schler et al. (2006) δημιούργησαν το «Blog Authorship Corpus», ένα σώμα κειμένων επισημειωμένο με το φύλο, την ηλικία του, και σε κάποιες περιπτώσεις και επιπρόσθετα στοιχεία της ταυτότητας κάθε blogger. Χρησιμοποίησαν στυλιστικά και βασισμένα στο περιεχόμενο χαρακτηριστικά, με στόχο να εντοπίσουν το φύλο και την ηλικία του συγγραφέα. Παρατήρησαν ότι συγκεκριμένες μορφές και unigram χρησιμοποιούνται συχνότερα από νεαρούς blogger, και ότι το στυλ γραφής στα blog διαφέρει σημαντικά ανάμεσα στις ηλικιακές κατηγορίες ανάλογα με την κατηγοριοποίηση σε 10 s, 20 s, 30 s. Οι Argamon et al. (2007) χρησιμοποίησαν το ίδιο σώμα κειμένων, με σκοπό να εμβαθύνουν στην αναγνώριση του φύλου και της ηλικίας σε κείμενο. Χρησιμοποίησαν στυλιστικά και 5 NPS Chat Corpus: http://faculty.nps.edu/cmartell/npschat.htm 41
βασισμένα στο περιεχόμενο χαρακτηριστικά, αναδεικνύοντας έμφυλες και ηλικιακές λεξιλογικές προτιμήσεις, προκειμένου να αποδείξουν τη γλωσσική ποικιλότητα ανάμεσα σε διαφορετικά φύλα και ηλικίες. Συσχετίζοντας μάλιστα τα ευρήματα για το φύλο και την ηλικία, τα οποία βρίσκονται αρκετά κοντά (316 στατιστικά σημαντικές κοινές λέξεις, από τις 1000 λέξεις με πληροφοριακό βάρος για το φύλο και τις 1000 για την ηλικία), υποθέτουν ότι υποβόσκουν βαθύτερες διαφοροποιήσεις στη γλωσσική χρήση κι επικοινωνία (εσωστρεφή κι εξωστρεφή ανάμεσα στις εξεταζόμενες κατηγορίες. Οι Goswami et al. (2009) πραγματοποίησαν μια στυλομετρική ανάλυση (stylometric analysis) ως προς το φύλο και την ηλικία χρησιμοποιώντας ως χαρακτηριστικά μορφές εκτός λεξικού και το μήκος των προτάσεων. Η αργκό, τα σύμβολα «φατσούλες» (smileys), οι λέξεις εκτός λεξικού, οι συντομεύσεις των ηλεκτρονικών συνομιλιών από τη μία πλευρά, και το μήκος των προτάσεων από την άλλη, αποδεικνύονται ιδιαίτερα διαφοροποιητικά ανάμεσα στις διαφορετικές ηλικίες και φύλα. Σε επόμενη μελέτη, οι Peersman et al. (2011) έκαναν έμφυλη και ηλικιακή κατηγοριοποίηση σε μικρά κείμενα, χρησιμοποιώντας χαρακτηριστικά βασισμένα σε χαρακτήρες και λέξεις που συνηθίζονται στις ηλεκτρονικές συνομιλίες (chat) και πέτυχαν ποσοστό ακρίβειας μεγαλύτερο του 88%. Το ζήτημα της αναγνώρισης δημογραφικής πληροφορίας, και γενικότερα του προφίλ του συγγραφέα, αποτέλεσε αντικείμενο του PAN 2013 6, όπου παρουσιάστηκαν εργασίες που χρησιμοποίησαν διαφορετικές ομάδες χαρακτηριστικών τα οποία εν τέλει ομαδοποιήθηκαν στις εξής κατηγορίες: στυλιστικά, περιεχομένου, n-gram, IR, συνεκφορές. Ανάμεσα σε άλλους, οι Flekova and Gurevych (2013) εστίασαν στην αναζήτηση φύλου και ηλικίας χρησιμοποιώντας χαρακτηριστικά επιφανειακά (μορφολογικό-λεξιλογικό επίπεδο ανάλυσης της γλώσσας), συντακτικά, σημείων στίξης, αναγνωσιμότητας (readability), σημασιολογικά, συμφραζομένων, λεξιλογικά και τερματικών όρων. Παρατηρούν ότι το έμφυλο και το ηλικιακό προφίλ δεν είναι ανεξάρτητα ζητήματα, αλλά προσδιορίζονται από ίδια χαρακτηριστικά. Οι Rangel and Rosso (2013) χρησιμοποίησαν το σύνολο δεδομένων «PAN-AP-13» προκειμένου να διεξάγουν πειράματα κατηγοριοποίησης ανάλογα με το φύλο και την ηλικία, με χαρακτηριστικά που έχουν προκύψει από γνωστικά στοιχεία νευρολογικών μελετών. Η προσέγγιση αυτή αποδείχτηκε πιο αποδοτική στην πρόβλεψη της ηλικίας παρά του φύλου αναδεικνύοντας τις ηλικιακές γλωσσικές διαφοροποιήσεις σε σύνολο δεδομένων της Αγγλικής και της Ισπανικής γλώσσας. 6 PAN 2013: http://www.uni-weimar.de/medien/webis/events/pan-13/pan13-web/index.html 42
Οι Schwartz et al. (2013) προχώρησαν σε μια ιδιαίτερα ολοκληρωμένη μελέτη ως προς το προφίλ της προσωπικότητας, το φύλο και την ηλικία χρηστών του Facebook. Καθιερωμένες τεχνικές υλοποιήθηκαν, και προτάθηκε μια ιδιαίτερη μέθοδος για τη γλωσσολογική ανάλυση των δεδομένων και την αξιολόγησή τους, με αρκετά πειστικά αποτελέσματα και σημαντική συνεισφορά σε μελλοντικές διεπιστημονικές έρευνες, προσφέροντας τροφή για νέες αναζητήσεις, υποθέσεις κι ευρήματα. H αναγνώριση του δημογραφικού προφίλ του συγγραφέα έχει γίνει επίσης αντικείμενο έρευνας πολύγλωσσων προσπαθειών, με τους Amasyali and Diri (2006) να κάνουν έμφυλη και ηλικιακή κατηγοριοποίηση κειμένου σε τουρκικά κείμενα και τους Verhoeven and Daelemans (2014) να κάνουν αναζήτηση διαφόρων μεταβλητών, εκ των οποίων το φύλο και η ηλικία σε ένα ολλανδικό σώμα κειμένων. Έχοντας ολοκληρώσει τη βιβλιογραφική ανασκόπηση βασικών εργασιών στα εμπλεκόμενα ερευνητικά πεδία της παρούσας μελέτης, περιγράφεται στην επόμενη ενότητα η μεθοδολογία που διέπει την διδακτορική διατριβή, βάσει της οποίας πραγματοποιήθηκαν όλες οι επιμέρους εργασίες, καθώς και τα εργαλεία και δεδομένα που χρησιμοποιήθηκαν. 43
Κεφάλαιο 3. Μεθοδολογία της έρευνας Στην ενότητα αυτή περιγράφεται η μεθοδολογία που ακολουθήθηκε για την πραγματοποίηση της παρούσας έρευνας. Στην υποενότητα 3.1 περιγράφονται τα στάδια της έρευνας και η λογική με την οποία διεξήχθη, ενώ στην υποενότητα 3.2 παρουσιάζονται συγκεντρωτικά τα εργαλεία, τα υπολογιστικά συστήματα και τα σύνολα δεδομένων που χρησιμοποιήθηκαν για την παρούσα έρευνα. 3.1. Μεθοδολογία Η παρούσα έρευνα διατύπωσε με το ξεκίνημά της ένα βασικό ερώτημα που κλήθηκε να το απαντήσει η ερευνήτρια: Μπορούν να διαπιστωθούν διαφορές στη γλώσσα που χρησιμοποιούν οι χρήστες των μέσων κοινωνικής δικτύωσης, οι οποίες να συνδέονται με το φύλο και την ηλικία τους; Και αν όντως υπάρχουν, πώς μπορούμε να τις ανιχνεύσουμε σε ένα μεγάλο σώμα κειμένων γρήγορα και με ακρίβεια; Σε αυτό το ερώτημα κλήθηκε να απαντήσει, να διατυπώσει υποθέσεις και να ανακαλύψει καινοτόμα γνώση. Το αρχικό βήμα μετά την διατύπωση του ερωτήματος/προβληματικής της έρευνας ήταν η επιλογή και η οριοθέτηση του ερευνητικού πεδίου στο οποίο εντάσσεται η παρούσα έρευνα. Το αντικείμενο της γλωσσολογικής ανάλυσης υπό το πρίσμα των κοινωνικών παραγόντων που προκαλούν διαφοροποιήσεις, εν προκειμένω το φύλο και την ηλικία, είναι αυτό της Κοινωνιογλωσσολογίας, που επιλέχθηκε ως το άμεσα εμπλεκόμενο πεδίο. Επιπλέον, από τη στιγμή που στην προβληματική τίθεται το ζήτημα του μεγάλου όγκου δεδομένων και της επεξεργασίας τους, το πεδίο της υπολογιστικής επεξεργασίας της γλώσσας και της εξόρυξης κειμένου θα αποτελέσει εμπλεκόμενο πεδίο. Η εμπλοκή περισσότερων του ενός πεδίων συνιστά την παρούσα μελέτη διεπιστημονική. Το επόμενο βήμα της έρευνας αποτέλεσε η βιβλιογραφική έρευνα και αναζήτηση εργασιών. Διερευνήθηκαν οι βασικές έννοιες και θεωρίες στα εμπλεκόμενα πεδία, καταγράφηκαν και αρχειοθετήθηκαν εκείνες που σχετίζονται 44
με την παρούσα μελέτη, αποσαφηνίστηκαν οι κύριες έννοιες, οριοθετήθηκε εκ νέου το ερώτημα της έρευνας και η μεθοδολογία της. Με βάση τη γνώση που προέκυψε από τη βιβλιογραφία, επανεξετάστηκε το πρόβλημα και σχεδιάστηκε πλέον ο τρόπος διεξαγωγής του κύριου και πειραματικού μέρους της έρευνας. Καθορίστηκαν τα εργαλεία που θα χρησιμοποιούνταν και πραγματοποιήθηκε τόσο η επιλογή υπαρχόντων συνόλων δεδομένων όσο και η δημιουργία νέων, αφού φυσικά είχε οριστεί εκ των προτέρων το κειμενικό είδος που θα αποτελούσε αντικείμενο μελέτης. Στη συνέχεια λήφθηκε η μεθοδολογική απόφαση να μελετηθούν αρχικά χωριστά οι δύο μεταβλητές, το φύλο και η ηλικία, πριν γίνει στο τελικό στάδιο της έρευνας ο συσχετισμός τους. Για την κάθε μεταβλητή συγκεντρώθηκαν, με βάση τα αποτελέσματα της βιβλιογραφικής έρευνας, τα σημαντικότερα ευρήματα τόσο σε θεωρητικό όσο και υπολογιστικό επίπεδο και στη συνέχεια έγινε προσπάθεια να εξεταστεί η ύπαρξη των θεωρητικών ευρημάτων με αυτόματο τρόπο μέσα στο σώμα κειμένων, αφενός, και αφετέρου της νέας γνώσης που μπορούσαν να προσθέσουν στην έως σήμερα εξέλιξη της επιστήμης ορισμένα χαρακτηριστικά προερχόμενα από αυτόματη επεξεργασία. Ακολούθησε η πειραματική διαδικασία, που αφορούσε εργασίες όπως ποσοτικοποίηση ποιοτικών μεταβλητών, στατιστική ανάλυση και ποικίλες τεχνικές αυτόματης επεξεργασίας και κατηγοριοποίησης κειμένων, με τη χρήση διαφόρων μοντέλων, μεθόδων και αλγορίθμων, εργασίες που περιγράφονται αναλυτικά σε επόμενες ενότητες. Τα πειραματικά αποτελέσματα συγκεντρώθηκαν και αξιολογήθηκαν, και οδήγησαν σε κάποια πρώτα συμπεράσματα. Αυτά τα συμπεράσματα ερμηνεύονται, αναλύονται και συγκρίνονται με αντίστοιχα αποτελέσματα παρόμοιων μελετών, όπου υπάρχει αυτή η δυνατότητα. Τέλος, η έρευνα καταλήγει σε μια συνολική διαπίστωση του κατά πόσο απαντήθηκε το βασικό ερώτημα που είχε διατυπωθεί, αν οι βασικές υποθέσεις που είχε κάνει επαληθεύτηκαν, και αν παρήγαγε νέα και πρωτότυπη γνώση. Στη συνέχεια παρουσιάζονται συγκεντρωτικά οι συλλογές δεδομένων κειμένου, καθώς και τα βασικά εργαλεία που χρησιμοποιήθηκαν κατά τη διάρκεια της μελέτης αυτής. 45
3.2. Συλλογή δεδομένων και εργαλεία Για τη διεξαγωγή της εργασίας αυτής χρησιμοποιήθηκαν ένα σύνολο σωμάτων κειμένων, με δεδομένα που έχουν αντληθεί από τα μέσα κοινωνικής δικτύωσης. Οι τέσσερις αυτές συλλογές παρουσιάζονται παρακάτω: «Blog author gender classification data set» (Mukherjee and Liu, 2010) Το σώμα κειμένων αποτελεί μια συλλογή 3,232 αναρτήσεων στην αγγλική γλώσσα σε ιστοσελίδες που φιλοξενούν blog και σε μηχανές αναζήτησης blog, στην αγγλική γλώσσα. Για κάθε ανάρτηση υπάρχει ετικέτα με το φύλο του συγγραφέα, αξιοποιώντας την διαθέσιμη πληροφορία, όπως π.χ. την πληροφορία του προφίλ του συγγραφέα, τις φωτογραφίες του προφίλ ή τα avatar του/της. Οι αναρτήσεις είναι περίπου ισοκατανεμημένες, οι μισές γυναικείες και οι υπόλοιπες ανδρικές. Αποτελείται από 1,390 αναρτήσεις από γυναίκες συγγραφείς και 1,546 από άνδρες συγγραφείς, και περιέχει 1,319,917 λέξεις και 6,085,202 χαρακτήρες. Οι αναρτήσεις μπορεί να περιέχουν μία και μοναδική πρόταση, αν και στις περισσότερες περιπτώσεις περιέχουν ένα μεγαλύτερο κείμενο, το οποίο καλύπτει εκτενώς μια θεματική περιοχή. Το corpus αυτό καλύπτει ένα ευρύ θεματικό και στυλιστικό εύρος, και χρησιμεύει για να εξαχθούν πληροφορίες που σχετίζονται με το φύλο ανάλογα με το θέμα και το στυλ των αναρτήσεων. «Users web comments data set» (Simaki et al., 2015a) Το σύνολο δεδομένων, το οποίο δημιουργήθηκε στα πλαίσια της παρούσας έρευνας, περιέχει σχόλια χρηστών στο διαδίκτυο σε διάφορες ιστοσελίδες και φόρουμ ανταλλαγής απόψεων 7 στην αγγλική γλώσσα. Αποτελείται από 379 σχόλια από διάφορες πηγές που καλύπτουν μεγάλο θεματικό εύρος, τόσο από γυναικείες (π.χ. ιστοσελίδες μόδας) όσο και αντρικές ιστοσελίδες και φόρουμ (π.χ. σελίδες για αυτοκίνητα), αλλά και από πιο «ουδέτερες» ιστοσελίδες, κυρίως ενημερωτικού χαρακτήρα, ιστοσελίδες για την υγεία κλπ.. Το μέγεθος αυτού του συνόλου είναι 326,736 λέξεις, 1,643,547 χαρακτήρες. Το corpus είναι χωρισμένο περίπου ισομερώς, με το 42% των σχολίων να έχουν 7 Πηγές δεδομένων: http://uk.askmen.com/, http://carforum.net/, http://backwoodshome.com/, http://www.makeuptalk.com/, http://www.thefootballforum.net/, http://forums.menshealth.com/, http://www.theguardian.com/ 46
παραχθεί από γυναίκες συγγραφείς και το 58% από άνδρες, πληροφορία με την οποία έχει επισημειωθεί κάθε σχόλιο. «Blog authorship corpus» (Schler et al., 2006) Το συγκεκριμένο σύνολο δεδομένων αποτελεί μια συλλογή αναρτήσεων στα προσωπικά τους blog από 19,320 blogger στην αγγλική γλώσσα. Αυτές οι αναρτήσεις συγκεντρώθηκαν από την ιστοσελίδα blogger.com τον Αύγουστο του 2004. Το μέγεθος του corpus είναι 681,288 αναρτήσεις και πάνω από 140 εκ. λέξεις, που ανταποκρίνονται περίπου σε 35 αναρτήσεις και 7,250 λέξεις ανά συγγραφέα. Οι συγγραφείς είναι χωρισμένοι σε τρεις ηλικιακές ομάδες: αυτούς που βρίσκονται στη δεκαετία των δέκα (10 s), των είκοσι (20 s) και των τριάντα (30 s) ετών. H πρώτη ηλικιακή ομάδα (10 s) περιέχει αναρτήσεις σε 8,240 blog, οι συγγραφείς των οποίων είναι από 13 έως 17 ετών. Η δεύτερη ηλικιακή ομάδα (20 s) περιέχει αναρτήσεις σε 8,086 blog, των οποίων οι συγγραφείς είναι από 23 έως 27 ετών. Τέλος, η τρίτη ηλιακή ομάδα (30 s) περιέχει αναρτήσεις από 2,994 blog, των οποίων οι συγγραφείς είναι από 33 έως 47 ετών. Κάθε blog είναι δομημένο σε ξεχωριστό αρχείο, περιέχει τις αναρτήσεις του συγγραφέα και είναι επισημειωμένο με τον αριθμό αναγνώρισης του blogger, το φύλο του/της, την ακριβή του ηλικία και, σε κάποιες περιπτώσεις, όποια άλλη διαθέσιμη ανώνυμη προσωπική πληροφορία ήταν δυνατό να εξαχθεί. «Twitter age corpus» Το σύνολο δεδομένων, που δημιουργήθηκε για τους σκοπούς της παρούσας έρευνας, είναι μια συλλογή 19,377 αναρτήσεων χρηστών στο Twitter στις αρχές του 2015 στην αγγλική γλώσσα. Το μέγεθός του είναι 247,925 λέξεις, 1,486,681 χαρακτήρες. Οι αναρτήσεις είναι χωρισμένες σε έξι κατηγορίες που αντιστοιχούν στην ηλικιακή ομάδα στην οποία εντάσσεται ο συγγραφέας. Οι κατηγορίες έχουν ως εξής: a. 14 19 ετών, b. 20 24 ετών, c. 25 34 ετών, d. 35 44 ετών, e. 45 59 ετών, f. άνω των 60 ετών 47
Οι αναρτήσεις σε αυτή τη συλλογή έχουν την ιδιομορφία του περιορισμού των έως 140 χαρακτήρων ανά ανάρτηση που θέτει το συγκεκριμένο μέσο κοινωνικής δικτύωσης. Στη συνέχεια παρουσιάζονται συνοπτικά τα εργαλεία που χρησιμοποιήθηκαν κατά τη διάρκεια της έρευνας για την υλοποίηση των πειραματικών εργασιών: t -statistic test (Welch, 1947) O στατιστικός έλεγχος γίνεται στην προσπάθεια να επαληθευτεί η στατιστική υπόθεση σύμφωνα με την οποία (στην περίπτωση που αφορά την παρούσα έρευνα) δύο σύνολα δεδομένων είναι διαφορετικά στο επίπεδο των προτεινόμενων μεταβλητών. Ο έλεγχος υποθέσεων είναι ένα σημαντικό εργαλείο, προκειμένου να επαληθευτεί η προτεινόμενη θεωρία, και προσφέρει χρήσιμα συμπεράσματα που προέρχονται από την πληροφορία που μας δίνει το δείγμα. Ο t στατιστικός έλεγχος ανεξάρτητων δειγμάτων (independent-samples t-test) χρησιμοποιείται προκειμένου να εξεταστούν δύο ανεξάρτητα δείγματα ως προς τη στατιστική σημαντικότητα της διαφοράς τους. O έλεγχος αυτός συγκρίνει τις μέσες τιμές ανάμεσα σε δύο μη σχετιζόμενες ομάδες της ίδιας συνεχούς εξαρτημένης μεταβλητής. H μηδενική υπόθεση ( H 0 ) σε αυτή την περίπτωση υποθέτει ότι δεδομένα του πρώτου συνόλου X δεδομένων,, και δεδομένα του δεύτερου συνόλου δεδομένων,, είναι ανεξάρτητα τυχαία δείγματα a προερχόμενα από κανονικές κατανομές με ίσες μέσες τιμές και ίσες, αλλά άγνωστες, διακυμάνσεις. Από την άλλη πλευρά η εναλλακτική υπόθεση ( H 1 ) υποθέτει οτι οι μέσες τιμές ανάμεσα στα δύο δείγματα δεν είναι ίσες. Για τον υπολογισμό της τιμής του στατιστικού δείκτη και των βαθμών ελευθερίας που καθορίζουν τις κρίσιμες περιοχές στον πίνακα, χρησιμοποιείται η εξής μαθηματική σχέση:, όπου το και το είναι οι μέσες τιμές (mean) του πρώτου και του δεύτερου δείγματος αντίστοιχα, τα και είναι οι τυπικές αποκλίσεις τους n (STD) και τα και είναι τα μεγέθη των δύο δειγμάτων των συνόλων δεδομένων. Η κρίσιμη τιμή (critical a n b t 2 2 a b value) του t-test είναι 1.96, ορίζει πότε απορρίπτεται η μηδενική υπόθεση και, αν η απόλυτη τιμή του ελέγχου είναι X a s n a X b s n b s a X b s b X a X b μεγαλύτερη της κρίσιμης τιμής (>1.96), τότε υπάρχει στατιστική διαφορά (statistical significance). Το t -value υπολογίζεται με το συνήθως χρησιμοποιούμενο a 5% επίπεδο σημαντικότητας (π.χ. 95% διάστημα 48
εμπιστοσύνης). Υπολογίζεται επίσης το αντίστοιχο p -value, η πιθανότητα δηλαδή, υπό τη μηδενική υπόθεση, να t p 0.05 παρατηρηθεί μια τιμή ως ακραία ή πιο ακραία του στατιστικού ελέγχου. Για τις περιπτώσεις όπου το, η μηδενική υπόθεση απορρίπτεται και το υπολογιζόμενο χαρακτηριστικό είναι στατιστικά σημαντικό και διαφοροποιεί το ένα δείγμα από το άλλο. Natural Language Toolkit (NLTK, Bird et al., 2009) Το NLTK είναι ένα σύστημα βιβλιοθηκών και προγραμμάτων για τη συμβολική και στατιστική Επεξεργασία Φυσικής Γλώσσας, χρησιμοποιώντας τη γλώσσα προγραμματισμού Python, ελεύθερο και διαθέσιμο για όλους. Περιέχει γραφικές απεικονίσεις και δείγματα δεδομένων, και είναι ιδιαίτερα χρήσιμο εργαλείο υποστήριξης ερευνητικής δραστηριότητας στα πεδία της πειραματικής γλωσσολογίας και άλλων γνωστικών επιστημών (cognitive sciences), αλλά και σε αντικείμενα τεχνητής νοημοσύνης, ανάκτησης πληροφορίας και μηχανικής μάθησης. Ανάμεσα στις εργασίες που μπορεί να φέρει εις πέρας είναι: λεξική ανάλυση, tokenization λέξεων και κειμένου, αναγνώριση και εύρεση n-gram και συνεκφορών (collocations), μορφοσυντακτική ανάλυση (POS tagging), δενδρική αναπαράσταση προτάσεων, αναγνώριση ονοματικών οντοτήτων (Named-entity Recognition), κά. Waikato Environment for Knowledge Analysis (WEKA, Hall et al., 2009) Το WEKA είναι ένα σύστημα εξόρυξης δεδομένων και μηχανικής μάθησης υλοποιημένο στη γλώσσα προγραμματισμού Java, που ανέπτυξε το Πανεπιστήμιο του Waikato, Νέα Ζηλανδία. Είναι ελεύθερο και διαθέσιμο για όλους υπό το GNU General Public License. Το σύστημα αυτό διαθέτει μια συλλογή από εργαλεία απεικόνισης και αλγόριθμους για ανάλυση δεδομένων και ανάπτυξη μοντέλων πρόβλεψης, συνοδευόμενα με γραφικές διεπαφές για τους χρήστες. Οι αλγόριθμοι μηχανικής μάθησης που διαθέτει μπορούν να χρησιμοποιηθούν για μια πληθώρα εργασιών εξόρυξης πληροφορίας, που είτε εφαρμόζονται απευθείας σε ένα σύνολο δεδομένων είτε καλούνται με κώδικα σε Java. Ανάμεσα στις εργασίες που μπορεί κάποιος να κάνει είναι η προεπεξεργασία των δεδομένων (preprocessing), κατηγοριοποίηση (classification), παλινδρόμηση (regression), συσταδοποίηση (clustering), εξαγωγή κανόνων συσχέτισης (association rules) και γραφική απεικόνιση των αποτελεσμάτων (visualization). Στην ενότητα 3 παρουσιάστηκαν συνοπτικά τόσο η μεθοδολογία της έρευνας όσο και τα σύνολα δεδομένων και εργαλεία που χρησιμοποιήθηκαν κατά τη διάρκεια της μελέτης. Προχωρώντας, στην ενότητα 4, γίνεται αναφορά 49
στα διαφορετικά είδη κειμένου, τον Παγκόσμιο Ιστό, τα μέσα κοινωνικής δικτύωσης, τους ανθρώπους που τα χρησιμοποιούν, και το νέο κειμενικό είδος πάνω σε δεδομένα του οποίου διεξάγεται η παρούσα. 50
Κεφάλαιο 4. Μέσα κοινωνικής δικτύωσης, συγγραφείς και κειμενικά είδη Στην παρούσα ενότητα γίνεται μια περιγραφή του είδους κειμένων που αντλήσαμε κι επεξεργαστήκαμε κατά τη διάρκεια της έρευνάς μας. Περιγράφουμε επίσης την μελέτη που πραγματοποιήθηκε σε δείγματα άλλων κειμενικών ειδών και των μεταξύ τους διαφοροποιήσεων σε μια προσπάθεια να οριστεί ο τύπος του καθενός. Είναι σημαντική η οριοθέτηση των κειμενικών ειδών, στοιχείο το οποίο μπορεί σε άλλες περιπτώσεις να αναδεικνύει το κοινωνικό προφίλ του συγγραφέα ενώ σε άλλες να το αλλοιώνει, καθιστώντας μη ανιχνεύσιμα τα κοινωνικά χαρακτηριστικά του συγγραφέα. Επίσης γίνεται μια περιγραφή της υφιστάμενης δραστηριότητας στον Παγκόσμιο Ιστό και πιο συγκεκριμένα στα μέσα κοινωνικής δικτύωσης και τους χρήστες τους. Στην ενότητα που ακολουθεί παρουσιάζεται το είδος κειμένου (social media text) με το οποίο συνδέεται η παρούσα μελέτη, το περιβάλλον στο οποίο εμφανίζεται, και τα χαρακτηριστικά που το οριοθετούν. 4.1. Social media text Η ταχεία εξέλιξη της τεχνολογίας της πληροφορίας έχει ως αποτέλεσμα την ευρεία ανάπτυξη των κοινωνικών μέσων στο διαδίκτυο. Η ανάπτυξή τους είναι αξιοσημείωτη και ο αριθμός των ενεργών, καθημερινά, χρηστών είναι ιδιαίτερα μεγάλος. Σε καθημερινή βάση παράγονται εκατομμύρια αναρτήσεις στα μέσα κοινωνικής δικτύωσης, ως αποτέλεσμα της τεράστιας καθημερινής δραστηριότητας των χρηστών στο διαδίκτυο, με αποτέλεσμα έναν μεγάλο όγκο πληροφοριών, ο οποίος χρειάζεται περαιτέρω επεξεργασία και κατηγοριοποίηση. Σε έρευνες γύρω από κοινωνικά μέσα του διαδικτύου που έχουν γίνει στις Ηνωμένες Πολιτείες Αμερικής για το 2014, το Pew Research Center 8 βρίσκει ότι, ανάμεσα στα διάφορα κοινωνικά δίκτυα που χρησιμοποιούνται, το Facebook παραμένει το δημοφιλές δίκτυο. Παρότι ο ρυθμός ανάπτυξής του έχει μικρύνει, η δραστηριοποίηση των 8 Pew Research Center: http://www.pewinternet.org/2015/01/09/social-media-update-2014/ 51
χρηστών του σε αυτό φαίνεται να αυξάνεται. Άλλα μέσα όπως το Twitter, το Instagram, το LinkedIn αναπτύχθηκαν περισσότερο τα προηγούμενα χρόνια σε αριθμό χρηστών, οι οποίοι τώρα συνεχίζουν να είναι ενεργοί στους λογαριασμούς τους. Σύμφωνα με τα αποτελέσματα της παραπάνω έρευνας, το 52% των ενεργών διαδικτυακά ενηλίκων έχουν λογαριασμό και χρησιμοποιούν περισσότερα από ένα μέσα κοινωνικής δικτύωσης, ποσοστό αυξημένο σε σχέση με τις προηγούμενες χρονιές. Επίσης, φαίνεται να αλλάζουν και τα δεδομένα και στερεότυπα που υπήρχαν για τους μεγαλύτερους ανθρώπους και τη σχέση που έχουν με την τεχνολογία και το διαδίκτυο: το 56% των ενήλικων χρηστών των μέσων κοινωνικής δικτύωσης είναι άνθρωποι άνω των 65 ετών, ποσοστό που αντιστοιχεί στο 31% των ανθρώπων της τρίτης ηλικίας συνολικά. Ανάμεσα στα άλλα συμπεράσματα, το 42% των ενεργών διαδικτυακά γυναικών χρησιμοποιεί το Pinterest (όταν το αντίστοιχο ποσοστό στους άνδρες είναι στο 13%), ένα κοινωνικό μέσο που ασχολείται με θέματα μόδας, διακόσμησης και γενικότερα θέματα κυρίως γυναικείου ενδιαφέροντος. Τέλος, περισσότεροι από τους μισούς νέους ηλικίας 18-29 (53%) χρησιμοποιεί το Instagram, μέσο κοινωνικής δικτύωσης όπου αναρτώνται φωτογραφίες, και οι μισοί χρήστες αυτού του μέσου αυτού το χρησιμοποιούν σε καθημερινή βάση. Από αυτά τα στοιχεία φαίνεται ότι η ενασχόληση με τα μέσα κοινωνικής δικτύωσης είναι για πολλούς ανθρώπους ένα αναπόσπαστο κομμάτι της καθημερινής του διαδικτυακής δραστηριότητας. Αποτελεί μέσο επικοινωνίας, έκφρασης και κοινωνικοποίησης για του χρήστες. Επιπλέον, κάθε μέσο δίνει διαφορετικές δυνατότητες στο χρήστη να εκφραστεί: για παράδειγμα, τα blog προσφέρουν στο χρήστη τους τη δυνατότητα να αναρτούν εκτενή κείμενα για όποια θεματική θέλουν και να είναι δημόσια στους επισκέπτες της σελίδας, ενώ το Twitter θέτει τον περιορισμό των 140 χαρακτήρων στις αναρτήσεις του χρήστη. Δεν υπάρχει η ασφάλεια κάποιας γενίκευσης στις αναρτήσει των χρηστών κοινωνικών μέσων, που να ισχύει για όλες τις περιπτώσεις, αλλά υπάρχουν κάποια χαρακτηριστικά που είναι κοινά για όλες τις περιπτώσεις. Οι αναρτήσεις στα μέσα κοινωνικής δικτύωσης αποτελούν δείγμα γραπτού λόγου με έντονα στοιχεία προφορικότητας. Όσο μικρότερο είναι ένα τέτοιο κείμενο τόσο πιο κοντά είναι στον προφορικό λόγο, ενώ όσο εκτενέστερο είναι τόσο πλησιάζει στα πρότυπα του γραπτού. Τα στοιχεία προφορικότητας μπορεί να είναι εμφανή με ποικίλους τρόπους, από τη χρήση ειδικών χαρακτήρων και συμβόλων (emoticons/smileys), προκειμένου να διαφανεί κάποιο συναίσθημα, μέχρι και τη συντακτική δομή του κειμένου, η οποία είναι πιο απροσχεδίαστη. 52
Στη συνέχεια παρουσιάζεται τα υπόλοιπα κειμενικά είδη, σε μια μελέτη που πραγματοποιήσαμε για την αναγνώριση των χαρακτηριστικών της κάθε κειμενικής κατηγορίας. 4.2. Άλλα είδη κειμένου Το είδος ενός κειμένου (genre) οριοθετείται από το σύνολο των χαρακτηριστικών που παρατηρούνται και προσδίδουν στο κείμενο ένα μοναδικό αποτύπωμα. Πρόκειται για μια ετερογενή κατηγορική αρχή που παρέχει στοιχεία για την κατηγοριοποίηση κειμένων σε ξεχωριστές κατηγορίες (Finn and Kushmerick, 2003). Τα ειδολογικά/υφολογικά στοιχεία εντοπίζονται στο επίπεδο της σημασιολογίας, και αντίθετα από τον τύπο του κειμένου που μεταφέρει δομική κυρίως πληροφορία, φέρουν πληροφορίες για το στυλ του κειμένου (Karlgren, 1999). Τα ειδολογικά στοιχεία είναι επίσης χρήσιμα για τον χαρακτηρισμό ενός κειμένου ως υποκειμενικό/αντικειμενικό, θετικό/αρνητικό, για το θέμα που επεξεργάζεται, φορτισμένο με άποψη, ή απλά περιγραφικό των γεγονότων, κλπ. Η αναγνώριση του είδους του κειμένου είναι ένα πεδίο ιδιαίτερα ενεργό ερευνητικά χάριν των προκλήσεων και των αναπάντητων ερωτημάτων που έχουν τεθεί. Αρκετές προσεγγίσεις έχουν προταθεί ως προς την επίλυση του προβλήματος της αυτόματης ανίχνευσης διαφοροποιητικών ειδολογικών χαρακτηριστικών. Σε μια από αυτές τις μελέτες ορίζονται χαρακτηριστικά δομικά, λεξιλογικά, παραγωγικά και βασισμένα σε χαρακτήρες (Kessler et al., 1997). Επόμενες εργασίες χρησιμοποιούν αλγόριθμους μηχανικής μάθησης για την αυτόματη κατηγοριοποίηση κειμένων ανάλογα με το είδος στο οποίο ανήκουν, χρησιμοποιώντας μεθόδους bag-of-words, POS tags στατιστικές μετρικές κι επισημειώνοντας (χειροκίνητα σε κάποιες περιπτώσεις) επιφανειακά γλωσσολογικά χαρακτηριστικά (Finn et al., 2002 Sharoff, 2007 Santini, 2007). Άλλοι ερευνητές προχωρούν σε τεχνικές επιλογής χαρακτηριστικών ώστε να αποδείξουν την αποτελεσματικότητα της αυτόματης εξαγωγής χαρακτηριστικών κατηγοριοποίησης (Lee and Myaeng, 2004), ενώ ιδιαίτερες εργασίες έχουν προταθεί και για τα ελληνικά (Stamatatos et al., 2000). 53
Σε μια προσέγγιση που επιχειρήθηκε στα πλαίσια της παρούσας έρευνας (Simaki et al., 2012), χρησιμοποιήθηκε μια καθιερωμένη κατηγοριοποίηση 9 των κειμενικών ειδών σε τέσσερις βασικούς τύπους: (i) αφηγηματικό (narrative), που περιέχει κείμενα τα οποία που εκθέτουν γεγονότα, καταστάσεις, πρόσωπα, π.χ. μυθιστόρημα, διήγημα, κά., (ii) επεξηγηματικό (expository), κείμενα που εξηγούν κάτι, π.χ. άρθρα εφημερίδων, ταξιδιωτικοί οδηγοί, περιοδικά, κά., (iii) διαδικαστικό (procedural), κείμενα που δίνουν οδηγίες, π.χ. οδηγοί μαγειρικής, εγχειρίδια χρήσης, κά., και (iv) περιγραφικό (descriptive), με κείμενα που καταγράφουν τα χαρακτηριστικά μιας οντότητας ή ενός πράγματος, π.χ. εγκυκλοπαίδειες, λεξικά, γραμματικές, κά. Δεδομένου του είδους του κειμένου, έγινε προσπάθεια να αναγνωριστούν στοιχεία στην δομή και συμφραζόμενα που να υποδηλώνουν τον τύπο του κειμένου. Για να υπάρξει ακριβής ειδολογική αναγνώριση, γλωσσολόγοι εξέτασαν μια σειρά ελληνικών κειμένων, με σκοπό όχι να απαντήσουν μονολεκτικά για το τι είδος χαρακτηρίζουν το κάθε κείμενο, αλλά για να εντοπιστούν χαρακτηριστικά που υποδεικνύουν εν τέλει την ειδολογική ταυτότητα του κειμένου. Συγκεντρώθηκε ένα σύνολο 853 κειμένων και για τα 4 είδη, και μετά τη διεξαγωγή της πειραματικής διαδικασίας από 5 ειδικούς και το συνδυασμό των αποτελεσμάτων, εξάγονται κάποια γενικευτικά ειδολογικά χαρακτηριστικά. Στο πρώτο κειμενικό είδος, το αφηγηματικό, για το οποίο μελετήθηκαν διηγήματα, ως σημαντικό στοιχείο φάνηκε να είναι το μήκος των κειμένων αυτών, η γρήγορη αφήγηση, η παρουσία διαλόγου, η συντακτική συνοχή και οι συχνές αναδρομές. Στο δεύτερο κειμενικό είδος, το επεξηγηματικό, για το οποίο μελετήθηκαν άρθρα εφημερίδας, εμφανίζονται τα χαρακτηριστικά του δημοσιογραφικού λόγου, και δομικά χαρακτηριστικά όπως οι επικεφαλίδες, οι εικόνες και οι πίνακες, η συντακτική συνοχή και οι συχνές ονοματικές οντότητες. Στο τρίτο είδος, το διαδικαστικό, για το οποίο μελετήθηκαν συνταγές μαγειρικής, εντοπίζονται χαρακτηριστικά επαναληψιμότητας της δομής (πρότυπο δομής που ακολουθούν οι διαφορετικοί συγγραφείς), ακολουθίες σύντομων ονοματικών φράσεων, συγκεκριμένες ρηματικές εκφράσεις και προστακτικές εκφράσεις. Τέλος, στο τέταρτο κειμενικό είδος, το περιγραφικό, για το οποίο μελετήθηκαν λεξικά, εμφανίζονται τα χαρακτηριστικά της επαναληψιμότητας στη δομή (δλδ αντίστοιχα πρότυπα), οι μικρές και ελλειπτικές προτάσεις, και η συχνή χρήση συμβόλων και συντομογραφιών. 9 Πηγή προτεινόμενων κειμενικών κατηγοριών: http://www.sil.org/linguistics/glossaryoflinguisticterms/whatisatext.htm 54
Όπως αναφέρθηκε και στην εισαγωγή του κεφαλαίου 4, το είδος του κειμένου μπορεί να αλλοιώσει το προφίλ του συγγραφέα όταν πρόκειται για καθαρά αντικειμενικό, επίσημο, διαδικαστικό στυλ κειμένου, ενώ απεναντίας, εάν δεν ανήκει το κείμενο σε κάποιο από τα είδη που είναι δομικά προκαθορισμένα, και έχει ο συγγραφέας ελευθερία στην έκφραση και τη γραφή, τότε στοιχεία του προφίλ του μπορούν να αναδειχθούν μέσα από το κείμενο αυτό. Στη συνέχεια της εργασίας γίνεται λόγος για τις διαφοροποιήσεις εντός του κειμενικού είδους με το οποίο δουλέψαμε κατά τη διάρκεια της έρευνάς μας, το οποίο όπως προείπαμε προέρχεται από τα μέσα κοινωνικής δικτύωσης. Στην επόμενη ενότητα παρουσιάζεται η μελέτη που πραγματοποιήθηκε για την αναγνώριση του φύλου του συγγραφέα σε κείμενα στα μέσα κοινωνικής δικτύωσης, στην προσπάθεια να αξιοποιηθούν τόσο η κοινωνιογλωσσική έρευνα, όσο και οι υπολογιστικές τεχνικές και μέθοδοι. 55
Κεφάλαιο 5. Αναγνώριση του φύλου του συγγραφέα κειμένων σε μέσα κοινωνικής δικτύωσης 5.1. Εισαγωγικά Στην παρούσα ενότητα περιγράφονται όλες οι εργασίες που πραγματοποιήθηκαν στα πλαίσια της διεξαγωγής της διδακτορικής διατριβής, και αφορούν τη συνεισφορά της γλωσσολογικής πληροφορίας στην αναγνώριση του φύλου του συγγραφέα. Ακολουθώντας διάφορες μεθόδους, γίνεται μια προσπάθεια συγκερασμού της κοινωνιογλωσσολογικής έρευνας και των υπολογιστικών τεχνικών, με σκοπό την αυτοματοποίηση της θεωρητικής γνώσης και την ανακάλυψη νέας πληροφορίας. Όπως περιγράφεται και στην ενότητα 3.1., αντιμετωπίζεται χωριστά το φύλο από την ηλικία, πριν γίνει οποιαδήποτε συσχέτιση. Στην υποενότητα που ακολουθεί παρουσιάζεται η προσπάθεια ποσοτικοποίησης των έμφυλων κοινωνιογλωσσικών χαρακτηριστικών και η ανίχνευσή τους με αυτόματο πλέον τρόπο σε ένα σύνολο δεδομένων. 5.2. Μετατροπή κοινωνιογλωσσικής γνώσης σε ποσοτικά δεδομένα Σε αυτή την ενότητα συγκεντρώνονται όλα τα κοινωνιογλωσσικά ευρήματα που σχετίζονται με το κοινωνικό φύλο και είναι εφικτό να εντοπιστούν στο γραπτό λόγο ως χαρακτηριστικά διαφοροποίησης. Στη συνέχεια εξετάζεται το κατά πόσο αυτά τα ποιοτικά στοιχεία μπορούν να μετατραπούν σε ποσοτικά δεδομένα, ώστε, χρησιμοποιώντας τεχνικές επεξεργασίας κειμένου, να μπορούν να υπολογιστούν σε ένα σώμα κειμένου με αυτόματο τρόπο. Στα αποτελέσματα των μετρήσεων εφαρμόζεται στατιστικός έλεγχος, προκειμένου να ελεγχθεί η σημαντικότητα του κάθε χαρακτηριστικού, κατά πόσο δηλαδή αποτελεί στοιχείο διαφοροποίησης ανάμεσα στο γυναικείο και τον 56
αντρικό λόγο. Τα συμπεράσματα που εξάγονται, αξιολογούνται τέλος, με σκοπό την ανακάλυψη νέας κοινωνιογλωσσικής πληροφορίας ως προς την έμφυλη γλωσσική συμπεριφορά των συγγραφέων στα μέσα κοινωνικής δικτύωσης. 5.2.1. Προετοιμασία δεδομένων Σε αυτή την εργασία (Simaki et al., 2015b) χρησιμοποιήθηκε το σώμα κειμένων «Blog author gender classification dataset» (βλέπε 3.2.), το οποίο χωρίστηκε σε γυναικείο και αντρικό σύνολο δεδομένων. Το γυναικείο σύνολο, που περιέχει από 1,390 αναρτήσεις, αποτελείται από 621,845 λέξεις και 37,225 προτάσεις, ενώ το αντρικό, που περιέχει 1,546 αναρτήσεις, αποτελείται από 696,127 λέξεις και 37,847 προτάσεις. Έστω ότι το corpus είναι C D i και τα αρχεία του (οι αναρτήσεις σε blog) είναι D i, για 1 i I. Στην περίπτωσή μας ισχύει I 1390 1546 2936. Κάθε ανάρτηση έχει την ετικέτα M (male-αντρικό) ή F(female-γυναικείο), ανάλογα με το φύλο του συγγραφέα, δημιουργώντας το υποσύνολο αντρικών δεδομένων CM Dj, και το υποσύνολο γυναικείων δεδομένων C D 1 j J J 1546 και K 1390. D i F k, με, με 1 k K. Στην περίπτωσή μας Στον Πίνακα 1 και την Εικόνα 1 απεικονίζεται η κατανομή των γυναικείων και των αντρικών αναρτήσεων, σύμφωνα με το μέγεθος της κάθε ανάρτησης. Παρατηρείται ότι ένας μεγάλος αριθμός αναρτήσεων ξεπερνά σε μέγεθος τις 100 προτάσεις. Το γράφημα αυτό δείχνει ότι το κειμενικό είδος των αναρτήσεων σε web blog διαφέρει από τα online σχόλια των χρηστών, τα tweet, και τις αναρτήσεις στο Facebook όσον αφορά στο μέγεθος του κειμένου και τον αριθμό των προτάσεων. Μπορεί να διατυπωθεί επομένως η υπόθεση ότι το μέγεθος του κειμένου μπορεί να είναι ένα στοιχείο που ξεχωρίζει τις αναρτήσεις σε blog και διαφοροποιεί αυτά τα κείμενα από τους υπόλοιπους τύπους κειμένων στα μέσα κοινωνικής δικτύωσης 57
Πίνακας 1. Ο αριθμός των γυναικείων και των αντρικών αναρτήσεων αναλόγως του μεγέθους τους. Number of Sentences Number of posts in female corpus Number of posts in male corpus 1 30 55 2 27 54 3 55 79 4 62 98 5 92 94 6 75 88 7 69 78 8 55 65 9 71 69 10 47 61 11 53 63 12 50 52 13 41 38 14 55 47 15 46 47 16 40 41 17 34 41 18 38 28 19 25 35 20 40 29 21-25 92 102 26-34 85 76 35-50 64 72 51-100 62 49 >100 49 55 >200 21 21 >300 12 9. 58
Εικόνα 1. Η κατανομή του γυναικείου και αντρικού συνόλου δεδομένων ανάλογα με το μέγεθος των αναρτήσεων. Η κατανομή του γυναικείου και του αντρικού συνόλου δεδομένων αποδεικνύει το μεγάλο εύρος του μεγέθους των αναρτήσεων, λόγος για τον οποίο ένας διαχωρισμός σε επιμέρους κλάσεις που να βασίζονται στο μήκος των κειμένων κρίνεται απαραίτητη. Όπως αναφέρθηκε παραπάνω, κείμενα διαφορετικού μεγέθους ενδέχεται να φέρουν διαφορετικά χαρακτηριστικά (γλωσσικά και στυλιστικά), ακόμα και όταν ανήκουν στο ίδιο είδος κειμένων. Ιδιαίτερα διαδεδομένες είναι οι μελέτες στο πεδίο της εξόρυξης και κατηγοριοποίησης κειμένου ανάλογα με το μέγεθός του. Σε πρόσφατες εργασίες (Vo and Ock, 2015 Sun, 2012 Chen et al.,2011), οι ερευνητές πραγματοποιούν πειράματα κατηγοριοποίησης σε μικρά κείμενα, όπως τίτλους άρθρων, αποσπάσματα αποτελεσμάτων αναζήτησης (snippet), κριτικές ταινιών/προϊόντων/κά, κλπ..στην παρούσα εργασία χρησιμοποιείται ένα σύνολο δεδομένων που αποτελείται από κείμενα διαφορετικών μεγεθών, τα οποία είναι σχετικά ετερογενή ως προς τα στυλιστικά τους χαρακτηριστικά. Γι αυτό το λόγο δεν θα ήταν δυνατό να γίνουν πειράματα για να εντοπιστούν τα ίδια χαρακτηριστικά σε ένα σώμα δεδομένων που περιέχει από κείμενα μιας πρότασης μέχρι κείμενα που αποτελούνται από περισσότερες από 100 προτάσεις. Μετά λοιπόν την ανάλυση της στατιστικής κατανομής του αριθμού και του μεγέθους των κειμένων, προτάθηκε και υιοθετήθηκε ένας χωρισμός του συνόλου σε τέσσερις κλάσεις: A, B, C, D. Η κλάση Ε περιέχει το σύνολο των δεδομένων του κάθε σώματος κειμένων, και υπολογίζεται εξίσου. 59
Στον Πίνακα 2 παρουσιάζονται οι επιμέρους κατηγορίες και το σύνολο των κειμένων, με τον αριθμό των κειμένων και το μέσο μήκος κειμένου για κάθε κατηγορία αντρικού και γυναικείου σώματος δεδομένων (male/female corpus). Πίνακας 2. Το γυναικείο και το αντρικό σώμα κειμένων χωρισμένο σε κλάσεις και το μέσο μέγεθος της κάθε κλάσης. Female corpus Male corpus Class Number of sentences/post Number of posts/class Average # of sentences/post Class Number of sentences/post Number of posts/class Average # of sentences/post A F 1-9 536 5.57 A M 1-8 611 4.67 B F 10-20 469 14.55 B M 9-24 634 14.75 C F 21-34 177 26.18 C M 25-36 107 29.47 D F >35 208 109.61 D M >37 194 115.9 E F 1-454 1390 26.78 E M 1-483 1546 24.48 Όπως φαίνεται στον Πίνακα 2, έγινε προσπάθεια να γίνει ένας αναλογικός χωρισμός στις επιμέρους κατηγορίες για το αντρικό και το γυναικείο σώμα κειμένων, χωρίς ωστόσο να αγνοηθούν οι στατιστικές ιδιαιτερότητες του κάθε συνόλου. Παρατηρείται ότι στην κατηγορία Ε, οι γυναίκες τείνουν να κάνουν πιο μεγάλες αναρτήσεις απ ό,τι οι άνδρες, δεδομένο που επιβεβαιώνεται όμως μόνο στην κατηγορία κειμένων που περιέχουν 1-9 προτάσεις (Κατηγορία Α). Μετά τον καθορισμό των υποκατηγοριών του σώματος κειμένου, γίνεται η μετατροπή των κοινωνιογλωσσικών δεικτών σε ποσοτικά χαρακτηριστικά, εργασία που περιγράφεται στην επόμενη ενότητα. 5.2.2. Μετατροπή κοινωνιογλωσσικών δεικτών σε ποσοτικά χαρακτηριστικά Σε αυτή την ενότητα, αναζητήθηκε ο τρόπος με τον οποίο διαφοροποιητικά χαρακτηριστικά του γυναικείου και του αντρικού λόγου, που περιγράφηκαν αναλυτικά στην ενότητα 2.2.1., μπορούν να μετατραπούν σε ποσοτικά δεδομένα και σε μια μορφή που να μπορούν να ανιχνευτούν και να μετρηθούν στο «Blog author gender 60
classification dataset». Κάθε κοινωνιογλωσσικό χαρακτηριστικό για το γυναικείο και τον αντρικό λόγο τροποποιείται, στην προσπάθεια να βρεθεί άμεσος ή έμμεσος τρόπος να μετρηθεί στο σώμα κειμένων. Ένα από τα χαρακτηριστικά που περιγράφονται στην 2.2.1. είναι οι διαφορετικές στρατηγικές ανδρών και γυναικών στην ευγένεια και στη συμφωνία/διαφωνία με κάτι. Αυτός ο δείκτης μπορεί να μετρηθεί εντοπίζοντας κάποιες καθιερωμένες φράσεις, οι οποίες έχουν συνδεθεί με ευγένεια, συμφωνία, διαφωνία, μέσα στα σύνολα δεδομένων και συγκρίνοντας σε ποιο από τα δύο εμφανίζονται συχνότερα. Ενδεικτικά παρατίθενται κάποιες φράσεις: thank you, thank you very much, you re welcome, appreciated, much obliged, may I, please, pardon me, excuse me, I m sorry, I m terribly sorry, I m very sorry, sorry, I beg your pardon, pardon me, κλπ.. Έστω ότι PLT i Pi W i είναι η μετρική για τη στρατηγική ευγένειας, συμφωνίας/διαφωνίας ( politeness strategies ) D για την ανάρτηση, όπου είναι ο αριθμός των εκφράσεων ευγένειας, συμφωνίας/διαφωνίας στην και W K i k 1wk wk Di i P i για είναι ο συνολικός αριθμός λέξεων στο. D i D i Προκειμένου να μετρηθούν ως κοινωνιογλωσσικός δείκτης τα κενά επίθετα, υποθέτουμε ότι θα υπάρχει μια αξιοσημείωτη διαφορά στον αριθμό συνολικά των επιθέτων ανάμεσα στα γυναικεία και τα αντρικά κείμενα, κάποια από τα οποία θα ανήκουν και στην κατηγορία των κενών. Ο έμμεσος αυτός υπολογισμός έχει ως εξής: θεωρείται ότι E i ADJ W i i L είναι ο αριθμός των κενών επιθέτων ( adjectives ) στο D, όπου ADJi l 1wi για wl Di, i w όταν είναι ο αριθμός των επιθέτων στο και είναι ο συνολικός αριθμός λέξεων στο. l D i W i D i Η συντακτική πολυπλοκότητα, ένας ακόμη δείκτης, ο οποίος μπορεί να μετρηθεί έμμεσα με τον υπολογισμό των ρημάτων ανά περίοδο τόσο στην περίπτωση των γυναικών όσο και αυτή των ανδρών. Όσο περισσότερα ρήματα υπάρχουν σε μια περίοδο, τόσο περισσότερο περίπλοκη θεωρείται αυτή η περίοδος, καθώς περιέχει περισσότερες προτάσεις ή/και δευτερεύουσες ρηματικές φράσεις. Υπολογίζεται ότι 1 61 P p είναι ο αριθμός των J j j j VBj περιόδων στο D i, και το SC j μετράει τη συντακτική πολυπλοκότητα ( syntactic complexity ) για το p j W VB w J j m 1 m i j, όπου για wm pj είναι ο αριθμός των ρημάτων και είναι ο συνολικός αριθμός λέξεων W i j
στο pj Di. H μέτρηση της συντακτικής πολυπλοκότητας θεωρείται ότι και με αυτό το τρόπο δεν είναι ολοκληρωμένη, καθώς θα πρέπει σε ένα επόμενο στάδιο να λαμβάνονται υπόψιν σύνδεσμοι και άλλοι δευτερεύοντες όροι της πρότασης. Δεδομένων όμως των δυνατοτήτων των εργαλείων, η μετρική που προτείνεται είναι ένα πρώτο βήμα. Υπολογίζεται επίσης Το μήκος των περιόδων ( period length ), των αναρτήσεων, καθώς συνδυαζόμενο με τα υπόλοιπα χαρακτηριστικά μπορεί να οδηγήσει σε κάποια συμπεράσματα. Έστω ότι PL j W i j είναι το μήκος W i των περιόδων W p jμε i j να είναι ο συνολικός αριθμός λέξεων στο pj Di W και τον συνολικό αριθμό λέξεων i D i στο. Μια ακόμη άμεση μετρική επιτυγχάνεται στην περίπτωση των ερωτηματικών μορφών ( interrogative forms )των εκφωνημάτων, μετρώντας τον αριθμό των απλών ερωτηματικών και τους πιθανούς συνδυασμούς των ερωτηματικών με άλλα σημεία στίξης (???,?!?,!??,?!!). Οι ερωτηματικές μορφές των εκφωνημάτων στο D i είναι UT i QM SP i i QM, όπου είναι ο αριθμός των ερωτηματικών και πιθανοί συνδυασμοί του με άλλα σύμβολα i SP c c ".",",","!","?" N Di i n 1 n στίξης στο, και για στο είναι ο αριθμός συνολικά όλων των n D i ειδικών χαρακτήρων στο D i. Αυτός ο αριθμός υποδεικνύει όχι μόνο τη δομική ερωτηματική επιτόνηση, αλλά επιπλέον τη χρήση ερωτηματικών εκφράσεων όταν αναζητείται η συνομιλιακή διεπίδραση. Σύμφωνα με τα κοινωνιογλωσσικά δεδομένα και ευρήματα, ένας μεγάλος αριθμός ερωτηματικών αναμένεται να εντοπιστεί στο γυναικείο σύνολο δεδομένων. Όσον αφορά στο χαρακτηριστικό της λεξικής πυκνότητας( lexical density ),, όπως αναπτύχθηκε στην ενότητα 2.2.1., προηγούμενες εργασίες δεν παρατήρησαν κάποια διαφοροποίηση σε αυτό το επίπεδο ανάμεσα σε άνδρες και γυναίκες. Εν προκειμένω, θεωρήθηκε σκόπιμο να υπολογιστεί και αυτός ο δείκτης ώστε να επιβεβαιωθεί ή μη αυτό CNi το συμπέρασμα. Υπολογίζεται ότι LDi είναι η λεξική πυκνότητα στο Di, όπου Wi είναι ο συνολικός W i 62
Q Di CN i q 1wq q i αριθμός λέξεων στο και για w D είναι ο αριθμός των λέξεων περιεχομένου που έχουν επισημειωθεί στο corpus ως adjective, adverb, noun ή main verb. Οι πρώτες μελέτες υπέδειξαν ότι οι γυναίκες χρησιμοποιούν μικρότερο όρων λεξιλόγιο από τους άνδρες. Ένας άμεσος τρόπος να επιβεβαιωθεί αυτός ο ισχυρισμός είναι η μέτρηση του συνολικού αριθμού των διαφορετικών λέξεων που χρησιμοποιούνται από τα δύο φύλα στα αντίστοιχα σύνολα δεδομένων, χωρίς να υπολογίζονται οι τερματικοί όροι (stop words), που έχουν κυρίως δομικό ρόλο στη δημιουργία και ροή του λόγου. Αυτή η μέτρηση θα αναδείξει το καθαρό λεξιλόγιο του αντρικού και γυναικείου λόγου, τον πλούτο λεξιλογίου δηλαδή, δεδομένου ότι θα προσμετράται η πρώτη εμφάνιση της κάθε διαφορετικής λέξης. Έστω ότι V i DW W i i είναι η μετρική για τον R λεξιλογικό πλούτο ( vocabulary richness ), όπου DWi r 1 wr για wr Di είναι ο αριθμός των ξεχωριστών D λέξεων (των τερματικών όρων εξαιρουμένων) στο και είναι ο συνολικός αριθμός λέξεων στο. i W i D i Είναι επίσης δυνατόν να μετρηθεί το χαρακτηριστικό των ερωτήσεων-ηχώ (tag-questions), εντοπίζοντας όλες τις ερωτήσεις-ηχώ στις γυναικείες και αντρικές αναρτήσεις μέσα από μια λίστα που δημιουργήθηκε και περιέχει όλες τις πιθανές μορφές τους. Έστω ότι είναι η μετρική για τις ερωτήσεις-ηχώ, όπου είναι ο αριθμός D TQi Ti W των ερωτήσεων-ηχώ στο και είναι ο συνολικός αριθμός λέξεων στο. i W i i D i TQ i Επίσης υπολογίζονται οι μη-πρότυπες γλωσσικές μορφές, που θεωρητικά είναι πιο συχνές στον αντρικό λόγο. Για να μετρηθεί αυτός ο δείκτης, θεωρείται ως δεδομένο ότι τα εργαλεία επεξεργασίας φυσικής γλώσσας που χρησιμοποιήθηκαν περιέχουν είτε ένα λεξιλόγιο βασισμένο στο σώμα κειμένων που περιέχει είτε έχουν ενσωματωμένο ηλεκτρονικό λεξικό, και ότι μέσω αυτών των πηγών αναγνωρίζουν τους πρότυπους γλωσσικούς τύπους. Επομένως, γίνεται η υπόθεση ότι οι τύποι που δεν αναγνωρίζονται από τα εργαλεία αυτά (οι μορφές που δεν είναι μέρος λεξιλογίου ή λεξικού), θα είναι τύποι εκτός της πρότυπης γλωσσικής ποικιλίας και των μορφών που τη συνθέτουν. Πρόκειται βεβαίως για μια υπόθεση έμμεσης μέτρησης του χαρακτηριστικού, καθώς είναι δυνατόν το εργαλείο να έχει μικρή λεξική βάση δεδομένων, με αποτέλεσμα να μην αναγνωρίζει και τύπους της πρότυπης 63
γλώσσας. Ξεπερνώντας αυτό το ζήτημα, υπολογίζεται ότι NST i OVWi W i είναι η μετρική για τους μη-πρότυπους γλωσσικούς τύπους ( non-standard types ), όπου OVW i είναι ο αριθμός όλων των μη αναγνωρισμένων, από το D λεξικό πόρο που χρησιμοποιείται, λέξεων στο, και είναι ο συνολικός αριθμός λέξεων στο. i W i D i Στην προσπάθεια να εντοπιστεί αν οι γυναίκες εκφράζονται με έναν πιο συναισθηματικό τρόπο ( sentimental language ), το σύστημα SentiWordNet των Esuli και Sebastiani (2006) παρέχει τη δυνατότητα να γίνει μια τέτοια μέτρηση με έμμεσο τρόπο. Οι συναισθηματικά επισημειωμένες και πολωμένες (με θετικό και αρνητικό νόημα) λέξεις του SentiWordNet, μπορούν να υπολογιστούν στο γυναικείο και το αντρικό σύνολο δεδομένων, και να αξιολογηθούν τα αποτελέσματα που θα προκύψουν. Υπολογίζεται ότι SW i SEN W i i είναι η μετρική για τη χρήση SEN Di i u 1 u w wu Di συναισθηματικών γλωσσικών μορφών (στο, όπου είναι ο αριθμός των λέξεων W που βρέθηκαν στο SentiWordNet και είναι ο συνολικός αριθμός των λέξεων στο. Όπως παρουσιάζεται και i στη συνέχεια, παρατηρείται ότι το γυναικείο σύνολο δεδομένων περιέχει περισσότερες πολωμένες λέξεις, όπως ήταν αναμενόμενο βάσει των εμπειρικών ευρημάτων, ενώ ο αντρικός λόγος είναι πιο ουδέτερος συναισθηματικά. D i Τέλος, χρησιμοποιήθηκαν λίστες με όρους αργκό και υβριστικές εκφράσεις που αντλήθηκαν από το διαδίκτυο ώστε να μετρηθεί η εμφάνισή τους σε αντρικό και γυναικείο corpus, ώστε να επιβεβαιωθεί ο κοινωνιογλωσσικός δείκτης της τραχιάς γλώσσας ως αντρική γλωσσική επιλογή. Έστω ότι BD i Bi W i είναι η μετρική για τις υβριστικές L SGi W εκφράσεις ( bad words ) και η μετρική για τους τύπους της αργκό ( slang types ) στο αντίστοιχα, B w wx Di X i x 1 x i Y i y 1 y όπου για είναι ο αριθμός των υβριστικών εκφράσεων και για είναι ο αριθμός των τύπων της αργκό, και είναι ο συνολικός αριθμός λέξεων στο. Στον Πίνακα 3 συνοψίζεται η λίστα με τις ποιοτικές μεταβλητές και τις αντιστοιχίσεις του σε ποσοτικές. W i L D w wy Di D i i 64
Πίνακας 3. Οι κοινωνιογλωσσικοί δείκτες και τα αντίστοιχά τους ποσοτικά χαρακτηριστικά. Related to women s language Related to men s language Neutral Not related to language and gender Linguistic markers Use of empty adjectives Syntactic complexity Interrogative forms Tag questions Use of sentimental language Politeness and agreement/disagreement strategies Vocabulary richness Use of non-standard types Use of bad words Coarse language and slang types Lexical density Period length Quantitative features # of adjectives per document/ sum of document words # of verbs per period/ sum of document words # of question marks per document/ sum of document punctuation # of tag-question-phrases per document/ sum of document words # of sentimentally polarized words per document/sum of document words # of polite, agreement, disagreement phrases per document/ sum of words # of different words (without the stop-words) per document/sum of document words # of unrecognized words # of bad words per document/sum of document words # of slang types per document/sum of document words # of content words per document/sum of document words # of words per period/ sum of document words 65
Στη συνέχεια παρουσιάζεται η στατιστική ανάλυση των δεδομένων και η αξιολόγηση των ποσοτικoποιημένων, πλέον έμφυλων κοινωνιογλωσσικών χαρακτηριστικών. 5.2.3. Στατιστική ανάλυση και αξιολόγηση χαρακτηριστικών Στην ενότητα 5.2.2. περιγράφηκε ο τρόπος με τον οποίο μετατράπηκαν οι ποιοτικοί κοινωνιογλωσσικοί δείκτες σε ποσοτικά χαρακτηριστικά ώστε να πραγματοποιηθεί στατιστική ανάλυση στο γυναικείο και το αντρικό σύνολο δεδομένων και να αξιολογηθεί η δυνατότητα της έμφυλης γλωσσικής διαφοροποίησης. Στην παρούσα ενότητα υπολογίζεται η μέση τιμή (mean) και η τυπική απόκλιση (standard deviation- STD) για την εμφάνιση του κάθε χαρακτηριστικού, προκειμένου να εξεταστεί με ποσοτικό τρόπο η εξάρτηση που έχει το καθένα από αυτά με το κοινωνικό φύλο. Για να εξεταστεί το κατά πόσο τα δύο σύνολα δεδομένων είναι σημαντικά διαφορετικά μεταξύ τους, εφαρμόστηκε ο στατιστικός έλεγχος t test (βλέπε 3.2.). Στους πίνακες της παρούσας ενότητας παρουσιάζονται τα αποτελέσματα για τη μέση τιμή, την τυπική απόκλιση και τον στατιστικό έλεγχο για κάθε κατηγορία δεδομένων. Τίθεται ως κατώφλι για το p value το 0.05, και όποιο χαρακτηριστικό δεν ξεπερνά αυτή την τιμή θεωρείται σταστιστικά σημαντικό, κι επομένως χαρακτηριστικό διαφοροποίησης των δύο δειγμάτωνσυνόλων δεδομένων. 66
Πίνακας 4. Στατιστικά στοιχεία για το σύνολο των αντρικών και γυναικείων κειμένων (κατηγορία Ε). Class E F Class E M Statistical test Feature list Mean STD Mean STD t-statistic p-value Syntactic complexity 0.157124 0.0362 0.147631 0.0356 7.145601 0.00000 Tag questions 0.01277 0.0104 0.009906 0.0096 7.752773 0.00000 Adjectives 0.058131 0.0223 0.062444 0.0235-5.09591 0.00000 Vocabulary richness 0.326558 0.0594 0.340288 0.0627-6.08662 0.00000 Period length 24.35627 22.97 28.4611 25.46-4.225 0.00002 Lexical density 0.553679 0.05 0.559528 0.05-3.34042 0.000847 Sentimental language 0.139925 0.0339 0.13595 0.0350 3.123432 0.001805 Politeness strategies 0.001595 0.0037 0.001304 0.0031 2.311472 0.020882 Slang types 0.049287 0.0232 0.051228 0.0230-2.27475 0.022994 Interrogative forms 0.293628 0.3871 0.319436 0.4191-1.73426 0.082977 Non-standard types 0.223416 3.645 0.128795 0.0732 0.96693 0.333744 Bad words 0.000775 0.0029 0.000845 0.0027-0.67202 0.501627 Στον Πίνακα 4 παρουσιάζονται τα συγκεντρωτικά αποτελέσματα για ολόκληρο το γυναικείο και αντρικό σώμα κειμένων. Όπως παρατηρείται, τα περισσότερα χαρακτηριστικά εμφανίζονται να είναι στατιστικά σημαντικά. Το syntactic complexity χαρακτηριστικό όχι μόνο επιβεβαιώνει την κοινωνιογλωσσολογική θεωρία, που ισχυρίζεται ότι οι γυναίκες τείνουν να χρησιμοποιούν περισσότερες συντακτικά πολύπλοκες γλωσσικές δομές, αλλά φαίνεται ότι είναι ένα από τα σημαντικότερα στοιχεία σε πληροφοριακότητα. Η ίδια τάση φαίνεται να ισχύει και στην περίπτωση του tag question χαρακτηριστικού. Αρκετά πληροφοριακό αποδεικνύεται ότι είναι το χαρακτηριστικό adjectives, αλλά συνδέεται, εν αντιθέσει με τον κοινωνιογλωσσικό δείκτη που συσχετίζει τη χρήση των κενών επιθέτων με τη γυναικεία γλώσσα. Η σημαντικότητα αυτού του χαρακτηριστικού, όπως φαίνεται από τον στατιστικό έλεγχο, το ανάγει σε ένα νέο ανδρικό διαφοροποιητικό χαρακτηριστικό. 67
Ο δείκτης vocabulary richness, όπως περιγράφεται στις κοινωνιογλωσσικές μελέτες, επιβεβαιώνεται και από τις μετρήσεις της παρούσας εργασίας. Αυτό σημαίνει ότι όντως οι γυναίκες έχουν μικρότερο λεξιλόγιο από τους άνδρες, και η στατιστική διαφορά ανάμεσα στα δύο σύνολα δεδομένων του χαρακτηριστικού το κάνει να είναι στατιστικά σημαντικό. Το χαρακτηριστικό period length,το οποίο προτάθηκε να μετρηθεί με σκοπό να προσδώσει, εάν ήταν δυνατόν, στατιστική πληροφορία για το μήκος των περιόδων των συνόλων δεδομένων, αναδεικνύεται σε σημαντικό και ιδιαίτερα αντιπροσωπευτικό γνώρισμα ως αντρική γλωσσική επιλογή. Το συγκεκριμένο χαρακτηριστικό δεν εμφανίζεται στην κοινωνιογλωσσική βιβλιογραφία, αποτελεί ένα νέο εύρημα της παρούσας εργασίας καθώς είναι δείκτης διαφοροποιημένης γλωσσικής συμπεριφοράς. Οι άνδρες σχηματίζουν πιο μακριές φράσεις από τις γυναίκες, χωρίς όμως να χρησιμοποιούν περισσότερα ρήματα. Συνδυάζοντας το μήκος των περιόδων με τον αριθμό των επιθέτων θα μπορούσε να υποτεθεί ότι οι άνδρες, λόγω της μεγαλύτερης χρήσης επιθέτων και πιο μεγάλων φράσεων, μάλλον επιλέγουν περισσότερους δευτερεύοντες όρους. Οι μετρήσεις για το lexical density χαρακτηριστικό αποδίδουν αρκετή πληροφοριακότητα στο στοιχείο αυτό, και φαίνεται ότι η πιο εκτενής χρήση των λέξεων περιεχομένου να αποτελεί διαφοροποιητικό στοιχείο της αντρικής γραφής. Σε αντίθεση με προηγούμενα ευρήματα στη σχέση φύλου και λεξικής πυκνότητας, που αποδεικνύουν ότι δεν αλληλεπιδρούν σαν μεγέθη (Alami et al., 2013), στο παρόν σύνολο δεδομένων, που είναι επισημειωμένο με το φύλο του συγγραφέα, φαίνεται να αναδεικνύεται ως νέο εύρημα ενδεικτικό του αντρικού λόγου. Τα ευρήματα του χαρακτηριστικού sentimental language επιβεβαιώνουν τις κοινωνιογλωσσικές μελέτες που υποστηρίζουν ότι οι γυναίκες χρησιμοποιούν περισσότερες συναισθηματικά φορτισμένες εκφράσεις από τους άνδρες, και αποδεικνύεται σημαντικό στις μετρήσεις. Σε αντιστοιχία με τα θεωρητικά δεδομένα φαίνεται να βρίσκεται επίσης και το χαρακτηριστικό που υπολογίζει τις στρατηγικές ευγένειας, συμφωνίας/διαφωνίας επιβεβαιώνοντάς το ως γυναικεία διαφοροποιητική γλωσσική επιλογή, η οποία διαφέρει σημαντικά από τις αντίστοιχες αντρικές στρατηγικές. Το τελευταίο χαρακτηριστικό που αναδεικνύεται ως σημαντικό στατιστικά στην κατηγορία Ε των κειμένων είναι το slang types στοιχείο, που αντιστοιχεί στον δείκτη για την αντρική τραχιά γλώσσα των θεωρητικών ερευνών και το αποτέλεσμα των μετρήσεων επιβεβαιώνει το θεωρητικό εύρημα. Τα χαρακτηριστικά interrogative forms και non-standard types δεν αποδείχθηκαν στατιστικά σημαντικά, μη επιβεβαιώνοντας τις θεωρητικές μελέτες, ενώ, τέλος, το χαρακτηριστικό bad words, αν και επιβεβαιώνει το θεωρητικό δείκτη, δεν ειναι διαφοροποιητικό στην μέτρηση που πραγματοποιήθηκε. 68
Πίνακας 5. Στατιστικά στοιχεία για τις κλάσεις A F και A M. Class A F Class A M Statistical test Feature list Mean STD Mean STD t-statistic p-value Syntactic complexity 0.153261 0.0424 0.142193 0.0417 4.447623 0.00000 Vocabulary richness 0.350838 0.0629 0.365433 0.0644-3.8733 0.000114 Adjectives 0.062369 0.0279 0.068144 0.0286-3.4516 0.000578 Sentimental language 0.142601 0.0400 0.135429 0.0419 2.958278 0.003158 Period length 32.28037 33.38 37.98591 35.08-2.73056 0.006426 Tag questions 0.011585 0.0116 0.01016 0.0123 2.017642 0.043863 Bad words 0.000559 0.0026 0.000862 0.0031-1.79499 0.072919 Slang types 0.049645 0.0299 0.051511 0.0296-1.05854 0.290035 Non-standard types 0.129858 0.0821 0.135082 0.0878-1.03879 0.299121 Politeness strategies 0.001378 0.0045 0.00115 0.0037 0.932688 0.351197 Lexical density 0.554422 0.06 0.555679 0.06-0.35889 0.719745 Interrogative forms 0.16154 0.3366 0.154416 0.3429 0.353932 0.723456 Στον Πίνακα 5 παρουσιάζονται οι μετρήσεις για τα σύντομα γυναικεία και αντρικά κείμενα(κατηγορία Α). Σύμφωνα με τα αποτελέσματα του στατιστικού ελέγχου, δεν εντοπίζεται σημαντική διαφοροποίηση ανάμεσα στα μικρά κείμενα και την overall κατηγορία, με εξαίρεση την περίπτωση του interrogative forms χαρακτηριστικού, το οποίο είναι θετικό υπέρ των γυναικών σε αυτή την κατηγορία δεδομένων, χωρίς ωστόσο να είναι στατιστικά σημαντικό και πληροφοριακό. Επομένως, τα χαρακτηριστικά syntactic complexity, vocabulary richness, adjectives, sentimental language, period length και tag questions υπολογίζονται ως στοιχεία διαφοροποίησης ανάμεσα σε άνδρες και γυναίκες στα σύνολα δεδομένων μικρών αναρτήσεων. 69
Πίνακας 6. Στατιστικά στοιχεία για τις κλάσεις B F και B M. Class B F Class B M Statistical test Feature list Mean STD Mean STD t-statistic p-value Syntactic complexity 0.162341 0.0334 0.152676 0.0326 4.795546 0.00000 Tag questions 0.013606 0.0110 0.00977 0.0078 6.458489 0.00000 Vocabulary richness 0.32718 0.0480 0.338704 0.0484-3.92526 0.000009 Period length 19.42507 6.04 21.0637 6.76-3.88967 0.000108 Lexical density 0.553006 0.04 0.561075 0.04-3.31532 0.000949 Interrogative forms 0.311568 0.3979 0.378016 0.4484-2.595 0.009589 Politeness strategies 0.001663 0.0032 0.001245 0.0026 2.310157 0.02111 Adjectives 0.056966 0.0193 0.059649 0.0201-2.23685 0.02551 Sentimental language 0.141895 0.0321 0.138655 0.0311 1.678391 0.093587 Slang types 0.048431 0.0175 0.049993 0.0183-1.43559 0.151421 Non-standard types 0.119726 0.0567 0.118375 0.0542 0.397576 0.691028 Bad words 0.000831 0.0025 0.000798 0.0026 0.207884 0.83536 Στον Πίνακα 6 παρουσιάζονται τα αποτελέσματα των μετρήσεων στα σύνολα δεδομένων που περιέχουν τις μεσαίου μεγέθους αναρτήσεις (κατηγορία Β). Σε αυτή την κατηγορία παρατηρείται μια διαφορά στο interrogative forms χαρακτηριστικό, το οποίο ελέγχεται ως στατιστικά σημαντικό στοιχείο στις αναρτήσεις μεσαίου μεγέθους και διαφοροποιητικό αντρικό γλωσσικό χαρακτηριστικό. Επιπλέον, τα χαρακτηριστικά syntactic complexity, tag questions, vocabulary richness, period length, lexical density, politeness strategies και adjectives είναι τα πιο πληροφοριακά χαρακτηριστικά έμφυλης κοινωνιογλωσσικής διαφοροποίησης. Στον Πίνακα 7 παρουσιάζονται τα αποτελέσματα της στατιστικής ανάλυσης για τα σύνολα δεδομένων των αντρικών και γυναικείων εκτεταμένων αναρτήσεων (κατηγορία C). Μια πρώτη παρατήρηση είναι ότι αυτή η κατηγορία αναδεικνύει τα λιγότερα στατιστικά σημαντικά χαρακτηριστικά σε σχέση με όλες τις υπόλοιπες 70
κατηγορίες. Με εξαίρεση τα χαρακτηριστικά tag questions, lexical density, syntactic complexity και vocabulary richness, όλα τα υπόλοιπα στοιχεία δεν προκύπτουν τόσο σημαντικά ώστε να θεωρούνται διαφοροποιητικά. Το αποτέλεσμα αυτό θα μπορούσε να εξηγηθεί ακολούθως: όπως περιγράφηκε στην ενότητα 2.2.1., οι γυναίκες και οι άντρες τείνουν να κάνουν διαφορετικές γλωσσικές επιλογές ακόμα και κατά την ίδια επικοινωνιακή περίσταση. Αυτές οι έμφυλες γλωσσικές προτιμήσεις μπορούν να εντοπιστούν αρχικά στην ομιλία, με τις περισσότερες από αυτές να ανιχνεύονται στο φωνητικό/φωνολογικό επίπεδο της γλωσσικής ανάλυσης. Παρά αυτή την παραδοχή, τα έμφυλα διαφοροποιητικά χαρακτηριστικά διαπερνούν και τα υπόλοιπα επίπεδα γλωσσικής ανάλυσης (μορφολογικό, λεξιλογικό, κλπ.) και ορισμένα από αυτά μπορούν να εντοπιστούν στο γραπτό λόγο, όσο όμως αυτός διατηρείται ημιεπίσημος, απροσχεδίαστος και σχετικά αυθόρμητος. Συνεπώς, τα γλωσσικά χαρακτηριστικά της έμφυλης διαφοροποίησης περιέχουν στοιχεία προφορικότητας, τα οποία στα σύντομα κείμενα, όπου ο λόγος είναι πιο απροσχεδίαστος και αυθόρμητος, μπορούν να εντοπιστούν και να διαφοροποιήσουν το αντρικό από το γυναικείο κείμενο. Στα μεγαλύτερης έκτασης κείμενα όμως είναι αναπόφευκτο να μην ακολουθείται η δομή, το λεξιλόγιο, οι γραμματικοί κανόνες της γραπτής γλώσσας. Επειδή μάλιστα, δημιουργείται η ανάγκη ένα εκτενές κείμενο να είναι ευανάγνωστο και με συνοχή, οι συγγραφείς τείνουν σε μια πιο «ουδέτερη» χρήση της γλώσσας, η οποία δεν αφήνει πολλά περιθώρια για έμφυλες γλωσσικές προτιμήσεις (Kakridi-Ferrari, 2010). Επομένως, ίσως για το λόγο αυτό σε αυτή την κατηγορία εντοπίζονται οι λιγότερες διαφορές ανάμεσα στα κείμενα των δύο φύλων. 71
Πίνακας 7. Στατιστικά στοιχεία για τις κλάσεις C F και C M. Class C F Class C M Statistic test Feature list Mean STD Mean STD t-statistic p-value Tag questions 0.014316 0.0082 0.009937 0.0073 4.672485 0.000000 Lexical density 0.55034 0.03 0.567346 0.04-3.503 0.000583 Syntactic complexity 0.15917 0.0290 0.150423 0.0303 2.375782 0.018398 Vocabulary richness 0.31365 0.0419 0.327061 0.0507-2.29671 0.022732 Period length 17.23316 3.94 18.58575 5.23-1.9736 0.050825 Non-standard types 0.11758 0.041 0.13166 0.0717-1.84212 0.067485 Sentimental language 0.139401 0.0263 0.135038 0.0286 1.273425 0.204302 Interrogative forms 0.462332 0.4199 0.523259 0.4017-1.2122 0.226686 Slang types 0.049616 0.0181 0.051861 0.0170-1.04842 0.29554 Adjectives 0.054898 0.0159 0.056829 0.0151-1.02008 0.308769 Bad words 0.001052 0.0046 0.000742 0.0017 0.801856 0.42342 Politeness strategies 0.00172 0.0038 0.001659 0.0027 0.155715 0.876373 Στον Πίνακα 8 παρουσιάζονται τα αποτελέσματα των μετρήσεων για τις γυναικείες και αντρικές αναρτήσεις πολύ μεγάλου μεγέθους (κατηγορία D). Τα πιο διακριτικά και πληροφοριακά χαρακτηριστικά είναι τα tag questions, adjectives, period length, syntactic complexity, slang types, και interrogative forms. Τα χαρακτηριστικά αυτά κινούνται στην ίδια κατεύθυνση με τα αποτελέσματα των υπολοίπων κατηγοριών, με μοναδικό επιπρόσθετο στοιχείο την εναλλαγή του sentimental language χαρακτηριστικού από γυναικεία γλωσσική προτίμηση σε αντρική επιλογή, χωρίς όμως να είναι στατιστικά σημαντικό και να λαμβάνεται υπόψιν. 72
Πίνακας 8. Στατιστικά στοιχεία για τις κλάσεις D F και D M. Class D F Class D M Statistic test Feature list Mean STD Mean STD t-statistic p-value Tag questions 0.012639 0.0061 0.009489 0.0052 5.545297 0.00000 Adjectives 0.05283 0.0135 0.056867 0.0144-2.8917 0.004046 Period length 18.27488 6.96 20.44161 5.11-2.89554 0.004108 Syntactic complexity 0.153268 0.0282 0.146454 0.0225 2.672102 0.007855 Slang types 0.050046 0.0180 0.053895 0.0137-2.44756 0.014838 Interrogative forms 0.45323 0.3311 0.534308 0.3430-2.39643 0.017021 Lexical density 0.556306 0.03 0.562165 0.03-1.73758 0.083058 Non-standard types 0.133229 0.0681 0.141764 0.074-1.1962 0.232327 Politeness strategies 0.001827 0.0020 0.001711 0.0021 0.569491 0.569349 Vocabulary richness 0.273332 0.0481 0.274231 0.0527-0.17771 0.859044 Bad words 0.000977 0.0023 0.001012 0.0020-0.16189 0.871477 Sentimental language 0.129128 0.0224 0.129213 0.0240-0.03682 0.970648 Όπως αναφέρθηκε πιο πάνω, οι κατηγορίες των μεγάλων και πολύ μεγάλων αναρτήσεων εμφανίζουν διαφορετικές πτυχές των χαρακτηριστικών απ ό,τι οι πρώτες δύο κατηγορίες (κλάσεις Α και Β), ως αποτέλεσμα του αντρικού και γυναικείου στυλ γραφής που σχετίζεται με την αξιοσημείωτη διαφορά στο μέσο μέγεθος κειμένου. Ένα χρήσιμο συμπέρασμα που εξάγεται είναι ότι τα κείμενα δεν θα πρέπει να γίνονται αντικείμενο επεξεργασίας και να κατηγοριοποιούνται χωρίς να λαμβάνεται υπόψιν το μέγεθος του κειμένου και η ομοιογένεια μεγέθους σε ένα σύνολο δεδομένων. Παρατηρήθηκε ότι κείμενα διαφορετικού μεγέθους, ακόμη κι όταν ανήκουν στο ίδιο είδος ή θεματική ομάδα δεν μοιράζονται απαραίτητα τα ίδια διακριτικά χαρακτηριστικά. Κάθε συγγραφέας μπορεί να υιοθετεί διαφορετικό στυλ γραφής ανάλογα με την επικοινωνιακή περίσταση, και το μέγεθος φαίνεται να είναι ένα στοιχείο διαφοροποίησης το οποίο χρειάζεται περαιτέρω μελέτη. Τέλος, από τη στατιστική ανάλυση προκύπτει ότι 73
και τα δύο φύλα χρησιμοποιούν μεγαλύτερες προτάσεις όταν γράφουν μικρότερα κείμενα, ενώ στα μεγαλύτερα κείμενα προτιμούν πιο σύντομες προτάσεις. Στην ενότητα που ακολουθεί γίνεται μια γενική αξιολόγηση των ευρημάτων αυτής της εργασίας, με τη συνολική αποτίμηση και ερμηνεία των αποτελεσμάτων του στατιστικού ελέγχου. 5.2.4. Αξιολόγηση αποτελεσμάτων Τα στατιστικά σημαντικά χαρακτηριστικά σε κάθε κατηγορία, όπως φάνηκε από το στατιστικό έλεγχο, σε πολλές περιπτώσεις ήταν κοινά και κάποια συνδυάζονταν μεταξύ τους. Στον Πίνακα 9 καταγράφονται τα πιο αντιπροσωπευτικά χαρακτηριστικά που εντοπίστηκαν σε περισσότερες από μία κατηγορίες του σώματος κειμένων που μελετήθηκε. Τα αποτελέσματα αναδεικνύουν την ύπαρξη καθολικών (universal) διαφοροποιητικών χαρακτηριστικών, στατιστικά σημαντικών στοιχείων σε όλες τις επιμέρους κατηγορίες κειμένου αλλά και στην overallκλάση, και άλλων χαρακτηριστικών τα οποία είναι κοινά σε λιγότερες κατηγορίες. Παρουσιάζονται μάλιστα και συσχετιζόμενα με το φύλο του οποίου αποτελούν γλωσσική επιλογή, γεγονός που κάνει ιδιαίτερα εύκολη τη σύγκριση με τον αρχικό πίνακα (Πίνακας 2) που παρουσιάζει τους δείκτες των έμφυλων προτιμήσεων. Πίνακας 9. Τα σημαντικότερα έμφυλα διαφοροποιητικά γλωσσικά χαρακτηριστικά. Female features Male features Universal (all categories) Syntactic complexity Tag questions Period length In 4/5 categories Adjectives Vocabulary richness In 3/5 categories In 2/5 categories Politeness strategies Sentimental language Lexical density Slang types Interrogative forms 74
Από τη βιβλιογραφική ανασκόπηση του πεδίου έμφυλοι κοινωνιογλωσσικοί δείκτες αντλήθηκαν που μπορούν να εντοπιστούν στο γραπτό λόγο και να υπολογιστούν σε ένα σώμα κειμένων από μέσα κοινωνικής δικτύωσης (εν προκειμένω web blog). Αυτά τα χαρακτηριστικά ήταν ποιοτικά και αρκετά περιγραφικά ώστε να μην μπορούν να ανιχνευθούν χωρίς προηγούμενη επεξεργασία. Για το λόγο αυτό προτάθηκαν άμεσοι κι έμμεσοι τρόποι ποσοτικοποίησής τους ώστε ως ποσοτικά πλέον χαρακτηριστικά να μπορούν να εντοπιστούν και μετρηθούν από εργαλεία αυτόματης επεξεργασίας της γλώσσας. Tο επισημειωμένο με το φύλο του συγγραφέα σώμα κειμένων, χωρίστηκε σε γυναικείο και αντρικό, και στη συνέχεια, αναλόγως του μεγέθους της κάθε ανάρτησης, πραγματοποιήθηκε στατιστικός έλεγχος που ανέδειξε τα διαφοροποιητικά χαρακτηριστικά αντρικού και γυναικείου λόγου. Εννέα από τα δώδεκα υλοποιημένα χαρακτηριστικά αποδείχτηκε ότι είναι στατιστικά σημαντικά για τη διάκριση αντρικού και γυναικείου κειμένου, σε περισσότερες από μία κατηγορίες κειμένου. Δύο μάλιστα από αυτά, τα tag questions και syntactic complexity είναι διαφοροποιητικά και αποτελούν γυναικεία γλωσσική προτίμηση τόσο στο σύνολο του corpus όσο και σε όλες τις επιμέρους κατηγορίες του. Τα αποτελέσματα του ελέγχου στις περισσότερες περιπτώσεις επιβεβαιώνουν τους θεωρητικούς δείκτες έμφυλης γλωσσικής διαφοροποίησης για τη συντακτική πολυπλοκότητα, τις ερωτήσεις-ηχώ, τη χρήση συναισθηματικά φορτισμένων εκφράσεων και διαφορετικών στρατηγικών ευγένειας, συμφωνίας/διαφωνίας. Αυτά τα στοιχεία υπολογίστηκαν και επιβεβαίωσαν τις κοινωνιογλωσσικές μελέτες, σύμφωνα με τις οποίες αποτελούν χαρακτηριστικά της γυναικείας γλωσσικής συμπεριφοράς. Από την άλλη πλευρά, κοινωνιογλωσσικοί δείκτες όπως η χρήση ερωτηματικών μορφών στην παρούσα μελέτη αποδείχτηκε ότι για το σύνολο δεδομένων που εξετάστηκε είναι περισσότερο αντρική παρά γυναικεία γλωσσική επιλογή. Ο δείκτης των κενών επιθέτων δεν επιβεβαιώθηκε ως γυναικείο χαρακτηριστικό, αλλά μετά τις μετρήσεις αποδείχτηκε ότι η αυξημένη χρήση επιθέτων είναι μέρος της αντρικής γλωσσικής συμπεριφοράς. Οι θεωρητικοί κι εμπειρικοί δείκτες που σχετίζονταν με αντρικές γλωσσικές επιλογές επιβεβαιώθηκαν με τα ευρήματα των μετρήσεων αυτής της εργασίας, και τα στοιχεία vocabulary richness, slang types και το, μέχρι πρότινος θεωρούμενο ως ουδέτερο, lexical density, αναδεικνύονται ως στατιστικά σημαντικά αντρικά γλωσσικά χαρακτηριστικά. Τέλος, παρατηρείται ότι το μήκος της περιόδου είναι σημαντικό χαρακτηριστικό, με τους άντρες να προτιμούν/επιλέγουν να κάνουν χρήση μεγαλύτερων προτάσεων απ ό,τι οι γυναίκες. 75
Σημαντική παράμετρος που επηρεάζει τα αποτελέσματα της μελέτης είναι το είδος του κειμένου από το οποίο συγκροτείται το σύνολο δεδομένων που χρησιμοποιήθηκε στην πειραματική διαδικασία. Σε αντίθεση με προγενέστερες κοινωνιογλωσσικές μελέτες που δεν εξέταζαν γραπτό κείμενο αλλά κυρίως ομιλία ή απομαγνητοφωνημένο λόγο, χρησιμοποιήθηκε ένα σώμα κειμένων από μέσα κοινωνικής δικτύωσης, Τα αποτελέσματα των μετρήσεων είναι ενθαρρυντικά για την πραγματοποίηση κοινωνιογλωσσικής μελέτης σε κείμενο. Επίσης αναδεικνύεται η τάση ότι όσο πιο σύντομο είναι ένα κείμενο τόσο πιο κοντά βρίσκεται στην ομιλία, εμφανίζοντας έμφυλες γλωσσικές προτιμήσεις, ενώ όσο εκτενέστερο είναι τόσο πιο κοντά βρίσκεται στον γραπτό, και αντικατοπτρίζει έναν πιο ουδέτερο χαρακτήρα, καθιστώντας έτσι δυσκολότερη την ανίχνευση του φύλου του συγγραφέα. Γενικό συμπέρασμα της εργασίας αυτής είναι ότι όντως παρατηρούνται έμφυλες γλωσσικές διαφοροποιήσεις στο γραπτό λόγο. Οι γυναίκες χρησιμοποιούν πιο περίπλοκες συντακτικές δομές, ενώ οι άντρες είναι πιο αναλυτικοί γράφοντας μεγαλύτερες προτάσεις με περισσότερα επίθετα. Οι άντρες επίσης χρησιμοποιούν περισσότερες λέξεις περιεχομένου αναλογικά σε ένα κείμενο απ ό,τι οι γυναίκες, και το λεξιλόγιό τους είναι πλουσιότερο. Στο γυναικείο κείμενο από την άλλη, οι ερωτήσεις-ηχώ, οι συναισθηματικά φορτισμένες εκφράσεις και οι πιο «ευγενικοί» τύποι τείνουν να κυριαρχούν, χωρίς να εμπλουτίζουν σημαντικά το λεξιλόγιο. Στην ενότητα που ακολουθεί παρουσιάζεται το επόμενο βήμα της έρευνας, δηλαδή η κατηγοριοποίηση κειμένων από κοινωνικά δίκτυα, χρησιμοποιώντας τα χαρακτηριστικά που αντλήθηκαν από την κοινωνιογλωσσική έρευνα. 5.3. Κατηγοριοποίηση κειμένου ανάλογα με το φύλο του συγγραφέα χρησιμοποιώντας κοινωνιογλωσσικούς δείκτες ως χαρακτηριστικά Σε συνέχεια της εργασίας που παρουσιάστηκε παραπάνω, περιγράφεται η μέθοδος που ακολουθήθηκε για την αυτόματη κατηγοριοποίηση κειμένων από μέσα κοινωνικής δικτύωσης ανάλογα με το φύλο του συγγραφέα τους. Η μέθοδος αυτή βασίζεται στη διεπιστημονικότητα, καθώς συνδυάζονται χαρακτηριστικά που έχουν προκύψει από πεδίο της αυτόματης κατηγοριοποίησης κειμένου, με ποιοτικούς δείκτες του πεδίου της κοινωνιογλωσσολογίας που αφορούν τις έμφυλες γλωσσικές προτιμήσεις. Αυτά τα δύο είδη χαρακτηριστικών συνδυάζονται, με στόχο να 76
επιτευχθεί υψηλότερο ποσοστό ακρίβειας της κατηγοριοποίησης, και να αποδειχθεί ότι όταν κοινωνιογλωσσικά και στατιστικά χαρακτηριστικά συνδυάζονται έχουμε καλύτερα αποτελέσματα. 5.3.1. Χαρακτηριστικά κατηγοριοποίησης Ο στόχος αυτής της προσέγγισης για την αναγνώριση του φύλου του συγγραφέα είναι η χρήση των κοινωνιογλωσσικών χαρακτηριστικών (βλ. ενότητα 5.2.),σε πειράματα αυτόματης κατηγοριοποίησης κειμένου προκειμένου να διαπιστωθεί αν αυτή η γνώση μπορεί να βελτιώσει τα αποτελέσματα των πειραμάτων. Τα χαρακτηριστικά αυτά προστίθενται σε μια λίστα καθιερωμένων στατιστικών χαρακτηριστικών, και εξετάζεται η βελτίωση που μπορούν επιφέρουν στην κατηγοριοποίηση. Η λίστα των στατιστικών χαρακτηριστικών αποτελείται από στοιχεία τα οποία έχουν χρησιμοποιηθεί σε ένα μεγάλο εύρος μελετών στο πεδίο της εξόρυξης κειμένου, όπως σε εργασίες αναγνώρισης του είδους του κειμένου, της ταυτότητας του συγγραφέα, του φύλου του, κλπ. (Zheng et al., 2006). Αυτό το βασικό διάνυσμα χαρακτηριστικών συνδυάζεται με τα χαρακτηριστικά που προέκυψαν από την ποσοτικοποίηση της κοινωνιογλωσσικής γνώσης (βλ. ενότητα 5.2.2). Τα κοινωνιογλωσσικά χαρακτηριστικά που χρησιμοποιήθηκαν αντιστοιχούν στους έμφυλους κοινωνιογλωσσικούς δείκτες της συντακτικής πολυπλοκότητας, της χρήσης επιθέτων, του μήκους της πρότασης, των διαφορετικών στρατηγικών ευγένειας, συμφωνίας/διαφωνίας, των ερωτήσεων-ηχώ, των αργκό και υβριστικών εκφράσεων, των συναισθηματικά φορτισμένων φράσεων, της λεξικής πυκνότητας, της ερωτηματικής επιτόνησης και του πλούτου του λεξιλογίου. Η ομάδα με τα αρχικά στατιστικά χαρακτηριστικά (baseline feature set- BSL) και τα χαρακτηριστικά που έχουν προκύψει από τους κοινωνιογλωσσικούς δείκτες (sociolinguistic features- SLG) περιγράφονται αναλυτικά στους Πίνακες 10 και 11. Το διάνυσμα των BSL χαρακτηριστικών έχει μήκος 24 και το διάνυσμα των SLG χαρακτηριστικών είναι ίσο με 11. 77
Πίνακας 10. Τα BSL χαρακτηριστικά που χρησιμοποιήθηκαν στην έμφυλη κατηγοριοποίηση κειμένου. BSL features # of characters per web post normalized # of alphabetic characters normalized # of upper case characters # of occurrence of each alphabetic character normalized # of digit characters normalized # of tab ('\t') characters normalized # of space characters normalized # of special characters ("@", "#", "$", "%", "&", "*", "~", "^", "-", "=", "+", ">", "<", "[", "]", "{", "}", " ", "\", "/") total # of words normalized # of words with length less than 4 characters # of punctuation symbols (".", ",", "!", "?", ":", ";", "'", "\"") average word length # of lines average # of characters per sentence # of sentences normalized # of unique words # of paragraphs average # of words per sentence # of "hapax legomena" # of "hapax dislegomena" normalized # of characters per word # of function words average # of sentences per paragraph average # of characters per paragraph 78
Πίνακας 11. Τα SLG χαρακτηριστικά που χρησιμοποιήθηκαν στην έμφυλη κατηγοριοποίηση κειμένου. SLG features normalized # of the sentence verbs normalized # of adjectives per comment normalized # of the text s words # of standard polite, agreement/disagreement phrases # of tag question phrases # of slang types # of bad words normalized # of sentimentally polarized words of the comment, according to SentiWordNet[30] normalized # of the document s content words normalized # of the question marks to the total # of the document s punctuation normalized # of different words per comment Για το συνδυασμό των στατιστικών (BSL) και των κοινωνιογλωσσικών (SLG) χαρακτηριστικών υιοθετούνται δύο προσεγγίσεις μίξης (fusion). Κατά την πρώτη προσέγγιση (early combination- πρώιμος συνδυασμός), τα SLG χαρακτηριστικά προσαρτώνται στο BSL διάνυσμα και το συνδεδεμένο διάνυσμα των χαρακτηριστικών γίνεται αντικείμενο επεξεργασίας από τον αλγόριθμο κατηγοριοποίησης. Στη δεύτερη προσέγγιση (late fusion - όψιμος συνδυασμός), τα data-driven (BSL) και τα knowledge-based (SLG) διανύσματα υλοποιούνται. ξεχωριστά από τα συστήματα κατηγοριοποίησης και τα αποτελέσματα αναμειγνύονται από έναν κατηγοριοποιητή δευτέρου επιπέδου. Και στις δύο προσεγγίσεις (πρώιμη και όψιμη μίξη) τα δύο τύπων χαρακτηριστικά χρησιμοποιούνται κατά τη διαδικασία κατηγοριοποίησης. 79
5.3.2. Πειραματική διαδικασία και αξιολόγηση των αποτελεσμάτων Η μεθοδολογία που βασίζεται στο συνδυασμό στατιστικών και κοινωνιογλωσσικών χαρακτηριστικών, όπως περιγράφηκε στην ενότητα 5.3.1., αξιολογήθηκε χρησιμοποιώντας το σύνολο δεδομένων «Users web comments data set» (βλ. 3.2.), που αποτελείται από σχόλια χρηστών στο διαδίκτυο. Για το στάδιο της κατηγοριοποίησης χρησιμοποιήθηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης, και πιο συγκεκριμένα, ο MLP (νευρωνικά δίκτυα πολλαπλών επιπέδων) και ο Support Vector Machines (SVM), χρησιμοποιώντας radial basis kernel (RBF) και polynomial kernel (poly). Επιπλέον, υλοποιήθηκε και ο Adaboost.M1, ένας boosting αλγόριθμος που συνδυάζεται με δέντρα αποφάσεων (AdaBoost) και ένας bagging αλγόριθμος με decision trees (Bagging). Τέλος, χρησιμοποιήθηκαν τρεις αλγόριθμοι δέντρων αποφάσεων, ο Random Tree (RandTree), ο Random Forest (RandForest) και ο fast decision tree learner (RepTree). Όλοι οι παραπάνω αλγόριθμοι υλοποιήθηκαν μέσω του συστήματος WEKA (βλέπε 3.2.). Στην προσπάθεια να μην υπάρχει επικάλυψη ανάμεσα στο σύνολο δεδομένων εκπαίδευσης (training set) και το σύνολο δεδομένων ελέγχου (test set), ακολουθείται το πρωτόκολλο αξιολόγησης 10-fold cross validation. Το σύνολο δεδομένων χωρίζεται σε 10 ισομερή τμήματα, όπου τα πρώτα 9 ορίζονται ως το σύνολο δεδομένων εκπαίδευσης και το δέκατο ορίζεται ως το σύνολο δεδομένων ελέγχου. Στη συνέχεια, τα επόμενα 9 (ξεκινώντας από το δεύτερο) ορίζονται ως σύνολο εκπαίδευσης και το 10 ο ως σύνολο ελέγχου, κοκ.. Η διαδικασία αυτή συνεχίζεται μέχρι και τα 10 τμήματα του corpus να περάσουν από τη διαδικασία του ελέγχου ως test set. Τα αποτελέσματα της απόδοσης των σωστά κατηγοριοποιημένων κειμένων με τη μορφή ποσοστών παρουσιάζονται στον Πίνακα 12. Οι σημαντικότερες αποδόσεις εμφανίζονται με έντονη γραφή. 80
Πίνακας 12. Τα αποτελέσματα της έμφυλης κατηγοριοποίησης χρησιμοποιώντας διαφορετικούς αλγορίθμους και ρυθμίσεις. BSL SLG BSL+SLG (early fusion) BSL+SLG (late fusion) MLP 82.31 66.87 82.51 84.36 SVM(rbf) 67.49 50.00 68.31 83.13 SVM(poly) 82.72 63.17 84.16 82.92 Bagging 82.72 69.35 83.54 82.30 Boosting 82.10 69.14 82.51 81.07 RepTree 82.92 67.08 80.86 81.48 RandForest 82.72 69.34 82.72 79.84 RandTree 79.84 66.05 81.07 75.51 Όπως διαπιστώνεται από τον Πίνακα 12, μόνο η χρήση των SLG χαρακτηριστικών πετυχαίνει, στην καλύτερη περίπτωση, απόδοση 69.34% με τον κατηγοριοποιητή RandForest, απόδοση μη ανταγωνιστική συγκρινόμενη με τα BSL χαρακτηριστικά. Η χρήση τους δε σε συνδυασμό με τα BSL χαρακτηριστικά αυξάνει κατά περίπου 1.5% την απόδοση απ ό,τι η χρήση μόνο της BSL λίστας χαρακτηριστικών. Πιο συγκεκριμένα, η καλύτερη απόδοση των BSL χαρακτηριστικών ήταν 82.92% με τον κατηγοριοποιητή RepTree, όταν η συνολική καλύτερη απόδοση ήταν 84.36%, ποσοστό το οποίο επετεύχθη με την προσέγγιση της όψιμης μίξης και τον MLP αλγόριθμο κατηγοριοποίησης. Παρατηρείται ότι και στις δύο προσεγγίσεις μίξης (early και late fusion) υπάρχει βελτίωση στην απόδοση όταν συνδυάζονται και οι δύο ομάδες χαρακτηριστικών, πράγμα που αποδεικνύει τη σημαντικότητα της συμβολής των κοινωνιογλωσσικών χαρακτηριστικών. Όσον αφορά τους αλγόριθμους κατηγοριοποίησης κατά την περίπτωση της πρώιμης μίξης, όπου το διάνυσμα έχει μήκος 24+11=35, ο SVM κατηγοριοποιητής ξεπερνά όλους τους υπόλοιπους, μάλλον χάριν του γεγονότος ότι δεν επηρεάζεται από την διαστατικότητα (dimensionality). Κατά την όψιμη μίξη, όπου το διάνυσμα αποτελείται από τις πιθανότητες του να είναι female/male από τα BSL και τα SLG (2+2=4), o MLP κατηγοριοποιητής αποδίδει καλύτερα από τον SVM. 81
Συνοψίζοντας, η διερεύνηση της υπάρχουσας γνώσης που αντλείται από θεωρητικές και κοινωνιογλωσσικές μελέτες και η μετατροπή αυτής της ποιοτικής πληροφορίας σε ποσοτικές μετρικές μπορεί να βελτιώσει την ακρίβεια έμφυλης κατηγοριοποίησης κειμένου. Η χρήση βασισμένων στην κοινωνιογλωσσολογία κειμενικών χαρακτηριστικών είναι βασική όχι μόνο για να συνδυάζεται με τυπικά χαρακτηριστικά εξόρυξης κειμένου, όπως φάνηκε σε αυτή την ενότητα στην ενότητα, αλλά μπορεί επίσης να χρησιμοποιηθεί για να τελειοποιήσει υπολογιστικούς αλγορίθμους, υποστηρίζοντας την εκπαίδευση των στατιστικών μοντέλων μέσω του ορισμού των αρχικών τιμών και του περιορισμού του εύρους των τιμών των ελεύθερων παραμέτρων, που θα προφυλάσσει από προκατειλημμένα μοντέλα σε συγκεκριμένα δεδομένα. Στην επόμενη ενότητα περιγράφεται το έργο της έμφυλης κατηγοριοποίησης κειμένου, με διαφορετικές τεχνικές και μεθόδους από το έργο που μόλις περιγράφηκε, με τη χρήση επιπλέον χαρακτηριστικών γλωσσικών μοντέλων και με τη διαδικασία επιλογής των πιο σημαντικών χαρακτηριστικών (feature selection). 5.4. Κατηγοριοποίηση κειμένου ανάλογα με το φύλο του συγγραφέα με επιλογή χαρακτηριστικών και γλωσσικά μοντέλα Στην παρούσα ενότητα περιγράφεται η ταξινόμηση χαρακτηριστικών (feature ranking) και η επιλογή ενός υποσυνόλου, με σκοπό τη βελτίωση της ακρίβειας κατά την κατηγοριοποίηση αναρτήσεων σε web blog ανάλογα με το φύλο του συγγραφέα τους. Η επιλογή χαρακτηριστικών (feature selection) πραγματοποιείται σε ένα ευρύ σύνολο χαρακτηριστικών που αποτελείται από στατιστικά χαρακτηριστικά, χαρακτηριστικά μερών του λόγου (POS tags) και γλωσσικά μοντέλα (language models -LM) που βασίζονται σε μεθοδολογίες εξαγωγής χαρακτηριστικών (feature extraction). Αυτά τα κειμενικά χαρακτηριστικά αξιολογούνται από διαφορετικούς αλγόριθμους κατηγοριοποίησης, προκειμένου να αξιολογηθεί η απόδοση της έμφυλης κατηγοριοποίησης για κάθε σετ που περιέχει διαφορετικό αριθμό χαρακτηριστικών. 82
5.4.1. Προτεινόμενη μεθοδολογία Κατά τη διαδικασία της αναγνώρισης φύλου συγγραφέα σε blog, για την επιλογή των χαρακτηριστικών υιοθετήθηκε μια καθιερωμένη προσέγγιση που έχει ακολουθηθεί σε αρκετές αντίστοιχες μελέτες, μέρη της οποίας είναι η προ-επεξεργασία των κειμένων, η εξαγωγή των χαρακτηριστικών και η κατηγοριοποίηση, όπως απεικονίζεται στην Εικόνα 2. Εικόνα 2. Το σχηματικό διάγραμμα της μεθοδολογίας για την κατηγοριοποίηση των κειμένων ανάλογα με το φύλο του συγγραφέα. Πιο αναλυτικά, κάθε blog ανάρτηση περνά αρχικά το στάδιο της προ-επεξεργασίας, κατά τη διάρκεια της οποίας χωρίζεται σε προτάσεις και κάθε πρόταση χωρίζεται σε λέξεις. Στη συνέχεια εφαρμόζονται, παράλληλα τρεις μέθοδοι εξαγωγής χαρακτηριστικών σε κάθε κείμενο. Εξάγονται χαρακτηριστικά που προέρχονται από στατιστικές μετρήσεις, POS tags, και γλωσσικά μοντέλα, σχηματίζοντας τα διανύσματα, και αντίστοιχα. Αυτά τα χαρακτηριστικά συνδέονται στη συνέχεια δημιουργώντας ένα μεγαλύτερο διάνυσμα F F F F STAT POS LM i i i την έμφυλη κατηγορία κάθε ανάρτηση. STAT F i POS F i LM F i, το οποίο από τον αλγόριθμο κατηγοριοποίησης, προκειμένου να επισημανθεί ως προς 83