Τίτλος: «Η Αναγνώριση Μητρικής Γλώσσας (Native Language Identification [NLID]) στην υπόθεση υποκλοπής της Sony Pictures: Μια πρώτη έρευνα σύστασης γλωσσικού προφίλ (authorship profiling) βασισμένη στα μοτίβα χρήσης του άρθρου της αγγλικής γλώσσας όπως εντοπίζονται στη διαγλώσσα των χάκερ.» Όνομα: Αθηνά Κουτσιαύτη Φορέας: Aston University (Ηνωμένο Βασίλειο)
Η παρούσα έρευνα ξεκίνησε ως μια προσπάθεια αναγνώρισης της μητρικής γλώσσας των χάκερ στην υπόθεση υποκλοπής της Αμερικανικής εταιρίας Sony Pictures Entertainment (SPE). Στις 24 Νοεμβρίου 2014, οι αυτοαποκαλούμενοι «Φρουροί της Ειρήνης (Guardians of Peace [GOP])» χάκαραν το λογισμικό της εταιρίας, προειδοποιώντας την για επικείμενη διαρροή εμπιστευτικών στοιχείων, σε περίπτωση που δεν απέσυρε την ταινία «The Interview». Αρκετές υποθέσεις έγιναν αρχικά, για την εμπλοκή της Βόρειας Κορέας και, αργότερα, της Ρωσίας στο σκάνδαλο. Οι συγκεκριμένες υποθέσεις προέκυψαν όταν στελέχη του FBI εντόπισαν την διεύθυνση IP των υπολογιστών από τους οποίους στάλθηκαν 22 απειλητικά e-mail γραμμένα στα Αγγλικά, και επιβεβαίωσαν ότι οι μέθοδοι παρακολούθησης ήταν παρόμοιες με εκείνες που είχαν χρησιμοποιηθεί από Βορειοκορεάτες σε άλλες υποθέσεις. Κάτι τέτοιο, ωστόσο, δεν συνδεόταν απαραιτήτως με το γλωσσικό προφίλ των χάκερ, καθώς δεν εγγυάτο αυτομάτως ότι η μητρική γλώσσα των συντακτών των μηνυμάτων ήταν τα Κορεατικά ή τα Ρωσικά, ούτε ότι δεν υπήρξε απόπειρα από μεριάς των χάκερ να προσποιηθούν ότι αποτελούν ομιλητές που δεν έχουν ως μητρική τους τα Αγγλικά. Η τελευταία περίπτωση αναφέρεται στο ζήτημα της «μεταμφίεσης» (disguise) στη γλώσσα, το οποίο έχει ήδη εξετασθεί σε προηγούμενη γλωσσολογική έρευνα που δεν σχετίζεται με την παρούσα. Αυτό επιτεύχθηκε αφού εντοπίστηκαν μοτίβα στη διαγλώσσα των χάκερ τα οποία αποκάλυπταν ότι οι αποστολείς κατείχαν την Αγγλική ως δεύτερη και όχι ως πρώτη γλώσσα, αποκλείοντας έτσι την πιθανότητα «μεταμφίεσης» της γλώσσας στην υπόθεση. Η παρούσα μελέτη προσπάθησε αρχικά να δώσει μια απάντηση στο ερώτημα «Ποια είναι η μητρική γλώσσα των χάκερ», το οποίο, όμως, λόγω των πολλών περιορισμών, όπως ο περιορισμένος χρόνος και η περιορισμένη έκταση σε συνδυασμό με πολλαπλές κοινωνιογλωσσολογικές πτυχές της σύστασης γλωσσικού προφίλ (authorship profiling) παρέμεινε αναπάντητο. Ωστόσο, οι περιορισμοί αυτοί δεν εμπόδισαν το συγκεκριμένο έργο από το να αποτελέσει μια ιδιαιτέρως αξιόπιστη αρχική έρευνα που παρέχει σε κάθε γλωσσολόγο που επιθυμεί να ασχοληθεί με την «Αναγνώριση Μητρικής Γλώσσας (NLID)» εκείνη την αναγκαία θεωρητική βάση που τον καθιστά έναν αναμφίβολα περισσότερο αφυπνισμένο ερευνητή αναφορικά με παραμέτρους και πτυχές που καθορίζουν την σύσταση της διαγλώσσας ενός ατόμου. Τέτοιες πτυχές και παράμετροι σχετίζονται με τομείς που εκτείνονται από την κατάκτηση της δεύτερης γλώσσας και την έννοια της «διαγλώσσας» και του «λάθους» μέχρι και την εξέλιξη και επέκταση των γλωσσών και των διαλέκτων ανά τον κόσμο. Πέραν της θεωρητικής αναφοράς που καλύπτει το μεγαλύτερο μέρος της έρευνας, ακολουθεί το πρακτικό μέρος, όπου παρουσιάζεται ένα δείγμα τη γλωσσικής ανάλυσης που προτείνεται από τη συγγραφέα για τα συγκεκριμένα e-mail. Στόχος αυτού του μέρους είναι να εξεταστεί εάν η εφαρμογή μιας προσέγγισης βασισμένης στη Συστημική Λειτουργική Γλωσσολογία (Systemic Functional Linguistics [SFL]) του Halliday (2001) θα ήταν αποτελεσματική στον εντοπισμό «λαθών», ή πιο σωστά, «διαγλωσσικών στοιχείων». Τα 22 e-mail αναλύθηκαν πρόταση προς πρόταση με το κάθε στοιχείο να χαρακτηρίζεται αναλόγως, σύμφωνα με τα τρία επίπεδα σημασίας (strands of meaning) στο οποία ο Halliday διακρίνει τη γλώσσα, π.χ. κειμενικό (Textual). Έπειτα επιλέχθηκε ως βασικό σημείο μελέτης το άρθρο της Αγγλικής «A/An/The» προκειμένου να εντοπιστούν οι διάφορες χρήσεις του στη διαγλώσσα των
χάκερ και να κατηγοριοποιηθούν τα μοτίβα χρήσης σύμφωνα με κριτήρια που προτείνονται από την Perkins (2014). Το συμπέρασμα της εν λόγω έρευνας ήταν ότι η πρακτική εφαρμογή της ανάλυσης SFL αποδείχθηκε ιδιαιτέρως σημαντική ώστε να κατανοηθεί η φύση της διαγλώσσας των χάκερ και να οργανωθεί αποτελεσματικά η διαδικασία δημιουργίας μοτίβων. Σίγουρα, ωστόσο, η ανάλυση μικρότερων γραμματικών κατηγοριών, όπως οι ονοματοποιημένες φράσεις, θα ήταν ίσως περισσότερο αμερόληπτη και πιο αποκαλυπτική ποσοτικά και ποιοτικά για τη σύσταση του γλωσσικού προφίλ ενός ατόμου στο μέλλον.
Βιβλιογραφία Analysing English in a Global Context: A Reader. (2001). London: Routledge in association with Macquarie University and the Open University. Bellou, S. (2011). Second Language: Acquisition and Teaching. Athens: Patakis Publications. Bhatia, T.K. & Ritchie, W.C. (2013). Multilingualism and Forensic Linguistics. In T.K. Bhatia & W.C. Ritchie (2013). The Handbook of Bilingualism and Multilingualism. Malden & Oxford: Blackwell, 671-701. Bialystok, E. & Smith, M. (1985). Interlanguage is not a state of mind: An evaluation of the construct for second-language acquisition second-language acquisition, 6(2) 101-117. Brooke, J. & Hirst, G. (2011). Native language detection with cheap learner corpora. In Learner Corpus Research 2011 (LCR 2011), Louvain-la-Neuve. Bykh, S. & Meurers, D. (2012). Native Language Identification Using Recurring N- grams Investigating Abstraction and Domain Dependence, 425-440. Retrieved from: http://www.aclweb.org/anthology/c12-1027 Carter, R., & McCarthy, M. (2006). Cambridge Grammar of English: A Comprehensive Guide: Spoken and Written English Grammar and Usage. Cambridge: Cambridge University Press. Cotterill, J. (2010). How to use corpus linguistics in forensic linguistics. In A. O'Keeffe & M. McCarthy (2010). The Routledge Handbook of Corpus Linguistics. London; New York: Routledge, 578-591. Coulthard, M., Grant, T. & Kredens, K. (2010). Forensic Linguistics. In B. Johnstone, R. Wodak, & P. Kerswill (eds). The SAGE Handbook of Sociolinguistics, Thousand Oaks, CA: Sage Publications. Eades, D. (2005). Applied Linguistics and Language Analysis in Asylum Seeker Cases. Applied Linguistics, 26(4), 503-526.
Eggins, S. (2004). An Introduction to Systemic Functional Linguistics. New York; London: Continuum. Estival, D., Hutchinson, B., Gaustad, T., Pham, S.B. & Radford, W. (2007a). Author Profiling for English Emails, 263-272. Estival, D., Hutchinson, B., Gaustad, T., Pham, S.B. & Radford, W. (2007b). TAT: an author profiling tool with application to Arabic emails, Proceedings of the Australasian Language Technology Workshop 2007, 21-30. Grant, T. (2008). Approaching questions in forensic authorship analysis. In J. Gibbons & M.T. Turell (eds), Dimensions of Forensic Linguistics. Philadelphia, PA: John Benjamins Publishing Company, 215-229. Grant, T., Kredens, K. & Perkins, R. (2010). Identifying an Author s Native Language Phase 2+Finding and training the bilingual language expert. Birmingham Halliday, M. K., & Matthiessen, C. M. (2001). An introduction to Functional Grammar. London: Arnold. Huddleston, R., & Pullum, G. K. (2002). The Cambridge grammar of the English language. Cambridge : Cambridge University Press. Hubbart, E.H.H. (1996). Errors in Court: A forensic application of error analysis. In H. Kniffka, S. Blackwell & M. Coulthard (eds). Recent Developments in Forensic Linguistics. Frankurt am Main: Peter Lang GmbH, 123-140. Koppel, M., Schler, J. & Zigdon, K. (2005). Determining and author s native language by mining a text for errors. In Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining-kdd 05. New York; ACM Press, 624-628. Larsen-Freeman, D. (2012). The grammar of choice. In S. Fotos & E. Hinkel (2012). New Perspectives on Grammar Teaching in Second Language Classrooms. Mahwah, N.J.; London: Lawrence Erlbaum Associates, 2002. Ledger, G. & Merriam, T. (1994). Shakespeare, Fletcher, and the Two Noble Kinsmen. In Literary and Linguistic Computing, 9(3): 235 248. In D. Estival et al. (2007). Author Profiling for English E-Mails. In Proceedings of the 10th Conference
of the Pacific Association for Computational Linguistics, 19 21 September, 2007 Melbourne: Australia University of Melbourne, 263-272. Lightbown, P., & Spada, N. M. (2013). How Languages are Learned. Oxford: Oxford University Press. McArthur, T. (2003). The Oxford Guide to World English. Oxford: Oxford University Press. McMenamin, G. R. & Choi, D. (2002). Forensic Linguistics: Advances in Forensic Stylistics. Boca Raton, Fla: CRC Press. Mosteller, F. & Wallace, D.L. (1964). Inference and Disputed Authorship: The Federalist Series in Behavioral Science, Boston, US: Addison-Wesley. Odlin, T. (1989). Language Transfer: Cross-linguistic influence in language learning. Cambridge: Cambridge University Press. Perkins, R (2014). Chapter 12: Native Language Identification (NLID) for Forensic Authorship Analysis of Weblogs. In M. Dawson & M. Omar (2014). Handbook of Research on New Threats and Countermeasures in Digital Crime and Cyber Terrorism, USA: IGI Global. Perkins, R. & Grant, T. (2013). Forensic linguistics. In Encyclopaedia of Forensic Sciences. Perkins, R. (2014). Linguistic identifiers of L1 Persian speakers writing in English: NLID for authorship analysis. Unpublished doctoral dissertation. Aston University, Birmingham, U.K. Saville-Troike, M. (2012). Introducing Second Language Acquisition. Cambridge; New York: Cambridge University Press. Selinker, L. (1972). Interlanguage. In IRAL, 10, 209-231. Tsur, O. & Rappoport, A. (2007). Using classifier features for studying the effect of native language on the choice of written second language words. In P. Buttery, A. Villavicencio & A. Korhonen (eds), Cognitive Aspects of Computational Language Acquisition, Madison: Omnipress.
Weinreich, U. (1953). Languages in Contact. The Hague: Mouton & Co. Wong, S. J. & Dras, M. (2011). Exploiting Parse Structures for Native Language Identification. In Association for Computational Linguistics (ed), Proceedings of the 2011 Conference an Empirical Methods in Natural Language Processing. Edinburgh, 1600-1610. Wong, S.-M.J. & Dras, M. (2009). Contrastive Analysis and Native Language Identification. In L. A. Pizzato & R. Schwitter (eds.) Australasian Language Technology Association Workshop (ALTA). Sydney, 53-62. Zhang, M. (n.d.). Error analysis and interlanguage. Zhengzhou: China Press.