Μαρίνα Ματθαιουδάκη Περίληψη Τα Ηλεκτρονικά Σώματα Κειμένων (ΗΣΚ) αποτελούνται από σειρά κειμένων (γραπτών ή προφορικών) και είναι αποθηκευμένα σε ηλεκτρονική μορφή και προσβάσιμα με τη χρήση εργαλείων γλωσσικής τεχνολογίας. Υπάρχουν διαφορετικά είδη ΗΣΚ ανάλογα με το μέγεθός τους, τον συγχρονικό ή διαχρονικό τους χαρακτήρα, τα είδη λόγου που εκπροσωπούν, τα κριτήρια με βάση τα οποία δομούνται σε υποσύνολα, το αν προέρχονται από το λόγο φυσικών ή μη φυσικών ομιλητών, αν είναι μονόγλωσσα, ή δίγλωσσα κ.ά. Εδώ και 20 χρόνια, τα ΗΣΚ έχουν αποκτήσει σημαντική θέση στη μελέτη και διδασκαλία των γλωσσών, γεγονός το οποίο αντικατοπτρίζεται στο πλήθος των ερευνών που βασίζονται στα ΗΣΚ, στις δημοσιεύσεις γύρω από τη χρήση τους αλλά και στην εφαρμογή τους στη γλωσσοδιδακτική. Στο κεφάλαιο αυτό θα παρουσιαστούν τα χαρακτηριστικά των ΗΣΚ, τα είδη τους, οι τεχνικές επεξεργασίας τους και τέλος οι εφαρμογές τους. Έμφαση θα δοθεί στην εφαρμογή των ΗΣΚ στη διδακτική των γλωσσών με την παρουσίαση της τυπολογίας ασκήσεων με βάση τα ΗΣΚ, καθώς επίσης και με την παρουσίαση συγκεκριμένων διδακτικών προτάσεων. Χρήση και Εφαρμογή Σωμάτων Κειμένων Τα Ηλεκτρονικά Σώματα Κειμένων (ΗΣΚ-Corpora) αποτελούν συλλογές κειμένων οι οποίες έχουν γίνει με βάση συγκεκριμένα κριτήρια όσον αφορά (α) το είδος των κειμένων, (β) το μέγεθος τους, και (γ) το σκοπό για τον οποίο θα χρησιμοποιηθούν. Σύμφωνα με τους McEnery και Wilson (1996: 24), τα ΗΣΚ ορίζονται ως σώματα κειμένων με πεπερασμένο αριθμό κειμένων και λέξεων σε ηλεκτρονική μορφή, τα οποία έχουν επιλεγεί με τέτοιο τρόπο, ώστε να αποτελούν όσο το δυνατό πιο αντιπροσωπευτικά δείγματα της γλωσσικής ποικιλίας που μελετάται. Τα ΗΣΚ είναι αποθηκευμένα και προσβάσιμα μόνο σε ηλεκτρονική μορφή. Χαρακτηριστικά των ΗΣΚ Λόγω του μεγάλου μεγέθους τους, τα ΗΣΚ θεωρούνται αντιπροσωπευτικά της γλώσσας την οποία εκπροσωπούν. Επίσης είναι περατά, δηλαδή δεν αυξάνονται συνέχεια σε όγκο, αλλά έχουν συγκεκριμένο μέγεθος. Παρ όλα αυτά, επειδή είναι ηλεκτρονικά, είναι δυνατόν να ανανεώνονται και να εκσυγχρονίζονται. Αυτό σημαίνει ότι κάποια κείμενα αντικαθίστανται με άλλα, πιο σύγχρονα. Τα κείμενα αυτά πρέπει να έχουν το ίδιο μήκος και να είναι του ίδιου είδους με αυτά που αντικαθιστούν. Τέλος, τα ΗΣΚ έχουν μόνο ηλεκτρονική υπόσταση και είναι προσβάσιμα μόνο μέσω ηλεκτρονικού υπολογιστή. Ως αποτέλεσμα αυτού του χαρακτηριστικού, η έρευνα και ο χειρισμός της πληροφορίας που πηγάζει από τα ΗΣΚ μπορεί να γίνει πολύ γρήγορα. Έτσι, τα ΗΣΚ αποτελούν μία συλλογή γλωσσικών πληροφοριών και αντικειμενικών δεδομένων. Το μεγάλο τους μέγεθος (ο μεγάλος αριθμός κειμένων από τα οποία αποτελούνται) μας διευκολύνουν να διενεργήσουμε στατιστικές μελέτες και να αντλήσουμε έγκυρα και αξιόπιστα στατιστικά στοιχεία όσον αφορά τη συχνότητα των λέξεων μιας γλώσσας. Επίσης, ο αυθεντικός χαρακτήρας των κειμένων που αποτελούν τα ΗΣΚ μας δίνει τη δυνατότητα να διερευνήσουμε ποιες είναι οι πιο κοινές και τυπικές
δομές μιας γλώσσας, καθώς επίσης και να αντλήσουμε από αυτά παραδείγματα για διδακτικούς σκοπούς. Είδη ΗΣΚ Υπάρχουν διαφορετικά είδη ΗΣΚ ανάλογα με το μέγεθός τους, τον συγχρονικό ή διαχρονικό τους χαρακτήρα, τα είδη λόγου που εκπροσωπούν, τα κριτήρια με βάση τα οποία δομούνται σε υποσύνολα (subcorpora), το αν προέρχονται από το λόγο φυσικών ή μη φυσικών ομιλητών, αν είναι μονόγλωσσα ή δίγλωσσα κ.ά. (McEnery, Xiao and Tono 2006). Συγκεκριμένα, έχουμε: (α) Προφορικά και γραπτά σώματα κειμένων: Αυτά είναι ΗΣΚ που περιλαμβάνουν μόνο προφορικό ή μόνο γραπτό λόγο, αντίστοιχα. Υπάρχουν ΗΣΚ τα οποία περιλαμβάνουν και τα δύο είδη λόγου. (β) Γενικά και ειδικά. Τα Γενικά σώματα κειμένων περιλαμβάνουν πολλών ειδών κείμενα, προφορικά και γραπτά. Τα συγκεκριμένα σώματα κειμένων χρησιμοποιούνται κυρίως ως υλικό για τη μετάφραση αλλά και για το σχεδιασμό διδακτικού υλικού (Hunston 2002: 14). Tα Ειδικά σώματα κειμένων περιλαμβάνουν κείμενα ενός συγκεκριμένου είδους, όπως κείμενα από εφημερίδες, από σχολικά εγχειρίδια, ακαδημαϊκά άρθρα, κλπ. και χρησιμοποιούνται για να διερευνηθεί ένα συγκεκριμένο είδος γλώσσας (Hunston 2002: 14). (γ) Μονόγλωσσα και πολύγλωσσα. Τα μονόγλωσσα σώματα κειμένων περιλαμβάνουν κείμενα της ίδιας γλώσσας (π.χ. το BNC (British National Corpus) περιλαμβάνει κείμενα μόνο της αγγλικής γλώσσας, ενώ ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ ) περιλαμβάνει μόνο ελληνικά κείμενα, κτλ.). Τα πολύγλωσσα σώματα κειμένων ονομάζονται Συγκρίσιμα Σώματα Κειμένων, όταν προέρχονται από διαφορετικές γλώσσες ή από διαφορετικές γλωσσικές ποικιλίες της ίδιας γλώσσας και περιλαμβάνουν τον ίδιο αριθμό κειμένων, ίδιας έκτασης, από τα ίδια κειμενικά είδη στις αντίστοιχες γλώσσες ή γλωσσικές ποικιλίες (Hunston 2002: 15). Πολύγλωσσα σώματα κειμένων είναι και τα Παράλληλα Σώματα Κειμένων. Αυτά περιλαμβάνουν κείμενα τα οποία έχουν μεταφραστεί από μία γλώσσα σε κάποια άλλη, όπως για παράδειγμα τα κείμενα της Ε.Ε. Τα Παράλληλα Σώματα Κειμένων χρησιμοποιούνται ως πηγές για τον εντοπισμό πιθανών ισοδύναμων μεταφράσεων από τη μια γλώσσα στην άλλη και στόχο έχουν τη διευκόλυνση του έργου των μεταφραστών. (δ) Συγχρονικά και διαχρονικά ή ιστορικά σώματα κειμένων. Τα συγχρονικά σώματα κειμένων αποτελούνται από κείμενα της σύγχρονης εποχής και επομένως παρουσιάζουν τη συγχρονική μορφή της γλώσσας. Τα διαχρονικά σώματα κειμένων αποτελούνται από κείμενα διαφορετικών εποχών και χρησιμοποιούνται για τον εντοπισμό στοιχείων μιας γλώσσας τα οποία έχουν εξελιχθεί με την πάροδο του χρόνου (Hunston 2002: 16). (ε) Επισημειωμένα και μη επισημειωμένα. Τα πρώτα έχουν υποστεί επεξεργασία, ενώ τα δεύτερα όχι. Οι πιο συνήθεις επεξεργασίες που γίνονται στα ΗΣΚ είναι (α) επισημειώσεις όσον αφορά το μέρος του λόγου (ουσιαστικό, επίθετο, ρήμα, κ.ά.) και (β) επισημειώσεις που αφορούν συντακτικές πληροφορίες (υποκείμενο, ρήμα, αντικείμενο, κ.ά.).
(στ) Παιδαγωγικά. Σύμφωνα με τις Meunier και Gouverneur (2009), το παιδαγωγικό σώμα κειμένων είναι ένα αρκετά μεγάλο και αντιπροσωπευτικό δείγμα της γλώσσας, γραπτής και προφορικής, στην οποία ο μαθητής έχει εκτεθεί ή θα εκτεθεί μέσω του διδακτικού υλικού, είτε μέσα στην τάξη ή κατά τη διάρκεια προσωπικής μελέτης, π.χ. κείμενα, ακουστικό υλικό και ασκήσεις. (ζ) Σώματα Κειμένων Μαθητών. Αυτά περιλαμβάνουν κυρίως γραπτά κείμενα μαθητών μιας δεύτερης ή ξένης γλώσσας. Τα Σώματα Κειμένων Μαθητών είναι μια σχετικά πρόσφατη εξέλιξη στο χώρο της χρήσης των ΗΣΚ και στόχο έχουν τη διερεύνηση των γλωσσικών ικανοτήτων των μαθητών και των λαθών τους είτε για ερευνητικούς είτε για διδακτικούς σκοπούς. Όπως έχει ίσως γίνει φανερό, τα ΗΣΚ έχουν εφαρμογές σε όλες τις επιστήμες που σχετίζονται με την έρευνα και χρήση της γλώσσας, μητρικής ή ξένης, και συγκεκριμένα στη γλωσσολογία, τη λεξικογραφία, τη μετάφραση και την εκπαίδευση. Έτσι, τα ΗΣΚ μπορούν να εξυπηρετήσουν ερευνητικούς σκοπούς, να χρησιμοποιηθούν για το σχεδιασμό διδακτικών προτάσεων και δραστηριοτήτων ή να συμβάλουν στην εύρεση λύσεων σε εφαρμοσμένους τομείς έρευνας, όπως τη λεξικογραφία και την αυτόματη μετάφραση. Βασικές τεχνικές για την επεξεργασία των Η.Σ.Κ. Οι βασικές τεχνικές οι οποίες συνήθως χρησιμοποιούνται για την επεξεργασία των ΗΣΚ και την άντληση πληροφοριών είναι οι: Συμφραστικοί Πίνακες: Μας βοηθούν να δημιουργήσουμε ένα λεξικο-γραμματικό προφίλ για κάθε λέξη. Το προφίλ αυτό περιλαμβάνει πληροφορίες για συμφράσεις, ιδιωτισμούς, συντατικούς περιορισμούς, σημασιολογικούς περιορισμούς, σημασιολογική προσωδία. Συχνότητα λέξεων: Αναφέρεται στη συχνότητα εμφάνισης των λέξεων στη συγκεκριμένη γλώσσα. Ανάλυση των λέξεων-κλειδιά: Είναι οι λέξεις οι οποίες είναι περισσότερο συχνές στο συγκεκριμένο ΗΣΚ από ό,τι σε κάποιο γενικό ΗΣΚ. Για παράδειγμα, σε ένα εξειδικευμένο ΗΣΚ με θέμα τα οικονομικά, οι λέξεις προϋπολογισμός, χρέος, κτλ. είναι λέξεις-κλειδιά, διότι η συχνότητα εμφάνισής τους σ αυτό το ΗΣΚ είναι πολύ υψηλότερη από αυτή σε ένα γενικό ΗΣΚ. Ανάλυση των συμπλεγμάτων: Είναι η ανάλυση του τρόπου με τον οποίο η γλώσσα χρησιμοποιεί κάποια συμπλέγματα λέξεων (π.χ. Θέλω να πω, μεταξύ μας, άστα να πάνε, κλπ.). ΗΣΚ στην ελληνική γλώσσα Σήμερα υπάρχουν τρία σώματα κειμένων για την ελληνική γλώσσα, τα οποία είναι διαθέσιμα στο διαδίκτυο. Αυτά είναι προϊόντα εργασίας ερευνητικών ιδρυμάτων και το καθένα από αυτά εκπροσωπεί διαφορετικά είδη λόγου: - ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ, http://hnc.ilsp.gr/) του Ινστιτούτου Επεξεργασίας Λόγου,
- το Σώμα Νέων Ελληνικών Κειμένων από την «Πύλη για την ελληνική γλώσσα» (http://www.greek-language.gr) του Κέντρου Ελληνικής Γλώσσας (ΚΕΓ, http://www.greeklanguage.gr), - το Σώμα Ελληνικών Κειμένων (ΣΕΚ, http://www.greekcorpora.org/corp1.aspx), προϊόν ερευνητικού προγράμματος του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών (Γούτσος 2003). Οι εφαρμογές των ΗΣΚ Τα ΗΣΚ αποτελούνται από αυθεντικά κείμενα και επομένως περιέχουν δείγματα αυθεντικής γλωσσικής χρήσης. Αυτός είναι και ένας από τους βασικούς λόγους για τους οποίους συνιστάται όλο και περισσότερο η χρήση τους (έμμεση ή άμεση) στη διδακτική των γλωσσών. Με τη χρήση συγκεκριμένων εργαλείων και λογισμικών, μπορούμε να μελετήσουμε και να πάρουμε συγκεκριμένες γραμματικές, συντακτικές, λεξιλογικές αλλά και πραγματολογικές πληροφορίες, που παλαιότερα μπορούσαμε να αντλήσουμε μόνο βασιζόμενοι στο ένστικτο ενός φυσικού ομιλητή της συγκεκριμένης γλώσσας (Hunston 2002). Επίσης, χάρη στη χρήση των ΗΣΚ, είμαστε πλέον σε θέση να γνωρίζουμε πληροφορίες σχετικά με τη συχνότητα χρήσης ενός λήμματος, το συμφραστικό του περιβάλλον (με ποιες άλλες λέξεις, δηλαδή, συνήθως εμφανίζεται), τη σημασιολογική του προσωδία (αν συνήθως συνοδεύεται από λέξεις με θετική ή αρνητική σημασία), αλλά και το είδος των κειμένων στα οποία συνήθως εμφανίζεται. Αυτού του είδους οι πληροφορίες έχουν επηρεάσει σημαντικά τη λεξικογραφία και τη διδασκαλία, αφού δεν υπήρχαν και δεν μπορούσαν να δοθούν έγκυρες απαντήσεις σε τέτοιου είδους ερωτήματα (δηλαδή, συχνότητα χρήσης μιας λέξης, συμφράσεις της και κειμενικές προτιμήσεις) πριν από την εμφάνιση των ΗΣΚ. Τα λεξικά τα οποία σχεδιάστηκαν και γράφηκαν μετά το 1990 είναι βασισμένα εξ ολοκλήρου σε κάποιο ΗΣΚ, ενώ η διδασκαλία αλλά και η αξιολόγηση των μαθητών επηρεάζεται όλο και περισσότερο μετά το 2000 από τα δεδομένα των ΗΣΚ. Τα τελευταία πέντε χρόνια, όλο και περισσότεροι εκδοτικοί οίκοι σχεδιάζουν διδακτικά εγχειρίδια βασισμένα σε ΗΣΚ, φέρνοντας έτσι σε επαφή τους Γ2 μαθητές με την αυθεντική γλώσσα και χρήση της. Οι βασικότερες εφαρμογές των ΗΣΚ χωρίζονται σε τρία βασικά πεδία και είναι οι ακόλουθες: (α) Γλωσσολογία και γλωσσική έρευνα Λεξικογραφία Γλωσσική ποικιλία, π.χ. γλωσσικά χαρακτηριστικά διαφόρων κειμενικών ειδών Γραμματική, Λεξιλόγιο, Σύνταξη Πραγματολογία και Ανάλυση λόγου (β) Μετάφραση Έρευνα και περιγραφή γλωσσών Πρακτικές εφαρμογές o Χρήση παράλληλων κειμένων για την ανεύρεση κατάλληλων μεταφραστικών αντιστοιχιών
o o Δημιουργία τράπεζας μεταφρασμένων κειμένων ή γλωσσαρίων για συγκεκριμένη ορολογία, π.χ. Νομική, Ιατρική, κτλ. Μελέτη σημασιών συγκεκριμένων λέξεων σε κείμενα διαφορετικών επιστημονικών περιοχών (γ) Γλωσσική εκμάθηση και διδασκαλία Εμπειρικά δεδομένα για τη διδασκαλία - αυθεντικά παραδείγματα γλωσσικής χρήσης Εμπειρικά δεδομένα για το σχεδιασμό του αναλυτικού προγράμματος Πηγή αναφοράς: απαντήσεις σε ερωτήματα μαθητών (π.χ. «πώς χρησιμοποιείται η λέξη... ;», για την επεξήγηση λαθών Σχεδιασμός διδακτικού υλικού, π.χ. λίστες λεξιλογίου, τεστ ή ακόμα και διδακτικά εγχειρίδια Συμφραστικοί πίνακες και διδασκαλία βασισμένη σε δεδομένα (Data-driven Learning). Τα ΗΣΚ στη γλωσσική εκμάθηση και διδασκαλία Η χρήση των ΗΣΚ στη διδασκαλία μπορεί να είναι άμεση ή έμμεση. Η άμεση χρήση των ΗΣΚ αναφέρεται στην απευθείας πρόσβασή τους από τους μαθητές μέσω των ηλεκτρονικών υπολογιστών προκειμένου να παρατηρήσουν τη χρήση ενός γλωσσικού φαινομένου και να απαντήσουν κάποιες ερωτήσεις (δικές τους ή του καθηγητή τους) ή να κάνουν κάποιες δραστηριότητες που τους έχουν ανατεθεί. Συνήθως οι δραστηριότητες αυτές έχουν στόχο την ενσυνείδηση (awareness raising) (Hunston 2002). Η έμμεση χρήση των ΗΣΚ είναι πιο ευρεία και επιτρέπει στον καθηγητή να κάνει χρήση των ΗΣΚ χωρίς αυτό να γίνεται πάντοτε αντιληπτό από τους μαθητές του, αλλά πάντοτε με στόχο τη βελτίωση της διδασκαλίας και εκμάθησης της Γ2. Συγκεκριμένα, η έμμεση χρήση αναφέρεται στη μελέτη και ανάλυση των ΗΣΚ προκειμένου (α) να αποφασίσουμε ποια γλωσσικά στοιχεία πρέπει να τονιστούν στη διδασκαλία, (β) να επιλέξουμε γλωσσικά στοιχεία που συνήθως δεν διδάσκουμε (π.χ. λεξικές φράσεις και συμφράσεις), (γ) να αποφασίσουμε τι είναι δύσκολο ή χρήσιμο για τους μαθητές μας, (δ) να καταλήξουμε στη σειρά που θα ακολουθήσουμε για τη διδασκαλία διαφόρων γλωσσικών δομών (στην περίπτωση αυτή συγκρίνουμε ένα γενικό ΗΣΚ με ένα Παιδαγωγικό Σώμα Κειμένων) (Romer 2004a, 2004b, 2006), (ε) να οργανώσουμε κατάλληλα τη διδασκαλία μας και το διδακτικό μας υλικό, (στ) να ανακαλύψουμε πιθανά λάθη, υπερβολική ή μειωμένη χρήση συγκεκριμένων γλωσσικών δομών, λέξεων, κτλ. που κάνουν οι μαθητές μας όταν συγκρίνονται τα δικά τους κείμενα με τα αυθεντικά κείμενα των ΗΣΚ. Τυπολογία ασκήσεων βασισμένων σε ΗΣΚ Οι ασκήσεις που μπορούν να σχεδιαστούν με βάση ένα ΗΣΚ μπορούν να κατηγοριοποιηθούν σε 4 τύπους: (α) Ασκήσεις με στόχο την εκμάθηση των γραμματικών δομών. Οι διδακτικές αυτές προτάσεις εστιάζουν στις προτασιακές δομές και στόχο έχουν να αναδείξουν πώς αυτές οι δομές διαφοροποιούνται ανάλογα με το κειμενικό είδος. Η διδασκαλία δεν εστιάζει στην ορθότητα ή μη των
γραμματικών δομών, αλλά στην ανάδειξη των εναλλακτικών γραμματικών δομών που μπορούν να χρησιμοποιηθούν. (β) Ασκήσεις με στόχο τη διερεύνηση της γλωσσικής ποικιλότητας: Η ποικιλότητα μπορεί να αφορά ποικιλία των γραμματικών δομών, π.χ. πολλά ρήματα στην ελληνική γλώσσα παρουσιάζουν ποικιλία ως προς τη σύνταξή τους, π.χ. Πιστεύω ότι/να, πρέπει να ξέρεις πως/ότι, κτλ., ποικιλία των χρήσεων και των σημασιών του ίδιου γλωσσικού στοιχείου (λέξης ή φραστικής δομής), ή ιδιαίτερα λεξικογραμματικά χαρακτηριστικά διαφορετικών κειμενικών ειδών. (γ) Ασκήσεις με στόχο τη διευκρίνιση σημασιολογικών διαφορών: μεταξύ λέξεων που είναι σχεδόν συνώνυμες, π.χ. πλατύς και φαρδύς μεταξύ νοημάτων πολύσημων λέξεων, π.χ. ελαφρύς μεταξύ χρήσεων της ίδιας λέξης σε διαφορετικά συγκείμενα, π.χ. τύπος. (δ) Ασκήσεις με στόχο τον εντοπισμό των ρητορικών συμβάσεων στη Γ2: Οι συγκεκριμένες ασκήσεις είναι κατάλληλες για μαθητές μεγαλύτερων επιπέδων και μεγαλύτερης ηλικίας. Βιβλιογραφία Γούτσος, Δ. (2003). Σώμα Ελληνικών Κειμένων: Σχεδιασμός και υλοποίηση. Πρακτικά του 6ου Διεθνούς Συνεδρίου Ελληνικής Γλωσσολογίας, Πανεπιστήμιο Κρήτης, 18-21 Σεπτεμβρίου 2003. Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press. McEnery, T. and Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. McEnery, T., Xiao, R. and Tono, Y. (2006). Corpus-based Language Studies: An Advanced Resource Book. London: Routledge. Meunier, F. and Gouverneur, C. (2009). New types of corpora for new educational challenges: Collecting, annotating and exploiting a corpus of textbook material. In K. Aijmer (ed.), Corpora and Language Teaching, 179-201. Römer, U. (2004a). Comparing real and ideal language learner input: The use of an EFL textbook corpus in corpus linguistics and language teaching. In Guy Aston, Silvia Bernardini and Dominic Stewart (eds), Corpora and Language Learners. Amsterdam: John Benjamins, 151-168. Römer, U. (2004b). A corpus-driven approach to modal auxiliaries and their didactics. In John McH. Sinclair (ed.), How to Use Corpora in Language Teaching. Amsterdam: John Benjamins, 185-199. Römer, U. (2006). Pedagogical applications of corpora: Some reflections on the current scope and a wish list for future developments. Zeitschrift für Anglistik und Amerikanistik, 54/2: 121-134, Special Issue: "The Scope and Limits of Corpus Linguistics Empiricism in the Description and Analysis of English" (ed. Volker Gast).