Μελέτη της ειδικής γλώσσας του χρηματιστηρίου. με βάση σώματα κειμένων και στόχο την αυτόματη μετάφραση

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μελέτη της ειδικής γλώσσας του χρηματιστηρίου. με βάση σώματα κειμένων και στόχο την αυτόματη μετάφραση"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) «Διερμηνεία και Μετάφραση» Των Τμημάτων: Φιλολογίας, Αγγλικής Γλώσσας και Φιλολογίας, Γαλλικής Γλώσσας και Φιλολογίας, Γερμανικής Γλώσσας και Φιλολογίας, Ιταλικής Γλώσσας και Φιλολογίας Διδακτορική διατριβή για την απόκτηση Διδακτορικού Διπλώματος στη Μετάφραση-Μεταφρασεολογία με θέμα Μελέτη της ειδικής γλώσσας του χρηματιστηρίου με βάση σώματα κειμένων και στόχο την αυτόματη μετάφραση Ελένη Τζιάφα Τριμελής Επιτροπή Παναγιώτα Κυριακοπούλου (επιβλέπουσα) Άννα Αναστασιάδη-Συμεωνίδη Γεώργιος Παπαχρήστου ΘΕΣΣΑΛΟΝΙΚΗ 2012

2 2 Η παρούσα διδακτορική διατριβή έχει συγχρηματοδοτηθεί από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο ΕΚΤ) και από εθνικούς πόρους μέσω του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» - «Επένδυση στην κοινωνία της γνώσης» του Εθνικού Στρατηγικού Πλαισίου Αναφοράς (ΕΣΠΑ) Ερευνητικό Χρηματοδοτούμενο Έργο: Ηράκλειτος ΙΙ. Ενίσχυση του ανθρώπινου ερευνητικού δυναμικού μέσω της υλοποίησης διδακτορικής έρευνας

3 3 ΠΕΡΙΛΗΨΗ Αντικείμενο αυτής της έρευνας αποτελεί η μελέτη μιας ειδικής γλώσσας, το ειδικό λεξιλόγιο της οποίας περιλαμβάνει όρους που χρησιμοποιούνται στο ελληνικό χρηματιστήριο, με σκοπό την όσο το δυνατόν πληρέστερη περιγραφή τους. Κατ αυτό τον τρόπο, συμπληρώνεται το μορφολογικό λεξικό των χρηματιστηριακών όρων, το οποίο ενσωματώνεται στο ηλεκτρονικό λεξικό της Νέας Ελληνικής (Kyriacopoulou, 1990). Για την έρευνά μας υιοθετούμε το μεθοδολογικό πλαίσιο του λεξικού-γραμματικής του οποίου τις βάσεις έθεσε ο Μ. Gross (1975). Το πλαίσιο αυτό στηρίζεται στις θεωρητικές αρχές της μετασχηματιστικής γραμματικής του Z. S. Harris (1951). Χρησιμοποιούμε επίσης τη μεθοδολογία της Γλωσσολογίας Σωμάτων Κειμένων για τη μελέτη των σημασιολογικών χαρακτηριστικών και των συντακτικών δομών της ειδικής γλώσσας του χρηματιστηρίου. Στο πλαίσιο αυτό πραγματοποιήθηκε ο σχεδιασμός και η υλοποίηση ενός ηλεκτρονικού Σώματος Χρηματιστηριακών Κειμένων. Πρόκειται για ένα ειδικό σώμα κειμένων που περιλαμβάνει κείμενα που προέρχονται από τη θεματική περιοχή της οικονομίας και συγκεκριμένα του χρηματιστηρίου με στόχο την απεικόνιση της συγκεκριμένης ειδικής γλώσσας. Περιλαμβάνει περίπου 19 εκατομμύρια λέξεις, ενώ τα κείμενα ανήκουν στην περίοδο , μια περίοδο που οριοθετείται από δύο μεγάλες κρίσεις στην ελληνική οικονομία, μία χρηματιστηριακή και μία κρίση χρέους. Το σώμα αυτό έχει διαιρεθεί σε τέσσερα υποσώματα, αντίστοιχα των κειμενικών ειδών. Απώτερος στόχος της έρευνας είναι η χρήση του Λεξικού Χρηματιστηριακών Όρων αλλά και του Σώματος Χρηματιστηριακών Κειμένων σε συστήματα αυτόματης επεξεργασίας της ελληνικής γλώσσας, καθώς και σε συστήματα αυτόματης μετάφρασης. Τα γλωσσικά δεδομένα μας, μορφολογικά και συντακτικά, είναι σημαντικά ως προς το μέγεθος και την ποιότητά τους και μπορούν να χρησιμοποιηθούν από προγράμματα πληροφορικής για την αυτόματη επεξεργασία κειμένων χάρη στην τυποποίησή τους. Το ειδικό σώμα κειμένων σε συνδυασμό με το ειδικό λεξικό μπορούν να αποτελέσουν, ως γλωσσικοί πόροι, βάση για περαιτέρω έρευνες στον τομέα της γλώσσας της οικονομίας και της μελέτης οικονομικών κειμένων. Θεωρούμε ότι ο σχεδιασμός ειδικών γλωσσικών πόρων για μία από τις λιγότερο ομιλούμενες γλώσσες, όπως είναι η ελληνική, αποτελεί σημαντικό παράγοντα για την ανάπτυξη της έρευνας γλωσσικής τεχνολογίας. Γενικότερα, η δημιουργία ηλεκτρονικών γλωσσικών πόρων για την ελληνική γλώσσα θα συμβάλει στην εισαγωγή της ελληνικής σε πολύγλωσσα ευρωπαϊκά συστήματα για ποικίλες εφαρμογές.

4 4 SUMMARY This research studies a special language which incudes terms used in the Greek Stock Market, aiming to their detailed description, in order to complete the morphological dictionary of stock market terms, which is incorporated in the electronic dictionary for the Modern Greek language (Kyriacopoulou, 1990). For our research we adopt the methodology of Lexicon-Grammar, as it was developed by M. Gross (1975). This methodology is based on the theoretical principles of transformational grammar as set by Z. S. Harris (1951). These are combined with the methodology of Corpus Linguistics, in order to study semantic characteristics and syntactic structures of the special language of stock market. Therefore, the result was the design and construction of the Corpus of Stock Market Texts, a specialized corpus including texts from the financial sector, concerning stock market, aiming to be as representative as possible of this special language. It consists of about 19 million words, within a period of about twelve years ( ), a period marked by two major crises of the Greek economy, a stock market crisis and a debt crisis. The corpus is divided in four sub-corpora, related to certain registers. The objectives of this research include the use of the Dictionary of Stock Market Terms and the Corpus of Stock Market in systems for the automated treatment and analysis of Greek language and also in machine translation systems. The linguistic data, related to morphology and syntax, are of the proper size and quality in order to be used by computer programs for the automatic treatment of language, thanks to their formalization. The special corpus, combined with the special dictionary, as language resources, can form a basis for further research on the sector of financial language and on the study of financial texts. The design and costruction fo special language resources for a minority language such as the Greek language is considered a crucial parameter for the development of language technology. In general, the construction of electronic language resources for the Greek language could promote the introduction of the Greek language in multilingual European systems for various applications.

5 5 ΕΥΧΑΡΙΣΤΙΕΣ Όπως όλοι όσοι ασχολούνται με την έρευνα, στηρίχτηκα όχι μόνο στους ώμους γιγάντων για την εκπόνησή της, αλλά και στους ώμους ανθρώπων που βρέθηκαν κοντά μου και με βοήθησαν να δώσω το καλύτερο που μπορούσα. Αν και τα λόγια δεν είναι αρκετά, θα ήθελα πρώτα απ όλα, θα ήθελα να ευχαριστήσω την επιβλέπουσα καθηγήτριά μου Τίτα Κυριακοπούλου που με βοήθησε να πραγματοποιήσω το όνειρό μου. Η συμβολή της ήταν καθοριστική τόσο στην εργασία μου όσο και γενικότερα στη ζωή μου. Ευχαριστώ θερμά την καθηγήτρια του τομέα Γλωσσολογίας του τμήματος Φιλολογίας ΑΠΘ κ. Άννα Αναστασιάδη-Συμεωνίδη, μέλος της τριμελούς συμβουλευτικής επιτροπής, για το χρόνο που αφιέρωσε στη διόρθωση της εργασίας αυτής, την προσοχή της στη λεπτομέρεια με στόχο το καλύτερο δυνατό αποτέλεσμα, καθώς και για την πολύτιμη επιστημονική καθοδήγηση, πάνω από όλα για την ασφάλεια και τη σιγουριά που μου παρείχε σε κάθε μου βήμα μια τέτοια υποστήριξη και εποπτεία. Ευχαριστώ θερμά τον αναπληρωτή καθηγητή Χρηματοοικονομικής Ανάλυσης ΑΠΘ κ. Γεώργιο Παπαχρήστου, μέλος της τριμελούς συμβουλευτικής επιτροπής, για την εμπιστοσύνη που μου έδειξε και την υποστήριξή του, καθώς και τις πολύτιμες συμβουλές του σε όλα τα στάδια της εκπόνησης αυτής της εργασίας. Ευχαριστώ ακόμη τον κ. Δ. Γούτσο, αναπληρωτή καθηγητή του τομέα Γλωσσολογίας του Τμήματος Φιλολογίας ΕΚΠΑ, για το χρόνο που αφιέρωσε στην ανάγνωση της εργασίας και τις λεπτομερείς διορθώσεις του. Ευχαριστώ τον κ. Σ. Γραμμενίδη, αναπληρωτή καθηγητή στον τομέα Μετάφρασης του τμήματος Γαλλικής Γλώσσας και Φιλολογίας ΑΠΘ, για τη συνεχή παρότρυνση και υποστήριξή του. Ευχαριστώ τον κ. Γ. Μικρό, αναπληρωτή καθηγητή στον τομέα Υπολογιστικής Γλωσσολογίας του τμήματος Ιταλικής Γλώσσας και Φιλολογίας ΕΚΠΑ για τις εύστοχες και ουσιαστικές παρατηρήσεις και υποδείξεις του που συνέβαλαν στην τελική μορφή της διατριβής. Ευχαριστώ επίσης την κ. Κ. Φραντζή, επίκουρη καθηγήτρια Υπολογιστικής Γλωσσολογίας του τμήματος Μεσογειακών Σπουδών στο Πανεπιστήμιο Αιγαίου, για τις χρήσιμες υποδείξεις της. Οφείλω ακόμη ευχαριστίες στον κ. Αχιλλέα Ζαπράνη, αναπληρωτή καθηγητή του Τμήματος Λογιστικής και Χρηματοοικονομικής του Πανεπιστημίου Μακεδονίας, γιατί ήταν ο πρώτος που μου δώρισε χωρίς καμία επιφύλαξη τις πανεπιστημιακές του σημειώσεις ώστε να αποτελέσουν μέρος του σώματος κειμένων.

6 6 Ευχαριστώ τον κ. Δ. Δόμαλη, προϊστάμενο του Τμήματος Υπηρεσιών Πληροφόρησης του Χρηματιστηρίου Αθηνών που μου παραχώρησε την άδεια άντλησης και χρήσης κειμένων από την ιστοσελίδα του ΧΑ για ερευνητικούς σκοπούς. Θα ήθελα να ευχαριστήσω επίσης τον Β. Τζιμπλάκη, μαθηματικό και στατιστικολόγο για τη βοήθειά του στους υπολογισμούς των στατιστικών στοιχείων και τη διαμόρφωση του μεγέθους του σώματος κειμένων, καθώς και τον μεταπτυχιακό φοιτητή του τμήματος Πληροφορικής ΑΠΘ Στέφανο Αντάρη για την πολύτιμη βοήθειά του στη δημιουργία του διαδικτυακού εργαλείου αναζήτησης του σώματος κειμένων. Από καρδιάς θα ήθελα να ευχαριστήσω την ομάδα που με στήριξε σε μια από τις γόνιμες και δημιουργικές περιόδους της ζωής μου, όλα τα μέλη του Εργαστηρίου Μετάφρασης και Επεξεργασίας του Λόγου: την Κέλλη Ιωαννίδου, για τις ενθουσιώδεις συζητήσεις, αναζητήσεις και απορίες, την Ολυμπία Τσακνάκη, για τη λογική και την ευαισθησία της, τη Ράνια Βοσκάκη, για το χιούμορ και την ευθύτητα, την Εύα Φίστα, για τη φροντίδα της, τη Βάσω Φούφη, για την ευσυνειδησία και την εργατικότητά της, τον Θανάση Μαυρόπουλο, για τις πρακτικές του λύσεις και τη βοήθειά του στο θέμα των κύριων ονομάτων, και τη Βάσω Σφέτσιου, για την έμπνευση που δίνει η γλυκύτητα με την οποία αντιμετωπίζει τις δυσκολίες και τον κόσμο γενικότερα. Θα ήθελα να ευχαριστήσω ακόμη τις αγαπημένες μου φίλες Κατερίνα Αργυρίου, για τη στήριξη και τις συμβουλές της όσον αφορά τα νομικά κείμενα που αναφέρονται στην παρούσα εργασία, τη Μαρία Σιάμ, για το χρόνο που διέθεσε για την ανάγνωση αυτής της εργασίας και τις διορθώσεις της, τη Φανή Αρπατζόγλου, για τη διαρκή ψυχολογική στήριξη, ενθάρρυνση και αγάπη. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου που με στήριξε και στάθηκε δίπλα μου σε όλες τις δυσκολίες που αντιμετώπισα στην εκπόνηση αυτού του έργου. Θα ήθελα ιδιαίτερα να ευχαριστήσω τον πατέρα μου που μου έμαθε να αγαπώ τα βιβλία και το διάβασμα. Χάρη σ εκείνον τα βιβλία που αναφέρονται κοσμούν παράλληλα τη βιβλιογραφία και τη βιβλιοθήκη μου. Ευχαριστώ τη μητέρα μου που στάθηκε δίπλα στα παιδιά μου. Ευχαριστώ τον σύζυγό μου για την υποστήριξή του. Κυρίως ευχαριστώ τα παιδιά μου Παντελή και Ευρυδίκη για την υπομονή και την αγάπη τους, για όλα όσα στερήθηκαν χωρίς ποτέ να παραπονεθούν.

7 7 Στον Παντελή και την Ευρυδίκη

8 8 ΠΕΡΙΕΧΟΜΕΝΑ Ευρετήριο Πινάκων Ευρετήριο Διαγραμμάτων Ευρετήριο Εικόνων Σύμβολα και Συντομογραφίες Πρόλογος Εισαγωγή Αντικείμενο της μελέτης Δομή της μελέτης ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο Θεωρητικό πλαίσιο Μεθοδολογικό μοντέλο Λεξικό-γραμματική Μεθοδολογία σωμάτων κειμένων Μέθοδος ή κλάδος της γλωσσολογίας; Μέθοδος της ενδοσκόπησης και μέθοδος σωμάτων κειμένων Προσέγγιση βασιζόμενη σε σώματα κειμένων (corpus based approach) και προσέγγιση καθοδηγούμενη από τα δεδομένα (corpus driven approach) ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου Ορολογία Ειδική γλώσσα - Ορισμός Ειδική γλώσσα - Χαρακτηριστικά Ιστορία του χρηματιστηρίου Από το πεζοδρόμιο και τα καφενεία στους ηλεκτρονικούς δρόμους του διαδικτύου Οι απαρχές του χρηματιστηρίου στην Ευρώπη Το ελληνικό χρηματιστήριο Η ειδική γλώσσα του χρηματιστηρίου ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων Οι αρχές της μεθοδολογίας των σωμάτων κειμένων... 58

9 Ορισμός του σώματος κειμένων Πλεονεκτήματα που προκύπτουν από τη χρήση των σωμάτων κειμένων Είδη σωμάτων κειμένων Σχεδιασμός ενός σώματος κειμένων Ειδικά σώματα κειμένων Ελληνικά σώματα κειμένων Εθνικός Θησαυρός για την Ελληνική Γλώσσα Εκπαιδευτικός Θησαυρός Ελληνικών Κειμένων (ΕΘΕΚ) Το Σώμα Ελληνικών κειμένων (ΣΕΚ) ΗΣΚ εκμάθησης της Νέας Ελληνικής ως ξένης γλώσσας ΗΣΚ για τη διδασκαλία της Νέας Ελληνικής ως ξένης γλώσσας Το σώμα κειμένων του Ηλεκτρονικού Κόμβου Το Σώμα Νέων Ελληνικών Κειμένων Ο Πολιτιστικός Θησαυρός της Ελληνικής Γλώσσας (ΠΟΘΕΓ) Το σώμα βιοϊατρικών κειμένων ΙΑΤΡΟΛΕΞΗ Το Σώμα Χρηματιστηριακών Κειμένων (ΣΧΚ) Δομή του ΣΧΚ Χαρακτηριστικά του ΣΧΚ Το ζήτημα των πνευματικών δικαιωμάτων και των αδειών Συλλογή των δεδομένων Αντιπροσωπευτικότητα του ΣΧΚ Το μέγεθος του ΣΧΚ Ηλεκτρονικά εργαλεία που χρησιμοποιήθηκαν κατά τη συλλογή και κατασκευή του ΣΧΚ Το πρόγραμμα Unitex Εφαρμογές του συστήματος Unitex Η ελληνική έκδοση του Unitex Συμφραστικοί πίνακες Το πρόγραμμα Wordsmith tools Παραλειπόμενα του ΣΧΚ Προφορικός λόγος Κείμενα προερχόμενα από τις υπηρεσίες της Ευρωπαϊκής Ένωσης

10 Νομοθετικά κείμενα που αφορούν τη λειτουργία του Χρηματιστηρίου ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ: Όροι της ειδικής γλώσσας του χρηματιστηρίου σε θέση ορίσματος Περιγραφή των όρων του χρηματιστηρίου Συλλογή και επεξεργασία των όρων Εντοπισμός μονολεκτικών όρων στο ΣΧΚ Εντοπισμός πολυλεκτικών όρων στο ΣΧΚ Το θέμα των λεξιλογικών συνάψεων (collocations) Μορφολογική ποικιλία / Δομές των όρων του ΛΧΟ Μορφολογική ποικιλία των όρων Προέλευση των όρων Δάνειοι όροι από άλλα ειδικά λεξιλόγια Δάνειοι όροι από το ειδικό λεξιλόγιο του αγγλικού και αμερικανικού χρηματιστηρίου Νεώνυμα από το γενικό λεξιλόγιο Νεώνυμα του ειδικού λεξιλογίου του ελληνικού χρηματιστηρίου Τα κύρια ονόματα στην ειδική γλώσσα του χρηματιστηρίου Σημασιολογικά χαρακτηριστικά των όρων του χρηματιστηρίου Κριτήρια τυποποίησης ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ: Όροι της ειδικής γλώσσας του χρηματιστηρίου σε θέση κατηγορήματος Ο ρόλος των ρημάτων στην ειδική γλώσσα του χρηματιστηρίου Κριτήρια διαχωρισμού των ρημάτων Συνδυασμοί ρημάτων με ουσιαστικά στην ειδική γλώσσα του χρηματιστηρίου Τα κατηγορηματικά ονόματα στην ειδική γλώσσα του χρηματιστηρίου Θεωρητικό και μεθοδολογικό πλαίσιο για τη μελέτη των κατηγορηματικών ονομάτων Κριτήρια εντοπισμού των δομών με υποστηρικτικά ρήματα και κατηγορηματικά ονόματα Εξαγωγή των κατηγορηματικών ονομάτων της ειδικής γλώσσας του χρηματιστηρίου Χαρακτηριστικά των κατηγορηματικών ονομάτων της ειδικής γλώσσας του χρηματιστηρίου

11 Παγιωμένες φράσεις Η μεταφορά στην ειδική γλώσσα του χρηματιστηρίου Η περίπτωση της μετωνυμίας στη γλώσσα του χρηματιστηρίου Συνήθεις μεταφορές στην ειδική γλώσσα του ελληνικού χρηματιστηρίου Κοινές μεταφορές ανάμεσα στην αγγλική και την ελληνική γλώσσα του χρηματιστηρίου ΚΕΦΑΛΑΙΟ ΕΚΤΟ: Εφαρμογές των γλωσσικών πόρων στην επεξεργασία της γλώσσας και τη μετάφραση Εφαρμογές στη μετάφραση Εφαρμογές στη μηχανική μετάφραση Εφαρμογές στη λεξικογραφία Εφαρμογές στην εκπαίδευση Επίλογος ΒΙΒΛΙΟΓΡΑΦΙΑ

12 12 Ευρετήριο Πινάκων Πίνακας 1: Σύγκριση συχνοτήτων σε ένα γενικό και ένα ειδικό σώμα κειμένων Πίνακας 2: Αριθμός χρηστών διαδικτύου στην Ελλάδα ( ) Πίνακας 3: Ανάλυση του σώματος κειμένων Πίνακας 4: Εργαλεία που χρησιμοποιήθηκαν κατά τη διαδικασία επεξεργασίας των κειμένων Πίνακας 5: Λέξεις κλειδιά (keywords) όπως παράγονται από το πρόγραμμα Wordsmith Tools Πίνακας 6: Κατάλογος συχνοτήτων παραγόμενος από το πρόγραμμα Unitex Πίνακας 7: Δομές όρων αποτελούμενων από δύο λέξεις Πίνακας 8: Δομές όρων αποτελούμενων από τρεις λέξεις Πίνακας 9: Δομές όρων αποτελούμενων από τέσσερις λέξεις Πίνακας 10: Δομές όρων αποτελούμενων από πέντε λέξεις Πίνακας 11: Δομές όρων αποτελούμενων από περισσότερες από πέντε λέξεις Πίνακας 12: Επιρρηματικές φράσεις Πίνακας 13: Γενικές κατηγορίες σημασιολογικών χαρακτηριστικών Πίνακας 14: Τα 20 συχνότερα ρήματα στο ΣΧΚ κατά απόλυτη συχνότητα Πίνακας 15: Τα 120 ρήματα με την υψηλότερη συχνότητα στο ΣΧΚ Πίνακας 16: 120 ρήματα που αποτελούν λέξεις κλειδιά για το ΣΧΚ Πίνακας 17: Διασπορά του τύπου κάνει ανά λέξεις Πίνακας 18: Δομές υποστηρικτικών ρημάτων και κατηγορηματικών ονομάτων που εντοπίστηκαν στο ΣΧΚ Πίνακας 19: Εντοπισμός κατηγορηματικών ονομάτων Πίνακας 20: Τα ρήματα που συνδυάζονται με τα κατηγορηματικά ονόματα Πίνακας 21: Διαβάθμιση παγιωμένων φράσεων σύμφωνα με τον Howarth (1998) Πίνακας 22: Συνεχές των ρηματικών εκφράσεων σύμφωνα με τους Κλαίρη & Μπαμπινιώτη (2005) Πίνακας 23: Διαβάθμιση λεξικών συνδυασμών σύμφωνα με τον Mel čuk (1998) Πίνακας 24: Εντοπισμός κατηγορηματικών ονομάτων και παγιωμένων εκφράσεων

13 13 Ευρετήριο Διαγραμμάτων Διάγραμμα 1: Δομές σύνθετων όρων Διάγραμμα 2: V+N: Ρήμα + Ουσιαστικό Διάγραμμα 3: Κατανομή των ρημάτων κάνω και έχω, ως μέρος υποστηρικτικών δομών Διάγραμμα 4: Διαφορές συχνοτήτων ρημάτων ουσιαστικών στο ΣΧΚ

14 14 Ευρετήριο Εικόνων Εικόνα 1: Απόσπασμα από τον πίνακα των κατηγορηματικών ονομάτων των χρηματιστηριακών όρων (Πίνακας VsupNpred/VSN) Εικόνα 2: Απεικόνιση της ειδικής γλώσσας ως υποσυνόλου της γενικής Εικόνα 3: Απεικόνιση της γενικής γλώσσας ως υποσυνόλου της ειδικής Εικόνα 4: Απεικόνιση της σχέσης γενικής και ειδικής γλώσσας ως ξεχωριστών συνόλων Εικόνα 5: Απεικόνιση της σχέσης γενικής και ειδικής γλώσσας με κοινό λεξιλόγιο και γραμματική45 Εικόνα 6: Απεικόνιση της σχέσης της γενικής γλώσσας με ειδικές γλώσσες διαφόρων τομέων Εικόνα 7: Σχέσεις της ειδικής γλώσσας του χρηματιστηρίου με τις ειδικές γλώσσες άλλων τομέων46 Εικόνα 8: Παραδείγματα του τρόπου με τον οποίο εμφανίζεται η πληροφόρηση για την άνοδο του δείκτη Dow Jones ή του CAC 40 στο περιθώριο της ιστοσελίδας 53 Εικόνα 9: Παράδειγμα του τρόπου με τον οποίο απεικονίζεται η πληροφόρηση για την κίνηση των αγορών στο άνω περιθώριο της σελίδας στην ηλεκτρονική έκδοση της Wall Street Journal. 54 Εικόνα 10: Διαγράμματα από τη σελίδα της Wall Street Journal Εικόνα 11: Διάγραμμα ασιατικών δεικτών από την ιστοσελίδα 55 Εικόνα 12: Σύμβολα που εμφανίζονται στην «κορδέλα» ενημέρωσης χρηματιστηρίων Εικόνα 13: Λεξικό οικονομικών όρων διαθέσιμο στο διαδίκτυο μέσω της ιστοσελίδας 64 Εικόνα 14: Όροι και ο ορισμός τους από το λεξικό των Χρυσοβιτσιώτη & Σταυρακόπουλου (2001) Εικόνα 15: Πολυμεσικά σώματα κειμένων: Εντοπισμός, καταγραφή και μελέτη Εικόνα 16: Το πρόγραμμα διεπαφής του Corpus of Contemporary American English Εικόνα 17: Επιφάνεια διεπαφής WebAsCorpus.org Εικόνα 18: Αποτελέσματα WebAsCorpus.org Εικόνα 19: Οι πρώτες 10 γλώσσες σε χρήση στο διαδίκτυο για το έτος 2010 σε εκατ. χρηστών, σε σύνολο χρήστων τον Ιούνιο Εικόνα 20: Χρήστες του διαδικτύου ανά γεωγραφική περιοχή 2011, σε σύνολο χρηστών τον Δεκέμβριο του Εικόνα 21: Απόσπασμα συμφραστικού πίνακα με επιλεγμένους όρους από το ΛΧΟ Εικόνα 22: Απόσπασμα συμφραστικού πίνακα μετά από αναζήτηση της λέξης «άλογο»

15 15 Εικόνα 23: Διασπορά του ρήματος κάνω στο γ ενικό πρόσωπο Εικόνα 24: Κατανομή του περιεχομένου του αρχείου των άγνωστων λέξεων Εικόνα 25: Παράδειγμα γράφου με καταλήξεις ουσιαστικών και επιθέτων Εικόνα 26: Απόσπασμα συμφραστικού πίνακα αναγνωρισμένων λέξεων με κατάληξη ουσιαστικού ή επιθέτου Εικόνα 27: Συμφραστικός πίνακας για τις λέξεις που αναγνωρίστηκαν ως άγνωστες μέσω του συστήματος Unitex Εικόνα 28: Κατάταξη των ρημάτων με βάση τον λημματικό τους τύπο μέσω του προγράμματος Wordsmith Tools Εικόνα 29: Διασπορά του ρήματος κάνω στο γ ενικό πρόσωπο Εικόνα 30: Απόσπασμα από τον πίνακα VSNPN: οι στήλες των εναλλακτικών ρημάτων Εικόνα 31: Απόσπασμα από τον πίνακα VSN Εικόνα 32: Απόσπασμα του συμφραστικού πίνακα για τα κατηγορηματικά ονόματα του πίνακα VSN Εικόνα 33: Παγιωμένες φράσεις / συνδυασμοί ρήματος και ουσιαστικού Εικόνα 34: Απόσπασμα συμφραστικού πίνακα για το λ. αέρας Εικόνα 35: Επιφάνεια διεπαφής διαθέσιμη στο διαδίκτυο για την αναζήτηση όρων στο ΣΧΚ Εικόνα 36: Παραλληλοποίηση κειμένων Εικόνα 37: Εύρεση αντιστοιχιών μέσω παραλληλοποίησης Εικόνα 38: Αρχική σελίδα εφαρμογής ηλεκτρονικού λεξικού του χρηματιστηρίου Εικόνα 39: Εισαγωγή και επεξεργασία δεδομένων για τη δημιουργία λημμάτων Εικόνα 40: Δείγμα λήμματος με εικόνα Εικόνα 41: Απόσπασμα συμφραστικού πίνακα που δημιουργήθηκε από το πρόγραμμα Unitex κατά την αναζήτηση του όρου ειδικός διαπραγματευτής

16 16 Σύμβολα και Συντομογραφίες * μη αποδεκτό παράδειγμα ; αμφίβολο παράδειγμα A επίθετο ADV επίρρημα CONJ σύνδεσμος DET προσδιοριστής et al. και άλλοι N ουσιαστικό N0 υποκείμενο N1 αντικείμενο (άμεσο) N2 αντικείμενο (έμμεσο) PART μόριο PREP πρόθεση PRO αντωνυμία V ρήμα βλ. βλέπε ενότ. ενότητα κ.ά. και άλλα κεφ. κεφάλαιο κτλ. και τα λοιπά κ.τ.ό. και τα όμοια ΗΣΚ Ηλεκτρονικό Σώμα Κειμένων ΛΚΝ Λεξικό Κοινής Νεοελληνικής ΛΧΟ Λεξικό Χρηματιστηριακών Όρων ΣΧΚ Σώμα Χρηματιστηριακών Κειμένων ό.π. όπου παραπάνω π.χ. παραδείγματος χάρη σ. σελίδα σσ. σελίδες

17 Πρόλογος Η συγγραφή της διδακτορικής αυτής διατριβής πραγματοποιήθηκε μέσα σε ιδιαίτερα δύσκολες συνθήκες για την παγκόσμια οικονομία, εν μέσω μιας παγκόσμιας κρίσης που πήρε τις διαστάσεις ενός ιδιότυπου παγκόσμιου οικονομικού πολέμου μεταξύ κρατών και οικονομικών οργανισμών, τραπεζών και οίκων αξιολόγησης. Στο επίκεντρο της κρίσης, κατά τρόπο απροσδόκητο, βρέθηκε μια μικρή χώρα όπως η Ελλάδα, ωστόσο «η ισχυρότερη χώρα του πλανήτη» για την περίοδο μετά το 2010, σύμφωνα με δημοσίευμα του MoneyWeek.com. Παρόλο που το ενδιαφέρον για την οικονομία ήταν πάντα μεγάλο, καθώς οι κινήσεις των χρηματιστηριακών δεικτών λέγεται συνήθως ότι αποτελούν το "βαρόμετρο" της γενικής τάσης στην οικονομία. Σήμερα, για άλλη μια φορά, μετά τη χρηματιστηριακή κρίση του τα δημοσιεύματα για το χρηματιστήριο, την οικονομία, την Ελλάδα γενικότερα, πολλαπλασιάζονται. Παρόλο που, σύμφωνα με την Percebois (2004), μπορούμε να πούμε ότι η γλώσσα της οικονομίας είναι ουσιαστικά μία ειδική γλώσσα, «εφαρμοσμένη» όμως στον εκάστοτε τομέα, η οποία συγκροτείται από ένα ειδικό λεξιλόγιο που βρίσκεται ενσωματωμένο σε μια φρασεολογία τυπική του εκάστοτε τομέα της οικονομίας, ιδιαίτερο ενδιαφέρον παρουσιάζει η επιμέρους ειδική γλώσσα του χρηματιστηρίου, η οποία συχνά αντιμετωπίζεται ως ένας "μυστικός κώδικας" (Behr, Hentschel, Kauffmann, & Kern, 2007). Είναι μια γλώσσα έντονα μεταφορική, κάτι που διαπιστώνεται ότι συμβαίνει συχνά στις ειδικές γλώσσες (Bowker & Pearson, 2002: 215), αλλά και συμβολική, καθώς συνδέεται με θετικές επιστήμες όπως τα μαθηματικά. Σύμφωνα με τον Lerat (1995: 29), οι ειδικές γλώσσες δίνουν προτεραιότητα στο γραπτό λόγο έναντι του προφορικού, διευρύνοντας τη χρήση των συστημάτων γραφής. Έτσι, συχνά ένα σύμβολο (+ ή - ) μπορεί να συνοψίσει τη συνολική εικόνα (ή «τάση») μίας ημέρας ή μίας συγκεκριμένης περιόδου στο χρηματιστήριο, ένα βέλος ( ή ) ή ένα χρώμα (το πράσινο για την άνοδο και την απεικόνιση των τιμών που βρίσκονται σε άνοδο και το κόκκινο για την πτώση και τις πτωτικές τιμές). Τα χρώματα αυτά μάλιστα αναφέρονται σε τίτλους ειδήσεων, π.χ.: (1) Κατακόκκινη η πρώτη εβδομάδα του 2012 για το ΧΑ, με τον ΓΔ να διολισθαίνει σε νέο χαμηλό 19 ετών (2) «Στο κόκκινο» η Wall Street: Με πτώση έκλεισαν οι χρηματιστηριακοί δείκτες στη Wall Street

18 Πρόλογος 18 (3) Στο πράσινο για 2η συνεχόμενη συνεδρίαση το ΧΑ, με τις τράπεζες να πρωτοστατούν στην αντίδραση εν μέσω προσδοκιών για το PSI Το ενδιαφέρον για την αποκρυπτογράφηση αυτού του κώδικα είναι μεγάλο και συχνά έχουν επιστρατευτεί γι' αυτό μέθοδοι Αυτόματης Επεξεργασίας Φυσικών Γλωσσών (Tumarkin & Whitelaw, 2001 Gidofalvi, 2001 Fung et al., 2002 Thomas et al., 2002 Mittermayer, 2004 Kloptchenko et al., 2004 Schumaker & Chen, 2006 De Choudhury et al., 2008 Tetlock, 2010 Frisbee, 2010 Schumaker, 2010 Dzielinski, 2011), προκειμένου να εντοπιστούν πληροφορίες σε άρθρα, ιστολόγια (blogs), κοινωνικά μέσα δικτύωσης (social media), χώρους συζητήσεων (fora) κ.α., οι οποίες θα μπορούσαν να συσχετίζονται με τυχόν ανοδικές ή καθοδικές κινήσεις των χρηματιστηριακών δεικτών. Θεωρείται επίσης ότι η γνώση των ιδιαιτεροτήτων της γλώσσας και της επικοινωνίας στο χώρο της οικονομίας συντελεί στην κατανόηση του βαθύτερου νοήματος εντός του κοινωνικο-οικονομικού, εταιρικού και διαφημιστικού λόγου, ώστε να εντοπιστούν οι μηχανισμοί χειραγώγησης και επίδρασης της κοινής γνώμης (Daniushina, 2010). Ωστόσο, παρά το αυξημένο ενδιαφέρον που παρουσιάζει η γλώσσα του χρηματιστηρίου, δεν έχει μελετηθεί επαρκώς μέσω της κατασκευής εκτεταμένων σωμάτων κειμένων και μηχαναγνώσιμων λεξικών. Οι έρευνες που έχουν γίνει ως τώρα βασίζονται αφενός σε σώματα κειμένων συνήθως μικρού μεγέθους που προέρχονται είτε από μία μόνο πηγή (π.χ. Financial Times, The Economist) είτε έχουν ανακτηθεί μέσω εργαλείων αυτόματης ανάκτησης από το διαδίκτυο 1, καλύπτοντας τις ανάγκες της εκάστοτε έρευνας 2, και δεν αποτελούν σώματα κειμένων διαθέσιμα για περαιτέρω έρευνα και αξιολόγηση. Αφετέρου, οι συλλογές των όρων περιορίζονται σε γλωσσάρια που παρέχονται σε ιστοσελίδες με θέμα το χρηματιστήριο, και δεν αποτελούν μηχαναγνώσιμα λεξικά, ακόμη και για την αγγλική γλώσσα, τη lingua franca των χρηματιστηρίων. Η αγγλική γλώσσα επί του παρόντος είναι αναμφίβολα η lingua franca των επιχειρήσεων και της οικονομίας, και αυτό είναι ένα γεγονός που αντανακλάται στη γλώσσα κάθε χρηματιστηρίου του κόσμου, συνεπώς και στη γλώσσα του ελληνικού χρηματιστηρίου. Ωστόσο, ο κόσμος των επιχειρήσεων μεταβάλλεται ταχύτατα σε ένα μικρό χώρο όπου άτομα με διαφορετική προέλευση και εθνικότητα αναπτύσσουν κοινά πλαίσια αναφοράς για την παραγωγή και κατανόηση της επικοινωνίας στο χώρο της αγοράς (Trosborg & 1 Π.χ. 2 Πρόκειται για σώματα κειμένων που αναφέρονται συνήθως στη βιβλιογραφία ως Do It Yourself DIY corpora (McEnery & Wilson, 1996).

19 Πρόλογος 19 Flyvholm Jørgensen, 2005). Καθώς λοιπόν "το επιχειρησιακό περιβάλλον γίνεται ολοένα και πιο ομοιογενές" και η παγκόσμια οικονομία "χωρίς σύνορα" (Trosborg & Flyvholm Jørgensen, 2005), η μελέτη της ελληνικής γλώσσας της οικονομίας αποκτά ένα ιδιαίτερο ενδιαφέρον. Σύμφωνα με τις Kelly-Holmes & Mautner (2010) νέοι ρόλοι αναδύονται για τις λιγότερο ομιλούμενες γλώσσες, κυρίως λόγω των διεργασιών στις διεθνείς, εθνικές και τοπικές αγορές. Το Χρηματιστήριο Αθηνών, το μόνο χρηματιστήριο στην Ελλάδα, αποτελεί ένα περιφερειακό χρηματιστήριο της Ευρώπης, με περισσότερα από 135 χρόνια ιστορίας. Μέσα σ' αυτό το χρονικό διάστημα, πέρα από τους κοινούς όρους που χρησιμοποιούνται στα χρηματιστήρια όλου του κόσμου, έχουν προκύψει νέοι όροι, είτε απλοί είτε πολυλεκτικοί, συμπεριλαμβανομένων ιδιωτισμών και μεταφορών, ο εντοπισμός και η ανάλυση των οποίων είναι απαραίτητα για την κατανόησή τους. Επιπρόσθετα, η συλλογή και η δημιουργία οργανωμένων σωμάτων ειδικών κειμένων, καθώς και η κατασκευή ορολογικών βάσεων και γενικότερα γλωσσικών πόρων αποτελούν σημαντικό παράγοντα για την ανάπτυξη της έρευνας γλωσσικής τεχνολογίας, ιδιαίτερα όσον αφορά λιγότερο ομιλούμενες γλώσσες και συνεπώς με μικρότερη εκπροσώπηση στο διαδίκτυο, όπως η ελληνική γλώσσα. Η γλώσσα του χρηματιστηρίου είναι μια ειδική γλώσσα με ιδιαίτερα χαρακτηριστικά. Είναι μια ειδική γλώσσα που σχετίζεται με ένα επάγγελμα, αλλά παράλληλα και με έναν τομέα της οικονομίας ως επιστήμης, που αποτελεί αντικείμενο διδασκαλίας στην τριτοβάθμια εκπαίδευση. Συνεπώς, περιλαμβάνει πολλά επίπεδα ύφους, ένα γεγονός που σχετίζεται με την ιστορία των χρηματιστηρίων. Σε πολλές χώρες του κόσμου, οι χρηματιστηριακές συναλλαγές πραγματοποιούνταν κυριολεκτικά στο δρόμο, όπως στην οδό Quincampoix στο Παρίσι ή στα δρομάκια και τα καφενεία της Exchange Alley στο Λονδίνο. Ένα καφενείο ήταν αρχικά και το πρώτο χρηματιστήριο της Αθήνας (με το όνομα Bella Grecia). Επομένως, στην ουσία πρόκειται για μια γλώσσα της αγοράς. Ωστόσο, με το πέρασμα των χρόνων, καθώς τα προϊόντα που αποτελούν αντικείμενο συναλλαγών σε ένα οργανωμένο χρηματιστήριο γίνονταν όλο και πολυπλοκότερα, το ίδιο συνέβη με τη γλώσσα που χρησιμοποιούνταν για την περιγραφή τους. Συμβαίνει ακόμη κάθε ειδική γλώσσα να περιλαμβάνει μια επαγγελματική αργκό, η οποία χρησιμοποιείται μεταξύ επαγγελματιών του ίδιου κλάδου. Στην περίπτωση όμως της γλώσσας του χρηματιστηρίου ειδικοί και μη ειδικοί μπορούν να συζητούν και να συμμετέχουν στο χρηματιστήριο είτε ως επαγγελματίες του κλάδου είτε ως επενδυτές. Επιπλέον, κυρίως μετά την χρηματιστηριακή κρίση του αλλά ακόμη περισσότερο

20 Πρόλογος 20 μετά την οικονομική κρίση που βρίσκεται σε εξέλιξη από το 2008, πολλές λέξεις του ειδικού αυτού λεξιλογίου εισβάλλουν στη γενική γλώσσα μέσω της επικαιρότητας, ενώ και η πλειονότητα των ανθρώπων τις χρησιμοποιεί συνειδητά, καθώς παρακολουθεί με αγωνία τις εξελίξεις στα spread των ελληνικών ομολόγων, ή τη διαφορά μεταξύ των εκφράσεων επιλεκτική, ελεγχόμενη, συντεταγμένη, ανεξέλεγκτη, ασύντακτη, άτακτη, τακτική, περιορισμένη, οργανωμένη, μερική ή ολική, πλήρη, λελογισμένη, απλή ή δόλια, άμεση, χρεοκοπία 3. Η διαθεσιμότητα των ιστοσελίδων που αναφέρονται επαληθεύτηκε κατά το τελευταίο έτος της σύνθεσης της διατριβής (τέλη του αρχές 2012). Η μετάφραση των αποσπασμάτων που περιλαμβάνονται στην ξενόγλωσση βιβλιογραφία και οποιαδήποτε λάθη ή παραλείψεις βαρύνουν αποκλειστικά τη γράφουσα. 3 Τα επίθετα που προσδιορίζουν τη λέξη χρεοκοπία ανακτήθηκαν μέσω του εργαλείου που διατίθεται στην ιστοσελίδα

21 Εισαγωγή 1. Αντικείμενο της μελέτης Η παρούσα διδακτορική διατριβή εντάσσεται στο επιστημονικό πεδίο της Υπολογιστικής Γλωσσολογίας, της επιστήμης που συνδυάζει δύο γνωστικά αντικείμενα, τη γλωσσολογία και την πληροφορική. Αποτελεί τμήμα μιας ευρύτερης ερευνητικής προσπάθειας που διεξάγεται στο Εργαστήριο Μετάφρασης και Επεξεργασίας του Λόγου (ΕΜΕΛ) του Αριστοτέλειου Πανεπιστημίου Θεσσαλονίκης 4, όπου τα μέλη της Μονάδας Αυτόματης Επεξεργασίας Φυσικών Γλωσσών του εν λόγω εργαστηρίου εργάζονται με στόχο τη βελτίωση της ποιότητας των συστημάτων αυτόματης μετάφρασης. Αντικείμενο αυτής της έρευνας αποτελεί η μελέτη μιας ειδικής γλώσσας 5, το ειδικό λεξιλόγιο της οποίας περιλαμβάνει όρους που χρησιμοποιούνται στο ελληνικό χρηματιστήριο, με σκοπό την όσο το δυνατόν πληρέστερη περιγραφή τους, μέσω της ταξινόμησης των όρων αυτών σε τάξεις που ορίζονται από συγκεκριμένες συντακτικές και σημασιολογικές ιδιότητες. Κατ αυτό τον τρόπο, συμπληρώνεται το μορφολογικό λεξικό των χρηματιστηριακών όρων, το οποίο ενσωματώνεται στο ηλεκτρονικό λεξικό της Νέας Ελληνικής (Kyriacopoulou, 1990). Απώτερος στόχος της έρευνας, εφόσον ενσωματωθούν στο σώμα των όρων, πέρα από τα συντακτικο-σημασιολογικά χαρακτηριστικά που αφορούν κάθε λήμμα, τα συνώνυμα και αντώνυμά τους, η μετάφρασή τους και οι τομείς στους οποίους χρησιμοποιούνται, είναι η χρήση του λεξικού σε συστήματα αυτόματης ανάλυσης ή μετάφρασης. Για την έρευνά μας υιοθετούμε το μεθοδολογικό πλαίσιο του λεξικού-γραμματικής του οποίου τις βάσεις έθεσε ο Μ. Gross (1975). Το πλαίσιο αυτό στηρίζεται στις θεωρητικές αρχές της μετασχηματιστικής γραμματικής του Z. S. Harris (1951). Χρησιμοποιούμε επίσης τη μεθοδολογία σωμάτων κειμένων για τη μελέτη των σημασιολογικών χαρακτηριστικών και των συντακτικών δομών της ειδικής γλώσσας του χρηματιστηρίου. Στο πλαίσιο αυτό πραγματοποιήθηκε ο σχεδιασμός και η υλοποίηση ενός ηλεκτρονικού Σώματος Χρηματιστηριακών Κειμένων (στο εξής ΣΧΚ). Πρόκειται για ένα ειδικό σώμα κειμένων (specialized corpus) που περιλαμβάνει κείμενα που προέρχονται από τη θεματική περιοχή της οικονομίας και συγκεκριμένα του χρηματιστηρίου με στόχο την απεικόνιση της συγκεκριμένης ειδικής γλώσσας. Περιλαμβάνει περίπου λέξεις, ενώ τα κείμενα ανήκουν στην περίοδο , μια περίοδο που οριοθετείται από δύο μεγάλες κρίσεις 4 Ιστοσελίδα Εργαστηρίου Μετάφρασης και Επεξεργασίας του Λόγου: 5 Για την επιλογή του όρου «ειδική γλώσσα» βλ. κεφ. 2.

22 Εισαγωγή 22 στην ελληνική οικονομία, μία χρηματιστηριακή και μία κρίση χρέους. Το σώμα αυτό έχει διαιρεθεί σε τέσσερα υποσώματα, αντίστοιχα των κειμενικών ειδών (βλ. 3.4.). Το ειδικό σώμα κειμένων σε συνδυασμό με το ειδικό λεξικό μπορούν να αποτελέσουν, ως γλωσσικοί πόροι, βάση για περαιτέρω έρευνες στον τομέα της γλώσσας της οικονομίας και της μελέτης οικονομικών κειμένων. 2. Δομή της μελέτης Η παρούσα μελέτη διαρθρώνεται σε έξι κεφάλαια ως εξής: Στο πρώτο κεφάλαιο θα παρουσιαστεί αναλυτικά το μεθοδολογικό πλαίσιο στο οποίο εντάσσεται η εργασία αυτή. Γίνεται αναφορά στη μετασχηματιστική γραμματική του Harris και παρουσιάζεται ο τρόπος λειτουργίας του Λεξικού-Γραμματικής, καθώς και η μεθοδολογία των σωμάτων κειμένων. Στο δεύτερο κεφάλαιο θα διερευνηθεί η έννοια της ειδικής γλώσσας και η χρησιμότητα της μελέτης ενός ειδικού λεξιλογίου. Παράλληλα παρουσιάζεται η ειδική γλώσσα του χρηματιστηρίου και τα ιδιαίτερα χαρακτηριστικά της. Θα αναφερθούν τόσο οι διαθέσιμοι γλωσσικοί πόροι και τα εργαλεία που χρησιμοποιήθηκαν όσο και τα είδη των γλωσσικών πόρων που κατασκευάστηκαν. Καθώς τα ειδικά σώματα κειμένων αποτελούν τη βάση για τη μελέτη μιας ειδικής γλώσσας, όπως αυτή των χρηματιστηριακών κειμένων, στο τρίτο κεφάλαιο θα παρουσιαστεί αναλυτικά η διαδικασία της συλλογής των κειμένων και της κατασκευής των σωμάτων κειμένων που αφορούν το συγκεκριμένο τομέα. Θα αναφερθούν επίσης τα υπάρχοντα σώματα κειμένων, γενικά και ειδικά. Στο τέταρτο κεφάλαιο θα παρουσιαστεί η διαδικασία συλλογής και επεξεργασίας των όρων της ειδικής γλώσσας του χρηματιστηρίου, με εστίαση στην περιγραφή των όρων σε θέση ορίσματος. Με τον όρο αυτό, σε συμφωνία με το θεωρητικό πλαίσιο της παρούσας εργασίας, κατονομάζουμε τόσο τους μονολεκτικούς όσο και τους πολυλεκτικούς όρους που επέχουν θέση ονόματος (ή ονοματικού συνόλου) στην πρόταση, ή, σύμφωνα με τους όρους της παραδοσιακής γραμματικής, επέχουν θέση υποκειμένου, αντικειμένου ή ονοματικού προσδιορισμού. Το πέμπτο κεφάλαιο ασχολείται με τους όρους που βρίσκονται σε θέση κατηγορήματος. Περιγράφεται διεξοδικά η ιδιαίτερη κατηγορία των υποστηρικτικών ρημάτων και των κατηγορηματικών ονομάτων. Ιδιαίτερη αναφορά γίνεται επίσης επίσης στη μεταφορική

23 Εισαγωγή 23 χρήση της γλώσσας και τις παγιωμένες φράσεις, φαινόμενα με ιδιαίτερα αυξημένη συχνότητα στις ειδικές γλώσσες. Τέλος, στο έκτο κεφάλαιο παρουσιάζονται εφαρμογές στην ορολογία, τη λεξικογραφία και τη μετάφραση των γλωσσικών πόρων που κατασκευάστηκαν σε συνδυασμό με άλλα εργαλεία και γλωσσικούς πόρους, οι οποίες καταδεικνύουν τη συμβολή της παρούσας έρευνας στην Αυτόματη Επεξεργασία Φυσικών Γλωσσών.

24 1. ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο Στο κεφάλαιο που ακολουθεί παρουσιάζεται η ανάλυση του θεωρητικού πλαισίου στο οποίο εντάσσεται η διδακτορική αυτή διατριβή και η αναλυτική περιγραφή του μεθοδολογικού μοντέλου που υιοθετήθηκε για την ανάλυση της γλώσσας. Η εν λόγω έρευνα βασίζεται στις θεωρητικές αρχές της υπολογιστικής γλωσσολογίας που τέθηκαν από τον Harris (1951, 1968, 1976). Σύμφωνα με τις γενικές αρχές αυτής της θεωρίας, κάθε λέξη παρουσιάζεται μέσα σε μία στοιχειώδη πρόταση με κατηγόρημα και ορίσματα και όλες οι ορθές γραμματικές προτάσεις που παράγονται με την ανακατασκευή της θεωρούνται μετασχηματισμοί της. Τις αρχές αυτές τυποποίησε και επεξεργάστηκε ο Μ. Gross (1975), σύμφωνα με τον οποίο είναι εφικτό να συνδυαστεί ο συντακτικός πλούτος μιας φυσικής γλώσσας με την ακρίβεια μιας τυποποιημένης σημασιολογίας, η οποία καθίσταται επεξεργάσιμη μέσω αλγεβρικών τεχνικών. Αυτή η σύνδεση των μαθηματικών με τη μελέτη της γλώσσας αποτέλεσε παράλληλα τη βάση για τη σύνδεση πληροφορικής και γλωσσολογίας Θεωρητικό πλαίσιο Σύμφωνα με τον Harris, δεν υπάρχει άλλος τρόπος να ορίσουμε ή να περιγράψουμε τη γλώσσα και τις εκφορές της παρά με ορισμούς που εκφράζονται με την ίδια ή μια άλλη φυσική γλώσσα και όχι με βάση μια εξωτερική μεταγλώσσα, και κάθε εξάρτηση από προκαθορισμένες μεταγλωσσικές έννοιες δυσχεραίνει την κατανόηση της αληθούς φύσεως της γλώσσας. Ακόμη κι αν η γραμματική μιας γλώσσας βασίζεται κυρίως σε σύμβολα, αυτά τα σύμβολα είναι τελικά που πρέπει να καθοριστούν σε μια φυσική γλώσσα (Harris, 1991). Από αυτή την παρατήρηση προέκυψε το συμπέρασμά του ότι μια επιστήμη που στοχεύει στον ορισμό της φύσης της γλώσσας περιορίζεται στη διερεύνηση των σχέσεων των στοιχείων μεταξύ τους (της κατανομής τους) (Harris, 1988). Στόχος του ήταν να επαναπροσδιορίσει τη γλωσσολογία ως προϊόν της μαθηματικής ανάλυσης των δεδομένων της γλώσσας. Επιχείρησε λοιπόν την ανάλυση των ιδιοτήτων μιας ζωντανής γλώσσας, στηριζόμενος σε αλγεβρικούς τύπους. Όρισε τα βασικά στοιχεία μιας πρότασης με τις έννοιες διενεργητής 6 (operator) και ορίσματα (arguments) (Harris, 6 Ο Gaston Gross επεκτείνει τον ορισμό του Harris, συμπληρώνοντας ότι ένας διενεργητής χαρακτηρίζεται και από την τοποθέτησή του στο χρόνο. Σύμφωνα με τον πρώτο, το κατηγόρημα ορίζεται όχι μόνο από τα ορίσματα που του αντιστοιχούν αλλά και από τη χρονική του ενεργοποίηση, η οποία στα ρήματα (των κλιτών γλωσσών) δηλώνεται από τις ρηματικές καταλήξεις και τα βοηθητικά ρήματα, στα επίθετα από το ρήμα είμαι και στις δομές με κατηγορηματικά ονόματα από τα υποστηρικτικά ρήματα (Gross G., 1996).

25 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο ). Οι προτάσεις αποτελούνται από λέξεις που έχουν τη δυνατότητα διαφορετικών συνδυασμών μεταξύ τους. Οι συνδυασμοί αυτοί δεν είναι όλοι γραμματικά ορθοί. Κάθε διενεργητής επιλέγει τα ορίσματά του από τον τομέα που του αντιστοιχεί. Έτσι στην πρόταση (Το αγόρι + το κορίτσι + ) τρώει (ένα γλυκό + ένα μήλο + ) 7 το ρήμα τρώω αποτελεί έναν διενεργητή που έχει δύο ορίσματα, η θέση των οποίων είναι δυνατόν να καταληφθεί από ονόματα όπως: το αγόρι ή το γλυκό. Για τον Harris, η έννοια του διενεργητή ταυτίζεται με το κατηγόρημα μιας πρότασης. Κατά τον Harris, η γλώσσα είναι ένα σύνολο (ορισμένο ή αόριστο) προτάσεων που αποτελείται από έναν ορισμένο αριθμό μονάδων. Η μετασχηματιστική γραμματική προϋποθέτει τη συστηματική περιγραφή και τον αυστηρό φορμαλισμό των στοιχειωδών προτάσεων, δεδομένου ότι οι σύνθετες προτάσεις προέρχονται από τις απλές και ότι το σύνολο των απλών και των σύνθετων προτάσεων απαρτίζει τη γλώσσα. Σε κάθε γλώσσα υπάρχουν μεταγλωσσικές διατυπώσεις (Harris, 1976: 8). Η πρόταση για παράδειγμα: (Α) Max lit et dort (Ο Μαξ διαβάζει και κοιμάται) αναλύεται στην πρόταση (Β) Max lit et Max dort (Ο Μαξ διαβάζει και ο Μαξ κοιμάται) Η ταυτότητα αυτή είναι δυνατόν να εκφραστεί και με αριθμητικούς ενδείκτες. Για παράδειγμα: Max lit et Max dort Οι προτάσεις (Α) και (Β) διέπονται από την ταυτότητα: 1 = 4. Σύμφωνα, όμως, με τον Harris (1976: 8) η πρόταση (Α) εξηγείται από το συνδυασμό της πρότασης (Β) και της πρότασης (Γ) που ακολουθεί: 7 Όπου το σύμβολο + ισοδυναμεί με διαζευκτικό ή.

26 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 26 (Γ) La proposition «Max lit et Max dort» contient une deuxième occurrence de Max de même référence que la première occurrence de Max (Η πρόταση «Ο Μαξ διαβάζει και ο Μαξ κοιμάται» εμπεριέχει μια δεύτερη εμφάνιση του Μαξ, της ίδιας αναφοράς με την πρώτη εμφάνισή του) Η προσέγγιση αυτή μπορεί να ξαφνιάζει, ωστόσο, από σημασιολογική άποψη, ο συνδυασμός των (Β) και (Γ) παρέχει στην (Α) τις απαραίτητες ερμηνευτικές πληροφορίες. Ο παραπάνω συλλογισμός επιβεβαιώνεται και σε άλλα παραδείγματα του ίδιου τύπου, όπως: (Α.2) Dieu a quatre lettres (Ο Θεός έχει τέσσερα γράμματα) Στην πρόταση (Α.2) το μεταγλωσσικό ονοματικό σύνολο le mot (= η λέξη) έχει απαλειφθεί. Στη σκέψη μας, ωστόσο, κυριαρχεί το προτασιακό σχήμα: (Α.1) Le mot Dieu a quatre lettres (Η λέξη Θεός έχει τέσσερα γράμματα) Όπως διαπιστώνουμε, για να προχωρήσουμε στη γλωσσολογική ανάλυση των παραδειγμάτων μας, θα πρέπει να αναζητήσουμε, προηγουμένως, τη σημασιολογική πηγή τους (Harris, 1976: 9). Το νόημα μιας πρότασης δεν προκύπτει μόνο από τις λέξεις που τη συνθέτουν αλλά και από τις γραμματικές τους λειτουργίες. Σύμφωνα με την Daladier (1990), o Harris αναλύει τις γραμματικές λειτουργίες με δύο μηχανισμούς: τη διευθέτηση λεξικών στοιχείων και την ανάκληση υπονοούμενων λεξικών στοιχείων. Εστιάζει στις γραμματικές ιδιότητες, θέλοντας να μας οδηγήσει σε δομές με μεγαλύτερη ερμηνευτική δυνατότητα. Οι μετασχηματισμοί συνδέουν όμοιες σημασιολογικά προτάσεις (Daladier, 1990) και ο Harris τους χρησιμοποιεί για να αποδείξει ότι η στοιχειώδης πρόταση είναι δυνατόν να αναλυθεί σε πολλές απλές προτάσεις (Daladier, 1990). Για παράδειγμα, σε μια πρόταση (Si) είναι δυνατόν να αναγνωρίσουμε μια άλλη πρόταση (Sj), η οποία συνοδεύεται ενδεχομένως από ένα συμπληρωματικό υλικό (Χ). Το (Χ) απεικονίζει μια λέξη ή μια σειρά από λέξεις ή και ολόκληρη πρόταση. Η παρατήρηση αυτή αποτελεί και τη βάση της μετασχηματιστικής γραμματικής (Harris, 1976: 13-14). Κατά τον Harris (1976: 8) όλες οι μορφές μετασχηματισμών ταξινομούνται και αναλύονται στις παρακάτω κατηγορίες:

27 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 27 - σύμπτυξη (απαλοιφή και αντωνυμιοποίηση) 8 - σύναψη λέξεων ή προσφυμάτων σε άλλες λέξεις - μορφοφωνημική, μέσα στην οποία περιλαμβάνεται και η παράφραση - αντιμετάθεση λέξεων. 9 Σύμφωνα με τον Σακελλαριάδη (1979: 13) η γραμματική του Harris, αν και βασισμένη στην αγγλική γλώσσα, διαθέτει καθολικά χαρακτηριστικά που εφαρμόζονται ακόμη και στις «εξωτικές» γλώσσες με την περιγραφή των οποίων δεν έχει ασχοληθεί η παραδοσιακή γραμματική. Σημειώνει, ωστόσο, τις επιφυλάξεις του καθώς, όπως υπογραμμίζει, απουσιάζει η πληροφορία από την πλευρά των φυσικών ομιλητών που θα επιβεβαίωναν την ορθότητα των προτάσεων. Οι γλωσσολόγοι, υποστηρίζει, έχουν στηριχτεί στα γραπτά μόνο κείμενα, που δεν αποδίδουν πάντοτε πιστά όλες τις αποχρώσεις του προφορικού λόγου. Ωστόσο, οι επιφυλάξεις αυτές αίρονται κατά τη σημερινή εποχή, λόγω του όγκου των γραπτών κειμένων, τα οποία καλύπτουν πλέον πλείστες αποχρώσεις του λόγου. Ο Harris έδειξε ιδιαίτερο ενδιαφέρον για την ανάλυση ειδικών γλωσσών, καθώς μάλιστα οραματιζόταν μια παγκόσμια γλώσσα της επιστήμης 10. Η ιδέα της ύπαρξης μιας ειδικής γλώσσας (ή υπογλώσσας sublanguage, βλ. κεφ. 2.1.) ως μέρους της φυσικής γλώσσας, με δική της γραμματική, αναπτύχθηκε συστηματικά από τον Harris, ως μέρος της μετασχηματιστικής θεωρίας του. Ο τρόπος με τον οποίο ο Harris αντιμετωπίζει την υπογλώσσα είναι παρόμοιος με αυτόν του υποσυστήματος στα μαθηματικά. Υποστήριξε πως μια ειδική γλώσσα ενός συγκεκριμένου τομέα μπορεί να διαθέτει μια προϋπάρχουσα εξωτερική μεταγλώσσα, κάτι που δεν το διαθέτει η γλώσσα ως σύνολο. Στο ειδικό λεξιλόγιο οι μεταγλωσσικοί ορισμοί των όρων περιορίζουν τις δυνατότητες συνδυασμών των λέξεων και η συσχέτιση μορφής και σημασίας αποκτά μεγαλύτερη ακρίβεια (Harris, 1982). Στις ειδικές γλώσσες παρατηρούνται περιορισμοί στους συνδυασμούς των λέξεων που δεν υπάρχουν στη γενική γλώσσα. Με βάση ένα σώμα προτάσεων, είτε αυτόνομων είτε ως 8 Η σύμπτυξη είναι για τον Harris ένας μηχανισμός που επιτρέπει να ισχυριστούμε ότι η πλειονότητα των προτάσεων ξεκινά από μία δομή με διενεργητικούς κύριους όρους (Harris, 1990). 9 Οι αντίστοιχοι όροι στη γαλλική γλώσσα είναι σύμφωνα με τον M. Gross οι εξής: réduction, attachement, morphophonémique, permutation (Gross M., 1976). 10 Η ιδέα μιας παγκόσμιας γλώσσας, όχι φυσικής αλλά κατασκευασμένης, πρωτοεμφανίζεται τον 12ο αι. (Lingua Ignota) και αναβιώνει κατά τον 19ο αι. (SolreSol, Universalglot, Volapük, Esperanto κ.ά.) και στις αρχές του 20ού αι. (Latino sine flexione, Ido κ.ά.). Κατά τη δεκαετία του 50 εμφανίστηκαν οι Interlingua, Intal και Frater. Οι δημιουργοί των περισσότερων από τις γλώσσες που δημιουργήθηκαν κατά την εποχή εκείνη οραματίστηκαν μια παγκόσμια γλώσσα της επιστήμης, επηρεασμένοι κυρίως από τη γλώσσα των μαθηματικών, και πριν την έλευση των γλωσσών προγραμματισμού και των Η/Υ.

28 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 28 μέρος ενός κειμενικού είδους 11, οι οποίες συναντώνται εντός ενός επαρκώς συστηματικού (επιστημονικού) πεδίου, όπως για παράδειγμα επιστημονικά άρθρα σε ένα συγκεκριμένο τομέα, παρατηρούμε ότι πέρα από τους περιορισμούς στην εμφάνιση των λέξεων (word occurrence), υπάρχουν και συγκεκριμένοι περιορισμοί στην εμφάνιση των λέξεων σε κάθε υποκατηγορία. Επομένως το υδροχλωρικό οξύ μπορεί να αποτελέσει εμπρόθετο συμπλήρωμα του ρήματος πλένω αλλά όχι άμεσο αντικείμενο του ίδιου ρήματος. Π.χ. μπορούμε να βρούμε την πρόταση: Πλύναμε τα πολυπεπτίδια σε υδροχλωρικό οξύ (ή τα πολυπεπτίδια πλένονται σε ή με υδροχλωρικό οξύ) Αλλά όχι * πλύναμε το υδροχλωρικό οξύ με πολυπεπτίδια Στη γενική γραμματική η πρόταση δεν μπορεί να θεωρηθεί μη αποδεκτή ως μη γραμματική. Μπορεί ακόμη και να θεωρηθεί σωστή, αν θεωρήσουμε ότι το ρήμα πλένω έχει τη μεταφορική έννοια του εμβαπτίζω σε μια ροή πολυπεπτιδίων. Ωστόσο, σε ένα σώμα κειμένων βιοχημείας ή σε συζητήσεις βιοχημικών αυτή η πρόταση δεν θα μπορούσε να εμφανιστεί. Το γεγονός αυτό από μόνο του ίσως να μην είναι σημαντικό για την περιγραφή της βιοχημικής γλώσσας. Ωστόσο, όταν εξετάζουμε έναν μεγάλο αριθμό περιορισμών ή συνδυασμών που αφορούν συγκεκριμένες λέξεις σε συγκεκριμένες θέσεις, παρατηρούμε ότι σχηματίζονται ορισμένα υποσύνολα λέξεων (Harris, 1982: 234), καθώς μπορούν να αποτελέσουν το αντικείμενο ή το υποκείμενο ορισμένων ρημάτων. Για παράδειγμα, προσαρμόζοντας τη θεωρία του Harris στο χρηματιστήριο, παρατηρούμε ότι, όσον αφορά συγκεκριμένα ρήματα, ορισμένα ουσιαστικά μπορούν να αποτελέσουν αντικείμενο και όχι υποκείμενο, όπως για παράδειγμα στις ακόλουθες φράσεις από το ΣΧΚ: η τιμή της μετοχής διασπά ανοδικά όλους τις κινητούς μέσους όρους * όλοι οι κινητοί μέσοι όροι διασπούν ανοδικά την τιμή της μετοχής Στην ειδική γλώσσα η πρόταση δεν μπορεί να γίνει αποδεκτή όταν αντιμεταθέσουμε τα υποκείμενα και τα αντικείμενα, στη γενική ωστόσο γλώσσα δεν μπορεί η πρόταση αυτή να 11 Σύμφωνα με τους Γεωργακοπούλου & Γούτσο (1999), οι Harris (1951) και Mitchell (1957) είναι από τους πρώτους που κάνουν μια προσπάθεια μελέτης μεγαλύτερων από την πρόταση μονάδων λόγου. Αρκετά αργότερα εξελίχθηκαν οι λεγόμενες γραμματικές του κειμένου, αναζητώντας την εφαρμογή της νεότευκτης Γενετικής Μετασχηματιστικής θεωρίας σε υπερπροτασιακό επίπεδο (Dijk, 1972). Η έρευνα της ανάλυσης του λόγου προωθείται περαιτέρω από τη Σχολή του Birmingham, που μελέτησε τα ευρύτερα σχήματα οργάνωσης του προφορικού λόγου, σύμφωνα με την παράδοση της γραμματικής θεωρίας του Halliday (1985).

29 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 29 θεωρηθεί μη γραμματική. Για έναν φυσικό ομιλητή που δεν είναι εξοικειωμένος με την ειδική γλώσσα του χρηματιστηρίου, η πρόταση αυτή θα μπορούσε κάλλιστα να θεωρηθεί γραμματικά αποδεκτή. Στο ΣΧΚ όμως δεν θα μπορούσε να εμφανιστεί μια τέτοια πρόταση. Στην ειδική γλώσσα του χρηματιστηρίου, για παράδειγμα, είναι μια τιμή, ένας αριθμητικός δείκτης που μπορεί να είναι υποκείμενο του ρ. διασπώ (και σπάω ενίοτε), όπως στο αμέσως προηγούμενο παράδειγμα. Σύμφωνα με τον Harris, μπορούμε επομένως να μιλήσουμε για μία ειδική γραμματική για κάθε ειδική γλώσσα, όπου η δομή της πρότασης μπορεί να είναι η ίδια (π.χ. NVN) αλλά να υπάρχουν ειδικά υποσύνολα ρημάτων και ουσιαστικών (N i V j N k ). Μία από τις πρώτες και πιο σημαντικές εφαρμογές της θεωρίας του Harris στην πράξη πραγματοποιήθηκε από τη Naomi Sager (Sager N., 1982) στο πλαίσιο της αυτόματης συντακτικής ανάλυσης επιστημονικών κειμένων. Λαμβάνοντας υπόψη τους περιορισμούς στους μετασχηματισμούς των προτάσεων στο πλαίσιο μιας ειδικής γλώσσας, καθώς και την έλλειψη αμφισημίας σε σχέση με τη γενική γλώσσα, έγινε εφικτή η απομόνωση των συντακτικών δομών της ειδικής γλώσσας ενός συγκεκριμένου τομέα της φαρμακολογίας, γεγονός που οδήγησε στη δημιουργία μιας γραμματικής της ειδικής γλώσσας. Οι γραμματικές των ειδικών γλωσσών έχουν στη συνέχεια χρησιμοποιηθεί με σκοπό την αυτόματη μετάφραση και μάλιστα με μεγάλη επιτυχία στον τομέα της μετάφρασης μετεωρολογικών προβλέψεων από την αγγλική στη γαλλική γλώσσα στο πλαίσιο του προγράμματος TAUM (Traduction Automatique Université de Montréal), σε τέτοιο σημείο μάλιστα ώστε ο Lehrberger να συμπεράνει ότι, ακόμη κι αν η αυτόματη μετάφραση δεν είναι δυνατή για τη γλώσσα ως σύνολο, μπορεί ωστόσο να είναι εφικτή για ορισμένες ειδικές γλώσσες (Kittredge & Lehrberger, 1982: 99) Μεθοδολογικό μοντέλο Λεξικό-γραμματική Το μεθοδολογικό μας πλαίσιο για τη συντακτική περιγραφή των χρηματιστηριακών όρων εντάσσεται στο λεξικό-γραμματική, του οποίου τη μεθοδολογία ανέπτυξε ο Μ. Gross (1975). Πρόκειται για μια προσέγγιση θεωρητική, μετασχηματιστική και εμπειρική που αναδεικνύει τον βασικό ρόλο του λεξιλογίου. Το λεξικό-γραμματική μιας γλώσσας είναι μία συστηματική απεικόνιση του συνόλου των δομών αυτής της γλώσσας μέσα από στοιχειώδεις προτάσεις και μπορεί να θεωρηθεί ως ένα ηλεκτρονικό συντακτικο-

30 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 30 σημασιολογικό λεξικό ή ως μια συντακτική βάση δεδομένων όπου περιγράφονται συστηματικά οι κατανεμητικές 12 και μετασχηματιστικές ιδιότητες των βασικών συντακτικών δομών. Τα δεδομένα που περιλαμβάνει βρίσκονται συστηματικά καταχωρισμένα και προσεγγίζονται μέσω της πληροφορικής, ξεκινώντας από λέξεις-κλειδιά (Kyriacopoulou, 2005). Ο Μ. Gross (1975) βασιζόμενος στη συστηματική καταγραφή γλωσσικών δεδομένων αποδεικνύει ότι οι κανόνες της γραμματικής δεν είναι τόσο ομαλοί όσο θα πίστευε κάποιος. Η μεθοδολογική εφαρμογή αυτής της θεωρίας αποτέλεσε τη βάση για την ανάπτυξη πολλών ηλεκτρονικών εφαρμογών στη Γλωσσολογία, που εκπονήθηκαν στο Εργαστήριο Αυτόματης Τεκμηρίωσης και Γλωσσολογίας (Laboratoire d'automatique Documentaire et Linguistique - LADL) 13, όπως ηλεκτρονικά λεξικά, λεξικά-γραμματικές και τοπικές γραμματικές. Η βασική ιδέα είναι ότι η ελάχιστη μονάδα για τη μελέτη της σημασίας είναι η πρόταση μέσα στην οποία εμφανίζεται η λέξη και όχι η απομονωμένη λέξη, γιατί μόνο μέσα σε αυτό το πλαίσιο μπορούμε να καθορίσουμε τις συντακτικές και σημασιολογικές ιδιότητες των στοιχείων που μελετούμε. Η Αναστασιάδη-Συμεωνίδη (1986: 131) αναφέρει ότι «πολλές μελέτες που θεωρούν τη λέξη ως τη δεδομένη λεξική μονάδα βασίζονται είτε σε μεταγλωσσικά κείμενα είτε σε υλικό που αντλήθηκε έξω από τις πραγματικές συνθήκες εκφώνησης. Όταν προσπαθήσει κανείς να αποδελτιώσει κάποιο κείμενο διαπιστώνει, ωστόσο, τη δυσκολία ορισμού των ορίων της λεξικής μονάδας, η οποία και αυτό είναι πολύ σημαντικό λειτουργεί μέσα στην πρόταση». Οι διαφορετικές σημασίες μιας λέξης μελετώνται μόνο μέσα από τις διαφορετικές χρήσεις της μέσα στη στοιχειώδη πρόταση. Συγκεκριμένα, ένας τύπος πρότασης είναι μια στοιχειώδης πρόταση που περιέχει ένα κατηγόρημα (ρήμα, επίθετο ή ουσιαστικό). Το κατηγόρημα μπορεί να είναι ένα ρήμα, το οποίο συνήθως αποτελεί το σημασιολογικό πυρήνα της πρότασης (Boons, Guillet, & Léclere, 1976). Ωστόσο, σημασιολογικό πυρήνα μπορεί να αποτελεί επίσης ένα κατηγορηματικό επίθετο (Meunier, 1981), ένα κατηγορηματικό όνομα (Gross M., 1981 Giry-Schneider, 1987 Gross G., 1989) ή ένα επίρρημα (Gross G., 1984 Gross M., 1986 Gross M., 1990 Molinier, 1984). Η πρόταση μπορεί επίσης να περιέχει ένα ή περισσότερα 12 Με τον όρο «κατανεμητικές ιδιότητες» αναφερόμαστε στη σημασιολογική ταξινόμηση των ορισμάτων μιας πρότασης ως ανθρώπινων, άψυχων ουσιαστικών, αφηρημένων εννοιών, τόπου κτλ. 13

31 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 31 ορίσματα ονοματικά ή προτασιακά σε θέση υποκειμένου, αντικειμένου ή εμπρόθετου προσδιορισμού. Η βασική αρχή του λεξικού-γραμματικής συνίσταται στη συστηματική καταγραφή και ταξινόμηση των κατηγορημάτων σε τάξεις. Τα ρήματα, τα επίθετα, τα επιρρήματα και τα κατηγορηματικά ονόματα θεωρούνται ο πυρήνας της πρότασης και ταξινομούνται σε διαφορετικούς πίνακες που περιέχουν τις προτάσεις με τις συγκεκριμένες βασικές δομές, τις μετασχηματιστικές και τις κατανεμητικές τους ιδιότητες. Οι κατανεμητικές ιδιότητες απεικονίζονται με τη μορφή τύπων προτάσεων που είναι ή δεν είναι αποδεκτές για τη λέξη που ανήκει σε μια γραμματική κατηγορία. Σύμφωνα με το μεθοδολογικό μοντέλο λεξικού-γραμματικής, για την ελληνική γλώσσα έχουν πραγματοποιηθεί αντίστοιχες μελέτες για τα ρήματα: για τα ρήματα με Ν0 ή Ν1 συμπληρωματική πρόταση (Kyriacopoulou, 2005), για τα αμετάβατα ρήματα (Pantazara, 2003), για τα μη τοπικά μεταβατικά ρήματα με ένα αντικείμενο (Voskaki, 2011), για τα δίπτωτα ρήματα «συναλλαγής» (Φωτοπούλου, 2000), για τα τοπικά μεταβατικά ρήματα (Yannacopoulou, 2005 Φίστα, 2007), καθώς και άλλες γραμματικές κατηγορίες που αποτελούν μέρος του κατηγορήματος, όπως π.χ. για τα κατηγορηματικά ονόματα με υποστηρικτικό ρήμα το κάνω (Σφέτσιου, 2007), για τα κατηγορηματικά επίθετα (Sklavounou, 1997). Έχουν μελετηθεί επίσης οι παγιωμένες φράσεις (Fotopoulou, 1993 Moustaki, 1995). Οι μελέτες αυτές συνοδεύονται από πίνακες Λεξικού-Γραμματικής που λειτουργούν ως συντακτικά λεξικά, καθώς καταγράφονται σε αυτά οι συντακτικοσημασιολογικές ιδιότητες και περιορισμοί για κάθε κατηγόρημα. Τα λεξικά αυτά, όταν εφαρμόζονται στα κείμενα, πραγματοποιούν, σε συνδυασμό με άλλους γλωσσικούς πόρους, τη συντακτικο-σημασιολογική ανάλυση των προτάσεων. Η μεθοδολογία του λεξικού-γραμματικής που υιοθετούμε διασφαλίζει, από τη μία πλευρά, την εξαντλητικότητα, τη συστηματικότητα και τη σαφήνεια των γλωσσικών δεδομένων και, από την άλλη, αποτελεί απαραίτητη προϋπόθεση για την αυτόματη επεξεργασία των φυσικών γλωσσών. Για το λόγο αυτό, για τη συγκρότηση του μορφολογικού και του συντακτικού λεξικού των χρηματιστηριακών όρων επιχειρείται η εξαντλητική καταγραφή των γλωσσικών δεδομένων, μορφολογικών και συντακτικών, καθώς και η συστηματική και σαφής αναπαράστασή τους, βασιζόμενη στα ήδη υπάρχοντα δεδομένα (Kyriacopoulou, 1990, 2005 Yannacopoulou, 2005). Για να είναι εφικτή η αξιοποίηση του λεξικού-γραμματικής από τον ηλεκτρονικό υπολογιστή, το λεξικό-γραμματική έχει τη μορφή πινάκων. Κάθε πίνακας περιγράφει μία

32 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 32 συγκεκριμένη δομή που διασαφηνίζει τη χρήση των στοιχείων που περιγράφονται (απλές ή σύνθετες λέξεις). Η συντακτική δομή των ομαδοποιημένων στοιχείων καθορίζουν κάθε πίνακα. Κάθε στήλη περιλαμβάνει ένα σύνολο ιδιοτήτων και αντιστοιχεί σε μια συντακτική μορφή. Κάθε γραμμή περιγράφει και μια πρόταση ή μια σημασία κατά τη λεξικογραφική παράδοση. Με τον τρόπο αυτό, η συστηματική και εξαντλητική συντακτικο-σημασιολογική περιγραφή της γλώσσας μπορεί να ενσωματωθεί σε ένα σύστημα αυτόματου συντακτικού αναλυτή, προκειμένου να επιτευχθεί η αναγνώριση των προτάσεων ενός κειμένου. Παραθέτουμε απόσπασμα λεξικού-γραμματικής από τον πίνακα των κατηγορηματικών ονομάτων του χρηματιστηριακού λεξιλογίου με τη δομή Ρήμα + Κατηγορηματικό ουσιαστικό (Πίνακας VsupNpred): Εικόνα 1: Απόσπασμα από τον πίνακα των κατηγορηματικών ονομάτων των χρηματιστηριακών όρων (Πίνακας VsupNpred/VSN) Έτσι, σε κάθε πίνακα Λεξικού-Γραμματικής, οι διαφορετικές στήλες δηλώνουν τις συντακτικο-σημασιολογικές ιδιότητες των λημμάτων προς μελέτη (κατανεμητικές και μετασχηματιστικές). Συγκεκριμένα, στην πρώτη γραμμή κάθε πίνακα αναγράφονται τα επιμέρους λεξικά στοιχεία μιας συντακτικής δομής (π.χ. υποκείμενο, υποστηρικτικό ρήμα, προσδιοριστές, κατηγορηματικό όνομα, πρόθεση, τροποποιητές, συμπληρώματα κτλ.) και

33 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 33 οι ιδιότητες (μετασχηματισμοί ή συνέπειες σημασιολογικού χαρακτήρα) που είναι δυνατόν να εμφανίσουν οι προτάσεις με ανάλογη δομή. Στην κορυφή, επομένως της κάθε στήλης υπάρχει ένας τίτλος που αναπαριστά μια συντακτική ή μια λεξιλογική ιδιότητα. Κάθε σειρά αντιστοιχεί σε ένα διαφορετικό λήμμα. Στη συμβολή της στήλης και της σειράς, το σύμβολο συν (+) συμβολίζει ότι η αντίστοιχη ιδιότητα ισχύει για το λήμμα, ενώ το σύμβολο πλην (-) ότι η ιδιότητα αυτή δεν αφορά το συγκεκριμένο λήμμα (Gross M., 1975 Boons, Guillet, & Léclere, 1976). Οι στήλες θα πρέπει να χαρακτηρίζονται από ομοιογένεια ως προς το περιεχόμενο των φατνίων τους, στα οποία μπορούν να εμπεριέχονται είτε μόνο τα αριθμητικά σύμβολα «+» και «-», είτε ένα κείμενο που να παραπέμπει, για παράδειγμα, σε: - Κατηγορηματικά ονόματα (π.χ. ανάκαμψη, σπλιτ κτλ.) - Επίθετα (π.χ. ανοδικός, καθοδικός) - Παθητικές μετοχές (π.χ. αγορασμένος) - Ρήματα πλήρους μορφής, ενεργητικής ή παθητικής φωνής (αποϋλοποιώ / αποϋλοποιούμαι) ή εναλλακτικά υποστηρικτικά ρήματα, όπως τα έχω, παρουσιάζω, προβαίνω σε κτλ. Στην παρούσα μελέτη, τα παραδείγματα που περιλαμβάνονται στους πίνακες λεξικούγραμματικής για το εκάστοτε λήμμα αποτελούν αυθεντικά παραδείγματα τα οποία αντλήθηκαν από το ΣΧΚ. Για τη δημιουργία των πινάκων, εξετάζεται κάθε κατηγόρημα μέσα στις στοιχειώδεις προτάσεις στις οποίες μπορεί να εμφανιστεί, ώστε να διακριθούν όλες οι σημασίες του και κατά συνέπεια οι διαφορετικές του χρήσεις και αναζητούνται όλοι οι πιθανοί του μετασχηματισμοί. Απαραίτητο κριτήριο σ' αυτό είναι η εξέταση της μέγιστης, κάθε φορά, ορισματικής ακολουθίας πάντα μέσα στο πλαίσιο της στοιχειώδους πρότασης Η ορισματική δομή προκύπτει εφόσον διαγράψουμε τους μη υποχρεωτικούς προσδιορισμούς μιας πρότασης και λάβουμε υπόψη τη μεγαλύτερη και πλήρους νοήματος συντακτική δομή της (Gross M., 1981 Kyriacopoulou, 2005: 108). Ο συλλογισμός αυτός ονομάζεται αρχή της μέγιστης ορισματικής επέκτασης ή ακολουθίας ( la structure la plus longue ) (Boons, Guillet, & Léclere, 1976) και αποτελεί τη βάση της ταξινόμησης όλων των λημμάτων.

34 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο Μεθοδολογία σωμάτων κειμένων Παράλληλα με τη μεθοδολογία του λεξικού-γραμματικής χρησιμοποιείται και η μεθοδολογία της Γλωσσολογίας Σωμάτων Κειμένων. Κατά τη διάρκεια των τελευταίων ετών 15, η ορολογική έρευνα έχει στραφεί στα σώματα κειμένων για τον εντοπισμό και την εξαγωγή όρων, καθώς και την ανάπτυξη υπολογιστικών εργαλείων για την επεξεργασία, την τεκμηρίωση και την αξιολόγηση των όρων. Σύμφωνα με τον Kocourek (1991), «τα ειδικά κείμενα αποτελούν το μόνιμο διεπιστημονικό σύνδεσμο μεταξύ της ειδίκευσης και της γλωσσολογίας» Μέθοδος ή κλάδος της γλωσσολογίας; Ένα θέμα που έχει τεθεί από πολλούς γλωσσολόγους όσον αφορά τη γλωσσολογία σωμάτων κειμένων είναι το αν πρόκειται για μεθοδολογία ή για έναν ανεξάρτητο κλάδο της γλωσσολογίας. Έχει υποστηριχθεί ότι η γλωσσολογία σωμάτων κειμένων «έχει ξεφύγει από το μεθοδολογικό της ρόλο» και αποτελεί πλέον μια ανεξάρτητη «επιστήμη» (Tognini- Bonelli, 2001). Σύμφωνα ωστόσο με τους McEnery, Xiao & Tono (2006) η γλωσσολογία σωμάτων κειμένων αποτελεί μια μεθοδολογία περισσότερο παρά έναν ανεξάρτητο κλάδο της γλωσσολογίας, με την ίδια έννοια όπως η φωνητική, η σύνταξη, η σημασιολογία ή ή πραγματολογία, καθώς η γλωσσολογία σωμάτων κειμένων μπορεί να χρησιμεύσει στη διερεύνηση σχεδόν κάθε πεδίου γλωσσικής ανάλυσης. Έτσι, η σύνταξη, για παράδειγμα, μπορεί να μελετηθεί μέσω μιας προσέγγισης βασιζόμενης σε σώματα κειμένων. Σύμφωνα με τους McEnery, Xiao & Tono (2006), καθώς η γλωσσολογία σωμάτων κειμένων αποτελεί ένα ολόκληρο σύστημα αρχών και μεθόδων όσον αφορά την εφαρμογή και τη χρήση σωμάτων κειμένων στη μελέτη της γλώσσας και τη διδασκαλία/μάθηση, σαφώς και έχει θεωρητικό υπόβαθρο, χωρίς ωστόσο να παύει να αποτελεί μια μέθοδο πάνω στην οποία βασίζονται πιθανές θεωρίες Μέθοδος της ενδοσκόπησης και μέθοδος σωμάτων κειμένων Η επιλογή της μεθοδολογίας σωμάτων κειμένων φαίνεται προφανής και αυτονόητη για τη σύγχρονη γλωσσολογία, ωστόσο, κατά παράδοση, οι δύο αυτές μεθοδολογίες έρχονται σε αντίθεση: αφενός η μέθοδος της ενδοσκόπησης ή της διαίσθησης (του φυσικού ομιλητή), αφετέρου η μέθοδος των σωμάτων κειμένων. 15 Σύμφωνα με τους McEnery et al. (2006: 3) ο όρος corpus linguistics χρησιμοποιήθηκε ευρέως στις αρχές της δεκαετίας του '80.

35 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 35 Ιδιαίτερα γνωστή είναι η αρνητική ως προς τα σώματα κειμένων στάση του Chomsky, ο οποίος αρνήθηκε τη χρήση αυτών των παρατηρήσιμων δεδομένων: «Όπως τα περισσότερα γεγονότα που παρουσιάζουν ενδιαφέρον και έχουν σημασία [...] οι πληροφορίες για τις δεξιότητες ενός ομιλητή-ακροατή [...] ούτε προσφέρονται προς άμεση παρατήρηση ούτε εξάγονται από κανενός είδους δεδομένα μέσω κάποιας γνωστής διαδικασίας εξαγωγής» (Chomsky, 1965: 18), ενώ απέρριπτε και την ίδια την ύπαρξη της γλωσσολογίας σωμάτων κειμένων. Μάλιστα, παρότι σήμερα η χρήση των σωμάτων κειμένων αποτελεί τη βάση για εκατοντάδες μελέτες, η πρόοδος στον τομέα της γλωσσολογίας των σωμάτων κειμένων ήταν αργή, από τα τέλη της δεκαετίας του 50, κυρίως λόγω της αρνητικής θέσης του Chomsky, η οποία συνεχίζεται ως σήμερα και από οπαδούς της θεωρίας όπως ο Aarts (2007). Παρότι η άποψη αυτή σήμερα ξενίζει, την εποχή που διατυπώθηκε ήταν αναμφισβήτητα αληθινή στη βάση της: τα σώματα κειμένων ήταν πράγματι πολύ μικρά σε μέγεθος, εν συγκρίσει με τα σύγχρονα σώματα κειμένων, ενώ με τη χρήση έντυπου υλικού και από ανθρώπινους χρήστες ήταν κυριολεκτικά αδύνατη η ανάλυση μεγάλων όγκων γλωσσικών δεδομένων. Η αρνητική αυτή στάση συνεχίστηκε κατά τη δεκαετία του 70, όταν ο M. Gross (1975: 24-25) ανέφερε ότι δεν ενδείκνυται η διερεύνηση σωμάτων κειμένων για τη μελέτη των συντακτικών δομών μιας γλώσσας και ότι μια τέτοια διαδικασία δεν μπορεί να εφαρμοστεί στα πλαίσια της μετασχηματιστικής γραμματικής, καθώς δεν παρέχει εξαντλητικά παραδείγματα και την απαιτούμενη συστηματικότητα. Ο Boons (1974) σημειώνει ότι, στο πλαίσιο της μετασχηματιστικής μεθόδου, δεν μπορεί να περιοριστεί κάποιος, όπως η πλειονότητα των λεξικογράφων και των παραδοσιακών μελετητών της γλώσσας, στα σώματα κειμένων, γιατί, ακόμη και αν είναι εκτενή, δεν μπορούν να περιέχουν όλες τις απαιτούμενες ακολουθίες λέξεων για την κατασκευή των παραδειγμάτων. Η αντίθεση έμεινε γνωστή μέσω του Fillmore (1992) ως αντίθεση μεταξύ της γλωσσολογίας «της πολυθρόνας» και της γλωσσολογίας σωμάτων κειμένων, ενώ σύμφωνα με τον Croft (1993, 1998) πρόκειται για αντίθεση μεταξύ μιας μεθόδου εμπειρικής και μιας μεθόδου παρατήρησης. Πρόκειται για μία βαθύτερη αντίθεση στο πεδίο της επεξεργασίας φυσικών γλωσσών (Natural Language Processing NLP) μεταξύ των μεθόδων που βασίζονται σε κανόνες (rule-based) 16 και των στατιστικών μεθόδων (statistics-based) και κατ επέκταση 16 Σύμφωνα με τον Chomsky (1965) οι κανόνες δεν περιγράφουν το υπάρχον αλλά το δυνατόν. Ο ρόλος της γλωσσολογίας επομένως δεν είναι η ερμηνεία των ευρημάτων στα υπάρχοντα κείμενα αλλά η περιγραφή της γλωσσικής δεξιότητας ενός ομιλητή για παραγωγή νέων γραμματικών προτάσεων.

36 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 36 μεταξύ των δύο πεδίων που απαρτίζουν την Υπολογιστική Γλωσσολογία: της Πληροφορικής και της Γλωσσολογίας. Η εμπειρική μέθοδος έγκειται στο σχηματισμό μιας γλωσσολογικής υπόθεσης και στην κατασκευή παραδειγμάτων στα οποία εναλλάσσουμε συστηματικά και ανεξάρτητα τις σταθερές παραμέτρους. Στη συνέχεια, κατόπιν ενδοσκόπησης, αποφασίζουμε κατά πόσο τα παραδείγματα είναι αποδεκτά ή όχι και προχωρούμε στην εξαγωγή γενικών κανόνων. Θεωρητικά, η μέθοδος αυτή μπορεί να εφαρμοστεί και χωρίς την παρουσία ενός προϋπάρχοντος σώματος παραδειγμάτων. Η μέθοδος της παρατήρησης έγκειται στην παρατήρηση των τύπων που υπάρχουν σε ένα προϋπάρχον σώμα κειμένων και στη συνακόλουθη εξαγωγή γενικεύσεων. Στην πραγματικότητα, και οι δύο μέθοδοι βασίζονται σε εμπειρικές παρατηρήσεις. Ωστόσο, οι στατιστικές μετρήσεις συχνά μπορούν να οδηγήσουν σε λανθασμένα συμπεράσματα, και αυτό που προέχει είναι ο καθορισμός των παραμέτρων του πειράματος, εφόσον η παρατήρηση δύναται να παρέχει μόνον ενδείξεις (Laporte, 2007). Άλλωστε, οι λέξεις και η σύνταξή τους αποτελούν στοιχεία αλληλένδετα, και σύμφωνα με τη μεθοδολογία του λεξικού-γραμματικής κατά την περιγραφή του λεξιλογίου μιας γλώσσας ουσιαστικά περιγράφεται ο τρόπος με τον οποίο κάθε λεξικό στοιχείο τοποθετείται εντός μιας φράσης. Η ελάχιστη μονάδα συμφραζομένων μιας λέξης αποτελεί τη στοιχειώδη φράση. Από την άλλη, η μέθοδος της ενδοσκόπησης ενέχει τρεις κινδύνους. Καταρχήν, το να κρίνουμε αν μια δομή είναι αποδεκτή ή όχι ενέχει υποκειμενικότητα. Ένας άλλος κίνδυνος είναι η διαφορά ανάμεσα στη γλώσσα που περιγράφεται και το ιδιόλεκτο του μελετητή. Ο τρίτος κίνδυνος είναι η προκατάληψη του ερευνητή, κυρίως λόγω της επιθυμίας του να επαληθευτούν οι ερευνητικές του υποθέσεις. Η ομαδική εργασία ωστόσο μειώνει αυτούς τους κινδύνους. Οι πίνακες λεξικού-γραμματικής της γαλλικής κατασκευάστηκαν κατά τις δεκαετίες του 70 και του 80, όταν το μέγεθος των διαθέσιμων σε ηλεκτρονική μορφή κειμένων δεν επέτρεπε την εξαγωγή καθολικών συμπερασμάτων για τη γλώσσα, ούτε τα διαθέσιμα εργαλεία έδιναν τη δυνατότητα επεξεργασίας μη επισημειωμένων 17 και λημματοποιημένων 18 σωμάτων κειμένων. 17 Επισημειωμένα (annotated) ονομάζονται τα σώματα κειμένων στα οποία κάθε λέξη φέρει μορφολογικές (π.χ. μέρος του λόγου) ή άλλες πληροφορίες.

37 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 37 Όλα τα δεδομένα άλλαξαν άρδην κατά τη δεκαετία του 90, όταν η πρόοδος της γλωσσικής τεχνολογίας έδωσε νέες δυνατότητες στους κατασκευαστές πινάκων λεξικού-γραμματικής. Η κριτική της μεθοδολογίας σωμάτων κειμένων από τον Chomsky, τον M. Gross και άλλους ήταν σωστή όταν διατυπώθηκε, όταν τα σώματα κειμένων δεν είχαν ικανοποιητικό μέγεθος για την εξαγωγή ασφαλών συμπερασμάτων. Η πρώτη λοιπόν μέθοδος εξάγει τους κανόνες και η δεύτερη τους επαληθεύει. Και εδώ έγκειται το κοινό σημείο ανάμεσα στη γλωσσολογία των σωμάτων κειμένων και τη γλωσσολογία της ενδοσκόπησης. Ο Laporte (2007) καταλήγει στο συμπέρασμα ότι οι δύο μεθοδολογικές προσεγγίσεις αλληλοσυμπληρώνονται. Άλλωστε, ο ίδιος ο M. Gross ξεκίνησε να χρησιμοποιεί σώματα κειμένων το 1993, όταν κατασκευάστηκαν εργαλεία για τη μελέτη και την επεξεργασία τους (Silberztein, 1993). Σύμφωνα με τους McEnery, Xiao &Tono (2006) "το κλειδί στη χρήση δεδομένων που προκύπτουν από την επεξεργασία σωμάτων κειμένων είναι η εύρεση της ισορροπίας μεταξύ της χρήσης των δεδομένων αυτών και τη χρήση της προσωπικής διαίσθησης". Όπως σχολιάζει ο Leech (1991) "ούτε ο γλωσσολόγος σωμάτων κειμένων της δεκαετίας του 50, ο οποίος απέρριπτε τη διαίσθηση, ούτε ο γενικός γλωσσολόγος της δεκαετίας του 60, ο οποίος απέρριπτε τα δεδομένα των σωμάτων κειμένων, ήταν σε θέση να επιτύχουν την αλληλεπίδραση των εξαγόμενων δεδομένων και της εις βάθος κατανόησης που χαρακτηρίζουν πολλές επιτυχείς αναλύσεις σωμάτων κειμένων των τελευταίων ετών». Ο Svartvik (1992) προσθέτει ότι η εμπειρική προσέγγιση οφείλει να συνδυάζεται με την ενδοσκόπηση και την κριτική ματιά του γλωσσολόγου, αν θέλουμε να σχεδιάσουμε γλωσσικά μοντέλα που να είναι πραγματικά πλήρη, αξιόπιστα και αντιπροσωπευτικά Προσέγγιση βασιζόμενη σε σώματα κειμένων (corpus based approach) και προσέγγιση καθοδηγούμενη από τα δεδομένα (corpus driven approach) Ένα τρίτο θέμα που προκύπτει όσον αφορά την επιλογή της μεθοδολογίας των σωμάτων κειμένων είναι από τη μια η επιλογή της προσέγγισης που βασίζεται σε σώματα κειμένων, δηλ. αυτής που βασίζεται σε δεδομένα που προκύπτουν από την επεξεργασία σωμάτων κειμένων (corpus based approach), και από την άλλη της προσέγγισης που καθοδηγείται από τα δεδομένα, δηλ. αυτής που στηρίζεται αποκλειστικά στα δεδομένα που προκύπτουν από την επεξεργασία των σωμάτων κειμένων (corpus driven approach). Σύμφωνα με την 18 Λημματοποιημένα (lemmatized) ονομάζονται τα σώματα κειμένων στα οποία είναι δυνατή η αναζήτηση μιας λέξης μαζί με όλους τους κλιτούς τύπους της.

38 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 38 πρώτη προσέγγιση τα σώματα κειμένων χρησιμοποιούνται για να εκφράσουν, να ελέγξουν ή να διασαφηνίσουν θεωρίες που διατυπώθηκαν προτού γίνουν διαθέσιμα τα μεγάλα σώματα κειμένων (Tognini-Bonelli, 2001: 65). Οι οπαδοί της προσέγγισης αυτής έχουν δεχτεί κριτική, διότι δεν μένουν πιστοί στα δεδομένα που προκύπτουν από την επεξεργασία των σωμάτων κειμένων, σε αντίθεση με τους οπαδούς της δεύτερης προσέγγισης. Οι βασικές διαφορές ανάμεσα στις δύο προσεγγίσεις αφορούν το είδος των σωμάτων κειμένων που χρησιμοποιούνται, τη στάση που τηρείται απέναντι στις υπάρχουσες θεωρίες, την εστίαση της έρευνας και τις παραδειγματικές αξιώσεις. Όσον αφορά το είδος των σωμάτων κειμένων που χρησιμοποιούνται, υπάρχουν τρία ζητήματα: η αντιπροσωπευτικότητα (representativeness), το μέγεθος (corpus size) και ο σχολιασμός ή επισημείωση (annotation). Σύμφωνα με την καθοδηγούμενη από τα δεδομένα προσέγγιση, δεν είναι απαραίτητη η επιδίωξη ισορροπίας (balance) και αντιπροσωπευτικότητας (βλ. ενότ ), καθώς θεωρείται ότι το σώμα κειμένων αποκτά αυτά τα χαρακτηριστικά όσο αυξάνεται το μέγεθός του. Συνεπώς, η προσέγγιση αυτή υποστηρίζει την ανάγκη δημιουργίας πολύ μεγάλων σωμάτων κειμένων. Ωστόσο, σύμφωνα μ αυτή την προσέγγιση, τα δεδομένα μελετώνται με βάση μια ελάχιστη συχνότητα, ειδάλλως είναι αδύνατο να μελετηθούν στο σύνολό τους, καθώς προκύπτουν πολυάριθμα δεδομένα από πολύ μεγάλα σώματα κειμένων. Σ αυτό το σημείο λοιπόν η προσέγγιση αυτή δεν διαφέρει ιδιαίτερα από την προσέγγιση που βασίζεται στα σώματα κειμένων. Η προσέγγιση που καθοδηγείται από τα δεδομένα έχει επίσης σοβαρές ενστάσεις όσον αφορά το σχολιασμό/επισημείωση των κειμένων, καθώς αντιμετωπίζει τα σώματα κειμένων χωρίς να λαμβάνει υπόψη προϋπάρχουσες θεωρίες, προκειμένου να στηρίζεται ακόμη περισσότερο στα δεδομένα που προκύπτουν από τα κείμενα. Η προσέγγιση που βασίζεται στα σώματα κειμένων, αντίθετα, αποδέχεται τις προϋπάρχουσες θεωρίες, και μάλιστα έχει μια υπάρχουσα θεωρία ως σημείο αφετηρίας, την οποία αναθεωρεί ή συμπληρώνει με βάση τις αποδείξεις που προκύπτουν από την εξέταση των σωμάτων κειμένων. Ακολουθώντας αυτή την προσέγγιση, τα σώματα κειμένων είναι σχολιασμένα/επισημειωμένα, κυρίως όσον αφορά τα μέρη του λόγου, κάτι που διευκολύνει πολύ την επεξεργασία, αλλά και την παρατήρηση και τον εντοπισμό περιπτώσεων όπου πρέπει να γίνουν διορθώσεις, όσον αφορά το σχολιασμό/επισημείωση, ώστε να απεικονίζεται η πραγματική χρήση της γλώσσας. Άλλωστε, σύμφωνα με τους McEnery, Xiao & Tono (2006: 10), είναι αδύνατο να απομονωθεί κανείς και να απορρίψει ή να αγνοήσει τις προϋπάρχουσες θεωρίες για τη γλώσσα, και η διαίσθηση στην

39 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ: Θεωρητικό πλαίσιο και μεθοδολογικό μοντέλο 39 πραγματικότητα λειτουργεί και χρησιμοποιείται ακόμη και στην προσέγγιση που καθοδηγείται από τα δεδομένα επομένως, δεν υπάρχει ουσιαστική διαφορά μεταξύ του αιτήματος της προσέγγισης που καθοδηγείται από τα δεδομένα για επανεξέταση των προϋπαρχουσών θεωριών σε νέο πλαίσιο και της πρακτικής ελέγχου και αναθεώρησης των θεωριών αυτών όπως εφαρμόζεται από τη βασιζόμενη σε σώματα κειμένων προσέγγιση. Καταλήγουμε λοιπόν πως, στην παρούσα εργασία, χρησιμοποιούμε συμπληρωματικά τις μεθόδους της ενδοσκόπησης και του λεξικού γραμματικής από τη μία, και των σωμάτων κειμένων από την άλλη. Στο πλαίσιο της μεθοδολογίας σωμάτων κειμένων η προσέγγιση που ακολουθούμε είναι η βασιζόμενη σε σώματα κειμένων, με την ευρύτερη έννοιά της. Η μεθοδολογία με βάση σώματα κειμένων και το ειδικό σώμα κειμένων που κατασκευάστηκε στο πλαίσιο της παρούσας εργασίας και αποτέλεσε τη βάση της θα παρουσιαστούν διεξοδικά στο τρίτο κεφάλαιο.

40 2. ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου Στο παρόν κεφάλαιο θα αναφερθούμε στα χαρακτηριστικά των ειδικών γλωσσών και θα περιγράψουμε την ειδική γλώσσα του χρηματιστηρίου, ανατρέχοντας στη γένεση των χρηματιστηρίων παγκοσμίως, αλλά και του ελληνικού χρηματιστηρίου. Θα αναφερθούμε επίσης στην ιστορία και την προέλευση του χρηματιστηρίου Ορολογία Στην παρούσα εργασία χρησιμοποιείται ο όρος ειδική γλώσσα, προκειμένου να ορίσουμε τη γλώσσα που αφορά έναν συγκεκριμένο επιστημονικό ή επαγγελματικό τομέα. Ενώ για ορισμένους, όπως ο Kocourek (1991) και ο Rondeau (1984) ονομασίες όπως ειδική γλώσσα, γλώσσα ειδικότητας, γλώσσα για ειδικούς σκοπούς κ.ά. θεωρούνται συνώνυμες, οι Sager, Dungworth & McDonald (1980) θεωρούν ότι ο όρος γλώσσες για ειδικούς σκοπούς (όρος που χρησιμοποιείται ως μεταφραστικό δάνειο και στην ελληνική, από το Language for Specific Purposes LSP) πρέπει να χρησιμοποιείται μόνο στην περιοχή της διδακτικής αυτών των γλωσσών, καθότι οι στόχοι ενός προγράμματος κατάρτισης σε ειδική γλώσσα πρέπει να ανταποκρίνονται στους ειδικούς σκοπούς των διδασκομένων. Οι ίδιοι υιοθετούν και τον όρο ειδικές γλώσσες, ο οποίος χρησιμοποιείται και από την Κυριαζή- Παπακωνσταντίνου (2001). Ο Harris καθιέρωσε τον όρο υπογλώσσα (sublanguage), τον οποίο χρησιμοποίησαν επίσης οι Kittredge και Lehrberger (1982), όπως και η Κατσογιάννου στην ελληνική γλώσσα (1999). Σύμφωνα με τον Lerat (1995: 12) ωστόσο, δεν μπορούμε να μιλάμε για υπογλώσσα, εφόσον δεν πρόκειται για υποσύνολο της γλώσσας, όπως για παράδειγμα μία διάλεκτος, καθώς οι χαρακτηριστικοί μετασχηματισμοί που παρατηρούνται στο πλαίσιο μιας ειδικής γλώσσας διαφέρουν ως προς τη συχνότητά τους σε σχέση με τη γενική γλώσσα και όχι ως προς τη φύση τους. Οι ειδικές γλώσσες ως «γλώσσες υψηλού επιπέδου για την περιγραφή ενός αντικειμένου μελέτης» αναφέρονται και με τον όρο μεταγλώσσα (metalanguage), π.χ. γλωσσολογική μεταγλώσσα, ιατρική μεταγλώσσα, μαθηματική μεταγλώσσα κτλ. (Κρύσταλ, 2003: Ξυδόπουλος, 2008: 265). Ο όρος κοινωνιόλεκτο (ή κοινωνιόλεκτος) συνδέεται και αυτός με κοινωνικές ή και επαγγελματικές ομάδες και καθορίζεται από την ειδική χρήση της γλώσσας (Hoffmann, 1987), ωστόσο το κοινωνιόλεκτο δεν συνδέεται τόσο με την ειδικότητα ή τον τομέα όσο με συγκεκριμένη (κοινωνική) ομάδα.

41 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 41 Με την έννοια της ειδικής γλώσσας αναφέρεται επίσης το συλλογικό ιδιόλεκτο (Τοκατλίδου, 2000) ωστόσο, ως ιδιόλεκτο (ή ιδιόλεκτος) έχει καθιερωθεί ο προσωπικός τρόπος με τον οποίο χρησιμοποιεί τη γλώσσα ένα άτομο, το λεξιλόγιο που χρησιμοποιεί συνήθως και το ιδιαίτερο ύφος του. Σύμφωνα με το ΛΚΝ, η ιδιαίτερη γλώσσα που χρησιμοποιεί ένα άτομο και με επέκταση η ιδιαίτερη γλώσσα που πλάστηκε και χρησιμοποιείται από ένα περιορισμένο σύνολο ατόμων (παρέα φίλων, οικογένεια κτλ.). Το ιδίωμα είναι ένας ακόμη όρος που συγχέεται συχνά με την ειδική γλώσσα, ωστόσο αναφέρεται σε μια γλωσσική ποικιλία χαρακτηριστική ενός τόπου αλλά χωρίς σημαντικές διαφορές από την κοινή. Το ειδικό λεξιλόγιο, που αναφέρεται και ως τεχνικό λεξιλόγιο ή τεχνόλεκτο, είναι το σύνολο των λέξεων που χρησιμοποιούνται στο πλαίσιο μιας ειδικής γλώσσας και αποτελεί σημαντικό χαρακτηριστικό της. Ο στόχος του ειδικού λεξιλογίου είναι η διευκόλυνση της επικοινωνίας ανθρώπων πάνω σε ένα συγκεκριμένο ειδικό πεδίο, ενώ ειδικοί θεωρούνται όσοι έχουν λάβει εκπαίδευση ή έχουν εμπειρία πάνω στο συγκεκριμένο ειδικό πεδίο. Σύμφωνα με τον Quemada (1978) «η περιγραφική γλωσσολογία [ ] καταδικάζει τους όρους τεχνική και επιστημονική γλώσσα ως εξίσου ακατάλληλους [ ] και μιλά για λεξιλόγια που αναφέρονται σε ειδικές χρήσεις της γαλλικής και σε ποικιλίες της και που στηρίζονται για τον προφορικό λόγο, τη μορφολογία και τη σύνταξη στην κοινή γλώσσα [ ]. Αυτό, σύμφωνα με τον Kocourek (1991: 15), επιβεβαιώνει το γεγονός ότι, όταν οι ειδικές γλώσσες θεωρούνται μόνο λεξιλόγια, οι όψεις αυτές (προφορικός λόγος, τρόπος γραφής, μορφολογία και σύνταξη) αμελούνται ή εγκαταλείπονται, γι αυτό και πρέπει να προχωρήσουμε σε μια συνολικότερη μελέτη των ειδικών κειμένων, στην οποία ωστόσο κυρίαρχη θέση κατέχει το ειδικό λεξιλόγιο. Με τα ειδικά λεξιλόγια συνδέεται στενά η επιστήμη της ορολογίας, η οποία ασχολείται με τη συλλογή και περιγραφή του λεξιλογίου ειδικών πεδίων, αλλά και την κατονομασία των όρων σε μία γλώσσα. Σύμφωνα με τον ορισμό του Διεθνούς Οργανισμού Τυποποίησης (ISO : 2000) ορολογία είναι το σύνολο των κατασημάνσεων που ανήκουν σε μια ειδική γλώσσα, όπου κατασημάνσεις είναι οι παραστάσεις που αντιστοιχούν σε μία έννοια. Το αντικείμενο των ορολόγων είναι η κατασκευή ειδικών λεξικών ή βάσεων δεδομένων. Ωστόσο, σύμφωνα με τον Lerat (1995: 21), η ειδική γλώσσα δεν περιορίζεται στην ορολογία: χρησιμοποιεί ειδικούς όρους, συμπεριλαμβανομένων μη γλωσσικών συμβόλων, σε προτάσεις που αντλούν από τους συνήθεις πόρους μίας δεδομένης γλώσσας. Επομένως, μπορεί να πούμε, κατά τον Lerat (ό.π.) ότι η ειδική γλώσσα χρησιμοποιεί μια φυσική γλώσσα για να αποδώσει τεχνικά ειδικές γνώσεις. Αυτή είναι και η κύρια λειτουργία της.

42 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου Ειδική γλώσσα - Ορισμός Σύμφωνα με τις Bowker και Pearson (2002), ο ευκολότερος τρόπος για να περιγράψουμε την ειδική γλώσσα είναι μέσω της αντίθεσής της με τη γενική γλώσσα, τη γλώσσα που καθημερινώς χρησιμοποιούμε σε μια πληθώρα περιστάσεων. Η ειδική γλώσσα είναι η γλώσσα που χρησιμοποιούμε για να αναφερθούμε σε ειδικά γνωστικά πεδία. Υπάρχει μάλιστα μία διαφορετική γλώσσα για κάθε τομέα. Κάθε γλώσσα περιλαμβάνει τη γενική και την ειδική γλώσσα. Ένας φυσικός ομιλητής θεωρείται συνήθως πολύ καλός γνώστης της μητρικής του γλώσσας, ώστε να σχηματίζει ορθές και κατανοητές προτάσεις. Αλλά ακόμη και ένας φυσικός ομιλητής δεν είναι σε θέση να κατέχει την ειδική γλώσσα κάθε τομέα, π.χ. να γνωρίζει τι σημαίνει το τοκοχρεολύσιο ή η άμεση ράντα πληρωμής, πόσο μάλλον να δώσει έναν ορισμό. Συχνά ωστόσο γενική και ειδική γλώσσα επικαλύπτονται. Η ειδική γλώσσα περιέχει έναν αριθμό εξειδικευμένων όρων, π.χ. μερισματαπόδειξη, προμέρισμα, μόχλευση ή συνδυασμών λέξεων που δεν απαντούν στη γενική γλώσσα, π.χ. συμφωνία ανταλλαγής επιτοκίου, ενώ παράλληλα χρησιμοποιούνται και οι περισσότερες λέξεις της γενικής γλώσσας. Σύμφωνα με την Αναστασιάδη-Συμεωνίδη (2001), συμβαίνει επίσης συχνά όροι από τις ειδικές γλώσσες να εισέρχονται στη γενική γλώσσα, μέσω της διαδικασίας της απορολογικοποίησης (de-terminologization) (Meyer & Mackintosh, 2000), διαμέσου των μέσων μαζικής ενημέρωσης ή κατόπιν άμεσης επαφής, π.χ. ευρωομόλογο, spread. Σύμφωνα με τους Bergenholtz & Tarp (1995: 16-19) οι απόψεις σχετικά με τη σχέση της γενικής και της ειδικής γλώσσας απεικονίζονται ως εξής: ΓΕΝΙΚΗ ΚΑΙ ΕΙΔΙΚΗ ΓΛΩΣΣΑ Α Ειδική γλώσσα Γενική γλώσσα Εικόνα 2: Απεικόνιση της ειδικής γλώσσας ως υποσυνόλου της γενικής

43 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 43 Σύμφωνα με την απεικόνιση αυτή, η γενική γλώσσα θεωρείται ως συνώνυμη της κοινής γλώσσας και όλες οι ειδικές γλώσσες θεωρούνται ως στοιχεία της γενικής γλώσσας. Η άποψη αυτή υποστηρίζει ότι ένα ορισμένο γλωσσικό σύστημα καθορίζεται από το σύστημα της γενικής γλώσσας και ότι, σε μεγαλύτερο ή μικρότερο βαθμό, όλες οι ειδικές γλώσσες χρησιμοποιούν το σύστημα της γενικής γλώσσας. Υπάρχει ωστόσο και η διαμετρικά αντίθετη άποψη, σύμφωνα με την οποία όλες οι εκφράσεις της γενικής γλώσσας βρίσκονται και εντός της ειδικής γλώσσας, η οποία περιλαμβάνει, τόσο ως σύνολο όσο και κατά μονάδες, όλες τις εκφράσεις της ειδικής γλώσσας που χαρακτηρίζουν τους διαφορετικούς εξειδικευμένους κόσμους της ειδικής γλώσσας. Σύμφωνα με αυτή την προσανατολισμένη προς το λεξιλόγιο προσέγγιση, η γενική γλώσσα αποτελεί υποσύνολο της ειδικής γλώσσας. ΓΕΝΙΚΗ ΚΑΙ ΕΙΔΙΚΗ ΓΛΩΣΣΑ B Ειδική γλώσσα Γενική γλώσσα Εικόνα 3: Απεικόνιση της γενικής γλώσσας ως υποσυνόλου της ειδικής Σύμφωνα με την επικοινωνιακή προσέγγιση, η γενική και η ειδική γλώσσα χρησιμοποιούνται σε εντελώς διαφορέτικές περιστάσεις. Η ειδική γλώσσα αναφέρεται στη γλώσσα που χρησιμοποιείται κατά την επικοινωνία ειδικών επάνω στο αντικείμενο της ειδικότητάς τους. Καθώς η ειδική γνώση δεν αποτελεί προϋπόθεση για την καθημερινή επικοινωνία, είναι απαραίτητη η καταφυγή στη γενική γλώσσα. Παρά την πιθανότητα αναφοράς στα ίδια πράγματα με τη χρήση γενικής γλώσσας, η επικοινωνία απλοποιείται τόσο, ώστε το σύνολο δεν μπορεί πλέον να θεωρείται ειδική γλώσσα. Επομένως η γενική και η ειδική γλώσσα είναι ίσα αλλά διακριτά φαινόμενα:

44 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 44 ΓΕΝΙΚΗ ΚΑΙ ΕΙΔΙΚΗ ΓΛΩΣΣΑ Γ Ειδική γλώσσα Γενική γλώσσα Εικόνα 4: Απεικόνιση της σχέσης γενικής και ειδικής γλώσσας ως ξεχωριστών συνόλων Μια τέταρτη δυνατότητα είναι ο πλήρης αποκλεισμός της ύπαρξης μιας γενικής γλώσσας ως αυτόνομου φαινόμενου, υποθέτοντας παράλληλα ότι κάθε χρήση είναι ειδική για μια ορισμένη περίσταση. Αυτή η προσέγγιση υπονοεί ότι κάθε γλωσσική ποικιλία είναι μια ειδική γλώσσα. Ωστόσο, τα εγχειρίδια διδασκαλίας ξένων γλωσσών, οι βασικές γραμματικές και τα λεξικά που προορίζονται για τους διδασκόμενους προϋποθέτουν την ύπαρξη μιας γενικής γλώσσας. Γενικά, η ειδική γλώσσα μπορεί να χρησιμοποιεί ένα μέρος της γενικής γλώσσας, όπως ορισμένες γραμματικές δομές και το λεξιλόγιο. Σύμφωνα με τις Bowker & Pearson (2002: 26), παρόλο που το ειδικό λεξιλόγιο αποτελεί το προφανέστερο χαρακτηριστικό μιας ειδικής γλώσσας, αξίζει να σημειωθεί ότι η ειδική γλώσσα δεν είναι απλά μια γενική γλώσσα που εμπεριέχει ορισμένους όρους. Μια ειδική γλώσσα μπορεί να συνδυάζει με ιδιαίτερο τρόπο τους όρους ή να οργανώνει διαφορετικά από τη γενική γλώσσα τις πληροφορίες. Στην επόμενη απεικόνιση ο κοινός τόπος μεταξύ γενικής και ειδικής γλώσσας περιλαμβάνει κοινές δομές και στοιχεία μεταξύ τους, όπως καταλήγουν οι Bergenholtz & Tarp (1995: 19).

45 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 45 ΓΕΝΙΚΗ ΚΑΙ ΕΙΔΙΚΗ ΓΛΩΣΣΑ Δ Ειδική γλώσσα Κοινό λεξιλόγιο και γραμματική Γενική γλώσσα Εικόνα 5: Απεικόνιση της σχέσης γενικής και ειδικής γλώσσας με κοινό λεξιλόγιο και γραμματική Σε συμφωνία με αυτή την άποψη, μπορούμε να εξάγουμε το συμπέρασμα ότι υπάρχει ένας κοινός πυρήνας μεταξύ των ειδικών γλωσσών, ο οποίος μπορεί να απεικονιστεί ως εξής: ΕΙΔΙΚΕΣ ΓΛΩΣΣΕΣ ΚΑΙ ΓΕΝΙΚΗ ΓΛΩΣΣΑ Ειδική γλώσσα της νομικής Ειδική γλώσσα της ιατρικής Ειδική γλώσσα της οικονομίας Γενική γλώσσα Ειδική γλώσσα της βιολογίας Ειδική γλώσσα της κοινωνιολογίας Ειδική γλώσσα της χημείας Ειδική γλώσσα της φιλοσοφίας Εικόνα 6: Απεικόνιση της σχέσης της γενικής γλώσσας με ειδικές γλώσσες διαφόρων τομέων Αλλά και όσον αφορά την ειδική γλώσσα του χρηματιστηρίου, παρατηρούνται ποικίλες «επικαλύψεις» μεταξύ διαφόρων τομέων, όπως παρουσιάζεται στην επόμενη εικόνα (εξαιρουμένου του συστήματος της γενικής γλώσσας):

46 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 46 ΕΙΔΙΚΗ ΓΛΩΣΣΑ ΤΗΣ ΟΙΚΟΝΟΜΙΑΣ Ειδική γλώσσα της τραπεζικής Αγορές χρήματος και κεφαλαίου Ειδική γλώσσα του εμπορίου Ειδική γλώσσα του χρηματιστηρίου Εικόνα 7: Σχέσεις της ειδικής γλώσσας του χρηματιστηρίου με τις ειδικές γλώσσες άλλων τομέων Ειδική γλώσσα - Χαρακτηριστικά Η ειδική γλώσσα χαρακτηρίζεται από πεπερασμένο λεξιλόγιο και συντακτικοσημασιολογικές δομές. Η αμφισημία περιορίζεται, προκειμένου να διευκολύνεται η επικοινωνία. Σύμφωνα με την Pearson (1998: 31), μπορούμε να αποδώσουμε σε μια ειδική γλώσσα τα ακόλουθα χαρακτηριστικά: - Συγκεκριμένη θεματική (όπως για παράδειγμα ειδική γλώσσα της οικονομίας, της νομικής, της ιατρικής κτλ.) - Λεξικοί, σημασιολογικοί και συντακτικοί περιορισμοί - «Αποκλίνουσα» γραμματική (π.χ. ο όρος κατασκευές απαντά μόνο στον πληθυντικό αριθμό, ενώ η κλωστοϋφαντουργία μόνο στον ενικό, επειδή αναφέρονται σε συγκεκριμένο χρηματιστηριακό κλάδο) - Υψηλή συχνότητα συγκεκριμένων δομών (όπως για παράδειγμα υψηλή συχνότητα τυποποιημένων προτάσεων, π.χ. ο δείκτης έκανε βουτιά στις Χ μονάδες) - Συγκεκριμένη κειμενική δομή (όπως για παράδειγμα στα συμβόλαια, ή στις ανακοινώσεις τύπου) - Χρήση ειδικών συμβόλων (π.χ. ΑΑ+, Τ+1)

47 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 47 Η ειδική γλώσσα δεν περιορίζεται, όπως αναφέρθηκε, στην ορολογία: χρησιμοποιεί όρους, συμπεριλαμβανομένων και μη γλωσσικών συμβόλων (π.χ. μαθηματικών), και παράλληλα χρησιμοποιεί τους γλωσσικούς πόρους της γενικής γλώσσας, με σκοπό να μεταδώσει ειδικές γνώσεις. Σύμφωνα με τον Lerat (1995: 21) πρόκειται για την ίδια γλώσσα αλλά στην υπηρεσία ενός υψηλότερου σκοπού: της μετάδοσης γνώσεων. Η ειδική γλώσσα διακρίνεται από το ειδικό λεξιλόγιο αλλά και από τη γενική γλώσσα, γιατί δεν είναι απλώς η γενική γλώσσα με διάσπαρτους ειδικούς όρους. Έχει επίσης έναν ιδιαίτερο τρόπο να συνδυάζει τους όρους ή τις λέξεις και να μεταδίδει νοήματα. Σύμφωνα με τον Hoffmann (1991) τα ιδιαίτερα χαρακτηριστικά μιας ειδικής γλώσσας δεν εκφράζονται μόνο μέσω της συχνότητας ή της παραγωγικότητας μεμονωμένων γλωσσικών στοιχείων, αλλά μέσω του ιδιαίτερου τρόπου με τον οποίο αυτά συνδυάζονται σε ευρύτερα επικοινωνιακά συμπλέγματα. Για παράδειγμα, στη γενική γλώσσα, η λέξη πράξη συχνά συνδυάζεται με το ρήμα κάνω, ενώ στο λεξιλόγιο του χρηματιστηρίου η αναζήτηση στα σώματα κειμένων δείχνει ότι συνδυάζεται με υψηλή συχνότητα με το ρήμα εκτελώ ή με το επίθετο χρηματιστηριακή. Επίσης, η λέξη εντολή, πέρα από το αναμενόμενο ρήμα δίνω, συνδυάζεται στο συγκεκριμένο τομέα με τα ρήματα διαβιβάζω, εκτελώ, υποβάλλω, ή με το επίθετο ανεκτέλεστη και σε συνδυασμό με τα ουσιαστικά αγοράς ή πώλησης: Εντυπωσιακό ήταν το ξεκίνημα της εταιρίας και με συναλλαγές μόλις 300 τεμαχίων διπλασίασε την τιμή της. Παράλληλα οι ανεκτέλεστες εντολές αγοράς της ξεπέρασαν τα τεμάχια (απόσπασμα από το σώμα κειμένων χρηματιστηριακού δημοσιογραφικού περιεχομένου). Αυτό τον ιδιαίτερο τρόπο πρόκειται να μελετήσουμε μέσω της περιγραφής των συντακτικοσημασιολογικών χαρακτηριστικών των όρων του χρηματιστηρίου Ιστορία του χρηματιστηρίου Από το πεζοδρόμιο και τα καφενεία στους ηλεκτρονικούς δρόμους του διαδικτύου Παρόλο που η ειδική γλώσσα του χρηματιστηρίου είναι μια γλώσσα δυναμική και σύγχρονη, η ιστορία της είχε άμεσες επιπτώσεις στην ορολογία, τη λεξικογραφία και τη μετάφρασή της. Σύμφωνα με τον Kocourek (1991: 28), «η γνώση, έστω και μερική, της ιστορίας μιας ειδικής γλώσσας παρέχει στην επιστήμη το πολιτισμικό βάθος που εμπλουτίζει τον κόσμο ενός ερευνητή και θέτει το παρόν στη σωστή του διάσταση».

48 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου Οι απαρχές του χρηματιστηρίου στην Ευρώπη Το χρηματιστήριο είναι ένας χώρος συναλλαγών, όπου αντικείμενο συναλλαγής αποτελούν τίτλοι όπως μετοχές, ομόλογα και αμοιβαία κεφάλαια. Ένα σημαντικό βήμα στην εξελικτική πορεία του ανθρώπου από το συγκεκριμένο στο αφηρημένο ήταν και η συναλλαγή άυλων πλέον προϊόντων, όπως γίνεται στο χρηματιστήριο. Όπως αναφέρει ο Μ. Smith (2004), το πρωιμότερο παράδειγμα μιας παρόμοιας πρακτικής αγοράς αξιών, οργανωμένης, αναφέρεται στη Ρώμη του 2 ου αι. π.χ., όπου το εμπόριο και συνακόλουθα η έννοια της πίστωσης ήταν ιδιαίτερα διαδεδομένα, ενώ ευρεία ήταν η αποδοχή των τραπεζικών επιταγών ως μέσου οικονομικών συναλλαγών. Ο τόπος αυτών των συναλλαγών ήταν το Forum, κοντά στο ναό του Κάστορος. Αιώνες αργότερα οι ίδιες συνθήκες ωρίμασαν ξανά στην ιταλική χερσόνησο, στις ισχυρές πόλεις της Βενετίας και της Γένοβας, κατά το 14 ο αι. Οι πρώτοι τίτλοι που αποτέλεσαν αντικείμενο συναλλαγής ήταν περίπου σαν τα σημερινά κρατικά ομόλογα, τα οποία εκδίδονταν με σκοπό τη συγκέντρωση κεφαλαίων. Ως τα μέσα του 16 ου αι. η Αμβέρσα είχε αναδειχθεί σε κυρίαρχο οικονομικό κέντρο της Δύσης, και αποτέλεσε την έδρα του πρώτου μόνιμου χρηματιστηρίου ή bourse, το οποίο λέγεται ότι ονομάστηκε από το Hôtel des Bourses στην κοντινή Bruges, που χτίστηκε από έναν ευγενή με το όνομα Van der Bourse, ο οποίος είχε ως έμβλημα τρεις σάκους (bourses 19 ). Το 17 ο αι. πλέον ο Samuel Ricard, συγγραφέας του New Businessman ορίζει πλέον σαφώς ως bourse, χρηματιστήριο, το «χώρο συνάντησης τραπεζιτών, εμπόρων και επιχειρηματιών, ανθρώπων που αντάλλασσαν συνάλλαγμα, τραπεζικών υπαλλήλων, χρηματιστών και άλλων ανθρώπων» (Smith, 2004). Μετά την κατάκτηση της Αμβέρσας από τους Ισπανούς το 1585, το οικονομικό κέντρο μεταφέρθηκε στο Άμστερνταμ, όπου το 1602 δημιουργήθηκε το πρώτο «επίσημο» χρηματιστήριο, ένας συγκεκριμένος χώρος που προοριζόταν για την πραγματοποίηση των συναλλαγών τίτλων, ενώ οι συναλλαγές προηγουμένως λάμβαναν χώρα σε δρόμους και πεζοδρόμια, κι αυτό μάλιστα συνεχίστηκε για πολλά χρόνια αργότερα στο Λονδίνο και το Παρίσι (Exchange Alley και rue Quincampoix αντίστοιχα). Απαραίτητη προϋπόθεση για τις συναλλαγές αυτές ήταν η ύπαρξη πολυμετοχικών εταιρειών. Αυτές αναπτύχθηκαν συστηματικά το 16 ο αι. στην Αγγλία, αν και προϋπήρχαν 19 Οι προτεινόμενες ετυμολογίες είναι πολλές. Με τη σημερινή του σημασία πάντως ο όρος προωτοεμφανίστηκε στη Φλάνδρα. Πιθανότερη φαίνεται η συσχέτιση με τους (συνήθως δερμάτινους) σάκους για την αποθήκευση χρημάτων, με ετυμολογία από το λατινικό bursa που σημαίνει δέρμα και προέρχεται με τη σειρά του από την ελληνική λέξη βύρσα.

49 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 49 στην Ιταλία από το 14 ο αι. π.χ., ενώ η πρώτη μετοχική εταιρεία που αποτέλεσε αντικείμενο οργανωμένης διαπραγμάτευσης στο χρηματιστήριο του Άμστερνταμ και αργότερα του Λονδίνου θεωρείται η Ολλανδική Εταιρεία Ανατολικών Ινδιών. Οι συναλλαγές στο Λονδίνο πραγματοποιούνταν ανεπίσημα σε ορισμένα καφενεία (coffee houses), σε ένα δαιδαλώδες σύμπλεγμα στενών δρόμων, που καλούνταν Exchange Alley (Poley, 1911). Το 18 ο αι. λειτουργούσαν χρηματιστήρια σε όλη την Ευρώπη, ενώ μέσα στον ίδιο αιώνα ξεκίνησε τη λειτουργία του και το πρώτο χρηματιστήριο στην Αμερική, αρχικά στη Φιλαδέλφεια κι έπειτα στη Νέα Υόρκη, στη Wall Street, που κατέληξε συνώνυμη του χρηματιστηρίου, καθώς επί πολλά χρόνια αποτέλεσε το κέντρο των χρηματιστηριακών εξελίξεων. Με την ανάπτυξη των τηλεπικοινωνιών από το 19 ο αι., αίρονται σταδιακά η αυτονομία και η απομόνωση των εθνικών χρηματιστηρίων και οδηγούμαστε σιγά σιγά σε μια παγκόσμια αγορά μετοχών (Michie, 1999). Στον 20 ό αι. τα χρηματιστήρια είχαν πλέον την ίδια κεντρική θέση στην οικονομία όπως όταν πρωτοξεκίνησαν. Η τεχνολογική επανάσταση και η έλευση των ηλεκτρονικών υπολογιστών δημιούργησαν εντελώς νέες συνθήκες λειτουργίας τους και οδήγησαν στη λειτουργία των ηλεκτρονικών αγορών και στη διαπραγμάτευση στους ηλεκτρονικούς δρόμους του διαδικτύου, συνδέοντας πλέον τους συμμετέχοντες από όλον τον κόσμο Το ελληνικό χρηματιστήριο Στην Ελλάδα τα χρηματιστήρια δεν έχουν τόσο μακρόχρονη ιστορία όπως στην υπόλοιπη Ευρώπη. Το Χρηματιστήριο Αθηνών ιδρύθηκε μόλις τον 19ο αιώνα. Πρόκειται ωστόσο για ένα θεσμό που έχει ήδη περισσότερα από 135 χρόνια ιστορίας. Όπως αναφέρεται και στην επετειακή έκδοση για τα 125 χρόνια του ελληνικού χρηματιστηρίου (2001) 20, ο θεσμός των Ανωνύμων Εταιριών εμφανίσθηκε στην Ελλάδα από τους ομογενείς που έως τότε ζούσαν στην Κεντρική Ευρώπη και την Κωνσταντινούπολη, περιοχές στις οποίες ήταν ήδη, επί αρκετές δεκαετίες, ανεπτυγμένος. Η σταδιακή δημιουργία Ανωνύμων Εταιρειών και στην Ελλάδα, κατά τα μέσα του 19ου αιώνα, αλλά και η πρακτική του δανεισμού, που ακολούθησε το νεοσύστατο ελληνικό κράτος για την κάλυψη των αναγκών του, την ίδια περίπου εποχή, δημιούργησε την ανάγκη εξεύρεσης ενός χώρου όπου οι μετοχικοί ή ομολογιακοί τίτλοι θα αποτελούσαν αντικείμενο συναλλαγής. 20 Διαθέσιμη στην ιστοσελίδα του Χρηματιστηρίου Αξιών Αθηνών

50 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 50 Αρχικά, η κάλυψη της ανάγκης αυτής γινόταν με ανεπίσημο τρόπο, σε διάφορες λέσχες ή καφενεία, όπου συγκεντρωνόταν ο μικρός αριθμός των επενδυτών της εποχής εκείνης. Το φαινόμενο αυτό πήρε μεγάλη έκταση στις αρχές της δεκαετίας του 1870, λόγω της μεγάλης διασποράς που επιτεύχθηκε στις μετοχές της εταιρείας των μεταλλείων του Λαυρίου. Η μεγάλη έκταση που πήρε το ζήτημα της διαπραγμάτευσης των μετοχών των μεταλλείων του Λαυρίου, δημιούργησε τους πρώτους προβληματισμούς για την ανάγκη δημιουργίας ενός «επίσημου» Χρηματιστηρίου, στο οποίο θα αποτελούσαν αντικείμενο συναλλαγής -με βάση συγκεκριμένους κανόνες- οι μετοχές των Ανωνύμων Εταιρειών. Παράλληλα όμως, θεωρήθηκε ότι η ύπαρξη ενός επίσημου Χρηματιστηρίου θα βοηθούσε στην καλύτερη διάδοση του θεσμού των Ανωνύμων Εταιρειών, γεγονός το οποίο θα συνέβαλε στην ταχύτερη ανάπτυξη της βιομηχανίας και του τομέα των υπηρεσιών. Η ανάγκη για τη σύσταση Χρηματιστηρίου στην Αθήνα, επισημαίνεται σε άρθρο της εφημερίδας Αλήθεια, μία από τις εγκυρότερες εφημερίδες της εποχής, στις 4 Απριλίου 1872: "Σήμερον δε εκυρίευσεν τον τόπον η μεταλλομανία. Εταιρίαι πανταχού ιδρύονται και αι υπερτιμήσεις των τε μετοχών και των λοιπών χρεογράφων κατέστησαν επαισθητήν την έλλειψιν Χρηματιστηρίου παρ'ημίν". Στο Μέγα Ελληνικό Βιογραφικό Λεξικό (Βοβολίνης & Βοβολίνης, 1958), στη βιογραφία του Γ. Σίνα, γίνεται η παρακάτω σαφής αναφορά στην αναγκαιότητα που επέβαλε τις πρωτογενείς χρηματιστηριακές συναλλαγές των Ελλήνων του εξωτερικού, πριν ακόμα από τη σύσταση Χρηματιστηρίου στην Ελλάδα: "Θα μπορούσαμε να χαρακτηρίσουμε ως πρώτο ελληνικό Χρηματιστήριο -αποβλέποντας στα πρόσωπα και όχι στον τόπο- τη δραστηριότητα των Ελλήνων μεγαλεμπόρων, τραπεζιτών και χρηματιστών κατά το 18ο αιώνα στο ελληνικό καφενείο της Βιέννης, "Café Grec". Στον ελλαδικό χώρο, στην Ερμούπολη της Σύρου, λειτουργούσαν δύο εμπορικές λέσχες, η "Χιακή" και η "Σμυρναϊκή", αλλά τελικά τα κέντρα αυτά δεν ακολούθησαν την εξέλιξη της Αθηναϊκής Εμπορικής Λέσχης, πάνω από το καφενείο "Η Ωραία Ελλάς". Καθώς η Ερμούπολη άρχισε να παρακμάζει, η σκυτάλη της πρώτης εμπορικής πόλης πέρασε στον Πειραιά. Εκεί, είχε ήδη αναγερθεί χρηματιστηριακό μέγαρο, πριν ακόμα ιδρυθεί επισήμως το Χρηματιστήριο. Όπως αποδείχτηκε στην πράξη όμως, τόσο ο Πειραιάς όσο και η Ερμούπολη της εποχής εκείνης, δεν είχαν ανάγκη Χρηματιστηρίων, τη στιγμή που ακόμη δεν υπήρχαν μετοχές στα χέρια του ελληνικού κοινού, με μόνη εξαίρεση αυτές της Εθνικής Τράπεζας και της Ατμοπλοϊκής Εταιρίας. Το πρώτο ελληνικό Χρηματιστήριο, που ιδρύθηκε στον Πειραιά, ήταν μικτή αγορά εμπορευμάτων και αξιών ταυτόχρονα. Όμως, το

51 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 51 συγκεκριμένο Χρηματιστήριο, ποτέ δεν μπόρεσε να αποκτήσει επαρκή κίνηση χρηματιστηριακών τίτλων. Πάνω από το ιστορικό καφενείο «Η Ωραία Ελλάς», στη διασταύρωση των οδών Ερμού και Αιόλου, όπου οι θαμώνες ανέβαζαν ή κατέβαζαν κυβερνήσεις -όπως συχνά γραφόταν στον Τύπο της εποχής- από το 1870 βρισκόταν η «Λέσχη των Εμπόρων Αθηνών», που χρησίμευε ως τόπος συναντήσεως των επαγγελματιών, αλλά συχνά και ως πρακτορείο ειδήσεων. Στο χώρο αυτό, κάθε απόγευμα, γίνονταν -αρχικά σε μικρή κλίμακα- διαπραγματεύσεις επί των ομολογιών των εθνικών δανείων που εκδίδονταν τότε. Σταδιακά και με τη διάδοση των μετοχικών τίτλων, δημιουργήθηκε η διάθεση για συστηματικότερες συναλλαγές. Με την πάροδο του χρόνου, η Λέσχη πάνω από το καφενείο «Η Ωραία Ελλάς», από ψυχαγωγικό κέντρο ορισμένης επαγγελματικής τάξης, μετατράπηκε σε «Μετοχοπρατήριον», όπως ονομάστηκε. Στην αρχή, οι λίγες πράξεις που συνάπτονταν στη Λέσχη δεν ήταν αρκετές για να δημιουργήσουν χρηματιστηριακή ατμόσφαιρα. Στη συνέχεια όμως, όσο αυξανόταν ο κερδοσκοπικός παροξυσμός που είχε καταλάβει το πλήθος, κυρίως μετά από την ίδρυση της Εταιρείας του Λαυρίου, γίνονταν ολοένα και πυκνότερες οι συγκεντρώσεις στο καφενείο και στο χώρο μπροστά από αυτό. Οι μετοχές της εταιρείας αυτής, λόγω της ευρείας εξάπλωσης και των ελπίδων που γέννησαν στη χρηματιστηριακά άπειρη κοινωνία της εποχής, έγιναν αντικείμενο ευρύτατου κύκλου αγοραπωλησιών. Κατά το Μάιο του 1873 κυκλοφόρησαν μετοχές της Εταιρείας του Λαυρίου και αποτέλεσαν αποκλειστικό σχεδόν αντικείμενο αγοραπωλησιών στη Λέσχη, το καφενείο και τους γύρω δρόμους. Η ιστορία του Χρηματιστηρίου Αξιών Αθηνών αρχίζει στις 30 Σεπτεμβρίου 1876, όταν επί κυβερνήσεως Αλέξανδρου Κουμουνδούρου, δόθηκε η κυβερνητική έγκριση για τη σύστασή του. Έκτοτε το χρηματιστήριο ακολούθησε μια πολυτάραχη πορεία με ανοδικές και πτωτικές εξάρσεις. «Ως το μέρος στο οποίο απεικονίζεται ο "σφυγμός" της κοινωνίας και η συνισταμένη των οικονομικών, κοινωνικών και πολιτικών εξελίξεων, η ιστορία ανάπτυξης του Χρηματιστηρίου, υπήρξε παράλληλη της ιστορίας ανάπτυξης του ελληνικού κράτους, της ελληνικής κοινωνίας και της ελληνικής οικονομίας» 21. Φτάνοντας στο έτος 1999, παρατηρείται μια έντονη ανοδική τάση. Παρόμοιες καταστάσεις η ελληνική κοινωνία είχε ζήσει και στο παρελθόν, κυρίως κατά τα έτη 1972 και Αυτή τη φορά, όμως, η «χρηματιστηριακή έξαρση» υπήρξε πιο μαζική και αφορούσε 21 Από την επετειακή έκδοση για τα 125 χρόνια του Χρηματιστηρίου Αθηνών.

52 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 52 εκατοντάδες χιλιάδες επενδυτές με μία ευρύτερη γεωγραφική διασπορά. Η ανοδική πορεία των τιμών των μετοχών κορυφώθηκε στα μέσα Σεπτεμβρίου του 1999, όπου ο Γενικός Δείκτης την 17η Σεπτεμβρίου 1999 κατέγραψε την ανώτατη ιστορική του τιμή στις μονάδες. Η συσσωρευμένη όμως υπερτίμηση των τιμών των δεικτών που σημειώθηκε το 1999 (χρηματιστηριακό κραχ του 1999), έμελλε να διοχετευτεί σε μια πτωτική προσαρμογή, η οποία κατά το 2000 ενισχύθηκε και από το γεγονός ότι προς την κατεύθυνση αυτή κινήθηκε, επίσης, το σύνολο σχεδόν των αναδυόμενων αλλά και αρκετών ώριμων αγορών. Σήμερα, αντικείμενο διαπραγμάτευσης στην Αγορά Αξιών του Χ.Α. αποτελούν οι μετοχές, τα ομόλογα (τραπεζικά και Ελληνικού Δημοσίου), οι ομολογίες των ανωνύμων εταιρειών (κοινές, ανταλλάξιμες και μετατρέψιμες), καθώς και τα δικαιώματα προτίμησης. Ο μεγαλύτερος όγκος συναλλαγών, καθημερινά, αφορά τις συναλλαγές των μετοχών. Στην Ελληνική Αγορά Αναδυόμενων Κεφαλαιαγορών (Ε.ΑΓ.Α.Κ.) αντικείμενο διαπραγμάτευσης αποτελούν επίσης τα Μερίδια Επενδυτικών Κεφαλαίων Αναδυόμενων Αγορών (Ε.Κ.Α.Α.) και τα Ελληνικά Πιστοποιητικά (ΕΛ.ΠΙΣ.). Στην Αγορά Παραγώγων αντικείμενο διαπραγμάτευσης είναι τα Συμβόλαια Μελλοντικής Εκπλήρωσης (Σ.Μ.Ε.) και δικαιώματα στους δείκτες FTSE/ASE-20 και FTSE/ASE Mid 40, Σ.Μ.Ε. και δικαιώματα επί μετοχών, προϊόντα repo επί μετοχών εισηγμένων στο Χρηματιστήριο Αθηνών, Συμβάσεις Επαναγοράς (RA) και Σ.Μ.Ε. στη συναλλαγματική ισοτιμία EUR/USD Η ειδική γλώσσα του χρηματιστηρίου Η οικονομία και το χρηματιστήριο διένυαν όλο αυτό το χρονικό διάστημα μια πορεία γεμάτη αναταράξεις και σκαμπανεβάσματα, με κρίσεις, κραχ και «φούσκες». Παράλληλα με όλα αυτά τα ιστορικά γεγονότα και τις εξελίξεις, εξελισσόταν και μια ιδιαίτερη γλώσσα, η γλώσσα της οικονομίας, με πολλές επιμέρους ειδικές γλώσσες, ανάλογα με τους επιμέρους κλάδους των οικονομικών επιστημών, όπως τη γλώσσα της διοίκησης επιχειρήσεων, της λογιστικής, της πολιτικής οικονομίας, της δημόσιας οικονομίας, της τραπεζικής, της διαφήμισης, του εμπορίου και της βιομηχανίας, των διεθνών οικονομικών, ή ακόμη της βιοοικονομίας, της πράσινης οικονομίας κ.ο.κ. Στις γλώσσες αυτές ανήκει και η ειδική γλώσσα του χρηματιστηρίου, που εξελίχθηκε από την ίδρυση των πρώτων χρηματιστηρίων. Αποτελεί μια ειδική γλώσσα επαγγελματική, με ρίζες κάθε άλλο παρά αριστοκρατικές ή ακαδημαϊκές, και ταυτόχρονα μέρος της επιστήμης της οικονομίας. Η συμμετοχή ήταν ανοικτή στον καθένα. Το γεγονός αυτό είχε ιδιαίτερες επιπτώσεις στο λεξιλόγιο, που πολύ συχνά, ανάλογα με τον ενθουσιασμό και τη συμμετοχή

53 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 53 του κόσμου κατά περιόδους ανάπτυξης, γινόταν μέρος του γενικού λεξιλογίου, πράγμα που συνεχίζεται ως σήμερα. Μελετώντας την ιστορία του χρηματιστηρίου, παρατηρούμε ότι οι χρήστες συνιστούν μία σημαντική διαφορά εν συγκρίσει με άλλες ειδικές γλώσσες. Δεν πρόκειται για μια γλώσσα που χρησιμοποιείται μεταξύ ειδικών. Σε πολλές ιστοσελίδες επενδυτικών συμβουλών, τόσο στην Ελλάδα όσο και στο εξωτερικό, παρέχονται ειδικά γλωσσάρια για το κοινό, προκειμένου να "μυήσουν" το κοινό σ' αυτή την ειδική γλώσσα και να βοηθήσουν στην αποκρυπτογράφησή της. Κατά βάση, είναι μια γλώσσα που έχει τις ρίζες της στο δρόμο, στα καφενεία, στην αγορά. Καθώς η όσο το δυνατόν αμεσότερη πληροφόρηση είναι ζωτικής σημασίας για το χώρο αυτό, η τεχνολογία και κάθε είδους σύμβολα αξιολογήθηκαν στο έπακρο ως προς το στόχο αυτό 22. Όπως έχει αναφερθεί στην εισαγωγή της παρούσας εργασίας, η ειδική αυτή γλώσσα είναι μια γλώσσα της οικονομίας που δανείζεται σύμβολα από τα μαθηματικά, οπότε ένα σύμβολο (+ ή - ) μπορεί να συνοψίσει τη συνολική εικόνα (ή «τάση») μίας ημέρας ή μίας συγκεκριμένης περιόδου στο χρηματιστήριο, ένα βέλος ( ή ) ή ένα χρώμα (το πράσινο για την άνοδο και την απεικόνιση των τιμών που βρίσκονται σε άνοδο και το κόκκινο για την πτώση και τις πτωτικές τιμές, ενώ σπανιότερα χρησιμοποιούνται το μπλε, το γκρίζο ή το λευκό, ανάλογα με το φόντο, για τις σταθερές τιμές). Εικόνα 8: Παραδείγματα του τρόπου με τον οποίο εμφανίζεται η πληροφόρηση για την άνοδο του δείκτη Dow Jones ή του CAC 40 στο περιθώριο της ιστοσελίδας 22 Ως το 1967 στο χρηματιστήριο του Σικάγο χρησιμοποιούνταν ακόμη και ο κώδικας Μορς για την άμεση μετάδοση των εναλλαγών των τιμών, ενώ για την ανάπτυξη της σχετικής τεχνολογίας εργάστηκε και ο Τόμας Έντισον (Kirkpatrick & Dahlquist, 2011).

54 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 54 Τα χρώματα αυτά μάλιστα αναφέρονται σε τίτλους ειδήσεων 23, π.χ.: (1) «Στο κόκκινο» η Wall Street: Με πτώση έκλεισαν οι χρηματιστηριακοί δείκτες στη Wall Street (2) Στο πράσινο για 2η συνεχόμενη συνεδρίαση το ΧΑ, με τις τράπεζες να πρωτοστατούν στην αντίδραση εν μέσω προσδοκιών για το PSI Ένας πιο αναλυτικός τρόπος παρουσίασης περιλαμβάνει αρκτικόλεξα (π.χ. DJIA, FITSE 100), συντομογραφίες (π.χ. Recap<recapitulation), ποσοστά κι επίσης τα προαναφερθέντα χρώματα, όπως εμφαίνεται στην παρακάτω εικόνα από την έγκυρη ηλεκτρονική οικονομική εφημερίδα The Wall Street Journal: Εικόνα 9: Παράδειγμα του τρόπου με τον οποίο απεικονίζεται η πληροφόρηση για την κίνηση των αγορών στο άνω περιθώριο της σελίδας στην ηλεκτρονική έκδοση της Wall Street Journal 23 Τα παραδείγματα προέρχονται από το διαδίκτυο μέσω προγραμμάτων RSS feeder. Τα αρχικά RSS προέρχονται από τις λέξεις της αγγλικής Really Simple Syndication (Πολύ Απλή Διανομή), αναφέρεται σε μία μέθοδο ανταλλαγής ψηφιακού πληροφοριακού περιεχομένου διαμέσου του Διαδικτύου. Η ενημέρωση γίνεται αυτομάτως για γεγονότα και νέα από όσες ιστοσελίδες υποστηρίζουν RSS, αρκεί ο χρήστης να έχει εγγραφεί συνδρομητής στην αντίστοιχη υπηρεσία της εκάστοτε ιστοσελίδας. Οι εν λόγω ενημερώσεις («ροές RSS», αγγλ: «RSS feeds») αποστέλλονται αυτομάτως στον συνδρομητή μέσω διαδικτύου. Τα παραδείγματα επομένως που παρατίθενται δεν αποτελούν κείμενα αγνώστου προελεύσεως από μηχανές αναζήτησης, αλλά προέρχονται από κείμενα δημοσιογραφικού λόγου.

55 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 55 Επιπλέον, πίνακες ή διαγράμματα όπως τα ακόλουθα παίζουν ιδιαίτερα σημαντικό ρόλο στην ενημέρωση των επενδυτών: Εικόνα 10: Διαγράμματα από τη σελίδα της Wall Street Journal Εικόνα 11: Διάγραμμα ασιατικών δεικτών από την ιστοσελίδα

56 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 56 Σε πολυάριθμες σελίδες πληροφόρησης που αφορούν το χρηματιστήριο, οι εικόνες αυτές, τα διαγράμματα, υποκαθιστούν πλήρως τον γραπτό λόγο. Ωστόσο, ο πιο γνωστός τρόπος ενημέρωσης, που εμφανίζεται ως μια κινούμενη προς τα αριστερά λωρίδα στο κάτω μέρος ηλεκτρονικών πινάκων ή τηλεοπτικών οθονών, είναι η λεγόμενη «κορδέλα» (μετάφραση του αγγλ. ticker tape), όπου εμφανίζονται σε συνεχή ροή τα σύμβολα των μετοχών, ο αριθμός των μετοχών σε διαπραγμάτευση, η τιμή διαπραγμάτευσης, η τάση και η διαφορά στην τιμή (με το αντίστοιχο χρώμα ανόδου ή καθόδου), όπως π.χ. στην ακόλουθη εικόνα: Εικόνα 12: Σύμβολα που εμφανίζονται στην «κορδέλα» ενημέρωσης χρηματιστηρίων Όπως αναφέρει ο Kocourek (1991: 11), «σε μια ειδική γλώσσα όλα τα σύμβολα και όλοι οι πόροι συμβάλλουν στην ειδική επικοινωνία», ενώ παρατηρεί ότι σε μια ειδική γλώσσα παρουσιάζεται ένα «αμάλγαμα περισσότερων σημειωτικών συστημάτων» και ότι «ένα από τα κύρια χαρακτηριστικά της ειδικής επικοινωνίας είναι ο ρόλος που αποδίδεται αφενός στη συμβολική γλώσσα και αφετέρου στα μη γραμμικά και εικονικά σημεία: σχήματα, εικόνες, φωτογραφίες, διαγράμματα, χάρτες, πίνακες, γραφικές παραστάσεις, κώδικες με χρώματα, διαφορετικά μικρο-συστήματα συμβόλων, αναπαραστάσεις [ ], διάφορα εξωκειμενικά στοιχεία». Διακρίνει τρεις γλωσσικούς τύπους στην ειδική γλώσσα: το μη γραμμικό σύστημα απεικόνισης (τρισδιάστατα ή δισδιάστατα μοντέλα), την «τεχνητή» ειδική γλώσσα, δηλ. τη συμβολική γλώσσα, και τέλος τη «φυσική» ειδική γλώσσα. Η συμβολική βασίζεται στη φυσική, με στόχο να την απελευθερώσει από τους περιορισμούς της και να επιτύχει την επικοινωνία. Το ιδανικό της είναι η απουσία συνωνύμων, ομωνύμων και πολυσημίας. Είναι μια γλώσσα πρώτα απ όλα γραπτή, και είναι η γραπτή της μορφή που καθορίζει και την (δευτερεύουσα) προφορική της μορφή. Στη γραπτή της μορφή πρόκειται κατ ουσίαν για μια γλώσσα διεθνή. Ξεπερνά λοιπόν τα σύνορα των γλωσσών, αλλά και της υποκειμενικότητας. Στους στόχους δεν περιλαμβάνονται ούτε η αισθητική ούτε η έκκληση στο συναίσθημα του δέκτη. Ένα ακόμη χαρακτηριστικό της συμβολικής όψης της ειδικής γλώσσας είναι ότι είναι δυνατή η «μετάφρασή» της με όρους της φυσικής ειδικής γλώσσας, αλλά αυτή η δυνατότητα είναι μίας μόνο κατεύθυνσης (Hjelmslev, 1963: 104). Τα όρια του ειδικού λεξιλογίου του χρηματιστηρίου είναι δύσκολο να ανιχνευθούν, καθώς τα χρηματιστήρια και οι τράπεζες συναποτελούν τις αγορές χρήματος και κεφαλαίου, κι έτσι υπάρχουν πολλοί κοινοί όροι με τον τομέα της τραπεζικής. Σύμφωνα με την

57 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ: Περιγραφή της ειδικής γλώσσας του χρηματιστηρίου 57 Αναστασιάδη-Συμεωνίδη (1986: 60), οι νεολογισμοί ενός ειδικού λεξιλογίου μπορεί να προέρχονται από ένα άλλο ειδικό λεξιλόγιο. Είναι δύσκολος επίσης ο εντοπισμός τους σε ειδικά λεξικά και γλωσσάρια, καθώς αποτελούν συνήθως μέρος επενδυτικής, χρηματοοικονομικής, οικονομικής ή επιχειρηματικής ορολογίας. Έπειτα, οι νέες έννοιες και οι όροι που τις κατονομάζουν δημιουργούνται συνήθως στις αγγλόφωνες χώρες της Δύσης, ενώ ο υπόλοιπος κόσμος απλώς υιοθετεί την αγγλική ορολογία και κυρίως απλώς τη μεταφράζει ή την προσαρμόζει ως ένα βαθμό, συχνά αποτυγχάνοντας είτε στην εύρεση είτε στην καθιέρωση των κατάλληλων ισοδύναμων όρων (Božinovski, 2009). Επειδή λοιπόν η αγγλική είναι η lingua franca της οικονομίας, παρουσιάζεται το φαινόμενο σε άλλες γλώσσες οι αρχικοί όροι να υποκαθίστανται από μεγαλύτερες σε έκταση φράσεις που επεξηγούν και περιγράφουν τους όρους στη γλώσσαπηγή. Σύμφωνα με την Αναστασιάδη-Συμεωνίδη (1986: 61) «πηγή προέλευσης των νεολογισμών ενός ειδικού λεξιλογίου μπορεί να είναι το ίδιο το ειδικό λεξιλόγιο μιας άλλης γλώσσας. Η διεθνοποίηση της επιστήμης και της τεχνικής αποτελεί αιτία δημιουργίας νεολογισμών, οι οποίοι θα έχουν είτε τη μορφή δανείων είτε τη μορφή μεταφραστικών δανείων». Την προέλευση των όρων του ειδικού λεξιλογίου του χρηματιστηρίου θα αναλύσουμε διεξοδικότερα στην ενότητα 4.1. Ένα από τα πιο ιδιαίτερα χαρακτηριστικά αυτής της ειδικής γλώσσας είναι η υψηλή συχνότητα της μεταφορικής χρήσης της γλώσσας. Αυτή η υψηλή συχνότητα των μεταφορών δικαιολογείται από τον υπαινικτικό χαρακτήρα με τον οποίο αναφέρονται οι πληροφορίες. Συχνά και επαναλαμβανόμενα φαινόμενα συνηθίζεται να κατονομάζονται με ιδιαίτερα παραστατικό τρόπο, π.χ. «το τίναγμα της ψόφιας γάτας» σημαίνει μια απότομη ανοδική μεταβολή μιας αγοράς λίγο πριν το τέλος μιας έντονα πτωτικής πορείας 24. Αυτή η ιδιαίτερη χρήση αποτελεί έναν κοινό κώδικα για τους λεγόμενους insiders, δηλ. αυτούς που έχουν ιδιαίτερες γνώσεις και δεξιότητες για το χώρο του χρηματιστηρίου εκ των έσω, ώστε να ξεχωρίζουν από τα άτομα εκτός του στενού αυτού κύκλου. Το φαινόμενο αυτό στις ειδικές γλώσσες αναλύθηκε από τον J.C. Sager (1986) ως ερμητισμός (hermeticism). Με το πέρασμα του χρόνου ωστόσο αυτοί οι όροι γίνονται ευρύτερα αποδεκτοί. 24 Ο όρος προέρχεται από μετάφραση του αγγλικού όρου «dead cat bounce».

58 3. ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων Στο κεφάλαιο αυτό παρουσιάζεται η μεθοδολογία των σωμάτων κειμένων, ξεκινώντας από τις αρχές της εμφάνισής τους στην επιστήμη της γλωσσολογίας και καταλήγοντας στην περιγραφή του Σώματος Χρηματιστηριακών Κειμένων (ΣΧΚ), στα εργαλεία που χρησιμοποιήθηκαν για την κατασκευή του καθ όλα τα στάδιά της, και στα εξαγόμενα συμπεράσματα από τη μελέτη του Οι αρχές της μεθοδολογίας των σωμάτων κειμένων Παρά το γεγονός ότι σήμερα πλέον δε νοείται μεθοδολογία σωμάτων κειμένων χωρίς τη χρήση υπολογιστών, η ίδια η μεθοδολογία των σωμάτων κειμένων αποτελεί μια κάθε άλλο παρά νέα πρακτική. Σύμφωνα με τους McCarthy & O Keeffe (2010), η πρακτική της αναζήτησης λέξεων μαζί με τα συμφραζόμενά τους ανάγεται ήδη στον 13 ο αιώνα, όταν μελετητές της Βίβλου δημιούργησαν τους πρώτους συμφραστικούς πίνακες για κάθε λέξη που περιέχεται στη Βίβλο. Το ίδιο πνεύμα που βρίσκεται πίσω από όλες εκείνες τις επίπονες προσπάθειες επιβιώνει και σήμερα στα προγράμματα των ηλεκτρονικών υπολογιστών, διότι ακόμη και όταν δεν επρόκειτο για ηλεκτρονικά κείμενα, η μέθοδος ήταν πάντως εμπειρική και βασιζόταν σε παρατηρήσιμα δεδομένα, ενώ παράλληλα απαιτεί μια διαφορετική, κάθετη και όχι πλέον οριζόντια ανάγνωση των κειμένων (βλ ). Οι πρώτοι συμφραστικοί πίνακες που δημιουργήθηκαν μέσω Η/Υ εμφανίστηκαν στα τέλη της δεκαετίας του '50 (Parrish, 1962). Σημαντικές βελτιώσεις επήλθαν κατά τη δεκαετία του '70, όταν βιβλιοθηκάριοι και πληροφορικοί στράφηκαν στους συμφραστικούς πίνακες (Key Word In Context - KWIC), με σκοπό να αντικατασταθούν τα βιβλιογραφικά δελτία (Hines, Harris, & Levy, 1970). Έτσι, η γλωσσολογία σωμάτων κειμένων έφτασε σήμερα να συνδεθεί άρρηκτα με τους υπολογιστές, χάρη στην ταχύτητα, την ακρίβεια, τη στατιστική αξιοπιστία και τη δυνατότητα επεξεργασίας πολυάριθμων δεδομένων. Όχι μόνο διευκολύνθηκε η πρόσβαση σε ηλεκτρονικά σώματα κειμένων, καθώς και η αξιοπιστία αναζητήσεων, μετρήσεων και ταξινομήσεων, αλλά και η ανάπτυξη των μαθηματικών βάσεων για την αυτόματη επεξεργασία της φυσικής γλώσσας, ενώ επιτεύχθηκε για τις γλωσσικές μελέτες ένας υψηλός βαθμός ακρίβειας των μετρήσεων, ένα sine qua non για κάθε επιστήμη (Kennedy, 1998). Το πρώτο ηλεκτρονικό σώμα κειμένων γραπτού λόγου ήταν το Brown University Standard Corpus of Present-Day American English, γνωστό ως Brown Corpus, το οποίο κατασκευάστηκε το 1960 στο Brown University από τους Winthrop Nelson Francis και Henry

59 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 59 Kucera (Francis & Kucera, 1964, 1971, 1979). Περιέχει ένα εκατομμύριο λέξεων αμερικανικών αγγλικών κειμένων που δημοσιεύτηκαν το Η σημασία του έγκειται όχι μόνο στο ότι πρόκειται για το πρώτο ηλεκτρονικό σώμα κειμένων, αλλά και στο ότι δημιουργήθηκε εν μέσω μιας εποχής όπου επικρατούσε ένα ιδιαίτερα αρνητικό κλίμα για την επεξεργασία σωμάτων κειμένων, το οποίο ανάγονταν στις δημοφιλείς τότε απόψεις του Chomsky (1957). Την ίδια εποχή δημιουργήθηκε και το πρώτο σώμα προφορικών κειμένων με πρωτοβουλία του Sinclair (Sinclair, Daley, & Jones, 2004). Ένα πρώιμο ειδικό σώμα κειμένων ήταν το Jiao Da English for Science and Technology (JDEST), με κείμενα που συλλέχθηκαν από τον Yang Huizhong το 1985 στο πανεπιστήμιο Jiao Tong στη Σανγκάη (Yang, 1986). Ισχυρή ήταν επίσης η επίδραση των λεξικογράφων και των δομικών γλωσσολόγων προ Chomsky. Και για τους δύο, η συλλογή δεδομένων ήταν απαραίτητη. Ήταν μέσα στη δεκαετία του '50, την εποχή των Αμερικανών δομιστών όπως οι Harris, Fries και Hill, μεταξύ άλλων, όταν η έννοια της συλλογής αυθεντικών δεδομένων αυτονομήθηκε. Οι δομιστές είναι οι πραγματικοί πρόδρομοι των σωμάτων κειμένων, όχι μόνο με την έννοια της συλλογής δεδομένων αλλά με την έννοια της επικέντρωσης στη μελέτη αυθεντικών παραδειγμάτων. Ωστόσο, κατά τις δεκαετίες του '80 και του '90 χρησιμοποιήθηκαν πραγματικά τα σώματα κειμένων όπως τα γνωρίζουμε σήμερα, ως εργαλεία για τη γλωσσολογία ή την εφαρμοσμένη γλωσσολογία. Οι αρχές της επιστήμης δεν είχαν λοιπόν σχέση με τους Η/Υ, ωστόσο η έκρηξη και η επέκτασή της στην εφαρμοσμένη γλωσσολογία οφείλεται στην επανάσταση της πληροφορίας του τέλους του 20 ού αι., μια επανάσταση που συνεχίζεται. Ένας ισχυρός παράγοντας στη διαμόρφωση της εξέλιξης της γλωσσολογίας σωμάτων κειμένων, ήταν η ορολογία, η οποία με τη σειρά της διαμορφώθηκε από τη γλωσσολογία σωμάτων κειμένων. Πρωτοπόροι υπήρξαν λοιπόν οι λεξικογράφοι. Ο στόχος τους ήταν η συλλογή κατά το δυνατό περισσότερων δεδομένων. Τα πρώιμα σώματα κειμένων, όπως το COBUILD 25 (1980), αριθμούσαν δεκάδες εκατομμύρια λέξεων, στη συνέχεια οι λέξεις έγιναν εκατοντάδες εκατομμύρια και στα μισά της πρώτης δεκαετίας του 21 ου αι. το Cambridge 25 Αντικείμενο της ομάδας του Collins Birmingham University International Language Database, της οποίας ηγείτο ο John Sinclair, ήταν η δημιουργία ενός σώματος κειμένων (Bank of English) και ενός μονόγλωσσου λεξικού (Collins COBUILD English Language Dictionary) βασισμένου στο εν λόγω σώμα κειμένων.

60 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 60 English Corpus 26 έφτασε το 1,5 δισεκατομμύριο λέξεις. Το 2011, το BYU Google Books 27 που δημιουργήθηκε από τον Mark Davies έφτασε τα 155 δισεκατομμύρια λέξεις. Όσο για τον αριθμό των σωμάτων κειμένων που έχουν πλέον δημιουργηθεί, η εξαντλητική καταγραφή τους είναι πλέον αδύνατη, αφενός λόγω της ταχύτητας των εξελίξεων στον τομέα της γλωσσολογίας των σωμάτων κειμένων και αφετέρου λόγω του αριθμού των προγραμμάτων κατασκευής σωμάτων κειμένων που βρίσκονται σε εξέλιξη σε όλο τον κόσμο. Πολλά άλλωστε από τα σώματα κειμένων που έχουν ήδη δημιουργηθεί συνεχίζουν να αυξάνουν σε μέγεθος. Η γλωσσολογία σωμάτων κειμένων βρήκε εφαρμογές στη διδασκαλία και εκμάθηση της γλώσσας, στην ανάλυση του λόγου, τη νομική γλωσσολογία, την πραγματολογία, τη λογοτεχνία, την τεχνολογία ομιλίας, την κοινωνιογλωσσολογία, την ιατρική, μεταξύ άλλων. Αρχικά ο στόχος ήταν η δημιουργία βελτιωμένων λεξικών. Σήμερα οι εφαρμογές της γλωσσολογίας σωμάτων κειμένων διαφέρουν όσο οι χρήστες της. Για παράδειγμα, ένας λεξικογράφος ενδιαφέρεται να καταγράψει τη σημασία μιας λέξης, ενώ κατά τη μελέτη της εκμάθησης μιας δεύτερης γλώσσας ο μελετητής ενδιαφέρεται για το πώς εξελίσσονται οι γλωσσικές δεξιότητες σε ένα άτομο ή μια ομάδα ατόμων κατά την πάροδο του χρόνου. Αυτές οι εντελώς διαφορετικές ανάγκες οδηγούν στη δημιουργία εντελώς διαφορετικών σωμάτων κειμένων και αρχών σχεδιασμού προγραμμάτων Ορισμός του σώματος κειμένων Σύμφωνα με το Oxford English Dictionary (1989), ο όρος "corpus" με τη σημασία της συλλογής γραπτών κειμένων παρόμοιου είδους χρησιμοποιήθηκε από το 18 ο αι., ενώ στη βιβλιογραφία της γλωσσολογίας απαντά το 1956, σε άρθρο του W.S. Allen στο Transactions of the Philological Society, με την έννοια του σώματος γραπτού ή προφορικού υλικού στο οποίο βασίζεται μια γλωσσολογική ανάλυση. Ένας από τους πιο γνωστούς και ευρύτερα αποδεκτούς ορισμούς για το σώμα κειμένων είναι αυτός του Sinclair (2005: 12), όπου ως σώμα κειμένων ορίζεται «κάθε συλλογή τμημάτων μιας συγκεκριμένης γλώσσας σε ηλεκτρονική μορφή, τα οποία έχουν επιλεγεί με εξωτερικά κριτήρια, έτσι ώστε να μπορούν να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα μιας γλώσσας ή μιας γλωσσικής ποικιλίας». 26 Πληροφορίες διαθέσιμες στην ιστοσελίδα: item /cambridge-english-corpus-cambridge-english-corpus/?site_locale=fr_fr/. 27 Διαθέσιμο προς αναζήτηση στην ιστοσελίδα:

61 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 61 Οι ορισμοί που έχουν δοθεί είναι πολλοί, και κινούνται περίπου στο ίδιο πλαίσιο. Ο Leech (1992: 116) αναφέρει ότι τα ηλεκτρονικά σώματα κειμένων σπανίως αποτελούν τυχαίες συλλογές κειμένων: γενικά συλλέγονται με συγκεκριμένους σκοπούς, ώστε να είναι αντιπροσωπευτικά μίας γλώσσας ή ενός κειμενικού είδους 28. Σύμφωνα με τον Bussmann (1996: 106), ως σώμα κειμένων μπορεί να χαρακτηριστεί "ένα πεπερασμένο σύνολο συγκεκριμένων γλωσσικών στοιχείων που χρησιμεύει ως εμπειρική βάση γλωσσικής έρευνας". Για τον Κρύσταλ (2003: ) ένα σώμα κειμένων (λ. κόρπους) είναι "μια συλλογή γλωσσικών δεδομένων, είτε από γραπτά κείμενα είτε από μεταγραφή ηχογραφημένης ομιλίας, τα οποία μπορούν να χρησιμοποιηθούν ως σημείο εκκίνησης μιας γλωσσικής περιγραφής ή ως μέσο επαλήθευσης υποθέσεων σχετικά με μια γλώσσα". Σύμφωνα με τις Bowker και Pearson ένα σώμα κειμένων μπορεί να περιγραφεί ως μια μεγάλη συλλογή αυθεντικών κειμένων που έχουν συλλεγεί σε ηλεκτρονική μορφή σύμφωνα με συγκεκριμένα κριτήρια (Bowker & Pearson, 2002: 9). Παρά τους διαφορετικούς ορισμούς που έχουν δοθεί, υπάρχει συμφωνία ως προς ορισμένα χαρακτηριστικά των σωμάτων κειμένων: πρόκειται για κείμενα α) ηλεκτρονικά, β) αυθεντικά, γ) τα οποία έχουν προκύψει από δειγματοληψία, δ) αντιπροσωπευτικά μιας ορισμένης γλώσσας ή μιας γλωσσικής ποικιλίας (McEnery, Xiao, & Tono, 2006). Λαμβάνοντας υπόψη αυτά τα κριτήρια, και γενικότερα το γεγονός πως το σώμα κειμένων έχει σχεδιαστεί με συγκεκριμένες προδιαγραφές και στόχους και περιλαμβάνει κείμενα που έχουν επιλεγεί με καθορισμένα κριτήρια (Atkins, Clear, & Ostler, 1992), θα μπορούσαμε να πούμε ότι οι ακόλουθες περιπτώσεις διαφέρουν από τα καθιερωμένα σώματα κειμένων, αποτελώντας μια ιδιαίτερη κατηγορία: - ο παγκόσμιος ιστός (world wide web), εφόσον το μέγεθός του, αγγίζοντας τα τρισεκατομμύρια λέξεις, έχει καταστεί δύσκολα μετρήσιμο και επιπλέον δεν είναι σταθερό δεν μπορούμε έπειτα να μιλήσουμε για κάποιο σχεδιασμό του, πόσο μάλλον για γλωσσολογικούς σκοπούς, 28 Ως αποτέλεσμα των συμβατικών σχέσεών τους με το περικείμενο, τα κείμενα οργανώνονται συνήθως σε κειμενικά είδη, δηλαδή, συστηματικές συσχετίσεις εκφραστικών και οργανωτικών με λειτουργίες και στοιχεία περιεχομένου, με βάση το ρόλο που καλούνται να διαδραματίσουν στο κοινωνικό και πολιτισμικό περιβάλλον τους. Η έννοια του τύπου ή είδους κειμένου χρησιμοποιείται ευρέως και εκτός γλωσσολογίας για την ταξινόμηση επικοινωνιακών γεγονότων σε κατηγορίες με κοινά μορφικά, λειτουργικά και καταστασιακά χαρακτηριστικά. [ ] Το είδος ταυτίζεται με ένα ορισμένο ύφος και κώδικα (Γεωργακοπούλου & Γούτσος, 1999). Σύμφωνα με τους Cope & Kalantzis (1993) «το κειμενικό είδος αποτελεί μια κατηγορία η οποία περιγράφει τη σχέση μεταξύ του κοινωνικού σκοπού ενός κειμένου και της γλωσσικής δομής του».

62 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 62 - το αρχείο (archive), ένα αποθετήριο ηλεκτρονικών κειμένων, χωρίς να υπάρχει σύνδεσή τους ή κριτήρια επιλογής, όπως π.χ. το Oxford Text Archive (OTA) (Burnard, 1988), με κείμενα από περίπου σαράντα γλώσσες, - η βιβλιοθήκη ηλεκτρονικών κειμένων, που παρουσιάζει μεν ενιαία τυποποίηση αλλά δεν υπόκειται σε περιορισμούς επιλογής των κειμένων. Σ αυτή την κατηγορία εμπίπτουν π.χ. ο προαναφερθείς Index Thomisticus, ο Thesaurus Linguae Graecae (TLG) 29 και η Patrologia Latina 30. Η γλωσσολογία των σωμάτων κειμένων μπορεί να περιγραφεί ως "μια προσέγγιση για τη διερεύνηση της δομής και της χρήσης της γλώσσας μέσω της ανάλυσης μεγάλων βάσεων δεδομένων αυθεντικών γλωσσικών παραδειγμάτων τα οποία βρίσκονται αποθηκευμένα σε υπολογιστή" (Richards & Schmidt, 2003: 127). Η γλωσσολογία των σωμάτων κειμένων αποτελεί μια μεθοδολογία για τη μελέτη της χρήσης της γλώσσας. Αποτελεί μια εμπειρική προσέγγιση για τη μελέτη γλωσσικών παραδειγμάτων που έχουν πράγματι ειπωθεί ή γραφτεί και δεν αφορά υποθέσεις για το τι θα μπορούσε ή θα έπρεπε να ειπωθεί. Συνοψίζοντας, τα βασικά χαρακτηριστικά της γλωσσολογικής ανάλυσης που χρησιμοποιεί σώματα κειμένων, όπως τα συνοψίζουν οι Mc Enery & Wilson (1996), είναι τα εξής: - η εμπειρική προσέγγιση, - η χρήση σωμάτων κειμένων ως βάση της ανάλυσης, - η χρήση Η/Υ για τη συγκέντρωση και ανάλυση των δεδομένων, - οι ποσοτικές και ποιοτικές τεχνικές ανάλυσης Πλεονεκτήματα που προκύπτουν από τη χρήση των σωμάτων κειμένων Οι γλωσσολογικές αναλύσεις με βάση σώματα κειμένων αποτελούν πλέον βασικό εργαλείο για την Εφαρμοσμένη Γλωσσολογία γενικότερα, ώστε θεωρείται ότι "τα σώματα κειμένων και η μελέτη τους αποτελούν επανάσταση όσον αφορά τη μελέτη της γλώσσας και τις γλωσσικές εφαρμογές, κατά τη διάρκεια των τελευταίων ετών" (Hunston, 2002: 1), κυρίως λόγω χαρακτηριστικών των ηλεκτρονικών υπολογιστών όπως η ταχύτητα, η ευκολία στη χρήση, η ακρίβεια, η αντικειμενικότητα, χωρίς τα οποία το μεγαλύτερο μέρος της γλωσσολογικής έρευνας κατά τη διάρκεια της τελευταίας εικοσαετίας δεν ήταν δυνατό να πραγματοποιηθεί. 29 Διαθέσιμος στην ιστοσελίδα 30 Διαθέσιμη στην ιστοσελίδα

63 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 63 Το μεγαλύτερο πλεονέκτημα της χρήσης σωμάτων κειμένων στην ανάλυση μιας γλώσσας αποτελεί η φύση τους ως ηλεκτρονικών κειμένων που επιτρέπει την άμεση εξαγωγή αυθεντικών παραδειγμάτων χρήσης των όρων ενός λεξικού. Επιτρέπει στο μεταφραστή και στο φυσικό ομιλητή γενικότερα να εξάγει συμπεράσματα για τους σωστούς συνδυασμούς λέξεων. Είναι επίσης δυνατή η εξαγωγή ποσοτικών στοιχείων που σχετίζονται με τις συχνότητες εμφάνισης όρων. Για παράδειγμα, αν και η γενική εντύπωση που δημιουργείται διαβάζοντας ένα οικονομικό κείμενο από το χώρο του χρηματιστηρίου είναι ότι υπάρχει υψηλή συχνότητα εμφάνισης αγγλικών κυρίως όρων, μπορούμε, με τη βοήθεια του Η/Υ, άμεσα να παρατηρήσουμε ότι στο σώμα κειμένων η συχνότητα εμφάνισης των ξένων χρηματιστηριακών όρων (με λατινικούς χαρακτήρες, χωρίς να υπολογίζουμε δηλαδή τους ξένους όρους που μεταγράφονται με ελληνικούς χαρακτήρες) ανέρχεται στο 4% του συνολικού αριθμού εμφάνισης των όρων στο σώμα κειμένων. Γενικότερα, η συχνότητα αποτελεί ένα στοιχείο της γλώσσας συχνά άπιαστο ακόμη και για το φυσικό ομιλητή, το οποίο καθίσταται μετρήσιμο αποκλειστικά μέσω των σωμάτων κειμένων, είτε γραπτού είτε προφορικού λόγου. Η αναγκαιότητα των σωμάτων κειμένων, κυρίως κατά την τελευταία δεκαετία, λόγω και της πληθώρας των κειμένων που βρίσκονται διαθέσιμα, έχει αυξήσει την παραγωγή σωμάτων κειμένων που προσαρμόζονται ανάλογα με το ενδιαφέρον και το είδος της έρευνας που γίνεται σ' αυτά. Οι πληροφορίες που παρέχουν λείπουν από τις συμβατικές πηγές, όπως τα λεξικά, κυρίως όσον αφορά την επιλογή των όρων, τις παγιωμένες φράσεις, αλλά και τα παραδείγματα χρήσης. Τα σώματα κειμένων αποτελούν πολύτιμη πηγή γνώσεων όσον αφορά τη μελέτη των όρων, των συνάψεών τους με άλλες λέξεις ή όρους, της γραμματικής αλλά και του ύφους των κειμένων. Μπορούμε επίσης να αντλήσουμε πληροφορίες για τις έννοιες πίσω από τους όρους και για τις σχέσεις μεταξύ εννοιών. Επιπλέον, τα σώματα κειμένων επιλύουν προβλήματα που η διαίσθηση του φυσικού ομιλητή αδυνατεί να επιλύσει. Σύμφωνα με τις Bowker & Pearson (2002: 15-19), συμβατικές πηγές για την εξαγωγή όρων αποτελούν τα λεξικά, τα διάφορα έντυπα, οι ειδικοί του τομέα και η διαίσθηση του φυσικού ομιλητή, οι οποίες όμως αποδεικνύονται ανεπαρκείς σε σχέση με τη χρήση των ηλεκτρονικών σωμάτων κειμένων. Όσον αφορά τα λεξικά καταρχήν, ένα από τα μεγαλύτερα προβλήματα είναι η ενδογενής τους ατέλεια. Η γλώσσα, όπως και ο κόσμος γύρω μας, βρίσκονται σε διαρκή εξέλιξη, πράγμα που καθιστά παρωχημένα σε πολύ λίγο

64 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 64 χρόνο τα έντυπα λεξικά. Ένα άλλο θέμα είναι το μέγεθος των λεξικών. Παρά τη δυνατότητα που έχουμε πλέον να κατασκευάζουμε λεξικά πολύ μεγάλου μεγέθους, αυτά δεν είναι δυνατόν να είναι πλέον έντυπα για οικονομικούς και πρακτικούς λόγους. Ήδη το λεξικό της Οξφόρδης για την αγγλική γλώσσα θα κυκλοφορεί πλέον μόνο σε ηλεκτρονική μορφή. Έτσι γίνεται μια επιλογή στους όρους που συμπεριλαμβάνονται στα λεξικά, και γι' αυτό πολύ συχνά τα αρκτικόλεξα για παράδειγμα απουσιάζουν. Επίσης δεν αφαιρούνται παρωχημένοι όροι. Το μεγαλύτερο όμως πρόβλημα είναι ότι απουσιάζουν από τα λεξικά (κυρίως τα δίγλωσσα), είτε έντυπα είτε ηλεκτρονικά, τα παραδείγματα χρήσης. Πολλά λεξικά περιλαμβάνουν απλές αντιστοιχίσεις λέξεων ανάμεσα στη γλώσσα πηγή και τη γλώσσα στόχο, ή δίνεται και ορισμός του όρου, ωστόσο, παρά την αναμφισβήτητη χρησιμότητα και αυτής της πηγής, χάνονται πολύτιμες πληροφορίες για τη σημασία και τη χρήση του όρου στην εκάστοτε γλώσσα. Παρατίθενται παραδείγματα από λεξικά: Εικόνα 13: Λεξικό οικονομικών όρων διαθέσιμο στο διαδίκτυο μέσω της ιστοσελίδας

65 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 65 Εικόνα 14: Όροι και ο ορισμός τους από το λεξικό των Χρυσοβιτσιώτη & Σταυρακόπουλου (2001) Για έναν όρο ειδικότερα είναι απαραίτητο να γνωρίζουμε όχι μόνο τη σημασία του αλλά και τη σύνταξή του (π.χ. με ποιες λέξεις χρησιμοποιείται). Τα λεξικά επίσης δεν παρέχουν πληροφορίες για τη συχνότητα με την οποία χρησιμοποιείται ένας όρος. Επιπλέον, στα κείμενα η φυσικότητα της γλώσσας είναι σαφώς μεγαλύτερη. Κι έπειτα, ένα ηλεκτρονικό κείμενο είναι συχνά ευκολότερα προσβάσιμο και διαθέσιμο σε σχέση με ένα έντυπο, ενώ επιπλέον δίνει πολλές δυνατότητες εύρεσης λέξεων. Όσον αφορά τις υπόλοιπες συμβατικές πηγές, όπως τα έντυπα, δηλαδή βιβλία ή άρθρα πάνω στον ειδικό τομέα, παρουσιάζουν δυσκολίες κατά την αναζήτηση. Η αναζήτηση ειδικών και εμπειρογνωμόνων σε ειδικούς επιστημονικούς τομείς είναι συχνά δύσκολη, καθώς οι ειδικοί είναι δυσεύρετοι και όχι πάντοτε διαθέσιμοι, ενώ επιπλέον δεν μπορούν να θεωρηθούν παντογνώστες, καθώς ακόμη και αυτοί είναι δυνατό να αγνοούν ορισμένους όρους, εφόσον σε έναν ειδικό τομέα δύναται να υπάρχει πάντα περαιτέρω εξειδίκευση. Ένας μεγάλος αριθμός ειδικών θα ήταν απαραίτητος για την εξαγωγή ασφαλών συμπερασμάτων. Όσον αφορά τη διαίσθηση, ελάχιστο ρόλο παίζει όσον αφορά μια ειδική γλώσσα, καθώς ακόμη και ένας φυσικός ομιλητής μιας γλώσσας δεν είναι εξοικειωμένος με κάθε ειδικό λεξιλόγιο που την απαρτίζει. Τα σώματα κειμένων όμως έχουν το πλεονέκτημα της εύχρηστης ηλεκτρονικής μορφής τους, που μας δίνει το πλεονέκτημα της ταχύτητας, καθώς και πληθώρα αυθεντικών παραδειγμάτων. Έχουμε επίσης πληροφορίες για τη συχνότητα. Μία σημαντική

66 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 66 παράμετρος της ευχρηστίας τους είναι η διαθεσιμότητά τους. Μπορούμε έτσι να έχουμε τις γνώμες πολλών ειδικών συγκεντρωμένες. Ένα σώμα κειμένων μπορεί να χρησιμοποιηθεί για την επαλήθευση των υποθέσεων. Καθώς μάλιστα βρίσκονται σε ηλεκτρονική μορφή, είναι εύκολη και η συνεχής ενημέρωσή τους Είδη σωμάτων κειμένων Σύμφωνα με τον Kennedy (1998: 13) τα σώματα κειμένων κατατάσσονται σε δύο μεγάλες κατηγορίες: Α. Σώματα κειμένων της προ-ηλεκτρονικής εποχής Όπως προαναφέρθηκε, υπήρχε μια μακριά παράδοση γλωσσικών μελετών που βασίζονταν σε σώματα κειμένων πριν την έλευση των Η/Υ, και αφορούσαν πέντε κυρίως πεδία: μελέτες με αντικείμενο τη Βίβλο ή λογοτεχνικά έργα (όπως τα έργα του Shakespeare), τη λεξικογραφία (όπως το Oxford English Dictionary), διαλεκτολογικές μελέτες, την εκμάθηση γλωσσών και τη μελέτη της γραμματικής. Β. Τα ηλεκτρονικά σώματα κειμένων περιλαμβάνουν κατηγορίες όπως: - τα γενικά σώματα κειμένων, με βάση τα οποία μελετώνται το λεξιλόγιο, η γραμματική και γενικότερα η δομή της γλώσσας. Τα σώματα αυτά λαμβάνουν υπόψη στο σχεδιασμό τους την ισορροπία (balance), συμπεριλαμβάνοντας όσο το δυνατόν περισσότερα κειμενικά είδη. Συχνά αναφέρονται και ως σώματα αναφοράς (reference corpora), καθώς μπορούν να χρησιμοποιηθούν ως βάση ανάπτυξης για λεξικά, γραμματικές, θησαυρούς και άλλα έργα γλωσσικής αναφοράς. - τα ειδικά σώματα κειμένων, όπου τα κείμενα αποτελούν πηγές συχνοτήτων λέξεων και αποσπασμάτων που χρησιμεύουν ως παραδείγματα χρήσης για τα σύγχρονα λεξικά. Στην κατηγορία αυτή εμπίπτουν, κατά τον Kennedy, τα σώματα κειμένων που έχουν ως αντικείμενο διαλεκτικές διαφορές, αλλά και τα σώματα κειμένων του λόγου των μαθητών (learner corpora). Τα ειδικά σώματα κειμένων έχουν ως στόχο να αποτελέσουν ένα δείγμα μιας ειδικής γλώσσας είτε μέσω της συλλογής κειμένων ανάλογα με το περιεχόμενο (π.χ. ιατρικά, οικονομικά, φιλοσοφικά κείμενα) ή ανάλογα με το κειμενικό είδος (π.χ. ερευνητικές εργασίες, επιστολές, κεφάλαια βιβλίων) ή συνδυαστικά (π.χ. άρθρα από το χώρο της ιατρικής ή διαλέξεις), ή ακόμη κείμενα άλλης ειδικής κατηγορίας, που αφορούν το δημοσιογραφικό ή τον ακαδημαϊκό λόγο (Gavioli, 2002).

67 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 67 Τόσο τα γενικά όσο και τα ειδικά σώματα κειμένων μπορούν να συναποτελούνται από γραπτό και προφορικό λόγο, ή να είναι σώματα μόνο γραπτού ή προφορικού λόγου. Μπορούν επίσης να αποτελούνται από πλήρη κείμενα ή αποσπάσματα κειμένων. Το μέγεθος των ηλεκτρονικών σωμάτων κειμένων κυμάνθηκε άτυπα κατά τις δεκαετίες από το '60 ως τις αρχές του '90 στο ένα εκατομμύριο λέξεις. Τα ηλεκτρονικά σώματα κειμένων μπορούν επίσης να είναι δυναμικά (dynamic corpora) ή σώματα κειμένων ελέγχου (monitor corpora) ή ανοιχτά σώματα κειμένων, τα οποία δεν είναι οργανωμένα ανάλογα με τα κειμενικά είδη και χαρακτηρίζονται ως μη-πεπερασμένα, καθώς διαρκώς εμπλουτίζονται κατά τρόπο αυτόματο. Δύνανται ακόμη να είναι συγχρονικά (αφορούν μια σύντομη περίοδο, όπως π.χ. το Brown Corpus, που περιλαμβάνει γραπτά κείμενα αμερικανικής αγγλικής γλώσσας τα οποία εκδόθηκαν το 1961) ή διαχρονικά (ή ιστορικά) (καλύπτουν μια περίοδο, όπως π.χ. το Helsinki Corpus of English Texts 31 που καλύπτει την περίοδο από το 700 ως το 1700 μ.χ., διευκολύνοντας τη μελέτη της εξέλιξης της γλώσσας). Οι κατηγορίες στις οποίες διακρίνονται, σύμφωνα με τον Kennedy (1998), τα ηλεκτρονικά σώματα κειμένων που έχουν κατασκευαστεί είναι δύο: 1. Τα σώματα κειμένων πρώτης γενιάς, όπως το προαναφερθέν Brown Corpus, το Lancaster-Oslo-Bergen ή LOB Corpus (Johansson, Atwell, R., & Leech, 1986), και τα δύο της τάξεως του ενός εκατομμυρίου λέξεων, τα ειδικά σώματα κειμένων Child Language Data Exchange System (CHILDES) (Mac Whinney, 1991) [από το 2003 μέρος του TalkBank (MacWhinney, 2001)], με είκοσι εκατομμύρια λέξεις, και άλλα ειδικά σώματα κειμένων μεταξύ εκατό χιλιάδων και δύο εκατομμυρίων λέξεων, όπως το προαναφερθέν JDEST (βλ. 2.1.). Τα περισσότερα από τα σώματα κειμένων πρώτης γενιάς αφορούν την αγγλική γλώσσα, ωστόσο παράλληλα, κατά την ίδια χρονική περίοδο κατασκευάστηκε το πολύγλωσσο (και όχι μόνο ευρωπαϊκό) European Corpus Initiative (93 εκατ. λέξεις), ενώ αναπτύχθηκαν και πολυάριθμα εθνικά σώματα κειμένων, μεταξύ αυτών και ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας, με 47 εκατομμύρια λέξεις και κείμενα από το 1975, κυρίως όμως από το 1990 και εξής (Χατζηγεωργίου, et al., 2000). 31 The Helsinki Corpus of English Texts (1991). Department of English, University of Helsinki. Ο Matti Rissanen ηγείτο της ομάδας κατασκευής του σώματος κειμένων. Πληροφορίες διαθέσιμες στην ιστοσελίδα:

68 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων Τα σώματα κειμένων δεύτερης γενιάς, από τη δεκαετία του 90 και εξής, με περισσότερα από 100 εκατομμύρια λέξεις. Το πρώτο από τα μεγάλα σώματα κειμένων δεύτερης γενιάς ήταν το προαναφερθέν COBUILD (βλ. 2.1.), γνωστό και ως Birmingham corpus, η κατασκευή του οποίου ξεκίνησε το Το σώμα αυτό μετεξελίχθηκε στο Bank of English, με 650 εκατ. λέξεις, το οποίο στη συνέχεια αποτέλεσε μέρος του Collins corpus 32 που περιλαμβάνει 2,5 δισεκατομμύρια λέξεις, και στο οποίο βασίζεται η δημιουργία μιας σειράς λεξικών του ομώνυμου εκδοτικού οίκου. Στα σώματα αυτά περιλαμβάνονται επίσης το British National Corpus (BNC) με 100 εκατ. λέξεις, το οποίο περιλαμβάνει κατά 90% γραπτό λόγο και 10% προφορικό, ενώ αποτέλεσε το πρότυπο για την ανάπτυξη πολλών εθνικών σωμάτων κειμένων. Επίσης, περιλαμβάνονται το Corpus of Contemporary American English (COCA) με 425 εκατ. λέξεις (Davies, 2008), το Corpus Molinero για την ισπανική γλώσσα με 660 εκατ. λέξεις, το Oxford English corpus με 2 δισ. λέξεις, το German Reference Corpus (Deutsches Referenzkorpus-DeReKo) για τη γερμανική γλώσσα, με 4,3 δισ. λέξεις, το Google Books (Davies, 2011) με 155 δισ. λέξεις, προς το παρόν για την αμερικανική αγγλική γλώσσα, ενώ πρόκειται να προστεθούν η γερμανική, η γαλλική και η ισπανική γλώσσα 33. Για τη γαλλική γλώσσα, χρησιμοποιείται ευρέως η βάση δεδομένων Frantext (περίπου κείμενα της περιόδου , 215 εκατ. λέξεις, διαθέσιμη αποκλειστικά σε ερευνητικά κέντρα και εκπαιδευτικά ιδρύματα). Κατά την πρώτη δεκαετία του 21 ου αι., για πολλούς μελετητές, τα σώματα κειμένων με περισσότερα από 100 εκατομμύρια λέξεις αποτελούσαν τα σώματα κειμένων τρίτης γενιάς. Ωστόσο, ολοένα κερδίζει έδαφος η αναφορά ως σωμάτων τρίτης γενιάς είναι των πολυμεσικών σώματων κειμένων, τα οποία περιλαμβάνουν προφορικό λόγο και πολυμέσα, αποτυπώνοντας, πέρα από τον προφορικό λόγο, εξωγλωσσικά στοιχεία, όπως χειρονομίες, εκφράσεις, στάση σώματος κτλ. (Knight, Evans, Carter, & Adolphs, 2009). 32 Πληροφορίες διαθέσιμες στην ιστοσελίδα: 33 Όσον αφορά γλώσσες όπως π.χ. η γαλλική ή η ιταλική, τα σώματα κειμένων που έχουν δημιουργηθεί δεν αποτελούν εθνικά σώματα κειμένων ή σώματα που χαρακτηρίζονται από «ισορροπία» κατά το πρότυπο του BNC. Τα κείμενα που περιλαμβάνονται ανήκουν συνήθως σε ένα μόνο κειμενικό είδος, είναι, για παράδειγμα, δημοσιογραφικά ή λογοτεχνικά. Εθνικά σώματα κειμένων υπάρχουν ωστόσο για γλώσσες όπως η τσεχική, η σουηδική, η νορβηγική, η κροατική κ.ά., ενώ βρίσκονται υπό εξέλιξη για πολλές άλλες γλώσσες.

69 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 69 Εικόνα 15: Πολυμεσικά σώματα κειμένων: Εντοπισμός, καταγραφή και μελέτη εξωγλωσσικών στοιχείων (Knight, Evans, Carter, & Adolphs, 2009) Καταλήγοντας, όσον αφορά την τυπολογία των σωμάτων κειμένων, αυτά χαρακτηρίζονται ανάλογα με: - το περιεχόμενο των κειμένων ως γενικά ή ειδικά - τον τρόπο γλωσσικής παραγωγής ως γραπτού/προφορικού λόγου ή μεικτά - τη χρονική κάλυψη των κειμένων ως συγχρονικά ή διαχρονικά - το γλωσσολογικό σχολιασμό/επισημείωση των κειμένων ως σχολιασμένα/επισημειωμένα - μη σχολιασμένα/επισημειωμένα - τον αριθμό των γλωσσών ως μονόγλωσσα ή πολύγλωσσα - τη δυνατότητα ανανέωσης του σώματος κειμένων ως κλειστά ή ανοιχτά, ή άλλως ανάλογα με το πεπερασμένο μέγεθος ως στατικά ή δυναμικά ή σώματα αναφοράς ελέγχου. Η κατηγοριοποίηση αυτή δεν είναι εξαντλητική, καθώς συχνά λαμβάνονται υπόψη και άλλες παράμετροι, όπως π.χ. αν ένα σώμα κειμένων αποτελείται από πλήρη κείμενα ή από αποσπάσματα κειμένων (sampled corpus), αν τα ποσοστά κειμένων που ανήκουν σε ένα τομέα είναι τυχαία ή προκαθορισμένα (balanced corpus) (Biber, 1993). Αναφέρθηκαν ακόμη τα σώματα κειμένων πρώτης, δεύτερης και τρίτης γενιάς, καθώς και τα πολυμεσικά σώματα κειμένων (multi-modal corpora) Το διαδίκτυο ως σώμα κειμένων Όπως αναφέρθηκε προηγουμένως (βλ. ενότ. 3.2.), ο παγκόσμιος ιστός είτε δεν θεωρείται σώμα κειμένων είτε θεωρείται ότι αποτελεί μια ιδιαίτερη κατηγορία κειμένων, εφόσον το μέγεθός του, αγγίζοντας τα τρισεκατομμύρια λέξεις, έχει καταστεί δύσκολα μετρήσιμο και

70 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 70 επιπλέον δεν είναι σταθερό 34 (δεν είναι επομένως δυνατή η εξαγωγή και μελέτη συχνοτήτων) δεν μπορούμε έπειτα να μιλήσουμε για κάποιο σχεδιασμό του, πόσο μάλλον για γλωσσολογικούς σκοπούς. Ωστόσο, αξίζει να σημειωθεί ότι τα όρια ανάμεσα στα πρόσφατα σώματα κειμένων των δισεκατομμυρίων ή τρισεκατομμυρίων λέξεων και τις βιβλιοθήκες ηλεκτρονικών κειμένων είναι πλέον δυσδιάκριτα (βλ. ενότ. 3.2.), ενώ πολλοί μελετητές έχουν στραφεί στη χρήση του παγκόσμιου ιστού ως σώματος κειμένων (Kilgarriff, 2001 Kilgarriff & Grefenstette, 2003 Baroni & Bernandini, 2004 Fletcher, 2004 Volk, 2002). Αυτό που τελικά καθορίζει την κατάταξη των συλλογών στα σώματα κειμένων γίνεται πλέον το πρόγραμμα διεπαφής (interface) που χρησιμοποιείται για τη διερεύνησή τους και επιτρέπει τη χρήση αυτών των σωμάτων κειμένων για γλωσσολογικές μελέτες. Το ολοκληρωμένο αυτό περιβάλλον προσφέρει στον μελετητή της γλώσσας το γλωσσικό υλικό και τα απαραίτητα υπολογιστικά εργαλεία για την επεξεργασία του, έτσι ώστε να μπορεί να αντλήσει την πληροφορία που χρειάζεται. Τα εργαλεία αυτά δρουν επάνω στα κείμενα και αντλούν δείγματα λόγου σύμφωνα με τα κριτήρια αναζήτησης που θα οριστούν. Έτσι, το περιβάλλον εκτελεί αναζήτηση: - συγκεκριμένων λέξεων, - λημμάτων (ως λήμμα εννοείται η βασική μορφή κάθε λέξης, όπως εμφανίζεται συνήθως στα ερμηνευτικά λεξικά, η οποία αποτελεί αφηρημένη οντότητα που συγκεντρώνει όλους τους κλιτούς τύπους), - γραμματικών προσδιορισμών (δηλαδή μερών του λόγου και μορφολογικών χαρακτηριστικών) και - συνδυασμούς όλων αυτών (π.χ. λέξη-λήμμα, λέξη-γραμματικός προσδιορισμός, λέξη-λήμμα-γραμματικός προσδιορισμός). Ένα παράδειγμα αποτελεί το πρόγραμμα διεπαφής για το σώμα κειμένων της αμερικανικής γλώσσας Corpus of Contemporary American English COCA, πρόγραμμα κοινό με το BYU- BNC για το British National Corpus, όπου επίσης είναι δυνατή η αναζήτηση όχι μόνο λέξεων ή φράσεων, αλλά και μερών του λόγου ή συνδυασμών λέξεων-λημμάτων και μερών του λόγου Το 2008 η εταιρεία Google ανέφερε ότι εντόπισε πάνω από ένα τρισεκατομμύριο (10 12 ) διαφορετικά URL (διαδικτυακές διευθύνσεις), και ότι αρκετά δισεκατομμύρια (10 9 ) προστίθενται καθημερινά (Alpert & Hajaj, 2008). 35 Το πρόγραμμα δημιουργήθηκε από τον Mark Davies, καθηγητή της Γλωσσολογίας Σωμάτων Κειμένων στο Brigham Young University.

71 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 71 Εικόνα 16: Το πρόγραμμα διεπαφής του Corpus of Contemporary American English Ένα άλλο παράδειγμα χρήσης του διαδικτύου ως σώματος κειμένων αποτελεί το διαδικτυακό εργαλείο αναζήτησης Webascorpus.org 36, το οποίο λειτουργεί για 34 γλώσσες, μεταξύ των οποίων και η ελληνική, η επιφάνεια διεπαφής του οποίου απεικονίζεται παρακάτω: Εικόνα 17: Επιφάνεια διεπαφής WebAsCorpus.org Από την αναζήτηση προκύπτουν αποτελέσματα, σε μορφή συμφραστικών πινάκων, όπως τα ακόλουθα: 36

72 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 72 Εικόνα 18: Αποτελέσματα WebAsCorpus.org Παρόμοια εργαλεία είναι τα Webcorp 37, KWiCFinder 38, BootCaT 39, Jaguar 40 κ.ά.. Από αυτά διαφέρει το GlossaNet 41 στο ότι καθιστά δυνατή την επιλογή της πηγής (π.χ. συγκεκριμένη εφημερίδα κτλ.). Τα πλεονεκτήματα είναι πολλά: τεράστιο μέγεθος, εύρος γλωσσικό, γεωγραφικό και κοινωνικό, πολυμεσικότητα και άπειρη διαθεσιμότητα στο ελάχιστο κόστος (Fletcher, 2011). Ωστόσο, αν και το σημαντικότερο στοιχείο στη χρήση του διαδικτύου ως σώματος κειμένων σχετίζεται με το μέγεθος και την εύρεση ακόμη και των σπανιότερων λέξεων ή φράσεων, η χρήση του για γλωσσικούς σκοπούς περιορίζεται από το γεγονός της έλλειψης αξιοπιστίας ή της άγνοιας της προέλευσης των πηγών (δεν γίνεται καν διάκριση ανάμεσα σε κείμενα παραγόμενα από φυσικούς ομιλητές, μεταφραστές ή ακόμη και από μηχανισμούς αυτόματης μετάφρασης). Η αυθεντικότητα και η αντιπροσωπευτικότητα τίθενται υπό αμφισβήτηση. Πολλοί μελετητές αναφέρουν ως δείκτη της συχνότητας μιας λέξης τον αριθμό των εμφανίσεων της μηχανής αναζήτησης Google (Google hits), μια πρακτική αναξιόπιστη για πολλούς λόγους (Kilgariff, 2007). Ο αριθμός αυτός διαφέρει κατά πολύ από τις συχνότητες στα σώματα κειμένων: απεικονίζει τον αριθμό των ιστοσελίδων όπου ο όρος προς 37 Διαθέσιμο στην ιστοσελίδα 38 Διαθέσιμο στην ιστοσελίδα: 39 Διαθέσιμο στην ιστοσελίδα: 40 Διαθέσιμο στην ιστοσελίδα: 41 Διαθέσιμο στην ιστοσελίδα:

73 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 73 αναζήτηση εμφανίζεται και όχι τις πραγματικές εμφανίσεις, οπότε μία σελίδα μπορεί να καταμετρηθεί πολλές φορές για παραλλαγές των όρων αναζήτησης. Πολλές σελίδες επίσης αναπαράγουν το περιεχόμενο άλλων σελίδων, διογκώνοντας τον αριθμό. Πιο «διαδεδομένο» δεν σημαίνει απαραίτητα «προτιμώμενο» (Fletcher, 2011). Αυτό που παρατηρούμε στην ελληνική γλώσσα είναι ότι ορισμένες φορές η ανορθόγραφη γραφή υπερτερεί αριθμητικά σε εμφανίσεις σε σχέση με την αποδεκτή μορφή (κατά το ΛΚΝ), π.χ εμφανίσεις για τη δικλείδα και για την αποδεκτή ορθογραφία δικλίδα, για το ξύδι και για την αποδεκτή ορθογραφία ξίδι 42. Ανάλογες παρατηρήσεις έχουν γίνει για άλλες γλώσσσες. Στη γερμανική για παράδειγμα μια μη αποδεκτή γραμματικά πρόταση (da werden Sie geholfen! 43 ) είχε περισσότερες εμφανίσεις καθώς αποτελούσε διαφημιστικό σλόγκαν, από τη γραμματικά αποδεκτή μορφή (da wird Ihnen geholfen). Η αναλογία επίσης ανεπίσημου / επίσημου λόγου στο Google είναι πέντε προς ένα (Fletcher, 2011). Επίσης, οι εμφανίσεις αυτές συχνά μπορεί να μην είναι ανακτήσιμες, λόγω αλλαγής ή κατάργησης ιστοσελίδων. Συνεπώς, και τα παραδείγματα χρήσης που αντλούμε από το διαδίκτυο μπορεί να μην είναι αρκετά αξιόπιστα ή αντιπροσωπευτικά, όπως μπορεί να είναι στην περίπτωση που προέρχονται από ένα προσεκτικά δομημένο και αντιπροσωπευτικό σώμα κειμένων. Παρόλο που ο σχηματισμός ενός σώματος από το διαδίκτυο είναι ευκολότερος για μια ειδική γλώσσα, καθώς ως επί το πλείστον αυτή χαρακτηρίζεται από συγκεκριμένους όρους [και συνεπώς η κατασκευή του σώματος μπορεί να βασιστεί σε ειδικούς καταλόγους λέξεων-κλειδιών και να πραγματοποιηθεί με αυτόματο τρόπο, μέσω εργαλείων όπως π.χ. το Babouk (De Groc, 2011)], η μελέτη της ειδικής αυτής γλώσσας καθίσταται ωστόσο δυσχερέστερη, καθώς παραμένει το γεγονός της άγνοιας της προέλευσης των πηγών και του σωστού διαχωρισμού γενικών και ειδικών κειμένων. Για τους λόγους αυτούς και τις ανάγκες της παρούσας εργασίας προχωρήσαμε στη δομημένη κατασκευή σώματος κειμένων με έλεγχο των πηγών, χωρίς να ακολουθήσουμε την προαναφερόμενη μέθοδο της χρήσης του διαδικτύου ως σώματος κειμένων (Web as 42 Η αναζήτηση πραγματοποιήθηκε στις 28/4/2012. Τα αποτελέσματα μπορούν να αλλάζουν από μέρα σε μέρα, γεγονός που επιβεβαιώνει την αναξιοπιστία των αποτελεσμάτων των μηχανών αναζήτησης για γλωσσική έρευνα. 43 Η φράση αποδίδεται ως «εδώ θα βρείτε βοήθεια». Ανάμεσα στις δύο φράσεις δεν υπάρχει διαφορά στη μετάφραση, αλλά στη γραμματική και τη σύνταξη.

74 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 74 corpus), αλλά τη μέθοδο Web for corpus, με τη χρήση συγκεκριμένων πηγών από το διαδίκτυο Σχεδιασμός ενός σώματος κειμένων Ο σωστός σχεδιασμός ενός σώματος κειμένων οφείλει να πληροί ορισμένες προϋποθέσεις, όπως η αντιπροσωπευτικότητα των συλλεγέντων γλωσσικών δειγμάτων, η συνοχή της εσωτερικής του δομής, η ομοιογένεια σύμφωνα με τα κριτήρια επιλογής, η ποικιλία των γλωσσικών χρήσεων και των κειμενικών ειδών, η ισορροπία των κειμενικών ειδών και η κάλυψη που προκύπτει από το μέγεθος τόσο των δειγμάτων όσο και του συνολικού σώματος κειμένων. Η αντιπροσωπευτικότητα, κατά τον Biber (1993) αναφέρεται στο βαθμό στον οποίο ένα δείγμα περιλαμβάνει το πλήρες φάσμα της ποικιλίας σε έναν πληθυσμό». Ένα σώμα κειμένων κατ ουσίαν αποτελεί ένα δείγμα της γλώσσας ή μιας γλωσσικής ποικιλίας (που αποτελεί τον πληθυσμό). Από αυτή την άποψη, η αντιπροσωπευτικότητα καθορίζεται από δύο παράγοντες: το εύρος των κειμενικών ειδών που περιλαμβάνονται σε ένα σώμα κειμένων και τον τρόπο με τον οποίο επιλέγονται τα κείμενα από κάθε κειμενικό είδος. Αν τα κριτήρια της επιλογής είναι εσωτερικά, όπως για παράδειγμα η κατανομή λέξεων ή γραμματικών φαινομένων, κάτι τέτοιο θα καθιστούσε περιττή την ανάλυση ενός τέτοιου σώματος κειμένων με σκοπό τον εντοπισμό γλωσσικών φαινομένων που απαντούν σε μια φυσική γλώσσα. Κατά τον Sinclair (2005) η επιλογή είναι απαραίτητο να γίνεται με εξωτερικά κριτήρια, ώστε, σε πρώτη φάση τουλάχιστον, τα γλωσσικά χαρακτηριστικά να μην εξαρτώνται από τη διαδικασία επιλογής. Την ίδια άποψη μοιράζονται οι Atkins, Clear & Ostler (1992) και ο Biber (1993: 256). Από τη στιγμή βέβαια που ένα σώμα κειμένων έχει κατασκευαστεί με εξωτερικά κριτήρια, τα αποτελέσματα της ανάλυσης μπορούν να χρησιμοποιηθούν για τη βελτίωση της αντιπροσωπευτικότητας του σώματος κειμένων. Κατά τον Biber (1993: 256) «η κατασκευή ενός αντιπροσωπευτικού σώματος κειμένων θα πρέπει να εξελίσσεται κατά έναν τρόπο κυκλικό». Όσον αφορά την αντιπροσωπευτικότητα, ο σχεδιασμός του British National Corpus (BNC), που στηρίζεται σε μια αυστηρή ταξινόμηση κειμενικών ειδών και χρησιμοποιεί στατιστική δειγματοληψία για το κομμάτι των προφορικών δεδομένων, αποτέλεσε πρότυπο για το σχεδιασμό πολλών άλλων σωμάτων κειμένων. Αντίθετα, το Bank of English έχει εξελιχθεί σε σώμα κειμένων ελέγχου (monitor corpus), δηλαδή ανανεώνεται συνεχώς μέσω της ευρείας συλλογής ενός πλήθους κειμένων, καθώς ακολουθείται, σ αυτή την περίπτωση, η άποψη

75 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 75 ότι η αντιπροσωπευτικότητα επιτυγχάνεται μέσω της μέγιστης δυνατής ποικιλίας. Σύμφωνα με τον Kucera (2002), μπορούμε να θεωρήσουμε ότι η αντιπροσωπευτικότητα αναφέρεται σε τρεις διαστάσεις κάθε σώματος κειμένων, το μέγεθος, την αυθεντικότητα και την ισορροπία μεταξύ των κειμενικών ειδών που το απαρτίζουν, ενώ ο Sinclair (2005) αναφέρει ότι η αντιπροσωπευτικότητα ενός σώματος κειμένων είναι, μεταξύ άλλων, η χρυσή τομή μεταξύ πληρότητας και ομοιογένειας. Σύμφωνα με τον Σαριδάκη (2010: 42), στη στατιστική θεωρία της επεξεργασίας των φυσικών γλωσσών, ο προσδιορισμός της αντιπροσωπευτικότητας που υιοθετείται κατά κανόνα είναι αυτός των Manning & Schütze (1999: 119): «Ένα δείγμα κειμένου είναι αντιπροσωπευτικό, εάν τα ευρήματα του δείγματος μπορούν να επαληθευθούν στον γενικό πληθυσμό». Η έννοια της αντιπροσωπευτικότητας είναι σημαντική τόσο για τα γενικά όσο και τα ειδικά σώματα κειμένων. Η αντιπροσωπευτικότητα ενός γενικού σώματος κειμένων βασίζεται κυρίως στη δειγματοληψία από ένα ευρύ φάσμα κειμενικών ειδών. Για τα ειδικά σώματα στο παρελθόν προτάθηκε η επίτευξη της αντιπροσωπευτικότητας με βάση το βαθμό κορεσμού ή κλειστότητας [closure (McEnery & Wilson, 1996) ή saturation (Belica, 1996)]. Ως κορεσμός (ή κλειστότητα) εννοείται ότι το γλωσσικό χαρακτηριστικό προς μελέτη εμφανίζεται ως πεπερασμένο ή υπόκειται σε πολύ μικρή διακύμανση πέραν ενός συγκεκριμένου ορίου. Για τη μέτρηση του βαθμού κορεσμού, το σώμα κειμένων διαιρείται σε ίσα τμήματα με βάση των αριθμό των λέξεων (tokens). Το σώμα κειμένων θεωρείται κορεσμένο σε λεξικό επίπεδο εφόσον κάθε προσθήκη ενός νέου τμήματος αποδίδει περίπου τον ίδιο αριθμό νέων λεξικών μονάδων με το προηγούμενο τμήμα, όταν δηλαδή «η καμπύλη της λεξικής αύξησης γίνεται ασυμπτωτική» (Teubert, 1999). Ωστόσο, σύμφωνα με τον Σαριδάκη (2010: 219) «ο δυναμικός χαρακτήρας της γλώσσας και το πλήθος και η ποικιλομορφία των διαφορετικών πραγματώσεών της καθιστούν εξ ορισμού αδύνατο τον προσδιορισμό ενός ΣΚ που θα μπορούσε να θεωρηθεί είτε ότι περιλαμβάνει το σύνολο των γλωσσικών πραγματώσεων μίας ή περισσοτέρων φυσικών γλωσσών, είτε ότι τουλάχιστον αποτελεί ικανό δείγμα του συνόλου αυτού». Σύμφωνα και πάλι με τον Σαριδάκη (2010: 44) «όσο διευρύνεται το πεδίο αναφοράς της μελέτης ή, άλλως, το εύρος των εμπειρικών δεδομένων των οποίων η μελέτη επιδιώκεται μέσω του ΣΚ, όσο δηλαδή διευρύνεται η κατά την οικεία προσέγγιση έννοια του λειτουργικού υποσυνόλου από το οποίο προέρχονται τα δειγματοληπτικά κειμενικά δεδομένα της έρευνας, τόσο εντείνεται η ασάφεια, ή έστω η υποκειμενικότητα, των κριτηρίων της

76 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 76 αντιπροσωπευτικότητας. Κατ αυτήν την έννοια, δεν είναι δυνατόν να εξασφαλιστεί, σε καμία περίπτωση, πλήρης αντιπροσωπευτικότητα μιας φυσικής γλώσσας ή λειτουργικής ποικιλίας της (Biber, Conrad & Reppen, 1998: 246, Γούτσος, 2003). Συμπερασματικώς, ακριβώς αυτή η παραδοχή επιτάσσει τον προσεκτικό προσδιορισμό, έστω περιγραφικό, αλλά πάντως στο μέτρο του δυνατού, των κοινωνιογλωσσικών χαρακτηριστικών που διέπουν τις πραγματώσεις λόγου τις οποίες ο ερευνητής λαμβάνει ως αντιπροσωπευτικά κειμενικά δείγματα». Η έννοια της ισορροπίας ενός σώματος κειμένων αφορά το εύρος των κειμενικών ειδών που περιλαμβάνονται στο σώμα κειμένων. Σε γενικές γραμμές, ένα σώμα κειμένων θεωρείται «ισορροπημένο» (balanced corpus) όταν έχει συγκροτηθεί με βάση κάποιες συγκεκριμένες παραμέτρους, όπως είναι η αναλογία των διαφορετικών κειμενικών γενών και ειδών που το απαρτίζουν. Έτσι, για παράδειγμα, η ισορροπία ενός σώματος κειμένων γενικής γλώσσας έγκειται στην αναλογία γραπτού και προφορικού λόγου, στην αναπαράσταση των διαφορετικών επικοινωνιακών επιπέδων, στην αναλογία κειμένων από ειδικά γνωστικά πεδία κτλ. Παρόλο που το χαρακτηριστικό αυτό θεωρείται εκ των ων ουκ ανευ κατά το σχεδιασμό ενός σώματος κειμένων, δεν υπάρχει στην πραγματικότητα ένας αξιόπιστος τρόπος για τη μέτρησή του. Το χαρακτηριστικό αυτό εναπόκειται σε μεγάλο βαθμό στη διαίσθηση και την κρίση του ερευνητή. Όσο υποκειμενικό και αν είναι όμως, όπως σχολιάζουν οι Atkins, Clear & Ostler (1992) θα ήταν κοντόφθαλμο πράγματι να περιμένουμε να μπορεί κάποιος να αποδώσει ισορροπία σε ένα σώμα κειμένων πριν αρχίσει να το χρησιμοποιεί και βεβιασμένο να απορρίψουμε τα αποτελέσματα μιας ανάλυσης σωμάτων κειμένων ως μη αξιόπιστα ή άσχετα, επειδή το σώμα κειμένων που χρησιμοποιήθηκε δεν μπορεί να αποδειχθεί πως διαθέτει ισορροπία». Απαραίτητη είναι επίσης για ένα σώμα κειμένων η ποικιλία των κειμενικών ειδών που περιλαμβάνονται, αλλά και ποικιλίες γλώσσας. Η αναλογική κατανομή τους καθορίζεται από το συγκεκριμένο γλωσσικό υποσύνολο που αντιπροσωπεύει το εκάστοτε σώμα κειμένων. Για την κατάρτιση ενός γενικού σώματος κειμένων απαιτείται ο μεγαλύτερος δυνατός αριθμός γλωσσικών ποικιλιών, ενώ για ένα ειδικό σώμα κειμένων απαιτείται επαρκής κάλυψη όλων των χρήσεων της γλώσσας στο γνωστικό πεδίο που αντιπροσωπεύεται. Ένα σώμα κειμένων πρέπει επίσης να διακρίνεται από συνοχή. Η συνολική του εικόνα πρέπει να είναι ομοιόμορφη και ολοκληρωμένη ως προς τον τελικό στόχο που είναι η

77 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 77 αντιπροσωπευτική απεικόνιση μιας γενικής ή ειδικής γλώσσας, να διαθέτει εσωτερική διάρθρωση και να μην αποτελεί απλή παράθεση περισσότερων ανεξάρτητων στοιχείων. Κατά την ίδια έννοια, τα κείμενα που απαρτίζουν ένα σώμα κειμένων πρέπει να είναι ομοιογενή, με βάση συγκεκριμένα κριτήρια επιλογής και τυποποίησης. Για το λόγο αυτό θα πρέπει να αποκλείονται από το σώμα κειμένων τα κείμενα που περιέχουν στοιχεία ή φαινόμενα μη ενδεικτικά, ακραία ή σπάνια και γενικά όσα παρεκκλίνουν από τα αρχικά κριτήρια επιλογής. Το σώμα κειμένων πρέπει να είναι όσο το δυνατό πιο πλήρες, εξαντλητικό και λεπτομερές στο βαθμό που απαιτείται από τις ανάγκες μιας συγκεκριμένης ανάλυσης. Η πληρότητα απορρέει τόσο από το τελικό μέγεθος του σώματος όσο και από το μέγεθος των δειγμάτων που περιέχει. Το συνολικό μέγεθος ενός σώματος κειμένων είναι άλλη μία πολύ σημαντική παράμετρος που αφορά το σχεδιασμό του, που όμως δεν έχει διερευνηθεί διεξοδικά σε όλες της τις διαστάσεις. Το μέγεθος ενός σώματος κειμένων ποικίλλει ανάλογα με τις πηγές και το σκοπό για τον οποίο έχει σχεδιαστεί και υλοποιηθεί. Σύμφωνα με τον Sinclair (2005), το ελάχιστο μέγεθος για ένα σώμα κειμένων εξαρτάται από δύο βασικούς παράγοντες: α) το είδος των αναζητήσεων που αναμένεται να κάνουν οι μελλοντικοί του χρήστες και β) τη μεθοδολογία που οι χρήστες αυτοί θα χρησιμοποιήσουν για να αναλύσουν τα δεδομένα. Γενικά, επικρατεί η άποψη ότι το τελικό μέγεθος ενός σώματος κειμένων πρέπει να είναι όσο το δυνατόν μεγαλύτερο, ώστε οι στατιστικές αναλύσεις να μπορούν να θεωρηθούν ότι έχουν επαρκή στατιστική σημασία. Ωστόσο, το μέγεθος δεν εξασφαλίζει απαραίτητα την αντιπροσωπευτικότητα. Τυπικά, σύμφωνα με τις Bowker & Pearson (2002) και τους Friedbichler and Friedbichler (2000), για το σχεδιασμό λαμβάνονται υπόψη τα εξής: α) το κειμενικό είδος (λ.χ. τα σώματα ειδικών κειμένων πρέπει να περιλαμβάνουν από εγχειρίδια έως και εκλαϊκευμένα άρθρα), β) τον αριθμό των λέξεων ανά κείμενο (λ.χ. θεωρείται ότι εξάγονται καλύτερα συμπεράσματα εφόσον τα κείμενα είναι ολόκληρα και όχι αποσπάσματα) και γ) το μέγεθος του σώματος κειμένων (λ.χ εκατομμύρια λέξεις θεωρούνται αρκετές για ένα σώμα ειδικών κειμένων) Ειδικά σώματα κειμένων Σε αντίθεση με τα γενικά σώματα κειμένων ή σώματα κειμένων αναφοράς (reference corpora) που σχεδιάζονται με στόχο να αναπαραστήσουν όσο το δυνατόν πιο αντιπροσωπευτικά το σύνολο του λεξιλογίου μιας συγκεκριμένης γλώσσας και να προσφέρουν αναλυτικές πληροφορίες για τη γλώσσα αυτή, τα ειδικά ή ειδικευμένα

78 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 78 σώματα κειμένων ή σώματα κειμένων ειδικής χρήσης (specialized/special corpora) αποτελούν συλλογές κειμένων που προέρχονται από έναν εξειδικευμένο τομέα ή μια ειδική γλώσσα, και τα οποία σχεδιάστηκαν για να εξυπηρετήσουν τους στόχους μιας εξειδικευμένης έρευνας. Μικρά και στοχευμένα σώματα κειμένων (μικρότερα του ενός εκατομμυρίου λέξεων) αποδείχθηκαν σημαντικό εργαλείο έρευνας για ειδικές χρήσεις της γλώσσας, όπου ο γλωσσολόγος, χρησιμοποιώντας ένα ολόκληρο οπλοστάσιο ηλεκτρονικών προγραμμάτων / εργαλείων μπορεί να μελετήσει και να διαφωτίσει πολύ ειδικές χρήσεις της γλώσσας. Τα ειδικά σώματα κειμένων δεν αντιπροσωπεύουν τη χρήση της γενικής γλώσσας, αλλά παρουσιάζουν σε υψηλή συχνότητα γλωσσικά φαινόμενα που βρίσκουμε πολύ σπάνια ή και καθόλου σε ένα γενικό σώμα κειμένων. Ειδικά σε επίπεδο λεξιλογίου, τα ειδικά σώματα κειμένων περιλαμβάνουν κείμενα από συγκεκριμένα θεματικά πεδία και υψηλές συχνότητες εμφάνισης των όρων που σχετίζονται με αυτά. Όπως αναφέρει ο Deville (2001), βασικό χαρακτηριστικό των ειδικών γλωσσών είναι ο υψηλός βαθμός κλειστότητας (closure) στα διάφορα επίπεδα. Κλειστότητα για ένα ορισμένο χαρακτηριστικό γλωσσικής ποικιλίας σημαίνει ότι το χαρακτηριστικό αυτό τείνει να είναι πεπερασμένο, με άλλα λόγια είναι δυνατό να καταρτιστούν απλοί κατάλογοι που να περιέχουν τους προτασιακούς τύπους (sentence types) στους οποίους απαντά και τους κανόνες που το περιγράφουν για τη δεδομένη γλωσσική ποικιλία. Όπως είναι φυσικό, κάτι τέτοιο δε συμβαίνει ποτέ σε μια φυσική γλώσσα, αντίθετα ισχύει συστηματικά για τις ειδικές γλώσσες. Η ανάλυση που βασίζεται στα σώματα κειμένων ενδείκνυται ιδιαίτερα για την περιγραφή των ειδικών γλωσσών για το λόγο ότι τόσο το σώμα κειμένων όσο και η ειδική γλώσσα έχουν ως κοινό χαρακτηριστικό τον πεπερασμένο χαρακτήρα τους. Έτσι, όσο πιο μεγάλο είναι το σώμα κειμένων που παίρνουμε για μια ειδική γλώσσα, τόσο η περιγραφή αυτής της ειδικής γλώσσας θα μπορεί σταδιακά να φτάσει να ολοκληρώνεται. Αντίθετα, όσο μεγαλύτερο είναι το σώμα κειμένων της γενικής γλώσσας τόσο πολλαπλασιάζονται τα χαρακτηριστικά που παρουσιάζει, όπως π.χ. οι προτασιακοί τύποι. Δυο γενικά σώματα κειμένων μπορεί να διαφέρουν ως προς τις συχνότητες εμφάνισης ειδικών όρων που παρουσιάζει το καθένα, σε περίπτωση που το ένα είναι πιο ομοιογενές από το άλλο. Αντίθετα τα ειδικευμένα σώματα κειμένων, έχοντας μειωμένες μεταβλητές, παρουσιάζουν αυξημένη ομοιογένεια. Η έννοια της ομοιογένειας μπορεί να είναι χρήσιμη στο σχεδιασμό ενός ειδικού σώματος κειμένων, δεν πρέπει όμως να συγχέεται με γλωσσικά

79 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 79 κριτήρια που συνδέονται με την επιλογή λεξιλογίου, γιατί τότε μειώνεται η αντιπροσωπευτικότητα του σώματος κειμένων και δημιουργείται ένας φαύλος κύκλος. Τα ειδικά σώματα κειμένων ποικίλλουν σε μέγεθος και σύνθεση ανάλογα με τη γνωστική περιοχή που καλούνται να καλύψουν. Τα ειδικά σώματα κειμένων χαρακτηρίζονται από ισορροπία στο πλαίσιο της δεδομένης γνωστικής περιοχής, ώστε εάν χρησιμοποιηθούν για άλλες χρήσεις να δίνουν μια διαστρεβλωμένη όψη της γλωσσικής χρήσης. Το κύριο πλεονέκτημά τους είναι ότι τα κείμενα μπορούν να επιλεγούν κατά τέτοιο τρόπο ώστε τα φαινόμενα που αναζητεί κανείς να μπορούν να αναδειχθούν με μεγαλύτερη συχνότητα σε ένα ειδικό σώμα κειμένων παρά σε ένα ισορροπημένο σώμα κειμένων γενικής γλώσσας. Συνεπώς, το ειδικό σώμα κειμένων μπορεί να είναι μικρότερο σε μέγεθος από ένα ισορροπημένο σώμα κειμένων που δίνει τα ίδια γλωσσικά δεδομένα (Sinclair & Ball, 1996). Είναι ευνόητο ότι ένα ειδικό σώμα κειμένων παρουσιάζει μεγαλύτερη περιεκτικότητα σε λεξιλόγιο της δεδομένης ειδικής γλώσσας από ό,τι ένα σώμα κειμένων γενικής γλώσσας. Ενδεικτικά αναφέρουμε το παράδειγμα που παραθέτει ο Sinclair (2005), ο οποίος συγκρίνει ένα αγγλικό σώμα κειμένων ειδικευμένο στην Πληροφορική (English of Computing Science - ECS) (James, Davidson, Heung-yeung, & Deerwester, 1994), το οποίο περιέχει λέξεις, με ένα σώμα κειμένων γενικής γλώσσας ιδίου μεγέθους (LOB), όπως φαίνεται στον παρακάτω πίνακα: LOB ECS % Ποοστιαία διαφορά Αριθμός διαφορετικών λεκτικών τύπων % Αριθμός λέξεων που απαντούν μόνο μία φορά % Αριθμός λέξεων που απαντούν μόνο δύο φορές % Αριθμός λέξεων που απαντούν 20 φορές και άνω % Αριθμός λέξεων που απαντούν 200 φορές και άνω (69%) Πίνακας 1: Σύγκριση συχνοτήτων σε ένα γενικό και ένα ειδικό σώμα κειμένων Ο αριθμός των διαφορετικών λεκτικών τύπων επιτρέπει μια πρόχειρη εκτίμηση του συνολικού μεγέθους του λεξιλογίου. Όπως εμφαίνεται στον πίνακα, είναι πολύ πιο περιορισμένος στο ειδικό σώμα κειμένων από ό,τι στο γενικό σώμα κειμένων - μικρότερος από 40%. Η αναλογία των λέξεων που εμφανίζονται άπαξ αποτελεί ακόμη μία ένδειξη της συνολικής έκτασης του λεξιλογίου, και εδώ η διαφορά στις αναλογίες μεταξύ των δύο σωμάτων κειμένων είναι ακόμη μεγαλύτερη, καθώς το ειδικό σώμα κειμένων έχει μόνον 31% του συνόλου του άλλου (γενικού) σώματος κειμένων. Οι λεκτικοί τύποι που απαντούν δύο φορές είναι πολύ πιο σπάνιοι στο ειδικό σώμα κειμένων, όμως η απόκλιση γίνεται ακόμη πιο έντονη στα ποσοστά που αντιστοιχούν στις είκοσι εμφανίσεις. Στη συχνότητα

80 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 80 των 200 και άνω εμφανίσεων, οι αναλογίες ανατρέπονται καθώς το γενικό σώμα κειμένων έχει μόνο 69% του αριθμού των τύπων που απαντούν στο ειδικό σώμα κειμένων. Δεδομένου ότι οι πολύ κοινές λέξεις (π.χ. γραμματικές λέξεις) θα πρέπει να έχουν σχεδόν παρόμοια κατανομή στα δύο σώματα κειμένων, εκείνο που σύμφωνα με τα ποσοστά αναδεικνύει το ειδικό σώμα κειμένων είναι ένα μικρό, κατά πάσα πιθανότητα τεχνικό, λεξιλόγιο. Όπως αποδεικνύεται από την παραπάνω σύγκριση, το χαρακτηριστικό λεξιλόγιο ενός θεματικού πεδίου διαγράφεται ανάγλυφα στους καταλόγους με τις συχνότητες εμφανίσεων και συνεπώς το σώμα κειμένων που χρειάζεται για τη μελέτη μιας δεδομένης ειδικής γλώσσας μπορεί να είναι πολύ μικρότερο από το σώμα κειμένων που χρειάζεται για τη μελέτη της γενικής γλώσσας (Sinclair, 2005). Ανεξαρτήτως μεγέθους, ένα ορολογικά πλούσιο κείμενο θα πρέπει να προστίθεται ολόκληρο (και όχι μέρος του) σε ένα σώμα κειμένων ειδικής χρήσης, γιατί αφενός ένας όρος μπορεί να βρίσκεται οπουδήποτε μέσα στο κείμενο και αφετέρου στην ορολογία το κείμενο εξετάζεται και εννοιολογικά ως ολότητα (Μικρός, 2004). Για τα ειδικά σώματα κειμένων, το πρόβλημα του συνολικού μεγέθους δε φαίνεται να παίζει ιδιαίτερα σημαντικό ρόλο. Η άποψη που επικρατεί γενικά είναι ότι θα πρέπει να είναι μικρότερα από τα σώματα κειμένων γενικής γλώσσας (Engwall, 1994) και να κυμαίνονται από έως λέξεων για να μπορούν να καλύψουν ικανοποιητικά τη λεξιλογική και γραμματική χρήση μίας υπογλώσσας (Friedbichler & Friedbichler, 2000) Ελληνικά σώματα κειμένων Η ελληνική γλώσσα αποτελεί μία από τις λιγότερο ομιλούμενες γλώσσες και συνεπώς εκπροσωπείται κατά ένα πολύ μικρό συγκριτικά ποσοστό στον παγκόσμιο ιστό. Η κυριαρχία της αγγλικής στον παγκόσμιο ιστό ενισχύεται διαρκώς, παρά το ότι, όπως δείχνουν τα ακόλουθα διαγράμματα, οι περισσότεροι χρήστες προέρχονται από την Ασία:

81 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 81 Εικόνα 19: Οι πρώτες 10 γλώσσες σε χρήση στο διαδίκτυο για το έτος 2010 σε εκατ. χρηστών, σε σύνολο χρήστων τον Ιούνιο 2010 (Πηγή: Internet World Stats Εικόνα 20: Χρήστες του διαδικτύου ανά γεωγραφική περιοχή 2011, σε σύνολο χρηστών τον Δεκέμβριο του 2011 (Πηγή: Internet World Stats Αφενός λοιπόν η παρουσία των λιγότερο ομιλούμενων γλωσσών στο διαδίκτυο είναι ελάχιστη, αφετέρου ο αριθμός των χρηστών αυξάνεται διαρκώς. Στην Ελλάδα, σύμφωνα με την ίδια πηγή, ο αριθμός των χρηστών ανέρχεται σε χρήστες τον Ιούνιο του 2010 (46,2% του πληθυσμού), αριθμός που αυξάνεται με ταχύτατους ρυθμούς όπως φαίνεται στον παρακάτω πίνακα: Έτος Χρήστες Πληθυσμός % Ποσοστό Πηγή ,000,000 10,964, % ITU ,800,000 11,338, % Comp. Ind. Almanac ,970,700 10,749, % ITU Πίνακας 2: Αριθμός χρηστών διαδικτύου στην Ελλάδα ( ) (Πηγή: Internet World Stats

82 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 82 Ωστόσο, οι γλωσσικοί πόροι που υπάρχουν για την ελληνική γλώσσα είναι ελάχιστοι και αυτό καθιστά ακόμη πιο απαραίτητο το σχεδιασμό και την κατασκευή νέων πόρων, όσο και την επέκταση των υπαρχόντων γλωσσικών πόρων. Για την καλύτερη τοποθέτηση του ΣΧΚ μεταξύ των υπαρχόντων γλωσσικών πόρων και την καλύτερη κατανόηση των δεδομένων που το αφορούν, κρίνουμε απαραίτητη την περιγραφή των υπαρχόντων σωμάτων κειμένων για την ελληνική γλώσσα Εθνικός Θησαυρός για την Ελληνική Γλώσσα 44 Το σώμα κειμένων αναφοράς του Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ) ονομάζεται Εθνικός Θησαυρός για την Ελληνική Γλώσσα (ΕΘΕΓ) (Χατζηγεωργίου, et al., 2000) και αποτελείται από κείμενα και αποσπάσματα κειμένων που γράφτηκαν στην ελληνική γλώσσα από το 1975 και εξής, στην πλειονότητά τους όμως χρονολογούνται από το 1990 και εξής. Ο συνολικός όγκος του ΕΘΕΓ ανέρχεται σήμερα περίπου σε λέξεις. Περιλαμβάνει αποκλειστικά δείγματα γραπτού λόγου (από τα οποία 10% περίπου επιστημονικά κείμενα). Για την ταξινόμηση των κειμένων του ΕΘΕΓ έχουν υιοθετηθεί οι προδιαγραφές του προγράμματος PAROLE, οι οποίες προβλέπουν κατηγοριοποίηση σύμφωνα με τα εξής τρία κριτήρια: μέσο Επικοινωνίας (medium), θέμα/περιεχόμενο (topic) και γένος/κειμενικό είδος (genre). Τα κείμενα του ΕΘΕΓ ταξινομούνται επίσης με βάση το μέσο δημοσίευσής τους: βιβλίο (9,41%), διαδίκτυο (0,32%), εφημερίδα (61,29%), περιοδικό (5,89%) και άλλα (23,08%) Η ταξινόμηση των κειμένων του ΕΘΕΓ με βάση το γένος/κειμενικό είδος γίνεται στις εξής κατηγορίες: βιογραφία, γνώμη, διαφήμιση, επίσημα κείμενα, ιδιωτικά κείμενα, λογοτεχνία, πληροφόρηση, συζήτηση, αδιευκρίνιστο. Η ταξινόμηση των κειμένων του ΕΘΕΓ με βάση το θέμα/περιεχόμενο γίνεται στις εξής κατηγορίες: ασχολίες, γεωγραφία, επιστήμη, επιχειρήσεις, ιστορία, κοινωνία, τέχνες, υγεία, αδιευκρίνιστο. Το διαδικτυακό περιβάλλον πρόσβασης στο σώμα κειμένων του ΙΕΛ (http://hnc.ilsp.gr) επιτρέπει την αναζήτηση λημμάτων, λεξικών τύπων, γραμματικών κατηγοριών ή συνδυασμούς αυτών στο σύνολο του σώματος κειμένων ή σε υπο σώμα του και την ανάκτηση του συμφραστικού περιβάλλοντός τους. Δίνεται επίσης η δυνατότητα ανάκτησης ποσοτικής πληροφορίας για τη συχνότητα εμφάνισης λημμάτων ή λεξικών τύπων (Χατζηγεωργίου et al. 2001). 44 Πληροφορίες διαθέσιμες στην ιστοσελίδα

83 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 83 Τμήμα του Εθνικού Θησαυρού της Ελληνικής Γλώσσας αποτελεί ο Εκπαιδευτικός Θησαυρός Ελληνικών κειμένων Εκπαιδευτικός Θησαυρός Ελληνικών Κειμένων (ΕΘΕΚ) Ο Εκπαιδευτικός Θησαυρός Ελληνικών Κειμένων (ΕΘΕΚ) έχει σχεδιαστεί και υλοποιηθεί από το ΙΕΛ ( ). Αποτελείται από ένα Γενικό Σώμα Κειμένων, το Σώμα Κειμένων σχολικών βιβλίων και το Σώμα Κειμένων των διδασκόντων. Ειδικότερα, το Γενικό Σώμα Κειμένων περιλαμβάνει περισσότερες από λέξεις και αποτελεί τμήμα του Εθνικού Θησαυρού της Ελληνικής Γλώσσας (ΕΘΕΓ) του ΙΕΛ. Τα κείμενα είναι αντιπροσωπευτικά της σύγχρονης ελληνικής γλώσσας και χρονολογούνται, στην πλειονότητά τους, από το 1990 και μετά. Το Σώμα Κειμένων σχολικών βιβλίων περιλαμβάνει λέξεις από τα σχολικά βιβλία της πρωτοβάθμιας και της δευτεροβάθμιας εκπαίδευσης. Το Σώμα Κειμένων των διδασκόντων διαμορφώνεται από τους διδάσκοντες με κείμενα που επιλέγουν και προσθέτουν οι ίδιοι. Για όλα τα κείμενα του ΕΘΕΚ υπάρχουν στη διάθεση του χρήστη πληροφορίες όπως βιβλιογραφικά στοιχεία (τίτλος, συγγραφέας, εκδότης, μεταφραστής, ημερομηνία έκδοσης), στοιχεία κατηγοριοποίησης (μέσο δημοσίευσης, κειμενικό είδος, θέμα) Το Σώμα Ελληνικών κειμένων (ΣΕΚ) 45 Το Σώμα Ελληνικών Κειμένων (ΣΕΚ) δημιουργήθηκε με στόχο τη γλωσσολογική έρευνα της Ελληνικής και είναι το πρώτο ηλεκτρονικό σώμα κειμένων που περιλαμβάνει προφορικά και γραπτά κείμενα της νέας ελληνικής. Αποτελεί προϊόν συνεργασίας του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών και του Πανεπιστημίου Κύπρου. Περιλαμβάνει λέξεις από τις δεκαετίες και γλωσσικά δεδομένα τόσο από γραπτές όσο και από προφορικές πηγές της Ελλάδας και της Κύπρου (Γούτσος, 2003). Η γενική σύνθεση του ΣΕΚ έχει σχεδιαστεί ως εξής: Προφορικά δεδομένα (10%) Γραπτά δεδομένα (90%) - Αυθόρμητη συνομιλία: λέξεις - Δημόσιες συνεντεύξεις: λέξεις - Ραδιοφωνική/τηλεοπτική συνομιλία: λέξεις - Λογοτεχνικά βιβλία: λέξεις - Ενημερωτικά βιβλία: λέξεις - Ακαδημαϊκή γραφή: λέξεις - Τύπος/Ειδήσεις: λέξεις - Απόψεις: λέξεις - Επίσημα έγγραφα: λέξεις 45 Πληροφορίες διαθέσιμες στην ιστοσελίδα

84 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 84 Οι βασικές σχεδιαστικές επιλογές για το ΣΕΚ που ακολουθήθηκαν είναι οι εξής: - Γενικό: Επιχειρεί να καλύψει ένα ευρύ θεματικό φάσμα και δεν εξειδικεύεται σε κάποια θεματική περιοχή. - Μονόγλωσσο: Περιέχει κείμενα που έχουν γραφτεί από συγγραφείς απευθείας στα ελληνικά και δεν συμπεριλαμβάνει μεταφράσεις. - Συγχρονικό: Το χρονικό παράθυρο εκτείνεται από το 1990 έως σήμερα. - Μεικτό: Περιλαμβάνει τόσο γραπτό, όσο και προφορικό λόγο. Η ταξινόμηση του ΣΕΚ γίνεται με βάση τον τρόπο (προφορικός-γραπτός λόγος), το μέσο (ραδιόφωνο, τηλεόραση, ζωντανό, βιβλίο, τηλέφωνο, εφημερίδα, περιοδικό, ηλεκτρονικό), το γένος (πληροφορίας-μη πληροφορίας), το είδος (ακαδημαϊκός λόγος, ενημερωτικά κείμενα, νόμοι-διοίκηση, ιδιωτικά κείμενα, λογοτεχνία, ειδήσεις, άρθρα γνώμης, συνέντευξη, δημόσια ομιλία, αυθόρμητη συνομιλία, διάφορα) τη γεωγραφική ποικιλία (κοινή-κυπριακή). Το ΣΕΚ πλαισιώνεται από δύο ειδικά σώματα κειμένων για την υποστήριξη της διδασκαλίας και εκμάθησης της Ελληνικής ως ξένης γλώσσας, που δημιουργήθηκαν στο πλαίσιο του έργου "Ηλεκτρονικά Σώματα Κειμένων για την έρευνα και τη διδασκαλία της Νέας Ελληνικής Γλώσσας" και τα οποία είναι διαθέσιμα μέσω κοινής ιστοσελίδας 46 του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών ΗΣΚ εκμάθησης της Νέας Ελληνικής ως ξένης γλώσσας Το σώμα κειμένων, το οποίο αποτελείται από 333 γραπτά αλλοδαπών από 51 διαφορετικές χώρες που μαθαίνουν τη ΝΕ ως ξένη γλώσσα στο Διδασκαλείο του Πανεπιστημίου Αθηνών, αποτελεί μέρος του έργου "Ηλεκτρονικά Σώματα Κειμένων για την έρευνα και τη διδασκαλία της Νέας Ελληνικής Γλώσσας" μαζί με το Σώμα Ελληνικών Κειμένων και το ΗΣΚ για τη διδασκαλία της Νέας Ελληνικής ως ξένης γλώσσας. Το συνολικό ΗΣΚ ανέρχεται σε λέξεις. Κάθε κείμενο έχει ψηφιοποιηθεί και έχει χαρακτηριστεί ως προς τα λάθη του ΗΣΚ για τη διδασκαλία της Νέας Ελληνικής ως ξένης γλώσσας Το συγκεκριμένο ΗΣΚ (περίπου λέξεις) αποτελεί συλλογή γραπτών κειμένων σε τρεις θεματικές περιοχές (Αγορές, Υγεία, Περιβάλλον - Οικολογία), οι οποίες σχετίζονται άμεσα με τις αντίστοιχες διδακτικές ενότητες που προβλέπονται από το Αναλυτικό Πρόγραμμα για το «Ενδιάμεσο Επίπεδο για τα Νέα Ελληνικά» του Κέντρου Ελληνικής 46

85 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 85 Γλώσσας. Παρέχει αυθεντικό κειμενικό υλικό σε δασκάλους, μαθητές και εξεταστές της ΝΕ ως ξένης γλώσσας. Τμήματα των κείμενων που περιέχονται θα μπορούν να χρησιμοποιηθούν σε δραστηριότητες μέσα στην τάξη κατά τη διδασκαλία της ΝΕ ως ξένης γλώσσας. Τα σώματα κειμένων για την εκμάθηση και τη διδασκαλία της Νέας Ελληνικής ως ξένης γλώσσας δεν είναι μορφοσυντακτικά σχολιασμένα, δεν υπάρχει δυνατότητα αναζήτησης στατιστικής πληροφορίας ούτε εμφάνισης των αποτελεσμάτων με τη μορφή συμφραστικού πίνακα.

86 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων Το σώμα κειμένων του Ηλεκτρονικού Κόμβου 47 Πρόκειται για ηλεκτρονικό σώμα κειμένων δημοσιογραφικού λόγου μεγέθους λεκτικών τύπων. Τα κείμενα προέρχονται από τις εφημερίδες της Θεσσαλονίκης Θεσσαλονίκη και Μακεδονία και καλύπτουν το χρονικό διάστημα από τον Ιανουάριο του 1997 μέχρι τον Μάρτιο του Επιλέχτηκαν από ένα πολύ μεγαλύτερο σύνολο κειμένων (έκτασης περίπου λεκτικών τύπων) που παραχωρήθηκε στο ΚΕΓ από τον Εκδοτικό Οργανισμό Ραπτόπουλου. Η επιλογή έγινε με στατιστικά κριτήρια αντιπροσωπευτικής λεξιλογικής αναγνώρισης για κάθε είδος κειμένου. Τα σώματα ακολουθούν τη δομή των εφημερίδων και κατανέμονται σε 17 τομείς ενημέρωσης (π.χ. αστυνομικό δελτίο, πολιτικό, ειδησεογραφικό, οικονομικό, αθλητικό ρεπορτάζ κ.ά.) αντιπροσωπεύοντας ενδεικτικά σημασιολογικά πεδία και πράξεις λόγου. Τα σώματα κειμένων συνοδεύονται από το μορφολογικό λεξικό όλων των τύπων το οποίο καταρτίστηκε με τη βοήθεια του ΙΝΤΕΧ (Courtois & Silberztein, 1990) καθιστώντας δυνατή τη σύνδεση των λημματοποιημένων τύπων των λεξικών του κόμβου με τους λεκτικούς τύπους των σωμάτων. Τα κείμενα μπορούν να χρησιμοποιηθούν συνδυαστικά με τα λεξικά του Κόμβου, για την ανεύρεση πρόσθετων παραδειγμάτων για κάθε λήμμα ή για τα συμφραζόμενα τύπων που απουσιάζουν από τα λεξικά (όπως είναι λ.χ. κάποιοι νεολογισμοί ή δάνειες λέξεις) αλλά απαντούν στα κείμενα. Τα επιμέρους σώματα αντιστοιχούν, σε σημαντικό βαθμό, στη δομή της εφημερίδας και είναι 15 (Απόψεις, Αστυνομικά, Αθλητικά, Διαφημίσεις, Επιστολές, Πολιτιστικά, Καιρός, Κοινωνικά, Οικονομικά, Πολιτική, Ρεπορτάζ, Συνεντεύξεις, Τηλεόραση, Βιογραφίες, Χρήμα). Τα σώματα κειμένων είναι μορφολογικά σχολιασμένα και είναι δυνατή η αναζήτηση οποιουδήποτε λήμματος ή λεξικού τύπου ή φράσης και η ανάκτηση του περικειμένου τους είτε με τη μορφή συμφραστικού πίνακα είτε με τη μορφή προτάσεων. Διαθέσιμο είναι, επίσης, ένα εργαλείο αναζήτησης στατιστικής πληροφορίας για τη συχνότητα εμφάνισης συγκεκριμένων λέξεων στα σώματα κειμένων. 47 Πληροφορίες διαθέσιμες στις ιστοσελίδες και αναζήτηση στα σώματα κειμένων μέσω της ιστοσελίδας

87 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων Το Σώμα Νέων Ελληνικών Κειμένων 48 Το Σώμα Νέων Ελληνικών Κειμένων (ή Σώμα Κειμένων της Ηλεκτρονικής Πύλης) αποτελείται από τρία κύρια μέρη: το σώμα κειμένων της Εφημερίδας Τα Νέα, το σώμα κειμένων της Εφημερίδας Μακεδονία και το σώμα κειμένων των διδακτικών βιβλίων του Παιδαγωγικού Ινστιτούτου. Περιλαμβάνει σώματα κειμένων δημοσιογραφικού και εκπαιδευτικού λόγου. Το σώμα κειμένων δημοσιογραφικού λόγου περιέχει, σε ηλεκτρονική μορφή, υλικό έκτασης λεκτικών τύπων που δημοσιεύτηκε στην εφημερίδα Μακεδονία ( ) και στην εφημερίδα Τα Νέα ( ). Το υλικό αυτό είναι ομαδοποιημένο ανά θεματική ενότητα και έχει ταξινομηθεί ανά κειμενικό είδος (σύντομες ειδήσεις, κοινωνικά ρεπορτάζ, χρονογραφήματα κτλ.). Όσον αφορά τη Μακεδονία, τα κείμενα είναι μεταγενέστερα του Τα κείμενα των Νέων καλύπτουν το χρονικό διάστημα των τεσσάρων πρώτων μηνών του Το σώμα κειμένων εκπαιδευτικού λόγου περιλαμβάνει, σε ηλεκτρονική μορφή, υλικό έκτασης λεκτικών τύπων που περιέχεται σε σχολικά βιβλία (του μαθητή και του εκπαιδευτικού) γυμνασίου και λυκείου. Το υλικό αυτό είναι ταξινομημένο ανά κειμενικό τύπο (αφήγηση, εξήγηση, περιγραφή, παροχή οδηγιών, ανάλυση διαδικασίας, επιχειρηματολογία). Τα υποστηρικτικά κείμενα των βιβλίων της «Έκφρασης-Έκθεσης» και της «Νεοελληνικής Γλώσσας» έχουν ταξινομηθεί ανά κειμενικό είδος (επιστολή, ποίημα, αίτηση κτλ.). Τα σώματα κειμένων μπορούν να χρησιμοποιηθούν συνδυαστικά με τα λεξικά της Πύλης Ο Πολιτιστικός Θησαυρός της Ελληνικής Γλώσσας (ΠΟΘΕΓ) 49 Αποτελεί το πρώτο ιστορικό σώμα κειμένων για την ελληνική γλώσσα. Τα κείμενα είναι αντιπροσωπευτικά της περιόδου της ελληνικής λογοτεχνίας και γραμματείας που αρχίζει από τον Νεοελληνικό Διαφωτισμό και φθάνει μέχρι τη σημερινή εποχή, δηλαδή, ανθολογούνται οι κύριοι συγγραφείς και τα κύρια έργα του 18ου (τέλη), 19ου και 20ού αιώνα (περισσότερα από 220 έργα). Η συγκρότηση της συλλογής είναι τέτοια ώστε να καταδεικνύεται η ιστορική εξέλιξη της ελληνικής γλώσσας και να παρουσιάζονται τα 48 Πληροφορίες διαθέσιμες στις ιστοσελίδες και αναζήτηση στα επιμέρους σώματα μέσω της ιστοσελίδας και παράλληλη αναζήτηση μέσω της ιστοσελίδας 49 Σώμα κειμένων διαθέσιμο προς αναζήτηση στην ιστοσελίδα

88 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 88 θέματα και οι έννοιες που χαρακτηρίζουν τις διάφορες τάσεις και ρεύματα που κυριάρχησαν στα ελληνικά γράμματα κατά την προαναφερθείσα χρονική περίοδο Το σώμα βιοϊατρικών κειμένων ΙΑΤΡΟΛΕΞΗ 50 Σε αντίθεση με τα παραπάνω σώματα κειμένων που είναι γενικής γλώσσας, το σώμα βιοϊατρικών κειμένων είναι ένα ειδικευμένο σώμα κειμένων. Το σώμα αυτό περιέχει ελληνικά βιοϊατρικά κείμενα και περίπου 11,5 εκ. λέξεις. Τα κείμενα αυτά τυπώθηκαν από το 1996 μέχρι σήμερα και τα οποία βρέθηκαν σε 47 ελληνικές ιστοσελίδες, περιέχουν υλικό για ιατρικά επιστημονικά περιοδικά, ιατρικές εφημερίδες και ιατρικά συνέδρια. Από το σώμα αυτό, εξήχθησαν οι ιατρικοί όροι που μαζί και με τους όρους που έχουν συλλεγεί από ιατρικά λεξικά, έφτασαν τους περίπου Επιπλέον συνελέγησαν και οι πολυλεκτικοί όροι, που ανέρχονται περίπου σε Στόχος του έργου είναι η καλύτερη διαχείριση και επεξεργασία της βιοϊατρικής πληροφορίας που υπάρχει σε ψηφιακή μορφή. Έτσι, το έργο περιλαμβάνει τη δημιουργία και διάθεση στους χρήστες εργαλείων για την αναζήτηση, τη συσχέτιση και το χαρακτηρισμό των βιοϊατρικών κειμένων. Το σώμα αυτό αποτελεί το μόνο ειδικό σώμα κειμένων για την ελληνική γλώσσα, με την έννοια ότι εστιάζει σε μια ειδική γλώσσα, τη γλώσσα των ιατρικών κειμένων. Τέλος, για το διάστημα εκπονήθηκε από το ΙΕΛ (Μάντζαρη, 1999) η συγκέντρωση ηλεκτρονικών ορολογικών πόρων, δηλαδή ψηφιοποιημένων επιστημονικών και τεχνικών κειμένων και των περιλαμβανόμενων σε αυτά όρων, με στόχο τη χρησιμοποίησή τους σε εφαρμογές Επεξεργασίας Φυσικής Γλώσσας, στο πλαίσιο του έργου ΟΡΟΣΗΜΟ. Το αποτέλεσμα της δράσης αυτής ήταν η δημιουργία μιας συλλογής κειμένων λέξεων της σύγχρονης επιστημονικής και τεχνικής γλώσσας, και μιας συλλογής των περιλαμβανόμενων στα κείμενα όρων (25.000) περίπου στην ελληνική και αγγλική γλώσσα στους ακόλουθους θεματικούς τομείς: αρχαιολογία, ανθρωπολογία, ανοσοχημεία, αστρονομία, βιολογία, γενετική, γεωλογία, γεωπονική, γλωσσολογία, δίκαιο, ιατρική, ιστορία, μαθηματικά, μέσα μαζικής επικοινωνίας, μηχανική αεροσκαφών, οικονομικά, περιβαλλοντική, πληροφορική, ραδιο-οικολογία. Ωστόσο, το σώμα αυτό δεν είναι διαθέσιμο στο διαδίκτυο. 50 Πληροφορίες διαθέσιμες στην ιστοσελίδα αναζήτηση εντός των κειμένων μέσω της ιστοσελίδας

89 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 89 Αξίζει να σημειωθεί ότι η ελληνική γλώσσα εκπροσωπείται και σε ορισμένα διεθνή προγράμματα ή περιβάλλοντα διεπαφής, όπως π.χ. μεταφραστικές μνήμες και παράλληλα σώματα κειμένων, αν και σε μικρότερο ποσοστό σε σχέση με άλλες γλώσσες. Ενδεικτικά αναφέρουμε ορισμένα (μαζί με τις ιστοσελίδες τους): - My memory (http://mymemory.translated.net): ανοιχτή 51 μεταφραστική μνήμη με 300 εκατ. μεταφραστικά τμήματα (segments) ως το τέλος του 2009, - OPUS (http://opus.lingfil.uu.se): παράλληλα σώματα κειμένων, η συλλογή των οποίων έγινε από το διαδίκτυο μέσω εργαλείων ανοιχτού κώδικα, - Glosbe (http://glosbe.com/tmem): μεταφραστική μνήμη διαθέσιμη σε απευθείας σύνδεση μέσω της ιστοσελίδας, - TAUS (https://www.tausdata.org/index.php): περιβάλλον διεπαφής για το διαμοιρασμό γλωσσικών δεδομένων και μεταφραστικών μνημών, - Webitext (http://www.webitext.com/bin/webitext.cgi): πολύγλωσσο σώμα κειμένων του Εθνικού Ερευνητικού Συμβουλίου του Καναδά (National Research Council of Canada), - DGT TM (http://langtech.jrc.it/dgt-tm.html): η μεταφραστική μνήμη που περιέχει το κοινοτικό κεκτημένο (Acquis Communautaire), το σώμα της ευρωπαϊκής νομοθεσίας σε 22 γλώσσες και 231 μεταφραστικά ζεύγη. 51 Εμπλουτίζεται διαρκώς με συνεισφορές από τους χρήστες.

90 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων Το Σώμα Χρηματιστηριακών Κειμένων (ΣΧΚ) Δομή του ΣΧΚ Το σώμα κειμένων που προέκυψε στην πρώτη φάση της συλλογής και επεξεργασίας των κειμένων με 50 εκατομμύρια λέξεις διαιρέθηκε σε τέσσερα υποσώματα (sub-corpora), ανάλογα με το κειμενικό είδος: Σώμα Α: ο λόγος της γραπτής διαδικτυακής επικοινωνίας / συζήτησης με μηνύματα σε φόρα ανταλλαγής απόψεων με θέμα το χρηματιστήριο Σώμα Β: δημοσιογραφικός λόγος (άρθρα εφημερίδων) Σώμα Γ: εταιρικός λόγος (εταιρικά έγγραφα από την ιστοσελίδα του Χρηματιστηρίου Αθηνών, ετήσιοι απολογισμοί και ανακοινώσεις τύπου) Σώμα Δ: ακαδημαϊκός λόγος (πανεπιστημιακές σημειώσεις, επιστημονικά άρθρα, εργασίες, πτυχιακές και μεταπτυχιακές εργασίες, διδακτορικές διατριβές, διαθέσιμες στο διαδίκτυο μέσω των πανεπιστημιακών βιβλιοθηκών). Η ταξινόμηση με βάση το κειμενικό είδος και κατ επέκταση το ύφος είναι έτι περαιτέρω δικαιολογημένη όσον αφορά την ειδική γλώσσα του χρηματιστηρίου, καθώς πρόκειται για μια γλώσσα που χρησιμοποιείται ταυτόχρονα από επαγγελματίες και ακαδημαϊκούς. Η γλώσσα αυτή της αγοράς που καλείται να ονομάσει όλο και πιο πολύπλοκα προϊόντα συναλλαγών χρησιμοποιείται τόσο από ειδικούς όσο και από μη ειδικούς. Σε επόμενο στάδιο της επεξεργασίας, προκειμένου να επιτευχθεί η εξισορρόπηση των κειμενικών ειδών που απαρτίζουν το ΣΧΚ, το μέγεθος του σώματος κειμένων περιορίστηκε σε λέξεις περίπου Χαρακτηριστικά του ΣΧΚ Το σώμα κειμένων που αποτέλεσε τη βάση της παρούσας εργασίας επιχειρείται να αντιπροσωπεύσει όσο το δυνατόν πληρέστερα την ειδική γλώσσα του ελληνικού χρηματιστηρίου. Πρόκειται για ένα ηλεκτρονικό σώμα κειμένων το οποίο χαρακτηρίζεται ως: - ειδικό: τα κείμενα προέρχονται αποκλειστικά από τον ίδιο τομέα της οικονομίας, γεγονός που έχει επιβεβαιωθεί μέσω της εξαγωγής λέξεων κλειδιών (keywords, βλ. ενότ )

91 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 91 - μονόγλωσσο: δεν περιέχει κείμενα σε άλλη γλώσσα εκτός της νέας ελληνικής, αλλά ούτε και μεταφράσεις από ξενόγλωσσα κείμενα στην ελληνική 52 - συγχρονικό, καθώς περιέχει κείμενα από μια συγχρονία της ελληνικής και συγκεκριμένα από το 1999 έως το Η χρονική αυτή περίοδος σηματοδοτείται από δύο μεγάλες κρίσεις για την ελληνική οικονομία, από τις οποίες η πρώτη αφορά ένα χρηματιστηριακό κραχ και η δεύτερη την κρίση χρέους που έφερε την Ελλάδα στο προσκήνιο της επικαιρότητας. Καθοριστική για τη διαμόρφωση του ειδικού λεξιλογίου του χρηματιστηρίου υπήρξε κυρίως η περίοδος , κατά την οποία αυξήθηκε εντυπωσιακά το ενδιαφέρον και η δραστηριοποίηση του εγχώριου πληθυσμού. Η άνοδος του χρηματιστηρίου δημιούργησε νέα δεδομένα στην αγορά από τα οποία προέκυψε η ανάγκη χρήσης νέων λέξεων, που εισήλθαν στο χώρο ως νεολογισμοί ή νεώνυμα 53. Ειδικότερα κατά την περίοδο εντός της οποίας εμφανίζεται η μεγαλύτερη άνοδος και η μεγαλύτερη πτώση στην ιστορία του ελληνικού χρηματιστηρίου, παρατηρείται και ο μεγαλύτερος αριθμός δημοσιευμάτων που αφορούν το χρηματιστήριο Το ζήτημα των πνευματικών δικαιωμάτων και των αδειών Το ζήτημα των πνευματικών δικαιωμάτων παραμένει ακανθώδες, παρά τις εκτενείς συζητήσεις (Hemming & Lassi, 2002 Wilkinson, 2006 Hilton, 2001 McEnery, Xiao, & Tono, 2006 McEnery & Hardie, 2011), όσον αφορά την κατασκευή και δημοσίευση διαδικτυακών σωμάτων κειμένων. Κατά βάση κάθε τι που βρίσκεται στο διαδίκτυο προστατεύεται μέσω πνευματικών δικαιωμάτων και επομένως βρίσκεται υπό τον έλεγχο του συγγραφέα (Hemming & Lassi, 2002). Η εύλογη χρήση (η χρήση για ερευνητικούς και διδακτικούς σκοπούς), για την οποία υπάρχουν νομοθετικές διατάξεις σε όλες σχεδόν τις χώρες του κόσμου, κατά τα τελευταία έτη επιχερείται να περιοριστεί, γεγονός που καθιστά δυσχερέστερη την εργασία του ερευνητή. Για την αποφυγή έγερσης ζητημάτων πνευματικών δικαιωμάτων, πριν την ολική μεταφόρτωση της ιστοσελίδας του ΧΑ ζητήθηκε και μας παραχωρήθηκε ειδική άδεια για τη 52 Τα ξενόγλωσσα άρθρα που σχολιάζονται στα μηνύματα σε διαδικτυακούς χώρους συζητήσεων αφαιρέθηκαν με ημιαυτόματο τρόπο. 53 Νεολογισμοί ονομάζονται τα αποτελέσματα της διαδικασίας της λεξιλογικής ανανέωσης, δηλαδή της νεολογίας (Αναστασιάδη-Συμεωνίδη, 1986: 26-27), ενώ σύμφωνα με τον Rondeau (1984: 174), μπορούμε να χρησιμοποιήσουμε τον όρο νεωνυμία για να δηλώσουμε τη "νεολογία στο ειδικό λεξιλόγιο", και τον όρο νεώνυμα για τα αποτελέσματα της διαδικασίας της νεωνυμίας. Ωστόσο, επικρατεί στη βιβλιογραφία ο όρος νεολογισμός τόσο για το γενικό όσο και για το ειδικό λεξιλόγιο.

92 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 92 χρήση των κειμένων από το Τμήμα Διάχυσης Πληροφόρησης του ΧΑ για ερευνητικούς και μη εμπορικούς σκοπούς. Αντίστοιχη άδεια επίσης μας παραχωρήθηκε από τους διαχειριστές των δημόσιων συζητήσεων, τα μηνύματα των οποίων συμπεριελήφθησαν στο πρώτο υπο-σώμα κειμένων (Α) του ΣΧΚ, παρόλο που δεν πρόκειται για ιδιωτικά μηνύματα (όπως π.χ. τα μηνύματα SMS), και οι συντάκτες τους γνωρίζουν ότι τα μηνύματα ή τα σχόλιά τους πρόκειται να δημοσιευθούν. Επομένως, σ' αυτή την περίπτωση, σύμφωνα με τον McEnery (2011), κανονικά δεν εγείρεται ηθικό ζήτημα ή ζήτημα πνευματικών δικαιωμάτων. Τέλος, για τις ανάγκες της εργασίας αυτής μας παραχωρήθηκαν τα κείμενα πανεπιστημιακών σημειώσεων και εργασιών από τους ίδιους τους συγγραφείς τους. Τα υπόλοιπα κείμενα που συμπεριελήφθησαν στο ΣΧΚ αποτελούν δημοσιευμένα κείμενα δημοσιογραφικού λόγου, από τα οποία, όπως και από τα υπόλοιπα κείμενα, παρατίθενται μικρά αποσπάσματα (snippets) λέξεων Συλλογή των δεδομένων Η πρώτη φάση της συλλογής περιλαμβάνει τον εντοπισμό και την επιλογή των πηγών, καθώς και την αξιολόγησή τους. Η δεύτερη φάση περιλαμβάνει την κατηγοριοποίηση των κειμένων και τον τελικό διαχωρισμό τους με βάση το κειμενικό είδος. Η συλλογή των δεδομένων έγινε με δύο τρόπους: ψηφιοποίηση του έντυπου υλικού μέσω ηλεκτρονικής σάρωσης (OCR) και συλλογή ηλεκτρονικών κειμένων μέσω του διαδικτύου. Τα άρθρα που προέρχονταν από εφημερίδες σαρώθηκαν αρχικά ως εικόνες. Για τη μετατροπή τους σε κείμενα χρησιμοποιήθηκε το πρόγραμμα σάρωσης FineReader Optical Character Recognition (OCR). Ακολούθησε καθαρισμός των αρχείων από περιττά μη λεκτικά στοιχεία (π.χ. εικόνες, γραμμές, κενά, κτλ.) και αποθήκευση με τη μορφή απλού κειμένου και κωδικοποίηση σε Unicode 54. Το αρχικό αποτέλεσμα ήταν ένα κατακερματισμένο κείμενο το οποίο έχρηζε πολλών διορθώσεων. Η σάρωση των άρθρων και η μετατροπή τους σε έγγραφα απλού κειμένου αποδείχθηκε δύσκολη, καθώς, πέρα από τα τυπογραφικά λάθη που προέκυψαν, παρατηρήθηκαν μετατοπίσεις στη θέση των παραγράφων. Παρόλο που αυτό δεν δημιουργεί πρόβλημα κατά τη δημιουργία των συμφραστικών πινάκων, η σειρά των παραγράφων αποκαταστάθηκε, ώστε να ανταποκρίνεται πλήρως στην έντυπη μορφή των κειμένων. Πρόβλημα δημιούργησαν επίσης οι στήλες, καθώς γραμμές της μίας στήλης εμπλέκονταν 54 Η κωδικοποίηση σε μορφή Unicode είναι απαραίτητη για την επεξεργασία των κειμένων μέσω του προγράμματος Unitex.

93 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 93 με αυτές της διπλανής στήλης. Για την αντιμετώπιση του προβλήματος χρησιμοποιήθηκε ειδικό πρόγραμμα ανάγνωσης των σελίδων και μετατροπής τους σε κείμενο (βλ. ενότ. 3.5.). Ορισμένα άρθρα παρουσίασαν αυξημένη δυσκολία κατά τη μετατροπή τους σε απλό κείμενο λόγω εικόνων και γραφικών στο σχεδιασμό τους. Ένα πρόβλημα επίσης ήταν ότι πολλές φορές οι εικόνες που συνοδεύουν τα άρθρα (στο συγκεκριμένο σώμα κειμένων κυρίως γελοιογραφίες) αποτελούν ουσιώδες μέρος του κειμένου. Αυτά τα εξωκειμενικά στοιχεία χάθηκαν κατά τη μετατροπή σε απλό κείμενο. Μετά τη διόρθωσή του, το σώμα κειμένων ενσωματώθηκε στο σύστημα αυτόματης ανάλυσης και πραγματοποιήθηκε η προεπεξεργασία του, ώστε να γίνει ο τεμαχισμός του σε προτάσεις. Στη συνέχεια κωδικοποιήθηκαν τα στοιχεία που περιλαμβάνουν προέλευση του κειμένου, όνομα συγγραφέα, ημερομηνία παραγωγής και τίτλο. Το εν λόγω σώμα κειμένων δημιουργήθηκε με την προοπτική της μελέτης και σύγκρισης γλωσσικών ποικιλιών που ξεκινούν από τον ανεπίσημο (ακόμη και αργκό) και φτάνουν ως τον επίσημο (επιχειρηματικό έως ακαδημαϊκό) λόγο. Για το λόγο αυτό δημιουργήθηκαν τέσσερα ξεχωριστά σώματα κειμένων. Το πρώτο σώμα κειμένων (sub-corpus A) προέρχεται από μηνύματα κειμένων σε χώρους δημόσιων διαδικτυακών συζητήσεων (fora) με αντικείμενο το χρηματιστήριο, τα οποία εμφανίζονται κυρίως την τελευταία διετία. Επιλέχθηκαν δύο fora με αντικείμενο το χρηματιστήριο, το neoforum.gr και το capital.gr. Ο λόγος που χρησιμοποιείται αποτελεί, σύμφωνα με την Daniushina (2010), ένα νέο τύπο λόγου, το διαδικτυακό λόγο ( web discourse ), "ο οποίος συνδυάζει στοιχεία τόσο του προφορικού όσο και του γραπτού λόγου. Η επικοινωνία στο διαδίκτυο απαιτεί μια χρονική επαφή (συγχρονισμό της γένεσης της πληροφορίας και της αποδοχής της) και παρέχει βαθιά εμπλοκή στην περίσταση με άμεση ανταπόκριση, τυπική του προφορικού λόγου, παρόλο που ο λόγος είναι γραπτός (ή οιωνεί γραπτός). Επομένως, ο διαδικτυακός επιχειρηματικός λόγος (web business discourse) αποτελεί μια πραγματικότητα στον 21 ο αιώνα, ενώ αναμενόμενη είναι η αύξηση της χρήσης του και, κατά συνέπεια, της μελέτης του". Το δεύτερο σώμα κειμένων (sub-corpus B) προέρχεται από κείμενα εφημερίδων τα οποία σκαναρίστηκαν, ξεκινώντας από το 1999, την περίοδο της μεγαλύτερης ακμής του χρηματιστηρίου, και συμπληρώθηκαν στη συνέχεια με άρθρα σε ηλεκτρονική μορφή, αλλά στο ίδιο επίπεδο λόγου. Πρόκειται για 2112 άρθρα, μόνο ολόκληρα κείμενα, γραμμένα κατά την περίοδο Επίσης, ενσωματώθηκαν στο ΣΧΚ κείμενα από το CD ROM με τίτλο «Όλο το παρασκήνιο όλων των εισηγμένων εταιριών στο Χρηματιστήριο Αξιών

94 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 94 Αθηνών» (συνοδευτική προσφορά της εφημερίδας Σύμβουλος Χρηματιστηρίου σε συνεργασία με τη NC NET). Τα άρθρα του σώματος κειμένων αντλήθηκαν από τις εξής εφημερίδες: Αδέσμευτος Τύπος, Ακρόπολις, Αξία, Απογευματινή της Κυριακής, Δείκτης, Έθνος της Κυριακής, Ελευθεροτυπία, Εξουσία, Εξπρές, Έξυπνο Χρήμα, Επενδυτής, Ημερησία, Ισοτιμία, Καθημερινή, Κέρδος, Μακεδονία, Μέτοχος, Ναυτεμπορική, Οικονομία, Οικονομικός Ταχυδρόμος, Σύμβουλος, Τα Νέα, Το Βήμα της Κυριακής, Το Βήμα, Το Καρφί, Τύπος της Κυριακής, Χρήμα και Αγορά, Χρηματιστήριο, Retail Business. Το τρίτο σώμα κειμένων (sub-corpus C) προέρχεται από την ιστοσελίδα του Χρηματιστηρίου Αξιών Αθηνών, η οποία περιέχει κείμενα από το 2000, όταν το χρηματιστήριο μετατράπηκε σε Ανώνυμη Εταιρεία. Περιέχει κυρίως ανακοινώσεις τύπου, καθώς και τα ενημερωτικά δελτία του ΧΑΑ των ετών Το σώμα αυτό προσφέρεται ως βάση για περαιτέρω μελέτη, καθώς τα κείμενα συνοδεύονται από τις μεταφράσεις τους στην αγγλική γλώσσα και έχει γίνει παραλληλοποίησή τους (Τζιάφα, υπό δημοσίευση). Το τέταρτο σώμα κειμένων (sub-corpus D) περιέχει κείμενα ακαδημαϊκού λόγου που προέρχονται από πανεπιστημιακές σημειώσεις μαθημάτων που μας παραχωρήθηκαν (με αντικείμενο τις Αγορές Χρήματος και Κεφαλαίου και τα Χρηματιστηριακά Παράγωγα), καθώς και από εργασίες μεταπτυχιακές και διδακτορικές διαθέσιμες στο διαδίκτυο. Στο σώμα αυτό υπάρχει πληθώρα και μεγάλη συχνότητα (λεξικών μονάδων) λέξεων περιεχομένου και σχετική απουσία γραμματικών λέξεων.

95 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 95 Στον ακόλουθο πίνακα παρουσιάζονται τα στοιχεία που αφορούν τα προαναφερθέντα σώματα κειμένων: Σώμα κειμένων (sub-corpora) A. Μηνύματα σε διαδικτυακές συζητήσεις με θέμα το χρηματιστήριο B. Κείμενα δημοσιογραφικού λόγου, είτε έντυπα είτε από το διαδίκτυο Γ. Δελτία Τύπου και Ενημερωτικά Δελτία από το ΧΑΑ Δ. Κείμενα ακαδημαϊκού περιεχομένου Πηγή Οικονομικές εφημερίδες Χρηματιστηριακές ιστοσελίδες Ιστοσελίδα Χρηματιστηρίου Αξιών Αθηνών (http://www.ase.gr) Σημειώσεις πανεπιστημιακών διαλέξεων, διδακτορικές διατριβές, μεταπτυχιακές εργασίες και άρθρα διαθέσιμα στο διαδίκτυο Χρονική περίοδος Αριθμός κειμένων Λέξεις μηνύματα άρθρα δελτία τύπου, 21 ετήσιοι απολογισμοί, 47 επίσημα έγγραφα / επιστολές, προσκλήσεις κτλ κείμενα Σύνολο 18,805,305 Πίνακας 3: Ανάλυση του σώματος κειμένων Αντιπροσωπευτικότητα του ΣΧΚ Όπως έχει προαναφερθεί, ένα σώμα κειμένων θεωρείται αντιπροσωπευτικό με βάση το μέγεθος, την αυθεντικότητα και τις αναλογίες του, δηλαδή τη σχετική ισορροπία μεταξύ των κειμενικών ειδών που το απαρτίζουν (Γούτσος, 2003). Το θέμα της αντιπροσωπευτικότητας των σωμάτων κειμένων αποτέλεσε αντικείμενο πολλών συζητήσεων, κυρίως κατά την τελευταία εικοσαετία, ενώ επικεντρώθηκε κυρίως σε προβλήματα σχετικά με την κατασκευή μεγάλων σωμάτων κειμένων όπως το Cobuild s Bank of English corpus και το BNC (Biber 1993, Atkins et al. 1992). Η Gavioli (2002) θέτει το πρόβλημα της αντιπροσωπευτικότητας των μικρών σωμάτων κειμένων, όπως είναι συνήθως τα σώματα ειδικών κειμένων, και των κριτηρίων που τίθενται κατά τον σχεδιασμό μικρών σωμάτων ειδικών κειμένων. Σύμφωνα με τους McEnery, Xiao και Tono (2006) «ενώ τόσο τα γενικά όσο και τα ειδικά σώματα κειμένων οφείλουν να είναι αντιπροσωπευτικά μίας γλώσσας ή μίας γλωσσικής ποικιλίας, υπάρχει διαφορετικός τρόπος μέτρησης της αντιπροσωπευτικότητας των δύο

96 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 96 τύπων σωμάτων κειμένων. Η αντιπροσωπευτικότητα ενός γενικού σώματος κειμένων εξαρτάται κυρίως από τη δειγματοληψία μέσα από ένα ευρύ πεδίο κειμενικών ειδών. Ο Biber (1993) υποστηρίζει ότι «με βάση τη στατιστική, η διακύμανση (variance) μεταξύ ομάδων είναι τυπικά μεγαλύτερη από τη διακύμανση εντός μιας ομάδας, και επομένως ένα δείγμα το οποίο συνάγει την αντιπροσωπευτικότητά του με βάση διακριτές ομάδες θα είναι γενικότερα πιο αντιπροσωπευτικό. Επιπλέον, στην περίπτωση των σωμάτων κειμένων μιας γλώσσας, η αντιπροσωπευτικότητα που επιτυγχάνεται αναλογικά δεν είναι επιθυμητή απαιτείται μάλλον η αντιπροσώπευση μέσω μιας ποικιλίας κειμενικών ειδών, ως βάσης για γλωσσολογικές αναλύσεις». Σε ένα ειδικό σώμα κειμένων υπάρχει πάντα περιοσμένη διαθεσιμότητα των κειμένων, και αυτό ισχύει ακόμη περισσότερο για το υπό μελέτη σώμα κειμένων, εφόσον πρόκειται για ειδικά κείμενα και μάλιστα στην ελληνική γλώσσα, μια από τις λιγότερο ομιλούμενες γλώσσες και με μικρή εκπροσώπηση στο διαδίκτυο. Περιοριστήκαμε σε τυχαία δειγματοληψία, συλλογή όσο το δυνατόν μεγαλύτερου αριθμού κειμένων (19 εκατομμύρια λέξεις), από όσο το δυνατόν περισσότερα κειμενικά είδη. Είναι γεγονός ότι «η επίτευξη της αντιπροσωπευτικότητας κατά την έννοια του προτύπου του σώματος κειμένων Brown απαιτεί γνώση της συχνότητας χρήσης του εκάστοτε κειμενικού είδους από την εκάστοτε γλωσσική κοινότητα κατά την περίοδο της δειγματοληψίας» (McEnery, Xiao, & Tono, 2006). Καθώς μια τέτοια γνώση και μέτρηση δεν είναι ρεαλιστική, αλλά και επειδή «η κατασκευή σωμάτων κειμένων είναι κατ ανάγκην ένας γάμος μεταξύ της τελειότητας και της πραγματικότητας» (ibid), το σώμα κειμένων οργανώθηκε τελικά σε τέσσερα υποσώματα, τα οποία μπορούν να αποτελέσουν ουσιαστικά τη βάση για τη μελέτη και τη σύγκριση του γλωσσικού ύφους, από συζητήσεις σε μια επαγγελματική αργκό ως τον ακαδημαϊκό λόγο. Στην αντιπροσωπευτικότητα ενός σώματος κειμένων συμβάλλει επίσης η αυθεντικότητά του. Τα εν λόγω κείμενα δεν είναι κατασκευασμένα και έχουν δημιουργηθεί με φυσικό τρόπο (όχι κάτω από πειραματικές συνθήκες). Τέλος, είναι αντιπροσωπευτικό ως προς τις αναλογίες του, καθώς τα κειμενικά είδη που το απαρτίζουν βρίσκονται σε άμεση συνάρτηση με τους ερευνητικούς στόχους, δηλαδή την κατά το δυνατόν εξαντλητική περιγραφή της χρηματιστηριακής ορολογίας. Έτσι περιλαμβάνονται κείμενα με διαφορετικά επίπεδα ύφους, π.χ. Τα λαμόγια συνεχίζουν τη σπέκουλα! Τα... πρόβατα φεύγουν ατάκτως από το μαντρί. (Δυστυχώς γι' αυτούς, δεν διαβάζουν όλοι την αφεντιά μου...). Τους τρομοκράτησαν οι

97 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 97...ποντικοί. Οι γάτες ορμάνε. Τσιμπάνε ό,τι βρουν, όπου το πετύχουν. Οι τρομαγμένοι χώνονται στις Τράπεζες. Για να εισπράξουν τόκο ένα 8άρι, όσο ένα λίμιτ απ μιας μέρας στο Χρηματιστήριο. Οι Τράπεζες, βέβαια, θα... επενδύσουν στη Σοφοκλέους. και Σε αντίθεση με τα Συμβόλαια Μελλοντικής Εκπλήρωσης, που είναι δεσμευτικά τόσο για τον αγοραστή όσο και για τον πωλητή, ένα συμβόλαιο Δικαιώματος δίνει στον αγοραστή του το δικαίωμα (αλλά όχι την υποχρέωση) να επιλέξει αν τελικά θα το εξασκήσει. Έτσι, ο αγοραστής ανάλογα με τις συνθήκες που διαμορφώνονται στην αγορά αποφασίζει αν τελικά τον συμφέρει να προβεί σε χρήση αυτού του δικαιώματος ή όχι. Η υποκείμενη αξία των Δικαιωμάτων Προαίρεσης, όπως και για τα Σ.Μ.Ε., μπορεί να είναι μία ποικιλία προϊόντων ή αγαθών. Οι συναλλασσόμενοι χρησιμοποιούν τα Δικαιώματα Προαίρεσης για να αγοράσουν ή να πουλήσουν σιτάρι, πολύτιμα μέταλλα, συνάλλαγμα, μετοχές, δείκτες και άλλα αξιόγραφα, τα οποία αποτελούν ένα μικρό μέρος από το σύνολο των προϊόντων που σήμερα συναλλάσσονται. Η υποκείμενη αξία για τα Δικαιώματα στο δείκτη FTSE/ASE-20 που διαπραγματεύεται στην αγορά παραγώγων είναι ο χρηματιστηριακός δείκτης FTSE/ASE-20. (Βλ. Παράρτημα 1) Το μέγεθος του ΣΧΚ Λαμβάνοντας υπόψη τα προαναφερθέντα στοιχεία όσον αφορά την αντιπροσωπευτικότητα, το εν λόγω σώμα κειμένων μπορεί να θεωρηθεί αντιπροσωπευτικό καταρχήν όσον αφορά το μέγεθός του (19 εκατομμύρια λέξεις), καθώς για ένα εξειδικευμένο σώμα κειμένων κρίνεται ικανοποιητικό ένα μέγεθος από έως λέξεις. Σύμφωνα με τους Bowker & Pearson (2002) ακόμη και σώματα κειμένων μερικών χιλιάδων ή μερικών εκατοντάδων χιλιάδων λέξεων αποδείχθηκαν χρήσιμα για την έρευνα ειδικών γλωσσών. Ωστόσο, κατά τους Friedbichler & Friedbichler (2000) σώματα κειμένων ανάλογου μεγέθους ανά γλώσσα αποδίδουν επαρκείς πληροφορίες σε ποσοστό 97% των γλωσσικών ερευνών. Με τα σώματα κειμένων δισεκατομμυρίων λέξεων που έχουν ανακοινωθεί (Ferraresi, Zanchetta, Baroni, & Bernardini, 2008 Baroni, Bernardini, Ferraresi, & Zanchetta, 2009 Pomikalek, Rychly, & Kilgarriff, 2009 Ferraresi, Bernardini, Picci, & Baroni, 2010), καθώς και τα 155 δισεκατομμύρια λέξεις του BYU Google Books, κάθε άλλο σώμα κειμένων φαίνεται πλέον σχετικά μικρό. Εφόσον αναλογιστούμε ωστόσο ότι πρόκειται για ένα σώμα ειδικών κειμένων και μάλιστα στην ελληνική γλώσσα, η οποία είναι μία από τις λιγότερο εκπροσωπούμενες χώρες στο διαδίκτυο, τότε γίνεται φανερό πώς ένα σώμα ειδικών

98 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 98 κειμένων με 19 εκατ. λέξεις στην ελληνική γλώσσα διαθέτει επαρκές μέγεθος για τη μελέτη μιας ειδικής γλώσσας Ηλεκτρονικά εργαλεία που χρησιμοποιήθηκαν κατά τη συλλογή και κατασκευή του ΣΧΚ Η εξαντλητική καταγραφή όλων των διαθέσιμων εργαλείων για τη συλλογή και κατασκευή σωμάτων κειμένων είναι πέρα από τους σκοπούς αυτής της έρευνας. Αν και υπάρχουν ειδικά προγράμματα για τη συλλογή και κατασκευή σωμάτων κειμένων με ημιαυτόματο τρόπο, δηλαδή πραγματοποιώντας αναζήτηση με λέξεις κλειδιά συγκεντρώνουν τις ιστοσελίδες και τις μετατρέπουν σε αρχεία απλού κειμένου (.txt) κατάλληλα προς επεξεργασία, για τις ανάγκες της παρούσας εργασίας επιλέχθηκαν ξεχωριστά εργαλεία για κάθε στάδιο της συλλογής και της επεξεργασίας των κειμένων, προκειμένου να επιτευχθεί ο έλεγχος των κειμένων και βαθύτερη κατανόηση της διαδικασίας. Επομένως, θα καταγράψουμε στη συνέχεια, τα εργαλεία που επιλέχθηκαν ανάμεσα σε πολλά υπάρχοντα, για το κάθε στάδιο. Τα εργαλεία που επιλέχθηκαν είτε είναι ανοιχτού κώδικα (open source), είτε ελεύθερα διαθέσιμα (freeware), και όσο το δυνατόν λιγότερα είναι εμπορικά προϊόντα (shareware). Ένα ακόμη κριτήριο για την επιλογή των εργαλείων που χρησιμοποιήθηκαν, πέρα από τη λειτουργία τους, ήταν η υποστήριξη γλωσσών με διαφορετικό αλφάβητο εκτός του λατινικού, όπως η ελληνική γλώσσα. Επιπλέον, τα εργαλεία έπρεπε να είναι κατάλληλα για την επεξεργασία αρχείων μεγάλου μεγέθους, καθώς και για τη διαχείριση εκατοντάδων χιλιάδων αρχείων (batch files) ταυτόχρονα. Για παράδειγμα, το μέγεθος των αρχείων που μεταφορτώθηκαν από την ιστοσελίδα του Χρηματιστηρίου Αθηνών ξεπερνούσαν τα 32Gb, ενώ τα αρχεία μηνυμάτων που προήλθαν από την ιστοσελίδα neoforum.gr ξεπέρασαν το Τέλος, ένα από τα μεγαλύτερα προβλήματα είναι η ταχεία εξέλιξη σ αυτό τον τομέα, με αποτέλεσμα τη μη διαθεσιμότητα των εργαλείων μέσα σε ελάχιστο χρονικό διάστημα και την αντικατάστασή τους από ολοένα νεότερα. Συνεπώς, τα κείμενα στην περίπτωση της ψηφιοποίησης των εντύπων σαρώθηκαν και στη συνέχεια μετατράπηκαν από αρχεία εικόνας σε αρχεία κειμένου μέσω του προγράμματος OCR, ενώ για τα υπόλοιπα ακολουθήθηκε η εξής διαδικασία: - Μεταφορτώθηκαν από το διαδίκτυο - Μετατράπηκαν σε αρχεία απλού κειμένου - Κωδικοποιήθηκαν σε UTF-8 - Διαγράφηκαν τα διπλά αρχεία

99 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 99 - Συγχωνεύθηκαν σε ένα αρχείο Η αποθήκευση του συνόλου του ιστοτόπου του Χρηματιστηρίου Αξιών Αθηνών 55 πραγματοποιήθηκε με τη βοήθεια του εργαλείου Httrack Website Copier 56. Πέραν των τυπικών σελίδων σε κωδικοποίηση html, βρέθηκαν 392 αρχεία κειμένου σε μορφή doc και 8522 αρχεία σε μορφή pdf. Από τους υπόλοιπους τύπους αρχείων απορρίφθηκαν τα αρχεία σε μορφή xls και ppt, τα πρώτα διότι χρησιμοποιούνται κατά κύριο λόγο για την παρουσίαση πινάκων και αριθμητικών στοιχείων, και τα δεύτερα διότι χρησιμοποιούνται κυρίως για σύντομες παρουσιάσεις, οπότε δε συνέβαλαν ουσιαστικά στην ανάπτυξη του σώματος κειμένων. Κατόπιν, για τα αρχεία σε μορφή doc και pdf, έγινε χρήση εργαλείων μετατροπής τους σε αρχεία απλού κειμένου (βλ. πίνακα), τα οποία επιλέχθηκαν ανάμεσα σε πολλά συναφή προγράμματα, καθώς παρείχαν τη δυνατότητα υποστήριξης της ελληνικής γλώσσας. Το σύνολο των αρχείων doc μετατράπηκε επιτυχώς σε αρχεία απλού κειμένου, από τα αρχεία σε μορφή pdf, ωστόσο προέκυψαν αρχεία, τα οποία μειώθηκαν περαιτέρω κατά την εκκαθάριση κατεστραμμένων αρχείων, που αφορούσαν κυρίως κείμενα τα οποία στην αρχική τους μορφή, πριν δηλ. μετατραπούν σε pdf, προέρχονταν από έγγραφα παρουσιάσεων (π.χ. ppt - PowerPoint). Ακολούθως, διαχωρίστηκαν τα αγγλικά από τα ελληνικά κείμενα (1.672 αρχεία), με βάση το όνομα του αρχείου. Τα αγγλικά κείμενα υπέστησαν και αυτά την αντίστοιχη επεξεργασία και επιδιόρθωση όπως τα ελληνικά κείμενα, προκειμένου να χρησιμοποιηθούν σε επόμενη φάση (παραλληλοποίηση βλ. ενότ. 6.1.). Όπως προαναφέρθηκε, μία από τις μεγαλύτερες δυσκολίες κατά την επεξεργασία των κειμένων ήταν η ανεύρεση προγραμμάτων-εργαλείων κατάλληλων για την επεξεργασία της ελληνικής γλώσσας. Προκειμένου να υπάρχει λοιπόν η ελάχιστη απώλεια χαρακτήρων για τα περισσότερα προγράμματα, ήταν απαραίτητη η κωδικοποίηση των αρχείων κειμένου σε UTF-8 ώστε να έχουμε την ελάχιστη απώλεια χαρακτήρων (βλ. πίνακα). Ακολούθησε η μετατροπή των αρχείων σε μορφή html σε αρχεία απλού κειμένου, και στη συνέχεια πραγματοποιήθηκε διάσπαση των αρχείων σε μικρότερα αρχεία, ώστε να γίνει ανίχνευση των διπλών αρχείων, ακόμη και εφόσον το όνομα αρχείου ήταν διαφορετικό, με βάση το περιεχόμενό τους, μέσω ειδικών προγραμμάτων (βλ. πίνακα)

100 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ: Σώματα κειμένων 100 Μετά το διαχωρισμό των ελληνικών κειμένων, χρησιμοποιήθηκε ένα εργαλείο για τη συνένωση όλων των αρχείων απλού κειμένου σε ένα κείμενο, ώστε οι διορθώσεις τυπογραφικών και άλλων στοιχείων να πραγματοποιηθούν με αυτόματο, κατά το δυνατόν, τρόπο, μέσω λογικών εκφράσεων, επί του συνόλου των κειμένων (με ποικίλα εργαλεία, ανάλογα με την κωδικοποίηση των κειμένων). Μεταξύ των κειμένων τοποθετήθηκε αυτόματα ένας διαχωριστής (π.χ. μια γραμμή από αστερίσκους και επιπλέον το αρχικό όνομα του αρχείου) ώστε να είναι δυνατή στη συνέχεια η διάσπαση του ενιαίου αρχείου στα αρχεία προέλευσης. Ορισμένα ακόμη εργαλεία χρησιμοποιήθηκαν για δευτερεύουσες εργασίες όπως την διαγραφή κενών γραμμών, για την αλλαγή των ονομάτων πολλών χιλιάδων αρχείων ταυτόχρονα, ώστε να διευκολυνθεί η διαδικασία της δειγματοληψίας. Επιπλέον, χρησιμοποιήθηκαν μέσω ενός επεξεργαστή κειμένου κανονικές εκφράσεις (regular expressions) 57 προκειμένου να διαγραφούν ορισμένα κείμενα στην αγγλική γλώσσα και οι αυτόματες μεταφράσεις τους που προέρχονταν συνήθως από την ιστοσελίδα Google translate, και περιέχονταν στο υποσώμα Α των μηνυμάτων. Τέτοιου είδους εκφράσεις χρησιμοποιήθηκαν επίσης για την ανωνυμοποίηση των μηνυμάτων. Για ορισμένα μηνύματα έγινε επίσης μεταγραφή μηνυμάτων στην ελληνική γ&lam