Bank of English Corpus British National Corpus (BNC) Cambridge International Corpus. International Corpus of English (ICE) Oxford English Corpus

Σχετικά έγγραφα
«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

Μαρίνα Ματθαιουδάκη. Περίληψη

ΑΓΓΛΙΚΑ ΣΑΒΒΑΤΟ 12 ΜΑΪΟΥ 2012

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΙ ΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝ ΥΛΙΩΝ ΕΡΕΥΝΑΣ

Κεφάλαιο 3 Μεθοδολογικά εργαλεία των σωμάτων κειμένων

ΑΓΓΛΙΚΑ Σ Α Β Β Α Τ Ο 1 0 Μ Α Ϊ Ο Υ

Τι είναι το αρχείο Γεωργακά;

Ψηφίδες για τη Νεοελληνική Γλώσσα

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ Μάθημα περιορισμένης επιλογής 6

Τύπος Εκφώνηση Απαντήσεις

H γλώσσα θεωρείται ιδιαίτερο σύστηµα,

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Ο 19ος αιώνας Είδαμε ότι πρώτοι ιστορικο-συγκριτικοί επιστήμονες είχαν στόχο να εξηγήσουν τις ομοιότητες που παρατηρούσαν ανάμεσα στις γλώσσες. Είδαμε

Η Ι ΑΣΚΑΛΙΑ ΤΗΣ ΛΕΙΤΟΥΡΓΙΚΗΣ ΧΡΗΣΗΣ ΤΗΣ ΓΛΩΣΣΑΣ ΣΕ ΜΗ ΕΛΛΗΝΟΦΩΝΟΥΣ ΜΑΘΗΤΕΣ. Χατζησαββίδης Σωφρόνης, καθηγητής Γλωσσολογίας στο Α.Π.Θ.

ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΣΤΗΝ Ι ΑΚΤΙΚΗ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Η ΕΞΕΛΙΞΗ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΚΑΤΑ ΤΟΝ 20 Ο ΑΙΩΝΑ ΜΕ ΒΑΣΗ ΤΟ ΕΛΛΗΝΙΚΟ ΤΡΑΓΟΥΔΙ» ΧΡΗΣΤΟΣ ΚΩΤΣΑΚΟΠΟΥΛΟΣ

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

5. Λόγος, γλώσσα και ομιλία

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

III_Β.1 : Διδασκαλία με ΤΠΕ, Γιατί ;

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Δ Φάση Επιμόρφωσης. Υπουργείο Παιδείας και Πολιτισμού Παιδαγωγικό Ινστιτούτο Γραφείο Διαμόρφωσης Αναλυτικών Προγραμμάτων. 15 Δεκεμβρίου 2010

Κεφάλαιο 5ο: Σώµατα κειµένων και εφαρµογές

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΓΙΑ ΤΗΝ ΕΠΙΜΟΡΦΩΣΗ ΤΩΝ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΕΙ ΙΚΟ ΜΕΡΟΣ: ΚΛΑ ΟΣ ΠΕ02 (78 ώρες)

133 Γαλλικής Γλώσσας και Φιλολογίας Θεσσαλονίκης

Η αξιοποίηση των Ηλεκτρονικών Σωµάτων Κειµένων (ΗΣΚ) για τη διδασκαλία της ελληνικής ως ξένης γλώσσας

Προς µια γλωσσική πολιτική την εποχή της παγκοσµιοποίησης και του διαδικτύου: ο σχεδιασµός του ΚΕΓ

Διαστάσεις της διγλωσσίας α. χρόνος β. σειρά γ. πλαίσιο κατάκτησης της δεύτερης γλώσσας

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Οπτική αντίληψη. Μετά?..

Η ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΝΕΑΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕΘΟΔΟΛΟΓΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΕΚΠΑΙΔΕΥΣΗ

EBSCOhost Research Databases

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

ιδασκαλία της Χηµικής Ισορροπίας µε χρήση µηχανικών αναλόγων

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

ΔΙΑΛΕΞΗ ΤΡΙΤΗ ΤΟ ΑΛΦΑΒΗΤΟ ΚΑΙ Η ΔΙΑΜΟΡΦΩΣΗ ΤΩΝ ΑΡΧΑΙΩΝ ΕΛΛΗΝΙΚΩΝ ΔΙΑΛΕΚΤΩΝ

Reading/Writing (Κατανόηση και Παραγωγή Γραπτού Λόγου): 1 ώρα και 10 λεπτά

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

ΓΕΩΓΡΑΦΟΙ ΣΤΗΝ ΕΛΛΗΝΙΚΗ ΑΓΟΡΑ ΕΡΓΑΣΙΑΣ: ΠΡΟΒΛΗΜΑΤΑ ΚΑΙ ΠΡΟΟΠΤΙΚΕΣ

Μέθοδος-Προσέγγιση- Διδακτικός σχεδιασμός. A. Xατζηδάκη, Π.Τ.Δ.Ε. Παν/μιο Κρήτης

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Διδασκαλία της Νεοελληνικής Γλώσσας

[γála], [nisos], [cípos],[cení], [círos], [típos], [cerós], [ómos], [kalà], [cerí]

Σύντοµο Εγχειρίδιο Χρήσης. του Λογισµικού Στατιστικής Επεξεργασίας. SPSS for Windows v. 8.0

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

Σειρά «ΘΥΜΗΣΙΣ» : Αρχαίος Ελληνικός Πολιτισμός και Γλώσσα

Κεφάλαιο 5ο: Σώματα κειμένων και εφαρμογές

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πολυτροπικότητα και διδασκαλία των ξένων γλωσσών στην Τριτοβάθμια Εκπαίδευση

διευκρίνιση Η (προ)ιστορία Παραδοσιακή µέθοδος διδασκαλίας - «Παραδοσιακά» Προγράµµατα Γλωσσικής Διδασκαλίας

ΣΕΤ ΑΣΚΗΣΕΩΝ 4. Προθεσµία: 8/1/12, 22:00

Πτυχιακή Εργασία. Εκφωνήματα του Προφορικού Λόγου. Γουργουλέτη Χαραλαμπία Μαρίνα, Κορδατζή Γρηγορία, Τσιτίνης Τριαντάφυλλος

ΕΚΠΑΙΔΕΥΤΗΡΙΑ «ΝΕΑ ΠΑΙΔΕΙΑ» Τομέας Νέων Ελληνικών

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ. Η αγγλική και οι άλλες γλώσσες της Ευρωπαϊκής Ένωσης

ΑΚΑΔ. ΕΤΟΣ ΜΑΘΗΜΑΤΑ ΤΟΜΕΑ ΓΑΛΛΙΚΗΣ ΓΛΩΣΣΑΣ - ΓΛΩΣΣΟΛΟΓΙΑΣ

Επιμορφωτικό σεμινάριο «Διδάσκοντας την Ελληνική ως δεύτερη γλώσσα στο Δημοτικό Σχολείο»

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων

ΕΠΙΣΗΜΕΙΩΣΗ ΓΡΑΠΤΩΝ ΠΑΡΑΓΩΓΩΝ ΤΟΥΡΚΟΦΩΝΩΝ ΜΑΘΗΤΩΝ ΜΕ Γ2 ΤΗΝ ΕΛΛΗΝΙΚΗ. Η ΕΞΕΤΑΣΗ ΤΗΣ ΣΥΜΦΩΝΙΑΣ

ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ - ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟΔΟΥ ΣΕΠΤΕΜΒΡΙΟΥ 2013

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Περιβάλλον Διαχείρισης Συνεδρίων και άλλων Επιστημονικών Εκδηλώσεων. Πολιτική Χρήσης

Πληροφορίες τμημάτων & επιπέδων _v.1. Πληροφορίες τμημάτων & επιπέδων. τηλέφωνα επικοινωνίας: & info@valores.

Διδακτικό υλικό σε ηλεκτρονική και έντυπη μορφή που απευθύνεται σε: τουρκόφωνους/ μουσουλμάνους μαθητές:

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

186 (ΑΕΙ)-Γλώσσας Φιλολογίας και Πολιτισμού Παρευξείνειων Χωρών (Κομοτηνή)

Η αξιοποίηση των Ηλεκτρονικών Σωμάτων Κειμένων στη διδασκαλία της Ισπανικής ως ξένης γλώσσας

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Οι µαθητές δήλωσαν ολογράφως το σχολείο τους. Τα δεδοµένα κωδικοποιήθηκαν ως εξής : ΠΙΝΑΚΑΣ 1

Η εκμάθηση μιας δεύτερης/ξένης γλώσσας. Ασπασία Χατζηδάκη, Επ. Καθηγήτρια Π.Τ.Δ.Ε

ΝΟΜΟΤΕΛΕΙΑ Οδηγίες Χρήσης Internet 1

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

HY118- ιακριτά Μαθηµατικά. Παράδειγµα. Από τα συµπεράσµατα στις υποθέσεις Αποδείξεις - Θεωρία συνόλων. Από τις υποθέσεις στα συµπεράσµατα...

10 ΥΠΗΡΕΣΙΕΣ ΣΤΗΡΙΞΗΣ & ΑΝΑΠΤΥΞΗΣ ΤΗΣ ΕΞΩΣΤΡΕΦΕΙΑΣ

ανοιχτά γλωσσικά δεδομένα: η υποδομή γλωσσικών πόρων και υπηρεσιών clarin:el

Η ΜΕΣΩ ΜΕΤΑΦΡΑΣΗΣ ΕΠΙΚΟΙΝΩΝΙΑ Φρειδερίκη ΜΠΑΤΣΑΛΙΑ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Ελένη ΣΕΛΛΑ Ιόνιο Πανεπιστήμιο, Κέρκυρα

Ο υπολογιστής ως υποστηρικτικό εργαλείο

AquaLingua. Οδηγός Χρήσης

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Πρόγραμμα Μεταπτυχιακών Σπουδών Π.Τ.Δ.Ε. Παν/μίου Κρήτης «Επιστήμες Αγωγής»

Επιλεγμένο εκπαιδευτικό υλικό, καθολικά σχεδιασμένο για μαθητές με αναπηρία. ΕΛΛΗΝΟΓΕΡΜΑΝΙΚΗ ΑΓΩΓΗ Παλλήνη,

Σωφρόνης Χατζησαββίδης. Οι σύγχρονες κριτικές γλωσσοδιδακτικές προσεγγίσεις στη διδασκαλία της γλώσσας ως δεύτερης και ξένης

ΜΕΡΟΣ Β. Βιογραφικά Είδη

Από την Α Λυκείου µέχρι το Πανεπιστήµιο

Επιµέλεια Θοδωρής Πιερράτος

Ενέργεια. Εκφρασµένη µε λέξεις.

ΠΡΟΓΡΑΜΜΑ ΑΝΑΜΟΡΦΩΣΗΣ ΠΡΟΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

Διαχείριση Πολιτισμικών Δεδομένων

Γνωριµία µε τη Microsoft Access

Θεώρηµα: Z ( Απόδειξη: Περ. #1: Περ. #2: *1, *2: αποδεικνύονται εύκολα, διερευνώντας τις περιπτώσεις ο k να είναι άρτιος ή περιττός

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

Γενικά. ιάρκεια Σπουδών. Σύνολο διδακτικών µονάδων ( Μ) Σύνολο Μαθηµάτων

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Transcript:

Σώµατα κειµένων: Αρχές και µέθοδοι Η ανάγκη όσων µελετούν µια γλώσσα να αντλούν πληροφορίες για αυτή από εµπειρικά δεδοµένα είναι σύµφυτη µε τον επιστηµονικό χαρακτήρα της γλωσσολογίας. Όπως κάθε επιστήµη, έτσι και η γλωσσολογία βασίζεται για τις θεωρίες και τις υποθέσεις της σε άµεσα προσβάσιµα γλωσσικά δεδοµένα, τα οποία προσφέρουν σε όλους/ες τη δυνατότητα ελέγχου (επιβεβαίωσης ή διάψευσης). Ωστόσο, στη διάρκεια του 20ού αιώνα επικράτησαν γλωσσολογικές αντιλήψεις, σύµφωνα µε τις οποίες η διαίσθηση των φυσικών οµιλητών/τριών µιας γλώσσας ήταν επαρκής για να στηριχθεί µια γλωσσολογική υπόθεση. Οι αντιλήψεις αυτές άρχισαν να υποχωρούν όταν µε την ευρεία χρήση των προσωπικών ηλεκτρονικών υπολογιστών δόθηκε η δυνατότητα για αποθήκευση, ταχύτατη ανάκληση και επεξεργασία τεράστιου όγκου γλωσσικών πληροφοριών. Έτσι, µια από τις πιο σύγχρονες γλωσσολογικές µεθόδους βασίζεται σε συλλογές µεγάλου αριθµού κειµένων, αποθηκευµένων σε ηλεκτρονική µορφή και επεξεργάσιµων µε υπολογιστικά εργαλεία, τα οποία ονοµάζονται σώµατα κειµένων. Τα σώµατα κειµένων επιτρέπουν να εξαγάγουµε πληροφορίες για τη γλώσσα από δεδοµένα που είναι: - εµπειρικά: δεν βασίζονται σε εικασίες ή τη διαίσθηση του/της ερευνητή/τριας, αλλά προέρχονται από την «εξωτερική» πραγµατικότητα - αυθεντικά: δεν προέρχονται από πειραµατικές συνθήκες ή άλλες τεχνητές συνθήκες, αλλά από την αυθόρµητη (προφορική και γραπτή) παραγωγή λόγου των οµιλητών/τριών µιας γλώσσας - συστηµατικά: έχουν συλλεγεί µε βάση συγκεκριµένα κριτήρια και αρχές και όχι µε τυχαίο ή ανεκδοτολογικό τρόπο - κειµενικά: περιλαµβάνουν ολόκληρα κείµενα ή τµήµατα κειµένων και δεν περιορίζονται σε µεµονωµένες λέξεις ή προτάσεις - εκτεταµένα: διαθέτουν µεγάλο όγκο και δεν περιορίζονται σε λίγα παραδείγµατα. Όπως λέει ο Sinclair, ένας από τους πρωτοπόρους στον χώρο, «η γλώσσα φαίνεται πολύ διαφορετική όταν κοιτάς ένα µεγάλο κοµµάτι της ταυτόχρονα» (1991: 100). Συνοψίζοντας τα χαρακτηριστικά αυτά, ο Sinclair (1996) ορίζει ως σώµα κειµένων κάθε «συλλογή τµηµάτων µιας γλώσσας τα οποία επιλέγονται και διατάσσονται σύµφωνα µε συγκεκριµένα γλωσσολογικά κριτήρια, έτσι ώστε να µπορούν να χρησιµοποιηθούν ως αντιπροσωπευτικό δείγµα της γλώσσας αυτής».

Ειδικότερα, θεωρεί ότι το ηλεκτρονικό σώµα κειµένων είναι «κατάλληλο για ηλεκτρονική χρήση, ειδικά κωδικοποιηµένο για τυποποιηµένες και οµοιογενείς εργασίες ανάκτησης γλωσσικών πληροφοριών». Παρόµοιος είναι ο ορισµός του σώµατος κειµένων από τον Sampson (2001: 6) ως «εκτεταµένου δείγµατος αυθεντικής χρήσης της υπό εξέταση γλώσσας, που συγκροτείται και χρησιµοποιείται ως πηγή στοιχείων για την παραγωγή ή εξέταση υποθέσεων για τη φύση της γλώσσας». Μια βασική έννοια που εισάγει ο Sinclair στον παραπάνω ορισµό είναι εκείνη της αντιπροσωπευτικότητας: κάθε σώµα κειµένων πρέπει να δίνει µια αντιπροσωπευτική εικόνα της γλώσσας (ή της ποικιλίας της γλώσσας) που συλλέγεται. Είναι δύσκολο να καθορίσουµε µε ακρίβεια τι σηµαίνει αντιπροσωπευτικότητα, δηλαδή να έχουµε εκ των προτέρων ένα µέτρο για το πόσα και ποια κείµενα είναι απαραίτητο να συλλέξουµε. Το βασικό στην έννοια αυτή είναι η έµφαση που δίνει στην όσο το δυνατόν µεγαλύτερη ποικιλία κειµένων και κειµενικών ειδών, στην ισορροπία των αναλογιών µεταξύ τους και στην αυθεντικότητα των δεδοµένων που συλλέγονται. Επιπλέον, από την παραδοχή ότι ένα σώµα κειµένων είναι αντιπροσωπευτικό προκύπτει ότι τα συµπεράσµατα που εξάγονται από αυτό ισχύουν, τηρουµένων των αναλογιών, για όλη τη γλώσσα ή τη γλωσσική ποικιλία που περιέχει το σώµα κειµένων. Ταυτόχρονα, ο Sampson στον δικό του ορισµό παραπάνω δίνει έµφαση στο γεγονός ότι το αποθηκευµένο ηλεκτρονικά σώµα κειµένων δεν παράγει «γεγονότα» για τη γλώσσα, αλλά προσφέρει τη βάση για τη δηµιουργία υποθέσεων από τον/την ερευνητή/τρια, που µπορεί να οδηγήσουν στην εξαγωγή επαληθευµένων συµπερασµάτων. Εποµένως, η παρέµβαση του/της γλωσσολόγου είναι απαραίτητη, τόσο στη διαµόρφωση των ερευνητικών ερωτηµάτων όσο και στην αξιολόγηση των ευρηµάτων που προκύπτουν. Από τις βασικές αυτές αρχές συνάγεται ότι το είδος των δεδοµένων που εξάγονται από την ανάλυση των ηλεκτρονικών σωµάτων κειµένων εξαρτάται άµεσα από τη σύστασή τους. Από το πρώτο ηλεκτρονικό σώµα κειµένων, το λεγόµενο Brown Corpus, έως σήµερα έχει αναπτυχθεί πλήθος πολλών και διαφορετικών σωµάτων κειµένων σε πολλές γλώσσες του κόσµου. Πιο γνωστά σώµατα κειµένων για τα Αγγλικά είναι το British National Corpus (BNC) και το Bank of English, που ξεπερνούν τα 100 εκατοµµύρια λέξεις, προσπαθώντας να δώσουν µια ευρεία εικόνα του συνόλου της αγγλικής γλώσσας. Αυτά τα σώµατα κειµένων αποτέλεσαν τη βάση γλωσσικής έρευνας και εφαρµογών (π.χ. βιβλία αναφοράς όπως λεξικά, γραµµατικές

κλπ.), ενώ σήµερα ανάλογα σώµατα κειµένων ξεπερνούν το 1 δισεκατοµµύριο λέξεις (Cambridge International Corpus, Oxford English Corpus). Αντίστοιχη ήταν η ανάπτυξη των σωµάτων κειµένων και στις άλλες µείζονες γλώσσες, αν και µε σχετική καθυστέρηση σε σχέση µε τα Αγγλικά. Στο Πλαίσιο 1 παρουσιάζεται µια επιλογή σωµάτων κειµένων µε τις ιστοσελίδες τους στο διαδίκτυο, όπου µπορούν να αναζητηθούν περισσότερες πληροφορίες. Πλαίσιο 1: Ηλεκτρονικά σώµατα κειµένων σε ευρωπαϊκές γλώσσες Αγγλικά: Bank of English Corpus British National Corpus (BNC) Cambridge International Corpus International Corpus of English (ICE) Oxford English Corpus Γαλλικά: Corpus de Référence du Français parlé Artfl Frantext Γερµανικά: Mannheimer Corpora Ιταλικά: Βanca dati dell'italiano parlato Ipercorpus Ισπανικά: Mark Davies Corpus Del Español Corpus Oral De Referencia Del Español Corpus Diacronico (Real Academia) Ιστοσελίδα http://www.titania.bham.ac.uk/ http://www.natcorp.ox.ac.uk/ http://www.cup.cam.ac.uk/gr/elt/catalogue/subject/ item2701617/cambridge-international-corpus http://ice-corpora.net/ice/ http://www.oxforddictionaries.com/page/oec http://sites.univ-provence.fr/delic/corpus/index.html http://artfl-project.uchicago.edu/content/artflfrantext http://www.ids-mannheim.de/kl/corpora.html http://languageserver.uni-graz.at/badip/ http://culturitalia.uibk.ac.at/kic-index.htm http://www.corpusdelespanol.org http://www.lllf.uam.es/corpus/corpus.html http://corpus.rae.es/cordenet.html Στα Ελληνικά, τα πρώτα ηλεκτρονικά σώµατα κειµένων εµφανίζονται στη δεκαετία του 80 και περιλαµβάνουν παλαιότερα λογοτεχνικά έργα (π.χ. κρητική λογοτεχνία, αποµνηµονεύµατα του Μακρυγιάννη), ενώ το 1994 οι Goutsos κ.ά. διαπιστώνουν ότι, αν και υπάρχουν αρκετά σχετικά ερευνητικά προγράµµατα, τα σώµατα κειµένων είτε δεν χρησιµοποιούνται καθόλου στη γλωσσική έρευνα είτε δεν έχουν αξιοποιηθεί πλήρως. Στη δεκαετία του 1990 εµφανίζονται τα δύο µεγαλύτερα ηλεκτρονικά σώµατα κειµένων της Ελληνικής, ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ), που περιλαµβάνει 40 εκατοµµύρια λέξεις, κυρίως από εφηµερίδες, και το Σώµα Ελληνικών Κειµένων (ΣΕΚ), που περιέχει 30 εκατοµµύρια λέξεις από µια πιο ισορροπηµένη ποικιλία κειµενικών ειδών (βλ. Γούτσος 2003, Goutsos 2010). (Bλ. Πλαίσιο 2).

Εθνικός Θησαυρός Ελληνικής Γλώσσας (ΕΘΕΓ) Σώµα Ελληνικών Κειµένων (ΣΕΚ) Πύλη για την Ελληνική Γλώσσα Πανεπιστήµιο Αθηνών Πλαίσιο 2: Ηλεκτρονικά σώµατα κειµένων της Ελληνικής 40 εκατ. λέξεις, κυρίως από εφηµερίδες 30 εκατ. λέξεις, διάφορα κειµενικά είδη σώµατα κειµένων από εφηµερίδες και σχολικά εγχειρίδια σώµατα κειµένων για τη διδασκαλία και την εκµάθηση της Ελληνικής ως ξένης γλώσσας http://hnc.ilsp.gr/subcorpus.asp# http://www.sek.edu.gr http://www.greek-language.gr/ greeklang/modern_greek/index.html http://greekcorpora.isll.uoa.gr/gr/ Default.aspx Εκτός από αυτά τα γενικά σώµατα κειµένων, τα οποία περιλαµβάνουν κείµενα και κειµενικά είδη από το σύνολο της γλώσσας, επιδιώκοντας να αποτελέσουν σώµατα κειµένων αναφοράς (reference corpora) για όλη τη γλώσσα, έχει αναπτυχθεί ένα πλήθος µικρότερων, εξειδικευµένων ηλεκτρονικών σωµάτων κειµένων για ειδικές γλωσσικές ποικιλίες ή ειδικούς σκοπούς. Έτσι, κάποια σώµατα κειµένων συλλέγουν δεδοµένα από ορισµένη ηλικιακή οµάδα (π.χ. το CHILDES Corpus από την παιδική γλώσσα ή το COLT από την προφορική γλώσσα των εφήβων), από ένα πεδίο του λόγου (λ.χ. το Michigan Corpus of Academic Spoken English), από τη διαχρονία της γλώσσας (π.χ. Helsinki Corpus) κ.ά. Τέλος, τα κείµενα που αποθηκεύονται στα σώµατα κειµένων είναι συνήθως κωδικοποιηµένα για ορισµένα χαρακτηριστικά ή µεταδεδοµένα, όπως το έτος συγγραφής, στοιχεία των συγγραφέων ή των οµιλητών/τριών, κειµενικό είδος και υποείδος κλπ. Ορισµένα σώµατα κειµένων είναι επιπλέον και χαρακτηρισµένα (annotated), περιέχουν δηλαδή πληροφορίες για τον χωρισµό παραγράφων, τα διάφορα κειµενικά µέρη (τίτλοι κλπ.), την αλλαγή οµιλητών κ.ά. ή και επισηµειωµένα (tagged), δηλαδή περιέχουν πληροφορίες για τη γραµµατική κατηγορία στην οποία ανήκουν όλες οι λέξεις των κειµένων. Βασικά µεθοδολογικά εργαλεία για την ανάλυση και την επεξεργασία των δεδοµένων που περιλαµβάνονται στα ηλεκτρονικά σώµατα κειµένων είναι οι κατάλογοι συχνότητας λέξεων, οι συµφραστικοί πίνακες (concordances) και τα συµφραστικά πλαίσια. Tο Πλαίσιο 3 παρουσιάζει µια επιλογή από υπολογιστικά προγράµµατα που διατίθενται για τους σκοπούς της ανάλυσης.

Πλαίσιο 3: Εργαλεία ανάλυσης σωµάτων κειµένων Monoconc ειδικευµένο λογισµικό http://www.monoconc.com/ Wordsmith ειδικευµένο λογισµικό http://www.lexically.net/wordsmith/ Tools Paraconc πολύγλωσσα σώµατα κειµένων http://www.paraconc.com/ Antconc ελεύθερο λογισµικό http://www.antlab.sci.waseda.ac.jp/ antconc_index.html ConcApp ελεύθερο λογισµικό http://www.edict.com.hk/pub/concapp/ Sketch Engine ειδικευµένο για τη http://www.sketchengine.co.uk/ λεξικογραφία WebCorp για αναζήτηση στο διαδίκτυο http://www.webcorp.org.uk/ Στον Πίνακα 1 παρουσιάζεται ένας κατάλογος µε τις πιο συχνές λέξεις σε 28 εκατοµµύρια λέξεις του ΣΕΚ: Σειρά Λέξη Συχνότητα Ποσοστό % 1 και 963.280 3,41 2 του 625.351 2,49 3 το 588.223 2,20 4 να 565.740 2,03 5 της 529.597 1,95 6 η 455.343 1,86 7 την 436.917 1,57 8 που 382.458 1,42 9 µε 375.649 1,40 10 από 335.973 1,26 11 των 317.900 1,18 12 για 312.804 1,17 13 ο 293.353 1,10 14 τα 285.829 1,09 15 είναι 248.907 0,93 16 σε 235.302 0,87 17 οι 220.451 0,80 18 θα 207.441 0,78 19 τους 198.279 0,75 20 τη 196.015 0,72 21 στο 195.193 0,71 22 δεν 192.624 0,71 23 στην 190.424 0,71 24 τον 175.947 0,65 25 ότι 162.005 0,61 Πίνακας 1: Κατάλογος συχνότερων λέξεων στο ΣΕΚ (28 εκατ.) Πληροφορίες από καταλόγους συχνότητας όπως αυτός του Πίνακα 1 µπορούν να αξιοποιηθούν µε διάφορους τρόπους στη γλωσσική έρευνα, καθώς προσφέρουν µια

εκτίµηση των περισσότερο και λιγότερο σηµαντικών στοιχείων για τη γλώσσα και της σχέσης µεταξύ τους. Στον Πίνακα 2 περιλαµβάνεται ένας συµφραστικός πίνακας µε είκοσι επιλεγµένες σειρές του τύπου ξεχνάµε. Όπως µπορούµε να δούµε, ο συµφραστικός πίνακας περιλαµβάνει την υπό εξέταση λέξη ή κοµβική λέξη στο κέντρο, ενώ αριστερά και δεξιά δίνονται οι λέξεις µε τις οποίες συνεµφανίζεται, τα στενά της δηλαδή συµφραζόµενα. Στον συγκεκριµένο πίνακα οι σειρές έχουν διαταχθεί αλφαβητικά µε βάση την πρώτη λέξη στα αριστερά της κοµβικής λέξης, ενώ περιλαµβάνεται στα δεξιά και µια στήλη µε κωδικοποιηµένο το κειµενικό είδος από το οποίο προέρχεται κάθε σειρά. 1 στο τραυµατικό γεγονός. Γιατί ξεχνάµε τα όνειρά µας; Όπως κ ΛΟΓΟΤ 2 υνδυασµός // Άλλωστε εµείς δεν ξεχνάµε ότι τα Γιάννινα ήταν ΛΟΓΟΤ 3 ακρινή Κόρντοβα, αυτήν που δεν ξεχνάµε - εκείνη που αγαπήσαµ ΕΝΗΜΕΡ 4 από 30 χρόνια στο Μόναχο. εν ξεχνάµε την τραγωδία και γι'α ΕΝΗΜΕΡ 5 ο, τα λόγια και οι εκδηλώσεις; Ξεχνάµε ποια ήταν η κυβέρνηση ΛΟΓΟΤ 6 φαινόµενο" Φαίνεται ότι εύκολα ξεχνάµε ότι ο ίδιος αέρας κυκ ΑΚΑ ΗΜ 7 (σαρδάµ). Είµαστε αφηρηµένες ή ξεχνάµε τις υποχρεώσεις µας. ΕΝΗΜΕΡ 8 σία. "Κρατάµε την πρόκριση και ξεχνάµε την εµφάνιση", δήλωσε ΑΡΘΡ.ΓΝ 9 σµού και ξεχνάµε θέλουµε και ξεχνάµε πως τη συγκεκριµένη ΕΙ ΗΣ 10 η πόλη µας, η Αθήνα. Γιατί µη ξεχνάµε ποτέ ότι η Αθήνα είνα ΠΡΟΦΟΡ 12 σία, συντροφιά, όλα. Και ας µη ξεχνάµε πάντα ότι η ανάγνωση ΝΟΜΙΚ 13 ι της µειονότητας. Αλλά, ας µη ξεχνάµε ότι η Συνθήκη της Λωζ ΑΡθΡ.ΓΝ 14 ν εξυπηρετείται η περιοχή. Μην ξεχνάµε ότι είναι µια περιοχή ΛΟΓΟΤ 15 ννησης, θανάτου, κ.λ.π. Ας µην ξεχνάµε όµως, τουλάχιστον τα ΑΚΑ ΗΜ 16 µοκρατικών ενεργειών. ( Ας µην ξεχνάµε ότι στις αρχές του 20 ΕΝΗΜΕΡ 17 ο οποίο σηµαίνει λόφος. Ας µην ξεχνάµε ότι και το χωριό πάνω ΑΚΑ ΗΜ 18 ης Αµερικής. Έχουµε αρχίσει να ξεχνάµε τον παραδοσιακό τρόπο ΕΝΗΜΕΡ 19 υµπιάδας. εν πρέπει, όµως, να ξεχνάµε και τη στενή διαπλοκή ΑΡΘΡ.ΓΝ 20 οµίζουµε. εν πρέπει πάντως να ξεχνάµε ότι η εικόνα του σκλη ΑΚΑ ΗΜ Πίνακας 2: Συµφραστικός πίνακας του ξεχνάµε στο ΣΕΚ (επιλογή) Οι συµφραστικοί πίνακες προσφέρουν τις περισσότερες γλωσσικές πληροφορίες για µια λέξη (ή φράση, εφόσον αναζητήσουµε µια ολόκληρη φράση), καθώς επιτρέπουν να εντοπίσουµε τις λέξεις µε τις οποίες συνεµφανίζεται, δηλαδή τις συνάψεις της. 1 Επιτρέπουν επίσης να διαπιστώσουµε τις άµεσες συνταγµατικές σχέσεις της λέξης (ή φράσης), δηλαδή τα ευρύτερα δοµικά σύνολα στα οποία χρησιµοποιείται. Επιπλέον, µπορούµε να διακρίνουµε τα περισσότερο σηµαντικά δοµικά σχήµατα στη χρήση 1 Για µεγαλύτερη ανάλυση και θεωρητική τοποθέτηση των σχετικών όρων, βλ. Γούτσος (2006).

µιας λέξης (ή φράσης) από χρήσεις που εµφανίζονται ελάχιστες φορές και γι αυτόν τον λόγο κρίνονται περιθωριακές. Γούτσος,. (2006). Ανάπτυξη λεξιλογίου-από το βασικό στο προχωρηµένο επίπεδο. Στο Γούτσος,., Σηφιανού, Μ. & Α. Γεωργακοπούλου Η ελληνική ως ξένη γλώσσα: Από τις λέξεις στα κείµενα. Αθήνα: Πατάκης, 13-92.