Σώματα Κειμένων & Λεξιλογική Σημασιολογική Πληροφορία - Ι.Ε. Σαριδάκης
Σώματα Κειμένων & Λεξιλογική Σημασιολογική Πληροφορία «Καλημέρα σας, είμαι ο Δρ. James Murray, της Φιλολογικής Εταιρείας του Λονδίνου, και υπεύθυνος σύνταξης του Oxford English Dictionary. Είναι τιμή και χαρά μου που επί τέλους σας γνωρίζω, καθώς, Εσείς, κύριε, πρέπει να είστε ο πιο επιμελής βοηθός μου, τα τελευταία είκοσι χρόνια. Ο Δρ. W.C. Minor να υποθέσω;» Λυπάμαι κύριε. Δεν είμαι αυτός που υποθέτετε. Είμαι ο Διευθυντής του Ασύλου Φρενοβλαβών Εγκληματιών του Broadmoor. Ασφαλώς, ο Δρ. Minor βρίσκεται εδώ. Αλλά είναι τρόφιμος του Ασύλου μας. Νοσηλεύεται περισσότερο από είκοσι χρόνια, και είναι ο παλαιότερος τρόφιμός του». (Στιγμιότυπο από την εβδομηντάχρονη ιστορία του OED, αλλά και τα 6.000.000 εκατ. λεξικογραφικά δελτία ώς την πρώτη έκδοσή του...) (Winchester 2005: vii, 103, 109). 2/20
Σώματα Κειμένων & Λεξιλογική Σημασιολογική Πληροφορία Σώματα Κειμένων: «Γενεσιουργά αίτια» Ανάγκη για πληροφορίες από συγκεκριμένα δεδομένα Πληροφόρηση από τη γλώσσα εν χρήσει - πώς γράφεται, μιλιέται, διαβάζεται Φυγή από τη διαισθητική, «φανταστική» θεώρηση της γλώσσας, εμπειρική διερεύνηση μέσω πραγματικών δειγμάτων χρήσης Συνειδητοποίηση του συστημικού χαρακτήρα (κανονικότητας) της γλώσσας και των γλωσσικών πράξεων, (σημειωτική) κοινωνιολόγηση του λόγου (Halliday) Ταξινομική, κατηγοριοποιητική προσέγγιση με στόχο την ερμηνεία του γλωσσικού φαινομένου Περιγραφική [descriptive] θεώρηση της γλώσσας (αντί της κανονιστικής [prescriptive]) 3/20
Σώματα Κειμένων & Λεξιλογική Σημασιολογική Πληροφορία Corpus - Corpora Αυθεντικά κειμενικά δεδομένα: μη πειραματικά, από πραγματικές πράξεις ομιλίας και γραφής, κοινωνιογλωσσικώς χαρακτηρισμένες Συστηματικά (δομικά) δεδομένα: τα δομικά στοιχεία της γλώσσας μπορούν να αξιολογηθούν μόνον μέσα στα κείμενα (κατά τεκμήριο αυτάρκεις και συνεκτικές μονάδες νοήματος εντός κοινωνικού περιβάλλοντος) Εκτεταμένα γλωσσικά δεδομένα: Η γλώσσα μοιάζει εντελώς διαφορετική όταν εξετάζουμε μεγάλα κομμάτια της ταυτόχρονα (Sinclair) Γλωσσικά δεδομένα σε ηλεκτρονική μορφή: ΗΣΚ, (Μεθοδολογία/ες) Γλωσσολογίας Σωμάτων Κειμένων (Corpus Linguistics) Neo-Firthian Linguistics (Attested [linguistic] data) Δεν υφίσταται θεωρία ανεξάρτητα από τα εμπειρικά δεδομένα Η γενική μεθοδολογική πορεία είναι σαφής: η παρατήρηση οδηγεί σε υπόθεση, η υπόθεση σε γενίκευση και η γενίκευση σε ενιαία θεωρητική πρόταση 4/20
Τυπολογία ΣΚ, κύρια περιγραφικά μοντέλα Εξωτερικά κατηγοριοποιητικά/ταξινομικά κριτήρια περιγραφής του κειμενικού υλικού Υπόθεση (και επιδίωξη): τα μεταδεδομένα σχετίζονται με τα ενδοκειμενικά (μικρο) δεδομένα: εσωτερικά (ενδογλωσσικά) κριτήρια περιγραφής βάσει των εμπειρικώς αναλυόμενων κειμενικών ενοτήτων στο εκάστοτε ΣΚ Τυπολογία, πολλαπλές προσεγγίσεις Βάσει χρονικότητας, καθολικότητας, πλήθους (και κατευθύνσεων) γλωσσών, αντιπροσωπευτικότητας, τυπικότητας αναφοράς, μεγέθους, σχολιασμού, κ.ο.κ. (Συνήθως) ΣΚ «γενικής» γλώσσας (ΣΚ αναφοράς), εξειδικευμένα ΣΚ, (στις μεταφραστικές/διαγλωσσικές σπουδές) παράλληλα, συγκρίσιμα, μεικτά 5/20
Λεξική σημασιολογία: Λεξικολογία, Ορολογία Λεξικογραφία και Σώματα Κειμένων: σχέση άρρηκτη και αναντίρρητη Λεξική σημασιολογία και ΣΚ Το λέξημα δεν είναι η αποκλειστική (ή ακόμη και η κύρια) μονάδα νοήματος, εξ ίσου και οι παραδειγματικές σχέσεις (Saussure) Εξίσου σημαντική η συν-δηλωτική σημασία (connotative meaning), η σημασία που προκύπτει μέσω των παραθετικών τύπων και σχημάτων (meaning by collocation): «σημασία στο συνταγματικό επίπεδο του λόγου» (Firth 1957) Δύο (κύριοι, συμπληρωματικοί) άξονες προσέγγισης (Pustejovsky et al. 1993: 332) Στατιστική παραθετική πληροφορία (collocational analysis), μη γραμμικότητα μονάδων λεξικής σημασίας (Sinclair) Σημασιολογική θεωρία (word sense relations: πολυσημία, ομωνυμία, συνωνυμία, αντωνυμία, υπωνυμία/υπερωνυμία, σημασιολογικό πεδίο, qualia) 6/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Κατάλογοι λέξεων, λεξικοί τύποι και δείγματα (wordlists, types and tokens) 7/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Συμφραστικός πίνακας (κόμβος/node) You shall know a word by the company it keeps (Firth 1957: 11) 8/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Συνήθη συμπλέγματα (clusters, n-grams) Παραδειγματικός/ συνταγματικός άξονας 9/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Παραθετικά σχήματα, (σημασιακή) προσωδία, συνεννοιολόγηση (collocation, semantic prosody, semantic affinity) κόμβος τρομοκρατία 10/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Συνταγματικές σχέσεις (αντιβολή) Κείμενο Διεθνούς Δικαίου, ΣΚ αναφοράς (ΣΕΚ) κόμβος τρομοκρατία, συμφραστικοί πίνακες (concordances) 11/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Εκτεταμένες λεξικές μονάδες (Sinclair 1998, Stubbs 2000) - Μεθοδολογία μη αυτόματης, ερμηνευτικής ανάλυσης Εντοπισμός λέξεων πριν και μετά από τον κόμβο, απομόνωση του πλέον δυναμικού μοντέλου (pattern) Ερμηνεία: διατύπωση υπόθεσης για τον τρόπο/λόγο σύνδεσης των επαναλαμβανόμενων λεξημάτων Συγκερασμός: αναζήτηση στο ΣΚ και άλλων στοιχείων που στηρίζουν την υπόθεση εργασίας, επεκτείνοντας το φάσμα της λεξικής αναζήτησης Έκθεση: διατύπωση τελικής υπόθεσης εργασίας μετά από εξέταση όλων των μοντέλων Επανάληψη: έλεγχος των υπολοίπων μοντέλων κοντά στον κόμβο κατά σειρά σπουδαιότητας και ερμηνεία, συγκερασμός έκθεση Συμπέρασμα: καταγραφή έκθεσης για τον μελετηθέντα κόμβο (Σαριδάκης 2010) 12/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Σημασιολογικό προφίλ (Word Sketches) κόμβος τρομοκρατία, το Web ως Σώμα Κειμένων (Kilgarriff et al. 2003). 13/20
ΓΣΚ: Κύρια εργαλεία & εμπειρικές μέθοδοι Γλωσσολογικός σχολιασμός (annotation) π.χ., ταξινομικές κατηγορίες, author's stance, textual traits (genre) (Halliday), ὴ άλλο γλωσσολογικό φαινόμενο σχετικό με τις λεξικές σημασίες (ενδογλωσσικά, διαγλωσσικά) Στιγμιότυπο σχολιασμού λεξιλογικής παρεμβολής (LEXINT) (Σαριδάκης 2012) 14/20
Κειμενική σημασιολογία & Λεξικομετρία HNC Σημασιακό - νοηματικό φορτίο κατά είδος, κοινωνιογλωσσική ομάδα, θεματική περιοχή, κ.ο.κ. Λεξική πυκνότητα (lexical density) LD = 100 x L/N Λεξική πυκνότητα ΣΚ (LD) (Σαριδάκης 2013) 53.00 FLOB.P 54.99 FLOB.K 54.99 FROWN.R 55.19 FLOB.L 55.40 FROWN.K 55.62 FROWN.P 55.82 FLOB.N 56.18 FROWN.L 56.64 FROWN.N 57.27 FROWN.M 57.31 FLOB.M 57.53 Cassese_Total 57.57 FLOB.D 57.83 FLOB.R 58.99 FLOB.G 59.02 FROWN.G 59.24 FROWN.D 59.54 FLOB.F 59.93 FLOB.H FLOB.B1 FROWN.F 60.51 Lexical Density (LD) Measures 60.65 61.45 FLOB.C 61.60 FLOB.J 61.67 FLOB.E 61.69 FROWN.C 62.17 FROWN.B1 62.17 DASCI.C1 62.33 FLOB.A 62.68 DASCI.A 62.91 FROWN.E 63.08 FROWN.J 63.33 FROWN.A 63.67 FROWN.H 63.71 DASCI.B1 63.77 DASCI.C3 64.96 DASCI.B3 65.51 DASCI.C4 66.01 DASCI.B4 66.03 DASCI.B2 66.08 DASCI.C2 0.00 15/20 69.75 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00
Κειμενική σημασιολογία & Λεξικομετρία Σημασιακό - νοηματικό φορτίο κατά είδος, κοινωνιογλωσσική ομάδα, θεματική περιοχή, κ.ο.κ. Τύποι προς δείγματα (TTR), Standardised TTR (STTR) 50 40 30 20 10 TTR% STTR Logarithmic (STTR) Ch02 Ch04 Ch06 Ch08 Ch10 Ch12 Ch14 Ch16 Ch18 Ch20 Ch22 Ch24 Ch01 Ch03 Ch05 44.00 Ch07 45.00 Ch0946.00Ch11 Ch17 51.00 Ch19 52.00 Ch21 Ch23 43.00 47.00 Ch13 48.00 Ch15 49.00 50.00 TTR, STTR ΣΚ (αντιβολή) (Σαριδάκης 2013) Logarithmic (TTR%) 0 Sub-corpus 60 FLOB.G Cass.Ch20 Cass.Ch14 Cass.Ch16 FROWN.F Cass.Ch08 Cass.Ch19 FLOB.E Cass.Ch07 FROWN.A Cass.Ch01 Cass.Ch24 FROWN.B1 FLOB.R FLOB.A FLOB.B1 FLOB.M Cass.Ch02 FLOB.C FROWN.C 45.95 46.14 46.14 46.16 46.18 46.24 46.27 46.31 46.60 47.26 47.49 47.61 47.90 48.20 48.24 48.53 48.73 49.91 50.27 50.66 43.00 44.00 45.00 Ι.Ε. Σαριδάκης, ΕΚΠΑ 46.00 47.00 STTR 48.00 49.00 50.00 51.00 52.00 16/20
Κειμενική σημασιολογία & Λεξικομετρία Σημασιακό - νοηματικό φορτίο κατά είδος, κοινωνιογλωσσική ομάδα, θεματική περιοχή, κ.ο.κ. Καμπύλη TTR (Youmans 1990) Cassese Mazis OECD Kasdaglis 60 50 40 TTR % 70 30 20 10 0 10 20 30 40 50 60 70 80 90 100 % of text (35K words ) TTR curve (αντιβολή, n=0.7k w-step) (Σαριδάκης 2013) 17/20
Κειμενική σημασιολογία & Λεξικομετρία Σημασιακό - νοηματικό φορτίο κατά είδος, κοινωνιογλωσσική ομάδα, θεματική περιοχή, κ.ο.κ. 10000 9000 Διάγραμμα αύξησης λεξιλογίου (types) Cassese Types Kasdaglis Types Mazis Types OECD Types 8000 7000 Types 6000 5000 4000 3000 2000 1000 0 10 20 30 40 50 60 70 80 90 % of text (35K words) Type curves (αντιβολή, n=0.7k w-step) (Σαριδάκης 2013) 18/20 100
Λεξιλόγιο, σημασίες & Παράλληλα ΣΚ «Παράλληλα» κείμενα ΚΠ1 ΚΣ1, ΚΠ2 ΚΣ2,... ΚΠν ΚΣν Κ1 Κ2 Κ3... Κν Στήλη της Ροζέττας, 196 π.χ. Διάταγμα στην Αιγυπτιακή (ιερογλυφικά, δημώδης Αιγυπτιακή), Ελληνική Παράλληλα κείμενα του Ευρ. Κοινοβουλίου (OPUS interface: Tiedemann 2011) 19/20
Αναφορές, γλωσσικοί πόροι & εφαρμογές Firth, J.R. 1957. Papers in Linguistics. London: OUP. Halliday, M.A.K. 1978. Language as Social Semiotic. London: Arnold. Kilgarriff, A., Grefenstette, G. 2003. Web as Corpus - Introduction to the Special Issue on the Web as Corpus Computational Linguistics. 26:3, 333-347. Pustejovsky, J., Segler, S., Anick, P. 1993. Lexical Semantic Techniques for Corpus Analysis Computational Linguistics. 19:2, 331-358. Saussure, F. de. 1916 [1995]. Cours de Linguistique Générale. Paris: Payot. Sinclair, J. 2004. Trust the Text. London: Routledge. Stubbs, M. 2002. Words and Phrases. Corpus Studies of Lexical Semantics. Malden, MA: Blackwell. Tiedemann, J. 2011. Bitext Alignment. San Fransisco: Morgan & Claypool. Winchester, Simon. 2005. The Professor and the Madman. London: HarperCollins. Youmans, G. 1990. Measuring Lexical Style and Competence: The Type-Token Vocabulary Curve Style. 24, 584-599. Γούτσος, Δ. 2003. Σώμα Ελληνικών Κειμένων: Σχεδιασμός και Υλοποίηση 6ο Διεθνές Συνέδριο Ελληνικής Γλωσσολογίας. Ρέθυμνο: Πανεπιστήμιο Κρήτης. Μικρός, Γ. 2009. Η Ποσοτική Ανάλυση της Κοινωνιογλωσσολογικής Ποικιλίας. Θεωρητικές και Μεθοδολογικές Προσεγγίσεις. Αθήνα: Μεταίχμιο. Μότσιου, Β. 1994. Στοιχεία Λεξικολογίας. Εισαγωγή στη Νεοελληνική Λεξικολογία. Αθήνα: Νεφέλη. Σαριδάκης, Ι.Ε. 2010. Σώματα Κειμένων και Μετάφραση. Θεωρία και Εφαρμογές. Αθήνα: Παπαζήσης. Σαριδάκης, Ι.Ε. 2012. Παρεμβολή και αύξουσα τυποποίηση στη μετάφραση ειδικών επιστημονικών κειμένων: Προς ένα Πιθανολογικό Περιγραφικό-Ερμηνευτικό Μοντέλο της Μεταφραστικής Επιτέλεσης στα Ειδικά Κείμενα In Z. Gavriilidou, A. Efthymiou, E. Thomadaki & P. Kambakis-Vougiouklis (eds), Selected papers of the 10th ICGL, pp. 1110-1127, Komotini: Democritus University of Thrace. Σαριδάκης, Ι.Ε. 2013. Ειδική Μετάφραση: Δύο εμπειρικές μελέτες υπό το πρίσμα των Περιγραφικών Μεταφραστικών Σπουδών. Αθήνα: Παπαζήσης (υπό έκδοση). AntConc (Lawerence Anthony), GATE (University of Sheffield), LibreOffice, OPUS (Open Parallel Corpus, EUROPARL - opus.lingfil.uu.se/), SketchEngine (A. Kilgarriff et al., sketchengine.co.uk), ΣΕΚ (Διονύσης Γούτσος, sek.edu.gr), Wordle lexical clouds (wordle.net), A. Cassese, Διεθνές Δίκαιο (μτφση: Ι. Σαριδάκης, 2012), Ι. Μάζης, Μεταθεωρητική Κριτική Διεθνών Σχέσεων & Γεωπολιτικής (Αθήνα 2012), Χ. Κάσδαγλης, Ανώνυμοι Χρεοκοπημένοι (Αθήνα 2012), OECD Public Governance Reviews. OECD Publishing [doi: 10.1787/9789264179158-el], Μπατρακόβα, Ι., Μπάτσιου, Δ., Χαλικιοπούλου, Α. 2013. Εργασία στο μάθημα: Υπολογιστικά εργαλεία στη Μετάφραση, Ιόνιο Πανεπιστήμιο, ΠΜΣ Επιστήμη της Μετάφρασης.