Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος Γιώργος Μικρός ΕΚΠΑ
Γλωσσικά χαρακτηριστικά Θα αναλύσουμε την συχνότητα ορισμένων λειτουργικών λέξεων [και, αλλά, με] και θα εξετάσουμε κατά πόσο αυτή διαφοροποιείται όταν αλλάζει το θέμα ή / και όταν αλλάζει η γλώσσα (χρησιμοποιώντας τα μεταφραστικά τους ισοδύναμα, π.χ. στα Αγγλικά and, but, with). Πιο συγκεκριμένα, οι ερευνητικές υποθέσεις που θα εξετάσουμε είναι: Στατιστική σύγκριση της χρήσης συγκεκριμένων λέξεων στα δύο θέματα στην ίδια γλώσσα: Σύγκριση των δύο θεμάτων στα ελληνικά κείμενα Σύγκριση των δύο θεμάτων στα αγγλικά (ιταλικά, γαλλικά, γερμανικά κ.ά.) κείμενα Στατιστική σύγκριση της χρήσης συγκεκριμένων λέξεων στα ίδια θέματα ανάμεσα στις δύο γλώσσες: Σύγκριση της χρήσης των συγκεκριμένων λέξεων στα Ελληνικά με το κείμενο της ξένης γλώσσας στο πρώτο θέμα. Σύγκριση της χρήσης των συγκεκριμένων λέξεων στα Ελληνικά με το κείμενο της ξένης γλώσσας στο δεύτερο θέμα. 2
Χρήση του AntConc Οι μετρήσεις θα διεξαχθούν με την χρήση του λογισμικού AntConc και η όλη διαδικασία εμφανίζεται στα παρακάτω screenshots: Το συγκεκριμένο λογισμικό μπορείτε να το κατεβάσετε δωρεάν (έκδοση windows) από την ακόλουθη διεύθυνση: http://www.laurenceanthony.net/software/antconc/releases/antconc343/an tconc.exe Για άλλες εκδόσεις λειτουργικού (Mac, Linux) δείτε την ακόλουθη σελίδα: http://www.laurenceanthony.net/software.html Ανοίγουμε το AntConc και επιλέγουμε το ελληνικό κείμενο με θέμα π.χ. το διαδίκτυο και οι επιπτώσεις στις ανθρώπινες σχέσης, δηλ. το topic2 (π.χ. Mikros_topic2_gr.txt). 3
Επιλέγουμε από το File > Open File(s). 4
Επιλέγουμε το κείμενο το οποίο θα ανοίξουμε. 5
Το επιλεγμένο κείμενο εμφανίζεται στην δεξιά πλευρά μέσα στο πλαίσιο Corpus Files. 6
Πληκτρολογούμε την λέξη που θα μετρήσουμε στο πεδίο Search Term και πατάμε Start 7
Η συχνότητα της λέξης που ψάξαμε βρίσκεται δίπλα στο πεδίο Concordance Hits και στο συγκεκριμένο παράδειγμα το και εμφανίστηκε 90 φορές στο κείμενο που επιλέξαμε. 8
Επόμενο βήμα είναι να μετρήσουμε τον συνολικό αριθμό λέξεων του κειμένου. Αυτό το κάνουμε από την καρτέλα «Wordlist» 9
Πατάμε το Start και το AntConc κάνει μια λίστα με την συχνότητα όλου του λεξιλογίου. Ο συνολικός αριθμός λέξεων του κειμένου εμφανίζεται πάνω με τίτλο Word Tokens (με κόκκινη έλλειψη). Στο συγκεκριμένο κείμενο υπάρχουν 2091 λέξεις. 10
Αφού τελειώσουμε τις μετρήσεις στο συγκεκριμένο αρχείο, το επιλέγουμε (γίνεται μπλε) και το κλείνουμε. Πατάμε File > Close Selected File(s) 11
Αντίστοιχα, υπολογίζουμε τη συχνότητα του «και» στο κείμενο του πρώτου θέματος. Το φορτώνουμε με την διαδικασία που δείξαμε στις διαφάνειες 4 και 5 και πατάμε Start στην κάρτα Concordance. Σε αυτό το παράδειγμα είναι 105 εμφανίσεις. 12
Οι συνολικές λέξεις του κειμένου στο 1 ο θέμα είναι 1995. 13
Μετρήσεις και στα υπόλοιπα κείμενα. Προσοχή, μετά από κάθε μέτρησε σε ένα αρχείο δεν ξεχνάμε να το κλείσουμε (βλ. διαφάνεια 11). Αντίστοιχα μετράμε τις εμφανίσεις των μεταφραστικών ισοδύναμων στα κείμενα της ξένης γλώσσας. Στο παράδειγμα μας το «and» εμφανίζεται στο κείμενο της δεύτερης θεματολογίας 73 φορές ενώ το συνολικό μέγεθος του κειμένου είναι 2163 λέξεις. Επίσης το «and» εμφανίζεται στο κείμενο της πρώτης θεματολογίας 151 φορές, ενώ το συνολικό μέγεθος του κειμένου είναι 2163 λέξεις. 14
Πίνακας αποτελεσμάτων topic1_gr topic2_gr και 105 90 Συνολικές λέξεις κειμένου 1995 2091 topic1_en topic2_en and 151 145 Συνολικές λέξεις κειμένου 2281 2163 15
Σχετική συχνότητα λεξικών εμφανίσεων Οι συχνότητες που έχουμε καταγράψει για κάθε λέξη ανά κειμενικό θέμα μας δίνουν μια εικόνα του πόσο πιο συχνά χρησιμοποιείται η συγκεκριμένη λέξη στο συγκεκριμένο κείμενο. Ωστόσο, για να έχουμε ισορροπημένη εικόνα της συχνότητας χρήσης της κάθε λέξης θα πρέπει να συνυπολογίσουμε το συνολικό μέγεθος του κειμένου. Έτσι π.χ. στα αγγλικά κείμενα το «and» φαινομενικά είναι πιο συχνό στο topic 1 (151 εμφανίσεις) σε σχέση με το topic 2 (145 εμφανίσεις). Ωστόσο, αν συνυπολογίσουμε το συνολικό μέγεθος του κειμένου θα δούμε ότι στο topic 2 το «and» εμφανίζεται με μεγαλύτερη σχετική συχνότητα. Για να το διαπιστώσουμε αυτό αρκεί να υπολογίσουμε την συχνότητα του «and» σε ποσοστό %, δηλαδή σε εκατοστιαία ενιαία βάση. Για να το κάνουμε αυτό χρησιμοποιούμε τον παρακάτω απλό τύπο: ΣΥΧΝΟΤΗΤΑ ΛΕΞΗΣ Χ 100 ΣΧΕΤΙΚΗ ΣΥΧΝΟΤΗΤΑ ΛΕΞΗΣ = ΣΥΝΟΛΙΚΟΣ ΑΡΙΘΜΟΣ ΛΕΞΕΩΝ ΚΕΙΜΕΝΟΥ Χρησιμοποιώντας τον παραπάνω τύπο έχουμε: ΣΧΕΤΙΚΗ ΣΥΧΝΟΤΗΤΑ and topic 1 = ΣΧΕΤΙΚΗ ΣΥΧΝΟΤΗΤΑ and topic 2 = 151Χ 100 2281 145Χ 100 2163 = 15100 2281 = 6.62% = 14500 2163 = 66. 77% 16
Στατιστικός έλεγχος υποθέσεων Είδαμε ότι η απλή συχνότητα μιας λέξης δεν μας δίνει πάντα ορθή εικόνα όταν συγκρίνεται με την συχνότητα της ίδιας λέξης σε άλλο κείμενο που είναι διαφορετικού μεγέθους. Για τον λόγο αυτό οι συγκρίσεις θα πρέπει να γίνονται με βάση τις σχετικές συχνότητες των λέξεων. Ένα δεύτερο πρόβλημα που προκύπτει είναι ότι ακόμα και όταν οι συγκρίσεις γίνονται με βάση τις σχετικές συχνότητες η διαφορά που προκύπτει δεν είναι πάντα έγκυρη, με την έννοια ότι απλά μπορεί να υποδηλώνει μια ελάχιστη διαφοροποίηση η οποία δεν σχετίζεται με πραγματικές διαφορές γλωσσικής χρήσης μεταξύ των κειμένων, αλλά είναι προϊόν τυχαίας διακύμανσης. Για να είμαστε σίγουροι ότι η διαφορά χρήσης του «and» στο topic 1 (6.62%) σε σχέση με το topic 2 (6.7%) οφείλεται στην διαφορά θεματολογίας, θα πρέπει να κάνουμε στατιστικό έλεγχο. Θα πρέπει δηλαδή να εξετάσουμε με συγκεκριμένη στατιστική μέθοδο αν η διαφορά είναι στατιστικά σημαντική και δεν προκύπτει από τύχη. 17
Log Likelihood Για να εξετάσουμε την στατιστική σημαντικότητα των διαφορών που προέκυψαν από τις μετρήσεις μας σε κείμενα διαφορετικής θεματολογίας και διαφορετικής γλώσσας θα χρησιμοποιήσουμε ένα ειδικό στατιστικό τεστ που ονομάζεται Log Likelihood και το οποίο ελέγχει κατά πόσο οι διαφορές στις συχνότητες των λέξεων μεταξύ των διαφορετικών κειμένων είναι μη τυχαίες. Το στατιστικό αυτό τεστ μπορείτε να το κάνετε online στην ακόλουθη ιστοσελίδα: http://ucrel.lancs.ac.uk/llwizard.html 18
19
Στο σχετικό κουτί (Frequency of word) συμπληρώνουμε την συχνότητα της λέξης, ενώ στο Corpus size συμπληρώνουμε το μέγεθος του κειμένου (όλες οι πληροφορίες βρίσκονται στον σχετικό πίνακα στη Διαφάνεια 14). Ως Corpus 1 θεωρούμε το κείμενο στο topic 1 και Corpus 2 στο topic 2. Στη συνέχεια Κάνουμε κλικ στο Calculate και υπολογίζεται το Log Likelihood. 20
Τα αποτελέσματα διαβάζονται ως εξής: Ο1= 151 : Η συχνότητα της λέξης στο κείμενο με topic 1 %1= 6,62 : Η σχετική συχνότητα της λέξης στο κείμενο με topic 1 Ο2= 145 : Η συχνότητα της λέξης στο κείμενο με topic 2 %1= 6,70 : Η σχετική συχνότητα της λέξης στο κείμενο με topic 2 LL= 0.01 : Η τιμή Log Likelihood Τα υπόλοιπα στατιστικά δεν μας ενδιαφέρουν Η τιμή LL μας λέει αν υπάρχει στατιστικά σημαντική διαφορά στη χρήση του «and» μεταξύ των κειμένων των δύο θεματικών. Αν η τιμή του LL είναι 3.84 ή μεγαλύτερη τότε η διαφορά είναι στατιστικά σημαντική. Στο παράδειγμα η τιμή είναι 0.01 (άρα μικρότερη του 3.84) και επομένως η διαφορά δεν είναι στατιστικά σημαντική, δηλαδή το and χρησιμοποιείται στα κείμενα των δύο θεματικών με παρόμοια συχνότητα και επομένως το θέμα του κειμένου δεν διαφοροποιεί την συχνότητά του. 21
Ελέγχοντας όλες τις ερευνητικές υποθέσεις Στατιστική σύγκριση της χρήσης του «και» στα δύο θέματα στην ίδια γλώσσα: Σύγκριση της λέξης «και» των δύο θεμάτων στα ελληνικά κείμενα: LL= 1,97 (μικρότερη του 3,84). Επομένως η διαφορά είναι μη στατιστικά σημαντική και άρα η συχνότητα χρήσης του «και» δεν διαφοροποιείται λόγω θέματος. Σύγκριση της λέξης «and» των δύο θεμάτων στα αγγλικά κείμενα: LL= 0.01 (μικρότερη του 3,84). Επομένως η διαφορά είναι μη στατιστικά σημαντική και άρα η συχνότητα χρήσης του «and» δεν διαφοροποιείται λόγω θέματος. Στατιστική σύγκριση της χρήσης συγκεκριμένων λέξεων στα ίδια θέματα ανάμεσα στις δύο γλώσσες: Σύγκριση της χρήσης της λέξης «και» στα Ελληνικά με την λέξη «and» στα Αγγλικά στο πρώτο θέμα. LL= 3,30 (μικρότερη του 3,84). Επομένως η διαφορά είναι μη στατιστικά σημαντική και άρα η συχνότητα χρήσης του «και» και του «and» δεν διαφοροποιείται λόγω αλλαγής γλώσσας. Δηλαδή ο συμπλεκτικός σύνδεσμος «και» και το μεταφραστικό του ισοδύναμο «and» χρησιμοποιούνται με παρόμοια συχνότητα παρά την αλλαγή της γλώσσας στο κείμενο. Σύγκριση της χρήσης της λέξης «και» στα Ελληνικά με την λέξη «and» στα Αγγλικά στο δεύτερο θέμα. LL= 11.20 (μεγαλύτερη του 3,84). Επομένως η διαφορά είναι στατιστικά σημαντική και άρα η συχνότητα χρήσης του «και» και του «and» διαφοροποιείται λόγω αλλαγής γλώσσας. Δηλαδή ο συμπλεκτικός σύνδεσμος «και» και το μεταφραστικό του ισοδύναμο «and» χρησιμοποιούνται με διαφορετική συχνότητα στο κείμενο της δεύτερης θεματικής και επομένως η αλλαγή γλώσσας σε αυτό το κείμενο επηρεάζει την συχνότητα εμφάνισης της συγκεκριμένης λέξης. 22
Συγγραφή ερευνητικής αναφοράς Το ερευνητικό αυτό project θα πρέπει να παρουσιάσει τα αποτελέσματα σε ένα σύντομο κείμενο: 2-3 σελίδες: Σύντομη εισαγωγή στους ερευνητικούς στόχους της εργασίας. Αναφορά στα ερευνητικά αποτελέσματα: Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση στη χρήση των συγκεκριμένων λειτουργικών λέξεων μεταξύ των διαφορετικών θεμάτων στα ελληνικά. Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση στη χρήση των συγκεκριμένων λειτουργικών λέξεων μεταξύ των διαφορετικών θεμάτων στην ξένη γλώσσα. Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση της χρήσης των συγκεκριμένων λειτουργικών λέξεων και των μεταφραστικών τους ισοδύναμων του κειμένου στα Ελληνικά με το κείμενο της ξένης γλώσσας στο πρώτο θέμα. Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση της χρήσης των συγκεκριμένων λειτουργικών λέξεων και των μεταφραστικών τους ισοδύναμων στα Ελληνικά με το κείμενο της ξένης γλώσσας στο δεύτερο θέμα. Συμπεράσματα 23
Παραδοτέα Στέλνετε ως επισυναπτόμενα στο email μου (gmikros@gmail.com) τα ακόλουθα (καταληκτική ημερομηνία 1 η Ιουλίου 2016): Το Corpus (4 αρχεία σε μορφή txt) Την αναφορά της εργασίας (αρχείο Word ή pdf) Μην ξεχάσετε το Ονοματεπώνυμο σας, ΑΜ και Τμήμα! 24
Βαθμολόγηση Ο βαθμός του μαθήματος θα βγει από τον ζυγισμένο μέσο όρο του βαθμού της εργασίας και του βαθμού της τελικής εξέτασης (τεστ πολλαπλής επιλογής) Το «βάρος» της εργασίας στον τελικό βαθμό θα είναι 70% και της τελικής εξέτασης 30%. Για να ολοκληρωθεί επιτυχώς το μάθημα και να πάρετε βαθμό θα πρέπει να παραδώσετε την εργασία ΚΑΙ να πάρετε μέρος στην τελική εξέταση. Δεν θα πάρετε βαθμό στο μάθημα αν παραδώσετε μόνο την εργασία. Δεν πρέπει να παραδώσετε την εργασία σε αυτή την εξεταστική (Εαρινό 2016) και να γράψετε την τελική εξέταση στην εξεταστική του Σεπτεμβρίου. Θα πρέπει η παράδοση της εργασίας και η τελική εξέταση να γίνει στο πλαίσιο της ίδιας εξεταστικής περιόδου. Τα κριτήρια αξιολόγησης της εργασίας σχετίζονται με: Ακρίβεια στην εκτέλεση των οδηγιών της εργασίας Κατανόηση των ερευνητικών στόχων της εργασίας Διατύπωση και οργάνωση της ερευνητικής αναφοράς. 25
Καλή επιτυχία 26