Παρουσίαση της απαλλακτικής εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2015) Γιώργος Μικρός ΕΚΠΑ UMass Boston
Η ερευνητική υπόθεση Κάθε άνθρωπος έχει ένα ιδιοσυγκρασιακό τρόπο γραφής, έναν μοναδικό τρόπο να χρησιμοποιεί την γλώσσα, αυτό που ονομάζουμε «ύφος γραφής». Μπορούμε να μετρήσουμε τη συχνότητα γλωσσικών χαρακτηριστικών σε κείμενα ενός συγγραφέα (υφομετρία) και να χρησιμοποιήσουμε αυτές τις μετρήσεις για να συνδέσουμε στατιστικά ένα ανώνυμο κείμενο με τον πραγματικό συγγραφέα του. Ερώτημα: Μπορούμε να επεκτείνουμε την ίδια μεθοδολογία για να συνδέσουμε την γλωσσική παραγωγή του συγγραφέα όταν αυτός μεταφράζει το κείμενό του σε μια άλλη γλώσσα; 2
Το corpus Θα πρέπει κάθε φοιτητής/τρια να συγγράψει δύο εργασίες 2.000 λέξεων η κάθε μία (± 100 λέξεις) με τα ακόλουθα θέματα: 1. Θέμα 1: Περιγράφω την πιο ευχάριστη και την πιο δυσάρεστη στιγμή στη ζωή μου. 2. Θέμα 2: Περιγράψτε τα πιο σημαντικά κατά τη γνώμη σας κοινωνικά προβλήματα της εποχής μας. Στη συνέχεια εφόσον ανήκει σε κάποιο ξενόγλωσσο τμήμα θα πρέπει να αποδώσει τις δύο αυτές εργασίες στην ξένη γλώσσα που σπουδάζει. Έτσι για παράδειγμα οι φοιτητές/τριες του Τμήματος Ιταλικής θα πρέπει να τις αποδώσουν στα Ιταλικά. Οι φοιτητές/τριες του Τμήματος Αγγλικής Γλώσσας και Φιλολογίας θα πρέπει να τις αποδώσουν στα Αγγλικά κ.ο.κ. Οι φοιτητές/τριες ελληνόγλωσσων τμημάτων θα πρέπει να διαλέξουν όποια ξένη γλώσσα αυτοί/ές νοιώθουν περισσότερο άνετα. Προσοχή: Μην χρησιμοποιήσετε αυτόματο λογισμικό μετάφρασης (π.χ. Google translate)! Αποδώστε μόνοι σας το κείμενο στην ξένη γλώσσα ακόμα και αν κάνετε λάθη. Δεν θα κριθεί η γλωσσική σας ικανότητα στην ξένη γλώσσα! 3
Μορφή του corpus Κάθε κείμενο θα πρέπει να σωθεί σε μορφή απλού κειμένου (.txt) με κωδικοποίηση (encoding) utf8. Το γράφετε χρησιμοποιώντας το Notepad. ή Το γράφετε χρησιμοποιώντας το Word. Τα κείμενα θα πρέπει να αποθηκευτούν με την ακόλουθη ονομασία: Επώνυμο φοιτητή_αριθμός Θέματος_Ακρώνυμο γλώσσας.txt, π.χ. Mikros_topic1_gr.txt Mikros_topic2_gr.txt Mikros_topic1_en.txt Mikros_topic2_en.txt 4
Notepad 5
Word [1] 6
Word [2] 7
Υφομετρικά χαρακτηριστικά Θα επιλέξουμε γλωσσικά χαρακτηριστικά που είναι: Συχνά Δεν μπορούμε εύκολα να ελέγξουμε την χρήση τους Τα συναντάμε σε πολλές γλώσσες Τα σημεία στίξης:.!?, ; : - ( ) 8
Μετρώντας τα σημεία στίξης στο corpus Θα χρησιμοποιήσουμε το ειδικό λογισμικό Signature: To κατεβάζουμε είτε από την ακόλουθη διεύθυνση: http://www.philocomp.net/downloads/sigzip100.zip Το αποσυμπιέζουμε στο Desktop (Επιφάνεια Εργασίας) ή σε όποιο άλλο folder θέλουμε εμείς. Το Folder που δημιουργείται ονομάζεται Signature. Αν κάνουμε διπλό κλικ σε αυτό εμφανίζεται το πρόγραμμα Signature.exe καθώς και το folder Federalists το οποίο περιέχει κείμενα (Αγγλικά) για να πειραματιστεί κανείς με τις δυνατότητες του προγράμματος. Για να «τρέξει» το Signature κάνετε διπλό κλικ πάνω του. 9
Signature: Αρχική οθόνη 10
Signature: Φορτώνοντας τα πρώτα 2 ελληνικά αρχεία κειμένου Για να επιλέξουμε 2 αρχεία που δεν είναι στη σειρά πατάμε το πλήκτρο Control και κρατώντας το πατημένο επιλέγουμε με το ποντίκι τα αρχεία. 11
Signature: Επιλέγοντας τα αρχεία για ανάλυση Για να επιλέξουμε και τα δύο αρχεία πατάμε το πλήκτρο Control και κρατώντας το πατημένο επιλέγουμε με το ποντίκι τα αρχεία. 12
Signature: Επιλέγοντας τη μέτρηση των σημείων στίξης (Punctuation) Στην πάνω πλευρά της οθόνης εμφανίζεται το γράφημα με τις συχνότητες των σημείων στίξης. Κάτω από το γράφημα εμφανίζεται ο πίνακας με τις συχνότητες των σημείων στίξης στα δύο ελληνικά κείμενα. Αν θέλουμε να εμφανίσουμε τις πραγματικές τιμές (και όχι ποσοστά) επιλέγουμε «Display data as absolute values» στο πάνω μέρος της οθόνης. 13
Signature: Ελέγχοντας για στατιστική σημαντικότητα στις διαφορές των σημείων στίξης μεταξύ των δύο θεμάτων στα Ελληνικά κείμενα 14
Signature: Αποτελέσματα 15
Επιμέρους ερευνητικά ερωτήματα Στατιστική σύγκριση της χρήσης των σημείων στίξης στα δύο θέματα στην ίδια γλώσσα: Σύγκριση των δύο θεμάτων στα ελληνικά κείμενα. «Φόρτωμα» και ανάλυση στο Signature των κειμένων Επίθετο Φοιτητή_Topic1_gr.txt και Επίθετο Φοιτητή_Topic2_gr.txt Σύγκριση των δύο θεμάτων στα αγγλικά κείμενα. «Φόρτωμα» και ανάλυση στο Signature των κειμένων Επίθετο Φοιτητή_Topic1_en.txt και Επίθετο Φοιτητή_Topic2_en.txt Στατιστική σύγκριση της χρήσης των σημείων στίξης στα ίδια θέματα ανάμεσα στις δύο γλώσσες: Σύγκριση της χρήσης των σημείων στίξης του κειμένου στα Ελληνικά με το κείμενο της ξένης γλώσσας στο πρώτο θέμα. «Φόρτωμα» και ανάλυση στο Signature των κειμένων Επίθετο Φοιτητή_Topic1_gr.txt και Επίθετο Φοιτητή_Topic1_en.txt Σύγκριση της χρήσης των σημείων στίξης του κειμένου στα Ελληνικά με το κείμενο της ξένης γλώσσας στο δεύτερο θέμα. «Φόρτωμα» και ανάλυση στο Signature των κειμένων Επίθετο Φοιτητή_Topic2_gr.txt και Επίθετο Φοιτητή_Topic2_en.txt 16
Συγγραφή ερευνητικών αποτελέσμάτων Το ερευνητικό αυτό project θα πρέπει να παρουσιάσει τα αποτελέσματα σε ένα σύντομο κείμενο: 1-2 σελίδες: Σύντομη εισαγωγή στους ερευνητικούς στόχους της εργασίας. Αναφορά στα ερευνητικά αποτελέσματα: Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση στη χρήση των σημείων στίξης μεταξύ των διαφορετικών θεμάτων στα ελληνικά. Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση στη χρήση των σημείων στίξης μεταξύ των διαφορετικών θεμάτων στην ξένη γλώσσα. Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση της χρήσης των σημείων στίξης του κειμένου στα Ελληνικά με το κείμενο της ξένης γλώσσας στο πρώτο θέμα. Αναφορά για το αν υπάρχει στατιστικά σημαντική διαφοροποίηση της χρήσης των σημείων στίξης του κειμένου στα Ελληνικά με το κείμενο της ξένης γλώσσας στο δεύτερο θέμα. Συμπεράσματα 17
Παραδοτέα Στέλνετε ως επισυναπτόμενα στο email μου (gmikros@gmail.com) τα ακόλουθα (καταληκτική ημερομηνία 14 Ιουνίου 2015): Το Corpus (4 αρχεία σε μορφή txt) Την αναφορά της εργασίας (αρχείο Word ή pdf) Μην ξεχάσετε να αναφέρεται Ονοματεπώνυμο, ΑΜ και Τμήμα! 18