Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

Σχετικά έγγραφα
Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

Π Ο Λ Ι Τ Ι Κ Α Κ Α Ι Σ Τ Ρ Α Τ Ι Ω Τ Ι Κ Α Γ Ε Γ Ο Ν Ο Τ Α

Βασικά ποσοτικά µεγέθη στην γραπτή Νέα Ελληνική γλώσσα: η αξιοποίηση του ΕΘΕΓ στην ελληνική ποσοτική γλωσσολογία

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι. ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Α Ρ Ι Θ Μ Ο Σ : 6.913

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή

2. Α ν ά λ υ σ η Π ε ρ ι ο χ ή ς. 3. Α π α ι τ ή σ ε ι ς Ε ρ γ ο δ ό τ η. 4. Τ υ π ο λ ο γ ί α κ τ ι ρ ί ω ν. 5. Π ρ ό τ α σ η. 6.

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Ελένη Παναρέτου Επίκουρη Καθηγήτρια Τομέας Γλωσσολογίας Τμήμα Φιλολογίας Πανεπιστήμιο Αθηνών. Γνωστικό αντικείμενο Γλωσσολογία: Κειμενογλωσσολογία

Ανάλυση ποιοτικών δεδομένων

Αναλυτική Στατιστική

Η προερρινοποίηση στα ηχηρά κλειστά της Νέας Ελληνικής. Ποσοτική διερεύνηση της επίδρασης του φωνητικού περιβάλλοντος στην παρατηρούμενη ποικιλία

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

γλώσσας και την πιστοποίηση ελληνομάθειας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Διονύσης Γούτσος ΕΚΠΑ, 01/03/2019

Βιβλιογραφία κοινωνικής έρευνας

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΕΦΗΜΕΡΙ Α ΤΗΣ ΚΥΒΕΡΝΗΣΕΩΣ

Ανάλυση ποιοτικών δεδομένων

Ανασκόπηση Βιβλιογραφίας. Δρ. Ιωάννης Γκιόσος

Α. α) ίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιµες, να αποδείξετε ότι: F (x)=f (x)+g (x).

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μεθοδολογία Έρευνας Διάλεξη 1 η : Εισαγωγή στη Μεθοδολογία Έρευνας

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Σ Τ Α Τ Ι Σ Τ Ι Κ Η Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ.

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ανάλυση Ποιότικών Δεδομένων. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς

Στατιστική ανάλυση αποτελεσμάτων

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΕΡΙΦΕΡΕΙΑΚΗ Δ/ΝΣΗ Π. ΕΚΠ/ΣΗΣ Δ/ΝΣΗ ΠΕ ΔΗΜΟΤΙΚΟ.

Σκοπός του μαθήματος είναι ο συνδυασμός των θεωρητικών και ποσοτικών τεχνικών με τις αντίστοιχες περιγραφικές. Κεφάλαιο 1: περιγράφονται οι βασικές

ΜΕΡΟΣ ΠΡΩΤΟ ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Α/Α ΜΑΘΗΜΑΤΑ ΩΡΑ ΑΙΘΟΥΣΑ ΑΜΦΙΘΕΑΤΡΟ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ. Γεώργιος Κ. Μικρός

Α θ ή ν α, 7 Α π ρ ι λ ί ο υ

ΔΙΕΡΕΥΝΗΣΗ ΤΩΝ ΠΡΟΤΙΜΗΣΕΩΝ ΤΩΝ ΟΔΗΓΩΝ ΑΠΕΝΑΝΤΙ ΣΕ ΝΕΑ ΚΑΙΝΟΤΟΜΑ ΣΧΗΜΑΤΑ ΑΣΦΑΛΙΣΗΣ ΤΟΥ ΟΧΗΜΑΤΟΣ

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

Στόχος της ψυχολογικής έρευνας:

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Στατιστική Επιχειρήσεων ΙΙ

Αξιολόγηση. Ευφημία Τάφα

381 Συνεδρίαση της Επταμελούς της Επιτροπής Ερευνών του Πανεπιστημίου Κρήτης Ηράκλειο

Οδηγίες Συγγραφής και Μορφοποίησης Κειμένου

ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ

Συγγραφή Επιστημονικής Εργασίας (ΨΧ126) Η μορφοποίηση της επιστημονικής εργασίας: το σύστημα (στυλ) ΑΡΑ

Ψηφίδες για τη Νεοελληνική Γλώσσα

Στόχος του βιβλίου αυτού είναι να κατακτήσουν οι μικροί μαθητές

Προσωπικά στοιχεία: Ονοματεπώνυμο: Σταματία Κουτσουλέλου. Διεύθυνση εργασίας: Φιλοσοφική Σχολή, Πανεπιστημιούπολη Ζωγράφου, Αθήνα,

Σκοπός του μαθήματος

Κεφάλαιο 4: Υφοµετρική απόδοση συγγραφέα µε δύο υποψηφίους

Α/Α ΜΑΘΗΜΑΤΑ ΗΜΕΡΑ ΩΡΑ ΑΙΘΟΥΣΑ ΑΜΦΙΘΕΑΤΡΟ

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 1: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΕΘΟΔΟΥΣ ΕΡΕΥΝΑΣ - ΠΕΡΙΓΡΑΜΜΑ

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΤΜΗΜΑ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΗΛΙΚΙΑ ΕΝΔΕΙΚΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

ΕΡΕΥΝΗΤΙΚΗ ΕΡΓΑΣΙΑ. Θεωρία - Πείραμα Μετρήσεις - Σφάλματα

Μεθοδολογία Εκπαιδευτικής Έρευνας στη ΜΕ

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ: ΚΟΙΝΩΝΙΚΩΝ, ΑΝΘΡΩΠΙΣΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ & ΤΕΧΝΩΝ ΤΜΗΜΑ : Δ.Ε.Σ. ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ ΠΕΡΙΟΔΟΥ ΣΕΠΤΕΜΒΡΙΟΥ 2017 Α ΕΞΑΜΗΝΟΥ

Σεμινάριο Τελειοφοίτων. 6- Εμπειρική μέτρηση & ανάλυση

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΕΥΝΑΣ

ΚΕΦΑΛΑΙΟ. 1. α. Tι ονοµάζεται συνάρτηση από το σύνολο Α στο σύνολο Β; β. Tι ονοµάζεται πραγµατική συνάρτηση πραγµατικής µεταβλητής;

ΠΟΛΥΕΠΙΠΕΔΗ ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΟΔΙΚΗΣ ΑΣΦΑΛΕΙΑΣ ΣΕ ΕΥΡΩΠΑΪΚΕΣ ΠΡΩΤΕΥΟΥΣΕΣ

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις

Α/Α ΜΑΘΗΜΑΤΑ ΩΡΑ ΑΙΘΟΥΣΑ ΑΜΦΙΘΕΑΤΡΟ

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΣΚΗΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Ν Κ Π 6Μ Θ 5 ϑ Μ % # =8 Α Α Φ ; ; 7 9 ; ; Ρ5 > ; Σ 1Τ Ιϑ. Υ Ι ς Ω Ι ϑτ 5 ϑ :Β > 0 1Φ ς1 : : Ξ Ρ ; 5 1 ΤΙ ϑ ΒΦΓ 0 1Φ ς1 : ΒΓ Υ Ι : Δ Φ Θ 5 ϑ Μ & Δ 6 6

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 5. Σύνθετα μέτρα 5-1

Οδηγίες Συγγραφής Εργασιών για το 7 ο Διεθνές Συνέδριο για την Έρευνα των Μεταφορών


ΑΝΙΧΝΕΥΤΙΚΗ ΔΟΚΙΜΑΣΙΑ ΜΑΘΗΜΑΤΙΚΗΣ ΕΠΙΔΟΣΗΣ (ΑΔΜΕ) ΓΙΑ ΜΑΘΗΤΕΣ ΤΟΥ ΔΗΜΟΤΙΚΟΥ. Σ. Παπαϊωάννου, Α. Μουζάκη Γ. Σιδερίδης & Π. Σίμος

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Από τις διαλέξεις του μαθήματος του Α εξαμήνου σπουδών του Τμήματος. Κ. Παπαθεοδώρου, Αναπληρωτής Καθηγητής Οκτώβριος 2013

Βασικές έννοιες της Στατιστικής: Πληθυσμός - Δείγμα

ΓΡΑΜΜΑΤΙΚΗ ΤΗΣ ΑΡΧΑΙΑΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ. Παναγιώτης Δεμέστιχας Στέλλα Γκανέτσου

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

Καλές και κακές πρακτικές στη διδασκαλία της ελληνικής ως δεύτερης/ξένης γλώσσας. Άννα Ιορδανίδου ΠΤΔΕ Παν/μίου Πατρών

Οδηγίες Συγγραφής και Μορφοποίησης Κειμένου

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

ΘΕΜΑ 3 Το ύψος κύματος (σε μέτρα) σε μία συγκεκριμένη θαλάσσια περιοχή είναι τυχαία μεταβλητή X με συνάρτηση πυκνότητας πιθανότητας

ΜΕΛΕΤΗ ΕΥΘ. ΟΜΑΛΑ ΕΠΙΤΑΧΥΝΟΜΕΝΗΣ ΚΙΝΗΣΗΣ ( ΜΕΣΩ ΤΗΣ ΕΛΕΥΘΕΡΗΣ ΠΤΩΣΗΣ )

ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΧΗΜΕΙΑΣ

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Transcript:

Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας Γεώργιος Μικρός Πανεπιστήμιο Αθηνών ΑΠΘ (24-25 Νοεμβρίου 2005) 1

Ποσοτική γλωσσολογία Ποσοτική Γλωσσολογία (ΠΓ) είναι ο κλάδος εκείνος της Γλωσσολογίας που ασχολείται με την ποσοτική ανάλυση της γλωσσικής δομής και τη γλωσσολογική ερμηνεία της. Η ποσοτική ανάλυση χρησιμοποιείται για να ολοκληρωθεί η ποιοτική ανάλυση που διεξάγει ο κλάδος της θεωρητικής γλωσσολογίας. Γενικότερα, η χρήση ποσοτικών μεθόδων όπως αυτές που θα περιγραφούν παρακάτω λειτουργούν συμπληρωματικά με τις ποιοτικές θεωρήσεις ως προς την κατανόηση του γλωσσικού φαινομένου. ΑΠΘ (24-25 Νοεμβρίου 2005) 2

Ηλεκτρονικά Σώματα Κειμένων Η ποσοτική αντιμετώπιση της γλωσσικής χρήσης θα ήταν αδύνατη εάν δεν υπήρχαν τα Ηλεκτρονικά Σώματα Κειμένων Ορισμοί είναι η συλλογή τμημάτων γλώσσας τα οποία επιλέγονται και διατάσσονται σύμφωνα με συγκεκριμένα γλωσσολογικά κριτήρια έτσι ώστε να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα μιας συγκεκριμένης γλώσσας (EAGLES 1996). είναι μια συλλογή κειμένων η οποία είναι κωδικοποιημένη για τυποποιημένες (standardized) και ομοιογενείς εργασίες ανάκτησης γλωσσικής πληροφορίας. ΑΠΘ (24-25 Νοεμβρίου 2005) 3

Χαρακτηριστικά της έρευνας που βασίζεται στη χρήση ΗΣΚ Άμεση εξάρτηση από τα κείμενα που περιέχονται στο ΗΣΚ Ηποσοτική(μέγεθος) και η ποιοτική (κειμενική ποικιλία) σύσταση του ΗΣΚ διαμορφώνει τα αποτελέσματα που παίρνουμε από αυτό Αξιοποίηση των Η/Υ στην επεξεργασία του γλωσσικού υλικού Ταχύτητα και αξιοπιστία κατά την εκτέλεση τυποποιημένων εργασιών γλωσσικής ανάλυσης Ποσοτική και ποιοτική προσέγγιση της γλωσσικής χρήσης Η γλωσσική χρήση αντιμετωπίζεται ολιστικά και παρέχονται πληροφορίες τόσο για την ποσοτική δομή, όσο και για την λειτουργική αλληλεπίδραση των γλωσσικών στοιχείων ΑΠΘ (24-25 Νοεμβρίου 2005) 4

ΟρόλοςτωνΗ/Υ στην ανάλυση των ΗΣΚ Δυνατότητα τεράστιας αποθήκευσης κειμενικών δεδομένων Μεγάλη ταχύτητα επεξεργασίας γλωσσικών δεδομένων (Wordsmith: 15.000 λέξεις το δλπτο) Συνεπής και «αλάνθαστη» απόδοση σε επαναληπτικές διαδικασίες ΑΠΘ (24-25 Νοεμβρίου 2005) 5

Ποσοτικές μελέτες στην ελληνική γλώσσα Χρονολογική αύξηση των ποσοτικών μελέτων στην ελληνική γλώσσα Συγκριτική αύξηση των ποσοτικών μελετών σχετικών με την ελληνική γλώσσα ανάλογα με το αν χρησιμοποιούν απλές ποσοτικές μεθόδους ή εξειδικευμένες στατιστικές τεχνικές % επί των δημοσιευμένων άρθρων ελληνικής γλωσσολογίας (Ν= 975) 25 20 15 10 5 0 1980-1985 1985-1990 1990-1995 1995-2000 Έτη % % επί των δημοσιευμένων άρθρων σχετικών με γλωσσολογικά θέματα 14 12 10 8 6 4 2 0 1980-1985 1985-1990 1990-1995 1995-2000 Έτη % Απλές ποσοτικές μελέτες % Χρήση στατιστικών τεχνικών ΑΠΘ (24-25 Νοεμβρίου 2005) 6

Ποσοτική ανάλυση της Νέας Ελληνικής Ανάλυση της γλωσσικής χρήσης Λίστες συχνότητας λέξεων Λεξικά σύμπλοκα Γλωσσική ποικιλία Στατιστικά χαρακτηριστικά της γλώσσας Υφομετρική ανάλυση κειμένων ΑΠΘ (24-25 Νοεμβρίου 2005) 7

Ανάλυση Γλωσσικής Χρήσης: Λίστες Συχνότητας Λεξιλογίου ΑΠΘ (24-25 Νοεμβρίου 2005) 8

Ανάλυση Γλωσσικής Χρήσης: Τα συχνότερα κύρια ονόματα Α/Α Λέξη Εμφανίσεις Συχνότητα (τοις χιλίοις) 1 Ελλάδα 30032 0,8754 2 Αθήνα 13020 0,3795 3 Τουρκία 11944 0,3481 4 Ευρώπη 8976 0,2616 5 Παπανδρέου 8855 0,2581 6 Έλληνας 7324 0,2135 7 Σημίτης 6226 0,1815 8 Θεσσαλονίκη 5888 0,1716 9 Ρέππας 4946 0,1442 10 Γιώργος 4837 0,1410 ΑΠΘ (24-25 Νοεμβρίου 2005) 9

Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία Ι Ποσοστό χρήσης του τελικού -ν πριν από εξακολουθητικά ανάλογα με τον συγγραφέα (Εκδόσεις Καστανιώτη) Ποσοστό χρήσης του τελικού -ν 100,0 80,0 60,0 40,0 20,0 0,0 δεν μην σαν την την(αντ) τον Λέξεις ΑΠΘ (24-25 Νοεμβρίου 2005) 10

Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία ΙΙ Σύγκριση Πραγματικής και Ιδανικής Χρήσης του Κανόνα πριν από Εξακολουθητικά σύμφωνα Ποσοστό διατήρησης τελικού έρρινου 110 100 90 80 70 60 50 40 30 20 10 0 δεν μην σαν την την(αντ) τον Πραγματική χρήση Ιδανική χρήση ΑΠΘ (24-25 Νοεμβρίου 2005) 11

Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία ΙΙΙ ΠΟΣΟΣΤΑ ΠΡΟΕΡΡΙΝΟΠΟΙΗΣΗΣ ΑΝΑ ΕΚΦΩΝΗΤΗ ΣΤΗΝ ΕΡΑ1 ΚΑΙ SKY 100,4 ΠΟΣΟΣΤΟ ΠΡΟΕΡΡΙΝΟΠΟΙΗΣΗΣ 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 1 2 3 4 SKY ERA1 EKΦΩΝΗΤΕΣ ΑΠΘ (24-25 Νοεμβρίου 2005) 12

Οι γλωσσικοί παράγοντες που σχετίζονται με την προερρινοποίηση H δύναμη της επίδρασης των παραγόντων στην προερρινοποίηση των ΗΚ 30 25 20 Wald 15 10 5 0 Μορφολογικά σύνθετο ΗΚ Προηγούμενο έρρινο Προηγούμενο Φωνήεν Παράγοντες γλωσσικού περιβάλλοντος Είδος ΗΚ Τόνος Σύμφωνικό σύμπλεγμα ΑΠΘ (24-25 Νοεμβρίου 2005) 13

Η επίδραση του γλωσσικού περιβάλλοντος στην προερρινοποίηση των ΗΚ Η επίδραση του γλωσσικού περιβάλλοντος στην προερρινοποίηση των ΗΚ 2,5 2 1,5 1 0,5 0 Μορφολογικά σύνετο ΗΚ Προηγούμενο έρρινο Τόνος Παράγοντες γλωσσικού περιβάλλοντος Σύμφωνικό σύμπλεγμα ΑΠΘ (24-25 Νοεμβρίου 2005) 14

Διερεύνηση της επίδρασης που ασκεί το φωνήεν που προηγείται ενός ΗΚ στην προερρινοποίηση Συγκριτική επίδραση που φωνήεντος που προηγείται του ΗΚ στην προερρινοποίησή του 1,5 u 1,4 1,3 1,2 1,1 1 0,9 e i 0,8 a 0,7 o 0,6 Φωνήεντα που προηγούνται του ΗΚ ΑΠΘ (24-25 Νοεμβρίου 2005) 15

Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία ΙV Περιπτώσεις διαφορετικής ορθογραφίας στα κείμενα του Υπουργείου Δικαιοσύνης 70 60 50 40 30 Αποδεκτά Μη απ οδεκτά 20 10 0 έξι/έξη εταιρεία/εταιρία εφορία/εφορεία καινούργιος/καινούριος Ορθογραφική ποικιλία ΑΠΘ (24-25 Νοεμβρίου 2005) 16

Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία V Γλωσσική ποικιλία και λόγια στοιχεία στις εφημερίδες % 100 90 80 70 60 50 40 30 20 10 0 "που" / "οποίος" "-ης" / "-έως" Τελικό -ν ΑΠΘ (24-25 Νοεμβρίου 2005) 17

Στατιστικά χαρακτηριστικά της γλώσσας Ι Η συχνότητα των λέξεων παρουσιάζει μια «παράξενη» κανονικότητα όταν εξετάζεται σε μια Λίστα Συχνότητας Λεξιλογίου ΛΣΛ. Και 1000 Χ 1 = 1000 Του 500 Χ 2 = 1000 Της 333 Χ 3 1000 Το σταθερό γινόμενο (συχνότητα λέξης Χ σειρά κατάταξης σε ΛΣΛ) ονομάστηκε σταθερά του Zipf (c) και αντιπροσωπεύει την μαθηματική αποτύπωση της αρχής της ελάχιστης προσπάθειας που διέπει την ανθρώπινη επικοινωνία. ΑΠΘ (24-25 Νοεμβρίου 2005) 18

Στατιστικά χαρακτηριστικά της γλώσσας ΙΙ ΑΠΘ (24-25 Νοεμβρίου 2005) 19

Στατιστικά χαρακτηριστικά της γλώσσας ΙΙΙ Σύγκριση του μήκους λέξης στις 1000 40 συχν. λέξεις και στο σύνολο του ΕΘΕΓ 30 % του λεξιλογίου 20 10 0 1 3 5 7 9 11 13 15 17 19 ΕΘΕΓ (Σύνολο) ΕΘΕΓ (1000 συχν.λέξ) Μήκος λέξης ΑΠΘ (24-25 Νοεμβρίου 2005) 20

Στατιστικά χαρακτηριστικά της γλώσσας ΙΙΙ 25000 Σύγκριση κατανομή του μήκους των λέξεων ανά κειμενικό μέσο 20000 15000 Συχνότητα λέξεων 10000 5000 0 Βιβλίο Εφημερίδα Περιοδικό Αδιευκρίνιστο 1 3 5 7 9 11 13 15 17 19 Μήκος λέξεων ΑΠΘ (24-25 Νοεμβρίου 2005) 21

Στατιστικά χαρακτηριστικά της γλώσσας IV Σχετική θέση των 1000 συχ. λέξεων ΕΘΕΓ 33 εκ. λέξεις 2000 1000 500 400 300 200 100 50 40 30 20 10 5 4 3 2 1 στις 2 εκδόσεις του ΕΘΕΓ 1 2 5 4 3 10 50 40 30 20 100 500 400 300 200 1000 2000 ΕΘΕΓ 13 εκ. λέξεις ΑΠΘ (24-25 Νοεμβρίου 2005) 22

Στατιστικά χαρακτηριστικά της γλώσσας V: Συχνότητες Γραμμάτων 12,00 Συχνότητα Γραμμάτων στον ΕΘΕΓ 10,00 Ποσοστό (%) 8,00 6,00 4,00 2,00 0,00 Α Ο Ι Ε Τ Σ Ν Η Υ Ρ Π Κ Μ Λ Ω Δ Γ Χ Θ Φ Β Ξ Ζ Ψ Γράμμα ΑΠΘ (24-25 Νοεμβρίου 2005) 23

Στατιστικά χαρακτηριστικά της γλώσσας V: Συχνότητες Γραμμάτων Distribution of stressed/unstressed letters in HNC 100% 80% 60% 40% 20% % Unstressed % Stressed 0% α ε ο ω ι η υ Letters ΑΠΘ (24-25 Νοεμβρίου 2005) 24

Στατιστικά χαρακτηριστικά της γλώσσας V: Συχνότητες Γραμμάτων Κατανομη της θέσης των γραμμάτων μέσα στην λέξη 100% 80% 60% % 40% Τέλος Μέση Αρχή 20% 0% A B Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω Γράμματα ΑΠΘ (24-25 Νοεμβρίου 2005) 25

Μερικά βασικά συμπεράσματα Οι 1000 συχνότερες λέξεις μένουν σταθερές ανεξαρτήτως του μεγέθους του ΗΣΚ που τις εξετάζουμε (89,5% ομοιότητα) ΟνόμοςτουZipf ισχύει για τις 1000 συχνότερες λέξεις και λήμματα και εξηγεί την σταθερότητά τους. Η κατανομή του μήκους της λέξης ακολουθεί την Negative Binomial. Τα πιο συχνά φωνήεντα είναι τα «Α, Ο, Ι» και τα ποιο συχνά σύμφωνα είναι τα «Τ, Σ, Ν». 22% των φωνηέντων είναι τονισμένα. ΑΠΘ (24-25 Νοεμβρίου 2005) 26

Υφομετρικά χαρακτηριστικά και αναγνώριση αγνώστου συγγραφέα ΑΠΘ (24-25 Νοεμβρίου 2005) 27

Αυτόματη Αναγνώριση Συγγραφέα Λεξιλογικός πλούτος Yule s K Λεξιλογική πυκνότητα ΤΤR Μετρήσεις σε επίπεδο λέξης Μέσο μήκος λέξεων Κατανομή του μήκους λέξεων Μετρήσεις σε επίπεδο πρότασης Μέσο μήκος της πρότασης (σε λέξεις) Σημεία στίξης Μεταβλητές «Διγλωσσίας» Ποικιλία των τριτόκλιτων καταλήξεων σε ης και εως Ποικιλία στη χρήση των αναφορικών αντωνυμιών «που» και «οποίος» 80 συχνότερες λειτουργικές λέξεις Αποτέλεσμα: Σε σύνολο 1200 κειμένων 93,6% ακρίβεια αναγνώρισης του συγγραφέα Διακριτικές τιμές 3ης συνάρτησης 8 6 4 2 0-2 -4-6 -8-8 -6-4 -2 0 2 4 6 Συγγραφείς Παπ αδόπ ουλος Γαλανόπουλος Δημάκας Διακογιάννης Διακριτικές τιμές 2ης συνάρτησης ΑΠΘ (24-25 Νοεμβρίου 2005) 28

Διάγραμμα CUSUM 1 συγγραφέας 20,000 10,000 0,000-10,000-20,000-30,000-40,000-50,000 1 2 3 4 5 6 7 8 9 1011121314151617181920212223 SL FW ΑΠΘ (24-25 Νοεμβρίου 2005) 29

Διάγραμμα CUSUM 2 συγγραφείς 30,000 20,000 10,000 0,000-10,000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 SL FW -20,000-30,000 ΑΠΘ (24-25 Νοεμβρίου 2005) 30

Η σχέση υφομετρικών χαρακτηριστικών ενός κειμένου και της δυσκολίας κατανόησής του Υφομετρικοί παράγοντες που επηρεάζουν την δυσκολία κατανόησης ενός κειμένου 1,5 1 0,5 0-0,5-1 -1,5 Λόγος επιθέτων, ουσιαστικών προς τις υπόλοιπες λέξεις Λεξιλογική Πυκνότητα Type-Token λόγος Μέσο μήκος πρότασης Λόγος επιθέτων προς ουσιαστικά ΑΠΘ (24-25 Νοεμβρίου 2005) 31

Συμπεράσματα Η ποσοτικές μέθοδοι επιτρέπουν την θέαση της γλωσσικής χρήσης τόσο σε μικροσκοπικό όσο και σε μακροσκοπικό επίπεδο. Προσφέρουν ακριβείς ποσοτικές πληροφορίες που επιτρέπουν την μαθηματική περιγραφή των γλωσσικών φαινομένων. Επιτρέπουν τον εμπειρικό έλεγχο των γλωσσικών θεωριών. Λειτουργούν υποστηρικτικά σε ένα ευρύ φάσμα εφαρμογών γλωσσικής τεχνολογίας. Αλλά... Τα αποτελέσματα εξαρτώνται άμεσα από την ποσοτική και ποιοτική σύσταση των ΗΣΚ που χρησιμοποιούμε. Η φύση των πληροφοριών που αντλούνται είναι πιθανοτική και όχι κατηγορική. Δεν καλύπτεται το σύνολο των γλωσσικών φαινομένων. ΑΠΘ (24-25 Νοεμβρίου 2005) 32

Βιβλιογραφικές αναφορές Μικρός, Γ. & Καραγιάννης, Γ. (υπό δημοσίευση). Ποσοτική ανάλυση της χρήσης του κανόνα του τελικού -ν σε κείμενα της Νέας Ελληνικής. Στο Γλωσσολογία. Μικρός, Γ., Χατζηγεωργίου, Ν., Καραγιάννης, Γ. 2003. «Βασικά ποσοτικά μεγέθη στην γραπτή Νέα Ελληνική γλώσσα: η αξιοποίηση του ΕΘΕΓ στην ελληνική ποσοτική γλωσσολογία». Proceedings of the Workshop Text Processing for Modern Greek: From Symbolic to Statistical Aproaches, 20 Σεπτεμβρίου 2003, Ρέθυμνο, σσ. 23-37, ηλ. διαθέσιμο: http://www.philology.uoc.gr/conferences/6thicgl/ebook/ws/workshop@mikros.pdf Μικρός Γ. 2003. «Στατιστικές προσεγγίσεις στην αυτόματη κατηγοριοποίηση κειμένων της Νέας Ελληνικής: Μια πιλοτική αξιολόγηση υφομετρικών δεικτών και στατιστικών μεθόδων». Πρακτικά του 6ου Διεθνούς Συνεδρίου Ελληνικής Γλωσσολογίας, 18-21 Σεπτεμβρίου 2003, Ρέθυμνο, ηλ. διαθέσιμο: Http://www.philology.uoc.gr/conferences/6thICGL/ebook/a/mikros.pdf Hatzigeorgiu, N., Mikros, G. & Carayannis, G. (2001). Word length, word frequencies and Zipf s law in the Greek language. Journal of Quantitative Linguistics, Vol. 8, σσ. 175-185. Mikros, G. & Carayannis, G. 2000. Modern Greek Corpus Taxonomy. Proceedings of the 2nd International Conference on Language Resources and Evaluation (LREC), Vol.1, σσ. 129-134. Mikros, G., Hatzigeorgiu, N. & Carayannis, G. (2005). Basic quantitative characteristics of the Modern Greek Language using the Hellenic National Corpus. Journal of Quantitative Linguistics, Vol. 12, σσ. 167-184. ΑΠΘ (24-25 Νοεμβρίου 2005) 33