Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων

Σχετικά έγγραφα
Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας

Εισαγωγή στους Αλγορίθμους

Διοικητική Λογιστική

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Εισαγωγή στους Αλγορίθμους

Συστήματα Επικοινωνιών

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ποιοτική μεθοδολογία έρευνας στη Διδακτική των Μαθηματικών Ενότητα 7: Συγγραφή μιας εργασίας

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Παθολογία Σκληρών Οδοντικών Ιστών

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Media Monitoring. Ενότητα 1: Monitoring και άλλες μορφές έρευνας στα ΜΜΕ. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Κβαντική Επεξεργασία Πληροφορίας

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Βάσεις Περιβαλλοντικών Δεδομένων

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Κβαντική Επεξεργασία Πληροφορίας

Θεατρικές Εφαρμογές και Διδακτική της Φυσικής Ι

Φιλοσοφία της Ιστορίας και του Πολιτισμού

Εξελικτική Ψυχολογία. Ενότητα 3: Κληρονομικότητα και Περιβάλλον. Ασημίνα Ράλλη Φιλοσοφική Σχολή Τμήμα Φιλοσοφίας, Παιδαγωγικής και Ψυχολογίας

Φωνητική-Φωνολογία της Ιταλικής Γλώσσας

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Εισαγωγή στις Επιστήμες της Αγωγής

Χωρικές σχέσεις και Γεωμετρικές Έννοιες στην Προσχολική Εκπαίδευση

Θεατρικές Εφαρμογές και Διδακτική της Φυσικής Ι

Διοικητική Λογιστική

Διδακτική των εικαστικών τεχνών Ενότητα 2

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Αερισμός. Ενότητα 1: Αερισμός και αιμάτωση. Κωνσταντίνος Σπυρόπουλος, Καθηγητής Σχολή Επιστημών Υγείας Τμήμα Ιατρικής

Μηχανολογικό Σχέδιο Ι

Παιδαγωγική ή Εκπαίδευση ΙΙ

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Ιστορία της μετάφρασης

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Πρακτική Άσκηση σε σχολεία της δευτεροβάθμιας εκπαίδευσης

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διδακτική των εικαστικών τεχνών Ενότητα 1

Γενική Φυσική Ενότητα: Εισαγωγή στην Ειδική Θεωρία της Σχετικότητας

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Διδακτική των εικαστικών τεχνών Ενότητα 3

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοίκηση Επιχειρήσεων

Λειτουργία και εφαρμογές της πολιτιστικής διαχείρισης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Ποιοτική μεθοδολογία έρευνας στη Διδακτική των Μαθηματικών Ενότητα 1: Η έρευνα στη Διδακτική των Μαθηματικών

Εισαγωγή στους Υπολογιστές

Ψηφιακή Επεξεργασία Εικόνων

Ψηφιακές Επικοινωνίες

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Βέλτιστος Έλεγχος Συστημάτων

Έλεγχος Ποιότητας Φαρμάκων

Εξελικτική Ψυχολογία

Διδακτική των εικαστικών τεχνών Ενότητα 2

Γενική Φυσική Ενότητα: Ταλαντώσεις

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Συστήματα Επικοινωνιών

Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση

Τίτλος Μαθήματος: Εργαστήριο Φυσικής Ι

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση

Γενική Φυσική Ενότητα: Δυναμική Άκαμπτου Σώματος

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

ΛΟΓΙΚΟ-ΜΑΘΗΜΑΤΙΚΕΣ ΣΧΕΣΕΙΣ & ΑΡΙΘΜΗΤΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΕΚΠΑΙΔΕΥΣΗ

Ανάπτυξη Ανοικτού Ακαδημαϊκού Μαθήματος Ενότητα 1: Παρουσίαση Ανοικτού Ακαδημαϊκού Μαθήματος

Ποιοτική μεθοδολογία έρευνας στη Διδακτική των Μαθηματικών Ενότητα: Η διαχείριση του λάθους στην τάξη των μαθηματικών

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Λειτουργία και εφαρμογές της πολιτιστικής διαχείρισης

Διοικητική Λογιστική

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Τεχνικό Σχέδιο - CAD

Κβαντική Επεξεργασία Πληροφορίας

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Media Monitoring. Ενότητα 3: Σχεδιασμός και Πραγματοποίηση επιστημονικής ερευνητικής εργασίας. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

Transcript:

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Ενότητα 1: Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας Γεώργιος Κ. Μικρός Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας και Φιλολογίας

Ποσοτική γλωσσολογία Ποσοτική Γλωσσολογία (ΠΓ) είναι ο κλάδος εκείνος της Γλωσσολογίας που ασχολείται με την ποσοτική ανάλυση της γλωσσικής δομής και τη γλωσσολογική ερμηνεία της. Η ποσοτική ανάλυση χρησιμοποιείται για να ολοκληρωθεί η ποιοτική ανάλυση που διεξάγει ο κλάδος της θεωρητικής γλωσσολογίας. Γενικότερα, η χρήση ποσοτικών μεθόδων όπως αυτές που θα περιγραφούν παρακάτω λειτουργούν συμπληρωματικά με τις ποιοτικές θεωρήσεις ως προς την κατανόηση του γλωσσικού φαινομένου. 2

Ηλεκτρονικά Σώματα Κειμένων Η ποσοτική αντιμετώπιση της γλωσσικής χρήσης θα ήταν αδύνατη εάν δεν υπήρχαν τα Ηλεκτρονικά Σώματα Κειμένων Ορισμοί είναι η συλλογή τμημάτων γλώσσας τα οποία επιλέγονται και διατάσσονται σύμφωνα με συγκεκριμένα γλωσσολογικά κριτήρια έτσι ώστε να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα μιας συγκεκριμένης γλώσσας (EAGLES 1996). είναι μια συλλογή κειμένων η οποία είναι κωδικοποιημένη για τυποποιημένες (standardized) και ομοιογενείς εργασίες ανάκτησης γλωσσικής πληροφορίας. 3

Χαρακτηριστικά της έρευνας που βασίζεται στη χρήση ΗΣΚ Άμεση εξάρτηση από τα κείμενα που περιέχονται στο ΗΣΚ Η ποσοτική (μέγεθος) και η ποιοτική (κειμενική ποικιλία) σύσταση του ΗΣΚ διαμορφώνει τα αποτελέσματα που παίρνουμε από αυτό Αξιοποίηση των Η/Υ στην επεξεργασία του γλωσσικού υλικού Ταχύτητα και αξιοπιστία κατά την εκτέλεση τυποποιημένων εργασιών γλωσσικής ανάλυσης Ποσοτική και ποιοτική προσέγγιση της γλωσσικής χρήσης Η γλωσσική χρήση αντιμετωπίζεται ολιστικά και παρέχονται πληροφορίες τόσο για την ποσοτική δομή, όσο και για την λειτουργική αλληλεπίδραση των γλωσσικών στοιχείων 4

Ο ρόλος των Η/Υ στην ανάλυση των ΗΣΚ Δυνατότητα τεράστιας αποθήκευσης κειμενικών δεδομένων Μεγάλη ταχύτητα επεξεργασίας γλωσσικών δεδομένων (Wordsmith: 15.000 λέξεις το δλπτο) Συνεπής και «αλάνθαστη» απόδοση σε επαναληπτικές διαδικασίες 5

Ποσοτικές μελέτες στην ελληνική γλώσσα Χρονολογική αύξηση των ποσοτικών μελέτων στην ελληνική γλώσσα Συγκριτική αύξηση των ποσοτικών μελετών σχετικών με την ελληνική γλώσσα ανάλογα με το αν χρησιμοποιούν απλές ποσοτικές μεθόδους ή εξειδικευμένες στατιστικές τεχνικές % επί των δημοσιευμένων άρθρων ελληνικής γλωσσολογίας (Ν= 975) 25 20 15 10 5 0 1980-1985 1985-1990 1990-1995 1995-2000 Έτη % % επί των δημοσιευμένων άρθρων σχετικών με γλωσσολογικά θέματα 14 12 10 8 6 4 2 0 1980-1985 1985-1990 1990-1995 1995-2000 Έτη % Απλές ποσοτικές μελέτες % Χρήση στατιστικών τεχνικών 6

Ποσοτική ανάλυση της Νέας Ελληνικής Ανάλυση της γλωσσικής χρήσης Λίστες συχνότητας λέξεων Λεξικά σύμπλοκα Γλωσσική ποικιλία Στατιστικά χαρακτηριστικά της γλώσσας Υφομετρική ανάλυση κειμένων 7

Ανάλυση Γλωσσικής Χρήσης: Λίστες Συχνότητας Λεξιλογίου 8

Ανάλυση Γλωσσικής Χρήσης: Τα συχνότερα κύρια ονόματα Α/Α Λέξη Εμφανίσεις Συχνότητα (τοις χιλίοις) 1 Ελλάδα 30032 0,8754 % 2 Αθήνα 13020 0,3795 % 3 Τουρκία 11944 0,3481 % 4 Ευρώπη 8976 0,2616 % 5 Παπανδρέου 8855 0,2581 % 6 Έλληνας 7324 0,2135 % 7 Σημίτης 6226 0,1815 % 8 Θεσσαλονίκη 5888 0,1716 % 9 Ρέππας 4946 0,1442 % 10 Γιώργος 4837 0,1410 % 9

Ποσοστό χρήσης του τελικού -ν Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία Ι Ποσοστό χρήσης του τελικού -ν πριν από εξακολουθητικά ανάλογα με τον συγγραφέα (Εκδόσεις Καστανιώτη) 100,0 80,0 60,0 40,0 20,0 0,0 δεν μην σαν την την(αντ) τον Λέξεις 10

Ποσοστό διατήρησης τελικού έρρινου Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία ΙΙ Σύγκριση Πραγματικής και Ιδανικής Χρήσης του Κανόνα πριν από Εξακολουθητικά σύμφωνα 110 100 90 80 70 60 50 40 30 20 10 0 Πραγματική χρήση Ιδανική χρήση 11

ΠΟΣΟΣΤΟ ΠΡΟΕΡΡΙΝΟΠΟΙΗΣΗΣ Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία ΙΙΙ ΠΟΣΟΣΤΑ ΠΡΟΕΡΡΙΝΟΠΟΙΗΣΗΣ ΑΝΑ ΕΚΦΩΝΗΤΗ ΣΤΗΝ ΕΡΑ1 ΚΑΙ SKY 100,4 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 1 2 3 4 EKΦΩΝΗΤΕΣ SKY ERA1 12

Οι γλωσσικοί παράγοντες που σχετίζονται με την προερρινοποίηση H δύναμη της επίδρασης των παραγόντων στην προερρινοποίηση των ΗΚ 30 25 Wald 20 15 10 5 0 Μορφολογικά σύνθετο ΗΚ Προηγούμενο έρρινο Προηγούμενο Φωνήεν Είδος ΗΚ Τόνος Σύμφωνικό σύμπλεγμα Παράγοντες γλωσσικού περιβάλλοντος 13

Η επίδραση του γλωσσικού περιβάλλοντος στην προερρινοποίηση των ΗΚ Η επίδραση του γλωσσικού περιβάλλοντος στην προερρινοποίηση των ΗΚ 2,5 2 1,5 1 0,5 0 Μορφολογικά σύνετο ΗΚ Προηγούμενο έρρινο Τόνος Σύμφωνικό σύμπλεγμα Παράγοντες γλωσσικού περιβάλλοντος 14

Διερεύνηση της επίδρασης που ασκεί το φωνήεν που προηγείται ενός ΗΚ στην προερρινοποίηση Συγκριτική επίδραση που φωνήεντος που προηγείται του ΗΚ στην προερρινοποίησή του 1,5 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6 e i a o Φωνήεντα που προηγούνται του ΗΚ u 15

Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία ΙV 70 60 50 Περιπτώσεις διαφορετικής ορθογραφίας στα κείμενα του Υπουργείου Δικαιοσύνης 40 30 20 10 0 έξι/έξη εταιρεία/εταιρία εφορία/εφορεία καινούργιος/καινούριος Αποδεκτά Μη αποδεκτά Ορθογραφική ποικιλία 16

% Ανάλυση Γλωσσικής Χρήσης: Γλωσσική Ποικιλία V 100 90 80 70 60 50 40 30 20 10 0 Γλωσσική ποικιλία και λόγια στοιχεία στις εφημερίδες "που" / "οποίος" "-ης" / "-έως" Τελικό -ν 17

Στατιστικά χαρακτηριστικά της γλώσσας Ι Η συχνότητα των λέξεων παρουσιάζει μια «παράξενη» κανονικότητα όταν εξετάζεται σε μια Λίστα Συχνότητας Λεξιλογίου ΛΣΛ. Και 1000 Χ 1 = 1000 Του 500 Χ 2 = 1000 Της 333 Χ 3 1000 Το σταθερό γινόμενο (συχνότητα λέξης Χ σειρά κατάταξης σε ΛΣΛ) ονομάστηκε σταθερά του Zipf (c) και αντιπροσωπεύει την μαθηματική αποτύπωση της αρχής της ελάχιστης προσπάθειας που διέπει την ανθρώπινη επικοινωνία. 18

Στατιστικά χαρακτηριστικά της γλώσσας ΙΙ 19

Στατιστικά χαρακτηριστικά της γλώσσας ΙΙΙ 40 Σύγκριση του μήκους λέξης στις 1000 συχν. λέξεις και στο σύνολο του ΕΘΕΓ 30 % του λεξιλογίου 20 10 0 1 3 5 7 9 11 13 15 17 19 ΕΘΕΓ (Σύνολο) ΕΘΕΓ (1000 συχν.λέξ) Μήκος λέξης 20

Στατιστικά χαρακτηριστικά της γλώσσας ΙΙΙ Σύγκριση κατανομή του μήκους 25000 των λέξεων ανά κειμενικό μέσο 20000 15000 10000 Βιβλίο Εφημερίδα 5000 Περιοδικό 0 1 3 5 7 9 11 13 15 17 19 Αδιευκρίνιστο Μήκος λέξεων 21

Στατιστικά χαρακτηριστικά της γλώσσας IV Σχετική θέση των 1000 συχ. λέξεων ΕΘΕΓ 33 εκ. λέξεις 2000 1000 500 400 300 200 100 50 40 30 20 10 5 43 2 1 στις 2 εκδόσεις του ΕΘΕΓ 1 2 5 4 3 10 50 40 30 20 100 500 400 300 200 1000 2000 ΕΘΕΓ 13 εκ. λέξεις 22

Στατιστικά χαρακτηριστικά της γλώσσας V: Συχνότητες Γραμμάτων 12,00 Συχνότητα Γραμμάτων στον ΕΘΕΓ 10,00 Ποσοστό (%) 8,00 6,00 4,00 2,00 0,00 Α Ο Ι Ε Τ Σ Ν Η Υ Ρ Π Κ Μ Λ Ω Δ Γ Χ Θ Φ Β Ξ Ζ Ψ Γράμμα 23

Στατιστικά χαρακτηριστικά της γλώσσας V: Συχνότητες Γραμμάτων Distribution of stressed/unstressed letters in HNC 100% 80% 60% 40% 20% % Unstressed % Stressed 0% α ε ο ω ι η υ Letters 24

Στατιστικά χαρακτηριστικά της γλώσσας V: Συχνότητες Γραμμάτων Κατανομη της θέσης των γραμμάτων μέσα στην λέξη 100% 80% 60% % 40% Τέλος Μέση Αρχή 20% 0% A B Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω Γράμματα 25

Μερικά βασικά συμπεράσματα Οι 1000 συχνότερες λέξεις μένουν σταθερές ανεξαρτήτως του μεγέθους του ΗΣΚ που τις εξετάζουμε (89,5% ομοιότητα) Ο νόμος του Zipf ισχύει για τις 1000 συχνότερες λέξεις και λήμματα και εξηγεί την σταθερότητά τους. Η κατανομή του μήκους της λέξης ακολουθεί την Negative Binomial. Τα πιο συχνά φωνήεντα είναι τα «Α, Ο, Ι» και τα ποιο συχνά σύμφωνα είναι τα «Τ, Σ, Ν». 22% των φωνηέντων είναι τονισμένα. 26

Υφομετρικά χαρακτηριστικά και αναγνώριση αγνώστου συγγραφέα 27

Αυτόματη Αναγνώριση Συγγραφέα Λεξιλογικός πλούτος Yule s K Λεξιλογική πυκνότητα ΤΤR Μετρήσεις σε επίπεδο λέξης Μέσο μήκος λέξεων Κατανομή του μήκους λέξεων Μετρήσεις σε επίπεδο πρότασης Μέσο μήκος της πρότασης (σε λέξεις) Σημεία στίξης Μεταβλητές «Διγλωσσίας» Ποικιλία των τριτόκλιτων καταλήξεων σε ης και εως Ποικιλία στη χρήση των αναφορικών Διακριτικές τιμές 3ης συνάρτησης αντωνυμιών «που» και «οποίος» 80 συχνότερες λειτουργικές λέξεις 8 6 4 2 0-2 -4-6 -8-8 -6-4 -2 0 2 4 6 Συγγραφείς Παπ αδόπ ουλος Γαλανόπ ουλος Δημάκας Διακογιάννης Αποτέλεσμα: Σε σύνολο 1200 κειμένων 93,6% ακρίβεια αναγνώρισης του συγγραφέα Διακριτικές τιμές 2ης συνάρτησης

Διάγραμμα CUSUM 1 συγγραφέας 20,000 10,000 0,000-10,000-20,000-30,000-40,000-50,000 1 2 3 4 5 6 7 8 9 1011121314151617181920212223 SL FW 29

Διάγραμμα CUSUM 2 συγγραφείς 30,000 20,000 10,000 0,000-10,000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 SL FW -20,000-30,000 30

Η σχέση υφομετρικών χαρακτηριστικών ενός κειμένου και της δυσκολίας κατανόησής του Υφομετρικοί παράγοντες που επηρεάζουν την δυσκολία κατανόησης ενός κειμένου 1,5 1 0,5 0-0,5-1 -1,5 Λόγος επιθέτων, ουσιαστικών προς τις υπόλοιπες λέξεις Λεξιλογική Πυκνότητα Type-Token λόγος Μέσο μήκος πρότασης Λόγος επιθέτων προς ουσιαστικά 31

Συμπεράσματα Η ποσοτικές μέθοδοι επιτρέπουν την θέαση της γλωσσικής χρήσης τόσο σε μικροσκοπικό όσο και σε μακροσκοπικό επίπεδο. Προσφέρουν ακριβείς ποσοτικές πληροφορίες που επιτρέπουν την μαθηματική περιγραφή των γλωσσικών φαινομένων. Επιτρέπουν τον εμπειρικό έλεγχο των γλωσσικών θεωριών. Λειτουργούν υποστηρικτικά σε ένα ευρύ φάσμα εφαρμογών γλωσσικής τεχνολογίας. Αλλά... Τα αποτελέσματα εξαρτώνται άμεσα από την ποσοτική και ποιοτική σύσταση των ΗΣΚ που χρησιμοποιούμε. Η φύση των πληροφοριών που αντλούνται είναι πιθανοτική και όχι κατηγορική. Δεν καλύπτεται το σύνολο των γλωσσικών φαινομένων. 32

Βιβλιογραφικές αναφορές Μικρός, Γ. & Καραγιάννης, Γ. (υπό δημοσίευση). Ποσοτική ανάλυση της χρήσης του κανόνα του τελικού - ν σε κείμενα της Νέας Ελληνικής. Στο Γλωσσολογία. Μικρός, Γ., Χατζηγεωργίου, Ν., Καραγιάννης, Γ. 2003. «Βασικά ποσοτικά μεγέθη στην γραπτή Νέα Ελληνική γλώσσα: η αξιοποίηση του ΕΘΕΓ στην ελληνική ποσοτική γλωσσολογία». Proceedings of the Workshop Text Processing for Modern Greek: From Symbolic to Statistical Aproaches, 20 Σεπτεμβρίου 2003, Ρέθυμνο, σσ. 23-37, ηλ. διαθέσιμο: http://www.philology.uoc.gr/conferences/6thicgl/ebook/ws/workshop@mikros.pdf Μικρός Γ. 2003. «Στατιστικές προσεγγίσεις στην αυτόματη κατηγοριοποίηση κειμένων της Νέας Ελληνικής: Μια πιλοτική αξιολόγηση υφομετρικών δεικτών και στατιστικών μεθόδων». Πρακτικά του 6ου Διεθνούς Συνεδρίου Ελληνικής Γλωσσολογίας, 18-21 Σεπτεμβρίου 2003, Ρέθυμνο, ηλ. διαθέσιμο: Http://www.philology.uoc.gr/conferences/6thICGL/ebook/a/mikros.pdf Hatzigeorgiu, N., Mikros, G. & Carayannis, G. (2001). Word length, word frequencies and Zipf s law in the Greek language. Journal of Quantitative Linguistics, Vol. 8, σσ. 175-185. Mikros, G. & Carayannis, G. 2000. Modern Greek Corpus Taxonomy. Proceedings of the 2nd International Conference on Language Resources and Evaluation (LREC), Vol.1, σσ. 129-134. Mikros, G., Hatzigeorgiu, N. & Carayannis, G. (2005). Basic quantitative characteristics of the Modern Greek Language using the Hellenic National Corpus. Journal of Quantitative Linguistics, Vol. 12, σσ. 167-184. Mikros, G. (2005). Quantitative linguistics in Greece: an overview. Στο Altmann, G., Kohler, R.& Piotrowski, R. (eds), Quantitative Linguistics. An international handbook. Berlin: Walter De Gruyter, σσ. 136-142. Mikros, G. (2006). Authorship attribution in Modern Greek newswire corpora. Στο Uzuner, O., Argamon, S. & Karlgren, J. (eds), Proceedings of the SIGIR 2006 Workshop on Directions in Computational Analysis of Stylistics in Text Retrieval, Seattle, Washington, USA, August 10, 2006, σσ. 43-47, ηλ. διαθέσιμο: http://people.csail.mit.edu/ozlem/sigir_workshop_2006_proceedings.pdf 33

Τέλος Ενότητας

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στο πλαίσιο του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 35

Σημειώματα

Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση 1.0. 37

Σημείωμα Αναφοράς Copyright Εθνικόν και Καποδιστριακόν Πανεπιστήμιον Αθηνών, Γεώργιος Κ. Μικρός, 2015. Γεώργιος Κ. Μικρός. «Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Η ελληνική γλώσσα μέσα από αριθμούς». Έκδοση: 1.0. Αθήνα 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: http://opencourses.uoa.gr/courses/ill103. 38

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. 39

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους. 40

Σημείωμα Χρήσης Έργων Τρίτων "Η δομή και οργάνωση της παρουσίασης, καθώς και το υπόλοιπο περιεχόμενο, αποτελούν πνευματική ιδιοκτησία του συγγραφέα και του Πανεπιστημίου Αθηνών και διατίθενται με άδεια Creative Commons Αναφορά Μη Εμπορική Χρήση Παρόμοια Διανομή Έκδοση 4.0 ή μεταγενέστερη. Οι εικόνες/σχήματα/διαγράμματα/φωτογραφίες που περιέχονται στην παρουσίαση αποτελούν πνευματική ιδιοκτησία τρίτων. Απαγορεύεται η αναπαραγωγή, αναδημοσίευση και διάθεσή τους στο κοινό με οποιονδήποτε τρόπο χωρίς τη λήψη άδειας από τους δικαιούχους. " 41