Ελένη Αναστοπούλου MSc in Electronics

Transcript

1 ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΗΛΕΚΤΡΟΝΙΚΗΣ ΣΥΝΘΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΗΝ ΠΙΣΤΟΠΟΙΗΣΗ ΓΡΑΦΕΑ ΜΕ ΗΛΕΚΤΡΟΝΙΚΟ ΚΕΙΜΕΝΟ ΜΕΛΕΤΗ ΤΩΝ N-GRAMS Ελένη Αναστοπούλου MSc in Electronics Α.Μ.:139 ΠΑΤΡΑ

2 2

3 Πρόλογος Η πτυχιακή αυτή εργασία πραγματοποιήθηκε στο Εργαστήριο Ηλεκτρονικής του Τμήματος Φυσικής του Πανεπιστημίου Πατρών υπό την Επίβλεψη του Καθηγητή κ. Αναστασόπουλο Βασίλη, τον οποίο ευχαριστώ για την ευκαιρία που μου προσέφερε να εργαστώ πάνω σε αυτό το θέμα και τις πολύτιμες γνώσεις και εκπαίδευση που απέκτησα κάτω από την καθοδήγηση του. Θα ήθελα να ευχαριστήσω την κα Γεωργία Κούκιου για την σημαντική βοήθεια που μου προσέφερε κατά την διάρκεια της επεξεργασίας των δεδομένων και κυρίως στην χρήση των δικτύων νευρωνίων στην αναγνώριση του ύφους ηλεκτρονικού κειμένου. Κυρίως όμως θέλω να την ευχαριστήσω για το χρόνο που μου αφιέρωσε και την υπομονή που έδειξε σε όλη την διάρκεια της εργασίας. Τέλος, θέλω να ευχαριστήσω τον καθηγητή κ. Ευστάθιο Σταματάτο δεδομένου ότι η εργασία αυτή δεν θα είχε γίνει χωρίς την δική του συμπαράσταση. Ελένη Αναστοπούλου Μάρτης

4 4

5 ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγή Σελίδα 1.1 Υφομετρική ανάλυση Υφομετρικές μελέτες απόδοσης συγγραφέα Υφομετρικά χαρακτηριστικά-μέθοδοι ταυτοποίησης Διάθρωση διεπιστημονικής εργασίας Κεφάλαιο 2 Δεδομένα και εργαλεία ανάλυσης κειμένου 2.1 Αναφορά σε βάσεις (corpus) με κείμενα συγγραφέων Ορισμός ερευνητικού προβλήματος Εργαλεία εξαγωγής πληροφορίας από τα κείμενα Περιγραφή της βάσης που χρησιμοποιήσαμε. 16 Κεφάλαιο 3 Ν-γράμματα χαρακτήρων και μέτρα ομοιότητας 3.1 Ν-γράμματα χαρακτήρων Ερευνητική προσπάθεια μέχρι σήμερα Κοινή μέθοδος ν-γραμμάτων Απόσταση d0 P( x), P( T a) Απόσταση SPI Απόσταση d1 P( x), P( T a) Απόσταση d2 P( x), P( Ta ), P( N ) Μελέτη του τρόπου εμφάνισης των n-grams Συχνότητα εμφάνισης των n-grams στο κείμενο Σχόλια για την συχνότητα εμφάνισης...24 Κεφάλαιο 4 Πειραματικά αποτελέσματα 4.1. Σχόλια στις αποστάσεις Majority voting Αξιολόγηση των 3-grams χρησιμοποιώντας διάφορες αποστάσεις Τρόπος συν-εμφάνισης των 4grams Τεχνικά Νευρωνικά Δίκτυα στην αναγνώριση συγγραφέα.39 Κεφάλαιο 5 Συμπεράσματα και προτάσεις για περαιτέρω έρευνα...42 ΠΑΡΑΡΤΗΜΑ Α Εύρεση επιτυχίας με την απόσταση d1n για όλα τα ngram 43 ΠΑΡΑΡΤΗΜΑ Β Πρόγραμμα εύρεσης ομοιότητας των profiles

6 6

7 Κεφάλαιο 1 ΕΙΣΑΓΩΓΗ 1.1 Υφομετρική Ανάλυση Η έννοια του ύφους έχει απασχολήσει τον άνθρωπο από πολύ παλιά. Αν θα μπορούσαμε να δώσουμε έναν ορισμό θα λέγαμε ότι ύφος είναι το σύνολο των ιδιαιτεροτήτων που χαρακτηρίζουν το άτομο στο γραπτό και προφορικό λόγο. Στόχος της υφομετρίας είναι η αναπαράσταση του ύφους ενός κειμένου με βάση τη μέτρηση παραμέτρων που συχνά καλούνται δείκτες ύφους. Δηλαδή η υφομετρική ανάλυση προσπαθεί να ποσοτικοποιήσει τη γλώσσα ενός κειμένου, με σκοπό να ανιχνευτούν διάφορα χαρακτηριστικά που μπορούν να μετρηθούν αυτόματα από υπολογιστικά εργαλεία. 1.2 Υφομετρικές Μελέτες Απόδοσης Συγγραφέα Ήδη από τον 18 ο αιώνα έως σήμερα, η υφομετρία ως μέθοδος απόδοσης συγγραφικής πατρότητας εξελίχθηκε ταχύτατα. Η πρώτη προσπάθεια να ποσοτικοποιηθεί το ύφος κειμένων γίνεται από τον Mendenhall (1887) στα έργα του Σαιξπηρ. Ακολουθούν στα μισά του 20 ου αιώνα στατιστικές μελέτες του Yule (1938,1944) και του Zipf (1932). Όμως το πιο διάσημο πρόβλημα συγγραφικής πατρότητας του 20 ου αιώνα, το οποίο μελετήθηκε από τους Mosteller και Wallace (1964), είναι τα Ομοσπονδιακά Κείμενα των ΗΠΑ (The Federalist papers). Γράφτηκαν από τους Alexander Hamilton, John Jay και James Madison με στόχο να πείσουν τους πολίτες να επικυρώσουν το σύνταγμα των ΗΠΑ. Η μέθοδός τους βασίστηκε στην Bayesian στατιστική ανάλυση της συχνότητας κοινών λέξεων. Από τότε και μέχρι την πρόσφατη δεκαετία του 90 η έρευνα στην απόδοση συγγραφέα έχει εστιάσει στα χαρακτηριστικά ύφους, γνωστή ως «stylometry» (Holmes 1998). Τα μέτρα αυτά συμπεριλαμβάνουν το μήκος πρότασης, μήκος λέξης, συχνότητα λέξης και την αφθονία λεξιλογίου. 1.3 Υφομετρικά Χαρακτηριστικά-Μέθοδοι Ταυτοποίησης Η εργασία αυτή στοχεύει να παρουσιάσει έναν κλάδο της επιστήμης που διερευνά τρόπους με τους οποίους μπορούμε να προσδιορίσουμε αυτόματα τον συγγραφέα ενός κειμένου. Αυτό απαιτεί την συνεργασία επιστημών όπως η Γλωσσολογία, η Ανάκτηση 7

8 πληροφορίας, η Στατιστική και η Μηχανική Μάθηση. Η έρευνα την τελευταία δεκαετία έχει σημειώσει πρόοδο στον αυτόματο εντοπισμό συγγραφέα, τόσο ως προς την αξιοπιστία των μεθόδων που χρησιμοποιεί, όσο και ως προς την αποτελεσματικότητα τους. Θα ασχοληθούμε με προβλήματα στα οποία θα εντοπίσουμε την πατρότητα ενός ή περισσότερων ανώνυμων κειμένων μέσα από μια συγκεκριμένη βάση δεδομένων, όπου υπάρχουν δείγματα γραφής ηλεκτρονικού κειμένου. Τέτοιου είδους προβλήματα επιλύονται με την μέθοδο ταξινόμησης. Η μέθοδος αυτή στην ουσία εκπαιδεύει έναν αλγόριθμο, όπου στην είσοδό του δέχεται δεδομένα εκπαίδευσης όπως τα υφομετρικά χαρακτηριστικά ενός κειμένου, με σκοπό στην έξοδο να προβλέπεται με ακρίβεια ο συγγραφέας. Για την εκπαίδευση του αλγορίθμου θα πρέπει να μετατρέψουμε το κείμενο σε μια σειρά μετρήσεων. Επιλέγουμε τα κειμενικά χαρακτηριστικά που θα ποσοτικοποιηθούν και στη συνέχεια με το κατάλληλο λογισμικό γίνεται το μέτρημα. Τα χαρακτηριστικά που μπορεί να επιλέξει κανείς σε ένα κείμενο είναι αρκετά σε γλωσσικό επίπεδο. Συνήθως όμως επιλέγονται αυτά που μπορούν να μετρηθούν αυτόματα με εργαλεία Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Το σύνολο των μετρήσεων που κάνουμε στα κείμενα ενός συγγραφέα δημιουργούν το υφομετρικό του προφίλ, το οποίο μπορεί να συγκριθεί με άλλα διαφορετικών συγγραφέων και να εξάγουμε τα σχετικά συμπεράσματα. Οι μέχρι τώρα μελέτες για να αποδώσουν το ύφος γραψίματος ενός κειμένου έχουν ταξινομήσει τα χαρακτηριστικά γνωρίσματα (stylometric features) σε: Λεξιλογικά χαρακτηριστικά Σε αυτή την περίπτωση το κείμενο εμφανίζεται ως μια ακολουθία σημείων που μπορεί να αντιστοιχεί σε λέξεις, αριθμούς ή σημεία στίξης. Τα πρώτα μέτρα που χρησιμοποιήθηκαν ήσαν το μήκος πρότασης και το μήκος λέξης. Σε αυτό συμβάλει το μέγεθος του λεξιλογίου που καθορίζει το μήκος του κειμένου. Μια άλλη προσέγγιση του ύφους ενός κειμένου είναι η συχνότητα των λέξεων. Οι πιο κοινές λέξεις (άρθρα, προθέσεις κλπ) είναι τα καλύτερα χαρακτηριστικά γνωρίσματα για να συγκρίνει κανείς συγγραφείς, επειδή δεν φέρνουν σημασιολογικές πληροφορίες και καλούνται λέξεις λειτουργίας. Τέλος στην κατηγορία των λεξιλογικών χαρακτηριστικών ανήκουν τα ν-γράμματα (n-grams) χαρακτήρων, τα οποία αποτελούν ένα από τα πιο σημαντικά υφομετρικά χαρακτηριστικά στον ακριβή εντοπισμό 8

9 συγγραφέα. Πιο συγκεκριμένα, ν-γράμμα είναι μια συνεχόμενη ακολουθία ν τεμαχίων ενός κειμένου. Συντακτικά χαρακτηριστικά Μια άλλη μέθοδος ταξινόμησης κειμένων είναι οι συντακτικές πληροφορίες. Συνήθως οι συγγραφείς ασυναίσθητα χρησιμοποιούν παρόμοια συντακτικά πρότυπα. Για να εξάγουμε συντακτικές πληροφορίες από τα κείμενα που θα βοηθήσουν στην αναγνώριση συγγραφέα χρειαζόμαστε ένα εργαλείο, ικανό να εκτελεί την συντακτική ανάλυση. Εδώ βέβαια είναι απαραίτητη η βοήθεια της γλωσσολογίας. Η χρήση της αυτόματης συντακτικής ανάλυσης (parsing) διαδόθηκε την δεκαετία του 90 και αποτελεί ένα εξελισσόμενο εργαλείο της επεξεργασίας φυσικής γλώσσας. Στην υφομετρική ανάλυση, οι πληροφορίες που εξάγονται από τη χρήση της σύνταξης βασίζονται στον τρόπο με τον οποίο ο συγγραφέας συνδυάζει τις γλωσσικές κατηγορίες για να πάρει γραμματικά ορθές προτάσεις. Επομένως οι φράσεις ενός κειμένου μπορούν να κατηγοριοποιηθούν συντακτικά σε ονοματικές, ρηματικές, προθετικές, επιρρηματικές κλπ. Επίσης αρκετές έρευνες στην αναγνώριση συγγραφέα έχουν εξετάσει υφομετρικά χαρακτηριστικά που προκύπτουν από το βάθος του συντακτικού δέντρου. Μια πρόταση μπορεί να αναλυθεί ως εξής: Π ΟΦ ΡΦ Α Ο Ρ ΟΦ ΠΦ Α Ο Π ΟΦ Α Ο Όπου: Π: πρόταση, ΟΦ: ονοματική φράση, ΡΦ: ρηματική φράση, ΠΦ: προθετική φράση, Α: άρθρο, Ο: ουσιαστικό, Ρ: ρήμα. Το βάθος της διακλάδωσης της πρότασης αντιστοιχεί σε μια αριθμητική τιμή από την οποία εξάγεται το ιστόγραμμά της. 9

10 Ακόμα στο κομμάτι του συντακτικού τομέα εντάσσονται και τα μέρη του λόγου (parts of speech). Η ανάλυση ενός κειμένου σε γραμματικές κατηγορίες χρησιμοποιήθηκαν για την απόδοση συγγραφέα, ήδη από το Yule (1944). Συγκεκριμένα μετρούσε την συχνότητα των μερών του λόγου (ουσιαστικά, ρήματα κ.α). Πλέον στις μέρες μας τα μέρη του λόγου ως υφομετρικά χαρακτηριστικά είναι σημαντικά, γιατί με την βοήθεια της επεξεργασίας φυσικής γλώσσας υπάρχουν διαθέσιμοι μορφολογικοί αναλυτές που επιτρέπουν την κατηγοριοποίηση ενός κειμένου σε μέρη του λόγου. Για παράδειγμα ένα τέτοιο λογισμικό αναλύει την πρόταση «Η Ελένη γράφει το κείμενο» σε «Η_ άρθρο Ελένη_ ουσιαστικό γράφει_ ρήμα το_ άρθρο κείμενο_ ουσιαστικό». Αυτό έχει σαν αποτέλεσμα όταν αναλυθεί το κείμενο σε μέρη του λόγου να μετρήσουμε την κανονικοποιημένη συχνότητα τους ως προς το συνολικό μέγεθος του κειμένου. Στην συνέχεια οι τιμές αυτές εισάγονται ως δεδομένα εκπαίδευσης σε έναν αλγόριθμο κατηγοριοποίησης. Σημασιολογικά χαρακτηριστικά Η σημασιολογική ανάλυση είναι μια πιο σύνθετη διαδικασία στην γλωσσική έρευνα και για αυτό στην απόδοση συγγραφικής πατρότητας λίγες έρευνες κάνουν χρήση σημασιολογικών χαρακτηριστικών. Τα χαρακτηριστικά αυτά εστιάζουν στον τρόπο με τον οποίο κάθε συγγραφέας χρησιμοποιεί τις έννοιες φτιάχνοντας το προσωπικό του στυλ. Ο Gamon (2004) με ένα ειδικό λογισμικό δημιούργησε σημασιολογικούς γράφους και μέτρησε τα σημασιολογικά χαρακτηριστικά και τις σημασιολογικές σχέσεις τροποποίησης. Στην πρώτη περίπτωση εντάσσονται ο αριθμός των ονομάτων και αντωνυμιών και η ενέργεια των ρημάτων. Στην δεύτερη περίπτωση ανήκουν οι σχέσεις που έχουν δυο εξαρτημένοι κόμβοι. Άλλες μελέτες όπως του Argamon (2007) εισάγουν την θεωρία της συστημικής λειτουργικής γραμματικής (systemic functional grammar), η οποία μετράει λειτουργικά λεξικά χαρακτηριστικά δημιουργώντας ένα δίκτυο νοημάτων. Ένα τέτοιο δίκτυο είναι η Συνοχή (conjunction) που αποτελείται από λέξεις οι οποίες συνδέουν τις προτάσεις του κειμένου (π.χ. το «και», «ενώ» κ.α.). Τέλος στον αυτόματο εντοπισμό συγγραφέα έχει συμβάλει το Wordnet. Μια λεξική βάση δεδομένων της Αγγλικής που περιλαμβάνει ουσιαστικά, επίθετα, ρήματα και επιρρήματα, τα οποία ομαδοποιούνται σε συνώνυμα. Με αυτό τον τρόπο διασυνδέονται όχι μόνο οι λέξεις αλλά και οι έννοιες τους (π.χ. υπώνυμα, υπερώνυμα κ.α.). Οι ερευνητές καταλήγουν στο συμπέρασμα ότι κάθε 10

11 συγγραφέας έχει διαφορετικούς τρόπους για να επιλέξει συνώνυμα στο κείμενο του και το χαρακτηριστικό αυτό βοηθάει στον εντοπισμό του. 1.4 Διάθρωση της διεπιστημονικής εργασίας Η εργασία αυτή περιλαμβάνει στην συνέχεια τέσσερα κεφάλαια τα οποία έχουν ως εξής. Στο κεφάλαιο 2 περιγράφονται τα σύγχρονα εργαλεία ανάλυσης κειμένου αλλά και οι βάσεις δεδομένων (Corpus) που είναι διαθέσιμα. Περιγράφεται επίσης η βάση δεδομένων που χρησιμοποιούμε για να εξάγουμε πειραματικά αποτελέσματα. Στο κεφάλαιο 3, γίνεται εισαγωγή στα n-grams και αναπτύσσονται τα βασικότερα μέτρα ομοιότητας τα οποία είναι απαραίτητα για τον διαχωρισμό του ύφους γραφής από ηλεκτρονικό κείμενο. Στο κεφάλαιο 4 παρουσιάζονται τα πειραματικά αποτελέσματα που έχουν ληφθεί με τα n-grams. Σε αυτά περιλαμβάνονται και τα δίκτυα νευρωνίων. Τέλος στο κεφάλαιο 5 δίνονται τα συμπεράσματα και προτάσεις για περαιτέρω έρευνα στον τομέα αυτόν. 11

12 ΚΕΦΑΛΑΙΟ 2 ΔΕΔΟΜΕΝΑ ΚΑΙ ΕΡΓΑΛΕΙΑ ΑΝΑΛΥΣΗΣ ΚΕΙΜΕΝΟΥ 2.1 Αναφορά σε βάσεις (corpus) με κείμενα συγγραφέων. Η παράγραφος αυτή θα αναφερθεί σε ηλεκτρονικά σώματα κατάρτισης (dataset) που έχουν αναπτυχθεί στη διεθνή έρευνα και στοχεύουν στην διερεύνηση της συγγραφικής πατρότητας. Θα περιγραφούν οι πιο δημοφιλείς βάσεις που περιέχουν κείμενα συγγραφέων από τις οποίες εξάγονται υφομετρικά χαρακτηριστικά που συμβάλλουν στην αναγνώριση γραφέα. Μερικές βάσεις δεδομένων (corpus) που συγκεντρώνουν ένα ικανοποιητικό αριθμό κειμένων από υποψήφιους συγγραφείς είναι οι εξής: a. Reuters Corpora (RCV1, RCV2, TRC2) Κυκλοφόρησε το Περιλαμβάνει μια μεγάλη συλλογή κειμένων για χρήση στην έρευνα και την ανάπτυξη της φυσικής γλώσσας επεξεργασίας (NLP), την ανάκτηση πληροφοριών και τα συστήματα μηχανικής μάθησης. Από το 2004 την διαχείριση αυτής της βάσης έχει αναλάβει το Εθνικό Ινστιτούτο Επιστήμης και Τεχνολογίας (NIST). Το σώμα αυτό είναι γνωστό ως «Reuters Corpus Volume». Η συλλογή αυτή έχει βοηθήσει στις πειραματικές έρευνες ταξινόμησης κειμένου. Τα δεδομένα διατίθονται από τις βάσεις: RCV1: Περιέχει κείμενα αγγλικής γλώσσας γραμμένα την χρονική περίοδο ως Διανέμεται σε δυο CDs περίπου 2.5 GB. RCV2: Περιέχει κείμενα σε δεκατρείς γλώσσες (ολλανδικά, γαλλικά, γερμανικά, κινέζικα, ιαπωνικά, ρώσικα, πορτογαλικά, ισπανικά, ιταλικά, δανικά, νορβηγικά, και σουηδικά). Είναι άρθρα τοπικών εφημερίδων και διανέμεται σε ένα CD. TRC2 (Thomson Reuters Collection): αποτελείται από ειδήσεις που καλύπτουν την χρονική περίοδο ως Η βάση αυτή διανέμεται μέσω web. 12

13 b. British National Corpus (BNC) To BNC είναι μια συλλογή από 100 εκατομμύρια λέξεις στα βρετανικά αγγλικά του 20 ου αιώνα. Αποτελείται από δύο μέρη. Το γραπτό μέρος (90%) περιλαμβάνει αποσπάσματα κειμένων από εφημερίδες, ειδικευμένα περιοδικά, περιοδικά για διάφορες ηλικίες και ενδιαφέροντα, ακαδημαϊκά βιβλία, λογοτεχνία κλπ. Το προφορικό μέρος (10%) αποτελείται από συζητήσεις που καταγράφονται από εθελοντές διαφορετικής ηλικίας, περιοχής και κοινωνικής τάξης. Το σώμα είναι κωδικοποιημένο σύμφωνα με τις κατευθυντήριες γραμμές της πρωτοβουλίας κωδικοποίησης κειμένου. Τα κείμενα που επιλέχθηκαν για να συμπεριληφθούν στο σώμα καλύπτουν τα εξής κριτήρια: το τομέα, το χρόνο και το μέσο δημοσίευσης. c. Το σώμα κατάρτισης ιστολογιών (blogs) Τα κείμενα των ιστολογιών έχουν σημαντικό γλωσσικό ενδιαφέρον γιατί συνδυάζουν προσωπική ειδησεογραφία του κάθε γραφέα αλλά και αναφορά σε επίκαιρα γεγονότα. Τα ιστολόγια έχουν ευρεία χρήση στο διαδίκτυο. Παράγουν αναρτήσεις κάθε μέρα και διαβάζονται από τους χρήστες του διαδικτύου. Στο βιβλίο του ο Μικρός (2012) αναφέρει ότι χρησιμοποίησε μια βάση με 1000 αναρτήσεις ιστολογιών από 20 γραφείς με 50 αναρτήσεις ο καθένας. Το συνολικό μέγεθος της βάσης είναι λέξεις περίπου. d. Βάση δεδομένων GRUHD Περιέχει ελληνικούς χαρακτήρες, λέξεις, ψηφία και σύμβολα σε χειρόγραφη μορφή. Η βάση αυτή αποτελείται από φόρμες που περιέχουν 670 χειρόγραφα σύμβολα και 103 λέξεις γραμμένες από γραφείς, 500 άνδρες και 500 γυναίκες. Η βάση GRUHD (Kavalieratou 2001) συνοδεύεται από το κατάλληλο λογισμικό που διευκολύνει την εγκατάσταση και επιτρέπει στο χρήστη να εξάγει και να επεξεργάζεται τα δεδομένα. 2.2 Ορισμός ερευνητικού προβλήματος Στην παρούσα εργασία θα ασχοληθούμε με κλειστά προβλήματα απόδοσης συγγραφέα. Πιο αναλυτικά γνωρίζουμε εκ των προτέρων ότι το άγνωστο κείμενο έχει γραφτεί από συγκεκριμένους συγγραφείς για τους οποίους διαθέτουμε μια βάση κειμένων από αυτούς τους συγγραφείς. 13

14 Έστω ότι έχουμε ένα άγνωστο κείμενο και την πατρότητα την διεκδικούν περιορισμένος αριθμός γραφέων (όπως αναφέρεται παρακάτω οι συγγραφείς είναι δέκα). Χρειάζεται να γίνουν κάποια βήματα για να αναλυθεί υφομετρικά το πρόβλημα, ώστε το κείμενο να αποδοθεί στο σωστό γραφέα. Στη συνέχεια θα αναφέρουμε τις ενέργειες, οι οποίες πρέπει να γίνουν για να φτάσουμε στη λύση του προβλήματος. Πρώτα από όλα απαιτείται η κατάλληλή βάση συγγραφέων. Πρέπει να συγκεντρωθεί ένας ικανοποιητικός αριθμός κειμένων από συγγραφείς. Συνήθως αυτό είναι μια δύσκολη διαδικασία γιατί όπως αναφέραμε στην προηγούμενη παράγραφο τα κείμενα που θα επιλεχτούν για να πλαισιώσουν την βάση πρέπει να είναι ομοιογενή. Δηλαδή τα υφομετρικά χαρακτηριστικά σχετίζονται με το είδος του κειμένου, την περιοχή, το μέσο δημοσίευσης, την χρονική περίοδος κλπ. Έπειτα αφού οριστεί το σώμα κατάρτισης πρέπει να μετρηθούν τα υφομετρικά χαρακτηριστικά. Ποιοι δείκτες θα επιλεχτούν εξαρτάται από τον ερευνητή, το είδος του κειμένου που εξετάζει, τα εργαλεία που έχει στη διάθεση του για να κάνει την μέτρηση και τι πληροφορία μπορούν να του δώσουν. Επομένως άλλοτε επιλέγονται λεξικά χαρακτηριστικά, άλλοτε συντακτικά και ούτω κάθε εξής. Τέλος θα πρέπει να αναφερθεί ότι είναι αναγκαίο να είναι γνωστή και η ακρίβεια των εργαλείων τα οποία κάνουν την μέτρηση. Για παράδειγμα αν κάποιος κάνει συντακτική ανάλυση σε ένα κείμενο πρέπει να ξέρει τα ποσοστά ακρίβειας και τι λάθη κάνει ο αναλυτής (parser) που διαθέτει. Το επόμενο βήμα είναι η εκπαίδευση του αλγορίθμου. Ολοκληρώνοντας την μέτρηση των υφομετρικών δεικτών και δημιουργώντας τους πίνακες δεδομένων ήρθε η ώρα της ανάλυσής τους. Σε αυτό ρόλο θα παίξει η επιλογή του κατάλληλου αλγορίθμου ταξινόμησης. Στη βιβλιογραφία θα βρει κανείς μεγάλη ποικιλία αλγορίθμων. Αρκετοί από αυτούς απαιτούν ένα βασικό μαθηματικό υπόβαθρο που πρέπει να γνωρίζει ο ερευνητής για να κάνει την σωστή επιλογή που θα του δώσει την μεγαλύτερη αξιοπιστία. Στη συνέχεια ακολουθεί η αξιολόγηση της μηχανικής μάθησης. Η εκπαίδευση του αλγορίθμου σχετίζεται άμεσα με τα δεδομένα εκπαίδευσης που του δόθηκαν. Η επιβεβαίωση της μάθησης γίνεται με την βοήθεια των δεδομένων ελέγχου (test corpus). Τα δεδομένα αυτά αξιολογούν αν η μάθηση είναι τοπική ή γενική. Το τελευταίο βήμα είναι η απόδοση της συγγραφικής πατρότητας. Εφόσον αξιολογηθεί ο αλγόριθμος και είναι γνωστή η ακρίβεια του συνδυασμού των χαρακτηριστικών με αυτόν, εισχωρούμε στην απόδοση του άγνωστου κειμένου. 14

15 2.3 Εργαλεία εξαγωγής πληροφορίας από τα κείμενα Όπως έχει προαναφερθεί, αφού οριστεί η κατάλληλη βάση συγγραφέων με ένα ικανοποιητικό αριθμό κειμένων, η επόμενη ενέργεια είναι η μέτρηση των υφομετρικών χαρακτηριστικών στα κείμενα. Αυτό επιτυγχάνεται με ειδικά εργαλεία που έχουν σχεδιαστεί με τέτοιο τρόπο, ώστε να μετράνε μια γκάμα δεικτών στα κείμενα και να δημιουργούν πίνακες δεδομένων στους οποίους τα χαρακτηριστικά είναι οι στήλες και τα κείμενα οι σειρές. Τέτοια εργαλεία που χρησιμοποιούνται για να εξάγουν πληροφορία από τα κείμενα είναι τα εξής: 1. Αναλυτής λεξικών μονάδων: Το λογισμικό αυτό αναλύει τα κείμενα μιας βάσης συγγραφέων και βρίσκει τις βασικές λεξικές μονάδες (tokens) και τις μετατρέπει σε πεζά γράμματα. Ο όρος βασικές λεξικές μονάδες αναφέρεται στο μήκος λέξης, μήκος πρότασης, ορθογραφικά λάθη κλπ. 2. Εργαλείο μέτρησης ν-γραμμάτων: Μετράει τη σχετική συχνότητα των ν- γραμμάτων χαρακτήρων και λέξεων σε μια βάση κειμένων. Συμπεριλαμβάνει τα κενά και τα σημεία στίξης στα αποτελέσματα. 3. Εργαλείο μέτρησης λεξικών χαρακτηριστικών: Μετράει τη σχετική συχνότητα εμφάνισης συγκεκριμένων λέξεων που έχει ορίσει ο χρήστης εκ των προτέρων. 4. Μορφολογικός αναλυτής (Part of Speech Tagger): Γνωστοί μορφολογικοί αναλυτές είναι: ο Tree Tagger, ο οποίος τρέχει τα κείμενα και εξάγει μορφολογική πληροφορία και εφαρμόζεται και στα ελληνικά κείμενα. 5. Εργαλείο μέτρησης υφομετρικών χαρακτηριστικών: Το λογισμικό αυτό αναλύει τα κείμενα και μετράει δείκτες όπως: την σχετική συχνότητα των λέξεων που εμφανίζονται στο κείμενο με συχνότητα ένα και δυο, το μέσο μήκος λέξης, το μέσο μήκος πρότασης, τη συχνότητα γραμμάτων, την συχνότητα των σημείων στίξης κ.α. Ο κλάδος ο οποίος ασχολείται με την αξιολόγηση της πληροφορίας στα κείμενα, λέγεται Natural Language Processing (NLP). Η στατική επεξεργασία των δεδομένων λέγεται Statistical NLP και μπορεί να μας δώσει συμπεράσματα για πολλά χαρακτηριστικά του κειμένου. Για παράδειγμα μπορούμε να ψάχνουμε τον τρόπο εμφάνισης των προθέσεων σε ένα κείμενο και να αποφασίζουμε για τον γραφέα. Τρία είναι τα αντικείμενα ή οι περιοχές στην στατιστική επεξεργασία της γλώσσας: α) Να 15

16 χωρίσουμε τα δεδομένα εκπαίδευσης σε κατηγορίες, β) να βρούμε καλούς στατιστικούς εκτιμητές για κάθε κατηγορία και να συνδυάσουμε πολλαπλούς εκτιμητές. Στην εργασία αυτή γίνεται στατιστική μελέτη των n-grams. Χρησιμοποιούμε ως χαρακτηριστικό την πιθανότητα εμφάνισης συγκεκριμένου n-grams (π.χ. 4-grams) και για κάθε ένα κείμενο συγκεκριμένου γραφέα το τελικό χαρακτηριστικό είναι η κατανομή (πιθανότητα εμφάνισης) όλων των n-grams (4-grams) που εμφανίζονται στο κείμενο. Πρόκειται στην πράξη για διακριτή πυκνότητα πιθανότητας (ιστόγραμμα), που τα στοιχεία της αθροίζουν στην μονάδα. Η σύγκριση (estimation process) διαφορετικών κειμένων και η συμπερασματολογία θα στηριχθεί στη σύγκριση αυτών των ιστογραμμάτων. 2.4 Περιγραφή της βάσης που χρησιμοποιήσαμε Για να εξετάσουμε το πρόβλημα που περιγράψαμε σε προηγούμενες παραγράφους, έπρεπε να διαθέτουμε βάση δεδομένων με κείμενα συγγραφέων. Η βάση που επιλέξαμε περιλαμβάνει μια συλλογή κειμένων ειδησεογραφικού χαρακτήρα από δέκα συγγραφείς που γράφτηκαν στην ίδια εφημερίδα (ΤΟ ΒΗΜΑ), με παρόμοια θεματογραφία και την χρονική περίοδο 1997 ως Οι δημοσιογράφοι που αρθρογραφούν είναι: ο Μπήτρος, ο Χαλβατζής, ο Λακόπουλος, ο Λιανός, ο Μαράκης, ο Μητρόπουλος, ο Νικολακόπουλος, ο Νικολάου, ο Ψυχογιός και ο Σωμερίτης. Η βάση περιλαμβάνει συνολικά 200 κείμενα από 10 κείμενα σε κάθε γραφέα τα οποία χρησιμοποιούνται για την εκπαίδευση (training) και 10 κείμενα από κάθε συγγραφέα, επίσης τα οποία χρησιμοποιούνται για τον έλεγχο του αλγορίθμου αναγνώρισης. Επιπλέον υπάρχει μια παρόμοια βάση με άλλους 10 συγγραφείς για περαιτέρω έλεγχο. Συνολικά είναι διαθέσιμα 400 κείμενα. Στον πίνακα 1 που ακολουθεί δίνονται τα περιγραφικά στατιστικά στοιχεία του σώματος εκπαίδευσης Πίνακας 1. Το ένα τέταρτο της διαθέσιμης βάσης με συγγραφείς και τα χαρακτηριστικά του. Συγγραφείς Αριθμός Μ.Ο. Μέγιστο Ελάχιστο κειμένων χαρακτήρων μέγεθος μέγεθος ανά κείμενο Μπήτρος

17 Χαλβατζής Λακόπουλος Λιανός Μαράκης Μητρόπουλος Νικολακόπουλος Νικολάου Ψυχογιός Σωμερίτης Παρατηρώντας τα περιγραφικά στοιχεία βλέπουμε διαφορές ως προς το μέγεθος των κειμένων των συγγραφέων. Κάποια κείμενα είναι πολύ μεγάλα σε χαρακτήρες σε σχέση με το μέσο όρο και κάποια άλλα αρκετά μικρά. Τα πιο μικρά δέκα κείμενα φαίνεται να είναι του Ψυχογιού. Επομένως παρόλο που οι συγγραφείς μοιράζονται πάνω κάτω τα ίδια χαρακτηριστικά το μήκος των κειμένων τους διαφοροποιείται αισθητά. 17

18 ΚΕΦΑΛΑΙΟ 3 Ν-ΓΡΑΜΜΑΤΑ ΧΑΡΑΚΤΉΡΩΝ ΚΑΙ ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ 3.1 Ν-γράμματα χαρακτήρων Τα ν-γράμματα χαρακτήρων (n-grams) αποτελούν ένα από τα πιο αξιόπιστα υφομετρικά χαρακτηριστικά στην απόδοση συγγραφικής πατρότητας. Με τον όρο ν- γράμμα εννοούμε μια ακολουθία ν τεμαχίων από ένα συγκεκριμένο κείμενο. Μπορεί να έχουμε ν-γράμματα με βάση τον χαρακτήρα, την συλλαβή, τη λέξη, τα σημεία στίξης κλπ. Οι διάφορες τιμές του ν δημιουργούν ν-γράμματα διαφορετικού μήκους. Έτσι για ν=1 έχουμε τα μονογράμματα (unigrams), για ν=2 τα διγράμματα (2-grams), για ν=3 τα γράμματα τριών χαρακτήρων (3-grams) κλπ. Για να γίνουμε πιο σαφείς θα δώσουμε ένα παράδειγμα ανάλυσης μιας πρότασης σε τριγράμματα. Έστω ότι η πρόταση είναι: «Ο ναύτης εργάζεται στα καράβια». Η ανάλυσή της γίνεται ως εξής: [Ο_ν], [ναυ], [υτη], [ης_], [_ερ], [ργα], [αζε], [ετα], [αι_], [_στ], [τα_], [_κα], [αρα], [αβι], [ια.]. Ο χωρισμός ενός κειμένου σε ν-γράμματα περιλαμβάνει όλους τους γραμματικούς χαρακτήρες και τα σημεία στίξης. Η εξαγωγή τους γίνεται με μηχανικό τρόπο και δεν απαιτεί ιδιαίτερες γνώσεις γλωσσολογίας, επειδή δεν κάνουν χρήση κανόνων σχηματισμού γλωσσικών μονάδων. Όταν τα ν-γράμματα εξαχθούν μετράμε την συχνότητα εμφάνισή τους. Τα πλεονεκτήματα των ν-γραμμάτων: Υπολογίζονται εύκολα και γρήγορα. Είναι ανεξάρτητα από την γλώσσα γραφής. Μπορούν να συλλάβουν διάφορα χαρακτηριστικά του ύφους. Δεν επηρεάζονται από τα διάφορα ορθογραφικά λάθη. Για ιστορικούς λόγους μπορούμε να αναφέρουμε ότι οι επιστήμονες που ασχολούνται με την ανάλυση κειμένων, είχαν παλαιότερα την τάση να χρησιμοποιούν στα n-grams ελληνική ονοματολογία, όπως digram, trigram and tetragram. Το πλήθος των n-grams που θα συναντήσουμε σε ένα κείμενο εξαρτάται από το μέγεθος του κειμένου (πλήθος χαρακτήρων) και την τιμή του n. Είναι προφανές ότι τα 2-grams σε ένα κείμενο θα είναι λίγα συγκρινόμενα με τα 4-grams στο ίδιο κείμενο. 18

19 Συνέπεια αυτού είναι ότι τα ιστογράμματα για τα 4-grams να είναι πολύ μεγαλύτερα από τα αντίστοιχα για τα 2-grams. 3.2 Ερευνητική προσπάθεια μέχρι σήμερα Ο πρώτος που ασχολήθηκε με ακολουθίες γραμμάτων ήταν ο μαθηματικός Andrey Markov. Εστίασε στην κατανομή των φωνηέντων και συμφώνων στο έργο Evgenii Onegin (Markov, 1913). Στην απόδοση συγγραφικής πατρότητας τα ν-γράμματα χαρακτήρων εμφανίστηκαν γύρω στο 1970 σε μια μελέτη του Bennett (1976), ο οποίος ασχολήθηκε με τα 2-γράμματα. Στη συνέχεια και με αφορμή τα Ομοσπονδιακά Κείμενα των ΗΠΑ γίνονται διάφορες μελέτες από τους Kjell (1994), Forsyth & Holmes (1996), Juola (2004), Argamon & Juola (2011) που καθιερώνουν τα ν- γράμματα ως υφομετρικό χαρακτηριστικό στην αναγνώριση συγγραφέα. Έρευνες στην εξαγωγή ν-γραμμάτων μεταβλητού μήκους έχουν γίνει ακόμα από τους Houvardas & Stamatatos (2006). Συγκρίνουν κάθε ν-γράμμα χαρακτήρων με παρόμοια ν-γράμματα μικρότερου ή μεγαλύτερου μήκους και κρατούν αυτά με την πιο μεγάλη συνεκτικότητα. Αυτό έχει σαν αποτέλεσμα να δημιουργείται ένα διάνυσμα ν- γραμμάτων χαρακτήρων διαφορετικού μήκους που επιλέγονται με βάση την συνοχή σε σχέση με όλα τα παρόμοια ν-γράμματα που βρέθηκαν στα κείμενα εκπαίδευσης. Επίσης ο Stamatatos (2007) παρουσιάζει την κοινή μέθοδο ν-γραμμάτων η οποία βασίζεται στην εξαγωγή των προφίλ των συγγραφέων χρησιμοποιώντας διάφορες αποστάσεις (μέτρα ανομοιότητας). Τέλος ο Stamatatos (2009) ασχολείται με τη μελέτη διάφορων υφομετρικών χαρακτηριστικών που μπορούν να μετρηθούν σε ένα κείμενο και πως αυτά συμβάλουν στην ακριβή αναγνώριση συγγραφέα. 3.3 ΚΟΙΝΗ ΜΕΘΟΔΟΣ Ν-ΓΡΑΜΜΑΤΩΝ Η κοινή μέθοδος προσέγγισης ν-γραμμάτων (CNG), έχει δώσει τα πιο αξιόπιστα αποτελέσματα σε αναγνώριση συγγραφέα, (Stamatatos 2007). Βασίζεται στο προφίλ, δηλαδή στα ν-γράμματα που αποτελούνται από χαρακτήρες και παρουσιάζονται στο κείμενο με τη μεγαλύτερη συχνότητα. Ένα προφίλ Ρ είναι ένα σύνολο από ζευγάρια (L,f), όπου L τα πιο συχνά ν-γράμματα και f οι συχνότητες εμφάνισής τους, δηλαδή ( g, f ),( g, f ),...( g, f ) }. Κάθε φορά τα κείμενα ενός συγκεκριμένου συγγραφέα { L L ενώνονται σε ένα συνεχόμενο κείμενο από το οποίο εξάγεται το προφίλ του γραφέα. 19

20 Στη συνέχεια η ταξινόμιση γίνεται με βάση μια απόσταση (μέτρο ανομοιότητας), η οποία συγκρίνει το προφίλ του άγνωστου συγγραφέα με το προφίλ κάθε γνωστού συγγραφέα από το ενιαίου κείμενό του. Παρακάτω θα παρουσιαστούν οι πιο γνωστές αποστάσεις (distance measures) που έχουν χρησιμοποιηθεί σε εργασίες για ταυτοποίηση συγγραφέα Απόσταση d 0 (P(x),P(Ta)) Έχουμε ένα σύνολο Α από υποψήφιους συγγραφείς και T a είναι τα κείμενα του συγγραφέα προς εκπαίδευση. Για μία δεδομένη τιμή n και L θεωρούμε P(x) το προφίλ του κειμένου υπό δοκιμή και PT ( a) το προφίλ του συγγραφέα α, (α Α). Αν fx( g ) και ft a ( g ) είναι οι συχνότητες των ν-γραμμάτων του κειμένου υπό δοκιμή και του συγγραφέα α προς εκπαίδευση τότε η απόσταση d 0 (μέτρο ανομοιότητας dissimilarity measure) ανάμεσα στο P(x) και PT ( a) ορίζεται ως εξής: d 0 P( x), P( T ) 2( f ( g) f ( g)) Ta f ( g) f ( g) g P( x) P( Ta ) x Ta x 2 (1) Στην απλή έκδοση της απόστασης αυτής μεταξύ των profiles συγγραφέων α και x, λαμβάνουμε υπόψη όλα τα g, δηλαδή όλα τα n-grams, και αυτά που ανήκουν στον προς προσδιορισμό γραφέα x, και στον γνωστό α. Άρα, αν κάποια δεν ανήκουν στο profile του ενός ή του άλλου γραφέα (f(g)=0) τότε η απόσταση αυξάνει κατά 4 άσχετα με την συχνότητα εμφάνισης του n-gram. Αν και τα δύο υπάρχουν και είναι πολύ κοντά τότε λόγω της μικρής διαφοράς η ποσότητα μέσα στο άθροισμα είναι πολύ μικρή, και έτσι δεν συνεισφέρει καθόλου στην απόσταση. Θεωρούμε ότι μόνο όσα n-grams ανήκουν και στους δύο γραφείς πρέπει να λαμβάνονται υπόψη δεδομένου ότι για μικρά κείμενα τα προφίλ δεν είναι πλήρη και μπορεί να δημιουργηθεί πολύ μεγάλη διαφορά από τυχαία έλλειψη κάποιου n-gram. Στη συνέχεια επιλέγουμε ως περισσότερο συγγενή συγγραφέα στον x, αυτόν για τον οποίο η απόσταση d 0 είναι η μικρότερη Author(x)=arg min d 0 [P(x), P(T a )] 20

21 3.3.2 Απόσταση SPI (Simplified Profile Intersection) Πολύ συχνά, είναι διαθέσιμα πολλά κείμενα κατάρτισης για έναν υποψήφιο συγγραφέα, ενώ μόνο λίγα κείμενα για κάποιον άλλον. Στην περίπτωση αυτή, το προφίλ με το μεγαλύτερο μήκος για αυτόν το συγγραφέα (με τα λίγα κείμενα) θα είναι μικρότερο από τα υπόλοιπα. Για να αντιμετωπιστεί αυτό το πρόβλημα προτείνεται μία εναλλακτική απόσταση η SPI(SP(x),SP(Ta))= SP(x) SP(Ta). Η απόσταση αυτή λαμβάνει υπόψη το απλουστευμένο προφίλ SP= g 1, g 2,..., g L } ενός κειμένου. Η SPI μετράει μόνο το πλήθος των κοινών n-grams στο τεστ κείμενο στο προφίλ συγγραφέα. Δηλαδή δεν κάνει χρήση των πληροφοριών συχνότητας για κάθε ν-γράμμα. Ουσιαστικά πρόκειται για ένα μέτρο ομοιότητας αφού όσο μεγαλώνει η τιμή του τόσο είναι πιο πιθανό το κείμενο προς έλεγχο να αντιστοιχηθεί με αυτό του συγγραφέα a Συγγραφέας (x) που επιλέγεται = arg max SPI[SP(x), SP(T a )] (2) Το μέτρο αυτό πάσχει σε ένα σημείο: όταν υπάρχουν πολλά κείμενα κατάρτισης για έναν συγγραφέα και μόνο ένα ζευγάρι για όλα τα άλλα. Στην περίπτωση αυτή, για μεγάλες τιμές του L ο συγγραφέας με το μακρύ προφίλ θα είναι ο πιθανότερος συγγραφέας Απόσταση d 1 (P(x),P(Ta)) Με σκοπό να βελτιώσουμε την απόσταση d 0 της εξίσωσης (1) από τα μειονεκτήματα που περιγράφτηκαν εκεί, δίνεται στη συνέχεια μία νέα απόσταση ή μέτρο ανομοιότητας το d 1. d 1 P( x), P( T ) 2( f ( g) f ( g)) Ta f ( g) f ( g) g P( x) x Ta x 2 (3) Η απόσταση d 1, είναι μια απλή παραλλαγή της d 0 που λαμβάνει υπόψη μόνο τα ν- γραμμάτα που ανήκουν στο προφίλ του τεστ κειμένου δηλαδή στο P(x). Δεν είναι συμμετρική συνάρτηση σε αντίθεση με την d 0. Όλες οι αποστάσεις του προφίλ του τεστ κειμένου σε σχέση με τα προφίλ του κειμένου κατάρτισης υπολογίζονται με βάση τον ίδιο αριθμό όρων που είναι ίσος με το προκαθορισμένο μήκος προφίλ L (και υπάρχουν όλα στον συγγραφέα x, δηλαδή στο P(x)). 21

22 Σε περίπτωση όμως που το προφίλ ενός συγγραφέα είναι σύντομο δεν θα επηρεάσει την συνολική ακρίβεια της μεθόδου για μεγάλες τιμές του L. Μάλιστα, στην περίπτωση που το κείμενο δοκιμής είναι μεγαλύτερο από το κείμενο κατάρτισης του υποψήφιου συγγραφέα είναι πολύ μικρότερη η πιθανότητα να επιλεγεί, επειδή δεν θα συμπεριληφθούν τα περισσότερα ν-γράμματα από το προφίλ του τεστ κειμένου στο προφίλ αυτού του συγγραφέα, με αποτέλεσμα η απόσταση να αυξάνει αρκετά. Συνήθως όμως τα κείμενα κατάρτισης είναι αρκετά μεγαλύτερα από το κείμενο P(x) και έτσι τέτοιο πρόβλημα δεν μπορεί να εμφανιστεί Απόσταση d 2 (P(x),P(T a ),P(N)) Η απόσταση που παρουσιάζεται στη συνέχεια είναι επέκταση της προηγούμενης. Χρησιμοποιεί το ενιαίο προφίλ της corpus norm f N, δηλαδή το προφίλ που προκύπτει από τη συνένωση όλων των κειμένων των συγγραφέων που εκπαιδεύονται (training corpus norm). Έτσι, στην έκφραση της νέας απόστασης ενσωματώνεται και ένας όρος ο οποίος δείχνει την απόκλιση του προφίλ του κειμένου P(x) από το μέσο προφίλ (corpus norm) όπως φαίνεται στη συνέχεια 2 2 2( fx( g) ft ( g)) 2( f ( ) ( ) a x g fn g d2 P( x), P( T ), P( N). f ( g) f ( g) f ( g) f ( g) g P( x) x Ta x N (4) Στην έκφραση αυτή ο δεύτερος όρος μπορεί να θεωρηθεί ως ένας παράγοντας βάρους σε n-gram του προφίλ του αγνώστου συγγραφέα f x. Όσο πιο πολύ ένα n-gram g του P(x) αποκλίνει από την κανονική συχνότητα f N τόσο πιο πολύ συνεισφέρει στην τιμή της απόστασης. Αν η συχνότητα ενός n-gram είναι όση και του αντίστοιχου στο ενιαίο προφίλ δηλαδή f x (g)=f N (g), τότε το βάρος είναι μηδέν και το n-gram αυτό δεν συνεισφέρει στην απόσταση. Επιπρόσθετα η d 2, όπως και η d 1 είναι πιο σταθερές για μεγάλα L, σε σχέση με την d 0. 22

23 Συχνότητα εμφάνισης 3-gram 3.4. Μελέτη του τρόπου εμφάνισης των n-grams Συχνότητα εμφάνισης των n-grams στο κείμενο Στην Ενότητα αυτή σχολιάζουμε τις μετρήσεις που έγιναν σχετικά με την συχνότητα εμφάνισης των διαφόρων n-grams στο μεγάλο κείμενο των χαρακτήρων. Ουσιαστικά δημιουργήσαμε και μελετήσαμε ένα ενιαίο profile για το σύνολο των γραφέων το οποίο είναι απλά η κατανομή της συχνότητας εμφάνισης του συγκεκριμένου n-gram (corpus norm). Σχηματικά το profile αυτό θα έχει την μορφή του σχήματος 1* _το αι_ του 3-gram Σχήμα 1. Το ενιαίο profile σε 3-grams και των 10 γραφέων της βάσης μας. Αν για παράδειγμα εξετάζαμε τα 4-grams τότε κάποιο από αυτά θα ήταν το πλέον εμφανιζόμενο ενώ κάποια άλλα θα είχα συχνότητα εμφάνισης συνεχώς μειούμενη. Λόγω των πολλών συνδυασμών που είναι δυνατό να έχουμε με 4 χαρακτήρες, στους οποίους συμπεριλαμβάνονται σημεία στίξης, κενά κλπ, είναι δύσκολο να ελεγχθεί σε ένα κείμενο τόσο μεγάλο ο τρόπος εμφάνισης όλων αυτών των n-grams. Υπολογιστικά όμως αυτό είναι εφικτό ακόμα και να γνωρίζουμε τα ίδια τα n-γράμματα. Στον Πίνακα 2 παρουσιάζεται η συχνότητα των διαφόρων n-grams στο κείμενο των χαρακτήρων. Ακολουθούν σχόλια με βάση τον Πίνακα αυτόν. 23

24 Πίνακας 2. Συχνότητα εμφάνισης των διαφόρων n-grams στο μεγάλο κείμενο των χαρακτήρων n-gram 3-gram 4gram 5-gram 1 ο ο ο ο ο ο ο ο ο ο Σχόλια για την συχνότητα εμφάνισης Από τον Πίνακα 2 παρατηρούμε ότι ένα n-gram το οποίο εμφανίζεται σε ένα κείμενο των χαρακτήρων 2500 φορές στα μικρά κείμενα των 5800 χαρακτήρων τα οποία είναι 100 φορες μικρότερα, θα εμφανιστεί αναλογικά 25 φορές. Επομένως κάποιο n-gram το οποίο εμφανίζεται 100 φορές στο μεγάλο κείμενο θα εμφανιστεί 1 φορά στο μικρό κείμενο. Η μία αυτή εμφάνιση είναι οριακά αποδεκτή στατιστικά για να μπορέσει να εκπροσωπήσει το n-gram αυτό τον συγκεκριμένο γραφέα μέσα από το μικρό του κείμενο. Έτσι η τάξη μεγέθους του πλήθους των χρησιμοποιούμενων n-gram που φτάνουν την επιτυχία ταξινόμησης στο μέγιστο είναι περίπου Αυτό είναι εμφανές από τους πίνακες 1 ως 5 καθώς και από τους πίνακες του Παραρτήματος Α. Πρέπει να σημειωθεί ότι το πλήθος των n-grams είναι πολύ μεγάλο δεδομένου ότι στο σχηματισμό τους εκτός από τα γράμματα και τους αριθμούς, συμμετέχουν και τα κενά και τα σημεία στίξης. Για να μπορέσουμε να έχουμε μια εικόνα του πλήθους των 4- grams που υπάρχουν στο προ αναφερθέν μεγάλο κείμενο των χαρακτήρων αξιολογήσαμε την συχνότητα εμφάνισης των 4-grams στο κείμενο αυτό, μελετώντας το αντίστοιχο ιστόγραμμα του σχήματος 1* και κυρίως την συσσωρευτική συνάρτηση. Έτσι λάβαμε τις επόμενες μετρήσεις που φαίνονται στον πίνακα 3. 24

25 Πίνακας 3. Συσωρευτική συχνότητα εμφάνισης των 4-grams στο μεγάλο κείμενο των χαρακτήρων. Πλήθος L Συσωρευτική Συχνότητα f Από τον πίνακά 3 είναι προφανές ότι τα 500 πιο συχνά 4-grams έχουν συσσωρευτική πιθανότητα Πρέπει να πάρουμε περίπου 3000 για να φτάσουμε στο διπλάσιο. Είναι φανερό ότι πρέπει να λάβουμε πάνω από grams για να έχουμε άθροισμα 1. Στη συνέχεια παρουσιάζονται μετρήσεις της συχνότητας εμφάνισης των 4-grams στο προφίλ των δέκα κειμένων του πρώτου συγγραφέα (Bitros), καθώς και των υπολοίπων συγγραφέων. Πίνακας 4. Συχνότητα εμφάνισης 4-grams στα 10 κείμενα του 1 ου συγγραφέα και όλων. Πλήθος L Συχνότητα f 1 ου γραφέα Συχνότητα f όλων

26 Πίνακας 5. Συχνότητα εμφάνισης 4-grams στα 100 κείμενα. Πλήθος L Συχνότητα f Από τις μετρήσεις παρατηρήθηκε ότι στα grams οι τρεις γραφείς τα περιέχουν όλα, στα οι τέσσερις, στα οι πέντε, στα οι έξι, στα οι εφτά και στα τα περιέχουν όλοι οι γραφείς. 26

27 ΚΕΦΑΛΑΙΟ 4 Πειραματικά Αποτελέσματα 4.1. Σχόλια στις αποστάσεις Διαθέτουμε μια βάση δεδομένων δέκα γραφέων, με δέκα ηλεκτρονικά κείμενα ο καθένας. Συνολικά εκατό κείμενα. Κάθε κείμενο είναι περίπου 5000 χαρακτήρες. Επιπλέον διαθέτουμε ένα μεγάλο κείμενο των χαρακτήρων για τον κάθε έναν από τους γραφείς αυτούς. Χρησιμοποιώντας την μέθοδο ν-γραμμάτων (n-grams), εκπαιδεύουμε έναν αλγόριθμο και υπολογίζουμε τις αποστάσεις κάθε μικρού κειμένου (test) από τα δέκα μεγάλα κείμενα, των (train) περίπου χαρακτήρων το καθένα, του κάθε γραφέα. Η διαδικασία αυτή έχει σαν αποτέλεσμα να εξάγουμε χίλιες αποστάσεις για τα 2-grams, 3-grams, 4-grams, 5-grams και 6-grams αντίστοιχα. Η απόσταση την οποία επιλέξαμε για να κάνουμε τις μετρήσεις δίνεται από τον τύπο: 2 2 2( fx( g) ft ( g)) 2( f ( ) ( ) a x g fn g d2 P( x), P( T ), P( N). f ( g) f ( g) f ( g) f ( g) g P( x) x Ta x N (4) Στις μετρήσεις τις οποίες κάναμε τοποθετήσαμε τις αποστάσεις ανά δέκα δεκάδες (όσοι και οι γραφείς) για κάθε ν-γράμμα. Κάθε δεκάδα αποτελείται από 10 γραμμές και 10 στήλες. Οι γραμμές δηλώνουν τον αριθμό του κειμένου από τα 100 κάθε φορά και οι στήλες τον γραφέα από τους 10. Η μικρότερη τιμή της απόστασης είναι και η σωστή αναγνώριση συγγραφέα. Πίνακας 6. Παρακάτω όπως φαίνεται επιλέξαμε να σχολιάσουμε την πρώτη δεκάδα από τα 2-grams Παρατηρούμε ότι η πρώτη γραμμή, μας δείχνει ότι το πρώτο μικρό κείμενο του πρώτου γραφέα αναγνωρίζεται σωστά. Η ελάχιστη τιμή της απόστασης είναι 0.25 και βρίσκεται στην πρώτη γραμμή και πρώτη στήλη. Η διαφορά της μικρότερης απόστασης (0.25) 27

28 από την αμέσως πιο μικρή (0.2614) είναι περίπου Άρα με αυτό το βάθος αναγνώρισε ότι είναι ο πρώτος γραφέας και όχι ο ένατος. Επομένως από τα δέκα κείμενα μόνο τα έξι αποδίδονται σωστά στον πρώτο γραφέα, με βάθος από 0.01 ως 0.03 εκατοστά. Τα άλλα τέσσερα κείμενα δεν αναγνωρίζονται. Στην δεύτερη γραμμή η τιμή της ελάχιστης απόστασης βρίσκεται στην όγδοη θέση με τιμή Η διαφορά της από την αμέσως πιο μικρή είναι χιλιοστά. Με τον ίδιο τρόπο γίνονται οι συγκρίσεις των υπόλοιπων δεκάδων για όλα τα ν- γράμματα. Το σύνολο των αποτελεσμάτων δίνονται στο παράρτημα Α. Εκεί φαίνεται ότι η επιτυχία των 2-grams είναι 75% (75 από τα 100 κείμενα αναγνωρίστηκαν σωστά), των 3-grams 73%, των 4-grams 82%, των 5-grams 74% και των και των 6-grams 76%. Άρα τα 4-grams δίνουν το καλύτερο δυνατό αποτέλεσμα και ακολουθούν τα 6-grams. Τα πιο αδύναμα φαίνονται να είναι τα 3-grams και σε μία κανονική κατάσταση τα 2 και 5-grams. Πως θα φτάσουμε σε αυτή την περίπτωση στη σωστή απόφαση; 28

29 4.2. Majority voting Το majority voting είναι ένας κανόνας απόφασης. Χρησιμοποιείται όταν έχουμε να αποφασίσουμε για κάποιο θέμα και υπάρχουν πολλές εναλλακτικές διαδρομές. Τότε πάμε στην διαδρομή που ψηφίζουν οι περισσότεροι. Στην συγκεκριμένη περίπτωση έχουμε πέντε χαρακτηριστικά (τα grams), με τα οποία θα επιλέξουμε σε ποιο γραφέα ανήκουν τα κείμενα. Κρίθηκε σκόπιμο να ελέγξουμε αν ο συνδυασμός των αποφάσεων που προκύπτουν ξεχωριστά από τα χαρακτηριστικά αυτά θα μπορούσε να βελτιώσει το ποσοστό επιτυχίας. Για παράδειγμα 2 συνδυασμοί αποφασίζουν ότι το κείμενο ανήκει στον πρώτο γραφέα, 2 συνδυασμοί στον δεύτερο και ένας συνδυασμός στον ένατο γραφέα. Με την βοήθεια του λογισμικού matlab και του αλγορίθμου του majority voting δημιουργήθηκε ένα πρόγραμμα που συνδυάζει τις αποφάσεις από τα ν-γράμματα για να αναγνωρίσουμε σε ποιόν από τους δέκα γραφείς ανήκουν τα εκατό κείμενα. Όταν χρησιμοποιήσαμε όλα τα ν-γράμματα το ποσοστό επιτυχίας ήταν 81%. Στην συνέχεια επιχειρήσαμε να αφήνουμε κάθε φορά ένα ν-γράμμα εκτός. Τα αποτελέσματα που πήραμε ήταν: ο συνδυασμός των grams δίνει 80% επιτυχία, ο συνδυασμός των grams δίνει 82%, ο συνδυασμός των grams δίνει 74%, ο συνδυασμός των grams δίνει 78%, ο συνδυασμός των grams δίνει 75%. Από τα ποσοστά επιτυχίας φαίνεται ότι στην καλύτερη απόδοση συγγραφέα συμβάλουν τα 4-grams. Όταν αυτά μένουν εκτός τότε αυτόματα το ποσοστό από 80% πέφτει στο 74%. Εδώ πρέπει να διερωτηθούμε αν τελικά συμφέρει το majority voting αφού από μόνα τους τα 4-grams δίνουν καλύτερο αποτέλεσμα. Όταν οι αποστάσεις του παραρτήματος Α τροποποιηθούν ώστε από κάθε μέλος μιας δεκάδας αφαιρεθεί η ελάχιστη απόσταση (minimum) και η διαφορά διαιρεθεί με την ελάχιστη (σχέση xi x x min min ), τότε οι νέες κανονικοποιημένες προστίθονται κατά αντιστοιχία. Τα αποτελέσματα που πήραμε σε αυτή την περίπτωση έχουν ως ακολούθως: 29

30 Πίνακας 7. Majority voting n-grams Επιτυχία% όλα 78 3,4,5,6 77 2,4,5,6 80 2,3,5,6 78 2,3,4,6 80 2,3,4,5 78 4,5,6 78 3,5,6 77 3,4,6 80 3,4,5 77 2,4,6 80 2,4,5 80 2,3,6 78 2,3,5 77 2,3,4 77 2,3 76 2,4 78 2,5 78 2,6 80 3,4 77 3,5 75 3,6 75 4,5 76 4,6 80 5,

31 4.3 Αξιολόγηση των 3-grams χρησιμοποιώντας διάφορες αποστάσεις Ένα σοβαρό ερώτημα στη χρήση των n-grams είναι: ποιο είναι το μέγιστο πλήθος των συγκεκριμένων n-grams στην αναγνώριση το οποίο επαρκεί, ή αλλιώς από πού και πάνω τα n-grams δεν χρειάζονται. Στην ενότητα αυτή δοκιμάσαμε την επιτυχία των 3- grams με διάφορες αποστάσεις. Είναι προφανές ότι περίπου grams επαρκούν για να δώσουν την μέγιστη επιτυχία σε αναγνώριση για όλες τις αποστάσεις. Ακολουθούν στους επόμενους πίνακες τα σχετικά αποτελέσματα. Πίνακας 8. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1n. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy Πίνακας 9. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3- grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d0. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy 31

32 Πίνακας 10. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy Πίνακας 11. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d2. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy 32

33 Πίνακας 12. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 3-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η SPI. Είναι εμφανές ότι η μέγιστη επιτυχία επιτυγχάνεται για L=900. L Accuracy Πίνακας 13. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1n. L Accuracy

34 Πίνακας 14. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d0. L Accuracy Πίνακας 15. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d2. L Accuracy Πίνακας 16. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η d1. L Accuracy

35 Πίνακας 17. Επιτυχία αναγνώρισης των 100 κειμένων με συγκεκριμένο πλήθος L από 4-grams. Η απόσταση που χρησιμοποιήθηκε ήταν η SPI. L Accuracy Τρόπος συν-εμφάνισης των 4grams. Κάναμε μια αναλυτική μελέτη της εμφάνισης των 4-grams στο προφίλ του corpus norm και των δέκα μεγάλων προφίλ των δέκα γραφέων (train text). Σχολιάζουμε την εμφάνιση των 4-grams στα μικρά κείμενα ελέγχου (test). Κοιτάμε την κοινή εμφάνιση με τα μεγάλα κείμενα εκπαίδευσης και διερευνάμε τον τρόπο σχηματισμού των αποστάσεων. Τα 4-grams του corpus norm είναι Τα 4-grams των profiles των 10 μεγάλων αρχείων είναι αρκετά λιγότερα και διαφορετικά. Το πλήθος για κάθε έναν από τα 10 μεγάλα κείμενα είναι περίπου Άρα, κάθε ένα από αυτά τα 10 profiles είναι υποσύνολο του profile του corpus norm. Στον Πίνακα 18 φαίνεται το πλήθος των κοινών 4-grams στα profiles των 10 μεγάλων κειμένων. Στην διαγώνιο είναι το πλήθος των 4-grams κάθε ενός από τα δέκα μεγάλα κείμενα (με τον εαυτό του). Παρατηρούμε ακόμα ενώ το πλήθος των 4-grams που έχει το κείμενο κάθε γραφέα με τον εαυτό του είναι κατά μέσο όρο 15000, στα υπόλοιπα κείμενα πέφτουν στο μισό. Τα κοινά 4-grams για όλα τα 10 μεγάλα profiles είναι Στο τέλος του κεφαλαίου δίνεται το πρόγραμμα που κάνει τους υπολογισμούς αυτούς. Καθώς επίσης και υλοποιεί όλες τις αποστάσεις ή μέτρα ομοιότητας που δίνονται στη συνέχεια. Το πρόγραμμα περιέχει όλα τα απαραίτητα σχόλια για την κατανόηση του. 35

36 Πίνακας 18 Περιέχει τα κοινά 4-grams των 10 μεγάλων κειμένων ανά δύο. Είναι προφανές ότι στη διαγώνιο έχουμε τα 4-grams κάθε μεγάλου κειμένου. Τα κοινά είναι περίπου τα μισά στο πλήθος από αυτά κάθε κειμένου Μία άλλη μελέτη που έγινε στην προσπάθεια να μελετηθούν οι κοινές εμφανίσεις των 4grams σε όλα τα διαθέσιμα κείμενα δηλαδή και στα 100 επιπλέον μικρά κείμενα που θα χρησιμοποιηθούν για test, έδειξε ότι ελάχιστα από αυτά υπάρχουν τόσο στο corpus norm, στα 10 μεγάλα και τα 100 μικρά. Μόνο 22 από 4grams ευρίσκονται σε όλα τα κείμενα. Το γεγονός αυτό αφήνει σοβαρά ερωτηματικά για την δυνατότητα που έχουμε με την χρήση αυτών να κάνουμε ταυτοποίηση γραφέα. Βέβαια, πρέπει να λάβουμε υπόψη μας ότι τα 100 μικρά κείμενα δεν έχουν σχέση με το corpus norm και τα 10 μεγάλα κείμενα διότι ενώ προέρχονται από τους ίδιους γραφείς τα κείμενα αυτά είναι διαφορετικά από τα 10 μεγάλα. Στη συνέχεια θα μελετήσουμε διάφορα είδη αποστάσεων μεταξύ των 10 μεγάλων κειμένων απλά για να μπορέσουμε να τις αξιολογήσουμε. Η πρώτη απόσταση που θεωρήσαμε παρουσιάζεται στον Πίνακα 19, όπου δίνεται το άθροισμα των πιθανοτήτων των profiles ανά δύο, και μόνο εκεί όπου υπάρχει κοινό 4gram. Ουσιαστικά δεν πρόκειται για απόσταση αλλά για μέτρο ομοιότητας αφού όσο πιο μεγάλο είναι τόσο πιο πολύ μοιάζουν τα δύο profiles άρα τα δύο κείμενα. Στην διαγώνιο δίνεται η ομοιότητα κάθε ενός από τα 10 profiles με τον εαυτόν του. 36

37 Πίνακας 19. Μέτρο ομοιότητας των profiles. Άθροισμα των πιθανοτήτων ίδιων (κοινών) n-grams. Στην διαγώνιο δίνεται η ομοιότητα κάθε ενός από τα 10 profiles με τον εαυτόν του Στη συνέχεια δημιουργούμε ένα άλλο μέτρο ομοιότητας για να συγκρίνουμε τα 10 profiles. Το μέτρο αυτό περιλαμβάνει το άθροισμα των γινομένων των πιθανοτήτων των αντίστοιχων 4-grams. Έτσι αναμένεται (βλέπε Πίνακα 20) δύο profiles να είναι όμοια όταν έχουν πολλά κοινά 4-grams και ταυτόχρονα οι πιθανότητες για το ίδιο 4- gram να είναι όσο το δυνατό κοντά. Πίνακας 20. Γινόμενο πιθανοτήτων των αντίστοιχων 4-grams για όλους τους συνδυασμούς των 10 μεγάλων profiles Ένας άλλος τρόπος σύγκρισης των 10 μεγάλων profiles είναι να δημιουργήσουμε ένα μέτρο διαφοράς δηλαδή απόσταση. Τα αποτελέσματα δίνονται στον Πίνακα 21. Στην πράξη λαμβάνουμε τη διαφορά των πιθανοτήτων των αντίστοιχων 4-grams. Όσο η διαφορά είναι μικρότερη τόσο πιο όμοια είναι τα profiles. Θα μπορούσε βέβαια η μικρή απόσταση να βγαίνει αν τα κοινά n-grams είναι λίγα στον αριθμό. 37

Δείτε περισσότερα